このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230428となっている論文です。

PDF登録状況(公開日: 20230428)

TitleAuthorsAbstract論文公表日・翻訳日
# ALMERIA: スケーラブルな手法によるペアワイズ分子コントラストの増強

ALMERIA: Boosting pairwise molecular contrasts with scalable methods ( http://arxiv.org/abs/2305.13254v1 )

ライセンス: Link先を確認
Rafael Mena-Yedra, Juana L. Redondo, Horacio P\'erez-S\'anchez, Pilar M. Ortigosa(参考訳) 大規模データベースにおける潜在的活性化合物の探索は、現代の薬物発見パイプラインの時間とコストを削減するための必要なステップである。 このような仮想スクリーニング手法は、探索空間を狭めるような予測を提供する。 cheminformaticsは利用可能なビッグデータの可能性を活用するために大きな進歩を遂げているが、バイアスの導入を避け、新しい化合物で有用な予測を提供するために注意が必要である。 本研究では,コンフォメーション変動を考慮した分子コントラストに基づく複合的類似性と活動予測を推定するための意思決定支援ツールalmeria(advanced ligand multiconformational exploration with robust interpretable artificial intelligence)を提案する。 この方法論は、データ準備からモデル選択、ハイパーパラメータ最適化まで、パイプライン全体をカバーする。 スケーラブルなソフトウェアとメソッドを使って、数テラバイトのオーダーで、大量のデータを利用するように実装されている。 実装と実験は、ベンチマークであるパブリックアクセスDUD-Eデータベースを用いて分散コンピュータクラスタで実施されている。 クロスバリデーションに加えて、異なるデータパーティションのモデルを評価するために詳細なデータ分割基準を使用して、それらの真の一般化能力を新しい化合物で評価している。 実験では、分子活性予測(ROC AUC: $0.99$, $0.96$, $0.87$)の最先端性能を示し、選択したデータ表現とモデリングが一般化する良い性質を持つことを示した。 分子コンフォメーション(予測性能と感度解析)も評価されている。 最後に,SHAP法を用いて解釈可能性解析を行った。

Searching for potential active compounds in large databases is a necessary step to reduce time and costs in modern drug discovery pipelines. Such virtual screening methods seek to provide predictions that allow the search space to be narrowed down. Although cheminformatics has made great progress in exploiting the potential of available big data, caution is needed to avoid introducing bias and provide useful predictions with new compounds. In this work, we propose the decision-support tool ALMERIA (Advanced Ligand Multiconformational Exploration with Robust Interpretable Artificial Intelligence) for estimating compound similarities and activity prediction based on pairwise molecular contrasts while considering their conformation variability. The methodology covers the entire pipeline from data preparation to model selection and hyperparameter optimization. It has been implemented using scalable software and methods to exploit large volumes of data -- in the order of several terabytes -- , offering a very quick response even for a large batch of queries. The implementation and experiments have been performed in a distributed computer cluster using a benchmark, the public access DUD-E database. In addition to cross-validation, detailed data split criteria have been used to evaluate the models on different data partitions to assess their true generalization ability with new compounds. Experiments show state-of-the-art performance for molecular activity prediction (ROC AUC: $0.99$, $0.96$, $0.87$), proving that the chosen data representation and modeling have good properties to generalize. Molecular conformations -- prediction performance and sensitivity analysis -- have also been evaluated. Finally, an interpretability analysis has been performed using the SHAP method.
翻訳日:2023-05-28 05:21:39 公開日:2023-04-28
# Raidionics: 術前および術後の中枢神経系腫瘍分節と標準化報告のためのオープンソフトウェア

Raidionics: an open software for pre- and postoperative central nervous system tumor segmentation and standardized reporting ( http://arxiv.org/abs/2305.14351v1 )

ライセンス: Link先を確認
David Bouget, Demah Alsinan, Valeria Gaitan, Ragnhild Holden Helland, Andr\'e Pedersen, Ole Solheim and Ingerid Reinertsen(参考訳) 中枢神経系腫瘍患者に対しては、mri(mri)スキャン群の解析から、予後推定、治療決定、術後評価を行う。 現在、標準化および自動腫瘍分割のためのオープンツールの欠如と、関連する腫瘍の特徴を取り入れた臨床報告の生成は、固有の決定の主観性から潜在的リスクをもたらす。 この問題に対処するために、ユーザフレンドリーなグラフィカルユーザインターフェースと安定した処理バックエンドを提供する、raidionicsオープンソースソフトウェアが開発された。 このソフトウェアは、最も一般的な腫瘍の種類(グリオ芽腫、下等度グリオーマ、髄膜腫、転移など)のそれぞれに対する術前のセグメンテーションモデルと、術後早期のグリオ芽腫セグメンテーションモデルを含む。 術前のセグメンテーション成績は4つの異なる脳腫瘍タイプでほぼ均一であり,平均diceは85%,患者側のリコールと精度は95%であった。 術後成績は平均41%と低かった。 全体として、腫瘍のセグメンテーションや特徴計算を含む標準化された臨床報告の生成には、通常のラップトップで約10分を要する。 提案されたRaidionicsソフトウェアは、術前および術後の標準化報告を含むすべての主要な腫瘍タイプに対して最先端のセグメンテーションモデルを簡単に利用できる最初のオープンソリューションである。

For patients suffering from central nervous system tumors, prognosis estimation, treatment decisions, and postoperative assessments are made from the analysis of a set of magnetic resonance (MR) scans. Currently, the lack of open tools for standardized and automatic tumor segmentation and generation of clinical reports, incorporating relevant tumor characteristics, leads to potential risks from inherent decisions' subjectivity. To tackle this problem, the proposed Raidionics open-source software has been developed, offering both a user-friendly graphical user interface and stable processing backend. The software includes preoperative segmentation models for each of the most common tumor types (i.e., glioblastomas, lower grade gliomas, meningiomas, and metastases), together with one early postoperative glioblastoma segmentation model. Preoperative segmentation performances were quite homogeneous across the four different brain tumor types, with an average Dice around 85% and patient-wise recall and precision around 95%. Postoperatively, performances were lower with an average Dice of 41%. Overall, the generation of a standardized clinical report, including the tumor segmentation and features computation, requires about ten minutes on a regular laptop. The proposed Raidionics software is the first open solution enabling an easy use of state-of-the-art segmentation models for all major tumor types, including preoperative and postsurgical standardized reports.
翻訳日:2023-05-28 05:00:41 公開日:2023-04-28
# 時間的CBCTデータセットを用いた下顎管の自動深層学習の再現性解析

Reproducibility analysis of automated deep learning based localisation of mandibular canals on a temporal CBCT dataset ( http://arxiv.org/abs/2305.14385v1 )

ライセンス: Link先を確認
Jorma J\"arnstedt, Jaakko Sahlsten, Joel Jaskari, Kimmo Kaski, Helena Mehtonen, Ari Hietanen, Osku Sundqvist, Vesa Varjonen, Vesa Mattila, Sangsom Prapayasotok, Sakarat Nalampang(参考訳) 下顎管の術前診断は顎顔面手術に不可欠である。 本研究は, 深層学習システム(DLS)の再現性について, 165個の異種コーンビームCT(CBCT)スキャンの局所化性能を, 経験豊富な放射線技師のアノテーションと比較して評価した。 我々は,DLSの性能を,対称平均曲線距離(SMCD),平均対称表面距離(ASSD),Dice類似係数(DSC)を用いて評価した。 smcdの再現性はリピート率のイントラサブジェクト係数(rc)を用いて評価した。 他の3人の専門家は0-4likertスケールで診断の妥当性を2度評価した。 再現性尺度 (RM) を用いて, Likert スコアの再現性を評価した。 SMCDのRCは0.969mm、SMCDとASSDはそれぞれ0.643mm(0.186)、0.351mm(0.135)、DSCの平均(標準偏差)は0.548(0.138)であった。 DLSの成績は術後変化に最も影響した。 LikertスコアのRMは放射線学者が0.923、DLSが0.877であった。 標準偏差)likertスコアは放射線科医が3.94 (0.27)、dlsが3.84 (0.65) であった。 DLSは有能な質的,定量的再現性,時間的一般化性,臨床的妥当性を示した。

Preoperative radiological identification of mandibular canals is essential for maxillofacial surgery. This study demonstrates the reproducibility of a deep learning system (DLS) by evaluating its localisation performance on 165 heterogeneous cone beam computed tomography (CBCT) scans from 72 patients in comparison to an experienced radiologist's annotations. We evaluated the performance of the DLS using the symmetric mean curve distance (SMCD), the average symmetric surface distance (ASSD), and the Dice similarity coefficient (DSC). The reproducibility of the SMCD was assessed using the within-subject coefficient of repeatability (RC). Three other experts rated the diagnostic validity twice using a 0-4 Likert scale. The reproducibility of the Likert scoring was assessed using the repeatability measure (RM). The RC of SMCD was 0.969 mm, the median (interquartile range) SMCD and ASSD were 0.643 (0.186) mm and 0.351 (0.135) mm, respectively, and the mean (standard deviation) DSC was 0.548 (0.138). The DLS performance was most affected by postoperative changes. The RM of the Likert scoring was 0.923 for the radiologist and 0.877 for the DLS. The mean (standard deviation) Likert score was 3.94 (0.27) for the radiologist and 3.84 (0.65) for the DLS. The DLS demonstrated proficient qualitative and quantitative reproducibility, temporal generalisability, and clinical validity.
翻訳日:2023-05-28 04:52:44 公開日:2023-04-28
# 機械学習による遷移金属の近接x線回折位相の同定

Machine learning-assisted close-set X-ray diffraction phase identification of transition metals ( http://arxiv.org/abs/2305.15410v1 )

ライセンス: Link先を確認
Maksim Zhdanov, Andrey Zhdanov(参考訳) 機械学習はX線回折位相予測問題と有望な結果に応用されている。 本稿では,遷移金属とその酸化物のx線回折データから,機械学習を用いて結晶構造相を予測する方法を提案する。 提案手法の性能を評価し,各種設定の比較を行った。 この結果から,提案する機械学習フレームワークが競合性能を実現することを示す。 このことは、機械学習がX線回折と結晶構造決定の分野に大きな影響を与える可能性を示している。 オープンソース実装:https://github.com/maxnygma/NeuralXRD。

Machine learning has been applied to the problem of X-ray diffraction phase prediction with promising results. In this paper, we describe a method for using machine learning to predict crystal structure phases from X-ray diffraction data of transition metals and their oxides. We evaluate the performance of our method and compare the variety of its settings. Our results demonstrate that the proposed machine learning framework achieves competitive performance. This demonstrates the potential for machine learning to significantly impact the field of X-ray diffraction and crystal structure determination. Open-source implementation: https://github.com/maxnygma/NeuralXRD.
翻訳日:2023-05-28 04:40:01 公開日:2023-04-28
# モーメント法による軌道回収に先立つ深層ニューラルネットワーク

Deep Neural-network Prior for Orbit Recovery from Method of Moments ( http://arxiv.org/abs/2304.14604v1 )

ライセンス: Link先を確認
Yuehaw Khoo, Sounak Paul and Nir Sharon(参考訳) 軌道回復問題 (Orbit recovery problem) は、実際や様々な形態でしばしば発生する問題の類である。 これらの問題において、群作用によって歪んだ後に未知の関数を推定し、既知の演算子を通して観測することを目的とする。 通常、観測は非自明なレベルのノイズで汚染される。 本稿では,多参照アライメントと単一粒子Creo-EMモデリングの2つの問題について述べる。 雑音を抑制するために,深層ニューラルネットワークを優先的に導入しながら,モーメント法を両問題に適用することを提案する。 特に、私たちのニューラルネットワークは、モーメントを入力として、信号とグループ要素の分布を出力すべきです。 マルチ参照アライメントの場合、モーメントからの信号の再構成の収束を加速するためにNNを使用する利点を実証する。 最後に,本手法を用いてcryo-em設定におけるシミュレーションおよび生物体積の再構成を行う。

Orbit recovery problems are a class of problems that often arise in practice and in various forms. In these problems, we aim to estimate an unknown function after being distorted by a group action and observed via a known operator. Typically, the observations are contaminated with a non-trivial level of noise. Two particular orbit recovery problems of interest in this paper are multireference alignment and single-particle cryo-EM modeling. In order to suppress the noise, we suggest using the method of moments approach for both problems while introducing deep neural network priors. In particular, our neural networks should output the signals and the distribution of group elements, with moments being the input. In the multireference alignment case, we demonstrate the advantage of using the NN to accelerate the convergence for the reconstruction of signals from the moments. Finally, we use our method to reconstruct simulated and biological volumes in the cryo-EM setting.
翻訳日:2023-05-21 11:16:37 公開日:2023-04-28
# FAENet:材料モデリングのためのフレーム平均等価GNN

FAENet: Frame Averaging Equivariant GNN for Materials Modeling ( http://arxiv.org/abs/2305.05577v1 )

ライセンス: Link先を確認
Alexandre Duval, Victor Schmidt, Alex Hernandez Garcia, Santiago Miret, Fragkiskos D. Malliaros, Yoshua Bengio, David Rolnick(参考訳) 材料モデリングへの機械学習技術の応用は、典型的には特定の対称性に同変あるいは不変であることが知られている関数を含む。 グラフニューラルネットワーク(GNN)はそのようなタスクで成功したが、モデルアーキテクチャを通じて対称性を強制し、表現性、スケーラビリティ、理解性を低下させる。 本稿では,(1)確率的フレーム・アラグリング(SFA)に依存したフレキシブルなフレームワークを導入し,データ変換による任意のモデルE(3)-同変や不変性を実現する。 2) FAENet: SFAに最適化されたシンプルで高速で表現力のあるGNN。 OC20データセット(S2EF, IS2RE)と共通分子モデリングタスク(QM9, QM7-X)の材料モデリングにおいて, 提案手法の有効性を理論的および実験的に証明した。 パッケージ実装はhttps://faenet.readthedocs.ioで利用可能である。

Applications of machine learning techniques for materials modeling typically involve functions known to be equivariant or invariant to specific symmetries. While graph neural networks (GNNs) have proven successful in such tasks, they enforce symmetries via the model architecture, which often reduces their expressivity, scalability and comprehensibility. In this paper, we introduce (1) a flexible framework relying on stochastic frame-averaging (SFA) to make any model E(3)-equivariant or invariant through data transformations. (2) FAENet: a simple, fast and expressive GNN, optimized for SFA, that processes geometric information without any symmetrypreserving design constraints. We prove the validity of our method theoretically and empirically demonstrate its superior accuracy and computational scalability in materials modeling on the OC20 dataset (S2EF, IS2RE) as well as common molecular modeling tasks (QM9, QM7-X). A package implementation is available at https://faenet.readthedocs.io.
翻訳日:2023-05-14 20:56:37 公開日:2023-04-28
# 緩やかな混合過程の一般化

Generalization for slowly mixing processes ( http://arxiv.org/abs/2305.00977v1 )

ライセンス: Link先を確認
Andreas Maurer(参考訳) 固定的およびフィミキシングプロセスによって生成されるデータに対して、様々な損失クラス上の有界なユニフォームが与えられ、混合時間(近似独立を得るのに必要な時間)が加法的にのみサンプル複雑性に入る。 緩やかな混合プロセスの場合、これは混合時間に乗法的に依存する結果よりもかなり有利である。 許容損失クラスは、所定のリプシッツノルムあるいは滑らか度パラメータを持つ関数を含む。 境界は、サンプルパス上の関数の局所リプシッツの性質に依存する、制約のない損失クラスに対して均一に適用することもできる。

A bound uniform over various loss-classes is given for data generated by stationary and phi-mixing processes, where the mixing time (the time needed to obtain approximate independence) enters the sample complexity only in an additive way. For slowly mixing processes this can be a considerable advantage over results with multiplicative dependence on the mixing time. The admissible loss-classes include functions with prescribed Lipschitz norms or smoothness parameters. The bound can also be applied to be uniform over unconstrained loss-classes, where it depends on local Lipschitz properties of the function on the sample path.
翻訳日:2023-05-03 16:39:53 公開日:2023-04-28
# 量子力学における絡み合いの説明

The Explanation of Entanglement in Quantum Mechanics ( http://arxiv.org/abs/2305.01525v1 )

ライセンス: Link先を確認
H S Perlman(参考訳) 量子力学は熱力学と同様に、現象論的理論、すなわち因果論ではなく(統計理論であるからではなく、原因となる確率分布を持つ統計理論は因果論と見なすことができる)、純粋な状態、すなわち測定値の確率分布は素粒子に悪影響を及ぼすことができず、したがって世界管が交差するときに変化しないため、因果論は因果論とはみなせない。 因果理論は、その領域における因果的に相互作用する実体の状態の時間の変化を特定する理論を意味する。 因果相互作用が関係する量子力学の領域は、明示的には測定されていないが、従ってボルン則、そして明確には状態のユニタリなシュロディンガー時間発展を含む。 ボルン則確率は、固有状態の共役重ね合わせではなく、互いに排他的な固有値の古典的な混合とシュロディンガー状態の時間発展を指して示され、非因果相互作用する素粒子の状態の時間発展を指し、従って因果時間発展方程式とはみなすことができない。 量子力学は因果論ではなく、熱力学のような現象論的理論は予測の計算方法に影響を与えず、従ってその経験的成功を保っているが、典型的には単純な現象論的理論で絡み合いや他の明らかに局所的な現象を説明できる。

It is shown that quantum mechanics is, like thermodynamics, a phenomenological theory i.e., not a causal theory, ( not because it is a statistical theory - statistical theories with caused probability distributions can be regarded as causal) but because pure states, i.e., probability distributions of measurement values, cannot inhere in elementary particles and therefore cannot change when their world tubes intersect and hence they cannot be regarded as interacting causally. By a causal theory is meant a theory that specifies the changes in time of the states of causally interacting entities in its domain. The areas in quantum mechanics in which causal interactions are relevant include, though not explicitly, measurement and therefore the Born rule, and, explicitly, the unitary Schrodinger time development of states. The Born rule probabilities are shown to to refer not to conjoint superpositions of eigenstates but to classical mixtures of mutually exclusive eigenvalues and the Schrodinger time development of states is shown to refer to the time development of the states of non-causally interacting elementary particles and hence cannot be regarded as as a causal time development equation, appearances to the contrary notwithstanding. The recognition that quantum mechanics is not a causal theory but a phenomenological theory like thermodynamics does not affect the way it is employed to calculate an predict and hence preserves its empirical success but it does allow a typically simple phenomenological theory explanation of entanglement and other apparently non-local phenomena.
翻訳日:2023-05-03 13:58:13 公開日:2023-04-28
# データからのダイナミクス学習のためのエネルギー保存ニューラルネットワークのベンチマーク

Benchmarking Energy-Conserving Neural Networks for Learning Dynamics from Data ( http://arxiv.org/abs/2012.02334v6 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Biswadip Dey, Amit Chakraborty(参考訳) ここ数年、深層学習フレームワークに物理学に基づく帰納的バイアスを導入することへの関心が高まっている。 特に、観測された時系列データからダイナミクスを学習するためにニューラルネットワークを使用しながら、エネルギー保存を強制する方法を模索する文献が増えている。 本研究では,HNN,LNN,DeLaN,SymanODEN,CHNN,CLNNなど10種類のエネルギー保存型ニューラルネットワークモデルについて検討した。 これらのモデルの背後にある理論をコンパクトに導出し、それらの類似性と相違を説明する。 性能は4つの物理系で比較される。 エネルギーベースコントローラの設計にこれらのエネルギー保存モデルを活用する可能性について指摘する。

The last few years have witnessed an increased interest in incorporating physics-informed inductive bias in deep learning frameworks. In particular, a growing volume of literature has been exploring ways to enforce energy conservation while using neural networks for learning dynamics from observed time-series data. In this work, we survey ten recently proposed energy-conserving neural network models, including HNN, LNN, DeLaN, SymODEN, CHNN, CLNN and their variants. We provide a compact derivation of the theory behind these models and explain their similarities and differences. Their performance are compared in 4 physical systems. We point out the possibility of leveraging some of these energy-conserving models to design energy-based controllers.
翻訳日:2023-05-02 22:09:22 公開日:2023-04-28
# 分光異常エミッタを有する結合キャビティアレイにおけるポラリトン生成

Polariton Creation in Coupled Cavity Arrays with Spectrally Disordered Emitters ( http://arxiv.org/abs/2112.15469v3 )

ライセンス: Link先を確認
Jesse Patton, Victoria A. Norman, Richard T. Scalettar, Marina Radulaski(参考訳) 統合フォトニクスは、強相関系における凝縮物現象のアナログ量子シミュレーションの有望なプラットフォームである。 そこで本研究では,全光子量子シミュレータの実装を,スペクトル不規則エミッタのアンサンブルを組み込んだキャビティアレイで検討する。 本モデルはフォトニッククリスタルキャビティアレイに統合されたカラーセンターアンサンブルの反射型である。 量子マスター方程式と実効ハミルトニアンのアプローチを用いて、オープン量子タヴィス-カミングス-ハバードフレームワークにおけるエネルギーバンドの形成と波動関数特性を研究する。 スペクトル障害下でのポラリトン生成と(de)局在化の条件と,エミッタキャビティとキャビティ-キャビティ相互作用の可変比を求める。 これらの特性を定量化するために,光-物質ハイブリッド化と波動関数のノード非局在化を特徴付けるポラリトニックとノーダル参加比という2つの指標を導入する。 これらの新しい指標は、固体系の空洞量子力学工学に有用なツールであることが証明されている。

Integrated photonics has been a promising platform for analog quantum simulation of condensed matter phenomena in strongly correlated systems. To that end, we explore the implementation of all-photonic quantum simulators in coupled cavity arrays with integrated ensembles of spectrally disordered emitters. Our model is reflective of color center ensembles integrated into photonic crystal cavity arrays. Using the Quantum Master Equation and the Effective Hamiltonian approaches, we study energy band formation and wavefunction properties in the open quantum Tavis-Cummings-Hubbard framework. We find conditions for polariton creation and (de)localization under spectral disorder and for variable ratios of emitter-cavity and cavity-cavity interactions. To quantify these properties, we introduce two metrics, the polaritonic and the nodal participation ratio, that characterize the light-matter hybridization and the node delocalization of the wavefunction, respectively. These new metrics prove to be useful tools for cavity quantum electrodynamical engineering of solid-state systems.
翻訳日:2023-05-02 22:02:41 公開日:2023-04-28
# MONAI Label:3次元医用画像のAI支援インタラクティブラベル作成のためのフレームワーク

MONAI Label: A framework for AI-assisted Interactive Labeling of 3D Medical Images ( http://arxiv.org/abs/2203.12362v2 )

ライセンス: Link先を確認
Andres Diaz-Pinto, Sachidanand Alle, Vishwesh Nath, Yucheng Tang, Alvin Ihsani, Muhammad Asad, Fernando P\'erez-Garc\'ia, Pritesh Mehta, Wenqi Li, Mona Flores, Holger R. Roth, Tom Vercauteren, Daguang Xu, Prerna Dogra, Sebastien Ourselin, Andrew Feng and M. Jorge Cardoso(参考訳) アノテーション付きデータセットの欠如は、手動アノテーションが非常に高価で時間がかかることを考慮すると、新しいタスク固有の教師付き機械学習モデルをトレーニングするための大きなボトルネックとなる。 この問題に対処するために,我々は,放射線学データセットのアノテートに必要な時間を短縮することを目的とした,人工知能(AI)モデルに基づくアプリケーション開発を容易にする,フリーかつオープンソースのフレームワークであるmonAI Labelを提案する。 MONAI Labelを通じて、研究者は専門分野に焦点を当てたAIアノテーションアプリケーションを開発することができる。 研究者は自分のアプリをサービスとして簡単にデプロイでき、好みのユーザーインターフェイスを通じて臨床医が利用できる。 現在、MONAI Labelはローカルにインストールされた(3D Slicer)とWebベースの(OHIF)フロントエンドを容易にサポートしており、セグメンテーションアルゴリズムのトレーニングを容易にし、高速化するための2つのアクティブな学習戦略を提供している。 MONAI Labelは、研究者が他の研究者や臨床医にも利用できるようにすることで、AIベースのアノテーションアプリケーションに漸進的に改善を加えることを可能にする。 さらにMONAI Labelは、任意のデータセットへのプラグアンドプレイとして、棚から直接使用可能な、AIベースのインタラクティブで非インタラクティブなラベルアプリケーションのサンプルを提供する。 2つの公開データセットで対話モデルを用いた重要なアノテーション時間の短縮が観測できる。

The lack of annotated datasets is a major bottleneck for training new task-specific supervised machine learning models, considering that manual annotation is extremely expensive and time-consuming. To address this problem, we present MONAI Label, a free and open-source framework that facilitates the development of applications based on artificial intelligence (AI) models that aim at reducing the time required to annotate radiology datasets. Through MONAI Label, researchers can develop AI annotation applications focusing on their domain of expertise. It allows researchers to readily deploy their apps as services, which can be made available to clinicians via their preferred user interface. Currently, MONAI Label readily supports locally installed (3D Slicer) and web-based (OHIF) frontends and offers two active learning strategies to facilitate and speed up the training of segmentation algorithms. MONAI Label allows researchers to make incremental improvements to their AI-based annotation application by making them available to other researchers and clinicians alike. Additionally, MONAI Label provides sample AI-based interactive and non-interactive labeling applications, that can be used directly off the shelf, as plug-and-play to any given dataset. Significant reduced annotation times using the interactive model can be observed on two public datasets.
翻訳日:2023-05-02 20:18:08 公開日:2023-04-28
# 深層強化学習に基づくマイクログリッドにおける共同エネルギー派遣とユニットコミットメント

Joint Energy Dispatch and Unit Commitment in Microgrids Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2206.01663v3 )

ライセンス: Link先を確認
Jiaju Qi, Lei Lei, Kan Zheng, Simon X. Yang(参考訳) 近年, 再生可能エネルギーへのマイクログリッド(MG)の適用がますます広まり, 動的エネルギー管理の必要性が高まっている。 本稿では,電力需給バランスの確保を前提とした発電コストの削減を目的とした,統合エネルギー派遣(ED)と単位コミットメント(UC)の決定を孤立したMGで行うための最適な政策を学習するために,深層強化学習(DRL)を適用した。 結合EDとUCによる離散連続ハイブリッドアクション空間の課題を克服するために,有限水平動的プログラミング(DP)フレームワークに基づく2つの古典的DRLアルゴリズム,すなわち深部Qネットワーク(DQN)と深部決定論的ポリシー勾配(DDPG)をシームレスに統合するDRLアルゴリズム(HAFH-DDPG)を提案する。 さらに、このアルゴリズムの計算複雑性を低減するため、簡易な動作空間をサポートするためにディーゼル発電機(DG)選択戦略を示す。 最後に,実世界データセットを用いた実験により,提案アルゴリズムの有効性を複数のベースラインアルゴリズムと比較し検証した。

Nowadays, the application of microgrids (MG) with renewable energy is becoming more and more extensive, which creates a strong need for dynamic energy management. In this paper, deep reinforcement learning (DRL) is applied to learn an optimal policy for making joint energy dispatch (ED) and unit commitment (UC) decisions in an isolated MG, with the aim for reducing the total power generation cost on the premise of ensuring the supply-demand balance. In order to overcome the challenge of discrete-continuous hybrid action space due to joint ED and UC, we propose a DRL algorithm, i.e., the hybrid action finite-horizon DDPG (HAFH-DDPG), that seamlessly integrates two classical DRL algorithms, i.e., deep Q-network (DQN) and deep deterministic policy gradient (DDPG), based on a finite-horizon dynamic programming (DP) framework. Moreover, a diesel generator (DG) selection strategy is presented to support a simplified action space for reducing the computation complexity of this algorithm. Finally, the effectiveness of our proposed algorithm is verified through comparison with several baseline algorithms by experiments with real-world data set.
翻訳日:2023-05-02 20:07:35 公開日:2023-04-28
# revbifpn: 完全に可逆な双方向機能ピラミッドネットワーク

RevBiFPN: The Fully Reversible Bidirectional Feature Pyramid Network ( http://arxiv.org/abs/2206.14098v2 )

ライセンス: Link先を確認
Vitaliy Chiley, Vithursan Thangarasa, Abhay Gupta, Anshul Samar, Joel Hestness, Dennis DeCoste(参考訳) この研究は、初の可逆的双方向機能融合モジュールであるRevSiloを紹介する。 他のリバーシブルメソッドと同様に、revsiloは再計算によって隠れたアクティベーションを保存する必要がなくなる。 しかし、既存の可逆的手法はマルチスケールな特徴融合には適用されないため、大規模なネットワークには適用できない。 双方向のマルチスケール機能融合は局所的およびグローバルなコヒーレンスを促進し、HRNet(Sun et al., 2019a)やEfficientDet(Tan et al., 2020)といった空間的に敏感なタスクをターゲットにしたネットワークのデファクト設計原則となっている。 これらのネットワークは、高解像度入力と組み合わせることで、様々なコンピュータビジョンタスクで最先端の結果が得られる。 しかし、トレーニングには、大規模なマルチレゾリューションアクティベーションを保存するために、かなりのアクセラレーションメモリが必要である。 これらのメモリ要件は、本質的にニューラルネットワークのサイズを制限し、スケールによる改善を制限する。 解像度スケールで動作し、revsiloはこれらの問題を緩和する。 RevSilosを積み重ねて、完全に可逆的な双方向特徴ピラミッドネットワークであるRevBiFPNを作成します。 RevBiFPNは、画像分類に最大19.8倍のトレーニングメモリを使用しながら、EfficientNetのようなネットワークと競合する。 MS COCOを微調整すると、RevBiFPNは最大2.5%のAPをHRNetにアップし、MACを減らし、トレーニング時間メモリを2.4倍削減する。

This work introduces RevSilo, the first reversible bidirectional multi-scale feature fusion module. Like other reversible methods, RevSilo eliminates the need to store hidden activations by recomputing them. However, existing reversible methods do not apply to multi-scale feature fusion and are, therefore, not applicable to a large class of networks. Bidirectional multi-scale feature fusion promotes local and global coherence and has become a de facto design principle for networks targeting spatially sensitive tasks, e.g., HRNet (Sun et al., 2019a) and EfficientDet (Tan et al., 2020). These networks achieve state-of-the-art results across various computer vision tasks when paired with high-resolution inputs. However, training them requires substantial accelerator memory for saving large, multi-resolution activations. These memory requirements inherently cap the size of neural networks, limiting improvements that come from scale. Operating across resolution scales, RevSilo alleviates these issues. Stacking RevSilos, we create RevBiFPN, a fully reversible bidirectional feature pyramid network. RevBiFPN is competitive with networks such as EfficientNet while using up to 19.8x lesser training memory for image classification. When fine-tuned on MS COCO, RevBiFPN provides up to a 2.5% boost in AP over HRNet using fewer MACs and a 2.4x reduction in training-time memory.
翻訳日:2023-05-02 19:58:44 公開日:2023-04-28
# スプリットギブス・サンプラーの再検討:アルゴリズム構造の改善とターゲット分布の強化

The split Gibbs sampler revisited: improvements to its algorithmic structure and augmented target distribution ( http://arxiv.org/abs/2206.13894v2 )

ライセンス: Link先を確認
Marcelo Pereyra, Luis A. Vargas-Mieles, Konstantinos C. Zygalakis(参考訳) 逆問題のイメージングのための効率的なベイズ計算アルゴリズムの開発は、関連する次元とベイズ画像モデルがしばしば滑らかではないため、難しい。 現在の最先端の手法は、ランゲヴィン・マルコフ連鎖モンテカルロ (MCMC) 法による効率的な探索が可能な滑らかな近似に後部密度を置き換えることによってこれらの困難に対処することが多い。 別のアプローチはデータ拡張と緩和に基づいており、gibbsサンプリングによる効率的な探索に適する近似拡張後続分布を構築するために補助変数が導入された。 本稿では,2つの戦略の利点を密結合した潜在空間SK-ROCK (ls SK-ROCK) と呼ばれる,新しい加速近距離MCMC法を提案する。 さらに, 拡張された後方分布を元のモデルの近似として見るのではなく, このモデルの一般化と考えることを提案する。 この結果から,モデル精度が向上する緩和パラメータの値の範囲が実験的に示され,与えられた問題の最適緩和量を自動的に同定する確率的最適化アルゴリズムを提案する。 この体制では、Ls SK-ROCKは、技術の競合するアプローチよりも早く収束し、基礎となるベイズモデルのベイズ的証拠が高いため、精度も向上する。 提案手法は, 画像の劣化と塗装に関する様々な数値実験と, 技術の現状から得られた代替手法との比較により実証された。 提案されたMCMCメソッドのオープンソース実装はhttps://github.com/luisvargasmieles/ls-MCMCから入手できる。

Developing efficient Bayesian computation algorithms for imaging inverse problems is challenging due to the dimensionality involved and because Bayesian imaging models are often not smooth. Current state-of-the-art methods often address these difficulties by replacing the posterior density with a smooth approximation that is amenable to efficient exploration by using Langevin Markov chain Monte Carlo (MCMC) methods. An alternative approach is based on data augmentation and relaxation, where auxiliary variables are introduced in order to construct an approximate augmented posterior distribution that is amenable to efficient exploration by Gibbs sampling. This paper proposes a new accelerated proximal MCMC method called latent space SK-ROCK (ls SK-ROCK), which tightly combines the benefits of the two aforementioned strategies. Additionally, instead of viewing the augmented posterior distribution as an approximation of the original model, we propose to consider it as a generalisation of this model. Following on from this, we empirically show that there is a range of values for the relaxation parameter for which the accuracy of the model improves, and propose a stochastic optimisation algorithm to automatically identify the optimal amount of relaxation for a given problem. In this regime, ls SK-ROCK converges faster than competing approaches from the state of the art, and also achieves better accuracy since the underlying augmented Bayesian model has a higher Bayesian evidence. The proposed methodology is demonstrated with a range of numerical experiments related to image deblurring and inpainting, as well as with comparisons with alternative approaches from the state of the art. An open-source implementation of the proposed MCMC methods is available from https://github.com/luisvargasmieles/ls-MCMC.
翻訳日:2023-05-02 19:58:19 公開日:2023-04-28
# 認定された3Dオブジェクトポース推定:基礎,学習モデル,自己学習

Certifiable 3D Object Pose Estimation: Foundations, Learning Models, and Self-Training ( http://arxiv.org/abs/2206.11215v4 )

ライセンス: Link先を確認
Rajat Talak, Lisa Peng, and Luca Carlone(参考訳) 我々は、証明可能なオブジェクトポーズ推定問題を考える。そこでは、オブジェクトの部分点クラウドが与えられた場合、目標は、オブジェクトポーズを推定するだけでなく、結果の見積もりに対する正確性証明書を提供することである。 最初の貢献は、エンドツーエンドの知覚モデルに対する認証の一般的な理論です。 特に、推定値と基底真理の間の距離を束縛する$\zeta$-correctnessという概念を導入する。 2つの証明書を実装することで、$\zeta$-correctnessを評価できることを示します。 (i) モデル出力が入力データ及び先行情報と一致しているか否かを主張する観測可能な正確性の証明書 二 入力データが一意の見積もりを計算するのに十分であるか否かを主張する非属性の証明書。 第2の貢献は、この理論を適用し、新しい学習に基づく証明可能なポーズ推定器を設計することである。 本稿では,2つの証明を付加した意味キーポイントに基づくポーズ推定モデルC-3POを提案する。 c-3poには、大きな検出エラー(例えばsim-to-realギャップのため)を修正可能な、差別化可能な最適化層として実装されたキーポイント補正器も含まれている。 第3の貢献は,観察可能な正確性の証明を用いてc-3poに監視信号を提供する,新しい自己監督訓練手法である。 モデルでは、各トレーニングイテレーションにおいて、観測可能な正しい入出力ペアのみをトレーニングする。 トレーニングが進むにつれて、観測可能な正確な入出力ペアが増加し、最終的には多くの場合100%近くに達する。 私たちの実験は (i) 標準セマンティクス・キーポイントに基づく手法は、近年の代替案を上回っている。 (ii)C-3POは、さらに性能を改善し、全てのベースラインを著しく上回る。 三 C-3POの証明書は、正しいポーズ推定を識別することができる。

We consider a certifiable object pose estimation problem, where -- given a partial point cloud of an object -- the goal is to not only estimate the object pose, but also to provide a certificate of correctness for the resulting estimate. Our first contribution is a general theory of certification for end-to-end perception models. In particular, we introduce the notion of $\zeta$-correctness, which bounds the distance between an estimate and the ground truth. We show that $\zeta$-correctness can be assessed by implementing two certificates: (i) a certificate of observable correctness, that asserts if the model output is consistent with the input data and prior information, (ii) a certificate of non-degeneracy, that asserts whether the input data is sufficient to compute a unique estimate. Our second contribution is to apply this theory and design a new learning-based certifiable pose estimator. We propose C-3PO, a semantic-keypoint-based pose estimation model, augmented with the two certificates, to solve the certifiable pose estimation problem. C-3PO also includes a keypoint corrector, implemented as a differentiable optimization layer, that can correct large detection errors (e.g. due to the sim-to-real gap). Our third contribution is a novel self-supervised training approach that uses our certificate of observable correctness to provide the supervisory signal to C-3PO during training. In it, the model trains only on the observably correct input-output pairs, in each training iteration. As training progresses, we see that the observably correct input-output pairs grow, eventually reaching near 100% in many cases. Our experiments show that (i) standard semantic-keypoint-based methods outperform more recent alternatives, (ii) C-3PO further improves performance and significantly outperforms all the baselines, and (iii) C-3PO's certificates are able to discern correct pose estimates.
翻訳日:2023-05-02 19:57:30 公開日:2023-04-28
# 時変質量を持つ自由粒子に対するスクイーズドコヒーレント状態

Squeezed coherent states for a free particle with time-varying mass ( http://arxiv.org/abs/2208.05588v2 )

ライセンス: Link先を確認
A. S. Pereira, A. S. Lemos, F. A. Brito(参考訳) 我々は、指数的に時間変化の質量を持つ自由粒子に対する圧縮コヒーレント状態(SCS)を得る。 我々は、時間に依存しないフォック状態のスクイーズと変位パラメータの観点からこれらの状態を記述する。 そこで,SCSを半古典状態とみなすことができるような変位パラメータの条件を求める。 質量が時間とともに増加する限り、最小の不確かさを持つ自由粒子に対してコヒーレント状態(cs)を得ることができることを示す。 自由粒子SCSに対する時間非依存のFock状態に初期準備された系の遷移確率を解析した。

We obtain the squeezed coherent states (SCS) for a free particle with exponentially time-varying mass. We write these states in terms of the squeeze and displacement parameters on the time-independent Fock states. Thus, we find a condition on the displacement parameter such that the SCS can be considered semiclassical states. We show that it is possible to obtain the coherent states (CS) for a free particle with minimal uncertainty as long as the mass increases with the time. We analyze the transition probability of a system initially prepared in the time-independent Fock states to the free particle SCS.
翻訳日:2023-05-02 19:48:44 公開日:2023-04-28
# RZCR:ラジカル推論によるゼロショット文字認識

RZCR: Zero-shot Character Recognition via Radical-based Reasoning ( http://arxiv.org/abs/2207.05842v3 )

ライセンス: Link先を確認
Xiaolei Diao, Daqian Shi, Hao Tang, Qiang Shen, Yanzeng Li, Lei Wu, Hao Xu(参考訳) ロングテール効果は、現実世界のデータセットにおけるディープラーニングモデルのパフォーマンスを制限する一般的な問題である。 文字画像データセットは、文字使用頻度の違いにより、そのような不均衡なデータ分布に影響される。 したがって、現在の文字認識方法は、現実世界、特にトレーニングサンプルが不足している尾のカテゴリ、例えば珍しい文字に対して適用される場合に制限される。 本稿では,RZCRと呼ばれる急進的推論によるゼロショット文字認識フレームワークを提案する。 具体的には,文字のグラフィカル単位であるラジカルを,正書法に従って分解・再構成することで活用する。 RZCRは、視覚意味融合に基づくラジカル情報抽出器(RIE)と知識グラフ文字推論器(KGR)から構成される。 RIEは、文字画像から候補ラジカルとその構造的関係を並列に認識することを目的としている。 結果はKGRに入力され、知識グラフで推論して対象の文字を認識する。 提案手法を複数のデータセットで検証し,rzcrは有望な実験結果を示す。

The long-tail effect is a common issue that limits the performance of deep learning models on real-world datasets. Character image datasets are also affected by such unbalanced data distribution due to differences in character usage frequency. Thus, current character recognition methods are limited when applied in the real world, especially for the categories in the tail that lack training samples, e.g., uncommon characters. In this paper, we propose a zero-shot character recognition framework via radical-based reasoning, called RZCR, to improve the recognition performance of few-sample character categories in the tail. Specifically, we exploit radicals, the graphical units of characters, by decomposing and reconstructing characters according to orthography. RZCR consists of a visual semantic fusion-based radical information extractor (RIE) and a knowledge graph character reasoner (KGR). RIE aims to recognize candidate radicals and their possible structural relations from character images in parallel. The results are then fed into KGR to recognize the target character by reasoning with a knowledge graph. We validate our method on multiple datasets, and RZCR shows promising experimental results, especially on few-sample character datasets.
翻訳日:2023-05-02 19:48:28 公開日:2023-04-28
# ToupleGDD: 深層強化学習による影響最大化の詳細な解法

ToupleGDD: A Fine-Designed Solution of Influence Maximization by Deep Reinforcement Learning ( http://arxiv.org/abs/2210.07500v3 )

ライセンス: Link先を確認
Tiantian Chen, Siwen Yan, Jianxiong Guo, Weili Wu(参考訳) ネットワークに最大影響を与えるノードの小さなサブセットを選択することを目指して、影響最大化(im)の問題が広く研究されている。 シードセットが与えられた影響を計算するのは#Pハードであるため、ヒューリスティックおよび近似アルゴリズムを含む最先端の手法は、理論的保証、時間効率、一般化などの大きな困難に直面している。 これにより、大規模ネットワークやより複雑なアプリケーションに適応できない。 一方、人工知能やその他の分野におけるDeep Reinforcement Learning(DRL)の最近の成果により、組合せ最適化問題を解決するためにDRLを活用することに多くの研究が注がれている。 本稿では,ネットワーク埋め込みのための3つの結合グラフニューラルネットワークとパラメータ学習のための二重深度Q-networksを組み合わせた,新しいエンドツーエンドDRLフレームワークであるToupleGDDを提案する。 従来のDRLによるIM問題を解決する努力は、ネットワーク全体のサブグラフ上でモデルをトレーニングし、その後グラフ全体のテストを行い、異なるネットワーク間でモデルのパフォーマンスが不安定になるようにした。 しかし,本モデルは小額のランダム生成グラフ上で訓練され,様々な大予算で全く異なるネットワーク上でテストされ,複数のデータセットのopim-cよりも非常に近い結果と優れた結果が得られるとともに,強力な一般化能力を示す。 最後に,人工的かつ現実的なデータセットに関する実験を多数実施し,実験結果からモデルの有効性と優越性が証明された。

Aiming at selecting a small subset of nodes with maximum influence on networks, the Influence Maximization (IM) problem has been extensively studied. Since it is #P-hard to compute the influence spread given a seed set, the state-of-the-art methods, including heuristic and approximation algorithms, faced with great difficulties such as theoretical guarantee, time efficiency, generalization, etc. This makes it unable to adapt to large-scale networks and more complex applications. On the other side, with the latest achievements of Deep Reinforcement Learning (DRL) in artificial intelligence and other fields, lots of works have been focused on exploiting DRL to solve combinatorial optimization problems. Inspired by this, we propose a novel end-to-end DRL framework, ToupleGDD, to address the IM problem in this paper, which incorporates three coupled graph neural networks for network embedding and double deep Q-networks for parameters learning. Previous efforts to solve IM problem with DRL trained their models on subgraphs of the whole network, and then tested on the whole graph, which makes the performance of their models unstable among different networks. However, our model is trained on several small randomly generated graphs with a small budget, and tested on completely different networks under various large budgets, which can obtain results very close to IMM and better results than OPIM-C on several datasets, and shows strong generalization ability. Finally, we conduct a large number of experiments on synthetic and realistic datasets, and experimental results prove the effectiveness and superiority of our model.
翻訳日:2023-05-02 19:31:39 公開日:2023-04-28
# 人体をセンサとして用いた群集ナビゲーション

Occlusion-Aware Crowd Navigation Using People as Sensors ( http://arxiv.org/abs/2210.00552v3 )

ライセンス: Link先を確認
Ye-Ji Mun, Masha Itkina, Shuijing Liu, and Katherine Driggs-Campbell(参考訳) 混雑した空間における自律ナビゲーションは、非常にダイナミックで部分的に観察可能な環境のため、移動ロボットにとって課題となる。 このような環境下では、人間エージェントの視界や妨害が限定されているため、閉塞が顕著である。 従来の研究では、人間のエージェントの観察された対話的行動は、閉塞にもかかわらず潜在的障害を推定するために用いられることが示されている。 このような社会的推論手法を計画パイプラインに統合することを提案する。 我々は,オクルージョン推論に有意な表現を学ぶために,特別に設計された損失関数を備えた変分オートエンコーダを用いる。 この研究は、オクルージョン対応計画のための学習表現を組み込むために、深い強化学習アプローチを採用する。 シミュレーションでは,隠蔽空間内のエージェントを推定することにより,完全に観測可能なナビゲーションに匹敵する衝突回避性能を実現する。 シミュレーションから実世界のTurtlebot 2iへのポリシー転送に成功した。 私たちの知る限りでは、この研究は初めて、群衆ナビゲーションに社会的排他的推論を用いたものである。

Autonomous navigation in crowded spaces poses a challenge for mobile robots due to the highly dynamic, partially observable environment. Occlusions are highly prevalent in such settings due to a limited sensor field of view and obstructing human agents. Previous work has shown that observed interactive behaviors of human agents can be used to estimate potential obstacles despite occlusions. We propose integrating such social inference techniques into the planning pipeline. We use a variational autoencoder with a specially designed loss function to learn representations that are meaningful for occlusion inference. This work adopts a deep reinforcement learning approach to incorporate the learned representation for occlusion-aware planning. In simulation, our occlusion-aware policy achieves comparable collision avoidance performance to fully observable navigation by estimating agents in occluded spaces. We demonstrate successful policy transfer from simulation to the real-world Turtlebot 2i. To the best of our knowledge, this work is the first to use social occlusion inference for crowd navigation.
翻訳日:2023-05-02 19:28:51 公開日:2023-04-28
# NVIDIA FLARE: シミュレーションから実世界へのフェデレーション学習

NVIDIA FLARE: Federated Learning from Simulation to Real-World ( http://arxiv.org/abs/2210.13291v3 )

ライセンス: Link先を確認
Holger R. Roth, Yan Cheng, Yuhong Wen, Isaac Yang, Ziyue Xu, Yuan-Ting Hsieh, Kristopher Kersten, Ahmed Harouni, Can Zhao, Kevin Lu, Zhihong Zhang, Wenqi Li, Andriy Myronenko, Dong Yang, Sean Yang, Nicola Rieke, Abood Quraini, Chester Chen, Daguang Xu, Nic Ma, Prerna Dogra, Mona Flores, Andrew Feng(参考訳) フェデレートラーニング(FL)は、データを集中することなく、複数のコラボレータからさまざまなデータセットを活用することにより、堅牢で一般化可能なAIモデルの構築を可能にする。 私たちはNVIDIA FLAREをオープンソースソフトウェア開発キット(SDK)として開発しました。 このsdkには最先端のflアルゴリズムとフェデレーション機械学習のアプローチのためのソリューションが含まれており、企業間の分散学習のためのワークフローの構築を容易にし、プラットフォーム開発者が準同型暗号化や差分プライバシーを利用したマルチパーティコラボレーションのためのセキュアでプライバシ保護の製品を作成することができる。 SDKは軽量で柔軟性があり、スケーラブルなPythonパッケージである。 研究者は、実際のFL設定でデータサイエンスワークフローを任意のトレーニングライブラリ(PyTorch、TensorFlow、XGBoost、さらにはNumPy)に適用することができる。 本稿では,NVFlareのキーとなる設計原則を紹介し,さまざまなプライバシ保護アルゴリズムを実装するFLワークフローをカスタマイズ可能なユースケース(例:新型コロナウイルス分析)について説明する。 コードはhttps://github.com/nvidia/nvflareで入手できる。

Federated learning (FL) enables building robust and generalizable AI models by leveraging diverse datasets from multiple collaborators without centralizing the data. We created NVIDIA FLARE as an open-source software development kit (SDK) to make it easier for data scientists to use FL in their research and real-world applications. The SDK includes solutions for state-of-the-art FL algorithms and federated machine learning approaches, which facilitate building workflows for distributed learning across enterprises and enable platform developers to create a secure, privacy-preserving offering for multiparty collaboration utilizing homomorphic encryption or differential privacy. The SDK is a lightweight, flexible, and scalable Python package. It allows researchers to apply their data science workflows in any training libraries (PyTorch, TensorFlow, XGBoost, or even NumPy) in real-world FL settings. This paper introduces the key design principles of NVFlare and illustrates some use cases (e.g., COVID analysis) with customizable FL workflows that implement different privacy-preserving algorithms. Code is available at https://github.com/NVIDIA/NVFlare.
翻訳日:2023-05-02 19:20:29 公開日:2023-04-28
# 言語モデルの重み付けによるデータレス知識融合

Dataless Knowledge Fusion by Merging Weights of Language Models ( http://arxiv.org/abs/2212.09849v3 )

ライセンス: Link先を確認
Xisen Jin, Xiang Ren, Daniel Preotiuc-Pietro, Pengxiang Cheng(参考訳) 微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。 多くの場合、微調整されたモデルは簡単に利用できるが、データのプライバシーや知的財産の懸念からトレーニングデータは利用できない。 これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。 本稿では、異なるトレーニングデータセット上に構築された個別モデルをマージして、すべてのデータセットドメインでよく機能し、ドメイン外のデータで一般化できる単一モデルを得るという課題について考察する。 本稿では,モデルと各モデルとの予測差を最小化する重み付けにより,パラメータ空間でモデルをマージするデータレス知識融合手法を提案する。 評価設定のバッテリ上では,提案手法がフィッシャー重み付け平均化やモデルアンサンブルなどのベースラインを著しく上回ることを示す。 さらに,本手法は,学習データにアクセスせずに個々のモデルを保存・改善できるマルチタスク学習に代わる有望な方法であることがわかった。 最後に、モデルマージはマルチタスクモデルのトレーニングよりも効率的であるため、より広範なシナリオに適用できる。

Fine-tuning pre-trained language models has become the prevalent paradigm for building downstream NLP models. Oftentimes fine-tuned models are readily available but their training data is not, due to data privacy or intellectual property concerns. This creates a barrier to fusing knowledge across individual models to yield a better single model. In this paper, we study the problem of merging individual models built on different training data sets to obtain a single model that performs well both across all data set domains and can generalize on out-of-domain data. We propose a dataless knowledge fusion method that merges models in their parameter space, guided by weights that minimize prediction differences between the merged model and the individual models. Over a battery of evaluation settings, we show that the proposed method significantly outperforms baselines such as Fisher-weighted averaging or model ensembling. Further, we find that our method is a promising alternative to multi-task learning that can preserve or sometimes improve over the individual models without access to the training data. Finally, model merging is more efficient than training a multi-task model, thus making it applicable to a wider set of scenarios.
翻訳日:2023-05-02 19:02:15 公開日:2023-04-28
# edge impulse: 小さな機械学習のためのmlopsプラットフォーム

Edge Impulse: An MLOps Platform for Tiny Machine Learning ( http://arxiv.org/abs/2212.03332v3 )

ライセンス: Link先を確認
Shawn Hymel, Colby Banbury, Daniel Situnayake, Alex Elium, Carl Ward, Mat Kelcey, Mathijs Baaijens, Mateusz Majchrzycki, Jenny Plunkett, David Tischler, Alessandro Grande, Louis Moreau, Dmitry Maslov, Artie Beavis, Jan Jongboom, Vijay Janapa Reddi(参考訳) Edge Impulseは、さまざまなハードウェアターゲットにデプロイ可能な組み込みおよびエッジML(TinyML)システムを開発するための、クラウドベースの機械学習操作(MLOps)プラットフォームである。 現在のTinyMLワークフローは、断片化されたソフトウェアスタックと異種デプロイメントハードウェアに悩まされており、MLモデルの最適化が難しく、利用できない。 我々は,smallmlシステムを大規模に開発するための実用的なmlopsプラットフォームであるedge impulseを提案する。 Edge Impulseはこれらの課題に対処し、TinyMLの設計サイクルを合理化し、様々なソフトウェアとハードウェアの最適化をサポートし、様々な組み込みシステムのための拡張可能でポータブルなソフトウェアスタックを作成する。 2022年10月現在、Edge Impulseは50,953人の開発者から118,185のプロジェクトをホストしている。

Edge Impulse is a cloud-based machine learning operations (MLOps) platform for developing embedded and edge ML (TinyML) systems that can be deployed to a wide range of hardware targets. Current TinyML workflows are plagued by fragmented software stacks and heterogeneous deployment hardware, making ML model optimizations difficult and unportable. We present Edge Impulse, a practical MLOps platform for developing TinyML systems at scale. Edge Impulse addresses these challenges and streamlines the TinyML design cycle by supporting various software and hardware optimizations to create an extensible and portable software stack for a multitude of embedded systems. As of Oct. 2022, Edge Impulse hosts 118,185 projects from 50,953 developers.
翻訳日:2023-05-02 19:00:34 公開日:2023-04-28
# マルチサンプルハイパーネットによるParetoフロントエンド学習の改善

Improving Pareto Front Learning via Multi-Sample Hypernetworks ( http://arxiv.org/abs/2212.01130v7 )

ライセンス: Link先を確認
Long P. Hoang, Dung D. Le, Tran Anh Tuan, Tran Ngoc Thang(参考訳) パレートフロントラーニング(PFL)は、最近、与えられたトレードオフベクトルからパレートフロントの解へのマッピング関数を得るための効果的なアプローチとして導入され、多目的最適化(MOO)問題を解く。 対立する目標間の固有のトレードオフのため、pflは多くのシナリオにおいて柔軟なアプローチを提供しており、意思決定者は1つのparetoソリューションの好みを別々に指定できず、状況に応じてそれらを切り替えなければならない。 しかし、既存のPFL法は最適化過程における解間の関係を無視し、得られたフロントの品質を損なう。 この問題を克服するために,PFL フレームワーク PHN-HVI を提案する。このフレームワークはハイパーネットワークを用いて,多様なトレードオフ選択から複数のソリューションを生成し,これらのソリューションによって定義されたハイパーボリューム指標を最大化することによりパレートフロントの品質を向上させる。 複数のMOO機械学習タスクの実験結果から,提案手法がParetoフロントのトレードオフ生成におけるベースラインを大幅に上回っていることが示された。

Pareto Front Learning (PFL) was recently introduced as an effective approach to obtain a mapping function from a given trade-off vector to a solution on the Pareto front, which solves the multi-objective optimization (MOO) problem. Due to the inherent trade-off between conflicting objectives, PFL offers a flexible approach in many scenarios in which the decision makers can not specify the preference of one Pareto solution over another, and must switch between them depending on the situation. However, existing PFL methods ignore the relationship between the solutions during the optimization process, which hinders the quality of the obtained front. To overcome this issue, we propose a novel PFL framework namely PHN-HVI, which employs a hypernetwork to generate multiple solutions from a set of diverse trade-off preferences and enhance the quality of the Pareto front by maximizing the Hypervolume indicator defined by these solutions. The experimental results on several MOO machine learning tasks show that the proposed framework significantly outperforms the baselines in producing the trade-off Pareto front.
翻訳日:2023-05-02 19:00:21 公開日:2023-04-28
# マルチフィデリティベイズ最適化による学習型制御系のファルシフィケーション

Falsification of Learning-Based Controllers through Multi-Fidelity Bayesian Optimization ( http://arxiv.org/abs/2212.14118v4 )

ライセンス: Link先を確認
Zahra Shahrooei, Mykel J. Kochenderfer, Ali Baheri(参考訳) シミュレーションベースのファルシフィケーションは、システムが安全要件を満たす自信を高めるための実用的なテスト手法である。 忠実度シミュレーションは計算的に要求されるので,異なる忠実度レベルを持つシミュレータの利用について検討する。 第1ステップとして,環境パラメータの観点から全体安全仕様を表現し,この安全仕様を最適化問題として構成する。 我々は,システム障害の原因となる環境から可能なインスタンスを見つけることに加えて,どのレベルの忠実度で安全性評価を行うべきかを判断できるベイズ最適化を用いたマルチフィデリティ改ざんフレームワークを提案する。 本手法により,低忠実度シミュレータからの安価な不正確な情報と高忠実度シミュレータからの高価な正確な情報とを,低コストで自動的に切り替えることができる。 シミュレーションにおける各種環境に関する実験により,マルチフィデリティベイズ最適化は単一フィデリティベイズ最適化に匹敵するファルシフィケーション性能を持つが,はるかに低コストであることが示された。

Simulation-based falsification is a practical testing method to increase confidence that the system will meet safety requirements. Because full-fidelity simulations can be computationally demanding, we investigate the use of simulators with different levels of fidelity. As a first step, we express the overall safety specification in terms of environmental parameters and structure this safety specification as an optimization problem. We propose a multi-fidelity falsification framework using Bayesian optimization, which is able to determine at which level of fidelity we should conduct a safety evaluation in addition to finding possible instances from the environment that cause the system to fail. This method allows us to automatically switch between inexpensive, inaccurate information from a low-fidelity simulator and expensive, accurate information from a high-fidelity simulator in a cost-effective way. Our experiments on various environments in simulation demonstrate that multi-fidelity Bayesian optimization has falsification performance comparable to single-fidelity Bayesian optimization but with much lower cost.
翻訳日:2023-05-02 18:52:29 公開日:2023-04-28
# Gossiped and Quantized Online Multi-Kernel Learning

Gossiped and Quantized Online Multi-Kernel Learning ( http://arxiv.org/abs/2301.09848v2 )

ライセンス: Link先を確認
Tomas Ortega and Hamid Jafarkhani(参考訳) 事前情報がほとんど得られず、集中学習が不可能なオンラインカーネル学習の場合、過去の研究では、ネットワーク内の全てのノードが通信できる限り、分散およびオンラインマルチカーネル学習がサブ線形後悔をもたらすことが示されている(通信ネットワークは完全なグラフである)。 さらに、しばしばパフォーマンスボトルネックとなる通信負荷を管理するために、ノード間の通信を定量化することができる。 このレターは、これらの結果を非完全連結グラフに拡大し、無線センサーネットワークでよく見られる。 この課題に対処するため,我々はゴシップアルゴリズムを提案し,それを実現する証明を与える。 実データを用いた実験の結果を確認した。

In instances of online kernel learning where little prior information is available and centralized learning is unfeasible, past research has shown that distributed and online multi-kernel learning provides sub-linear regret as long as every pair of nodes in the network can communicate (i.e., the communications network is a complete graph). In addition, to manage the communication load, which is often a performance bottleneck, communications between nodes can be quantized. This letter expands on these results to non-fully connected graphs, which is often the case in wireless sensor networks. To address this challenge, we propose a gossip algorithm and provide a proof that it achieves sub-linear regret. Experiments with real datasets confirm our findings.
翻訳日:2023-05-02 18:42:29 公開日:2023-04-28
# AfriSenti: アフリカの言語に対するTwitterの感情分析ベンチマーク

AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages ( http://arxiv.org/abs/2302.08956v4 )

ライセンス: Link先を確認
Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, Nedjma Ousidhoum, David Ifeoluwa Adelani, Seid Muhie Yimam, Ibrahim Sa'id Ahmad, Meriem Beloucif, Saif M. Mohammad, Sebastian Ruder, Oumaima Hourrane, Pavel Brazdil, Felermino D\'ario M\'ario Ant\'onio Ali, Davis David, Salomey Osei, Bello Shehu Bello, Falalu Ibrahim, Tajuddeen Gwadabe, Samuel Rutunda, Tadesse Belay, Wendimu Baye Messelle, Hailu Beshada Balcha, Sisay Adugna Chala, Hagos Tesfahun Gebremichael, Bernard Opoku, Steven Arthur(参考訳) アフリカには6つの言語族から2000以上の言語があり、全大陸で最も言語多様性が高い。 これには75の言語があり、それぞれ100万以上の話者がいる。 しかし、アフリカ語に関するNLP研究はほとんど行われていない。 このような研究を可能にする上で重要なのは、高品質な注釈付きデータセットの可用性だ。 本稿では,14のアフリカ語(アムハラ語,アルジェリア語,ハウサ語,イボ語,キニャルワンダ語,モロッコ語,モザンビーク語,ポルトガル語,ナイジェリア・ピジン語,オロモ語,スワヒリ語,ティグリニャ語,twi,xitsonga,yor\`ub\'a)における110,000以上のツイートの14の感情データセットからなるafrisentiを紹介する。 データは、最初のAfro中心のSemEval共有タスクであるSemEval 2023 Task 12で使用される。 データ収集手法、アノテーションプロセス、および各データセットをキュレートする際の関連する課題について述べる。 感情分類基準の異なる実験を行い,その有用性について考察する。 afrisentiが低表現言語で新しい作業を可能にすることを願っています。 データセットはhttps://github.com/afrisenti-semeval/afrisent-semeval-2023で利用可能であり、hughingfaceデータセットとしてロードすることもできる(https://huggingface.co/datasets/shmuhammad/afrisenti)。

Africa is home to over 2000 languages from over six language families and has the highest linguistic diversity among all continents. This includes 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial in enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, which consists of 14 sentiment datasets of 110,000+ tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\'a) from four language families annotated by native speakers. The data is used in SemEval 2023 Task 12, the first Afro-centric SemEval shared task. We describe the data collection methodology, annotation process, and related challenges when curating each of the datasets. We conduct experiments with different sentiment classification baselines and discuss their usefulness. We hope AfriSenti enables new work on under-represented languages. The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023 and can also be loaded as a huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti).
翻訳日:2023-05-02 18:35:41 公開日:2023-04-28
# バンド・ソーシャル・ラーニング : 神秘的行動による探索

Bandit Social Learning: Exploration under Myopic Behavior ( http://arxiv.org/abs/2302.07425v2 )

ライセンス: Link先を確認
Kiarash Banihashem, MohammadTaghi Hajiaghayi, Suho Shin, Aleksandrs Slivkins(参考訳) エージェントが単純なマルチアームバンディットプロトコルに従う社会学習のダイナミクスについて検討する。 エージェントは順次到着し、腕を選び、関連する報酬を受け取る。 各エージェントは、前のエージェントの完全な履歴(武器と報酬)を観察し、プライベートシグナルは存在しない。 協力してエージェントは探索と探索のトレードオフに直面しますが、それぞれのエージェントは探査に関して無差別に行動します。 モチベーションシナリオは、オンラインプラットフォームにおけるレビューと評価に関するものだ。 我々は、「偏見のない」行動や様々な行動バイアスを含む、(パラメータ化された)信頼区間と整合した幅広い筋電図的行動を許容する。 これらの行動の極端なバージョンはよく知られたバンディットアルゴリズムに対応しているが、より穏健なバージョンは究極の探索失敗につながり、結果としてエージェント数に線形な後悔率をもたらすことを証明している。 我々は「適度に楽観的な」エージェントを分析して後悔の上限を一致させる。 独立利害関係の特別な場合として,多腕バンディットにおけるグリーディアルゴリズムの故障に関する一般的な結果を得る。 これは私たちの知る限りでは 文学における最初の結果です

We study social learning dynamics where the agents collectively follow a simple multi-armed bandit protocol. Agents arrive sequentially, choose arms and receive associated rewards. Each agent observes the full history (arms and rewards) of the previous agents, and there are no private signals. While collectively the agents face exploration-exploitation tradeoff, each agent acts myopically, without regards to exploration. Motivating scenarios concern reviews and ratings on online platforms. We allow a wide range of myopic behaviors that are consistent with (parameterized) confidence intervals, including the "unbiased" behavior as well as various behaviorial biases. While extreme versions of these behaviors correspond to well-known bandit algorithms, we prove that more moderate versions lead to stark exploration failures, and consequently to regret rates that are linear in the number of agents. We provide matching upper bounds on regret by analyzing "moderately optimistic" agents. As a special case of independent interest, we obtain a general result on failure of the greedy algorithm in multi-armed bandits. This is the first such result in the literature, to the best of our knowledge
翻訳日:2023-05-02 18:34:12 公開日:2023-04-28
# R-U-SURE? ランダムユーザの意図を最大化することによる不確実性認識コードの提案

R-U-SURE? Uncertainty-Aware Code Suggestions By Maximizing Utility Across Random User Intents ( http://arxiv.org/abs/2303.00732v2 )

ライセンス: Link先を確認
Daniel D. Johnson, Daniel Tarlow, Christian Walder(参考訳) 大きな言語モデルは、コードのような構造化されたテキストを予測するのに印象的な結果を示すが、一般的にはエラーや幻覚を出力に導入する。 ソフトウェア開発者を支援するために使用される場合、これらのモデルは、ユーザーが戻って修正しなければならないミスを犯すかもしれません。 本稿では,目標条件付きユーティリティの意思決定理論モデルに基づく不確実性認識提案手法である不確実性領域(r-u-sure)のランダム化ユーティリティ駆動合成を提案する。 本手法は,任意の生成モデルとオプションastパーサへのサンプルアクセスのみを与えられた場合,構造化不確実性サマリーを効率的に生成するために,最小ベイズ・リスク復号,二重分解,決定ダイアグラムを組み合わせる。 3つの開発者支援タスクについてR-U-SUREを実演し、モデルを再トレーニングすることなく異なるユーザインタラクションパターンを適用することができることを示す。 また、実装をオープンソースライブラリとしてhttps://github.com/google-research/r_u_sureでリリースしています。

Large language models show impressive results at predicting structured text such as code, but also commonly introduce errors and hallucinations in their output. When used to assist software developers, these models may make mistakes that users must go back and fix, or worse, introduce subtle bugs that users may miss entirely. We propose Randomized Utility-driven Synthesis of Uncertain REgions (R-U-SURE), an approach for building uncertainty-aware suggestions based on a decision-theoretic model of goal-conditioned utility, using random samples from a generative model as a proxy for the unobserved possible intents of the end user. Our technique combines minimum-Bayes-risk decoding, dual decomposition, and decision diagrams in order to efficiently produce structured uncertainty summaries, given only sample access to an arbitrary generative model of code and an optional AST parser. We demonstrate R-U-SURE on three developer-assistance tasks, and show that it can be applied different user interaction patterns without retraining the model and leads to more accurate uncertainty estimates than token-probability baselines. We also release our implementation as an open-source library at https://github.com/google-research/r_u_sure.
翻訳日:2023-05-02 18:26:06 公開日:2023-04-28
# clinical bertscore:臨床における自動音声認識性能の向上

Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings ( http://arxiv.org/abs/2303.05737v4 )

ライセンス: Link先を確認
Joel Shor, Ruyue Agnes Bi, Subhashini Venugopalan, Steven Ibara, Roman Goldenberg, Ehud Rivlin(参考訳) 医学的文脈における自動音声認識(ASR)は、時間を節約し、コストを削減し、報告精度を高め、医師のバーンアウトを減らす可能性がある。 しかし、医療業界は医療関連転写ミスを避けることの重要性から、この技術の採用が遅れている。 本研究は,臨床関連ミスを他者よりもペナルティ化するASR尺度であるクリニカルBERTScore(CBERTScore)を提示する。 この尺度は、他の指標(WER, BLUE, METEORなど)と比較して、医学的文章に対する臨床的嗜好とより密接に一致していることが示される。 我々は,CTP(Crisian Transcript Preference benchmark)と呼ばれる149の現実的な医学的文章に関する18の臨床的嗜好のベンチマークを収集し,臨床的なASR指標をさらに発展させるために,コミュニティに公開する。 私たちの知る限り、この種の公開データセットはこれが初めてです。 CBERTScoreが臨床医の好むものとより密接に一致していることを示す。

Automatic Speech Recognition (ASR) in medical contexts has the potential to save time, cut costs, increase report accuracy, and reduce physician burnout. However, the healthcare industry has been slower to adopt this technology, in part due to the importance of avoiding medically-relevant transcription mistakes. In this work, we present the Clinical BERTScore (CBERTScore), an ASR metric that penalizes clinically-relevant mistakes more than others. We demonstrate that this metric more closely aligns with clinician preferences on medical sentences as compared to other metrics (WER, BLUE, METEOR, etc), sometimes by wide margins. We collect a benchmark of 18 clinician preferences on 149 realistic medical sentences called the Clinician Transcript Preference benchmark (CTP) and make it publicly available for the community to further develop clinically-aware ASR metrics. To our knowledge, this is the first public dataset of its kind. We demonstrate that CBERTScore more closely matches what clinicians prefer.
翻訳日:2023-05-02 18:15:20 公開日:2023-04-28
# ISSTAD: 異常検出と局所化のためのトランスフォーマに基づくインクリメンタル自己監督学習

ISSTAD: Incremental Self-Supervised Learning Based on Transformer for Anomaly Detection and Localization ( http://arxiv.org/abs/2303.17354v4 )

ライセンス: Link先を確認
Wenping Jin, Fei Guo, Li Zhu(参考訳) 機械学習の分野では、画像データ内の異常検出と局所化の研究が、特に工業的欠陥検出などの実践的応用において、大きな注目を集めている。 既存の手法の大部分は畳み込みニューラルネットワーク(cnn)を主要なネットワークアーキテクチャとして使用しているが、トランスフォーマーバックボーンネットワークに基づく新しいアプローチを導入する。 本手法は2段階のインクリメンタル学習戦略を用いる。 第1段階では、通常の画像のみに基づいてMasked Autoencoder(MAE)モデルを訓練する。 その後の段階では、劣化した正規画像とその対応するピクセルラベルを生成するためにピクセルレベルのデータ拡張技術を適用する。 このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類できる。 最終的に、モデルが画素再構成誤差行列と画素異常確率行列を生成する。 これらの行列を組み合わせ、異常領域を効果的に検出する異常スコアリングマトリックスを生成する。 最新のCNNベースのいくつかの手法をベンチマークすると、MVTec ADデータセット上で優れた性能を示し、97.6%のAUCを達成した。

In the realm of machine learning, the study of anomaly detection and localization within image data has gained substantial traction, particularly for practical applications such as industrial defect detection. While the majority of existing methods predominantly use Convolutional Neural Networks (CNN) as their primary network architecture, we introduce a novel approach based on the Transformer backbone network. Our method employs a two-stage incremental learning strategy. During the first stage, we train a Masked Autoencoder (MAE) model solely on normal images. In the subsequent stage, we apply pixel-level data augmentation techniques to generate corrupted normal images and their corresponding pixel labels. This process allows the model to learn how to repair corrupted regions and classify the status of each pixel. Ultimately, the model generates a pixel reconstruction error matrix and a pixel anomaly probability matrix. These matrices are then combined to produce an anomaly scoring matrix that effectively detects abnormal regions. When benchmarked against several state-of-the-art CNN-based methods, our approach exhibits superior performance on the MVTec AD dataset, achieving an impressive 97.6% AUC.
翻訳日:2023-05-02 18:05:05 公開日:2023-04-28
# 機械学習のための合成データのリアリズム改善に関する研究

A Study on Improving Realism of Synthetic Data for Machine Learning ( http://arxiv.org/abs/2304.12463v2 )

ライセンス: Link先を確認
Tingwei Shen, Ganning Zhao, Suya You(参考訳) 生成的対角学習を用いた合成-実データ変換は、合成データを改善する上で大きな成功を収めた。 しかし、限定的な研究は機械学習のための汎用合成データに対する敵意訓練の深い評価と比較に焦点を当てている。 本研究の目的は、合成レンダリングを、ラベルのない実世界のデータで条件付けられた汎用データセット上でより現実的なスタイルに変換する合成から現実への生成モデルを訓練し、評価することである。 定性的・定量的な測定値と、下流認識タスクによって、広範囲な性能評価と比較が行われた。

Synthetic-to-real data translation using generative adversarial learning has achieved significant success in improving synthetic data. Yet, limited studies focus on deep evaluation and comparison of adversarial training on general-purpose synthetic data for machine learning. This work aims to train and evaluate a synthetic-to-real generative model that transforms the synthetic renderings into more realistic styles on general-purpose datasets conditioned with unlabeled real-world data. Extensive performance evaluation and comparison have been conducted through qualitative and quantitative metrics and a defined downstream perception task.
翻訳日:2023-05-02 17:45:39 公開日:2023-04-28
# 雑音受動線形光学を用いた量子最適情報符号化

Quantum-optimal information encoding using noisy passive linear optics ( http://arxiv.org/abs/2304.12365v2 )

ライセンス: Link先を確認
Andrew Tanggara, Ranjith Nair, Syed Assad, Varun Narasimhachar, Spyros Tserkis, Jayne Thompson, Ping Koy Lam, Mile Gu(参考訳) ノイズチャネルが伝達できる情報の量は、情報理論における主要な関心事の1つとなっている。 本研究では,外部エネルギー源を使わずに実現可能な光量子チャネルの一群について考察する。 有限エネルギーの資源状態において、これらのチャネルが適用した減衰や位相シフトの情報を符号化する手順よりも、ホレボ情報を最適化する。 任意の入力状態と環境温度に対して、チャネルの位相シフトパラメータを均一に分配する符号化手順によって最大ホールボ情報が得られることを示す。 さらに、入力状態の大きな族に対して、任意の最大符号化スキームは有限数のチャネル減衰値を持ち、符号語を出力位相空間の原点付近の有限個の環に単純化する。 上記の結果と数値的な証拠は、この性質が全ての資源状態に対して成り立つことを示唆している。 この結果は, 環境熱雑音の存在下での光メモリの量子読み取りに直接適用できる。

The amount of information that a noisy channel can transmit has been one of the primary subjects of interest in information theory. In this work we consider a practically-motivated family of optical quantum channels that can be implemented without an external energy source. We optimize the Holevo information over procedures that encode information in attenuations and phase-shifts applied by these channels on a resource state of finite energy. It is shown that for any given input state and environment temperature, the maximum Holevo information can be achieved by an encoding procedure that uniformly distributes the channel's phase-shift parameter. Moreover for large families of input states, any maximizing encoding scheme has a finite number of channel attenuation values, simplifying the codewords to a finite number of rings around the origin in the output phase space. The above results and numerical evidence suggests that this property holds for all resource states. Our results are directly applicable to the quantum reading of an optical memory in the presence of environmental thermal noise.
翻訳日:2023-05-02 17:45:15 公開日:2023-04-28
# 肺結節の検出と分類による肺がん診断のためのエンド・ツー・エンド深層学習フレームワーク

An automated end-to-end deep learning-based framework for lung cancer diagnosis by detecting and classifying the lung nodules ( http://arxiv.org/abs/2305.00046v1 )

ライセンス: Link先を確認
Samiul Based Shuvo(参考訳) 肺がんは世界中のがん関連死亡の主な原因であり、早期発見は患者の予後を改善するために重要である。 それにもかかわらず、がんの早期診断は大きな課題であり、特に医療資源や放射線技師へのアクセスが制限される低リソース環境においてである。 本研究の目的は、肺結節の早期発見と分類、特に低リソース設定のための、エンド・ツー・エンドのディープラーニングに基づく自動フレームワークを提案することである。 提案フレームワークは,3次元U-Netを改良した3次元Res-U-Netを用いた肺分画,YOLO-v5を用いた結節検出,Vision Transformerベースのアーキテクチャを用いた分類の3段階からなる。 提案するフレームワークを,公開データセットLUNA16上で評価した。 提案フレームワークの性能は,各ドメインの評価行列を用いて測定した。 提案法では, 肺結節を0.76 mAP@50で検出し, 偽陽性率の低い98.82%の肺分画ダイススコアを得た。 提案手法の両ネットワークの性能を他の研究と比較し,セグメンテーションと検出精度で比較した。 さらに,提案したビジョン変換器ネットワークの精度は93.57%であり,最先端ネットワークよりも1.21高い。 提案するエンド・ツー・エンドのディープラーニングフレームワークは肺を効果的にセグメンテーションし,肺結節を検出・分類することができる。 提案フレームワークは,すべての評価指標に関する既存の研究を上回っている。 提案手法は低リソース環境での肺癌検診の精度と効率を向上し,最終的には患者の予後を改善できる。

Lung cancer is a leading cause of cancer-related deaths worldwide, and early detection is crucial for improving patient outcomes. Nevertheless, early diagnosis of cancer is a major challenge, particularly in low-resource settings where access to medical resources and trained radiologists is limited. The objective of this study is to propose an automated end-to-end deep learning-based framework for the early detection and classification of lung nodules, specifically for low-resource settings. The proposed framework consists of three stages: lung segmentation using a modified 3D U-Net named 3D Res-U-Net, nodule detection using YOLO-v5, and classification with a Vision Transformer-based architecture. We evaluated the proposed framework on a publicly available dataset, LUNA16. The proposed framework's performance was measured using the respective domain's evaluation matrices. The proposed framework achieved a 98.82% lung segmentation dice score while detecting the lung nodule with 0.76 mAP@50 from the segmented lung, at a low false-positive rate. The performance of both networks of the proposed framework was compared with other studies and found to outperform them regarding segmentation and detection accuracy. Additionally, our proposed Vision transformer network obtained an accuracy of 93.57%, which is 1.21 higher than the state-of-the-art networks. Our proposed end-to-end deep learning-based framework can effectively segment lungs, and detect and classify lung nodules, specifically in low-resource settings with limited access to radiologists. The proposed framework outperforms existing studies regarding all the respective evaluation metrics. The proposed framework can potentially improve the accuracy and efficiency of lung cancer screening in low-resource settings, ultimately leading to better patient outcomes.
翻訳日:2023-05-02 17:39:28 公開日:2023-04-28
# aiを利用したヘドニック価格と品質調整価格指数

Hedonic Prices and Quality Adjusted Price Indices Powered by AI ( http://arxiv.org/abs/2305.00044v1 )

ライセンス: Link先を確認
Patrick Bajari, Zhihao Cen, Victor Chernozhukov, Manoj Manukonda, Suhas Vijaykunar, Jin Wang, Ramon Huerta, Junbo Li, Ling Leng, George Monokroussos, and Shan Wan(参考訳) 電子記録を用いた価格指数の変化の正確なリアルタイム測定は、今日の経済環境におけるインフレと生産性の追跡に不可欠である。 我々は、大量の非構造化製品データ(テキスト、画像、価格、量)を処理し、正確なヘドニック価格推定と導出指標を出力できる経験的ヘドニックモデルを開発する。 これを達成するために、深層ニューラルネットワークを用いてテキスト記述と画像から抽象的製品属性(`features'')を生成し、それらの属性を用いてヘドニックプライス関数を推定する。 具体的には、変換器をベースとした大規模言語モデルを用いて、製品に関するテキスト情報を数値化し、製品記述を用いて訓練または微調整を行い、残余ネットワークモデルを用いて製品イメージを数値化する。 推定ヘドニック価格関数を生成するために、我々は再び、製品の価格を常に同時に予測するように訓練されたマルチタスクニューラルネットワークを使用する。 このアプローチのパフォーマンスを示すために、amazonのデータにモデルを適用し、ファーストパーティアパレルの販売とヘドニック価格の推定を行う。 得られたモデルは予測精度が高く、$R^2$は$80\%$から$90\%$の範囲である。 最後に,aiベースのヘドニックフィッシャー価格指数を,年々の頻度で連鎖的に構築する。 我々は、指標をCPIや他の電子指標と対比する。

Accurate, real-time measurements of price index changes using electronic records are essential for tracking inflation and productivity in today's economic environment. We develop empirical hedonic models that can process large amounts of unstructured product data (text, images, prices, quantities) and output accurate hedonic price estimates and derived indices. To accomplish this, we generate abstract product attributes, or ``features,'' from text descriptions and images using deep neural networks, and then use these attributes to estimate the hedonic price function. Specifically, we convert textual information about the product to numeric features using large language models based on transformers, trained or fine-tuned using product descriptions, and convert the product image to numeric features using a residual network model. To produce the estimated hedonic price function, we again use a multi-task neural network trained to predict a product's price in all time periods simultaneously. To demonstrate the performance of this approach, we apply the models to Amazon's data for first-party apparel sales and estimate hedonic prices. The resulting models have high predictive accuracy, with $R^2$ ranging from $80\%$ to $90\%$. Finally, we construct the AI-based hedonic Fisher price index, chained at the year-over-year frequency. We contrast the index with the CPI and other electronic indices.
翻訳日:2023-05-02 17:38:57 公開日:2023-04-28
# 3dクロスモダリティmri合成のための周期誘導脱音拡散確率モデル

Cycle-guided Denoising Diffusion Probability Model for 3D Cross-modality MRI Synthesis ( http://arxiv.org/abs/2305.00042v1 )

ライセンス: Link先を確認
Shaoyan Pan, Chih-Wei Chang, Junbo Peng, Jiahan Zhang, Richard L.J. Qiu, Tonghe Wang, Justin Roper, Tian Liu, Hui Mao and Xiaofeng Yang(参考訳) 本研究では, クロスモダリティmri合成のための新しいcg-ddpm(cycle-guided denoising diffusion probability model)の開発を目指している。 CG-DDPMは2つのDDPMを配置し、2つの異なるMRIパルスシーケンスから合成画像を生成する。 2つのDDPMは逆のプロセスでランダム潜時雑音を交換し、2つのモードで一致する画像を生成する。 これにより、画像から画像への翻訳精度が向上する。 我々はBraTS2020データセットを用いて,平均絶対誤差(MAE),マルチスケール構造類似度指数(MSSIM),ピークシグ・ナル・トゥ・ノイズ比(PSNR)およびネットワーク合成整合性を用いてCG-DDPMを定量的に評価した。 提案手法はMRI合成における高精度で信頼性の高い整合性を示した。 さらに, CG-DDPMを他の最先端ネットワークと比較し, 画像品質の統計的に有意な改善が認められた。 提案手法は, より正確な診断と治療計画に寄与し, 追加のMRIモダリティを合成することにより, 現行のマルチモーダルMRI合成法の有用性を高める。

This study aims to develop a novel Cycle-guided Denoising Diffusion Probability Model (CG-DDPM) for cross-modality MRI synthesis. The CG-DDPM deploys two DDPMs that condition each other to generate synthetic images from two different MRI pulse sequences. The two DDPMs exchange random latent noise in the reverse processes, which helps to regularize both DDPMs and generate matching images in two modalities. This improves image-to-image translation ac-curacy. We evaluated the CG-DDPM quantitatively using mean absolute error (MAE), multi-scale structural similarity index measure (MSSIM), and peak sig-nal-to-noise ratio (PSNR), as well as the network synthesis consistency, on the BraTS2020 dataset. Our proposed method showed high accuracy and reliable consistency for MRI synthesis. In addition, we compared the CG-DDPM with several other state-of-the-art networks and demonstrated statistically significant improvements in the image quality of synthetic MRIs. The proposed method enhances the capability of current multimodal MRI synthesis approaches, which could contribute to more accurate diagnosis and better treatment planning for patients by synthesizing additional MRI modalities.
翻訳日:2023-05-02 17:38:37 公開日:2023-04-28
# ViP-NeRF:スパース入力型ニューラルラジアンスフィールドの可視性

ViP-NeRF: Visibility Prior for Sparse Input Neural Radiance Fields ( http://arxiv.org/abs/2305.00041v1 )

ライセンス: Link先を確認
Nagabhushan Somraj, Rajiv Soundararajan(参考訳) neural radiance fields (nerf) はシーンのニューラルネットワーク表現をエンコードすることで、視覚合成において素晴らしい性能を達成している。 しかし、NeRFは写真リアリスティック・ノベルビューを合成するために、シーンごとに数百の画像を必要とする。 スパースインプットビューのトレーニングは、レンダリングされた新規ビューのアーティファクトをもたらす過度な適合と誤ったシーン深さ推定につながる。 Sparse input NeRFs was regularized by provide dense depth estimated from pre-trained network as supervision, to achieve improve performance over sparse depth constraints。 しかし,そのような深さ優先は一般化の問題により不正確である可能性がある。 代わりに、異なる入力ビューにおける画素の可視性をより確実に推定し、より密集した監視を行うことができると仮定する。 本研究では,事前学習を必要としない平面スイープボリュームを用いて,事前の可視性を計算する。 視認性を優先してNeRFトレーニングを正規化することにより,入力ビューの少ないNeRFトレーニングに成功した。 我々は、NeRFを再構成して、与えられた視点から3Dポイントの可視性を直接出力し、可視性制約でトレーニング時間を短縮する。 複数のデータセットにおいて、学習した先行データを含む競合するスパース入力NeRFモデルよりも優れている。 私たちのモデルのソースコードは、プロジェクトページにある。 https://nagabhushansn95.github.io/publications/2023/ViP-NeRF.html。

Neural radiance fields (NeRF) have achieved impressive performances in view synthesis by encoding neural representations of a scene. However, NeRFs require hundreds of images per scene to synthesize photo-realistic novel views. Training them on sparse input views leads to overfitting and incorrect scene depth estimation resulting in artifacts in the rendered novel views. Sparse input NeRFs were recently regularized by providing dense depth estimated from pre-trained networks as supervision, to achieve improved performance over sparse depth constraints. However, we find that such depth priors may be inaccurate due to generalization issues. Instead, we hypothesize that the visibility of pixels in different input views can be more reliably estimated to provide dense supervision. In this regard, we compute a visibility prior through the use of plane sweep volumes, which does not require any pre-training. By regularizing the NeRF training with the visibility prior, we successfully train the NeRF with few input views. We reformulate the NeRF to also directly output the visibility of a 3D point from a given viewpoint to reduce the training time with the visibility constraint. On multiple datasets, our model outperforms the competing sparse input NeRF models including those that use learned priors. The source code for our model can be found on our project page: https://nagabhushansn95.github.io/publications/2023/ViP-NeRF.html.
翻訳日:2023-05-02 17:38:16 公開日:2023-04-28
# 量子スピン鎖の可積分性と複雑性

Integrability and complexity in quantum spin chains ( http://arxiv.org/abs/2305.00037v1 )

ライセンス: Link先を確認
Ben Craps, Marine De Clerck, Oleg Evnin, Philip Hacker(参考訳) 可積分系の力学的進化は、一般的なシステムの進化よりも定量的な意味で単純であるべきだという認識が広まっているが、実際は可積分性と複雑性の減少の関係は解明されていない。 我々は、与えられた量子ハミルトニアンの固有ベクトルの観点から特定の行列を構築することにより、この種の接続を提供する。 この行列のヌル固有値は、単純局所性(可積分性の指標)を持つ保存量と1対1対応である。 一方、固有値の典型的な大きさは、同じ局所性仕様で定義される量子進化作用素のニールセンの複雑さの明示的な境界を制御している。 この接続が、積分性によって管理される高度に構造化された保存則の様々な配列を持つ量子スピン鎖の具体的な例でどのように機能するかを実証する。

There is a widespread perception that dynamical evolution of integrable systems should be simpler in a quantifiable sense than the evolution of generic systems, though demonstrating this relation between integrability and reduced complexity in practice has remained elusive. We provide a connection of this sort by constructing a specific matrix in terms of the eigenvectors of a given quantum Hamiltonian. The null eigenvalues of this matrix are in one-to-one correspondence with conserved quantities that have simple locality properties (a hallmark of integrability). The typical magnitude of the eigenvalues, on the other hand, controls an explicit bound on Nielsen's complexity of the quantum evolution operator, defined in terms of the same locality specifications. We demonstrate how this connection works in a few concrete examples of quantum spin chains that possess diverse arrays of highly structured conservation laws mandated by integrability.
翻訳日:2023-05-02 17:37:50 公開日:2023-04-28
# SAM on Medical Images : 3つのプロンプトモードに関する総合的研究

SAM on Medical Images: A Comprehensive Study on Three Prompt Modes ( http://arxiv.org/abs/2305.00035v1 )

ライセンス: Link先を確認
Dongjie Cheng, Ziyuan Qin, Zekun Jiang, Shaoting Zhang, Qicheng Lao, Kang Li(参考訳) Segment Anything Model(SAM)が最近デビューし、多くの研究者がゼロショットの一般化能力の観点からその可能性と限界を探究した。 セグメンテーションタスクの最初の迅速な基礎モデルとして、前例のない数の画像とアノテーションを持つ大規模なデータセットでトレーニングされた。 この大規模データセットとその即効性は、モデルに強いゼロショット一般化を与える。 samはいくつかのデータセットで競争力のある性能を示しているが、医療画像のゼロショット一般化についても調査したい。 私たちが知っているように、医療画像アノテーションの取得は通常、専門家の努力を必要とする。 したがって、数点プロンプトだけで高品質のマスク予測ができる基礎モデルが存在するとすれば、このモデルは間違いなく医療画像解析のゲームチェンジャーとなるだろう。 SAMが医用画像セグメンテーションタスクの基礎モデルになる可能性を評価するために, 様々な臓器やモダリティをカバーする12以上の公開医用画像データセットを収集した。 我々はまた、どのようなプロンプトが、異なるモダリティを持つ最高のゼロショットパフォーマンスにつながるかを探ります。 さらに,箱の大きさの摂動が予測精度を大きく変化させることを示すパターンが得られた。 最後に、Extensive実験は、予測されたマスクの品質が、異なるデータセット間で大きく変化することを示した。 また、SAMにバウンディングボックスのような適切なプロンプトを提供することで、パフォーマンスが大幅に向上する。

The Segment Anything Model (SAM) made an eye-catching debut recently and inspired many researchers to explore its potential and limitation in terms of zero-shot generalization capability. As the first promptable foundation model for segmentation tasks, it was trained on a large dataset with an unprecedented number of images and annotations. This large-scale dataset and its promptable nature endow the model with strong zero-shot generalization. Although the SAM has shown competitive performance on several datasets, we still want to investigate its zero-shot generalization on medical images. As we know, the acquisition of medical image annotation usually requires a lot of effort from professional practitioners. Therefore, if there exists a foundation model that can give high-quality mask prediction simply based on a few point prompts, this model will undoubtedly become the game changer for medical image analysis. To evaluate whether SAM has the potential to become the foundation model for medical image segmentation tasks, we collected more than 12 public medical image datasets that cover various organs and modalities. We also explore what kind of prompt can lead to the best zero-shot performance with different modalities. Furthermore, we find that a pattern shows that the perturbation of the box size will significantly change the prediction accuracy. Finally, Extensive experiments show that the predicted mask quality varied a lot among different datasets. And providing proper prompts, such as bounding boxes, to the SAM will significantly increase its performance.
翻訳日:2023-05-02 17:37:35 公開日:2023-04-28
# Text-Blueprint: 計画ベースの条件生成のためのインタラクティブプラットフォーム

Text-Blueprint: An Interactive Platform for Plan-based Conditional Generation ( http://arxiv.org/abs/2305.00034v1 )

ライセンス: Link先を確認
Fantine Huot, Joshua Maynez, Shashi Narayan, Reinald Kim Amplayo, Kuzman Ganchev, Annie Louis, Anders Sandholm, Dipanjan Das, Mirella Lapata(参考訳) 条件付き生成モデルは、流動的なテキストを生成するのに十分な自然言語を生成することができるが、生成プロセスを制御することは依然として困難であり、無関係で反復的で幻覚的なコンテンツを生み出す。 最近の研究は、計画が条件付き生成を不透明でより地味にするために有用な中間ステップであることを示している。 本稿では,問合せに焦点を絞った要約のためのWebブラウザベースのデモを,テキスト生成を導くブループリントプランとして,質問応答ペアのシーケンスを用いて提示する。 ユーザが生成したテキストと関連する計画視覚化とどのように対話するかを説明する。例えば、生成した出力を改善または制御するために、ブループリントを編集および修正する。 私たちのシステムをデモした短いビデオは、https://goo.gle/text-blueprint-demoで閲覧できます。

While conditional generation models can now generate natural language well enough to create fluent text, it is still difficult to control the generation process, leading to irrelevant, repetitive, and hallucinated content. Recent work shows that planning can be a useful intermediate step to render conditional generation less opaque and more grounded. We present a web browser-based demonstration for query-focused summarization that uses a sequence of question-answer pairs, as a blueprint plan for guiding text generation (i.e., what to say and in what order). We illustrate how users may interact with the generated text and associated plan visualizations, e.g., by editing and modifying the blueprint in order to improve or control the generated output. A short video demonstrating our system is available at https://goo.gle/text-blueprint-demo.
翻訳日:2023-05-02 17:37:13 公開日:2023-04-28
# 消散性境界状態調製

Dissipative Boundary State Preparation ( http://arxiv.org/abs/2305.00031v1 )

ライセンス: Link先を確認
Fan Yang, Paolo Molignini, Emil J. Bergholtz(参考訳) 我々は、コヒーレントハミルトン力学と局所散逸の相互作用を通じて、トポロジカルまたは非トポロジカル量子系の境界状態を作成するために、汎用的で実験的に利用できるレシピを考案する。 直感的には,損失が適切に設計される部分格子上で消失する境界状態の空間構造を利用する。 これにより、目的の境界状態が無限の寿命で膨らむような特異な非自明な定常状態が得られ、他の全ての状態は指数的に減衰する。 注目すべきは、損失を1つの境界でのみ適用すると、全く同じ境界で局所化された一意な定常状態が得られることである。 我々は1次元Su-Schrieffer-Heegerモデルと2次元チャーン絶縁体に対するスペクトルミラー対称性の存在下でのフルリウヴィリアスペクトルと散逸ギャップを厳密に導出した。 我々は,このレシピを汎用的な非対話システムへ拡張する方法について概説する。

We devise a generic and experimentally accessible recipe to prepare boundary states of topological or non-topological quantum systems through an interplay between coherent Hamiltonian dynamics and local dissipation. Intuitively, our recipe harnesses the spatial structure of boundary states which vanish on sublattices where losses are suitably engineered. This yields unique non-trivial steady states that populate the targeted boundary states with infinite life times while all other states are exponentially damped in time. Remarkably, applying loss only at one boundary can yield a unique steady state localized at the very same boundary. We detail our construction and rigorously derive full Liouvillian spectra and dissipative gaps in the presence of a spectral mirror symmetry for a one-dimensional Su-Schrieffer-Heeger model and a two-dimensional Chern insulator. We outline how our recipe extends to generic non-interacting systems.
翻訳日:2023-05-02 17:36:58 公開日:2023-04-28
# 新型コロナウイルスパンデミックによる深層学習によるマスク検出

Wearing face mask detection using deep learning through COVID-19 pandemic ( http://arxiv.org/abs/2305.00068v1 )

ライセンス: Link先を確認
Javad Khoramdel, Soheila Hatami, Majid Sadedel(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、マスクを着用したことが、新型コロナウイルスの感染拡大を防ぐための効果的な方法であることが知られている。 多くのモニタリングタスクにおいて、ディープラーニングモデルの優れたパフォーマンスのおかげで、人間はコンピュータに置き換えられている。 フェイスマスクの着用を監視することは、許容できる精度でディープラーニングモデルによって実行できる別のタスクである。 このタスクの主な課題は、隔離のために限られた量のデータである。 本稿では,リアルタイムアプリケーションのためのマスク検出における3つの最先端オブジェクト検出ニューラルネットワークの能力について検討した。 前述のように、Single Shot Detector(SSD)、You Only Look Once(YOLO)、YOLOv4-tiny、YOLOv4-tiny-3lの2つのバージョンが使用される。 提案手法では,実世界およびモバイルデバイスでの利用に適した最善のモデルとして,平均精度(map)が85.31%,フレーム/秒(fps)が50.66のyolov4-tinyモデルが提案されている。 これらの許容値は、3つのクラスで1531のイメージしか持たない2つのデータセットを用いて達成された。

During the COVID-19 pandemic, wearing a face mask has been known to be an effective way to prevent the spread of COVID-19. In lots of monitoring tasks, humans have been replaced with computers thanks to the outstanding performance of the deep learning models. Monitoring the wearing of a face mask is another task that can be done by deep learning models with acceptable accuracy. The main challenge of this task is the limited amount of data because of the quarantine. In this paper, we did an investigation on the capability of three state-of-the-art object detection neural networks on face mask detection for real-time applications. As mentioned, here are three models used, Single Shot Detector (SSD), two versions of You Only Look Once (YOLO) i.e., YOLOv4-tiny, and YOLOv4-tiny-3l from which the best was selected. In the proposed method, according to the performance of different models, the best model that can be suitable for use in real-world and mobile device applications in comparison to other recent studies was the YOLOv4-tiny model, with 85.31% and 50.66 for mean Average Precision (mAP) and Frames Per Second (FPS), respectively. These acceptable values were achieved using two datasets with only 1531 images in three separate classes.
翻訳日:2023-05-02 17:29:36 公開日:2023-04-28
# 生成拡散特徴を持つ3次元階層構造の教師なし発見

Unsupervised Discovery of 3D Hierarchical Structure with Generative Diffusion Features ( http://arxiv.org/abs/2305.00067v1 )

ライセンス: Link先を確認
Nurislam Tursynbek, Marc Niethammer(参考訳) 生成拡散モデルが意味論的に意味のある表現を学習する最近の知見に触発されて,非教師なしセグメンテーションを用いた生体医用3次元画像の内在的階層構造を発見する。 U-Netベースのはしご型アーキテクチャの異なる段階からの拡散モデルの特徴は、生体医用画像の様々な階層レベルをキャプチャする。 我々は3つの損失を予測的教師なしセグメンテーションネットワークのトレーニングとして設計し、3次元ボリュームを階層を表す意味のあるネスト付きサブボリュームに分解することを奨励する。 まず,3次元拡散モデルを事前学習し,サブボリュームにまたがる特徴の一貫性を利用する。 第二に、サブボリューム間の視覚的整合性を利用する。 第3に、光度増倍に対する不変性を正則化として用いる。 我々のモデルは、生物学的にインスパイアされた合成データセットと現実世界の脳腫瘍MRIデータセットに挑戦する、教師なし構造発見アプローチよりも優れたパフォーマンスを実現する。

Inspired by recent findings that generative diffusion models learn semantically meaningful representations, we use them to discover the intrinsic hierarchical structure in biomedical 3D images using unsupervised segmentation. We show that features of diffusion models from different stages of a U-Net-based ladder-like architecture capture different hierarchy levels in 3D biomedical images. We design three losses to train a predictive unsupervised segmentation network that encourages the decomposition of 3D volumes into meaningful nested subvolumes that represent a hierarchy. First, we pretrain 3D diffusion models and use the consistency of their features across subvolumes. Second, we use the visual consistency between subvolumes. Third, we use the invariance to photometric augmentations as a regularizer. Our models achieve better performance than prior unsupervised structure discovery approaches on challenging biologically-inspired synthetic datasets and on a real-world brain tumor MRI dataset.
翻訳日:2023-05-02 17:29:11 公開日:2023-04-28
# 量子力学の学生の理解を改善するために、高水準数学を抽象化と切り換えるべきだろうか?

Should we trade off higher-level mathematics for abstraction to improve student understanding of quantum mechanics? ( http://arxiv.org/abs/2305.00062v1 )

ライセンス: Link先を確認
James K. Freericks and Leanne Doughty(参考訳) 学部の量子力学は、位置空間表現における波動関数アプローチによる教育に焦点を当てている。 これにより、材料を教えるための微分方程式の視点が導かれる。 しかし,高調波発振器の直列解法と抽象演算子法を学習することにより,抽象表現非依存アプローチが学生によく作用することが知られている。 同様の抽象的な方法を使って、解くことができる量子問題をすべて教えることができるので、疑問が浮かび上がり、生徒の理解を深める可能性がある。 ジョージタウン大学とEDXでの研究で、我々はオペレーター・フォワードの視点に焦点を当てたクラスを教えており、オペレーター・メカニックと呼ぶのが好きです。 量子力学を表現に依存しない方法で教え、微分方程式に基づくのではなく、ほとんどの数学が代数的になる。 それは4つの基本作用素のアイデンティティに依存します。 (i)通勤者に対するライプニッツ規則 (ii)ハダマールの補題 (iii)ベーカー・カンベル・ハウスドルフ公式、及び (4)指数的不絡み合いのアイデンティティ。 これらの同一性により、すべての解析的可解問題に対する固有値、固有状態、波動関数(モースポテンシャルやポシュルテラーポテンシャルなど、学部のカリキュラムに多く含まれない問題を含む)を解くことができる。 また、スクイーズ状態のような量子センシングに関連するより高度な概念を、従来よりも単純なフォーマットで導入することができる。 本稿では, 行列力学, 波動力学, 演算子力学の3つのアプローチを概説し, この新しい形式でクラスを編成する方法を示し, 量子力学をこの方法で教えた経験を要約し, 量子カリキュラムが21世紀のより近代的なトピックにどのように焦点を合わせるかを説明する。

Undergraduate quantum mechanics focuses on teaching through a wavefunction approach in the position-space representation. This leads to a differential equation perspective for teaching the material. However, we know that abstract representation-independent approaches often work better with students, by comparing student reactions to learning the series solution of the harmonic oscillator versus the abstract operator method. Because one can teach all of the solvable quantum problems using a similar abstract method, it brings up the question, which is likely to lead to a better student understanding? In work at Georgetown University and with edX, we have been teaching a class focused on an operator-forward viewpoint, which we like to call operator mechanics. It teaches quantum mechanics in a representation-independent fashion and allows for most of the math to be algebraic, rather than based on differential equations. It relies on four fundamental operator identities -- (i) the Leibniz rule for commutators; (ii) the Hadamard lemma; (iii) the Baker-Campbell-Hausdorff formula; and (iv) the exponential disentangling identity. These identities allow one to solve eigenvalues, eigenstates and wavefunctions for all analytically solvable problems (including some not often included in undergraduate curricula, such as the Morse potential or the Poschl-Teller potential). It also allows for more advanced concepts relevant for quantum sensing, such as squeezed states, to be introduced in a simpler format than is conventionally done. In this paper, we illustrate the three approaches of matrix mechanics, wave mechanics, and operator mechanics, we show how one organizes a class in this new format, we summarize the experiences we have had with teaching quantum mechanics in this fashion and we describe how it allows us to focus the quantum curriculum on more modern 21st century topics appropriate for the
翻訳日:2023-05-02 17:28:56 公開日:2023-04-28
# Explainable Verbal Reasoner Plus (EVR+): 多様な構成推論をサポートする自然言語推論フレームワーク

Explainable Verbal Reasoner Plus (EVR+): A Natural Language Reasoning Framework that Supports Diverse Compositional Reasoning ( http://arxiv.org/abs/2305.00061v1 )

ライセンス: Link先を確認
Zhengzhong Liang, Zeyu Zhang, Steven Bethard, Mihai Surdeanu(参考訳) 言語モデルは、NLPにおける様々な推論タスクにうまく適用されてきたが、言語モデルは依然として構成的一般化に悩まされている。 本稿では,(1)モデルが記号演算子を明示的に生成・実行し,(2)モデルが複雑なタスクを柔軟に複数の単純なタスクに分解できるようにすることにより,言語モデルの合成推論能力を向上する推論フレームワークであるExplainable Verbal Reasoner Plus(EVR+)を提案する。 従来の Explainable Verbal Reasoner (EVR) や他の類似のアイデアを取り入れたアプローチと比較して、我々のフレームワークはネストループや異なるタイプの再帰のようなより多様な推論をサポートする。 推論フレームワークを評価するために、合成推論を必要とする5つのタスクからなる合成データセットを構築します。 その結果,5つのタスクにおける言語モデルの構成一般化性能を,微調整言語モデルを用いて向上させることができることがわかった。 また、推論フレームワークと数発のトリガー言語モデルを組み合わせる可能性と課題についても論じました。

Languages models have been successfully applied to a variety of reasoning tasks in NLP, yet the language models still suffer from compositional generalization. In this paper we present Explainable Verbal Reasoner Plus (EVR+), a reasoning framework that enhances language models' compositional reasoning ability by (1) allowing the model to explicitly generate and execute symbolic operators, and (2) allowing the model to decompose a complex task into several simpler ones in a flexible manner. Compared with its predecessor Explainable Verbal Reasoner (EVR) and other previous approaches adopting similar ideas, our framework supports more diverse types of reasoning such as nested loops and different types of recursion. To evaluate our reasoning framework, we build a synthetic dataset with five tasks that require compositional reasoning. Results show that our reasoning framework can enhance the language model's compositional generalization performance on the five tasks, using a fine-tuned language model. We also discussed the possibility and the challenges to combine our reasoning framework with a few-shot prompted language model.
翻訳日:2023-05-02 17:28:23 公開日:2023-04-28
# 化学応用のための量子固有ベクトル継続

Quantum Eigenvector Continuation for Chemistry Applications ( http://arxiv.org/abs/2305.00060v1 )

ライセンス: Link先を確認
Carlos Mejuto-Zaera, Alexander F. Kemper(参考訳) 化学における古典的および量子コンピューティングの典型的な課題は、反応座標に沿ってポテンシャルエネルギー表面(PES)を見つけることである。 このタスクを量子コンピュータ上で達成するためのアルゴリズムの開発は発展の活発な領域であるが、反応座標に沿ったすべての関連する固有状態を見つけることは難しい問題であり、PSSを決定することはコストがかかる提案である。 本稿では,数個の固有状態を基礎とする部分空間展開である固有ベクトル継続を,ポテンシャルエネルギー面を高速に探索するためのツールとして用いることを実証する。 これを様々な複雑性を持つ分子の結合性peまたはねじれpesを決定するために応用する。 いずれの場合においても、比較的少ない基底状態を用いてpeを捕獲できることを示し、この方法で既に計算済みの基底状態を使用することで、かなりの量の(量子)計算労力を節約できることを示唆している。

A typical task for classical and quantum computing in chemistry is finding a potential energy surface (PES) along a reaction coordinate, which involves solving the quantum chemistry problem for many points along the reaction path. Developing algorithms to accomplish this task on quantum computers has been an active area of development, yet finding all the relevant eigenstates along the reaction coordinate remains a difficult problem, and determining PESs is thus a costly proposal. In this paper, we demonstrate the use of a eigenvector continuation -- a subspace expansion that uses a few eigenstates as a basis -- as a tool for rapidly exploring potential energy surfaces. We apply this to determining the binding PES or torsion PES for several molecules of varying complexity. In all cases, we show that the PES can be captured using relatively few basis states; suggesting that a significant amount of (quantum) computational effort can be saved by making use of already calculated ground states in this manner.
翻訳日:2023-05-02 17:28:03 公開日:2023-04-28
# 演算子操作を用いたガウス波束のフリー展開

Free expansion of a Gaussian wavepacket using operator manipulations ( http://arxiv.org/abs/2305.00059v1 )

ライセンス: Link先を確認
Alessandro M. Orjuela and J. K. Freericks(参考訳) ガウス波束のフリー展開は、時間依存シュロディンガー方程式を直接微分方程式として解くことによって、学部の量子クラスでよく議論される問題である。 本研究では、ガウス波束を周波数を調整した高調波振動子の基底状態とみなすことができ、ガウス波束の初期幅を与えることができ、自由粒子ハミルトニアンによって与えられる時間発展は、時依存スケズ演算子の高調波振動子基底状態への適用と同じである、と認識して自由膨張を計算する方法を提案する。 演算子操作は単独で(アダマール補題や指数的非絡み合いの同一性を含む)、直接その問題を解くことができる。 量子インストラクションが進化して量子情報科学の応用が広まるにつれ、このよく知られた問題をスキューズフォーマリズムを使って再研究することで、学生は量子センシングで押された状態がどのように使われているかの直感を身につけることができる。

The free expansion of a Gaussian wavepacket is a problem commonly discussed in undergraduate quantum classes by directly solving the time-dependent Schrodinger equation as a differential equation. In this work, we provide an alternative way to calculate the free expansion by recognizing that the Gaussian wavepacket can be thought of as the ground state of a harmonic oscillator with its frequency adjusted to give the initial width of the Gaussian, and the time evolution, given by the free-particle Hamiltonian, being the same as the application of a time-dependent squeezing operator to the harmonic oscillator ground state. Operator manipulations alone (including the Hadamard lemma and the exponential disentangling identity) then allow us to directly solve the problem. As quantum instruction evolves to include more quantum information science applications, reworking this well known problem using a squeezing formalism will help students develop intuition for how squeezed states are used in quantum sensing.
翻訳日:2023-05-02 17:27:46 公開日:2023-04-28
# LAVA: 事前特定学習アルゴリズムのないデータ評価

LAVA: Data Valuation without Pre-Specified Learning Algorithms ( http://arxiv.org/abs/2305.00054v1 )

ライセンス: Link先を確認
Hoang Anh Just, Feiyang Kang, Jiachen T. Wang, Yi Zeng, Myeongseob Ko, Ming Jin, Ruoxi Jia(参考訳) 伝統的に、データ評価は、学習アルゴリズムの検証性能をトレーニングデータ間で公平に分割する問題として提起される。 その結果、計算されたデータ値は、基礎となる学習アルゴリズムの多くの設計選択に依存する。 しかし、データ取得プロセスにおける異なるデータソースに対する優先順位の設定や、データマーケットプレースにおける価格設定メカニズムの実行など、データバリュエーションの多くのユースケースでは、この依存は望ましくない。 これらのシナリオでは、データは実際の分析の前に評価され、学習アルゴリズムの選択はまだ決定されていない。 依存のもう一つの副作用は、個々の点の値を評価するためには、ポイントなしで学習アルゴリズムを再実行する必要があることである。 この作業は、下流の学習アルゴリズムに欠かせない方法でトレーニングデータを評価できる新しいフレームワークを導入することで、現在のデータ評価手法の限界を乗り越えるものだ。 1) トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて, トレーニングセットに関連する検証性能のプロキシを開発する。 距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。 2) クラス別ワッサースタイン距離の感度解析に基づいて, 個人データを評価する新しい手法を開発した。 重要なことは、これらの値は距離を計算する際にオフザシェルフ最適化ソルバの出力から直接得ることができる。 3) 低品質なデータの検出に関するさまざまなユースケースに対して,新たなデータ評価フレームワークを評価した上で,驚くべきことに,このフレームワークの学習非依存機能は,桁違いに高速でありながら,最先端のパフォーマンスを大幅に改善できることを示しました。

Traditionally, data valuation is posed as a problem of equitably splitting the validation performance of a learning algorithm among the training data. As a result, the calculated data values depend on many design choices of the underlying learning algorithm. However, this dependence is undesirable for many use cases of data valuation, such as setting priorities over different data sources in a data acquisition process and informing pricing mechanisms in a data marketplace. In these scenarios, data needs to be valued before the actual analysis and the choice of the learning algorithm is still undetermined then. Another side-effect of the dependence is that to assess the value of individual points, one needs to re-run the learning algorithm with and without a point, which incurs a large computation burden. This work leapfrogs over the current limits of data valuation methods by introducing a new framework that can value training data in a way that is oblivious to the downstream learning algorithm. (1) We develop a proxy for the validation performance associated with a training set based on a non-conventional class-wise Wasserstein distance between the training and the validation set. We show that the distance characterizes the upper bound of the validation performance for any given model under certain Lipschitz conditions. (2) We develop a novel method to value individual data based on the sensitivity analysis of the class-wise Wasserstein distance. Importantly, these values can be directly obtained for free from the output of off-the-shelf optimization solvers when computing the distance. (3) We evaluate our new data valuation framework over various use cases related to detecting low-quality data and show that, surprisingly, the learning-agnostic feature of our framework enables a significant improvement over the state-of-the-art performance while being orders of magnitude faster.
翻訳日:2023-05-02 17:27:26 公開日:2023-04-28
# クリックフィードバック検索

Click-Feedback Retrieval ( http://arxiv.org/abs/2305.00052v1 )

ライセンス: Link先を確認
Zeyu Wang, Yu Wu(参考訳) 入力クエリに基づくターゲット情報検索は,多くの実世界アプリケーションにおいて極めて重要である。 実際には、初期探索が失敗することは珍しくなく、探索プロセスを導くために追加のフィードバック情報が必要である。 本研究では,ユーザが好ましくない検索結果をクリックしてフィードバックを提供する環境について検討する。 この形式のフィードバックは、利便性と効率性に対して非常に実践的な関心事であると考えています。 そこで,本稿では,ファッション領域における大規模データセットに基づくクリックフィードバック検索という新しいベンチマークを構築した。 クリックフィードバックを組み込むことで検索性能が大幅に向上し,提案する設定の値が検証できることを示す。 また, 学習中にクリックフィードバックを利用する方法をいくつか紹介し, クリックフィードバック誘導訓練によって検索品質が著しく向上することを示す。 この方向のさらなる探究が、より効率的でユーザーフレンドリーな検索エンジンを構築するための新しい洞察をもたらすことを願っている。

Retrieving target information based on input query is of fundamental importance in many real-world applications. In practice, it is not uncommon for the initial search to fail, where additional feedback information is needed to guide the searching process. In this work, we study a setting where the feedback is provided through users clicking liked and disliked searching results. We believe this form of feedback is of great practical interests for its convenience and efficiency. To facilitate future work in this direction, we construct a new benchmark termed click-feedback retrieval based on a large-scale dataset in fashion domain. We demonstrate that incorporating click-feedback can drastically improve the retrieval performance, which validates the value of the proposed setting. We also introduce several methods to utilize click-feedback during training, and show that click-feedback-guided training can significantly enhance the retrieval quality. We hope further exploration in this direction can bring new insights on building more efficient and user-friendly search engines.
翻訳日:2023-05-02 17:26:57 公開日:2023-04-28
# 因果推論と大規模言語モデル: 因果関係の新しいフロンティアを開く

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality ( http://arxiv.org/abs/2305.00050v1 )

ライセンス: Link先を確認
Emre K{\i}c{\i}man and Robert Ness and Amit Sharma and Chenhao Tan(参考訳) 大規模言語モデル(LLM)の因果的能力は、医学、科学、法学、政策といった社会的に影響力のある領域におけるLLMの使用に重要な意味を持つ重要な議論である。 我々は,LLMとその因果関係の理解を深め,異なるタイプの因果推論タスクの区別や,構造と測定の妥当性の絡み合った脅威を考慮する。 LLMに基づく手法は、複数の因果ベンチマーク上で新しい最先端の精度を確立する。 GPT-3.5と4に基づくアルゴリズムは、ペアワイズ因果発見タスク(97%、13ポイントゲイン)、反ファクト因果推論タスク(92%、20ポイントゲイン)、実際の因果性(86%の正確性)において、既存のアルゴリズムよりも優れている。 同時に、LLMは予測不可能な障害モードを示し、その堅牢性を理解するためのいくつかのテクニックを提供する。 重要なことは、LLMはこれらの因果的タスクを、LLMをベースとしないアプローチとは異なる知識や手法のソースに依存しながら実行する。 具体的には、LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に限定された能力をもたらす。 我々は、従来の因果的手法とともに、人間のドメイン知識のプロキシとして、また、因果的手法の普及に最も大きな障害である因果的分析を構築する際の人的労力を減らすために、LSMを使用することを想定している。 また、既存の因果的手法は、特に高いシナリオにおいて、LSMが推論を形式化し、検証し、伝達するための有望なツールであると考えている。 因果的メカニズムに関する常識やドメイン知識を捉え、自然言語と形式的手法間の翻訳を支援することで、LLMは因果性の研究、実践、導入を促進するための新たなフロンティアを開拓する。

The causal capabilities of large language models (LLMs) is a matter of significant debate, with critical implications for the use of LLMs in societally impactful domains such as medicine, science, law, and policy. We further our understanding of LLMs and their causal implications, considering the distinctions between different types of causal reasoning tasks, as well as the entangled threats of construct and measurement validity. LLM-based methods establish new state-of-the-art accuracies on multiple causal benchmarks. Algorithms based on GPT-3.5 and 4 outperform existing algorithms on a pairwise causal discovery task (97%, 13 points gain), counterfactual reasoning task (92%, 20 points gain), and actual causality (86% accuracy in determining necessary and sufficient causes in vignettes). At the same time, LLMs exhibit unpredictable failure modes and we provide some techniques to interpret their robustness. Crucially, LLMs perform these causal tasks while relying on sources of knowledge and methods distinct from and complementary to non-LLM based approaches. Specifically, LLMs bring capabilities so far understood to be restricted to humans, such as using collected knowledge to generate causal graphs or identifying background causal context from natural language. We envision LLMs to be used alongside existing causal methods, as a proxy for human domain knowledge and to reduce human effort in setting up a causal analysis, one of the biggest impediments to the widespread adoption of causal methods. We also see existing causal methods as promising tools for LLMs to formalize, validate, and communicate their reasoning especially in high-stakes scenarios. In capturing common sense and domain knowledge about causal mechanisms and supporting translation between natural language and formal methods, LLMs open new frontiers for advancing the research, practice, and adoption of causality.
翻訳日:2023-05-02 17:26:43 公開日:2023-04-28
# データ駆動気象予測のためのその場観測の検証

Verification against in-situ observations for Data-Driven Weather Prediction ( http://arxiv.org/abs/2305.00048v1 )

ライセンス: Link先を確認
Vivek Ramavajjala, Peetak P. Mitra(参考訳) 近年,データ駆動型気象予報モデル (DDWP) が急速に進歩し, 数値気象予報モデル (NWP) を高精度に近似できることを示した。 高速で正確で低コストなddwp予測は、運用予測に利用することが魅力的な提案であるが、真の運用環境でddwpを厳密に評価する作業はまだ残されている。 通常、ERA5の再解析データを用いて訓練され評価され、DDWPはシミュレーションでのみテストされている。 運用予測におけるddwpsの安全な使用には、より詳細な"実世界の"検証と、ddwpの現在の訓練と評価方法の慎重に検討が必要である。 例えば、トレーニングに使用され、現実世界をシミュレートするリアナリシスデータセットは、どの程度うまく機能するのかを問う価値がある。 気候の正義と気象データの不均一性に注目して、このシミュレーションは世界中のすべての地域に等しく良いのか、DDWPsはトレーニングデータに存在するバイアスを悪化させるのだろうか? シミュレーションにおける優れたパフォーマンスは、運用環境での優れたパフォーマンスに相当しますか? NWPモデルの物理を近似するだけでなく、より正確な天気予報を提供するためにMLをどのように一意に展開できるか? このような質問に答える第一歩として,NOAA MADISプログラムから得られたその場観測の頑健なデータセットを,DDWPを運用環境で検証するためのベンチマークとして提供する。 品質管理されたその場観察の大規模なコーパスを提供することで、このデータセットはすべてのNWPとDDWPをテスト可能な有意義な現実世界タスクを提供する。 このデータは、運用中の気象モデルを厳密かつ公平に比較するだけでなく、今後の研究の推進にも活用できることを願っています。

Data-driven weather prediction models (DDWPs) have made rapid strides in recent years, demonstrating an ability to approximate Numerical Weather Prediction (NWP) models to a high degree of accuracy. The fast, accurate, and low-cost DDWP forecasts make their use in operational forecasting an attractive proposition, however, there remains work to be done in rigorously evaluating DDWPs in a true operational setting. Typically trained and evaluated using ERA5 reanalysis data, DDWPs have been tested only in a simulation, which cannot represent the real world with complete accuracy even if it is of a very high quality. The safe use of DDWPs in operational forecasting requires more thorough "real-world" verification, as well as a careful examination of how DDWPs are currently trained and evaluated. It is worth asking, for instance, how well do the reanalysis datasets, used for training, simulate the real world? With an eye towards climate justice and the uneven availability of weather data: is the simulation equally good for all regions of the world, and would DDWPs exacerbate biases present in the training data? Does a good performance in simulation correspond to good performance in operational settings? In addition to approximating the physics of NWP models, how can ML be uniquely deployed to provide more accurate weather forecasts? As a first step towards answering such questions, we present a robust dataset of in-situ observations derived from the NOAA MADIS program to serve as a benchmark to validate DDWPs in an operational setting. By providing a large corpus of quality-controlled, in-situ observations, this dataset provides a meaningful real-world task that all NWPs and DDWPs can be tested against. We hope that this data can be used not only to rigorously and fairly compare operational weather models but also to spur future research in new directions.
翻訳日:2023-05-02 17:26:06 公開日:2023-04-28
# 接触による微分可能な物理シミュレーションのための勾配計算の改良

Improving Gradient Computation for Differentiable Physics Simulation with Contacts ( http://arxiv.org/abs/2305.00092v1 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Jiequn Han, Biswadip Dey, Georgia Olympia Brikis(参考訳) 微分可能シミュレーションは、グラデーションを物理シミュレーションによってバックプロパゲーションすることができる。 このようにして、グラデーションに基づく最適化によって物理システムのダイナミクスと特性を学習したり、計画や制御などの下流タスクのためのディープラーニングモデルにレイヤとして微分可能なシミュレーション全体を組み込むことができる。 しかし、現在の段階における微分可能シミュレーションは完璧ではなく、学習タスクにおける性能を低下させる誤った勾配をもたらす可能性がある。 本稿では,接触による剛体シミュレーションについて検討する。 既存の微分可能シミュレーション手法は、接触正規方向が固定されていない場合、接触が2つの移動物体の間にある場合の一般的な状況において、不正確な勾配を与える。 連続衝突検出による勾配計算を改善し, 衝突後速度の計算にtime-of-impact (toi) を利用する。 本論文では,TOI-Velocityと呼ばれる2つの最適制御問題に対して提案手法を示す。 toi-velocityでは,解析解に適合する最適制御シーケンスを学習できるが,toi-velocityがなければ,既存の微分可能シミュレーション手法では実現できない。

Differentiable simulation enables gradients to be back-propagated through physics simulations. In this way, one can learn the dynamics and properties of a physics system by gradient-based optimization or embed the whole differentiable simulation as a layer in a deep learning model for downstream tasks, such as planning and control. However, differentiable simulation at its current stage is not perfect and might provide wrong gradients that deteriorate its performance in learning tasks. In this paper, we study differentiable rigid-body simulation with contacts. We find that existing differentiable simulation methods provide inaccurate gradients when the contact normal direction is not fixed - a general situation when the contacts are between two moving objects. We propose to improve gradient computation by continuous collision detection and leverage the time-of-impact (TOI) to calculate the post-collision velocities. We demonstrate our proposed method, referred to as TOI-Velocity, on two optimal control problems. We show that with TOI-Velocity, we are able to learn an optimal control sequence that matches the analytical solution, while without TOI-Velocity, existing differentiable simulation methods fail to do so.
翻訳日:2023-05-02 17:20:17 公開日:2023-04-28
# semeval-2023タスク12におけるnlnde : 低リソース多言語感情分析のための適応的事前学習とソース言語選択

NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language Selection for Low-Resource Multilingual Sentiment Analysis ( http://arxiv.org/abs/2305.00090v1 )

ライセンス: Link先を確認
Mingyang Wang, Heike Adel, Lukas Lange, Jannik Str\"otgen and Hinrich Sch\"utze(参考訳) 本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカ言語感性分析」のために開発したシステムについて述べる。 感性分析は自然言語処理における最も広く研究されている応用の1つである。 しかし、これまでの作業のほとんどは、少数の高リソース言語に焦点を当てていた。 低リソース言語のための信頼できる感情分析システムの構築は、このタスクの限られたトレーニングデータのため、依然として困難である。 本研究では,アフリカのテキストにおける言語適応型およびタスク適応型事前学習の活用と,アフリカ言語中心の事前学習言語モデル上でのソース言語選択によるトランスファー学習の学習を提案する。 その結果,(1)目標言語とタスクに事前学習モデルを適用することで,F1スコアを10点以上獲得することで,性能が著しく向上することがわかった。 2) 学習中に正の転送ゲインを持つソース言語を選択することで,異種言語からの有害な干渉を回避できる。 共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。

This paper describes our system developed for the SemEval-2023 Task 12 "Sentiment Analysis for Low-resource African Languages using Twitter Dataset". Sentiment analysis is one of the most widely studied applications in natural language processing. However, most prior work still focuses on a small number of high-resource languages. Building reliable sentiment analysis systems for low-resource languages remains challenging, due to the limited training data in this task. In this work, we propose to leverage language-adaptive and task-adaptive pretraining on African texts and study transfer learning with source language selection on top of an African language-centric pretrained language model. Our key findings are: (1) Adapting the pretrained model to the target language and task using a small yet relevant corpus improves performance remarkably by more than 10 F1 score points. (2) Selecting source languages with positive transfer gains during training can avoid harmful interference from dissimilar languages, leading to better results in multilingual and cross-lingual settings. In the shared task, our system wins 8 out of 15 tracks and, in particular, performs best in the multilingual evaluation.
翻訳日:2023-05-02 17:19:59 公開日:2023-04-28
# DD-CISENet : 高速MRI再建のためのデュアルドメインクロスイテレーション・スキーズと励磁ネットワーク

DD-CISENet: Dual-Domain Cross-Iteration Squeeze and Excitation Network for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2305.00088v1 )

ライセンス: Link先を確認
Xiongchao Chen, Zhigang Peng, Gerardo Hermosillo Valadez(参考訳) 磁気共鳴イメージング(MRI)は神経学の診断に広く用いられている。 しかし、MRIの有用性は長い取得時間によって大きく制限されている。 スパースな方法でより少ないk空間データを取得することは、取得時間を短縮するための潜在的な解決策であるが、深刻なエイリアスやレコンストラクションアーティファクトにつながる可能性がある。 本稿では,スパルスMRIの高速化を目的としたDual-Domain Cross-Iteration Squeeze and Excitation Network(DD-CISENet)を提案する。 k空間とMRI画像の情報は、CIR(Cross-Iteration Residual Connect)構造を用いて反復的に融合し維持することができる。 この研究は、オープンソースの高速MRIデータセットから採用した720個のマルチコイル脳MRI症例を含む。 その結果、dd-cisenetによる平均再構成誤差は2.28$\pm$ 0.57%であり、画像領域予測 (6.03 $\pm$ 1.31, p < 0.001)、k空間合成 (6.12 $\pm$ 1.66, p < 0.001)、二重領域特徴融合 (4.05 $\pm$ 0.88, p < 0.001) といった既存のディープラーニング手法を上回った。

Magnetic resonance imaging (MRI) is widely employed for diagnostic tests in neurology. However, the utility of MRI is largely limited by its long acquisition time. Acquiring fewer k-space data in a sparse manner is a potential solution to reducing the acquisition time, but it can lead to severe aliasing reconstruction artifacts. In this paper, we present a novel Dual-Domain Cross-Iteration Squeeze and Excitation Network (DD-CISENet) for accelerated sparse MRI reconstruction. The information of k-spaces and MRI images can be iteratively fused and maintained using the Cross-Iteration Residual connection (CIR) structures. This study included 720 multi-coil brain MRI cases adopted from the open-source fastMRI Dataset. Results showed that the average reconstruction error by DD-CISENet was 2.28 $\pm$ 0.57%, which outperformed existing deep learning methods including image-domain prediction (6.03 $\pm$ 1.31, p < 0.001), k-space synthesis (6.12 $\pm$ 1.66, p < 0.001), and dual-domain feature fusion approaches (4.05 $\pm$ 0.88, p < 0.001).
翻訳日:2023-05-02 17:19:37 公開日:2023-04-28
# 多段階深層登録の構成による逆一貫性

Inverse Consistency by Construction for Multistep Deep Registration ( http://arxiv.org/abs/2305.00087v1 )

ライセンス: Link先を確認
Hastings Greer, Lin Tian, Francois-Xavier Vialard, Roland Kwitt, Sylvain Bouix, Raul San Jose Estepar, Richard Rushmore, and Marc Niethammer(参考訳) 逆一貫性は画像登録に望ましい特性である。 そこで我々は,Lie 群による出力変換をパラメータ化すれば,構成によってニューラルネットワークを逆整合させる簡単な手法を提案する。 我々は、この手法を多段階の神経登録に拡張し、このようなネットワークを逆一貫性を保ちながら構成する。 この多段階のアプローチは、逆一貫性の粗さを微妙に登録することを可能にする。 我々は,合成2次元データと4つの3次元医用画像登録タスクについて評価し,逆整合性を確保しつつ優れた登録精度を得る。

Inverse consistency is a desirable property for image registration. We propose a simple technique to make a neural registration network inverse consistent by construction, as a consequence of its structure, as long as it parameterizes its output transform by a Lie group. We extend this technique to multi-step neural registration by composing many such networks in a way that preserves inverse consistency. This multi-step approach also allows for inverse-consistent coarse to fine registration. We evaluate our technique on synthetic 2-D data and four 3-D medical image registration tasks and obtain excellent registration accuracy while assuring inverse consistency.
翻訳日:2023-05-02 17:19:12 公開日:2023-04-28
# アバター:ターゲットドメインに対する敵対的自己監督型ドメイン適応ネットワーク

AVATAR: Adversarial self-superVised domain Adaptation network for TARget domain ( http://arxiv.org/abs/2305.00082v1 )

ライセンス: Link先を確認
Jun Kataoka and Hyunsoo Yoon(参考訳) 本稿では,未ラベルな対象領域データを予測するための教師なし領域適応(UDA)手法を提案する。 主流UDAモデルは、ラベル付きソースドメインデータを利用することで、両方のドメインから学習し、ターゲット識別を改善することを目的としている。 しかし、ソースドメインとターゲットドメインの相違が大きい場合や、ターゲットドメインが外れ値を含む場合、パフォーマンスの向上が制限される可能性がある。 本稿では,この問題に対処するために,AVATAR(Adversarial Self-superVised Domain Adaptation Network for the TARget domain)アルゴリズムを提案する。 ドメインの差を同時に減らし、ドメインの敵対的学習、自己教師付き学習、および対象ドメインに対するサンプル選択戦略を通じて差別を強化することで、最先端のUDAモデルより優れている。 提案手法は,3つのUDAベンチマークにおける最先端手法を著しく上回り,複雑なUDAタスクに対処するためのアプローチの有効性を示す。

This paper presents an unsupervised domain adaptation (UDA) method for predicting unlabeled target domain data, specific to complex UDA tasks where the domain gap is significant. Mainstream UDA models aim to learn from both domains and improve target discrimination by utilizing labeled source domain data. However, the performance boost may be limited when the discrepancy between the source and target domains is large or the target domain contains outliers. To explicitly address this issue, we propose the Adversarial self-superVised domain Adaptation network for the TARget domain (AVATAR) algorithm. It outperforms state-of-the-art UDA models by concurrently reducing domain discrepancy while enhancing discrimination through domain adversarial learning, self-supervised learning, and sample selection strategy for the target domain, all guided by deep clustering. Our proposed model significantly outperforms state-of-the-art methods on three UDA benchmarks, and extensive ablation studies and experiments demonstrate the effectiveness of our approach for addressing complex UDA tasks.
翻訳日:2023-05-02 17:19:03 公開日:2023-04-28
# 情報アップの原理:量子理論の基礎における情報ゲインの運用的視点

Principle of Information Increase: An Operational Perspective of Information Gain in the Foundations of Quantum Theory ( http://arxiv.org/abs/2305.00080v1 )

ライセンス: Link先を確認
Yang Yu, Philip Goyal(参考訳) 量子システム上で行われる測定は、その状態に関する情報を取得する行為である。 この見解は実践的応用と基礎研究の両方において広く受け入れられている。 前者の応用は情報理論を純粋数学的道具として扱うが、後者は情報理論の多くの再構成において中心的な役割を果たす。 しかし、情報の概念は通常不明瞭なままである。 量子計測データから得られる情報とは何か,我々は,量子理論の再構築に向けた情報を運用的アプローチから検討している。 まず、連続エントロピーの一般化から始まり、より多くのデータが受信されると得られる情報の自然な尺度が複数存在することを見つける。 他の尺度(相対的情報ゲイン)は、データ量が有限であってもデータ量の増加関数であり、特定のデータや事前の選択に対して漸近的に非感受性である。 どちらの測度も相対エントロピーの拡張と見なすことができる。 我々は,summhammer の直感的な概念から情報増加の原理を提案する。 この原理は、量子測定データからの情報ゲインを調査する際に、事前センシティブな情報測定のための事前の選択をフィルタリングするために用いられる。 ベータ分布を用いた数値解析と漸近解析の両方を行う。 両出力の量子システムでは、差分情報ゲインがより物理的に意味を持ち、ジェフリーズの以前の行動は、全ての可能なデータに対する情報ゲインの強い堅牢性を示す。 両情報ゲインの期待値は等価であり、期待される形式はユニークであり、平均を取ると相違点が消えることを示す。

A measurement performed on a quantum system is an act of gaining information about its state. This viewpoint is widely held both in practical applications and foundational research. The former applications treat information theory as a pure mathematical tool; while in the latter, information plays a central role in many reconstructions of quantum theory. However, the concept of information is usually remained obscure. We are investigating the information towards the reconstruction of quantum theory from an operational approach: what is the information gained from the quantum measurement data. We start from the generalization of continuous entropy and find there is more than one natural measure of the information gained as more data is received. One of these (differential information gain) can increase or decrease with more data, depending upon the prior; another measure (relative information gain) is an increasing function of the amount of data even when the amount of data is finite, and is asymptotically insensitive to the specific data or choice of prior. Both two measures can be regarded as extensions of relative entropy. We propose a Principle of Information Increase from Summhammer's intuitive idea: more data lead to more knowledge. This principle is used to filter choices of prior for prior-sensitive information measures when investigating the information gain from data of quantum measurements. Both numerical and asymptotic analysis are conducted using beta distribution priors. It is showed that in two-outcome quantum systems differential information gain will be more physical meaningful and Jeffreys' prior exhibits a special behavior which is the strong robustness of information gain over all possible data. The expected values of both information gain are equivalent, which suggests that the expected form is unique and the discrepancies are disappeared when taking the averages.
翻訳日:2023-05-02 17:18:41 公開日:2023-04-28
# 魚眼データにおける歪み・セマンティクス相互作用の活用

Exploiting the Distortion-Semantic Interaction in Fisheye Data ( http://arxiv.org/abs/2305.00079v1 )

ライセンス: Link先を確認
Kiran Kokilepersaud, Mohit Prabhushankar, Yavuz Yarici, Ghassan AlRegib, Armin Parchami(参考訳) 本研究では,このデータモダリティに存在する歪みと意味的文脈の相互作用を反映した魚眼特異的表現空間を形成する手法を提案する。 魚眼のデータは他の種類のカメラよりも広い視野の利点があるが、これは高い放射歪みを犠牲にしている。 その結果、中心からのオブジェクトは変形を示し、モデルがそれらの意味的コンテキストを識別することが困難になる。 以前の研究は、この効果を緩和するためにアーキテクチャとトレーニングの強化の変更を試みたが、魚眼データに固有の歪みと意味的文脈の間の相互作用を反映した表現空間を学ぶためのモデルを導こうとする試みは行われていない。 画像の中心から物体の距離に基づいて歪みクラスラベルを抽出し,この関係を利用する手法を提案する。 次に、同じ意味クラスのオブジェクトと下次元埋め込み空間内で互いに近接する歪みクラスのオブジェクトを制約する重み付き対照的な損失で、バックボーンの表現空間を形成する。 セマンティクス情報と歪み情報の両方でトレーニングされたこのバックボーンは、オブジェクト検出設定内で微調整され、学習表現の品質を実証的に評価する。 本手法は,標準対象検出手法よりも1.1%平均精度が向上し,他の技術表現学習手法よりも.6%向上したことを示す。

In this work, we present a methodology to shape a fisheye-specific representation space that reflects the interaction between distortion and semantic context present in this data modality. Fisheye data has the wider field of view advantage over other types of cameras, but this comes at the expense of high radial distortion. As a result, objects further from the center exhibit deformations that make it difficult for a model to identify their semantic context. While previous work has attempted architectural and training augmentation changes to alleviate this effect, no work has attempted to guide the model towards learning a representation space that reflects this interaction between distortion and semantic context inherent to fisheye data. We introduce an approach to exploit this relationship by first extracting distortion class labels based on an object's distance from the center of the image. We then shape a backbone's representation space with a weighted contrastive loss that constrains objects of the same semantic class and distortion class to be close to each other within a lower dimensional embedding space. This backbone trained with both semantic and distortion information is then fine-tuned within an object detection setting to empirically evaluate the quality of the learnt representation. We show this method leads to performance improvements by as much as 1.1% mean average precision over standard object detection strategies and .6% improvement over other state of the art representation learning approaches.
翻訳日:2023-05-02 17:18:13 公開日:2023-04-28
# SemEval-2023 Task 10:Transfer Learning, Synthetic Data and Side-information for Multi-Level Sexism Classification

HausaNLP at SemEval-2023 Task 10: Transfer Learning, Synthetic Data and Side-Information for Multi-Level Sexism Classification ( http://arxiv.org/abs/2305.00076v1 )

ライセンス: Link先を確認
Saminu Mohammad Aliyu, Idris Abdulmumin, Shamsuddeen Hassan Muhammad, Ibrahim Said Ahmad, Saheed Abdullahi Salahudeen, Aliyu Yusuf, Falalu Ibrahim Lawan(参考訳) 我々は、semeval-2023タスク10: explainsable detection of online sexism (edos) task, a shared task on offensive language (sexism) detection on english gab and reddit dataset に参加した。 XLM-T (sentiment classification) と HateBERT (same domain - Reddit) の2つの言語モデルによる性差別の多段階分類の効果を検討した。 また,ラベルなしデータセットと中間クラス情報の合成分類を用いて,モデルの性能を最大化する。 タスクAにシステムを提出し,F1スコア0.82で49位となった。 この結果は、最善のシステムを0.052%のf1-scoreで下回るだけの競争力を示した。

We present the findings of our participation in the SemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS) task, a shared task on offensive language (sexism) detection on English Gab and Reddit dataset. We investigated the effects of transferring two language models: XLM-T (sentiment classification) and HateBERT (same domain -- Reddit) for multi-level classification into Sexist or not Sexist, and other subsequent sub-classifications of the sexist data. We also use synthetic classification of unlabelled dataset and intermediary class information to maximize the performance of our models. We submitted a system in Task A, and it ranked 49th with F1-score of 0.82. This result showed to be competitive as it only under-performed the best system by 0.052% F1-score.
翻訳日:2023-05-02 17:17:49 公開日:2023-04-28
# 多クラス分類における対人訓練の解の存在について

On the existence of solutions to adversarial training in multiclass classification ( http://arxiv.org/abs/2305.00075v1 )

ライセンス: Link先を確認
Nicolas Garcia Trillos, Matt Jacobs, Jakwang Kim(参考訳) 本研究では,非依存型分類器設定におけるデータ摂動に対する頑健な分類器の構築を目的とした,多クラス分類における対角的学習問題の3つのモデルについて検討する。 本稿では,各モデルにおけるボレル測定可能なロバスト分類器の存在を証明し,従来の研究で著者が導入した最適輸送との接続を拡大し,マルチクラス設定における対人訓練と総変分正則化の新たな接続を開発することにより,対人訓練問題の統一的な視点を提供する。 結果のまとめとして、二項分類設定において、ボレル可測解の存在を証明し、特徴空間の拡大された普遍的な$\sigma$-algebraの中に、ロバストな分類器が存在することが知られている対数学習の文献における結果を改善する。

We study three models of the problem of adversarial training in multiclass classification designed to construct robust classifiers against adversarial perturbations of data in the agnostic-classifier setting. We prove the existence of Borel measurable robust classifiers in each model and provide a unified perspective of the adversarial training problem, expanding the connections with optimal transport initiated by the authors in previous work and developing new connections between adversarial training in the multiclass setting and total variation regularization. As a corollary of our results, we prove the existence of Borel measurable solutions to the agnostic adversarial training problem in the binary classification setting, a result that improves results in the literature of adversarial training, where robust classifiers were only known to exist within the enlarged universal $\sigma$-algebra of the feature space.
翻訳日:2023-05-02 17:17:11 公開日:2023-04-28
# Calibeatingによるオンラインプラットスケーリング

Online Platt Scaling with Calibeating ( http://arxiv.org/abs/2305.00070v1 )

ライセンス: Link先を確認
Chirag Gupta, Aaditya Ramdas(参考訳) オンライン・プラット・スケーリング(OPS)とオンライン・ロジスティック・レグレッションを組み合わせたオンライン・ポスト・ホック・キャリブレーション手法を提案する。 我々は,OPSが分布ドリフトを伴う非i.d.設定とi.d.設定の間で円滑に適応できることを実証した。 さらに、最高のPlatetスケーリングモデル自体が誤校正されたシナリオでは、最近開発されたcalalbeatingと呼ばれる手法を取り入れてOPSを強化し、より堅牢にする。 理論的には, OPS+calibeating法は, 逆数列のキャリブレーションが保証される。 実験的には、分布ドリフトのない合成および実世界のデータセットに対して有効であり、ハイパーパラメータチューニングなしで優れたパフォーマンスを達成する。 最後に、すべてのOPSのアイデアをベータスケーリングメソッドに拡張する。

We present an online post-hoc calibration method, called Online Platt Scaling (OPS), which combines the Platt scaling technique with online logistic regression. We demonstrate that OPS smoothly adapts between i.i.d. and non-i.i.d. settings with distribution drift. Further, in scenarios where the best Platt scaling model is itself miscalibrated, we enhance OPS by incorporating a recently developed technique called calibeating to make it more robust. Theoretically, our resulting OPS+calibeating method is guaranteed to be calibrated for adversarial outcome sequences. Empirically, it is effective on a range of synthetic and real-world datasets, with and without distribution drifts, achieving superior performance without hyperparameter tuning. Finally, we extend all OPS ideas to the beta scaling method.
翻訳日:2023-05-02 17:16:54 公開日:2023-04-28
# Speak, Memory: An Archaeology of Books known to ChatGPT/GPT-4

Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 ( http://arxiv.org/abs/2305.00118v1 )

ライセンス: Link先を確認
Kent K. Chang, Mackenzie Cramer, Sandeep Soni and David Bamman(参考訳) 本研究では,ChatGPT や GPT-4 で知られている書籍を,名前クローゼメンバシップ推論クエリを用いて推測するためのデータ考古学を行う。 OpenAIモデルでは,著作権資料のコレクションが広く記憶されており,その記憶度は,それらの書籍がWeb上に出現する頻度に関係していることがわかった。 これらのモデルが未知の書籍集合を記憶する能力は、テストデータを汚染することにより、文化的分析のための測定妥当性の評価を複雑化する。 これは、トレーニングデータが知られているオープンモデルの場合をサポートすると論じている。

In this work, we carry out a data archaeology to infer books that are known to ChatGPT and GPT-4 using a name cloze membership inference query. We find that OpenAI models have memorized a wide collection of copyrighted materials, and that the degree of memorization is tied to the frequency with which passages of those books appear on the web. The ability of these models to memorize an unknown set of books complicates assessments of measurement validity for cultural analytics by contaminating test data; we show that models perform much better on memorized books than on non-memorized books for downstream tasks. We argue that this supports a case for open models whose training data is known.
翻訳日:2023-05-02 17:10:07 公開日:2023-04-28
# 局所機械学習補正によるCFDシミュレーションの改善

Improving CFD simulations by local machine-learned correction ( http://arxiv.org/abs/2305.00114v1 )

ライセンス: Link先を確認
Peetak Mitra, Majid Haghshenas, Niccolo Dal Santo, Conor Daly, David P. Schmidt(参考訳) 設計空間探索のための高忠実度計算流体力学(CFD)シミュレーションは、より微細なスケールの解決に伴うコストのため、非常に高価である。 この計算コスト/精度のトレードオフは、現代のCFDシミュレーションの大きな課題である。 本研究では,大規模フロー特徴の関数として離散化誤差を予測し,メッシュの粗化による損失情報の度合いを逆推定する学習機械学習モデルを提案する。 この情報は実行時に低解像度のソリューションに付加され、未解決の粗いメッシュシミュレーションの品質が向上する。 粗いメッシュを使用することで速度が非線形に向上する一方で、失われた情報の推論と修正のコストは線形コストとなる。 本研究では, 工学的関心事, 3次元乱流流の数値安定性を示す。 この実証に加えて,本手法によるソリューション精度を犠牲にすることなく,高速化の可能性を示し,cfdのコスト・精度のトレードオフをより有利にする。

High-fidelity computational fluid dynamics (CFD) simulations for design space explorations can be exceedingly expensive due to the cost associated with resolving the finer scales. This computational cost/accuracy trade-off is a major challenge for modern CFD simulations. In the present study, we propose a method that uses a trained machine learning model that has learned to predict the discretization error as a function of largescale flow features to inversely estimate the degree of lost information due to mesh coarsening. This information is then added back to the low-resolution solution during runtime, thereby enhancing the quality of the under-resolved coarse mesh simulation. The use of a coarser mesh produces a non-linear benefit in speed while the cost of inferring and correcting for the lost information has a linear cost. We demonstrate the numerical stability of a problem of engineering interest, a 3D turbulent channel flow. In addition to this demonstration, we further show the potential for speedup without sacrificing solution accuracy using this method, thereby making the cost/accuracy trade-off of CFD more favorable.
翻訳日:2023-05-02 17:09:55 公開日:2023-04-28
# 日常的ストレスモニタリングのためのアクティブ強化学習

Active Reinforcement Learning for Personalized Stress Monitoring in Everyday Settings ( http://arxiv.org/abs/2305.00111v1 )

ライセンス: Link先を確認
Ali Tazarv, Sina Labbaf, Amir Rahmani, Nikil Dutt, Marco Levorato(参考訳) 既存のセンサベースの監視フレームワークの多くは、大規模なラベル付きデータセットが処理され、正確な検出モデルをトレーニングしていると仮定している。 しかしながら、デプロイ時にパーソナライズが必要な設定でモデルを微調整するには、ユーザとのインタラクションによって、個人固有のデータセットをオンラインで収集する必要がある。 このような段階でラベルの収集を最適化することは、個人的改善を最大化しつつ、ユーザに対して許容可能な負担を課すのに役立つ。 本稿では,日常的な環境を対象とするウェアラブルセンサに基づく微細粒度ストレス検出問題について検討し,ユーザがラベル付けと応答率を要求できる信号サンプルの有意性を共同で最大化できる,新しいコンテキスト認識アクティブラーニング戦略を提案する。 我々は,生理的信号を定期的に捉え,リアルタイムで処理し,ラベルを収集し,検出モデルを再訓練する多層センサクラウドプラットフォームを開発した。 本研究では,大規模データセットを収集し,コンテキスト認識型アクティブラーニング手法により,ランダム化戦略と従来のアクティブラーニング戦略と比較して,ユーザからのクエリを88\%,32\%削減することで,望ましい検出性能が得られることを示す。

Most existing sensor-based monitoring frameworks presume that a large available labeled dataset is processed to train accurate detection models. However, in settings where personalization is necessary at deployment time to fine-tune the model, a person-specific dataset needs to be collected online by interacting with the users. Optimizing the collection of labels in such phase is instrumental to impose a tolerable burden on the users while maximizing personal improvement. In this paper, we consider a fine-grain stress detection problem based on wearable sensors targeting everyday settings, and propose a novel context-aware active learning strategy capable of jointly maximizing the meaningfulness of the signal samples we request the user to label and the response rate. We develop a multilayered sensor-edge-cloud platform to periodically capture physiological signals and process them in real-time, as well as to collect labels and retrain the detection model. We collect a large dataset and show that the context-aware active learning technique we propose achieves a desirable detection performance using 88\% and 32\% fewer queries from users compared to a randomized strategy and a traditional active learning strategy, respectively.
翻訳日:2023-05-02 17:09:40 公開日:2023-04-28
# 強調下のスピンボソンモデル:マルコフ力学と非マルコフ力学

Spin-boson model under dephasing: Markovian vs Non-Markovian dynamics ( http://arxiv.org/abs/2305.00110v1 )

ライセンス: Link先を確認
Naushad Ahmad Kamar, Daniel A. Paz, and Mohammad F. Maghrebi(参考訳) ボソニック浴場に強く結合した2レベル系を記述するスピンボーソンモデル(英語版)は、リッチな動的挙動と強結合状態における局在遷移を示すパラダイム的散逸量子系として広く研究されている。 ここではさらに,オーミック浴による非マルコフ力学上におけるマルコフ散逸の源としてデファッシングを考察し,スピンのダイナミクスについて検討する。 スピンダイナミクスの特性周波数は, ボソニック浴で強くリノマー化されているものの, 軽視によって単純な変化(あるいは全く変化しない)がみられた。 これらの結果を得るため, 確率シュル(schr\"{o}dinger)方程式と呼ばれる非摂動的手法を考案し, オーミック浴を確率磁場で近似し, デファージングによるリンドブラッド量子マスター方程式と組み合わせることで, 力学の数値計算を可能にした。 さらに,よく知られた非相互作用blip近似を用いた弱結合解析結果を導出する。 本研究は, 閉じ込められたイオンと回路QEDアーキテクチャの強い結合状態におけるスピンボソンモデルの量子シミュレーションに関係している。

The spin-boson model, describing a two-level system strongly coupled to a bosonic bath, is extensively studied as a paradigmatic dissipative quantum system, exhibiting rich dynamical behavior and even a localization transition in the strong coupling regime. Here, we additionally consider dephasing as a source of Markovian dissipation on top of the non-Markovian dynamics due to an Ohmic bath, and investigate the dynamics of the spin. We show that the characteristic frequency of the spin dynamics, while strongly renormalized by the bosonic bath, changes in a simple fashion (or doesn't change at all) with dephasing. To obtain these results, we develop an exact non-perturbative method known as the stochastic Schr\"{o}dinger equation, mimicking the Ohmic bath via a stochastic magnetic field combined with the Lindblad quantum master equation due to dephasing, which allows us to numerically compute the dynamics. Furthermore, we derive weak-coupling analytic results utilizing the well-known non-interacting blip approximation. Our findings are relevant to quantum simulation of the spin-boson model in the regime of strong coupling in trapped ions and circuit QED architectures among others.
翻訳日:2023-05-02 17:09:22 公開日:2023-04-28
# 2次元医用画像におけるSegment Anything Model(SAM)のゼロショット能力の探索 : 総合的評価と実際的ガイドライン

Exploring the Zero-Shot Capabilities of the Segment Anything Model (SAM) in 2D Medical Imaging: A Comprehensive Evaluation and Practical Guideline ( http://arxiv.org/abs/2305.00109v1 )

ライセンス: Link先を確認
Christian Mattjie and Luis Vinicius de Moura and Rafaela Cappelari Ravazio and Lucas Silveira Kupssinsk\"u and Ot\'avio Parraga and Marcelo Mussi Delucis and Rodrigo Coelho Barros(参考訳) 画像診断におけるセグメンテーションは、様々な疾患や病態の診断、監視、治療において重要な役割を担っている。 医療領域におけるセグメンテーションの現在の展望は、セグメンテーションタスクとイメージモダリティごとに微調整された多くの専門的なディープラーニングモデルによって支配されている。 近年,新しいセグメンテーションモデルであるSegment Anything Model (SAM)が導入されている。 SAMはViTニューラルアーキテクチャを使用し、膨大なトレーニングデータセットを使用して、ほぼすべてのオブジェクトをセグメントする。 しかし、その医学領域への一般化は未定である。 本研究では,X線,超音波,皮膚内視鏡,大腸内視鏡の4つの画像モダリティから抽出した6つのデータセットに対して,SAM 2Dのゼロショット能力を評価する。 その結果、SAMのゼロショット性能は、現在の最先端技術よりも優れており、場合によっては優れていることが示された。 そこで本研究では,最小限のインタラクションを要し,評価されたすべての文脈で堅牢な結果が得られる実践的ガイドラインを提案する。

Segmentation in medical imaging plays a crucial role in diagnosing, monitoring, and treating various diseases and conditions. The current landscape of segmentation in the medical domain is dominated by numerous specialized deep learning models fine-tuned for each segmentation task and image modality. Recently, the Segment Anything Model (SAM), a new segmentation model, was introduced. SAM utilizes the ViT neural architecture and leverages a vast training dataset to segment almost any object. However, its generalizability to the medical domain remains unexplored. In this study, we assess the zero-shot capabilities of SAM 2D in medical imaging using eight different prompt strategies across six datasets from four imaging modalities: X-ray, ultrasound, dermatoscopy, and colonoscopy. Our results demonstrate that SAM's zero-shot performance is comparable and, in certain cases, superior to the current state-of-the-art. Based on our findings, we propose a practical guideline that requires minimal interaction and yields robust results in all evaluated contexts.
翻訳日:2023-05-02 17:09:00 公開日:2023-04-28
# mmvit:マルチスケール・マルチビュー・ビジョントランスフォーマー

MMViT: Multiscale Multiview Vision Transformers ( http://arxiv.org/abs/2305.00104v1 )

ライセンス: Link先を確認
Yuchen Liu, Natasha Ong, Kaiyan Peng, Bo Xiong, Qifan Wang, Rui Hou, Madian Khabsa, Kaiyue Yang, David Liu, Donald S. Williamson, Hanchao Yu(参考訳) 本稿では,マルチスケール機能マップとマルチビューエンコーディングをトランスフォーマモデルに導入するマルチスケールマルチビュービジョントランスフォーマ(mmvit)を提案する。 我々のモデルは入力信号の異なるビューを符号化し、複数のチャンネル解像度の特徴段階を構築し、異なる解像度の入力の複数のビューを並列に処理する。 各スケールステージでは、クロスアテンションブロックを使用して、異なるビューに情報を融合します。 これによりMMViTモデルは異なる解像度で入力の複雑な高次元表現を得ることができる。 提案モデルは複数のドメインでバックボーンモデルとして機能する。 本稿では,MMViTが音声および画像の分類作業に有効であることを示す。

We present Multiscale Multiview Vision Transformers (MMViT), which introduces multiscale feature maps and multiview encodings to transformer models. Our model encodes different views of the input signal and builds several channel-resolution feature stages to process the multiple views of the input at different resolutions in parallel. At each scale stage, we use a cross-attention block to fuse information across different views. This enables the MMViT model to acquire complex high-dimensional representations of the input at different resolutions. The proposed model can serve as a backbone model in multiple domains. We demonstrate the effectiveness of MMViT on audio and image classification tasks, achieving state-of-the-art results.
翻訳日:2023-05-02 17:08:31 公開日:2023-04-28
# 物理乱流リカレントニューラルネットワークエミュレータにおける時空間サブサンプリングの小型化

Temporal Subsampling Diminishes Small Spatial Scales in Recurrent Neural Network Emulators of Geophysical Turbulence ( http://arxiv.org/abs/2305.00100v1 )

ライセンス: Link先を確認
Timothy A. Smith, Stephen G. Penny, Jason A. Platt, Tse-Chun Chen(参考訳) 従来の数値気象モデルや気候モデルの膨大な計算コストが、機械学習(ml)ベースのエミュレータの開発を促した。 ML法はトレーニングデータの長い記録から恩恵を受けるため、微分方程式の数値積分に必要な時間ステップに対して時間的にサブサンプリングされたデータセットを使用することが一般的である。 本稿では,この処理ステップがエミュレータの予測品質に与える影響について検討する。 1)非線形ベクトル自己回帰(NVAR)の形式,(2)エコー状態ネットワーク(ESN)の2種類のMLアーキテクチャを実装した。 単純さにもかかわらず、これらのアーキテクチャが低次元カオスダイナミクスの予測に優れていることはよく記録されている。 したがって我々は、表面準地磁気力学で表される高次元の物理乱流を予測する理想的な設定でこれらのアーキテクチャをテストする動機づけられている。 いずれの場合も、トレーニングデータのサブサンプリングは、数値拡散に似た小さな空間スケールでのバイアスの増加につながる。 興味深いことに、時間分解能が増大するとNVARアーキテクチャは不安定になり、乱流の詳細な非線形性を捉えるには多項式ベースの相互作用が不十分であることを示す。 esnアーキテクチャはより堅牢であることが分かり、より高価ながより一般的な構造の利点を示唆する。 スペクトル誤差は、トレーニング中に運動エネルギー密度スペクトルにペナルティを加えることで減少するが、サブサンプリング関連エラーは持続する。 トレーニングデータの時間的解決が他のmlアーキテクチャに与える影響を理解するためには、今後の作業が不可欠である。

The immense computational cost of traditional numerical weather and climate models has sparked the development of machine learning (ML) based emulators. Because ML methods benefit from long records of training data, it is common to use datasets that are temporally subsampled relative to the time steps required for the numerical integration of differential equations. Here, we investigate how this often overlooked processing step affects the quality of an emulator's predictions. We implement two ML architectures from a class of methods called reservoir computing: (1) a form of Nonlinear Vector Autoregression (NVAR), and (2) an Echo State Network (ESN). Despite their simplicity, it is well documented that these architectures excel at predicting low dimensional chaotic dynamics. We are therefore motivated to test these architectures in an idealized setting of predicting high dimensional geophysical turbulence as represented by Surface Quasi-Geostrophic dynamics. In all cases, subsampling the training data consistently leads to an increased bias at small spatial scales that resembles numerical diffusion. Interestingly, the NVAR architecture becomes unstable when the temporal resolution is increased, indicating that the polynomial based interactions are insufficient at capturing the detailed nonlinearities of the turbulent flow. The ESN architecture is found to be more robust, suggesting a benefit to the more expensive but more general structure. Spectral errors are reduced by including a penalty on the kinetic energy density spectrum during training, although the subsampling related errors persist. Future work is warranted to understand how the temporal resolution of training data affects other ML architectures.
翻訳日:2023-05-02 17:08:20 公開日:2023-04-28
# NNSplitter: 軽量自動難読化によるDNNモデルのアクティブディフェンスソリューション

NNSplitter: An Active Defense Solution to DNN Model via Automated Weight Obfuscation ( http://arxiv.org/abs/2305.00097v1 )

ライセンス: Link先を確認
Tong Zhou, Yukui Luo, Shaolei Ren, Xiaolin Xu(参考訳) 貴重な知的財産権(IP)の一種として、ディープニューラルネットワーク(DNN)モデルは、透かしのような技術によって保護されている。 しかし、このような受動的モデル保護はモデル乱用を完全に防げない。 そこで本研究では,重み難読化により性能が低下する難読化モデルと,認証されたユーザしかアクセスできない難読化重みのインデックスと元値からなるモデル秘密とを2つの部分に分けて積極的に保護するアクティブモデルip保護スキームであるnnsplitterを提案する。 NNSplitterは信頼された実行環境を使用して秘密の確保と強化学習ベースのコントローラを使用して、難読化重量の削減と精度低下の最大化を行う。 実験の結果,2800万重み(0.001%)のうち313個を修正すれば,ファッション・マンニストのvgg-11モデルの精度は10%まで低下することがわかった。 また、NNSplitterは、通常のクリッピングや微調整攻撃を含む潜在的な攻撃面に対して、ステルス性があり、耐性があることを示す。

As a type of valuable intellectual property (IP), deep neural network (DNN) models have been protected by techniques like watermarking. However, such passive model protection cannot fully prevent model abuse. In this work, we propose an active model IP protection scheme, namely NNSplitter, which actively protects the model by splitting it into two parts: the obfuscated model that performs poorly due to weight obfuscation, and the model secrets consisting of the indexes and original values of the obfuscated weights, which can only be accessed by authorized users. NNSplitter uses the trusted execution environment to secure the secrets and a reinforcement learning-based controller to reduce the number of obfuscated weights while maximizing accuracy drop. Our experiments show that by only modifying 313 out of over 28 million (i.e., 0.001%) weights, the accuracy of the obfuscated VGG-11 model on Fashion-MNIST can drop to 10%. We also demonstrate that NNSplitter is stealthy and resilient against potential attack surfaces, including norm clipping and fine-tuning attacks.
翻訳日:2023-05-02 17:07:53 公開日:2023-04-28
# 潜在ダイナミクスネットワーク(LDNets):時空間過程の固有ダイナミクスの学習

Latent Dynamics Networks (LDNets): learning the intrinsic dynamics of spatio-temporal processes ( http://arxiv.org/abs/2305.00094v1 )

ライセンス: Link先を確認
Francesco Regazzoni and Stefano Pagani and Matteo Salvador and Luca Dede' and Alfio Quarteroni(参考訳) 外部刺激に応答して時空間ダイナミクスを示すシステムの進化を予測することは、科学的イノベーションを促進する技術を実現する鍵となる。 従来の方程式に基づくアプローチでは、微分方程式の高次元系の数値近似を通じて予測を導出するために第一原理を利用する。 データ駆動アプローチは、次元の縮小とディープラーニングアルゴリズムを活用することで、低次元の潜在空間におけるシステム進化の記述を可能にする。 本研究では,非マルコフ力学系の低次元固有力学を探索し,外部入力に応答して空間依存場の時間発展を予測できる,ultnt dynamics network (ldnet) という新しいアーキテクチャを提案する。 システム状態の高次元離散化を自身にマッピングするオートエンコーダによって解多様体の潜在表現を学習する一般的なアプローチとは異なり、ldnetsは高次元空間で操作することなく、潜在力学を学習しながら自動的に低次元多様体を発見する。 さらにLDNetは、所定の点のグリッド上で出力を再構築するのではなく、ドメインの任意の点において、クエリポイント間の重み共有を可能にするメッシュレスアルゴリズムである。 これらの特徴によりLDNetsは軽量で訓練が容易で、タイムエクストラポレーションでも精度と一般化性に優れている。 提案手法をいくつかのテストケースで検証し,高い非線形問題に対して,LDNetsはトレーニング可能なパラメータを劇的に少なく(10倍以上)、精度(正規化誤差が5倍小さい)で最先端の手法より優れていることを示す。

Predicting the evolution of systems that exhibit spatio-temporal dynamics in response to external stimuli is a key enabling technology fostering scientific innovation. Traditional equations-based approaches leverage first principles to yield predictions through the numerical approximation of high-dimensional systems of differential equations, thus calling for large-scale parallel computing platforms and requiring large computational costs. Data-driven approaches, instead, enable the description of systems evolution in low-dimensional latent spaces, by leveraging dimensionality reduction and deep learning algorithms. We propose a novel architecture, named Latent Dynamics Network (LDNet), which is able to discover low-dimensional intrinsic dynamics of possibly non-Markovian dynamical systems, thus predicting the time evolution of space-dependent fields in response to external inputs. Unlike popular approaches, in which the latent representation of the solution manifold is learned by means of auto-encoders that map a high-dimensional discretization of the system state into itself, LDNets automatically discover a low-dimensional manifold while learning the latent dynamics, without ever operating in the high-dimensional space. Furthermore, LDNets are meshless algorithms that do not reconstruct the output on a predetermined grid of points, but rather at any point of the domain, thus enabling weight-sharing across query-points. These features make LDNets lightweight and easy-to-train, with excellent accuracy and generalization properties, even in time-extrapolation regimes. We validate our method on several test cases and we show that, for a challenging highly-nonlinear problem, LDNets outperform state-of-the-art methods in terms of accuracy (normalized error 5 times smaller), by employing a dramatically smaller number of trainable parameters (more than 10 times fewer).
翻訳日:2023-05-02 17:07:31 公開日:2023-04-28
# 人工ハニカムスピン氷の持続的動的磁気状態

Persistent dynamic magnetic state in artificial honeycomb spin ice ( http://arxiv.org/abs/2305.00093v1 )

ライセンス: Link先を確認
Jiasen Guo (1), Pousali Ghosh (1), Daniel Hill (1), Yiyao Chen (2), Laura Stingaciu (3), Piotr. Zolnierczuk (3), Carsten A. Ullrich (1), Deepak K. Singh (1) ((1) Department of Physics and Astronomy, University of Missouri, Columbia, MO, (2) Suzhou Institute of Nano-Tech and Nano-Bionics, Chinese Academy of Sciences, China, (3) Oak Ridge National Laboratory, Oak Ridge, TN)(参考訳) 磁気電荷は、スピン氷の頂点上での非消滅的な磁束によって生じるもので、基盤となる格子を強引に横切る磁極の起源となる。 原子起源のスピン氷材料と異なり、人工ハニカムスピン氷の動的状態は、磁場や電流の応用を必要とする有限サイズの磁壁運動学で説明される。 このような共通理解とは対照的に, 熱調整可能な人工パーマロイハニカム格子は, 外部チューニング剤が存在しない場合, 自己推進型磁気電荷欠陥緩和による永久動的状態を示す。 中性子スピンエコー分光法による磁気電荷欠陥の定量的研究は、バルクスピン氷におけるモノポールの緩和に匹敵するサブn緩和時間を明らかにする。 最も重要なことは、熱ゆらぎが無視できる低温では、運動過程は変化しないことである。 このことは、ハニカム・スピン氷の動的現象が準粒子型物質によって媒介されていることを示唆しており、量子モンテカルロシミュレーションでもその運動挙動を再現している。 我々の研究は、量子粒子、すなわち磁気単極子とマグノンの多くの既知の特性を共有する新しい「マクロスコピック」磁気粒子を発表した。

Topological magnetic charges, arising due to the non-vanishing magnetic flux on spin ice vertices, serve as the origin of magnetic monopoles that traverse the underlying lattice effortlessly. Unlike spin ice materials of atomic origin, the dynamic state in artificial honeycomb spin ice is conventionally described in terms of finite size domain wall kinetics that require magnetic field or current application. Contrary to this common understanding, here we show that thermally tunable artificial permalloy honeycomb lattice manifests a perpetual dynamic state due to self-propelled magnetic charge defect relaxation in the absence of any external tuning agent. Quantitative investigation of magnetic charge defect dynamics using neutron spin echo spectroscopy reveals sub-ns relaxation times that are comparable to monopole's relaxation in bulk spin ices. Most importantly, the kinetic process remains unabated at low temperature where thermal fluctuation is negligible. This suggests that dynamic phenomena in honeycomb spin ice are mediated by quasi-particle type entities, also confirmed by quantum Monte-Carlo simulations that replicate the kinetic behavior. Our research unveils a new `macroscopic' magnetic particle that shares many known traits of quantum particles, namely magnetic monopole and magnon.
翻訳日:2023-05-02 17:06:59 公開日:2023-04-28
# 深層強化学習に基づくIoT駆動型スマート分離マイクログリッドの最適スケジューリング

Optimal Scheduling in IoT-Driven Smart Isolated Microgrids Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2305.00127v1 )

ライセンス: Link先を確認
Jiaju Qi, Lei Lei, Kan Zheng, Simon X. Yang, Xuemin (Sherman) Shen(参考訳) 本稿では,モノのインターネット(IoT)駆動型孤立マイクログリッド(MG)におけるディーゼル発電機(DG)の深部強化学習(DRL)によるスケジューリング問題について検討する。 再生可能エネルギーは再生可能エネルギーと負荷需要の不確実性の下で完全に活用される。 drlエージェントは、前日の履歴再生可能および負荷データから最適なポリシーを学習し、コネクテッドセンサーによって収集された前時間の過去の再生可能および負荷データの観測に基づいて、リアルタイムな決定を生成できる。 目標は、需給バランスの確保を前提とした運用コストの削減だ。 具体的には、回転準備を考慮した新しい有限水平部分可観測マルコフ決定過程 (POMDP) モデルが考案される。 二元的DG切替決定と連続エネルギー分散(ED)決定による離散連続ハイブリッド行動空間の課題を克服するために、DRLアルゴリズム、すなわちハイブリッドアクション有限水平RDPG(HAFH-RDPG)を提案する。 HAFH-RDPGは、DQN(Deep Q-network)とRDPG(Recurrent Deterministic Policy gradient)という2つの古典DRLアルゴリズムを有限水平動的プログラミング(DP)フレームワークに基づいてシームレスに統合する。 iot駆動mg内の実世界データを用いて、時間間および日内電力変動による不確実性に対処するための提案アルゴリズムの能力を評価し、その性能をベンチマークアルゴリズムと比較する大規模な実験を行う。

In this paper, we investigate the scheduling issue of diesel generators (DGs) in an Internet of Things (IoT)-Driven isolated microgrid (MG) by deep reinforcement learning (DRL). The renewable energy is fully exploited under the uncertainty of renewable generation and load demand. The DRL agent learns an optimal policy from history renewable and load data of previous days, where the policy can generate real-time decisions based on observations of past renewable and load data of previous hours collected by connected sensors. The goal is to reduce operating cost on the premise of ensuring supply-demand balance. In specific, a novel finite-horizon partial observable Markov decision process (POMDP) model is conceived considering the spinning reserve. In order to overcome the challenge of discrete-continuous hybrid action space due to the binary DG switching decision and continuous energy dispatch (ED) decision, a DRL algorithm, namely the hybrid action finite-horizon RDPG (HAFH-RDPG), is proposed. HAFH-RDPG seamlessly integrates two classical DRL algorithms, i.e., deep Q-network (DQN) and recurrent deterministic policy gradient (RDPG), based on a finite-horizon dynamic programming (DP) framework. Extensive experiments are performed with real-world data in an IoT-driven MG to evaluate the capability of the proposed algorithm in handling the uncertainty due to inter-hour and inter-day power fluctuation and to compare its performance with those of the benchmark algorithms.
翻訳日:2023-05-02 16:59:37 公開日:2023-04-28
# DSEC-MOS:移動自走車で動く物体をセグメンテーション

DSEC-MOS: Segment Any Moving Object with Moving Ego Vehicle ( http://arxiv.org/abs/2305.00126v1 )

ライセンス: Link先を確認
Zhuyun Zhou, Zongwei Wu, R\'emi Boutteau, Fan Yang, Dominique Ginhac(参考訳) コンピュータビジョンにおける重要なタスクである移動オブジェクトセグメンテーション(MOS)には、監視、自律運転、ビデオ分析など、数多くの応用がある。 オブジェクトセグメンテーションを移動するための既存のデータセットは、主にRGBまたはLidarビデオにフォーカスするが、動的シーンの理解を高めるための追加のイベント情報がない。 この制限に対処するため、DSEC-MOSと呼ばれる新しいデータセットを提案する。 我々のデータセットは、動植物に埋め込まれたRGBカメラで捉えたフレームを含み、イベントデータを組み込んで、シーンの変化に関する高時間分解能と低レイテンシ情報を提供する。 移動オブジェクトに対する正確なセグメンテーションマスクアノテーションを生成するために、最近登場したSAM - Segment Anything Modelを適用し、DSEC-MODから移動オブジェクトバウンディングボックスをプロンプトとして、RGBフレームを校正し、その結果をさらに修正する。 dsec-mosデータセットは合計16のシーケンス(13314のイメージ)を含んでいる。 我々の知る限りでは、DSEC-MOSは、自律運転におけるイベントカメラを含む、最初の移動オブジェクトセグメンテーションデータセットでもある。 プロジェクトページ: https://github.com/zzy-zhou/dsec-mos。

Moving Object Segmentation (MOS), a crucial task in computer vision, has numerous applications such as surveillance, autonomous driving, and video analytics. Existing datasets for moving object segmentation mainly focus on RGB or Lidar videos, but lack additional event information that can enhance the understanding of dynamic scenes. To address this limitation, we propose a novel dataset, called DSEC-MOS. Our dataset includes frames captured by RGB cameras embedded on moving vehicules and incorporates event data, which provide high temporal resolution and low-latency information about changes in the scenes. To generate accurate segmentation mask annotations for moving objects, we apply the recently emerged large model SAM - Segment Anything Model - with moving object bounding boxes from DSEC-MOD serving as prompts and calibrated RGB frames, then further revise the results. Our DSEC-MOS dataset contains in total 16 sequences (13314 images). To the best of our knowledge, DSEC-MOS is also the first moving object segmentation dataset that includes event camera in autonomous driving. Project Page: https://github.com/ZZY-Zhou/DSEC-MOS.
翻訳日:2023-05-02 16:59:12 公開日:2023-04-28
# ローカル編集可能な仮想人間を学習する

Learning Locally Editable Virtual Humans ( http://arxiv.org/abs/2305.00121v1 )

ライセンス: Link先を確認
Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges(参考訳) 本稿では,完全編集可能でカスタマイズ可能なニューラルネットワークアバターをモデル化する,新しいハイブリッド表現とエンドツーエンドのトレーニング可能なネットワークアーキテクチャを提案する。 私たちの研究の中心には、ニューラルネットワークのモデリング能力と使いやすさ、スキンメッシュの固有の3D一貫性を組み合わせた表現があります。 この目的のために,変形可能なボディモデルの頂点に局所的な幾何学的特徴とテクスチャ的特徴を格納する学習可能な機能コードブックを構築する。 この表現は生成的な自動デコーダアーキテクチャで採用され、目に見えないスキャンに適合し、外観や地形の異なる現実的なアバターをサンプリングする。 さらに,3dアセット間の局所的な特徴の交換によるローカル編集も可能とした。 アバターの作成と編集の手法を検証するため,CustomHumansと呼ばれる高品質なデータセットをトレーニングと評価のために提案する。 実験により,本手法は多種多様な細かなアバターを発生し,最先端の手法と比較して優れたモデルフィッティング性能が得られることを示す。 私たちのコードとデータセットはhttps://custom-humans.github.io/で利用可能です。

In this paper, we propose a novel hybrid representation and end-to-end trainable network architecture to model fully editable and customizable neural avatars. At the core of our work lies a representation that combines the modeling power of neural fields with the ease of use and inherent 3D consistency of skinned meshes. To this end, we construct a trainable feature codebook to store local geometry and texture features on the vertices of a deformable body model, thus exploiting its consistent topology under articulation. This representation is then employed in a generative auto-decoder architecture that admits fitting to unseen scans and sampling of realistic avatars with varied appearances and geometries. Furthermore, our representation allows local editing by swapping local features between 3D assets. To verify our method for avatar creation and editing, we contribute a new high-quality dataset, dubbed CustomHumans, for training and evaluation. Our experiments quantitatively and qualitatively show that our method generates diverse detailed avatars and achieves better model fitting performance compared to state-of-the-art methods. Our code and dataset are available at https://custom-humans.github.io/.
翻訳日:2023-05-02 16:58:40 公開日:2023-04-28
# 成人ニュージーランド人のソーシャルメディア利用 : オンライン調査から

The social media use of adult New Zealanders: Evidence from an online survey ( http://arxiv.org/abs/2305.00119v1 )

ライセンス: Link先を確認
Edgar Pacheco(参考訳) 2021年11月、ニュージーランドでソーシャルメディアの利用を調査するため、18歳以上の成人1001人を対象に調査を行った。 参加者は、異なるソーシャルメディアプラットフォーム(テキストメッセージを含む)の使用頻度について質問された。 本報告では,調査対象の9つのソーシャルメディアサイトとアプリについて,それぞれが毎日個別に使用される頻度について述べる。 重要な人口統計、すなわち、年齢、性別による差異を統計学的意義として検証し、その結果を要約した。

To explore social media use in New Zealand, a sample of 1001 adults aged 18 and over were surveyed in November 2021. Participants were asked about the frequency of their use of different social media platforms (text message included). This report describes how often each of the nine social media sites and apps covered in the survey are used individually on a daily basis. Differences based on key demographics, ie, age and gender, are tested for statistical significance, and findings summarised.
翻訳日:2023-05-02 16:58:07 公開日:2023-04-28
# モデルリスク管理のためのモノトニック性に対処するには?

How to address monotonicity for model risk management? ( http://arxiv.org/abs/2305.00799v1 )

ライセンス: Link先を確認
Dangxing Chen, Weicheng Ye(参考訳) 本稿では,モノトニック性を用いた透明機械学習モデルの説明責任と公平性を確立することの課題について検討する。 個々の単調性について多くの研究がなされているが、一調性は既存の文献ではしばしば見過ごされている。 本稿では, 個々の単調性, 弱い一調性, 強い一調性という3種類の単調性の存在下での透明ニューラルネットワークについて検討する。 透明性を維持しながら単調性を達成するために,神経添加モデルの単調グローブを提案する。 実証実験の結果, モノトニック性は実際にしばしば侵害され, 神経付加モデルのモノトニックグローブは透明であり, 説明可能であり, 公平であることがわかった。

In this paper, we study the problem of establishing the accountability and fairness of transparent machine learning models through monotonicity. Although there have been numerous studies on individual monotonicity, pairwise monotonicity is often overlooked in the existing literature. This paper studies transparent neural networks in the presence of three types of monotonicity: individual monotonicity, weak pairwise monotonicity, and strong pairwise monotonicity. As a means of achieving monotonicity while maintaining transparency, we propose the monotonic groves of neural additive models. As a result of empirical examples, we demonstrate that monotonicity is often violated in practice and that monotonic groves of neural additive models are transparent, accountable, and fair.
翻訳日:2023-05-02 13:23:34 公開日:2023-04-28
# CORSD: クラス指向リレーショナル自己蒸留

CORSD: Class-Oriented Relational Self Distillation ( http://arxiv.org/abs/2305.00918v1 )

ライセンス: Link先を確認
Muzhou Yu, Sia Huat Tan, Kailu Wu, Runpei Dong, Linfeng Zhang, Kaisheng Ma(参考訳) 知識蒸留は,(1)特徴量に基づく蒸留法は特徴量マップの蒸留にのみ焦点をあてるが,データ例の関係の伝達に欠ける,(2)関係蒸留法はL2ノルムなどの関係抽出のための手作業関数に制限される,あるいはクラス間関係モデリングの弱い,といった制約を伴って効果的なモデル圧縮法を実行する。 さらに、異質な教師学生アーキテクチャの特徴のばらつきは、不正確な関係知識の伝達につながる可能性がある。 本研究では,CORSD(Class-Oriented Relational Self Distillation)と呼ばれる新しい学習フレームワークを提案する。 トレーニング可能な関係ネットワークは、構造化されたデータ入力の関係を抽出するように設計されており、モデル全体の関係知識をモデルの最も深い層から浅い層に転送することで、サンプルをよりよく分類することができる。 また,分類課題の恩恵を受けるクラス指向関係を,関係ネットワークに捕捉する補助的分類器を提案する。 実験により、CORSDは著しく改善された。 ベースラインと比較すると、cifar100、imagenet、cub-200-2011では3.8%、1.5%、4.5%の精度向上が見られる。

Knowledge distillation conducts an effective model compression method while holding some limitations:(1) the feature based distillation methods only focus on distilling the feature map but are lack of transferring the relation of data examples; (2) the relational distillation methods are either limited to the handcrafted functions for relation extraction, such as L2 norm, or weak in inter- and intra- class relation modeling. Besides, the feature divergence of heterogeneous teacher-student architectures may lead to inaccurate relational knowledge transferring. In this work, we propose a novel training framework named Class-Oriented Relational Self Distillation (CORSD) to address the limitations. The trainable relation networks are designed to extract relation of structured data input, and they enable the whole model to better classify samples by transferring the relational knowledge from the deepest layer of the model to shallow layers. Besides, auxiliary classifiers are proposed to make relation networks capture class-oriented relation that benefits classification task. Experiments demonstrate that CORSD achieves remarkable improvements. Compared to baseline, 3.8%, 1.5% and 4.5% averaged accuracy boost can be observed on CIFAR100, ImageNet and CUB-200-2011, respectively.
翻訳日:2023-05-02 12:56:37 公開日:2023-04-28
# 概要と詳細:構文的にガイドされた粗いコード生成

Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation ( http://arxiv.org/abs/2305.00909v1 )

ライセンス: Link先を確認
Wenqing Zheng, S P Sharan, Ajay Kumar Jaiswal, Kevin Wang, Yihan Xi, Dejia Xu, Zhangyang Wang(参考訳) 複雑なアルゴリズムでは、人間のプログラマによる実装は通常、粗い制御フローの概要から始まり、反復的な拡張が続き、最終的に階層内の注意深く生成された構文構造と変数が生成される。 しかし、最先端の大規模言語モデルは「アウトライン・then-detail」という構造化思考過程を反映する中間的なウォームアップを伴わず、単一のパスでコードを生成する。 近年のchain-of-thought プロンプトの成功に触発されて,python コードを段階的に生成するプログラム合成言語モデル chaincoder を提案する。 まず、ソースコードを抽象構文木解析によりレイアウトフレームコンポーネントとアクセサリコンポーネントに分解し、階層表現を構築する。 次に、予測対象をマルチパス対象に再構成し、各パスがサブシーケンスを生成し、階層構造に連結する。 最後に、自然言語記述と構文的に整合したI/Oデータサンプルを共同符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。 大規模な評価では、ChainCoderは最先端技術よりも優れており、我々の進歩的な生成が推論手順を緩和し、言語モデルに高品質なソリューションを生成することを実証している。 私たちのコードは、https://github.com/VITA-Group/ChainCoder.comで利用可能です。

For a complicated algorithm, its implementation by a human programmer usually starts with outlining a rough control flow followed by iterative enrichments, eventually yielding carefully generated syntactic structures and variables in a hierarchy. However, state-of-the-art large language models generate codes in a single pass, without intermediate warm-ups to reflect the structured thought process of "outline-then-detail". Inspired by the recent success of chain-of-thought prompting, we propose ChainCoder, a program synthesis language model that generates Python code progressively, i.e. from coarse to fine in multiple passes. We first decompose source code into layout frame components and accessory components via abstract syntax tree parsing to construct a hierarchical representation. We then reform our prediction target into a multi-pass objective, each pass generates a subsequence, which is concatenated in the hierarchy. Finally, a tailored transformer architecture is leveraged to jointly encode the natural language descriptions and syntactically aligned I/O data samples. Extensive evaluations show that ChainCoder outperforms state-of-the-arts, demonstrating that our progressive generation eases the reasoning procedure and guides the language model to generate higher-quality solutions. Our codes are available at: https://github.com/VITA-Group/ChainCoder.
翻訳日:2023-05-02 12:56:11 公開日:2023-04-28
# torchbench: api表面カバレッジの高いpytorchのベンチマーク

TorchBench: Benchmarking PyTorch with High API Surface Coverage ( http://arxiv.org/abs/2304.14226v2 )

ライセンス: Link先を確認
Yueming Hao, Xu Zhao, Bin Bao, David Berard, Will Constable, Adnan Aziz, Xu Liu(参考訳) ディープラーニング(DL)は、様々な領域において革命的な技術である。 モデルの開発とデプロイを容易にするために、pytorchが最も人気のあるソリューションの1つであるディープラーニングフレームワークが数多く提案されている。 PyTorch周辺のエコシステムのパフォーマンスは極めて重要であり、トレーニングモデルのコストを削減し、モデル推論のレスポンス時間を削減する。 本稿では,pytorchソフトウェアスタックの性能を研究するためのベンチマークスイートであるtorchbenchを提案する。 既存のベンチマークスイートとは異なり、torchbenchは多くの代表的なモデルを包含し、大きなpytorch apiサーフェスをカバーする。 TorchBenchは、PyTorchソフトウェアスタックのパフォーマンスを包括的に特徴付け、モデル、PyTorchフレームワーク、GPUライブラリのパフォーマンス最適化を導くことができる。 TorchBenchの実用例は2つある。 1) PyTorchにおけるGPU性能の非効率性を特定するためにTorchBenchをプロファイルした。 多くのパフォーマンスバグとアップストリームパッチを公式のPyTorchリポジトリに最適化することができます。 2) TorchBenchをPyTorch継続的インテグレーションシステムに統合する。 PyTorchレポジトリがパフォーマンスのバグを発生させないよう、毎日のコードチェックインでパフォーマンスのレグレッションを特定できます。 TorchBenchはオープンソースで、進化を続けている。

Deep learning (DL) has been a revolutionary technique in various domains. To facilitate the model development and deployment, many deep learning frameworks are proposed, among which PyTorch is one of the most popular solutions. The performance of ecosystem around PyTorch is critically important, which saves the costs of training models and reduces the response time of model inferences. In this paper, we propose TorchBench, a novel benchmark suite to study the performance of PyTorch software stack. Unlike existing benchmark suites, TorchBench encloses many representative models, covering a large PyTorch API surface. TorchBench is able to comprehensively characterize the performance of the PyTorch software stack, guiding the performance optimization across models, PyTorch framework, and GPU libraries. We show two practical use cases of TorchBench. (1) We profile TorchBench to identify GPU performance inefficiencies in PyTorch. We are able to optimize many performance bugs and upstream patches to the official PyTorch repository. (2) We integrate TorchBench into PyTorch continuous integration system. We are able to identify performance regression in multiple daily code checkins to prevent PyTorch repository from introducing performance bugs. TorchBench is open source and keeps evolving.
翻訳日:2023-05-02 10:32:19 公開日:2023-04-28
# COSST: 包括的スーパービジョンと自己学習を用いた部分ラベル付きデータセットによるマルチ組織セグメンテーション

COSST: Multi-organ Segmentation with Partially Labeled Datasets Using Comprehensive Supervisions and Self-training ( http://arxiv.org/abs/2304.14030v2 )

ライセンス: Link先を確認
Han Liu, Zhoubing Xu, Riqiang Gao, Hao Li, Jianing Wang, Guillaume Chabin, Ipek Oguz, Sasa Grbic(参考訳) ディープラーニングモデルでは、マルチオーガンセグメンテーションが著しく成功したが、一般的には、関心のあるすべての臓器が注釈付きで大規模なデータセットを必要とする。 しかし、医用画像データセットは、しばしばサンプルサイズが低く、部分的にラベル付けされているのみである。 したがって、利用可能な部分ラベル付きデータセットの統一モデルをどのように学習し、それらの相乗的ポテンシャルを活用するかを検討することが重要である。 本稿では,既存手法の詳細な分析による部分ラベルセグメンテーションを実証的かつ体系的に研究し,地上の真理と擬似ラベルの2つの信号を含む3つの異なる種類の監視信号を特定する。 我々は,包括的監視信号と自己学習を効果的かつ効率的に統合する,COSSTと呼ばれる新しいトレーニングフレームワークを提案する。 具体的には、2つの真実に基づく信号を用いて初期統一モデルを訓練し、その後、自己学習を用いて擬似ラベル信号を初期モデルに反復的に組み込む。 信頼できない擬似ラベルによる性能劣化を軽減するため,潜在空間における異常検出による擬似ラベルの信頼性を評価し,各自己学習イテレーションから最も信頼できない擬似ラベルを除外する。 3つの部分ラベル分割タスクのための6つのctデータセットについて広範な実験を行った。 実験の結果,提案したCOSSTはベースライン法,すなわち各部分ラベル付きデータセットでトレーニングされた個々のネットワークに対して,大幅な改善が得られた。 COSSTは、最先端部分ラベルセグメンテーション法と比較して、様々なセグメンテーションタスクと異なるトレーニングデータサイズで一貫した優れた性能を示す。

Deep learning models have demonstrated remarkable success in multi-organ segmentation but typically require large-scale datasets with all organs of interest annotated. However, medical image datasets are often low in sample size and only partially labeled, i.e., only a subset of organs are annotated. Therefore, it is crucial to investigate how to learn a unified model on the available partially labeled datasets to leverage their synergistic potential. In this paper, we empirically and systematically study the partial-label segmentation with in-depth analyses on the existing approaches and identify three distinct types of supervision signals, including two signals derived from ground truth and one from pseudo label. We propose a novel training framework termed COSST, which effectively and efficiently integrates comprehensive supervision signals with self-training. Concretely, we first train an initial unified model using two ground truth-based signals and then iteratively incorporate the pseudo label signal to the initial model using self-training. To mitigate performance degradation caused by unreliable pseudo labels, we assess the reliability of pseudo labels via outlier detection in latent space and exclude the most unreliable pseudo labels from each self-training iteration. Extensive experiments are conducted on six CT datasets for three partial-label segmentation tasks. Experimental results show that our proposed COSST achieves significant improvement over the baseline method, i.e., individual networks trained on each partially labeled dataset. Compared to the state-of-the-art partial-label segmentation methods, COSST demonstrates consistent superior performance on various segmentation tasks and with different training data size.
翻訳日:2023-05-02 10:31:59 公開日:2023-04-28
# ジミニー・アドバイザー:規範と議論に基づく利害関係者間の道徳的合意

The Jiminy Advisor: Moral Agreements Among Stakeholders Based on Norms and Argumentation ( http://arxiv.org/abs/1812.04741v4 )

ライセンス: Link先を確認
Beishui Liao, Pere Pardo, Marija Slavkovik, Leendert van der Torre(参考訳) 自律システムは製造業者によって構築され、規範や法律に従う社会で運用され、エンドユーザーと対話する。 これらのアクターはすべて、自律システムの振る舞いに影響された利害関係者です。 このような利害関係者の倫理観が自律システムの行動にどのように統合できるかという課題に対処する。 我々は,規範システムからの手法と形式的議論を用いて利害関係者間の道徳的合意に達するための,jiminyと呼ばれる倫理的推奨要素を提案する。 ジミニーは、規範的システムを用いて各利害関係者の倫理的見解を表し、利害関係者の意見を含む道徳的ジレンマを解決する3つの方法を持っている。 まず、ジミニーは利害関係者の議論が互いにどのように関係しているかを考え、既にジレンマを解決しているかもしれない。 第二に、ジミニーは利害関係者の規範的なシステムを組み合わせることで、利害関係者の総合的な専門知識がジレンマを解決できる。 第3に、他の2つのメソッドが失敗した場合に限り、Jiminyはコンテキスト依存のルールを使用して、利害関係者のどちらが他の方法よりも優先するかを決定する。 抽象レベルでは、これらの3つのメソッドは引数の追加、引数間の攻撃の追加、引数間の攻撃の修正によって特徴づけられる。 我々は,ジミニーが倫理的推論や協調的意思決定だけでなく,倫理的行動の説明にも利用できることを示す。

An autonomous system is constructed by a manufacturer, operates in a society subject to norms and laws, and interacts with end users. All of these actors are stakeholders affected by the behavior of the autonomous system. We address the challenge of how the ethical views of such stakeholders can be integrated in the behavior of an autonomous system. We propose an ethical recommendation component called Jiminy which uses techniques from normative systems and formal argumentation to reach moral agreements among stakeholders. A Jiminy represents the ethical views of each stakeholder by using normative systems, and has three ways of resolving moral dilemmas that involve the opinions of the stakeholders. First, the Jiminy considers how the arguments of the stakeholders relate to one another, which may already resolve the dilemma. Secondly, the Jiminy combines the normative systems of the stakeholders such that the combined expertise of the stakeholders may resolve the dilemma. Thirdly, and only if these two other methods have failed, the Jiminy uses context-sensitive rules to decide which of the stakeholders take preference over the others. At the abstract level, these three methods are characterized by adding arguments, adding attacks between arguments, and revising attacks between arguments. We show how a Jiminy can be used not only for ethical reasoning and collaborative decision-making, but also to provide explanations about ethical behavior.
翻訳日:2023-05-01 18:20:34 公開日:2023-04-28
# マルチスケールCNNと生体誘発決定融合モデルに基づくマルチモーダル影響状態認識

Multimodal Affective States Recognition Based on Multiscale CNNs and Biologically Inspired Decision Fusion Model ( http://arxiv.org/abs/1911.12918v2 )

ライセンス: Link先を確認
Yuxuan Zhao, Xinyan Cao, Jinlong Lin, Dunshan Yu, Xixin Cao(参考訳) 近年,心電図(eeg)信号や末梢生理信号などの単一モダリティ信号に基づく感情状態認識モデルが進歩している。 しかし、マルチモーダルな生理学的信号に基づく感情状態認識法はまだ十分に活用されていない。 本稿では,マルチスケール畳み込みニューラルネットワーク(Multiscale CNN)と,マルチモーダルな感情状態認識のための生物学的な決定融合モデルを提案する。 まず、原信号がベースライン信号で前処理される。 次に、マルチスケールCNNにおける高スケールCNNと低スケールCNNを用いて、それぞれ脳波および周辺生理信号に対して出力される感情状態の確率を予測する。 最後に、融合モデルは、様々なクラスラベル間のユークリッド距離とマルチスケールCNNからの分類確率による各単一モード信号の信頼性を算出し、他のモダリティ情報を保持しながら、より信頼性の高いモダリティ情報によって決定を行う。 我々はこのモデルを用いて、DEAPおよびAMIGOSデータセットの覚醒価面から4つの感情状態の分類を行う。 その結果、融合モデルでは、単一モダリティ信号の結果と比較して感情状態認識の精度が大幅に向上し、deapとamigosデータセットでは、融合結果の認識精度がそれぞれ98.52%と99.89%となった。

There has been an encouraging progress in the affective states recognition models based on the single-modality signals as electroencephalogram (EEG) signals or peripheral physiological signals in recent years. However, multimodal physiological signals-based affective states recognition methods have not been thoroughly exploited yet. Here we propose Multiscale Convolutional Neural Networks (Multiscale CNNs) and a biologically inspired decision fusion model for multimodal affective states recognition. Firstly, the raw signals are pre-processed with baseline signals. Then, the High Scale CNN and Low Scale CNN in Multiscale CNNs are utilized to predict the probability of affective states output for EEG and each peripheral physiological signal respectively. Finally, the fusion model calculates the reliability of each single-modality signals by the Euclidean distance between various class labels and the classification probability from Multiscale CNNs, and the decision is made by the more reliable modality information while other modalities information is retained. We use this model to classify four affective states from the arousal valence plane in the DEAP and AMIGOS dataset. The results show that the fusion model improves the accuracy of affective states recognition significantly compared with the result on single-modality signals, and the recognition accuracy of the fusion result achieve 98.52% and 99.89% in the DEAP and AMIGOS dataset respectively.
翻訳日:2023-05-01 18:16:56 公開日:2023-04-28
# ニューラルエネルギーモデル学習のための近似最適勾配流

A Near-Optimal Gradient Flow for Learning Neural Energy-Based Models ( http://arxiv.org/abs/1910.14216v7 )

ライセンス: Link先を確認
Yang Wu and Pengxu Wei and Liang Lin(参考訳) 本稿では,学習エネルギーベースモデル(ebms)のための勾配流を最適化する新しい数値スキームを提案する。 物理シミュレーションの観点からは,最適輸送量(すなわちwasserstein)を用いた勾配流の近似問題を再定義する。 ebmsでは、段階的にサンプリングしてデータ分布を推定する学習プロセスが、乱れから目標多様体へ移動する動的粒子として扱うことができる電流と対象実分布との間の大域的相対エントロピーを最小化する機能勾配を実行する。 先行学習方式は,学習ステップ毎に連続時間kl発散に関するエントロピーを最小化する。 しかし、それらは、最適輸送原理に反する滑らかな多様体内で非滑らかな情報を射影することで、局所的なKL分岐で立ち往生する傾向にある。 この問題を解決するために、フォッカー・プランク方程式から大域相対エントロピーの2階ワッサーシュタイン勾配流を導出する。 既存のスキームと比較して、ワッサーシュタイン勾配流は実データ密度を近似するより滑らかで近似的な数値スキームである。 また、この近似スキームを導出し、その数値計算式を提供する。 提案する複雑な分布を適合させ, 神経ebmを用いた高品質な高次元データを生成する手法の実用的優位性と可能性を示す。

In this paper, we propose a novel numerical scheme to optimize the gradient flows for learning energy-based models (EBMs). From a perspective of physical simulation, we redefine the problem of approximating the gradient flow utilizing optimal transport (i.e. Wasserstein) metric. In EBMs, the learning process of stepwise sampling and estimating data distribution performs the functional gradient of minimizing the global relative entropy between the current and target real distribution, which can be treated as dynamic particles moving from disorder to target manifold. Previous learning schemes mainly minimize the entropy concerning the consecutive time KL divergence in each learning step. However, they are prone to being stuck in the local KL divergence by projecting non-smooth information within smooth manifold, which is against the optimal transport principle. To solve this problem, we derive a second-order Wasserstein gradient flow of the global relative entropy from Fokker-Planck equation. Compared with existing schemes, Wasserstein gradient flow is a smoother and near-optimal numerical scheme to approximate real data densities. We also derive this near-proximal scheme and provide its numerical computation equations. Our extensive experiments demonstrate the practical superiority and potentials of our proposed scheme on fitting complex distributions and generating high-quality, high-dimensional data with neural EBMs.
翻訳日:2023-05-01 18:16:31 公開日:2023-04-28
# 2次元ハンドプレース推定のための適応的グラフィカルモデルネットワーク

Adaptive Graphical Model Network for 2D Handpose Estimation ( http://arxiv.org/abs/1909.08205v2 )

ライセンス: Link先を確認
Deying Kong, Yifei Chen, Haoyu Ma, Xiangyi Yan, Xiaohui Xie(参考訳) 本稿では,単眼rgb画像から2次元手ポーズ推定の課題に取り組むために,適応型グラフィカルモデルネットワーク(agmn)と呼ばれる新しいアーキテクチャを提案する。 agmnは、ユニタリポテンシャルとペアワイズポテンシャル関数を計算するための深い畳み込みニューラルネットワークの2つの分岐と、ユニリーポテンシャルとペアワイズポテンシャルを統合するグラフィカルモデル推論モジュールからなる。 DCNNとグラフィカルモデルを組み合わせるために提案されている既存のアーキテクチャとは異なり、AGMNはグラフィカルモデルのパラメータが個々の入力画像に完全に適応していることが特徴である。 実験により,2dハンドキーポイント推定における最先端手法を2つの公開データセットにおいて有意なマージンで上回っていることを示す。 コードはhttps://github.com/deyingk/agmn.comにある。

In this paper, we propose a new architecture called Adaptive Graphical Model Network (AGMN) to tackle the task of 2D hand pose estimation from a monocular RGB image. The AGMN consists of two branches of deep convolutional neural networks for calculating unary and pairwise potential functions, followed by a graphical model inference module for integrating unary and pairwise potentials. Unlike existing architectures proposed to combine DCNNs with graphical models, our AGMN is novel in that the parameters of its graphical model are conditioned on and fully adaptive to individual input images. Experiments show that our approach outperforms the state-of-the-art method used in 2D hand keypoints estimation by a notable margin on two public datasets. Code can be found at https://github.com/deyingk/agmn.
翻訳日:2023-05-01 18:16:09 公開日:2023-04-28
# スピン環境における非マルコフ量子状態拡散

Non-Markovian Quantum State Diffusion for Spin Environments ( http://arxiv.org/abs/2203.02417v2 )

ライセンス: Link先を確認
Valentin Link, Kimmo Luoma, Walter T. Strunz(参考訳) 中心スピン系のようなスピンを構成する特定の種類の環境に強く結びついている量子系の力学を記述するための正確な開系法を導入する。 我々の理論は確立された非マルコフ量子状態拡散(NMQSD)理論と似ているが、ガウス浴の代わりにスピン浴である。 提案手法により,システムの時間的変化の低減状態を,確率的に進化する純粋状態のアンサンブル平均として表現することができる。 ゼロ温度と有限温度の両方における任意の線形スピン環境に対する包括的理論を提案する。 さらに, 確率的純粋状態の時間発展を数値計算できる階層的拡張法を提案し, 関連する強結合系における開システム問題の数値解法を提案する。

We introduce an exact open system method to describe the dynamics of quantum systems that are strongly coupled to specific types of environments comprising of spins, such as central spin systems. Our theory is similar to the established non-Markovian quantum state diffusion (NMQSD) theory, but for a spin bath instead of a Gaussian bath. The method allows us to represent the time-evolved reduced state of the system as an ensemble average of stochastically evolving pure states. We present a comprehensive theory for arbitrary linear spin environments at both zero and finite temperatures. Furthermore, we introduce a hierarchical expansion method that enables the numerical computation of the time evolution of the stochastic pure states, facilitating a numerical solution of the open system problem in relevant strong coupling regimes.
翻訳日:2023-05-01 18:08:51 公開日:2023-04-28
# TC-GNN:GPU上のスパースGNN計算とDense Tensor Coreのブリッジ

TC-GNN: Bridging Sparse GNN Computation and Dense Tensor Cores on GPUs ( http://arxiv.org/abs/2112.02052v3 )

ライセンス: Link先を確認
Yuke Wang, Boyuan Feng, Zheng Wang, Guyue Huang, Yufei Ding(参考訳) 近年、グラフベース機械学習のバックボーンであるグラフニューラルネットワーク(GNN)は、さまざまな領域(eコマースなど)で大きな成功を収めている。 しかしながら、GNNの性能は、非常にスパースで不規則なグラフベースの操作のため、通常不満足である。 そこで我々は,GPU Tensor Core Units (TCU) をベースとした最初のGNN加速フレームワークであるTC-GNNを提案する。 中心となる考え方は、"スパース" GNN 計算を高性能な "Dense" TCU と整合させることである。 具体的には、メインストリームのGNNコンピューティングフレームワークにおけるスパース操作の詳細な分析を行う。 スパースGNNワークロードのTCU処理を容易にする新しいスパースグラフ変換手法を提案する。 我々は,GPUリソースをフル活用するために,有効なCUDAコアとTCUコラボレーション設計を実装した。 TC-GNNとPyTorchフレームワークを統合し,高いプログラマビリティを実現する。 厳密な実験は、さまざまなモデルとデータセットにわたる最先端のDGLフレームワークの平均1.70倍のスピードアップを示している。 私たちはTC-GNNをhttps://github.com/YukeWang96/TCGNN-Pytorch.gitでオープンソース化しました。

Recently, graph neural networks (GNNs), as the backbone of graph-based machine learning, demonstrate great success in various domains (e.g., e-commerce). However, the performance of GNNs is usually unsatisfactory due to the highly sparse and irregular graph-based operations. To this end, we propose TC-GNN, the first GNN acceleration framework based on GPU Tensor Core Units (TCUs). The core idea is to reconcile the "Sparse" GNN computation with the high-performance "Dense" TCUs. Specifically, we conduct an in-depth analysis of the sparse operations in mainstream GNN computing frameworks. We introduce a novel sparse graph translation technique to facilitate TCU processing of the sparse GNN workload. We implement an effective CUDA core and TCU collaboration design to fully utilize GPU resources. We integrate TC-GNN with the PyTorch framework for high programmability. Rigorous experiments show an average of 1.70X speedup over the state-of-the-art DGL framework across various models and datasets. We open-source TC-GNN at https://github.com/YukeWang96/TCGNN-Pytorch.git
翻訳日:2023-05-01 18:08:39 公開日:2023-04-28
# 小さな信号シナリオの削減を超えて - 機械学習によるスヌートリノ検出性の向上

Beyond Cuts in Small Signal Scenarios -- Enhanced Sneutrino Detectability Using Machine Learning ( http://arxiv.org/abs/2108.03125v3 )

ライセンス: Link先を確認
Daniel Alvestad, Nikolai Fomin, J\"orn Kersten, Steffen Maeland, Inga Str\"umke(参考訳) 本研究では,LHCにおける新しい物理探索の感度を高めるために,背景支配の機械学習と,観測可能な信号と背景との高い重なり合いについて検討する。 xgboost と deep neural network の2つの異なるモデルを用いて,観測可能性間の相関を活用し,このアプローチを従来のカット・アンド・カウント法と比較した。 モデルの出力を分析する異なる手法を検討し、テンプレートが一般的に単純なカットよりも優れていることを発見した。 Shapley分解により、イベントキネマティクスと機械学習モデル出力の関係について、さらなる知見を得る。 我々は、メタ安定スヌートリノを具体例として超対称シナリオを考えるが、この方法論はより広い種類のモデルに適用できる。

We investigate enhancing the sensitivity of new physics searches at the LHC by machine learning in the case of background dominance and a high degree of overlap between the observables for signal and background. We use two different models, XGBoost and a deep neural network, to exploit correlations between observables and compare this approach to the traditional cut-and-count method. We consider different methods to analyze the models' output, finding that a template fit generally performs better than a simple cut. By means of a Shapley decomposition, we gain additional insight into the relationship between event kinematics and the machine learning model output. We consider a supersymmetric scenario with a metastable sneutrino as a concrete example, but the methodology can be applied to a much wider class of models.
翻訳日:2023-05-01 18:08:23 公開日:2023-04-28
# 条件付きフォン・ノイマンエントロピー上のデバイス独立な下界

Device-independent lower bounds on the conditional von Neumann entropy ( http://arxiv.org/abs/2106.13692v2 )

ライセンス: Link先を確認
Peter Brown, Hamza Fawzi and Omar Fawzi(参考訳) 量子鍵分布(QKD)やランダムネス展開(RE)を含むいくつかのデバイス非依存(DI)プロトコルの速度は、特定の量子状態のクラスに対する条件付きフォン・ノイマンエントロピーの最適化によって計算できる。 本研究では,そのようなレートで下限を計算する数値計算手法を提案する。 一般分離ヒルベルト空間上で定義される系の条件付きフォン・ノイマンエントロピーに収束する最適化問題を導出する。 Navascu\'es-Pironio-Ac\'in階層を用いて、これらの問題を半定値プログラムに緩和し、DIプロトコルのレートの低い境界を計算する計算可能な方法を与える。 提案手法を適用してDI-REおよびDI-QKDプロトコルの速度を計算することにより,従来の数値手法よりも大幅に改善され,DI-REとDI-QKDの両者の速度が大幅に向上したことを示す。 特にDI-QKDの場合、現在の能力の範囲内にある最小検出効率閾値を示す。 さらに, 本手法は, 既知の密接な解析領域を数桁まで回復することで, 高速に収束できることを実証する。 最後に,本手法はエントロピー累積定理に適合するので,有限ラウンドプロトコルの計算速度を計算し,その安全性を証明できることを示す。

The rates of several device-independent (DI) protocols, including quantum key-distribution (QKD) and randomness expansion (RE), can be computed via an optimization of the conditional von Neumann entropy over a particular class of quantum states. In this work we introduce a numerical method to compute lower bounds on such rates. We derive a sequence of optimization problems that converge to the conditional von Neumann entropy of systems defined on general separable Hilbert spaces. Using the Navascu\'es-Pironio-Ac\'in hierarchy we can then relax these problems to semidefinite programs, giving a computationally tractable method to compute lower bounds on the rates of DI protocols. Applying our method to compute the rates of DI-RE and DI-QKD protocols we find substantial improvements over all previous numerical techniques, demonstrating significantly higher rates for both DI-RE and DI-QKD. In particular, for DI-QKD we show a minimal detection efficiency threshold which is within the realm of current capabilities. Moreover, we demonstrate that our method is capable of converging rapidly by recovering all known tight analytical bounds up to several decimal places. Finally, we note that our method is compatible with the entropy accumulation theorem and can thus be used to compute rates of finite round protocols and subsequently prove their security.
翻訳日:2023-05-01 18:08:10 公開日:2023-04-28
# clnet:大規模mimo csiフィードバックのための複雑な入力軽量ニューラルネットワーク

CLNet: Complex Input Lightweight Neural Network designed for Massive MIMO CSI Feedback ( http://arxiv.org/abs/2102.07507v3 )

ライセンス: Link先を確認
Sijie Ji, Mo Li(参考訳) CSIフィードバックのオーバーヘッドを減らして、FDDモードでMIMOを最大限に活用する可能性が最近注目を集めている。 大規模なMIMO CSIフィードバックアプローチのための多くのディープラーニングは、その効率性と可能性を示している。 しかし、既存のほとんどの手法は計算複雑性のコストで精度を向上し、CSI圧縮率の増加とともに精度が大幅に低下する。 本稿では,CSIの固有特性に基づくCSIフィードバック問題に適したニューラルネットワークCLNetを提案する。 CLNetは、信号処理のための複雑な複雑な入力層を提案し、注意機構を利用してネットワークの性能を向上させる。 実験の結果、CLNetは、平均計算オーバーヘッドを24.1倍に抑えながら、屋外および屋内の両方のシナリオにおいて平均精度5.41倍の精度向上により最先端の手法よりも優れていた。 ディープラーニングベースのcsiフィードバックclnetのコードは、githubで入手できる。

Unleashing the full potential of massive MIMO in FDD mode by reducing the overhead of CSI feedback has recently garnered attention. Numerous deep learning for massive MIMO CSI feedback approaches have demonstrated their efficiency and potential. However, most existing methods improve accuracy at the cost of computational complexity and the accuracy decreases significantly as the CSI compression rate increases. This paper presents a novel neural network CLNet tailored for CSI feedback problem based on the intrinsic properties of CSI. CLNet proposes a forge complex-valued input layer to process signals and utilizes attention mechanism to enhance the performance of the network. The experiment result shows that CLNet outperforms the state-of-the-art method by average accuracy improvement of 5.41\% in both outdoor and indoor scenarios with average 24.1\% less computational overhead. Codes for deep learning-based CSI feedback CLNet are available at GitHub.
翻訳日:2023-05-01 18:07:45 公開日:2023-04-28
# voxelに基づく3次元物体分類のための高速ハイブリッドカスケードネットワーク

A Fast Hybrid Cascade Network for Voxel-based 3D Object Classification ( http://arxiv.org/abs/2011.04522v3 )

ライセンス: Link先を確認
Ji Luo, Hui Cao, Jie Wang, Siyu Zhang and Shen Cai(参考訳) 近年,Voxelベースの3Dオブジェクト分類が徹底的に研究されている。 以前の手法では、古典的2d畳み込みを3d形式に変換しており、分類のためにバイナリボクセル表現を持つオブジェクトにさらに適用される。 しかし、バイナリ・ボクセル表現は多くの場合3次元畳み込みにはあまり効果がない。 本稿では,voxelに基づく3次元オブジェクト分類のためのハイブリッドカスケードアーキテクチャを提案する。 完全に連結された層と畳み込み層からなる3つのステージで構成され、それぞれが容易で適度で硬い3Dモデルを扱う。 提案手法では,精度と速度の両立が可能である。 各ボクセルに符号付き距離値を与えることにより、精度に関する明らかな利得を観測することができる。 さらに、平均推論時間は最先端のポイントクラウドやvoxelベースのメソッドと比較して大幅に高速化できる。

Voxel-based 3D object classification has been thoroughly studied in recent years. Most previous methods convert the classic 2D convolution into a 3D form that will be further applied to objects with binary voxel representation for classification. However, the binary voxel representation is not very effective for 3D convolution in many cases. In this paper, we propose a hybrid cascade architecture for voxel-based 3D object classification. It consists of three stages composed of fully connected and convolutional layers, dealing with easy, moderate, and hard 3D models respectively. Both accuracy and speed can be balanced in our proposed method. By giving each voxel a signed distance value, an obvious gain regarding the accuracy can be observed. Besides, the mean inference time can be speeded up hugely compared with the state-of-the-art point cloud and voxel based methods.
翻訳日:2023-05-01 18:07:32 公開日:2023-04-28
# MS-RNN:時空間予測学習のための柔軟なマルチスケールフレームワーク

MS-RNN: A Flexible Multi-Scale Framework for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2206.03010v5 )

ライセンス: Link先を確認
Zhifeng Ma, Hao Zhang, and Jie Liu(参考訳) 深層学習の助けを借りて、過去の知識を通じて将来のフレームを予測する時空間予測学習は、多くの分野で広く使われている。 これまでの作業では,ネットワークの拡大あるいは深化によるモデルパフォーマンスの向上が基本的に行われていたが,メモリオーバーヘッドの増加によって,このテクノロジの開発や適用が著しく妨げられている。 メモリ消費を増大させることなく性能を向上させるため,我々はモデル性能を改善するための別の次元であるスケールに注力する。 この効果は画像分類やセマンティックセグメンテーションといった多くのCNNベースのタスクで広く実証されてきたが、近年のRNNモデルでは十分に研究されていない。 本稿では,マルチスケールの利点から学習し,時空間予測学習のための最近のrnnモデルを強化するために,マルチスケールrnn(ms-rnn)という汎用フレームワークを提案する。 異なるスケールを統合することで、パフォーマンスとオーバーヘッドを大幅に削減し、既存のモデルを強化します。 我々は,8つのRNNモデル(ConvLSTM,TrajGRU,PredRNN,PredRNN++,MIM,MotionRNN,PredRNN-V2,PrecipLSTM)を4つのデータセット(MNIST,TaxiBJ,KTH,ドイツ)で徹底的に実験することによってMS-RNNフレームワークを検証する。 その結果、我々のフレームワークを組み込んだrnnモデルは、メモリコストがずっと低く、性能が以前よりも向上した効率を示しました。 私たちのコードは \url{https://github.com/mazhf/ms-rnn} でリリースされる。

Spatiotemporal predictive learning, which predicts future frames through historical prior knowledge with the aid of deep learning, is widely used in many fields. Previous work essentially improves the model performance by widening or deepening the network, but it also brings surging memory overhead, which seriously hinders the development and application of this technology. In order to improve the performance without increasing memory consumption, we focus on scale, which is another dimension to improve model performance but with low memory requirement. The effectiveness has been widely demonstrated in many CNN-based tasks such as image classification and semantic segmentation, but it has not been fully explored in recent RNN models. In this paper, learning from the benefit of multi-scale, we propose a general framework named Multi-Scale RNN (MS-RNN) to boost recent RNN models for spatiotemporal predictive learning. By integrating different scales, we enhance the existing models with both improved performance and greatly reduced overhead. We verify the MS-RNN framework by exhaustive experiments with eight popular RNN models (ConvLSTM, TrajGRU, PredRNN, PredRNN++, MIM, MotionRNN, PredRNN-V2, and PrecipLSTM) on four different datasets (Moving MNIST, TaxiBJ, KTH, and Germany). The results show the efficiency that the RNN models incorporating our framework have much lower memory cost but better performance than before. Our code is released at \url{https://github.com/mazhf/MS-RNN}.
翻訳日:2023-05-01 18:00:21 公開日:2023-04-28
# オンライン深層強化学習における効果的な逆襲攻撃

Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning ( http://arxiv.org/abs/2205.14842v2 )

ライセンス: Link先を確認
Yinglun Xu, Qi Zeng, Gagandeep Singh(参考訳) 本研究では,オンライン深層強化学習(drl)において,エージェントが使用する学習アルゴリズムや環境のダイナミクスに不服従な報酬中毒攻撃について検討する。 我々は,adversarial mdp攻撃と呼ばれる一般的なブラックボックス報酬中毒フレームワークを設計することで,最先端のdrlアルゴリズムに固有の脆弱性を実証する。 私たちは、フレームワークをインスタンス化して、2つの新しいアタックを構築することで、全体のトレーニング時間ステップのごく一部で報酬を損なうだけで、エージェントが低パフォーマンスのポリシーを学ぶことができます。 我々は,攻撃の効率を理論的に解析し,広範な経験的評価を行う。 我々の攻撃は,DQN,PPO,SACなど,様々な最先端のDRLアルゴリズムを用いて,いくつかの古典的制御とMuJoCo環境下で学習し,効果的に毒を投与する。

We study reward poisoning attacks on online deep reinforcement learning (DRL), where the attacker is oblivious to the learning algorithm used by the agent and the dynamics of the environment. We demonstrate the intrinsic vulnerability of state-of-the-art DRL algorithms by designing a general, black-box reward poisoning framework called adversarial MDP attacks. We instantiate our framework to construct two new attacks which only corrupt the rewards for a small fraction of the total training timesteps and make the agent learn a low-performing policy. We provide a theoretical analysis of the efficiency of our attack and perform an extensive empirical evaluation. Our results show that our attacks efficiently poison agents learning in several popular classical control and MuJoCo environments with a variety of state-of-the-art DRL algorithms, such as DQN, PPO, SAC, etc.
翻訳日:2023-05-01 17:59:36 公開日:2023-04-28
# 小型量子プロセッサ用連続パラメータ量子ゲートのサンプル効率検証

Sample-efficient verification of continuously-parameterized quantum gates for small quantum processors ( http://arxiv.org/abs/2205.13074v2 )

ライセンス: Link先を確認
Ryan Shaffer, Hang Ren, Emiliia Dyrenkova, Christopher G. Yale, Daniel S. Lobser, Ashlyn D. Burch, Matthew N. H. Chow, Melissa C. Revelle, Susan M. Clark, Hartmut H\"affner(参考訳) ほとんどの短期量子情報処理装置は、量子誤り訂正と関連する論理量子ゲートセットを実装することができない。 その代わり、量子回路はデバイスの物理的ネイティブゲートセットを使って直接実装される。 これらのネイティブゲートはしばしばパラメータ化(例えば回転角)を持ち、一連の操作を連続的に行うことができる。 パラメータの許容範囲を越えたゲートの正しい操作の検証は、これらのデバイスの信頼性に対する信頼を得るために重要である。 本研究では, 最大10量子ビットの小型量子プロセッサに対して, 連続パラメータ化量子ゲートのサンプル効率検証を行う手法を実証する。 この手順では、デバイスのネイティブゲートセットから選択したランダムにパラメータ化されたゲート層のランダムシーケンスを生成し、そのシーケンスに近似的な逆を確率的にコンパイルすることで、デバイス上の全シーケンスの実行が初期状態に近い状態になるようにする。 その結果,この手法による忠実度推定は,クロスエントロピーベンチマークによる忠実度推定よりもばらつきが低いことがわかった。 これにより、所望の精度で忠実度損失を推定する場合、サンプル効率に実験的に関連のある利点が得られる。 本稿では,sandia qscout のトラップイオン量子プロセッサと ibm q の超伝導量子プロセッサ上で連続的にパラメータ化された量子ゲートセットを用いて,この手法を実験的に実現し,数値的にも実験的にもサンプル効率の利点を実証する。

Most near-term quantum information processing devices will not be capable of implementing quantum error correction and the associated logical quantum gate set. Instead, quantum circuits will be implemented directly using the physical native gate set of the device. These native gates often have a parameterization (e.g., rotation angles) which provide the ability to perform a continuous range of operations. Verification of the correct operation of these gates across the allowable range of parameters is important for gaining confidence in the reliability of these devices. In this work, we demonstrate a procedure for sample-efficient verification of continuously-parameterized quantum gates for small quantum processors of up to approximately 10 qubits. This procedure involves generating random sequences of randomly-parameterized layers of gates chosen from the native gate set of the device, and then stochastically compiling an approximate inverse to this sequence such that executing the full sequence on the device should leave the system near its initial state. We show that fidelity estimates made via this technique have a lower variance than fidelity estimates made via cross-entropy benchmarking. This provides an experimentally-relevant advantage in sample efficiency when estimating the fidelity loss to some desired precision. We describe the experimental realization of this technique using continuously-parameterized quantum gate sets on a trapped-ion quantum processor from Sandia QSCOUT and a superconducting quantum processor from IBM Q, and we demonstrate the sample efficiency advantage of this technique both numerically and experimentally.
翻訳日:2023-05-01 17:59:02 公開日:2023-04-28
# 正規化混合モデルを用いたエンドツーエンドマルチオブジェクト検出

End-to-End Multi-Object Detection with a Regularized Mixture Model ( http://arxiv.org/abs/2205.08714v3 )

ライセンス: Link先を確認
Jaeyoung Yoo, Hojun Lee, Seunghyeon Seo, Inseop Chung, Nojun Kwak(参考訳) 最近のエンドツーエンドのマルチオブジェクト検出器は、非最大抑圧(NMS)のような手作りのプロセスを取り除き、推論パイプラインを単純化している。 しかし、トレーニング中は、予測された信頼性スコアの信頼性を低下させるヒューリスティックや手作りのプロセスに大きく依存している。 本稿では,NLL(負対数類似度)と正規化項(正則化項)の2項のみからなるエンドツーエンドマルチオブジェクト検出器を訓練するための新しい枠組みを提案する。 これにより、正規化混合密度モデルを用いた地中真理境界箱の密度推定として多対象検出問題を扱う。 正規化混合モデル (d-rmm) を用いた多目的検出法である \textit{end-to-end multi-object detection は、nll を最大正規化項であるmaximum component maximization (mcm) loss で最小化し、重複予測を防止した。 本手法は,学習過程のヒューリスティックさを低減し,予測信頼度スコアの信頼性を向上させる。 さらに、我々のD-RMMは、MS COCOデータセット上で以前のエンドツーエンド検出器よりも優れている。

Recent end-to-end multi-object detectors simplify the inference pipeline by removing hand-crafted processes such as non-maximum suppression (NMS). However, during training, they still heavily rely on heuristics and hand-crafted processes which deteriorate the reliability of the predicted confidence score. In this paper, we propose a novel framework to train an end-to-end multi-object detector consisting of only two terms: negative log-likelihood (NLL) and a regularization term. In doing so, the multi-object detection problem is treated as density estimation of the ground truth bounding boxes utilizing a regularized mixture density model. The proposed \textit{end-to-end multi-object Detection with a Regularized Mixture Model} (D-RMM) is trained by minimizing the NLL with the proposed regularization term, maximum component maximization (MCM) loss, preventing duplicate predictions. Our method reduces the heuristics of the training process and improves the reliability of the predicted confidence score. Moreover, our D-RMM outperforms the previous end-to-end detectors on MS COCO dataset.
翻訳日:2023-05-01 17:58:40 公開日:2023-04-28
# fundusq-net: fundus images quality gradingのための回帰品質評価ディープラーニングアルゴリズム

FundusQ-Net: a Regression Quality Assessment Deep Learning Algorithm for Fundus Images Quality Grading ( http://arxiv.org/abs/2205.01676v2 )

ライセンス: Link先を確認
Or Abramovich, Hadas Pizem, Jan Van Eijgen, Ilan Oren, Joshua Melamed, Ingeborg Stalmans, Eytan Z. Blumenthal and Joachim A. Behar(参考訳) 目的:緑内障,糖尿病網膜症,加齢黄斑変性などの眼科疾患は盲目や視力障害の主な原因である。 これらの病態の診断を簡素化し、迅速化する新しい意思決定支援ツールが必要である。 このプロセスの鍵となるステップは、基礎画像の品質を自動的に推定し、それが人間のオペレータや機械学習モデルによって解釈可能であることを保証することである。 本稿では,この新たな尺度に対して,新たな基礎画像品質尺度と深層学習(DL)モデルを提案する。 方法】1-10範囲の眼科医2名による1,245枚の画像の画質は0.5。 画像品質評価のためのDL回帰モデルを訓練した。 アーキテクチャはInception-V3である。 このモデルは6つのデータベースから89,947枚の画像を用いて開発され、そのうち1,245枚の画像は専門家によってラベル付けされ、残りの88,702枚の画像は事前学習と半教師付き学習に使用された。 最終dlモデルは内部テストセット(n=209)と外部テストセット(n=194)で評価された。 結果: fundusq-net と名づけられた最終dlモデルは、内部テストセットで 0.61 (0.54-0.68) の平均絶対誤差を達成した。 外部テストセットとして公開DRIMDBデータベース上でバイナリ分類モデルとして評価すると,精度は99%であった。 意義:本アルゴリズムは,基礎画像の自動品質評価のための新しいロバストなツールを提供する。

Objective: Ophthalmological pathologies such as glaucoma, diabetic retinopathy and age-related macular degeneration are major causes of blindness and vision impairment. There is a need for novel decision support tools that can simplify and speed up the diagnosis of these pathologies. A key step in this process is to automatically estimate the quality of the fundus images to make sure these are interpretable by a human operator or a machine learning model. We present a novel fundus image quality scale and deep learning (DL) model that can estimate fundus image quality relative to this new scale. Methods: A total of 1,245 images were graded for quality by two ophthalmologists within the range 1-10, with a resolution of 0.5. A DL regression model was trained for fundus image quality assessment. The architecture used was Inception-V3. The model was developed using a total of 89,947 images from 6 databases, of which 1,245 were labeled by the specialists and the remaining 88,702 images were used for pre-training and semi-supervised learning. The final DL model was evaluated on an internal test set (n=209) as well as an external test set (n=194). Results: The final DL model, denoted FundusQ-Net, achieved a mean absolute error of 0.61 (0.54-0.68) on the internal test set. When evaluated as a binary classification model on the public DRIMDB database as an external test set the model obtained an accuracy of 99%. Significance: the proposed algorithm provides a new robust tool for automated quality grading of fundus images.
翻訳日:2023-05-01 17:58:21 公開日:2023-04-28
# フェデレーション学習アーキテクチャパターン選択のための決定モデル

Decision Models for Selecting Federated Learning Architecture Patterns ( http://arxiv.org/abs/2204.13291v3 )

ライセンス: Link先を確認
Sin Kit Lo, Qinghua Lu, Hye-Young Paik, Liming Zhu(参考訳) フェデレートされた機械学習は、機械学習におけるデータの飢餓とプライバシー問題を解決するソリューションとして、学術や産業で急速に成長している。 広く分散されたシステムであるフェデレーション機械学習は、様々なシステム設計思考を必要とする。 連合機械学習システムの設計を改善するために、研究者は様々なシステム設計の側面をカバーする複数のパターンと戦術を導入した。 しかし、多くのパターンはデザイナーがいつ、どのパターンを採用するべきかを混乱させてしまう。 本稿では、フェデレーション機械学習に関する体系的な文献レビューに基づいて、フェデレーション機械学習アーキテクチャ設計のためのパターン選択のための一連の決定モデルを提案し、フェデレーション機械学習の知識が限られているデザイナやアーキテクトを支援する。 各決定モデルは、フェデレーション機械学習システムの機能的および非機能的要求を一連のパターンにマップする。 また,パターンの欠点も明らかにした。 我々は、意思決定パターンを、大企業による具体的な機械学習アーキテクチャにマッピングすることで、意思決定モデルを評価し、モデルの正しさと有用性を評価する。 評価結果から,提案する決定モデルは,連合機械学習アーキテクチャ設計プロセスに構造をもたらし,設計の理論的根拠を明確化するのに役立つことが示唆された。

Federated machine learning is growing fast in academia and industries as a solution to solve data hungriness and privacy issues in machine learning. Being a widely distributed system, federated machine learning requires various system design thinking. To better design a federated machine learning system, researchers have introduced multiple patterns and tactics that cover various system design aspects. However, the multitude of patterns leaves the designers confused about when and which pattern to adopt. In this paper, we present a set of decision models for the selection of patterns for federated machine learning architecture design based on a systematic literature review on federated machine learning, to assist designers and architects who have limited knowledge of federated machine learning. Each decision model maps functional and non-functional requirements of federated machine learning systems to a set of patterns. We also clarify the drawbacks of the patterns. We evaluated the decision models by mapping the decision patterns to concrete federated machine learning architectures by big tech firms to assess the models' correctness and usefulness. The evaluation results indicate that the proposed decision models are able to bring structure to the federated machine learning architecture design process and help explicitly articulate the design rationale.
翻訳日:2023-05-01 17:57:57 公開日:2023-04-28
# 探索問題に対する量子近似最適化アルゴリズムのGrover Searchによる代替演算子アンザツ

Grover Search Inspired Alternating Operator Ansatz of Quantum Approximate Optimization Algorithm for Search Problems ( http://arxiv.org/abs/2204.10324v2 )

ライセンス: Link先を確認
Chen-Fu Chiang and Paul M. Alsing(参考訳) 我々は,AGS(Adiabatic Grover Search)とAQC(Adiabatic Quantum Computing)の2つの計算フレームワーク間のマッピングを用いて,Groverの探索アルゴリズムをAQCレギュレーションに変換する。 次に,量子近似最適化アルゴリズム (qaoa) における変分パラメータの値を得るために, ags のスケジュール依存ハミルトニアンにトロタライズを適用する。 目標は、反復的な機械学習プロセスなしで、グローバー探索アルゴリズムの最適動作をqaoaフレームワークに導入することである。

We use the mapping between two computation frameworks , Adiabatic Grover Search (AGS) and Adiabatic Quantum Computing (AQC), to translate the Grover search algorithm into the AQC regime. We then apply Trotterization on the schedule-dependent Hamiltonian of AGS to obtain the values of variational parameters in the Quantum Approximate Optimization Algorithm (QAOA) framework. The goal is to carry the optimal behavior of Grover search algorithm into the QAOA framework without the iterative machine learning processes.
翻訳日:2023-05-01 17:57:38 公開日:2023-04-28
# $n$- Photon Jaynes-Cummingsモデルにおける多重光子束放出

Multiple-photon bundle emission in the $n$-photon Jaynes-Cummings model ( http://arxiv.org/abs/2204.09899v3 )

ライセンス: Link先を確認
Shu-Yuan Jiang, Fen Zou, Yi Wang, Jin-Feng Huang, Xun-Wei Xu, Jie-Qiao Liao(参考訳) 我々は、n$-photonエキサイティングプロセスを通じて、単一モードの光学場と結合した2段階のシステムからなるn$-photon jaynes-cummingsモデルにおける多重光子束放出の研究を行った。 ここで、2段階の系は、近共振単色場によって強く駆動されるため、この系は、適切な共振条件下でゼロ光子状態と$n$-光子状態の間の超ラビ振動が起こるモロー状態で動作することができる。 我々は、光子数と標準等時高次相関関数を計算し、この系において多重光子束の放出が生じることを確かめる。 多重光子束の放出は、状態集団の量子軌道と、標準および一般化された時間遅延2次相関関数の両方を調査することによって確認される。 我々の研究は、多光子量子コヒーレントデバイスの研究への道を切り開いており、量子情報科学や技術に潜在的な応用が期待できる。

We study the multiple-photon bundle emission in the $n$-photon Jaynes-Cummings model composed of a two-level system coupled to a single-mode optical field via the $n$-photon exciting process. Here, the two-level system is strongly driven by a near-resonant monochromatic field, and hence the system can work in the Mollow regime, in which a super-Rabi oscillation between the zero-photon state and the $n$-photon state can take place under proper resonant conditions. We calculate the photon number populations and the standard equal-time high-order correlation functions, and find that the multiple-photon bundle emission can occur in this system. The multiple-photon bundle emission is also confirmed by investigating the quantum trajectories of the state populations and both the standard and generalized time-delay second-order correlation functions for multiple-photon bundle. Our work paves the way towards the study of multiple-photon quantum coherent devices, with potential application in quantum information sciences and technologies.
翻訳日:2023-05-01 17:57:27 公開日:2023-04-28
# 測定結果の系と測定器間の量子コヒーレント相互作用のダイナミクス依存性

Dependence of measurement outcomes on the dynamics of quantum coherent interactions between the system and the meter ( http://arxiv.org/abs/2209.00751v2 )

ライセンス: Link先を確認
Tomonori Matsushita and Holger F. Hofmann(参考訳) システムの内部特性に関する情報は、システムと外部メーターの相互作用によってのみ得ることができる。 しかしながら、そのような相互作用は一般にシステムとメーターの間の絡み合いをもたらすため、測定結果をシステムの物理的性質の特定の値に遡ることが困難である。 したがって、量子測定の結果は測定相互作用の力学に非自明な方法で依存しており、量子力学における測定コンテキストの役割について物理的に説明できる可能性がある。 ここでは,計測相互作用が測定値に与える影響を,系のバックアクションに伴う量子コヒーレント系のダイナミクスの観点から完全に説明できることを示す。 十分に小さなバックアクションの不確かさに対して、系の物理的性質はバックアクションダイナミクスのハミルトン・ジャコビ方程式から得られる弱い値によって記述される。 高い測定解像度では、観測された値は異なる量のバックアクションの間の量子干渉によって決定される。 固有値は、異なるバックアクション間の量子干渉がバックアクションパラメータのフーリエ変換に対応するときに現れる。 量子測定で得られた物理特性の値は、相互作用中にその物理特性によって生成されるバックアクションダイナミクスの量子コヒーレントな性質に由来すると結論付ける。 測定結果はダイナミクスの要素を表しており、現実の独立した要素の測定では説明できない。

Information about the internal properties of a system can only be obtained through interactions of the system with an external meter. However, such interactions generally result in entanglement between the system and the meter, making it difficult to trace the measurement result back to a specific value of the physical property in the system. It is therefore possible that the outcomes of quantum measurements depend in a non-trivial manner on the dynamics of the measurement interaction, possibly providing a physical explanation for the role of measurement contexts in quantum mechanics. Here, we show that the effects of the measurement interaction on the meter can be described entirely in terms of the quantum coherent system dynamics associated with the back-action on the system. For sufficiently small back-action uncertainties, the physical property of the system is described by a weak value obtained from the Hamilton-Jacobi equation of the back-action dynamics. At higher measurement resolutions, the observed values are determined by quantum interferences between different amounts of back-action. Eigenvalues emerge when the quantum interferences between different back-actions correspond to a Fourier transform in the back-action parameter. We conclude that the values of physical properties obtained in quantum measurements originate from the quantum coherent properties of the back-action dynamics generated by that physical property during an interaction. Measurement outcomes represent elements of the dynamics and cannot be explained by measurement independent elements of reality.
翻訳日:2023-05-01 17:50:30 公開日:2023-04-28
# 自己スーパービジョンによるプログレッシブシーンテキスト消去

Progressive Scene Text Erasing with Self-Supervision ( http://arxiv.org/abs/2207.11469v2 )

ライセンス: Link先を確認
Xiangcheng Du and Zhao Zhou and Yingbin Zheng and Xingjiao Wu and Tianlong Ma and Cheng Jin(参考訳) シーン画像からテキスト内容を消去しようとするシーンテキスト消去と、大規模合成データに基づいて現在最先端のテキスト消去モデルを訓練する。 データ合成エンジンは大量の注釈付きトレーニングサンプルを提供するが、合成データと実世界のデータには違いがある。 本稿では,無ラベル実世界シーンテキスト画像の特徴表現に自己スーパービジョンを用いる。 画像変形のテキストストロークマスク間で一貫性を保つために、新しいプリテキストタスクが設計されている。 残余テキストを削除するために,プログレッシブ消去ネットワークを設計する。 その後の高品質な結果の基礎となる中間生成結果を活用することにより、シーンテキストを徐々に消去する。 実験の結果,本手法はテキスト消去タスクの一般化を著しく改善し,公開ベンチマーク上での最先端性能を実現する。

Scene text erasing seeks to erase text contents from scene images and current state-of-the-art text erasing models are trained on large-scale synthetic data. Although data synthetic engines can provide vast amounts of annotated training samples, there are differences between synthetic and real-world data. In this paper, we employ self-supervision for feature representation on unlabeled real-world scene text images. A novel pretext task is designed to keep consistent among text stroke masks of image variants. We design the Progressive Erasing Network in order to remove residual texts. The scene text is erased progressively by leveraging the intermediate generated results which provide the foundation for subsequent higher quality results. Experiments show that our method significantly improves the generalization of the text erasing task and achieves state-of-the-art performance on public benchmarks.
翻訳日:2023-05-01 17:50:14 公開日:2023-04-28
# Diffsound:テキスト音声生成のための離散拡散モデル

Diffsound: Discrete Diffusion Model for Text-to-sound Generation ( http://arxiv.org/abs/2207.09983v2 )

ライセンス: Link先を確認
Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, and Dong Yu(参考訳) 人間が望む音響効果の生成は重要なトピックである。 しかし、この地域では音の発生に関する研究は少ない。 本研究では,テキストプロンプトに条件付き音声を生成することを検討するとともに,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。 フレームワークはまずデコーダを使用して、テキストエンコーダから抽出されたテキストの特徴をvq-vaeの助けを借りてメルスペクトログラムに転送し、その後、生成されたメルスペクトログラムを波形に変換するためにvocoderを使用する。 我々は、デコーダが生成性能に大きな影響を与えることを見出した。 そこで本研究では,優れたデコーダの設計に注目する。 従来の自己回帰デコーダから始まり、従来の音響生成において最先端の手法として証明されてきた。 しかし、arデコーダは常にメル・スペクトログラムトークンを順に1つずつ予測し、一方向バイアスとエラーの蓄積をもたらす。 また、arデコーダでは、音の持続時間とともに音発生時間が直線的に増加する。 arデコーダの欠点を克服するため,離散拡散モデルに基づく非自己回帰デコーダdiffsoundを提案する。 具体的には、Diffsoundは1ステップで全てのメル-スペクトログラムトークンを予測し、次のステップで予測トークンを洗練し、いくつかのステップで最良の予測結果が得られる。 実験の結果,提案するdiffsoundはarデコーダに比べて優れたテキスト対音声生成結果を生成するだけでなく,mos: 3.56 \textit{v.s} 2.786のような高速な生成速度を示し,arデコーダよりも5倍高速であることがわかった。

Generating sound effects that humans want is an important topic. However, there are few studies in this area for sound generation. In this study, we investigate generating sound conditioned on a text prompt and propose a novel text-to-sound generation framework that consists of a text encoder, a Vector Quantized Variational Autoencoder (VQ-VAE), a decoder, and a vocoder. The framework first uses the decoder to transfer the text features extracted from the text encoder to a mel-spectrogram with the help of VQ-VAE, and then the vocoder is used to transform the generated mel-spectrogram into a waveform. We found that the decoder significantly influences the generation performance. Thus, we focus on designing a good decoder in this study. We begin with the traditional autoregressive decoder, which has been proved as a state-of-the-art method in previous sound generation works. However, the AR decoder always predicts the mel-spectrogram tokens one by one in order, which introduces the unidirectional bias and accumulation of errors problems. Moreover, with the AR decoder, the sound generation time increases linearly with the sound duration. To overcome the shortcomings introduced by AR decoders, we propose a non-autoregressive decoder based on the discrete diffusion model, named Diffsound. Specifically, the Diffsound predicts all of the mel-spectrogram tokens in one step and then refines the predicted tokens in the next step, so the best-predicted results can be obtained after several steps. Our experiments show that our proposed Diffsound not only produces better text-to-sound generation results when compared with the AR decoder but also has a faster generation speed, e.g., MOS: 3.56 \textit{v.s} 2.786, and the generation speed is five times faster than the AR decoder.
翻訳日:2023-05-01 17:50:01 公開日:2023-04-28
# 指示条件付きで確実かつ不確定な推論

Certain and Uncertain Inference with Indicative Conditionals ( http://arxiv.org/abs/2207.08276v2 )

ライセンス: Link先を確認
Paul \'Egr\'e and Lorenzo Rossi and Jan Sprenger(参考訳) 本稿では,真理条件と自然言語指示条件の確率の3値意味論を開発する。 我々の枠組みは、W・クーパーが最初に提案した3価の真理条件に基づいており、条件推論の2つの論理を導出する。 (i)特定の前提からの推論の論理C、及び (ii)不確定な前提からの推論の論理u。 しかし、C は条件付きでは単調であるが、U はそうではなく、C は Modus Ponens に従うが、U は制約を持たない。 いずれのフレームワークにおいても,推論の3値表現と確率表現の系統的対応を示し,この2つのシステムの区別を用いて,特にモーダスポネンに関するマッギーのパズルに光を投射する。 その結果は、指示的条件文の意味論と認識論を統一的に記述し、条件付き推論の妥当性を分析できる。

This paper develops a trivalent semantics for the truth conditions and the probability of the natural language indicative conditional. Our framework rests on trivalent truth conditions first proposed by W. Cooper and yields two logics of conditional reasoning: (i) a logic C of inference from certain premises; and (ii) a logic U of inference from uncertain premises. But whereas C is monotonic for the conditional, U is not, and whereas C obeys Modus Ponens, U does not without restrictions. We show systematic correspondences between trivalent and probabilistic representations of inferences in either framework, and we use the distinction between the two systems to cast light, in particular, on McGee's puzzle about Modus Ponens. The result is a unified account of the semantics and epistemology of indicative conditionals that can be fruitfully applied to analyzing the validity of conditional inferences.
翻訳日:2023-05-01 17:49:24 公開日:2023-04-28
# PyMAF-X:単眼画像からの完全体モデル回帰に向けて

PyMAF-X: Towards Well-aligned Full-body Model Regression from Monocular Images ( http://arxiv.org/abs/2207.06400v3 )

ライセンス: Link先を確認
Hongwen Zhang, Yating Tian, Yuxiang Zhang, Mengcheng Li, Liang An, Zhenan Sun, Yebin Liu(参考訳) 単眼画像からパラメトリックフルボディモデルを復元する回帰型アプローチであるpymaf-xを提案する。 この課題は、小さなパラメトリック偏差が推定メッシュと入力イメージの間に顕著な不一致をもたらす可能性があるため、非常に困難である。 さらに、部分特異的推定をフルボディモデルに統合する場合、既存のソリューションはアライメントを劣化させるか、不自然な手首ポーズを生成する傾向がある。 これらの問題に対処するため,我々の回帰ネットワークにおけるPyMAF(Maraamidal Mesh Alignment Feedback)ループを提案し,それをPyMAF-Xとして拡張し,表現力のあるフルボディモデルのリカバリを行う。 PyMAFの中核となる考え方は、機能ピラミッドを活用して、メッシュイメージのアライメントステータスに基づいて、予測されたパラメータを明示的に修正することだ。 具体的には、現在予測されているパラメータから、より微細な特徴からメッシュアラインエビデンスを抽出し、パラメータの修正をフィードバックする。 アライメントの知覚を高めるため、メッシュイメージ対応ガイダンスを提供するために補助的な高密度監視装置が使用され、空間アライメントの注意が導入され、ネットワークのグローバルコンテキストの認識を可能にする。 フルボディメッシュリカバリのためにPyMAFを拡張する際に、PyMAF-Xにおいて適応的な統合戦略を提案し、パート固有推定の整合性を保ちながら自然な手首ポーズを生成する。 提案手法の有効性は,PyMAFとPyMAF-Xがメッシュのアライメントを効果的に改善し,新たな最先端結果が得られる,体,手,顔,および全体メッシュリカバリのためのベンチマークデータセットで検証されている。 コードとビデオ結果のプロジェクトページはhttps://www.liuyebin.com/pymaf-x.comにある。

We present PyMAF-X, a regression-based approach to recovering parametric full-body models from monocular images. This task is very challenging since minor parametric deviation may lead to noticeable misalignment between the estimated mesh and the input image. Moreover, when integrating part-specific estimations into the full-body model, existing solutions tend to either degrade the alignment or produce unnatural wrist poses. To address these issues, we propose a Pyramidal Mesh Alignment Feedback (PyMAF) loop in our regression network for well-aligned human mesh recovery and extend it as PyMAF-X for the recovery of expressive full-body models. The core idea of PyMAF is to leverage a feature pyramid and rectify the predicted parameters explicitly based on the mesh-image alignment status. Specifically, given the currently predicted parameters, mesh-aligned evidence will be extracted from finer-resolution features accordingly and fed back for parameter rectification. To enhance the alignment perception, an auxiliary dense supervision is employed to provide mesh-image correspondence guidance while spatial alignment attention is introduced to enable the awareness of the global contexts for our network. When extending PyMAF for full-body mesh recovery, an adaptive integration strategy is proposed in PyMAF-X to produce natural wrist poses while maintaining the well-aligned performance of the part-specific estimations. The efficacy of our approach is validated on several benchmark datasets for body, hand, face, and full-body mesh recovery, where PyMAF and PyMAF-X effectively improve the mesh-image alignment and achieve new state-of-the-art results. The project page with code and video results can be found at https://www.liuyebin.com/pymaf-x.
翻訳日:2023-05-01 17:49:08 公開日:2023-04-28
# スマート教育のための統合解釈型知的学習診断フレームワーク

A Unified Interpretable Intelligent Learning Diagnosis Framework for Smart Education ( http://arxiv.org/abs/2207.03122v2 )

ライセンス: Link先を確認
Zhifeng Wang, Wenxing Yan, Chunyan Zeng, Shi Dong(参考訳) 知的学習診断は知的学習システムの重要なエンジンであり、学習者の現在の知識熟達状態を推定し、将来の学習性能を予測することを目的としている。 従来の学習診断法における重要な課題は、診断精度と解釈可能性のバランスが取れないことである。 既存の心理計測に基づく学習診断手法は認知パラメータによるいくつかのドメイン解釈を提供するが、大規模学習データのための浅い構造を持つモデリング能力が不十分である。 深層学習に基づく学習診断手法は、学習性能予測の精度を向上させる一方で、その固有のブラックボックス特性は、解釈可能性の欠如を招き、その結果を教育的応用には信頼できないものにしている。 この問題を解決するため,深層学習の強力な表現学習能力と心理メトリクスの解釈可能性の恩恵を受け,学習予測の優れた性能を実現し,認知的パラメータ,学習者・資源的応答ネットワーク,自己認識機構の重みという3つの側面から解釈可能性を提供する統合的知的学習診断フレームワークを提案する。 本稿では,2チャンネル学習診断機構 LDM-ID と3チャンネル学習診断機構 LDM-HMI を提案する。 実世界の2つのデータセットとシミュレーションデータセットを用いた実験により,本手法は,最先端モデルと比較して学習者のパフォーマンス予測において高い精度を示し,知的学習システムにおける正確な学習資源推薦やパーソナライズされた学習指導といった応用に有用な教育的解釈性を提供することができる。

Intelligent learning diagnosis is a critical engine of intelligent tutoring systems, which aims to estimate learners' current knowledge mastery status and predict their future learning performance. The significant challenge with traditional learning diagnosis methods is the inability to balance diagnostic accuracy and interpretability. Although the existing psychometric-based learning diagnosis methods provide some domain interpretation through cognitive parameters, they have insufficient modeling capability with a shallow structure for large-scale learning data. While the deep learning-based learning diagnosis methods have improved the accuracy of learning performance prediction, their inherent black-box properties lead to a lack of interpretability, making their results untrustworthy for educational applications. To settle the above problem, the proposed unified interpretable intelligent learning diagnosis framework, which benefits from the powerful representation learning ability of deep learning and the interpretability of psychometrics, achieves a better performance of learning prediction and provides interpretability from three aspects: cognitive parameters, learner-resource response network, and weights of self-attention mechanism. Within the proposed framework, this paper presents a two-channel learning diagnosis mechanism LDM-ID as well as a three-channel learning diagnosis mechanism LDM-HMI. Experiments on two real-world datasets and a simulation dataset show that our method has higher accuracy in predicting learners' performances compared with the state-of-the-art models, and can provide valuable educational interpretability for applications such as precise learning resource recommendation and personalized learning tutoring in intelligent tutoring systems.
翻訳日:2023-05-01 17:48:34 公開日:2023-04-28
# 言語にインスパイアされたタンパク質言語モデル構築のロードマップ

Linguistically inspired roadmap for building biologically reliable protein language models ( http://arxiv.org/abs/2207.00982v2 )

ライセンス: Link先を確認
Mai Ha Vu, Rahmad Akbar, Philippe A. Robert, Bartlomiej Swiatczak, Victor Greiff, Geir Kjetil Sandve, Dag Trygve Truslew Haug(参考訳) 深層ニューラルネットワークに基づく言語モデル(lms)は、タンパク質の機能を予測するために、大規模タンパク質配列データにますます適用されている。 しかしながら、主にブラックボックスモデルであり、解釈が難しいため、現在のタンパク質 LM アプローチは、配列関数マッピングの基本的な理解に寄与せず、規則に基づく生物療法薬の開発を妨げる。 我々は、自然言語データから分析規則を抽出する分野である言語学から引き出されたガイダンスが、関連するドメイン固有のルールを学習しやすい、より解釈可能なタンパク質LMの構築に役立てることができると論じる。 タンパク質配列データと言語配列データの違いは、自然言語lmsと比較して、タンパク質lmsにドメイン固有の知識を統合する必要がある。 ここでは,トレーニングデータ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関して,プロテインlmパイプライン選択のための言語学的ロードマップを提供する。 言語概念をタンパク質 LM に組み込むことで、シークエンス-ファンクション関係に基づく生物学的メカニズムを明らかにする可能性を持つ次世代の解釈可能な機械学習モデルの開発が可能になる。

Deep neural-network-based language models (LMs) are increasingly applied to large-scale protein sequence data to predict protein function. However, being largely black-box models and thus challenging to interpret, current protein LM approaches do not contribute to a fundamental understanding of sequence-function mappings, hindering rule-based biotherapeutic drug development. We argue that guidance drawn from linguistics, a field specialized in analytical rule extraction from natural language data, can aid with building more interpretable protein LMs that are more likely to learn relevant domain-specific rules. Differences between protein sequence data and linguistic sequence data require the integration of more domain-specific knowledge in protein LMs compared to natural language LMs. Here, we provide a linguistics-based roadmap for protein LM pipeline choices with regard to training data, tokenization, token embedding, sequence embedding, and model interpretation. Incorporating linguistic ideas into protein LMs enables the development of next-generation interpretable machine-learning models with the potential of uncovering the biological mechanisms underlying sequence-function relationships.
翻訳日:2023-05-01 17:48:08 公開日:2023-04-28
# loggene: 深い医療推論タスクのためのチェックロスのスムーズな代替手段

LogGENE: A smooth alternative to check loss for Deep Healthcare Inference Tasks ( http://arxiv.org/abs/2206.09333v2 )

ライセンス: Link先を確認
Aryaman Jeendgar, Tanmay Devale, Soma S Dhavala, Snehanshu Saha(参考訳) 大規模なデータセットをマイニングし、temから校正された予測を得ることは、信頼できるディープラーニングにすぐに関連し、有用である。 本研究では,遺伝子発現などのデータセットにおけるディープニューラルネットワークに基づく推論手法を開発した。 しかし,従来のディープラーニング手法と異なり,我々の推論手法は,最先端の性能を精度で達成しつつ,説明や不確実性評価の報告も可能である。 本研究では,特定の住宅維持遺伝子群に対する完全条件量子化を予測するためにQuantile Regressionフレームワークを採用する。 条件量子は、予測の豊かな解釈を提供するのに有用であるだけでなく、ノイズの測定にも堅牢である。 我々の技術は、特にハイスループットゲノミクスにおいて、パーソナライズされた医療の新しい時代を築き、医薬品の設計と納品を目標とする分野である。 しかし、量的回帰で推定プロセスを駆動するために使われるチェック損失は、微分不可能である。 チェック損失に対するスムーズな代替手段としてlog-coshを提案する。 本手法をGEOマイクロアレイデータセットに適用する。 また、メソッドをバイナリ分類設定に拡張する。 さらに、高速収束における損失の滑らかさの他の結果についても検討する。 さらに, 心臓病, 乳癌, 糖尿病などの他の医療推論課題に分類枠組みを適用した。 フレームワークの一般化能力のテストとして、回帰および分類タスクのための他の非医療関連データセットも評価した。

Mining large datasets and obtaining calibrated predictions from tem is of immediate relevance and utility in reliable deep learning. In our work, we develop methods for Deep neural networks based inferences in such datasets like the Gene Expression. However, unlike typical Deep learning methods, our inferential technique, while achieving state-of-the-art performance in terms of accuracy, can also provide explanations, and report uncertainty estimates. We adopt the Quantile Regression framework to predict full conditional quantiles for a given set of housekeeping gene expressions. Conditional quantiles, in addition to being useful in providing rich interpretations of the predictions, are also robust to measurement noise. Our technique is particularly consequential in High-throughput Genomics, an area which is ushering a new era in personalized health care, and targeted drug design and delivery. However, check loss, used in quantile regression to drive the estimation process is not differentiable. We propose log-cosh as a smooth-alternative to the check loss. We apply our methods on GEO microarray dataset. We also extend the method to binary classification setting. Furthermore, we investigate other consequences of the smoothness of the loss in faster convergence. We further apply the classification framework to other healthcare inference tasks such as heart disease, breast cancer, diabetes etc. As a test of generalization ability of our framework, other non-healthcare related data sets for regression and classification tasks are also evaluated.
翻訳日:2023-05-01 17:47:27 公開日:2023-04-28
# 量子SWITCHによる隠れた非マルコフ性活性化

Activating hidden non-Markovianity with the assistance of quantum SWITCH ( http://arxiv.org/abs/2206.04524v2 )

ライセンス: Link先を確認
Ananda G. Maity, Samyadeb Bhattacharya(参考訳) 非マルコフ的ではあるが、情報のバックフローは決して示さない、ある種のダイナミクスがある。 これら2つの動的マップの適用順序が明確でないシナリオでは、そのような動的マップが2つ検討されている場合、有効なチャネルが情報バックフローを示すことができる。 特に、量子スイッチを使ってチャンネルを活性化します。 対照的に、これらのチャネルのアクティベーションは、直列または平行動作でそのようなチャネルのコピーを多用しても不可能である。 次に、量子SWITCH実験の背景にある実際の原因と力学を調査し、CP(Complete Positive)-divisiblityとP(Positive)-divisibilityの両方の量子SWITCHの作用が遮断され、情報逆流が引き起こされることを示す。 本研究は、量子SWITCHの利点を、その動的挙動を調べることによって解明する。

There are certain dynamics which although are non-Markovian but never show information backflow. We show that if two such dynamical maps are considered in a scenario where the order of application of these two dynamical maps are not definite, then the effective channel can manifest information backflow. In particular, we use quantum SWITCH to activate such a channel. In contrast, activation of those channels are not possible even if one uses many copies of such channels in series or parallel action. We then investigate the actual cause and dynamics behind the quantum SWITCH experiment and find out that after the action of quantum SWITCH both the CP (Complete Positive)- divisiblity and P (Positive)- divisibility of the channel breaks down, triggering the information backflow. Our study elucidate the advantage of quantum SWITCH by investigating its dynamical behaviour.
翻訳日:2023-05-01 17:47:05 公開日:2023-04-28
# 量子テンソル列に基づく量子系の相関関数に対するマルチスケール時空間アンサッツ

Multiscale space-time ansatz for correlation functions of quantum systems based on quantics tensor trains ( http://arxiv.org/abs/2210.12984v3 )

ライセンス: Link先を確認
Hiroshi Shinaoka, Markus Wallerberger, Yuta Murakami, Kosuke Nogaki, Rihito Sakurai, Philipp Werner, Anna Kauch(参考訳) 量子系の相関関数(量子場理論の中心対象)は、高次元の時空領域で定義される。 そのため、それらの数値処理は次元の呪いに悩まされ、複雑な多体理論の興味深い問題への適用を妨げる。 本稿では、量子テンソルトレイン(QTT)に基づく量子系の相関関数を指数的に異なる長さスケールで記述するマルチスケール時空間アンサッツを提案する。 アンザッツは、結果として生じる高次元テンソルをテンソルトレイン(行列積状態とも呼ばれる)に分解することで長さスケールの分離を仮定する。 種々の平衡系および非平衡系のアンサッツを数値的に検証し,課題に対して数桁の圧縮率を示す。 畳み込みやフーリエ変換のような図式方程式の基本的な構成要素は圧縮形式で定式化される。 我々はダイソン方程式とベーテ・サルペター方程式の安定性と効率を数値的に示す。 QTT表現は、量子場理論の効率的な計算を実装するための統一されたフレームワークを提供する。

Correlation functions of quantum systems -- central objects in quantum field theories -- are defined in high-dimensional space-time domains. Their numerical treatment thus suffers from the curse of dimensionality, which hinders the application of sophisticated many-body theories to interesting problems. Here, we propose a multi-scale space-time ansatz for correlation functions of quantum systems based on quantics tensor trains (QTT), ``qubits'' describing exponentially different length scales. The ansatz then assumes a separation of length scales by decomposing the resulting high-dimensional tensors into tensor trains (known also as matrix product states). We numerically verify the ansatz for various equilibrium and nonequilibrium systems and demonstrate compression rates of several orders of magnitude for challenging cases. Essential building blocks of diagrammatic equations, such as convolutions or Fourier transforms are formulated in the compressed form. We numerically demonstrate the stability and efficiency of the proposed methods for the Dyson and Bethe-Salpeter equations. {The QTT representation} provides a unified framework for implementing efficient computations of quantum field theories.
翻訳日:2023-05-01 17:41:53 公開日:2023-04-28
# 六方晶窒化ホウ素中の量子エミッタからの2光子干渉

Two-photon interference from a quantum emitter in hexagonal boron nitride ( http://arxiv.org/abs/2210.05590v2 )

ライセンス: Link先を確認
Clarisse Fournier, S\'ebastien Roux, Kenji Watanabe, Takashi Taniguchi, St\'ephanie Buil, Julien Barjon, Jean-Pierre Hermier, Aymeric Delteil(参考訳) 二次元(2次元)材料で最近発見された量子エミッタは、量子情報のための統合フォトニックデバイスの新しい視点を開いた。 これらの応用のほとんどは、放出された光子が識別不能であることを必要とし、これは2D材料で溶出され続けている。 本研究では,六方晶窒化ホウ素 (hbn) で生成する量子エミッタの2光子干渉を電子ビームを用いて検討する。 非共鳴励起下における香港・奥羽マンデル干渉計におけるゼロフォノン線光子の相関測定を行った。 発光された光子は、3 ns の時間窓に 0.44 \pm 0.11$ の部分的な不一致性を示し、不完全なエミッタ純度を考慮に入れた後に0.56 \pm 0.11$ の補正値に対応する。 homの可視性は、選択後のタイムウィンドウの幅に依存するため、エミッタの遅延時間は$\sim 1.5$ nsであり、自然放出によって設定される限界の約半分である。 最新の2次元材料フォトニクスを用いたパーセル効果により、90%以上の視界が到達している。

Recently discovered quantum emitters in two-dimensional (2D) materials have opened new perspectives of integrated photonic devices for quantum information. Most of these applications require the emitted photons to be indistinguishable, which has remained elusive in 2D materials. Here, we investigate two-photon interference of a quantum emitter generated in hexagonal boron nitride (hBN) using an electron beam. We measure the correlations of zero-phonon-line photons in a Hong-Ou-Mandel (HOM) interferometer under non-resonant excitation. We find that the emitted photons exhibit a partial indistinguishability of $0.44 \pm 0.11$ in a 3 ns time window, which corresponds to a corrected value of $0.56 \pm 0.11$ after accounting for imperfect emitter purity. The dependence of the HOM visibility on the width of the post-selection time window allows us to estimate the dephasing time of the emitter to be $\sim 1.5$ ns, about half the limit set by spontaneous emission. A visibility above 90 % is under reach using Purcell effect with up-to-date 2D material photonics.
翻訳日:2023-05-01 17:41:04 公開日:2023-04-28
# ロボットタスクを効果的に学習するための説明と言語指導の併用

Using Both Demonstrations and Language Instructions to Efficiently Learn Robotic Tasks ( http://arxiv.org/abs/2210.04476v2 )

ライセンス: Link先を確認
Albert Yu, Raymond J. Mooney(参考訳) デモと自然言語命令は、ロボットに新しいタスクを定義し、教える一般的な方法である。 しかし、多くの複雑なタスクでは、デモや言語命令だけで曖昧さがあり、タスクが明確に特定されるのを防ぐ。 このような場合、デモと命令の組み合わせは、どちらか一方のモダリティ単独よりも簡潔かつ効果的にロボットにタスクを伝達する。 この問題を解決するために,視覚的な実演と言語指導という2つの要素からなるタスク埋め込みにロボットポリシーを調和させる手法であるDeL-TaCo(Joint Demo-Language Task Conditioning)を提案する。 DeL-TaCo(1)は、新しいタスク仕様において、これらの2つのモダリティを相互にあいまいにし、明確化することにより、新しいタスクを特定するのに必要な教師の労力を大幅に削減し、(2)従来のタスクコンディショニング手法よりも、新しいオブジェクトや命令に対するより優れた一般化性能を達成する。 我々の知る限り、デモと言語埋め込みの両方にマルチタスクロボット操作ポリシーを同時に適用することで、モダリティのみの条件付けよりもサンプル効率と一般化が向上することを示す最初の研究である。 追加資料はhttps://deltaco-robot.github.io/にある。

Demonstrations and natural language instructions are two common ways to specify and teach robots novel tasks. However, for many complex tasks, a demonstration or language instruction alone contains ambiguities, preventing tasks from being specified clearly. In such cases, a combination of both a demonstration and an instruction more concisely and effectively conveys the task to the robot than either modality alone. To instantiate this problem setting, we train a single multi-task policy on a few hundred challenging robotic pick-and-place tasks and propose DeL-TaCo (Joint Demo-Language Task Conditioning), a method for conditioning a robotic policy on task embeddings comprised of two components: a visual demonstration and a language instruction. By allowing these two modalities to mutually disambiguate and clarify each other during novel task specification, DeL-TaCo (1) substantially decreases the teacher effort needed to specify a new task and (2) achieves better generalization performance on novel objects and instructions over previous task-conditioning methods. To our knowledge, this is the first work to show that simultaneously conditioning a multi-task robotic manipulation policy on both demonstration and language embeddings improves sample efficiency and generalization over conditioning on either modality alone. See additional materials at https://deltaco-robot.github.io/
翻訳日:2023-05-01 17:40:44 公開日:2023-04-28
# SpeechLM: テキストデータによる音声事前学習の強化

SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data ( http://arxiv.org/abs/2209.15329v2 )

ライセンス: Link先を確認
Ziqiang Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu, Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei(参考訳) 音声とテキストが異なる特徴を持つ非常に異なるモダリティであるという事実から,テキストデータによる音声事前学習の促進は未解決の問題である。 本稿では,音声とテキストの事前学習を事前に定義した個別表現と明示的に整合させる言語モデル(SpeechLM)を提案する。 具体的には、音声とテキストのモダリティをブリッジする2つの別の離散トークン化器(音素単位と隠れ単位トークン化器)を導入し、少量のペア音声テキストデータを用いて訓練する。 訓練されたトークン化子に基づき、ラベルなしの音声とテキストデータを音素単位または隠れ単位のトークンに変換する。 事前学習の目的は、音声とテキストを統一トランスフォーマーネットワークで同じ離散的な意味空間に統一することである。 私たちのSpeechLMは10Kテキストのみを活用することで、パブリックなLibriSpeech ASRベンチマークにおいて、最高のベースモデルパフォーマンス(6.8から5.7)よりも16倍の相対的なWER削減を実現しています。 さらに、パラメータの少ない speechlm は、covost-2 音声翻訳タスクの以前の sota モデルよりも優れています。 また, 汎用表現評価フレームワーク SUPERB を用いて, 各種音声言語処理タスクにおけるSpeechLM の評価を行い, 内容関連タスクの大幅な改善を実証した。 私たちのコードとモデルはhttps://aka.ms/speechlm.com/で利用可能です。

How to boost speech pre-training with textual data is an unsolved problem due to the fact that speech and text are very different modalities with distinct characteristics. In this paper, we propose a cross-modal Speech and Language Model (SpeechLM) to explicitly align speech and text pre-training with a pre-defined unified discrete representation. Specifically, we introduce two alternative discrete tokenizers to bridge the speech and text modalities, including phoneme-unit and hidden-unit tokenizers, which can be trained using a small amount of paired speech-text data. Based on the trained tokenizers, we convert the unlabeled speech and text data into tokens of phoneme units or hidden units. The pre-training objective is designed to unify the speech and the text into the same discrete semantic space with a unified Transformer network. Leveraging only 10K text sentences, our SpeechLM gets a 16\% relative WER reduction over the best base model performance (from 6.8 to 5.7) on the public LibriSpeech ASR benchmark. Moreover, SpeechLM with fewer parameters even outperforms previous SOTA models on CoVoST-2 speech translation tasks. We also evaluate our SpeechLM on various spoken language processing tasks under the universal representation evaluation framework SUPERB, demonstrating significant improvements on content-related tasks. Our code and models are available at https://aka.ms/SpeechLM.
翻訳日:2023-05-01 17:40:25 公開日:2023-04-28
# Ablation Path Saliency

Ablation Path Saliency ( http://arxiv.org/abs/2209.12459v2 )

ライセンス: Link先を確認
Justus Sagem\"uller, Olivier Verdier(参考訳) ブラックボックスの分類を説明するために,様々な方法が提案されている。 画像アプリケーションでは、これは現在の決定に最も関係のある画像の一部を強調することを意味する。 残念ながら、異なる方法が一致し、説明がいかに代表的で忠実であるかを定量化することは困難である。 しかしながら、これらの手法のいくつかは、分類器の領域を通した特定の経路の探索に基づいて、単一のより一般的な手順のエッジケースと見なすことができる。 これは既存の手法に幾何学的解釈を加える。 さらに, アブレーションパスをそれ自体の技術として直接利用できることを示す。 これは既存のベンチマークの文献手法と競合し、より詳細な情報を提供し、説明の忠実さを検証する機会を得られる。

Various types of saliency methods have been proposed for explaining black-box classification. In image applications, this means highlighting the part of the image that is most relevant for the current decision. Unfortunately, the different methods may disagree and it can be hard to quantify how representative and faithful the explanation really is. We observe however that several of these methods can be seen as edge cases of a single, more general procedure based on finding a particular path through the classifier's domain. This offers additional geometric interpretation to the existing methods. We demonstrate furthermore that ablation paths can be directly used as a technique of its own right. This is able to compete with literature methods on existing benchmarks, while giving more fine-grained information and better opportunities for validation of the explanations' faithfulness.
翻訳日:2023-05-01 17:39:16 公開日:2023-04-28
# ディープフェイク検出のためのマルチモーダルグラフ学習

Multimodal Graph Learning for Deepfake Detection ( http://arxiv.org/abs/2209.05419v2 )

ライセンス: Link先を確認
Zhiyuan Yan, Peng Sun, Yubo Lang, Shuo Du, Shanzhuo Zhang, Wei Wang, Lei Liu(参考訳) 既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。 主な理由の1つは、特に空間、周波数、時間、ランドマークのミスマッチのような様々なアーティファクトの存在下で、偽ビデオから関連情報を抽出する能力が限られていることである。 現在の検出器は、未知の乱れや十分な情報を提供していない顔のランドマークに容易に影響を受けるピクセルレベルの特徴に依存している。 さらに、ほとんどの検出器は検出のために複数のドメインからの情報を利用できないため、ディープフェイクビデオの識別に限界がある。 これらの制約に対処するため、2つのGNNと複数のマルチモーダル融合モジュールを用いて複数のモーダルからの情報を活用するMGL(Multimodal Graph Learning)を提案する。 フレームレベルでは、空間領域と周波数領域の特徴とGNNが捉えた幾何的なランドマーク特徴を組み合わせるために、双方向のクロスモーダル変換器と適応ゲーティング機構を用いる。 ビデオレベルでは、グラフ内の各フレームをグラフのノードとして表現し、時間情報をグラフのエッジにエンコードしてフレーム間の時間的不整合を抽出するために、グラフ注意ネットワーク(GAT)を用いる。 提案手法は,ディープフェイク検出のための識別特徴を効果的に識別し活用することを目的としている。 提案手法の有効性を広範に評価し,提案手法が未知の乱れに対する一般化能力と堅牢性の観点から,最先端の検出器よりも優れていることを示す。

Existing deepfake detectors face several challenges in achieving robustness and generalization. One of the primary reasons is their limited ability to extract relevant information from forgery videos, especially in the presence of various artifacts such as spatial, frequency, temporal, and landmark mismatches. Current detectors rely on pixel-level features that are easily affected by unknown disturbances or facial landmarks that do not provide sufficient information. Furthermore, most detectors cannot utilize information from multiple domains for detection, leading to limited effectiveness in identifying deepfake videos. To address these limitations, we propose a novel framework, namely Multimodal Graph Learning (MGL) that leverages information from multiple modalities using two GNNs and several multimodal fusion modules. At the frame level, we employ a bi-directional cross-modal transformer and an adaptive gating mechanism to combine the features from the spatial and frequency domains with the geometric-enhanced landmark features captured by a GNN. At the video level, we use a Graph Attention Network (GAT) to represent each frame in a video as a node in a graph and encode temporal information into the edges of the graph to extract temporal inconsistency between frames. Our proposed method aims to effectively identify and utilize distinguishing features for deepfake detection. We evaluate the effectiveness of our method through extensive experiments on widely-used benchmarks and demonstrate that our method outperforms the state-of-the-art detectors in terms of generalization ability and robustness against unknown disturbances.
翻訳日:2023-05-01 17:39:03 公開日:2023-04-28
# 低ハロ質量におけるSZフラックス質量(Y$-M$)関係--シンボリック回帰による改善とバリオンフィードバックに対する強い制約-

The SZ flux-mass ($Y$-$M$) relation at low halo masses: improvements with symbolic regression and strong constraints on baryonic feedback ( http://arxiv.org/abs/2209.02075v2 )

ライセンス: Link先を確認
Digvijay Wadekar, Leander Thiele, J. Colin Hill, Shivam Pandey, Francisco Villaescusa-Navarro, David N. Spergel, Miles Cranmer, Daisuke Nagai, Daniel Angl\'es-Alc\'azar, Shirley Ho, Lars Hernquist(参考訳) 活動銀河核(AGN)と超新星からのフィードバックは、CMBサーベイによるハロス(Y_\mathrm{SZ}$)の積分SZフラックスの測定に影響し、ハロス質量(Y_\mathrm{SZ}-M$)と関係して、ヴィリアル定理の自己相似パワーロー予測から逸脱する。 そこで本研究では,フィードバック処方の多種多様な変動を伴う流体力学シミュレーションの組であるcamelsを用いて,これらの偏差を包括的に研究する。 我々は2つの機械学習ツール(ランダムフォレストとシンボリックレグレッション)を組み合わせて、低質量のフィードバックプロセスに対してより堅牢な$Y-M$関係(M\lesssim 10^{14}\, h^{-1} \, M_\odot$)の類似を探索する(M\lesssim 10^{14}\, h^{-1} \, M_\odot$)。 これは、低質量クラスターと銀河群のための堅牢な多波長質量プロキシとして機能する。 我々の方法論は、他の天体物理学的スケーリング関係の有効性の領域を改善するのにも有用である。 また,現在最先端の流体力学シミュレーションで用いられる超新星とAGNのパラメータ空間の大部分を除外し,フィードバックパラメータの特定の組み合わせに対して,Y-M$関係の測定がパーセンテージレベルの制約を与える可能性があると予測した。 我々の結果は、今後のSZサーベイ(SO、CMB-S4など)や銀河探査(DESI、Rubinなど)を使うことで、バリオンフィードバックの性質を制約できる。 最後に、y-m_*$という別の関係は、y-m$よりもフィードバックに関する補完的な情報を提供する。

Feedback from active galactic nuclei (AGN) and supernovae can affect measurements of integrated SZ flux of halos ($Y_\mathrm{SZ}$) from CMB surveys, and cause its relation with the halo mass ($Y_\mathrm{SZ}-M$) to deviate from the self-similar power-law prediction of the virial theorem. We perform a comprehensive study of such deviations using CAMELS, a suite of hydrodynamic simulations with extensive variations in feedback prescriptions. We use a combination of two machine learning tools (random forest and symbolic regression) to search for analogues of the $Y-M$ relation which are more robust to feedback processes for low masses ($M\lesssim 10^{14}\, h^{-1} \, M_\odot$); we find that simply replacing $Y\rightarrow Y(1+M_*/M_\mathrm{gas})$ in the relation makes it remarkably self-similar. This could serve as a robust multiwavelength mass proxy for low-mass clusters and galaxy groups. Our methodology can also be generally useful to improve the domain of validity of other astrophysical scaling relations. We also forecast that measurements of the $Y-M$ relation could provide percent-level constraints on certain combinations of feedback parameters and/or rule out a major part of the parameter space of supernova and AGN feedback models used in current state-of-the-art hydrodynamic simulations. Our results can be useful for using upcoming SZ surveys (e.g., SO, CMB-S4) and galaxy surveys (e.g., DESI and Rubin) to constrain the nature of baryonic feedback. Finally, we find that the an alternative relation, $Y-M_*$, provides complementary information on feedback than $Y-M$
翻訳日:2023-05-01 17:38:36 公開日:2023-04-28
# 4次元スピノル重力のためのセルオートマトン

Cellular automaton for spinor gravity in four dimensions ( http://arxiv.org/abs/2211.09002v2 )

ライセンス: Link先を確認
C. Wetterich(参考訳) あるフェルミオン量子場理論は確率的セルオートマトンと等価であり、フェルミオンの占有数はビットと関連している。 4次元のスピノル重力の離散モデルを表すオートマトンを構築する。 局所ローレンツ対称性は離散レベルで完全であり、微分同相対称性はナイーブ連続極限に現れる。 我々の設定は、真の連続極限において微分同相対称性が実現されれば量子重力のモデルとして機能し、ビエルベインとメートル法に適した集合場は、消滅しない期待値を取得する。 この興味深い特定のモデルの議論は、確率的セルオートマトンに対する連続限界の重要な定性的特徴を明らかにしている。 この制限は、確率情報が十分に滑らかであれば、非常に多くの細胞に対して得られる。 粗粒化と関連している。 すべてのビット構成が離散時間ステップ毎に更新され、正確に1つの新しいビット構成が粗い粒度で保持されないというオートマトン特性。 職業数の粗い構成は、ある確率で多くの異なる構成に進化することができる。 この量子場理論の特徴は、連続的な時空対称性の出現とともに生じる。

Certain fermionic quantum field theories are equivalent to probabilistic cellular automata, with fermionic occupation numbers associated to bits. We construct an automaton that represents a discrete model of spinor gravity in four dimensions. Local Lorentz symmetry is exact on the discrete level and diffeomorphism symmetry emerges in the naive continuum limit. Our setting could serve as a model for quantum gravity if diffeomorphism symmetry is realized in the true continuum limit and suitable collective fields for vierbein and metric acquire nonvanishing expectation values. The discussion of this interesting specific model reveals may key qualitative features of the continuum limit for probabilistic cellular automata. This limit obtains for a very large number of cells if the probabilistic information is sufficiently smooth. It is associated to coarse graining. The automaton property that every bit configuration is updated at every discrete time step to precisely one new bit configuration does no longer hold on the coarse grained level. A coarse grained configuration of occupation numbers can evolve into many different configurations with certain probabilities. This characteristic feature of quantum field theories can come along with the emergence of continuous space-time symmetries.
翻訳日:2023-05-01 17:30:41 公開日:2023-04-28
# PU GNN:不均衡PUラベル付きグラフ注意ネットワークによるP2E MMORPGのチャージバックフラッド検出

PU GNN: Chargeback Fraud Detection in P2E MMORPGs via Graph Attention Networks with Imbalanced PU Labels ( http://arxiv.org/abs/2211.08604v6 )

ライセンス: Link先を確認
Jiho Choi, Junghoon Park, Woocheol Kim, Jin-Hyeok Park, Yumin Suh, Minchang Sung(参考訳) 近年のマルチプレイヤーオンラインロールプレイングゲーム(MMORPG)におけるプレイツーアーンシステム(P2E)の出現により、ゲーム内商品は、これまで以上に現実世界の価値と交換可能になった。 p2e mmorpgsの商品は、ブロックチェーンネットワークを介してbitcoin、ethereum、klaytnなどの暗号通貨と直接交換することができる。 従来のゲーム内商品とは異なり、一旦ブロックチェーンに書き込むと、P2E商品は支払い詐欺、キャンセル、返金などのチャージバック詐欺であってもゲーム運用チームによって復元できない。 そこで本研究では,p2eトークンのトランザクションパターンを用いて,pu損失を伴うグラフアテンションネットワークを活用した,新たなチャージバック詐欺予測手法pu gnnを提案する。 修正GraphSMOTEの導入により、提案モデルはチャージバック詐欺データセットにおけるラベルの不均衡分布を処理する。 実世界の3つのP2E MMORPGデータセットを用いた実験により,PU GNNは従来提案されていた手法よりも優れた性能を示した。

The recent advent of play-to-earn (P2E) systems in massively multiplayer online role-playing games (MMORPGs) has made in-game goods interchangeable with real-world values more than ever before. The goods in the P2E MMORPGs can be directly exchanged with cryptocurrencies such as Bitcoin, Ethereum, or Klaytn via blockchain networks. Unlike traditional in-game goods, once they had been written to the blockchains, P2E goods cannot be restored by the game operation teams even with chargeback fraud such as payment fraud, cancellation, or refund. To tackle the problem, we propose a novel chargeback fraud prediction method, PU GNN, which leverages graph attention networks with PU loss to capture both the players' in-game behavior with P2E token transaction patterns. With the adoption of modified GraphSMOTE, the proposed model handles the imbalanced distribution of labels in chargeback fraud datasets. The conducted experiments on three real-world P2E MMORPG datasets demonstrate that PU GNN achieves superior performances over previously suggested methods.
翻訳日:2023-05-01 17:30:25 公開日:2023-04-28
# 質量独立大空間量子重ね合わせに対する重力-磁気力

Gravito-diamagnetic forces for mass independent large spatial quantum superpositions ( http://arxiv.org/abs/2211.08435v4 )

ライセンス: Link先を確認
Run Zhou, Ryan J. Marshman, Sougato Bose, Anupam Mazumdar(参考訳) エンタングルメントによって実験室で重力の量子的性質を試験するには、質量と重ね合わせが 10^{-15}-10^{-14}$ kg と $\delta x \sim 10-100~\mu {\rm m}$ であるような巨大な空間的量子重ね合わせ、すなわち schr\"odinger cat state を作成する必要がある。 このような巨大な空間的量子重ね合わせを作ることは、驚くべき課題をもたらす。 これまで用いられてきた手法は、ウェーブパック展開や、質量と逆スケールするスピン依存力(英語版)のような量子アンシラ(英語版)に依存する。 本稿では, 相対的に短い時間で大きな空間重畳を発生させる過程において, 反磁性体とともに重力加速度が完全な「放出」および「キャッチ」干渉を達成できることを示す。 最初に1~\mu {\rm m}$(例えばstern-gerlach)という控えめな初期空間重ね合わせ(例えば、stern-gerlachを用いて)を作成した後、地球の重力加速度を用いて0.02$~s未満の波束間の空間重ね合わせサイズ($1~{\rm \mu m}\rightarrow 980~\mu {\rm m}$)に対して$\sim 10^{3}$が達成できることを示し、ナノ結晶の反磁性反発散乱は物体質量に依存しないことを示した。 そして、このSG装置を用いて、空間干渉線を観測したりスピンコヒーレンスを更に回収することができるように、ウェーブパケット軌道を閉じることができる。

Testing the quantum nature of gravity in a laboratory via entanglement requires us to create a massive spatial quantum superposition, i.e. the Schr\"odinger cat state, where the mass and the superposition ought to be around $10^{-15}-10^{-14}$ kg and $\Delta x \sim 10-100~\mu {\rm m}$. Creating such a massive spatial quantum superposition poses incredible challenges. The methods employed so far rely either on wavepacket expansion or on a quantum ancilla, e.g.single spin dependent forces, which scale inversely with mass. In this paper, we will show that gravitational acceleration along with the diamagnetic repulsion can achieve a complete ``release" and ``catch" interferometry in the course of which a large spatial superposition is generated in a relatively short time. After first creating a modest initial spatial superposition of $1~\mu {\rm m}$ (e.g. using Stern-Gerlach), we will show that we can achieve an $\sim 10^{3}$ fold improvement to the spatial superposition size ($1~{\rm \mu m}\rightarrow 980~\mu {\rm m}$) between the wave packets in less than $0.02$~s by using the Earth's gravitational acceleration and then the diamagnetic repulsive scattering of the nanocrystal, neither of which depend on the object mass. Finally, the wave packet trajectories can be closed so that spatial interference fringes can be observed or spin coherence can be further recovered using the SG apparatus.
翻訳日:2023-05-01 17:30:06 公開日:2023-04-28
# Inflation: 古典的および量子因果互換性のためのPythonライブラリ

Inflation: a Python library for classical and quantum causal compatibility ( http://arxiv.org/abs/2211.04483v2 )

ライセンス: Link先を確認
Emanuel-Cristian Boghiu and Elie Wolfe and Alejandro Pozas-Kerstjens(参考訳) Inflationは、観測された確率分布が因果的説明と互換性があるかどうかを評価するPythonライブラリである。 これは理論科学と応用科学の両方において中心的な問題であり、近年では量子非局所性領域、すなわちインフレーション技術の発展から大きく進歩している。 インフレーション(インフレーション)は、純粋因果互換性の問題や、古典パラダイムと量子パラダイムの両方における(相関関係の)集合に対する最適化を解決できる拡張可能なツールキットである。 ライブラリはモジュール化されており、カスタム修正のために低レベルのオブジェクトへの容易にアクセスを保ちながら使えるように設計されている。

We introduce Inflation, a Python library for assessing whether an observed probability distribution is compatible with a causal explanation. This is a central problem in both theoretical and applied sciences, which has recently witnessed significant advances from the area of quantum nonlocality, namely, in the development of inflation techniques. Inflation is an extensible toolkit that is capable of solving pure causal compatibility problems and optimization over (relaxations of) sets of compatible correlations in both the classical and quantum paradigms. The library is designed to be modular and with the ability of being ready-to-use, while keeping an easy access to low-level objects for custom modifications.
翻訳日:2023-05-01 17:29:07 公開日:2023-04-28
# クロスモーダルニューラルモデルによる低リソース音楽ジャンル分類

Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming ( http://arxiv.org/abs/2211.01317v2 )

ライセンス: Link先を確認
Yun-Ning Hung, Chao-Han Huck Yang, Pin-Yu Chen, Alexander Lerch(参考訳) 伝達学習(TL)アプローチは、限られたトレーニングデータでタスクを処理する際に有望な結果を示している。 しかし、トレーニング済みのニューラルネットワークをターゲットのドメインデータで微調整するためには、かなりのメモリと計算資源が必要とされることが多い。 本稿では,ニューラル・モデル・リプログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。 NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。 入力非依存のリプログラミング手法に加えて、音楽オーディオなどの複雑な入力データへの適応性を高めるために、入力依存nmrという高度なリプログラミングパラダイムを提案する。 実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。 2つの入力依存型NMR TL法は、小さなジャンル分類データセット上で微調整型TL法より優れている。

Transfer learning (TL) approaches have shown promising results when handling tasks with limited training data. However, considerable memory and computational resources are often required for fine-tuning pre-trained neural networks with target domain data. In this work, we introduce a novel method for leveraging pre-trained models for low-resource (music) classification based on the concept of Neural Model Reprogramming (NMR). NMR aims at re-purposing a pre-trained model from a source domain to a target domain by modifying the input of a frozen pre-trained model. In addition to the known, input-independent, reprogramming method, we propose an advanced reprogramming paradigm: Input-dependent NMR, to increase adaptability to complex input data such as musical audio. Experimental results suggest that a neural model pre-trained on large-scale datasets can successfully perform music genre classification by using this reprogramming method. The two proposed Input-dependent NMR TL methods outperform fine-tuning-based TL methods on a small genre classification dataset.
翻訳日:2023-05-01 17:28:54 公開日:2023-04-28
# 量子雑音による逆例に対する量子分類器のロバスト性

Certified Robustness of Quantum Classifiers against Adversarial Examples through Quantum Noise ( http://arxiv.org/abs/2211.00887v2 )

ライセンス: Link先を確認
Jhih-Cing Huang, Yu-Lin Tsai, Chao-Han Huck Yang, Cheng-Fang Su, Chia-Mu Yu, Pin-Yu Chen, Sy-Yen Kuo(参考訳) 近年、量子分類器は、不可避なノイズによって量子分類器が騙され、誤分類に繋がる敵の攻撃に弱いことが判明している。 本稿では,量子乱数回転雑音を付加することで,量子分類器の対角攻撃に対する堅牢性を向上できることを示す最初の理論的研究を提案する。 差分プライバシーの定義をリンクし、加法雑音の自然な存在で訓練された量子分類器が微分プライベートであることを示す。 最後に,IBM の 7-qubits デバイスからのノイズを模擬した実験結果により,量子分類器が敵の例に対抗できるように,信頼性の高いロバスト性を導出する。

Recently, quantum classifiers have been found to be vulnerable to adversarial attacks, in which quantum classifiers are deceived by imperceptible noises, leading to misclassification. In this paper, we propose the first theoretical study demonstrating that adding quantum random rotation noise can improve robustness in quantum classifiers against adversarial attacks. We link the definition of differential privacy and show that the quantum classifier trained with the natural presence of additive noise is differentially private. Finally, we derive a certified robustness bound to enable quantum classifiers to defend against adversarial examples, supported by experimental results simulated with noises from IBM's 7-qubits device.
翻訳日:2023-05-01 17:28:41 公開日:2023-04-28
# 多重攻撃による超スペクトル逆ロバスト性の改善

Improving Hyperspectral Adversarial Robustness Under Multiple Attacks ( http://arxiv.org/abs/2210.16346v3 )

ライセンス: Link先を確認
Nicholas Soucy and Salimeh Yasaei Sekeh(参考訳) ハイパースペクトル画像(HSI)を分類するセグメンテーションモデルは、敵対的な例に対して脆弱である。 敵対的ロバストネスに対する従来のアプローチは、攻撃されたデータに対する単一のネットワークのトレーニングや再トレーニングに重点を置いているが、複数の攻撃が存在する場合には、各攻撃で個別に訓練されたネットワークと比較してパフォーマンスが低下する。 この課題に対処するため,ネットワーク全体のロバスト化を図り,データタイプ毎の重みを最適に保持する統一モデルの下で,攻撃型検出と敵のロバスト性に着目したADE-Net(Adversarial Discriminator Ensemble Network)を提案する。 提案手法では,攻撃型別データを特定の攻撃経験アンサンブルネットワークに分離するために識別器ネットワークを用いる。

Semantic segmentation models classifying hyperspectral images (HSI) are vulnerable to adversarial examples. Traditional approaches to adversarial robustness focus on training or retraining a single network on attacked data, however, in the presence of multiple attacks these approaches decrease in performance compared to networks trained individually on each attack. To combat this issue we propose an Adversarial Discriminator Ensemble Network (ADE-Net) which focuses on attack type detection and adversarial robustness under a unified model to preserve per data-type weight optimally while robustifiying the overall network. In the proposed method, a discriminator network is used to separate data by attack type into their specific attack-expert ensemble network.
翻訳日:2023-05-01 17:28:17 公開日:2023-04-28
# マルチタスク学習を用いた自己教師付きモデルを用いた難聴音声の自動重度分類

Automatic Severity Classification of Dysarthric speech by using Self-supervised Model with Multi-task Learning ( http://arxiv.org/abs/2210.15387v3 )

ライセンス: Link先を確認
Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung(参考訳) 変形性音声の自動評価は持続的治療とリハビリテーションに不可欠である。 しかし、非典型的音声の取得は困難であり、しばしばデータ不足の問題を引き起こす。 そこで本研究では,マルチタスク学習を併用した自己教師付きモデルを用いて,構音障害の重症度自動評価手法を提案する。 Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)という2つのタスクで共同で訓練されている。 ベースライン実験では,手作り音響特徴と,SVM,MLP,XGBoostなどの機械学習分類器を用いる。 韓国の変形性音声QoLTデータベースを探索し,F1スコアが1.25%増加し,従来のベースライン法よりも優れていた。 さらに、提案モデルはASRヘッドなしで訓練されたモデルを超え、10.61%の相対パーセンテージ向上を達成した。 さらに,マルチタスク学習が潜在表現と正規化効果を分析し,重度分類性能にどのように影響するかを示す。

Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity classification and auxiliary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted acoustic features and machine learning classifiers such as SVM, MLP, and XGBoost. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 1.25% for F1-score. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.61% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect.
翻訳日:2023-05-01 17:28:00 公開日:2023-04-28
# パウリ測定のための隠れ変数

Hidden Variables for Pauli Measurements ( http://arxiv.org/abs/2212.09933v3 )

ライセンス: Link先を確認
Leon Bankston(参考訳) パウリ測度(クリフォード作用素で行うことができる測度)は、量子情報の基本的な対象である。 完全かつ一貫性のあるすべてのパウリ測定に結果の割り当てがないことはよく知られている。 両条件の緩和に基づく隠れ変数代入の2つのクラスを定義する。 部分隠れ変数代入は一貫性を保ちながら完全性を失う。 コンテキスト隠蔽変数割り当ては完全性を維持しながら、一貫性を禁ずる。 スペクトルグラフ理論の手法を用いて,各隠れ変数割り当ての不完全性と不整合を特徴付ける。 アプリケーションとして、文脈性のステートメントとして不完全性結果、非局所性のステートメントとして不整合結果を解釈します。 その結果,クリフォードゲートと測定値を用いて,多量のコンテクスト性および非局所性が得られることがわかった。

The Pauli measurements (the measurements that can be performed with Clifford operators followed by measurement in the computational basis) are a fundamental object in quantum information. It is well-known that there is no assignment of outcomes to all Pauli measurements that is both complete and consistent. We define two classes of hidden variable assignments based on relaxing either condition. Partial hidden variable assignments retain the consistency condition, but forfeit completeness. Contextual hidden variable assignments retain completeness but forfeit consistency. We use techniques from spectral graph theory to characterize the incompleteness and inconsistency of the respective hidden variable assignments. As an application, we interpret our incompleteness result as a statement of contextuality and our inconsistency result as a statement of nonlocality. Our results show that we can obtain large amounts of contextuality and nonlocality using Clifford gates and measurements.
翻訳日:2023-05-01 17:22:12 公開日:2023-04-28
# 不純物プローブを用いた強相関フェルミオン量子系の熱測定

Thermometry of Strongly Correlated Fermionic Quantum Systems using Impurity Probes ( http://arxiv.org/abs/2212.09618v2 )

ライセンス: Link先を確認
George Mihailescu, Steve Campbell, Andrew K. Mitchell(参考訳) 我々は量子温度測定のプラットフォームとして量子不純物モデルを研究する。 単一量子スピン-1/2不純物は、我々が環境または浴と呼ぶ明示的で構造化されたフェルミオン熱環境と結合する。 環境への結合がイジング型や近藤交換型である場合, プローブとしての不純物の温度測定能力を評価する。 イジングの場合、結合強度や環境スペクトルの特徴とは無関係に、適用された制御フィールドで線形にスケールする温度でピーク熱測定性能が得られる理想化された2レベルシステムと同等の感度が得られる。 対照的に、強いプローブ環境の絡み合いが発達するため、コンドの不純物に対してよりリッチな熱測定応答が実現できる。 低温では、微視的詳細とは独立に、環境の低エネルギースペクトル特性のみによって制御される普遍的な熱測定応答を持つレジームを明らかにする。 この状態で発達する多体絡み合いは、弱磁場の低温温度測定が本質的には感度が低く、強い磁場の絡み合いを抑制して最適感度を回復することを意味する。

We study quantum impurity models as a platform for quantum thermometry. A single quantum spin-1/2 impurity is coupled to an explicit, structured, fermionic thermal environment which we refer to as the environment or bath. We critically assess the thermometric capabilities of the impurity as a probe, when its coupling to the environment is of Ising or Kondo exchange type. In the Ising case, we find sensitivity equivalent to that of an idealized two-level system, with peak thermometric performance obtained at a temperature that scales linearly in the applied control field, independent of the coupling strength and environment spectral features. By contrast, a richer thermometric response can be realized for Kondo impurities, since strong probe-environment entanglement can then develop. At low temperatures, we uncover a regime with a universal thermometric response that is independent of microscopic details, controlled only by the low-energy spectral features of the environment. The many-body entanglement that develops in this regime means that low-temperature thermometry with a weakly applied control field is inherently less sensitive, while optimal sensitivity is recovered by suppressing the entanglement with stronger fields.
翻訳日:2023-05-01 17:21:58 公開日:2023-04-28
# コンボリューション強化型進化型注意ネットワーク

Convolution-enhanced Evolving Attention Networks ( http://arxiv.org/abs/2212.08330v2 )

ライセンス: Link先を確認
Yujing Wang, Yaming Yang, Zhuo Li, Jiangang Bai, Mingliang Zhang, Xiangtai Li, Jing Yu, Ce Zhang, Gao Huang, Yunhai Tong(参考訳) Transformersのような注意に基づくニューラルネットワークは、コンピュータビジョン、自然言語処理、時系列解析など、多くのアプリケーションで普及している。 あらゆる種類の注意ネットワークにおいて、アテンションマップは入力トークン間のセマンティックな依存関係を符号化する上で重要である。 しかし、既存のアテンションネットワークの多くは表現に基づくモデリングや推論を行い、各レイヤのアテンションマップは明示的な相互作用なしに別々に学習される。 本稿では,残余畳み込みモジュールの連鎖を通じて,相互関係の進化を直接モデル化する,新規で汎用的な注意機構を提案する。 主な動機は2つある。 一方で、異なる層内のアテンションマップは、転送可能な知識を共有しているため、残りの接続を追加することで、層間の相互関係の情報フローが容易になる。 一方,様々な抽象レベルで注目度マップが進化する傾向が自然にみられるため,専用畳み込み型モジュールを活用してこのプロセスをキャプチャすることは有益である。 提案手法を組み込んだ畳み込み型アテンションネットワークは,時系列表現,自然言語理解,機械翻訳,画像分類など,様々なアプリケーションにおいて優れた性能を実現する。 特に時系列表現タスクでは、EA-DC-(Evolving Attention-enhanced Dilated Convolutional)変換器は最先端モデルよりも優れており、最高のSOTAに比べて平均17%改善されている。 私たちの知る限りでは、注意マップのレイヤーワイド進化を明示的にモデル化する最初の作品です。 私たちの実装はhttps://github.com/pkuyym/evolvingattentionで利用可能です。

Attention-based neural networks, such as Transformers, have become ubiquitous in numerous applications, including computer vision, natural language processing, and time-series analysis. In all kinds of attention networks, the attention maps are crucial as they encode semantic dependencies between input tokens. However, most existing attention networks perform modeling or reasoning based on representations , wherein the attention maps of different layers are learned separately without explicit interactions. In this paper, we propose a novel and generic evolving attention mechanism, which directly models the evolution of inter-token relationships through a chain of residual convolutional modules. The major motivations are twofold. On the one hand, the attention maps in different layers share transferable knowledge, thus adding a residual connection can facilitate the information flow of inter-token relationships across layers. On the other hand, there is naturally an evolutionary trend among attention maps at different abstraction levels, so it is beneficial to exploit a dedicated convolution-based module to capture this process. Equipped with the proposed mechanism, the convolution-enhanced evolving attention networks achieve superior performance in various applications, including time-series representation, natural language understanding, machine translation, and image classification. Especially on time-series representation tasks, Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformer outperforms state-of-the-art models significantly, achieving an average of 17% improvement compared to the best SOTA. To the best of our knowledge, this is the first work that explicitly models the layer-wise evolution of attention maps. Our implementation is available at https://github.com/pkuyym/EvolvingAttention.
翻訳日:2023-05-01 17:21:22 公開日:2023-04-28
# 強磁場中における引抜きイオン多ビットゲートの自然放出の比較

Comparison of Spontaneous Emission in Trapped Ion Multiqubit Gates at High Magnetic Fields ( http://arxiv.org/abs/2212.03367v2 )

ライセンス: Link先を確認
Allison L. Carter, Sean R. Muleady, Athreya Shankar, Jennifer F. Lilieholm, Bryce B. Bullock, Matthew Affolter, Ana Maria Rey, John J. Bollinger(参考訳) ペニングトラップは、数百個のイオンによる量子シミュレーションやセンシングに用いられており、2dおよび3d結晶中の数千個のイオンをトラップし制御できるため、閉じ込められたイオン量子プラットフォームをスケールアップするための有望な経路を提供している。 閉じ込められたイオンに対するレーザーベースのマルチキュービット動作におけるデコヒーレンスの主な原因は、非共振自発放出である。 多くの閉じ込められたイオン量子コンピュータやシミュレータはクロック量子ビットを使用するが、他のシステムはゼーマン量子ビットに依存しており、より複雑なデコヒーレンス計算を必要とする。 強磁場中においてイオンを捕捉した量子ゲートに対する自然放出の影響を理論的に検討した。 我々は、光シフトとモルマーソレンセンゲートの2種類のゲートを検討し、それぞれのデコヒーレンスエラーを比較した。 また、異なる変形、偏光、ゲートを駆動するために使用されるレーザービームの強度も比較した。 両ゲートは最適動作条件下でも同様の性能を示し, 各種動作点の実験的実現可能性について検討する。 各ゲートの磁場依存性を調べることにより、ゼーマン分裂と比較してp$状態の微細構造の分裂が大きい場合、モルマー・ソレンセンゲートの理論性能は光シフトゲートのそれよりも著しく優れていることを証明した。 さらに、光シフトゲートでは、高磁場で達成できる忠実度と、最先端の2量子ビット閉じ込められたイオン量子ゲートの忠実度とを近似的に比較する。 自発的な放出に関しては、現在の構成の達成可能な不確かさは、最高のローフィールドゲートよりも約1桁大きいが、最先端の閉じ込められたイオンゲートに匹敵する潜在的なエラー率を持つ代替構成についても検討する。

Penning traps have been used for performing quantum simulations and sensing with hundreds of ions and provide a promising route toward scaling up trapped ion quantum platforms because of the ability to trap and control up to thousands of ions in 2D and 3D crystals. A leading source of decoherence in laser-based multiqubit operations on trapped ions is off-resonant spontaneous emission. While many trapped ion quantum computers or simulators utilize clock qubits, other systems rely on Zeeman qubits, which require a more complex calculation of this decoherence. We examine theoretically the impacts of spontaneous emission on quantum gates performed with trapped ions in a high magnetic field. We consider two types of gates -- light-shift and Molmer-Sorensen gates -- and compare the decoherence errors in each. We also compare different detunings, polarizations, and required intensities of the laser beams used to drive the gates. We show that both gates can have similar performance at their optimal operating conditions and examine the experimental feasibility of various operating points. By examining the magnetic field dependence of each gate, we demonstrate that when the $P$ state fine structure splitting is large compared to the Zeeman splittings, the theoretical performance of the Molmer-Sorensen gate is significantly better than that of the light-shift gate. Additionally, for the light-shift gate, we make an approximate comparison between the fidelities that can be achieved at high fields with the fidelities of state-of-the-art two-qubit trapped ion quantum gates. We show that, with regard to spontaneous emission, the achievable infidelity of our current configuration is about an order of magnitude larger than that of the best low-field gates, but we also discuss alternative configurations with potential error rates that are comparable with state-of-the-art trapped ion gates.
翻訳日:2023-05-01 17:20:39 公開日:2023-04-28
# 会員推論攻撃の識別性について

On the Discredibility of Membership Inference Attacks ( http://arxiv.org/abs/2212.02701v2 )

ライセンス: Link先を確認
Shahbaz Rezaei and Xin Liu(参考訳) 機械学習モデルの広範な適用により、センシティブなデータでトレーニングされたモデルの潜在的なデータ漏洩を研究することが重要になっている。 近年、サンプルがトレーニングセットの一部であるか否かを判断するために、様々なメンバーシップ推論(MI)攻撃が提案されている。 問題は、これらの攻撃が実際に確実に使用できるかどうかだ。 MIモデルは、メンバーサンプルの隣り合う非メンバーサンプルをメンバーとして誤分類することも多い。 言い換えれば、それらは識別できる正確なメンバーサンプルのサブポピュレーションに対して高い偽陽性率を持つ。 次に、この問題が現実の反感を持つMI攻撃の実践的応用を示す。 ここで、MI攻撃は外部監査官(調査員)によって、審査員が不正に機密データを使用したことを裁判官/陪審に示すために使用される。 参加者のサブポピュレーションに対するMI攻撃の偽陽性率が高いため、監査人はこれらのサブポピュレーションに対するMI攻撃のパフォーマンスを明らかにすることで監査人の信頼性に挑戦する。 本研究は,現在のメンバーシップ推論攻撃は記憶されたサブ集団を識別できるが,トレーニング中にどのサブ集団が使用されたかを確実に特定できない。

With the wide-spread application of machine learning models, it has become critical to study the potential data leakage of models trained on sensitive data. Recently, various membership inference (MI) attacks are proposed to determine if a sample was part of the training set or not. The question is whether these attacks can be reliably used in practice. We show that MI models frequently misclassify neighboring nonmember samples of a member sample as members. In other words, they have a high false positive rate on the subpopulations of the exact member samples that they can identify. We then showcase a practical application of MI attacks where this issue has a real-world repercussion. Here, MI attacks are used by an external auditor (investigator) to show to a judge/jury that an auditee unlawfully used sensitive data. Due to the high false positive rate of MI attacks on member's subpopulations, auditee challenges the credibility of the auditor by revealing the performance of the MI attacks on these subpopulations. We argue that current membership inference attacks can identify memorized subpopulations, but they cannot reliably identify which exact sample in the subpopulation was used during the training.
翻訳日:2023-05-01 17:20:11 公開日:2023-04-28
# リジッド折り紙設計の自動化

Automating Rigid Origami Design ( http://arxiv.org/abs/2211.13219v2 )

ライセンス: Link先を確認
Jeremia Geiger, Karolis Martinkus, Oliver Richter and Roger Wattenhofer(参考訳) 剛体折り紙は実用用途の多種多様さに有益である。 しかし、現在の硬い折り紙の折り紙模様のデザインは、よく知られたテッセルレーションに依存している。 これは、作成できるパターンの多様性と新しさを強く制限します。 本研究では, 離散最適化問題である剛性折り紙ゲームとして, 剛性折り紙設計を定式化するための3つの単位法の原理を最近開発した。 本実装では, 多様な目的を簡易に定義し, 剛性オリガミの可能性を, 最適化されたアプリケーション固有のクレーゼパターンに拡張する。 本稿では, 多様な探索手法を用いた定式化の柔軟性について, いくつかの図解ケーススタディで紹介する。 我々は、与えられた対象の形状を近似する様々なパターンを構築できるだけでなく、抽象的、機能ベースの報酬を指定でき、その結果、日々のオブジェクトに新しく、折り畳み可能、そして機能的なデザインをもたらす。

Rigid origami has shown potential in large diversity of practical applications. However, current rigid origami crease pattern design mostly relies on known tessellations. This strongly limits the diversity and novelty of patterns that can be created. In this work, we build upon the recently developed principle of three units method to formulate rigid origami design as a discrete optimization problem, the rigid origami game. Our implementation allows for a simple definition of diverse objectives and thereby expands the potential of rigid origami further to optimized, application-specific crease patterns. We showcase the flexibility of our formulation through use of a diverse set of search methods in several illustrative case studies. We are not only able to construct various patterns that approximate given target shapes, but to also specify abstract, function-based rewards which result in novel, foldable and functional designs for everyday objects.
翻訳日:2023-05-01 17:19:47 公開日:2023-04-28
# マルチスケール方向画像表現を用いた画像分類器の解説

Explaining Image Classifiers with Multiscale Directional Image Representation ( http://arxiv.org/abs/2211.12857v3 )

ライセンス: Link先を確認
Stefan Kolek, Robert Windesheim, Hector Andrade Loarca, Gitta Kutyniok, Ron Levie(参考訳) 画像分類器は解釈が難しいことが知られており、その決定を理解するには説明方法が必要である。 本稿では,マルチスケール指向画像表現のシャーレット変換に基づく画像分類器のマスク説明手法であるShearletXを提案する。 現在のマスクの説明方法は、望ましくない細かい説明アーティファクトから保護する滑らかさの制約によって規則化される。 しかし、マスクの滑らかさは、分類器に関係のある細部パターンを、分類器に影響を与えない近くのニュアンスパターンから分離する能力を制限している。 shearletx は、滑らかさの正規化を全て回避し、それを shearlet sparsity 制約に置き換えることでこの問題を解決している。 その結果得られた説明は、分類器の決定に最も関係のある原画像のいくつかのエッジ、テクスチャ、滑らかな部分から構成されている。 本手法を支援するために,説明人工物に関する数学的定義と,マスク説明の質を評価するための情報理論スコアを提案する。 従来のマスクを用いた説明手法よりもShearletXの方が優れていることを示すとともに,これまで説明できなかった現象を説明できるような細部パターンの分離が実例を示す。

Image classifiers are known to be difficult to interpret and therefore require explanation methods to understand their decisions. We present ShearletX, a novel mask explanation method for image classifiers based on the shearlet transform -- a multiscale directional image representation. Current mask explanation methods are regularized by smoothness constraints that protect against undesirable fine-grained explanation artifacts. However, the smoothness of a mask limits its ability to separate fine-detail patterns, that are relevant for the classifier, from nearby nuisance patterns, that do not affect the classifier. ShearletX solves this problem by avoiding smoothness regularization all together, replacing it by shearlet sparsity constraints. The resulting explanations consist of a few edges, textures, and smooth parts of the original image, that are the most relevant for the decision of the classifier. To support our method, we propose a mathematical definition for explanation artifacts and an information theoretic score to evaluate the quality of mask explanations. We demonstrate the superiority of ShearletX over previous mask based explanation methods using these new metrics, and present exemplary situations where separating fine-detail patterns allows explaining phenomena that were not explainable before.
翻訳日:2023-05-01 17:19:34 公開日:2023-04-28
# cmlcompiler: 古典的機械学習のための統一コンパイラ

CMLCompiler: A Unified Compiler for Classical Machine Learning ( http://arxiv.org/abs/2301.13441v3 )

ライセンス: Link先を確認
Xu Wen, Wanling Gao, Anzheng Li, Lei Wang, Zihan Jiang, Jianfeng Zhan(参考訳) 古典的な機械学習(CML)は、プロダクションアプリケーションにおける機械学習パイプラインの半分近くを占めている。 残念ながら、現状のデバイスを十分に活用できず、性能が良くない。 統合されたフレームワークがなければ、ディープラーニング(DL)とCMLのハイブリッドデプロイメントも、厳しいパフォーマンスとポータビリティの問題に悩まされる。 本稿では,CML推論のためのCMLコンパイラ (CML Compiler) の設計について述べる。 演算子表現と拡張計算グラフの2つの統合抽象化を提案する。 CMLCompilerフレームワークは、2つの統合された抽象化に基づいて変換とグラフの最適化を行い、最適化された計算グラフをDLコンパイラやフレームワークに出力する。 我々はTVMにCMLコンパイラを実装した。 この評価はCMLコンパイラのポータビリティと優れた性能を示している。 cpuでは最大4.38$\times$ speedup、gpuでは3.31$\times$ speedup、iotデバイスでは5.9$\times$ speedupを実現している。 CMLとDL混合パイプラインの性能は、クロスフレームワークの実装と比較して最大3.04倍のスピードアップを実現しています。 プロジェクト文書とソースコードはhttps://www.computercouncil.org/cmlcompilerで入手できる。

Classical machine learning (CML) occupies nearly half of machine learning pipelines in production applications. Unfortunately, it fails to utilize the state-of-the-practice devices fully and performs poorly. Without a unified framework, the hybrid deployments of deep learning (DL) and CML also suffer from severe performance and portability issues. This paper presents the design of a unified compiler, called CMLCompiler, for CML inference. We propose two unified abstractions: operator representations and extended computational graphs. The CMLCompiler framework performs the conversion and graph optimization based on two unified abstractions, then outputs an optimized computational graph to DL compilers or frameworks. We implement CMLCompiler on TVM. The evaluation shows CMLCompiler's portability and superior performance. It achieves up to 4.38$\times$ speedup on CPU, 3.31$\times$ speedup on GPU, and 5.09$\times$ speedup on IoT devices, compared to the state-of-the-art solutions -- scikit-learn, intel sklearn, and hummingbird. Our performance of CML and DL mixed pipelines achieves up to 3.04x speedup compared with cross-framework implementations. The project documents and source code are available at https://www.computercouncil.org/cmlcompiler.
翻訳日:2023-05-01 17:11:54 公開日:2023-04-28
# 画素ディスクリプタに基づく高解像度リモートセンシング画像の異常分割

Anomaly Segmentation for High-Resolution Remote Sensing Images Based on Pixel Descriptors ( http://arxiv.org/abs/2301.13422v2 )

ライセンス: Link先を確認
Jingtao Li, Xinyu Wang, Hengwei Zhao, Shaoyu Wang, Yanfei Zhong(参考訳) 高空間解像度(HSR)リモートセンシング画像における異常セグメンテーションは、通常のパターンから逸脱する地球の異常パターンのセグメンテーションを目的としており、様々な地球視覚応用において重要な役割を果たしている。 しかし,複雑な分布や物体の不規則な形状,異常な試料の欠如などにより困難な課題となっている。 これらの問題に対処するために,hsr画像における異常セグメント化のために,ピクセルディスクリプタ(asd)に基づく異常セグメンテーションモデルを提案する。 具体的には、特徴空間の異常セグメンテーションに、識別ピクセル記述子を用いた深層一階分類を導入する。 asdモデルは、仮想のab正規サンプルを生成するためのデータ引数を組み込んでおり、ピクセルディスクリプタを通常のデータでコンパクトにすることができ、一方、正のサンプルだけがトレーニングに参加した場合のモデル崩壊問題を回避するために多様である。 さらに、ASDは、低レベルおよびセマンティック情報を学習し、ピクセル記述子を機能豊かにするマルチレベルかつマルチスケールな特徴抽出戦略を導入した。 提案したASDモデルは、4つのHSRデータセットを用いて検証され、最近の最先端モデルと比較された。

Anomaly segmentation in high spatial resolution (HSR) remote sensing imagery is aimed at segmenting anomaly patterns of the earth deviating from normal patterns, which plays an important role in various Earth vision applications. However, it is a challenging task due to the complex distribution and the irregular shapes of objects, and the lack of abnormal samples. To tackle these problems, an anomaly segmentation model based on pixel descriptors (ASD) is proposed for anomaly segmentation in HSR imagery. Specifically, deep one-class classification is introduced for anomaly segmentation in the feature space with discriminative pixel descriptors. The ASD model incorporates the data argument for generating virtual ab-normal samples, which can force the pixel descriptors to be compact for normal data and meanwhile to be diverse to avoid the model collapse problems when only positive samples participated in the training. In addition, the ASD introduced a multi-level and multi-scale feature extraction strategy for learning the low-level and semantic information to make the pixel descriptors feature-rich. The proposed ASD model was validated using four HSR datasets and compared with the recent state-of-the-art models, showing its potential value in Earth vision applications.
翻訳日:2023-05-01 17:11:35 公開日:2023-04-28
# スケーラブルリンク予測のための部分グラフ表現学習の簡略化

Simplifying Subgraph Representation Learning for Scalable Link Prediction ( http://arxiv.org/abs/2301.12562v2 )

ライセンス: Link先を確認
Paul Louis, Shweta Ann Jacob and Amirali Salehi-Abari(参考訳) グラフ上のリンク予測は根本的な問題である。 サブグラフ表現学習手法(SGRL)はリンク予測からリンク周辺のグラフ分類への変換によって,リンク予測における最先端性能を実現している。 しかし、SGRLは計算コストが高く、高価なサブグラフレベルの演算のために大規模グラフには拡張性がない。 SGRLのスケーラビリティを解放するために,SGRLの新たなクラスを提案し,SGRL(Scalable Simplified SGRL)と呼ぶ。 高速なトレーニングと推論を目的としたS3GRLは、各リンクのサブグラフにおけるメッセージパッシングとアグリゲーション操作を単純化する。 S3GRLは、拡張性のあるフレームワークとして、様々なサブグラフサンプリング戦略と拡散演算子に対応し、計算的なSGRLをエミュレートする。 本稿では、S3GRLの複数の例を提案し、それらを小規模・大規模グラフ上で実証研究する。 広範な実験により,提案するs3grlモデルがsgrlを大幅な性能上の妥協なくスケールアップできることが示され,計算量を大幅に削減した(マルチフォールド推論やトレーニングスピードアップなど)。

Link prediction on graphs is a fundamental problem. Subgraph representation learning approaches (SGRLs), by transforming link prediction to graph classification on the subgraphs around the links, have achieved state-of-the-art performance in link prediction. However, SGRLs are computationally expensive, and not scalable to large-scale graphs due to expensive subgraph-level operations. To unlock the scalability of SGRLs, we propose a new class of SGRLs, that we call Scalable Simplified SGRL (S3GRL). Aimed at faster training and inference, S3GRL simplifies the message passing and aggregation operations in each link's subgraph. S3GRL, as a scalability framework, accommodates various subgraph sampling strategies and diffusion operators to emulate computationally-expensive SGRLs. We propose multiple instances of S3GRL and empirically study them on small to large-scale graphs. Our extensive experiments demonstrate that the proposed S3GRL models scale up SGRLs without significant performance compromise (even with considerable gains in some cases), while offering substantially lower computational footprints (e.g., multi-fold inference and training speedup).
翻訳日:2023-05-01 17:11:12 公開日:2023-04-28
# ロングレイリー長共焦点顕微鏡:カラーセンターの量子特性を得るための高速評価ツール

Long Rayleigh length confocal microscope: A fast evaluation tool for obtaining quantum properties of color centers ( http://arxiv.org/abs/2301.12441v2 )

ライセンス: Link先を確認
Yuta Masuyama, Chikara Shinei, Shuya Ishii, Hiroshi Abe, Takashi Taniguchi, Tokuyuki Teraji, Takeshi Ohshima(参考訳) 室温や大気圧でも優れた量子特性を有する広帯域半導体における色中心は、量子センシングデバイスに積極的に応用されている。 半導体材料における色中心の量子的性質のキャラクタリゼーションと、これらの特性が広い領域で均一であることを保証することが、色中心に基づく量子センシングデバイスを開発する上で重要な課題である。 本稿では,長いレイリー長(LRCFM)を持つ新しい共焦点顕微鏡システムの原理と性能について述べる。 このシステムは、色中心評価に一般的に使用される共焦点顕微鏡システムよりも広い面積を特徴付けることができる。

Color centers in wide band-gap semiconductors, which have superior quantum properties even at room temperature and atmospheric pressure, have been actively applied to quantum sensing devices. Characterization of the quantum properties of the color centers in the semiconductor materials and ensuring that these properties are uniform over a wide area are key issues for developing quantum sensing devices based on color center. In this article, we will describe the principle and performance of a newly developed confocal microscope system with a long Rayleigh length (LRCFM). This system can characterize a wider area faster than the confocal microscope systems commonly used for color center evaluation.
翻訳日:2023-05-01 17:10:51 公開日:2023-04-28
# 意味論的保存変換によるニューラルネットワークの厳密な理解に向けて

Towards Rigorous Understanding of Neural Networks via Semantics-preserving Transformations ( http://arxiv.org/abs/2301.08013v2 )

ライセンス: Link先を確認
Maximilian Schl\"uter and Gerrit Nolte and Alnis Murtovi and Bernhard Steffen(参考訳) 本稿では,Piece-wise Linear Neural Networks(PLNN)のサブクラスであるRectifier Neural Networksの正確かつ大域的な検証と説明に対する代数的アプローチ,すなわち,ピースワイドアフィン関数を意味的に表現するネットワークについて述べる。 我々のアプローチの鍵は、意味的に等価な型付きアフィン決定構造(tads)を構築することができるこれらのネットワークのシンボリックな実行です。 決定論的かつ逐次的な性質から、tadは決定木と同様にホワイトボックスモデルと見なすことができ、それゆえモデルと結果説明問題の正確な解である。 TADSは線形代数であり、2つのネットワークベースの分類器が異なる入力のセットや入力のセットを正確に特徴付けることにより、障害発生時の正確な診断情報の両方を整合性や類似性について整合性ネットワークをエレガントに比較することができる。 すべての現象は、最小限で図解的な例である連続 XOR 関数の詳細な議論に沿って説明される。

In this paper we present an algebraic approach to the precise and global verification and explanation of Rectifier Neural Networks, a subclass of Piece-wise Linear Neural Networks (PLNNs), i.e., networks that semantically represent piece-wise affine functions. Key to our approach is the symbolic execution of these networks that allows the construction of semantically equivalent Typed Affine Decision Structures (TADS). Due to their deterministic and sequential nature, TADS can, similarly to decision trees, be considered as white-box models and therefore as precise solutions to the model and outcome explanation problem. TADS are linear algebras which allows one to elegantly compare Rectifier Networks for equivalence or similarity, both with precise diagnostic information in case of failure, and to characterize their classification potential by precisely characterizing the set of inputs that are specifically classified or the set of inputs where two network-based classifiers differ. All phenomena are illustrated along a detailed discussion of a minimal, illustrative example: the continuous XOR function.
翻訳日:2023-05-01 17:10:41 公開日:2023-04-28
# 希土類ドープ固体におけるひずみ誘起イオン-イオン相互作用

Strain-mediated ion-ion interaction in rare-earth-doped solids ( http://arxiv.org/abs/2301.05531v2 )

ライセンス: Link先を確認
Anne Louchet-Chauvet and Thierry Chaneli\`ere(参考訳) 近年、レアアースイオンの光学励起は、レアアースイオンの電子軌道幾何学の変化に起因するホストマトリックス形状の局所的な変化をもたらすことが示されている。 本研究は, この圧電軌道バックアクションの結果を考察し, 機械的ひずみを介する非無視イオン-イオン相互作用の生成過程をマクロモデルで示す。 この相互作用は1/r^3$でスケールし、電気的および磁気的双極子-双極子相互作用という他のアルテタイパルイオン-イオン相互作用と同様である。 我々は、これらの3つの相互作用の大きさを瞬時スペクトル拡散機構の角度から定量的に評価・比較し、この一般的に過小評価された貢献に照らして、レアアースドープ系の科学文献を再検討する。

It was recently shown that the optical excitation of rare-earth ions produces a local change of the host matrix shape, attributed to a change of the rare-earth ion's electronic orbital geometry. In this work we investigate the consequences of this piezo-orbital backaction and show from a macroscopic model how it yields a disregarded ion-ion interaction mediated by mechanical strain. This interaction scales as $1/r^3$, similarly to the other archetypal ion-ion interactions, namely electric and magnetic dipole-dipole interactions. We quantitatively assess and compare the magnitude of these three interactions from the angle of the instantaneous spectral diffusion mechanism, and reexamine the scientific literature in a range of rare-earth doped systems in the light of this generally underestimated contribution.
翻訳日:2023-05-01 17:10:21 公開日:2023-04-28
# 位置依存型光デシェルビングによる高速イオン輸送特性

Characterization of Fast Ion Transport via Position-Dependent Optical Deshelving ( http://arxiv.org/abs/2301.05279v2 )

ライセンス: Link先を確認
Craig R. Clark, Creston D. Herold, J.True Merrill, Holly N. Tinkey, Wade Rellergert, Robert Clark, Roger Brown, Wesley D. Robertson, Curtis Volin, Kara Maller, Chris Shappert, Brian J. McMahon, Brian C. Sawyer, Kenton R. Brown(参考訳) イオン輸送は量子情報処理のいくつかのモデルにおいて必須の操作であり、効率的な高忠実性量子論理には最小運動励起による高速イオンシャットリングが必要である。 高速かつ低温のイオンシャットリングが実証されているが、ダイアバティック輸送中のイオンの動態と特定の軌道は詳細には研究されていない。 本稿では,その軌道を通してイオンの位置をサンプリングするのに有用な位置依存型光分解技術について述べるとともに,表面電極型イオントラップにおける$^{40}\text{ca}^+$イオンの高速線形輸送技術を示す。 高速では、トラップの電極フィルタは輸送電位波形を強く歪ませる。 平均速度は83(2)m/s、ピーク速度は251(6)m/s、距離は120$\mu$mである。

Ion transport is an essential operation in some models of quantum information processing, where fast ion shuttling with minimal motional excitation is necessary for efficient, high-fidelity quantum logic. While fast and cold ion shuttling has been demonstrated, the dynamics and specific trajectory of an ion during diabatic transport have not been studied in detail. Here we describe a position-dependent optical deshelving technique useful for sampling an ion's position throughout its trajectory, and we demonstrate the technique on fast linear transport of a $^{40}\text{Ca}^+$ ion in a surface-electrode ion trap. At high speed, the trap's electrode filters strongly distort the transport potential waveform. With this technique, we observe deviations from the intended constant-velocity (100 m/s) transport: we measure an average speed of 83(2) m/s and a peak speed of 251(6) m/s over a distance of 120 $\mu$m
翻訳日:2023-05-01 17:10:05 公開日:2023-04-28
# 一般化不確実性原理の文脈におけるブラックホール相補性の妥当性

Validity of black hole complementarity in the context of generalized uncertainty principle ( http://arxiv.org/abs/2212.13438v2 )

ライセンス: Link先を確認
Shurui Wu, Bing-Qian Wang, Z. W. Long, Hao Chen(参考訳) 最近、Elias C. Vagenas et al と Yongwan Gim et al は一般化不確実性原理 (GUP) の文脈で非閉定理の有効性を研究したが、それらは矛盾する結論に達した。 このことを念頭において、gupの異なる形態の文脈におけるシュワルツシルトブラックホールの温度の補正を調査し、シュワルツシルトブラックホールの情報を重複させるために必要なエネルギーを得るとともに、必要なエネルギーがブラックホールの質量よりも大きいこと、すなわち、gupの現在における非閉包定理は安全であることを示す。

Recently, Elias C. Vagenas et al and Yongwan Gim et al studied the validity of the no-cloning theorem in the context of generalized uncertainty principle (GUP), but they came to conflicting conclusions. With this in mind, we investigate the corrections to the temperature for Schwarzschild black hole in the context of different forms of GUP, and obtain the required energy to duplicate information for the Schwarzschild black hole, it shows that the required energy is greater than the mass of black hole, i.e. the no-cloning theorem in the present of GUP is safe.
翻訳日:2023-05-01 17:09:27 公開日:2023-04-28
# 一般化ランガー補正と全標準ポテンシャルに対するWKBの実用性

Generalized Langer Correction and the Exactness of WKB for all Conventional Potentials ( http://arxiv.org/abs/2212.13118v2 )

ライセンス: Link先を確認
Asim Gangopadhyaya, Jonathan Bougie, Constantin Rasinariu(参考訳) 本稿では,翻訳形不変系のWKB量子化条件の正確性について検討する。 特に、超対称量子力学の定式化を用いて、ランガー補正を一般化し、従来のすべてのポテンシャルに対して正確な量子化条件を生成することを示す。 また、この補正は、これらのポテンシャルに対して以前に証明されたSWKBの正確性と関連していることを示す。

In this paper we investigate the exactness of the WKB quantization condition for translationally shape invariant systems. In particular, using the formalism of supersymmetric quantum mechanics, we generalize the Langer correction and show that it generates the exact quantization condition for all conventional potentials. We also prove that this correction is related to the previously proven exactness of SWKB for these potentials.
翻訳日:2023-05-01 17:09:14 公開日:2023-04-28
# 時系列データに対する情報理論によるパターン解析

Information Theory Inspired Pattern Analysis for Time-series Data ( http://arxiv.org/abs/2302.11654v2 )

ライセンス: Link先を確認
Yushan Huang, Yuchen Zhao, Alexander Capstick, Francesca Palermo, Hamed Haddadi, Payam Barnaghi(参考訳) 時系列のパターン分析の現在の方法は、データ内のパターンやトレンドを特定するために、主に統計的特徴や確率的学習や推論手法に依存している。 このような手法は、多変量、多変量、状態変化、騒がしい時系列データに適用するとうまく一般化しない。 これらの問題に対処するために,多変量時系列データのパターンから情報理論に基づく特徴を識別し学習する,高度に一般化した手法を提案する。 提案手法を実証するために,人間行動データのパターン変化を分析した。 確率的状態遷移を持つ応用では、シャノンのマルコフ鎖のエントロピー、マルコフ鎖のエントロピー率、マルコフ鎖のエントロピー生成、マルコフ鎖のフォン・ノイマンエントロピーに基づいて特徴が展開される。 状態モデリングが適用できないアプリケーションには、近似エントロピー、増分エントロピー、分散エントロピー、位相エントロピー、斜面エントロピーを含む5つのエントロピー変種を利用する。 その結果,提案した情報理論に基づく特徴は,ベースラインモデルとより単純なモデル構造と比較して,平均23.01%の精度でリコール率,F1スコア,精度を向上し,平均18.75倍のモデルパラメータが減少した。

Current methods for pattern analysis in time series mainly rely on statistical features or probabilistic learning and inference methods to identify patterns and trends in the data. Such methods do not generalize well when applied to multivariate, multi-source, state-varying, and noisy time-series data. To address these issues, we propose a highly generalizable method that uses information theory-based features to identify and learn from patterns in multivariate time-series data. To demonstrate the proposed approach, we analyze pattern changes in human activity data. For applications with stochastic state transitions, features are developed based on Shannon's entropy of Markov chains, entropy rates of Markov chains, entropy production of Markov chains, and von Neumann entropy of Markov chains. For applications where state modeling is not applicable, we utilize five entropy variants, including approximate entropy, increment entropy, dispersion entropy, phase entropy, and slope entropy. The results show the proposed information theory-based features improve the recall rate, F1 score, and accuracy on average by up to 23.01% compared with the baseline models and a simpler model structure, with an average reduction of 18.75 times in the number of model parameters.
翻訳日:2023-05-01 17:03:32 公開日:2023-04-28
# 分位回帰森林を用いた説明可能な文脈異常検出

Explainable Contextual Anomaly Detection using Quantile Regression Forests ( http://arxiv.org/abs/2302.11239v2 )

ライセンス: Link先を確認
Zhong Li, Matthijs van Leeuwen(参考訳) 従来の異常検出方法は、全ての特徴を等しく扱うことによって、他のほとんどのオブジェクトから逸脱するオブジェクトを識別することを目的としている。 対照的に、コンテキスト異常検出手法は、特徴を文脈的特徴と行動的特徴に分割することで、類似したオブジェクトのコンテキスト内で他のオブジェクトから逸脱するオブジェクトを検出することを目的としている。 本稿では,依存性に基づく従来の異常検出手法とコンテキスト異常検出手法の接続を開発する。 そこで本研究では,特徴間の依存関係をモデル化するためにQuantile Regression Forestsを用いた文脈異常検出手法を提案する。 各種合成および実世界のデータセットに対する広範囲な実験により,我々の手法は,精度と解釈可能性の観点から文脈異常を識別する最先端の異常検出手法よりも優れていることが示された。

Traditional anomaly detection methods aim to identify objects that deviate from most other objects by treating all features equally. In contrast, contextual anomaly detection methods aim to detect objects that deviate from other objects within a context of similar objects by dividing the features into contextual features and behavioral features. In this paper, we develop connections between dependency-based traditional anomaly detection methods and contextual anomaly detection methods. Based on resulting insights, we propose a novel approach to inherently interpretable contextual anomaly detection that uses Quantile Regression Forests to model dependencies between features. Extensive experiments on various synthetic and real-world datasets demonstrate that our method outperforms state-of-the-art anomaly detection methods in identifying contextual anomalies in terms of accuracy and interpretability.
翻訳日:2023-05-01 17:03:08 公開日:2023-04-28
# 図形解析による文節付き多モードニューラルネットワーク幾何解法

A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from Diagram ( http://arxiv.org/abs/2302.11097v2 )

ライセンス: Link先を確認
Ming-Liang Zhang, Fei Yin, Cheng-Lin Liu(参考訳) 幾何問題の解法(GPS)は、多モード融合と幾何学的知識応用の能力を必要とする高レベルの数学的推論である。 近年、ニューラルソルバはGPSに大きな可能性を示しているが、図示やモーダル融合では依然として不足している。 本研究では,図を基本文節に変換し,図の特徴を効果的に記述し,マルチモーダル情報を効率的に融合するPGPSNetと呼ばれるニューラルソルバを提案する。 構造的および意味的な事前学習、データ拡張、自己制限デコーディングを組み合わせることで、PGPSNetは幾何学定理と幾何学的表現の豊富な知識が与えられ、幾何学的理解と推論を促進する。 さらに,GPSの研究を容易にするため,PGPS9Kと呼ばれる大規模かつ微細なGPSデータセットを構築し,詳細な図形アノテーションと解釈可能な解プログラムをラベル付けした。 PGPS9Kと既存のデータセットGeometry3Kの実験は、最先端のニューラルソルバよりも、我々の手法の優位性を検証する。 我々のコード、データセット、付録資料は \url{https://github.com/mingliangzhang2018/PGPS} で入手できる。

Geometry problem solving (GPS) is a high-level mathematical reasoning requiring the capacities of multi-modal fusion and geometric knowledge application. Recently, neural solvers have shown great potential in GPS but still be short in diagram presentation and modal fusion. In this work, we convert diagrams into basic textual clauses to describe diagram features effectively, and propose a new neural solver called PGPSNet to fuse multi-modal information efficiently. Combining structural and semantic pre-training, data augmentation and self-limited decoding, PGPSNet is endowed with rich knowledge of geometry theorems and geometric representation, and therefore promotes geometric understanding and reasoning. In addition, to facilitate the research of GPS, we build a new large-scale and fine-annotated GPS dataset named PGPS9K, labeled with both fine-grained diagram annotation and interpretable solution program. Experiments on PGPS9K and an existing dataset Geometry3K validate the superiority of our method over the state-of-the-art neural solvers. Our code, dataset and appendix material are available at \url{https://github.com/mingliangzhang2018/PGPS}.
翻訳日:2023-05-01 17:02:52 公開日:2023-04-28
# 大規模言語モデルを用いたプログラム構文誤りに対する高精度フィードバックの生成

Generating High-Precision Feedback for Programming Syntax Errors using Large Language Models ( http://arxiv.org/abs/2302.04662v2 )

ライセンス: Link先を確認
Tung Phung, Jos\'e Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares(参考訳) Codexのような大規模言語モデル(LLM)は、学生のフィードバックを自動的に生成することで、プログラミング教育の強化に大いに貢献する。 導入プログラミングにおける重要なシナリオであるPythonプログラムの構文エラー修正のためのフィードバックを生成するために,LLMを用いて検討する。 より具体的には、学生のバギープログラムを考えると、私たちのゴールは、人間の教師がフィードバックを与える方法にインスパイアされた、エラー/修正を説明する自然言語とともに、固定プログラムを含むフィードバックを生成することです。 LLMを使うことは有望であるが、重要な課題は、このような技術を教室に展開する前に必須となる、生成したフィードバックの高精度を確保することである。 私たちが研究している主な研究課題は、学習者によるフィードバックの質管理を実現するために、調整可能な精度パラメータを用いたLLMベースのフィードバック生成技術を開発することができるか? そこで我々は,Codexを利用した高精度フィードバック生成技術であるPyFiXVを紹介する。 PyFiXVの背景にある重要な考え方は、新しい実行時の検証メカニズムを使用して、生成されたフィードバックが学生と共有するのに適しているかを判断することである。 構文エラーのあるPythonプログラムの2つの実世界のデータセットを用いて広範囲な評価を行い,PyFiXVの有効性を示す。

Large language models (LLMs), such as Codex, hold great promise in enhancing programming education by automatically generating feedback for students. We investigate using LLMs to generate feedback for fixing syntax errors in Python programs, a key scenario in introductory programming. More concretely, given a student's buggy program, our goal is to generate feedback comprising a fixed program along with a natural language explanation describing the errors/fixes, inspired by how a human tutor would give feedback. While using LLMs is promising, the critical challenge is to ensure high precision in the generated feedback, which is imperative before deploying such technology in classrooms. The main research question we study is: Can we develop LLMs-based feedback generation techniques with a tunable precision parameter, giving educators quality control over the feedback that students receive? To this end, we introduce PyFiXV, our technique to generate high-precision feedback powered by Codex. The key idea behind PyFiXV is to use a novel run-time validation mechanism to decide whether the generated feedback is suitable for sharing with the student; notably, this validation mechanism also provides a precision knob to educators. We perform an extensive evaluation using two real-world datasets of Python programs with syntax errors and show the efficacy of PyFiXV in generating high-precision feedback.
翻訳日:2023-05-01 17:01:32 公開日:2023-04-28
# グラフ上の生成拡散モデル:方法と応用

Generative Diffusion Models on Graphs: Methods and Applications ( http://arxiv.org/abs/2302.02591v2 )

ライセンス: Link先を確認
Chengyi Liu, Wenqi Fan, Yunqing Liu, Jiatong Li, Hang Li, Hui Liu, Jiliang Tang, Qing Li(参考訳) 拡散モデルは、新しい生成パラダイムとして、画像インペインティング、画像からテキストへの翻訳、ビデオ生成といった様々な画像生成タスクで顕著な成功を収めている。 グラフ生成は多くの実世界のアプリケーションを持つグラフ上で重要な計算タスクである。 与えられたグラフの分布を学習し、新しいグラフを生成することを目的としている。 画像生成における拡散モデルの大きな成功を考えると、近年、これらの技術を活用してグラフ生成を推し進める努力が増えている。 本稿ではまず,グラフ上の生成拡散モデルの概要について概説する。特に,グラフ拡散モデルの3つの変種,すなわち,Score Matching with Langevin Dynamics (SMLD), Denoising Diffusion Probabilistic Model (DDPM), Score-based Generative Model (SGM)の代表的なアルゴリズムについて述べる。 次に、分子とタンパク質のモデリングに特に焦点をあてたグラフ上の生成拡散モデルの主な応用を概説する。 最後に,グラフ構造データの生成拡散モデルにおける有望な方向について論じる。

Diffusion models, as a novel generative paradigm, have achieved remarkable success in various image generation tasks such as image inpainting, image-to-text translation, and video generation. Graph generation is a crucial computational task on graphs with numerous real-world applications. It aims to learn the distribution of given graphs and then generate new graphs. Given the great success of diffusion models in image generation, increasing efforts have been made to leverage these techniques to advance graph generation in recent years. In this paper, we first provide a comprehensive overview of generative diffusion models on graphs, In particular, we review representative algorithms for three variants of graph diffusion models, i.e., Score Matching with Langevin Dynamics (SMLD), Denoising Diffusion Probabilistic Model (DDPM), and Score-based Generative Model (SGM). Then, we summarize the major applications of generative diffusion models on graphs with a specific focus on molecule and protein modeling. Finally, we discuss promising directions in generative diffusion models on graph-structured data.
翻訳日:2023-05-01 17:00:59 公開日:2023-04-28
# 時間的注意機構に基づく中期風力予測のための新しい枠組み

A novel framework for medium-term wind power prediction based on temporal attention mechanisms ( http://arxiv.org/abs/2302.01222v3 )

ライセンス: Link先を確認
Meiyu Jiang, Xuetao Jiang, Rui Zhou and Qingguo Zhou(参考訳) 風力エネルギーは広く分布し、リサイクル可能で環境に優しいエネルギー源であり、地球温暖化とエネルギー不足の緩和に重要な役割を果たしている。 風力エネルギーの不確実性と変動する性質は、大規模な風力エネルギーシステムのグリッド統合を困難にしている。 中期風力予測はエネルギー供給に不可欠な基盤となりうるため、正確な風力予測が不可欠である。 近年、多くの研究が成果を上げている。 しかし、それらの多くは、他のデータに適用する際に追加の実験と分析を必要とする。 本稿では,木構造パーゼン推定器(TPE)と分解アルゴリズムによる新しい短期予測フレームワークを提案する。 本フレームワークは,変分モード分解(VMD)と時間融合変圧器(TFT)に基づいて,24時間および48時間先進風力予測のためのTPE-VMD-TFT法を定義する。 フランスの電力会社による風速データセットにおいて,提案手法は予測精度を大幅に向上させることを示した。 さらに、提案されたフレームワークは、他の分解アルゴリズムで使用することができ、モデルトレーニングで手作業がほとんど必要ない。

Wind energy is a widely distributed, recyclable and environmentally friendly energy source that plays an important role in mitigating global warming and energy shortages. Wind energy's uncertainty and fluctuating nature makes grid integration of large-scale wind energy systems challenging. Medium-term wind power forecasts can provide an essential basis for energy dispatch, so accurate wind power forecasts are essential. Much research has yielded excellent results in recent years. However, many of them require additional experimentation and analysis when applied to other data. In this paper, we propose a novel short-term forecasting framework by tree-structured parzen estimator (TPE) and decomposition algorithms. This framework defines the TPE-VMD-TFT method for 24-h and 48-h ahead wind power forecasting based on variational mode decomposition (VMD) and time fusion transformer (TFT). In the Engie wind dataset from the electricity company in France, the results show that the proposed method significantly improves the prediction accuracy. In addition, the proposed framework can be used to other decomposition algorithms and require little manual work in model training.
翻訳日:2023-05-01 17:00:40 公開日:2023-04-28
# 効率的な音声対話生成のための統一圧縮フレームワーク

A Unified Compression Framework for Efficient Speech-Driven Talking-Face Generation ( http://arxiv.org/abs/2304.00471v2 )

ライセンス: Link先を確認
Bo-Kyeong Kim, Jaemin Kang, Daeun Seo, Hancheol Park, Shinkook Choi, Hyoung-Kyu Song, Hyungshin Kim, Sungsu Lim(参考訳) 仮想人間は多くの産業、例えばエンターテイメントやeコマースで注目を集めている。 中心となる技術として、ターゲット音声と顔の同一性からフォトリアリスティックな顔フレームを合成する手法が、生成的敵ネットワークで積極的に研究されている。 現代の対面生成モデルの顕著な結果にもかかわらず、それらはしばしば高い計算負担を伴い、効率的な展開を制限する。 本研究の目的は,音声対話型音声合成のための軽量モデルの開発である。 我々は,残余ブロックを除去し,一般的な音声生成装置であるWav2Lipからチャネル幅を小さくすることで,コンパクトなジェネレータを構築する。 また, 小容量発電機の安定的かつ効果的に, 逆学習を伴わない知識蒸留方式を提案する。 我々は、元のモデルの性能を維持しながら、パラメータとmacの数を28$\times$に削減する。 さらに,全ジェネレータをINT8精度に変換する際の性能低下を軽減するために,FP16を量子化に敏感な層に,INT8を他の層に,選択的な量子化手法を採用する。 この混合精度を用いて、生成品質を著しく損なうことなく、エッジGPU上で最大19$\times$スピードアップを達成する。

Virtual humans have gained considerable attention in numerous industries, e.g., entertainment and e-commerce. As a core technology, synthesizing photorealistic face frames from target speech and facial identity has been actively studied with generative adversarial networks. Despite remarkable results of modern talking-face generation models, they often entail high computational burdens, which limit their efficient deployment. This study aims to develop a lightweight model for speech-driven talking-face synthesis. We build a compact generator by removing the residual blocks and reducing the channel width from Wav2Lip, a popular talking-face generator. We also present a knowledge distillation scheme to stably yet effectively train the small-capacity generator without adversarial learning. We reduce the number of parameters and MACs by 28$\times$ while retaining the performance of the original model. Moreover, to alleviate a severe performance drop when converting the whole generator to INT8 precision, we adopt a selective quantization method that uses FP16 for the quantization-sensitive layers and INT8 for the other layers. Using this mixed precision, we achieve up to a 19$\times$ speedup on edge GPUs without noticeably compromising the generation quality.
翻訳日:2023-05-01 16:53:48 公開日:2023-04-28
# ランダム特徴ホップフィールドモデルにおける記憶と学習相転移

Storage and Learning phase transitions in the Random-Features Hopfield Model ( http://arxiv.org/abs/2303.16880v2 )

ライセンス: Link先を確認
Matteo Negri, Clarissa Lauditi, Gabriele Perugini, Carlo Lucibello, Enrico Malatesta(参考訳) ホップフィールドモデルはニューラルネットワークのパラダイムモデルであり、統計物理学、神経科学、機械学習のコミュニティで何十年も研究されてきた。 機械学習における多様体仮説に着想を得て、ランダム特徴ホップフィールドモデルと呼ばれる標準設定の一般化を提案し、検討する。 ここで$p$ の長さのバイナリパターン $n$ は、ランダム射影の次元 $d$ の潜在空間でサンプリングされたガウスベクトルに非線形性を適用することによって生成される。 統計物理学からレプリカ法を用いて、固定比$\alpha=P/N$と$\alpha_D=D/N$の極限でモデルの位相図を導出する。 通常の検索フェーズの他に,初期の腐敗からパターンを動的に復元することができるため,その代わりにプロジェクションの特徴を特徴付ける新たなフェーズを明らかにする。 我々はこの現象を学習相転移と呼び、特徴がモデルに明示的に与えられるのではなく、教師なしの方法でパターンから推測される。

The Hopfield model is a paradigmatic model of neural networks that has been analyzed for many decades in the statistical physics, neuroscience, and machine learning communities. Inspired by the manifold hypothesis in machine learning, we propose and investigate a generalization of the standard setting that we name Random-Features Hopfield Model. Here $P$ binary patterns of length $N$ are generated by applying to Gaussian vectors sampled in a latent space of dimension $D$ a random projection followed by a non-linearity. Using the replica method from statistical physics, we derive the phase diagram of the model in the limit $P,N,D\to\infty$ with fixed ratios $\alpha=P/N$ and $\alpha_D=D/N$. Besides the usual retrieval phase, where the patterns can be dynamically recovered from some initial corruption, we uncover a new phase where the features characterizing the projection can be recovered instead. We call this phenomena the learning phase transition, as the features are not explicitly given to the model but rather are inferred from the patterns in an unsupervised fashion.
翻訳日:2023-05-01 16:53:11 公開日:2023-04-28
# グラフニューラルネットワークによる粒子物理過程の位相再構成

Topological Reconstruction of Particle Physics Processes using Graph Neural Networks ( http://arxiv.org/abs/2303.13937v3 )

ライセンス: Link先を確認
Lukas Ehrke, John Andrew Raine, Knut Zoch, Manuel Guth, Tobias Golling(参考訳) 本稿では,粒子の減衰とメッセージパッシンググラフニューラルネットワークの柔軟性を基礎として,中間粒子を含む基礎となる物理過程を再構築する新しい手法であるtopographを提案する。 トポグラフは観測された最終状態天体の組合せ的な割り当てを解き、元の母粒子と関連付けるだけでなく、ハード散乱過程における中間粒子の性質とそれに続く崩壊を直接予測する。 グラフニューラルネットワークを用いた標準的なコンビネータアプローチや現代的なアプローチと比較すると、グラフの複雑さは再構成されたオブジェクトの数と線形にスケールする。 我々は、全ハドロン減衰チャネルにおけるトップクォーク対生成にトポグラフを適用し、標準手法より優れ、最先端の機械学習技術の性能に適合する。

We present a new approach, the Topograph, which reconstructs underlying physics processes, including the intermediary particles, by leveraging underlying priors from the nature of particle physics decays and the flexibility of message passing graph neural networks. The Topograph not only solves the combinatoric assignment of observed final state objects, associating them to their original mother particles, but directly predicts the properties of intermediate particles in hard scatter processes and their subsequent decays. In comparison to standard combinatoric approaches or modern approaches using graph neural networks, which scale exponentially or quadratically, the complexity of Topographs scales linearly with the number of reconstructed objects. We apply Topographs to top quark pair production in the all hadronic decay channel, where we outperform the standard approach and match the performance of the state-of-the-art machine learning technique.
翻訳日:2023-05-01 16:52:52 公開日:2023-04-28
# dr.cpo:反復構成,ランダム配置,hpr閉塞による多様かつ現実的な3次元拡張

DR.CPO: Diversified and Realistic 3D Augmentation via Iterative Construction, Random Placement, and HPR Occlusion ( http://arxiv.org/abs/2303.12743v2 )

ライセンス: Link先を確認
Jungwook Shin, Jaeill Kim, Kyungeun Lee, Hyunghun Cho, Wonjong Rhee(参考訳) 自動運転では、データ拡張は3dオブジェクト検出を改善するために一般的に使用される。 最も基本的な方法は、コピーされたオブジェクトの挿入とトレーニングフレーム全体の回転とスケーリングである。 多くのバリエーションも開発されている。 しかし、既存の手法は現実世界の様々な可能性と比較してかなり制限されている。 本研究では,物体全体を柔軟に構築し,自由な位置と回転を可能とし,それに応じて自己閉塞と外部閉塞を適用可能な,多種多様で現実的な拡張法を開発する。 物体全体の多様性を向上させるため,実世界から観測された複数の物体を1つの物体に確率的に結合する反復手法を開発した。 既存の拡張法と異なり、最終段階において適切な咬合を全身に反映できるため、構築された物体をトレーニングフレーム内にランダムに配置して回転させることができる。 最後に、各局所オブジェクトレベルでの適切な自己閉塞とグローバルフレームレベルでの外部閉塞を、計算効率のよい隠れポイント除去(HPR)アルゴリズムを用いて適用する。 また、HPRはLiDARからの距離に応じて各物体の点密度を適応的に制御するためにも用いられる。 実験の結果,DR.CPOアルゴリズムは計算オーバーヘッドを発生させることなく,データ効率とモデルに依存しないことがわかった。 また、dr.cpoはkittiデータセットで知られている最良の3d検出結果と比較して、地図のパフォーマンスを2.08%向上できる。 コードはhttps://github.com/SNU-DRL/DRCPO.gitで公開されている。

In autonomous driving, data augmentation is commonly used for improving 3D object detection. The most basic methods include insertion of copied objects and rotation and scaling of the entire training frame. Numerous variants have been developed as well. The existing methods, however, are considerably limited when compared to the variety of the real world possibilities. In this work, we develop a diversified and realistic augmentation method that can flexibly construct a whole-body object, freely locate and rotate the object, and apply self-occlusion and external-occlusion accordingly. To improve the diversity of the whole-body object construction, we develop an iterative method that stochastically combines multiple objects observed from the real world into a single object. Unlike the existing augmentation methods, the constructed objects can be randomly located and rotated in the training frame because proper occlusions can be reflected to the whole-body objects in the final step. Finally, proper self-occlusion at each local object level and external-occlusion at the global frame level are applied using the Hidden Point Removal (HPR) algorithm that is computationally efficient. HPR is also used for adaptively controlling the point density of each object according to the object's distance from the LiDAR. Experiment results show that the proposed DR.CPO algorithm is data-efficient and model-agnostic without incurring any computational overhead. Also, DR.CPO can improve mAP performance by 2.08% when compared to the best 3D detection result known for KITTI dataset. The code is available at https://github.com/SNU-DRL/DRCPO.git
翻訳日:2023-05-01 16:52:36 公開日:2023-04-28
# Uni3D:マルチデータセット3Dオブジェクト検出のための統一ベースライン

Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection ( http://arxiv.org/abs/2303.06880v2 )

ライセンス: Link先を確認
Bo Zhang, Jiakang Yuan, Botian Shi, Tao Chen, Yikang Li, Yu Qiao(参考訳) 現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。 本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。 これは、データ集合が、異なるlidarタイプとデータ取得標準によって引き起こされる、実質的なデータレベルの差異と分類学的レベルのバリエーションをもたらすためである。 このような観察から着想を得たuni3dは,単純なデータレベル補正操作と設計したセマンティックレベル結合・再結合モジュールを用いて,それぞれ避けられないデータレベルと分類レベルの差異を緩和する。 本手法は,PV-RCNNやVoxel-RCNNなどの多くの3Dオブジェクト検出ベースラインと簡単に組み合わせられ,複数の既製の3Dデータセットから効果的に学習し,より識別的で一般化可能な表現を得ることができる。 Waymo-nuScenes、nuScenes-KITTI、Waymo-KITTI、Waymo-nuScenes-KITTIの統合など、多くのデータセット統合環境で実験が行われている。 これらの結果は、uni3dが1つのデータセットで訓練された一連の個々の検出器を上回り、選択されたベースライン検出器よりも1.04倍のパラメータが増加することを示している。 この研究は知覚性能の限界を推し進めるため、3D一般化の研究を刺激することを期待している。

Current 3D object detection models follow a single dataset-specific training and testing paradigm, which often faces a serious detection accuracy drop when they are directly deployed in another dataset. In this paper, we study the task of training a unified 3D detector from multiple datasets. We observe that this appears to be a challenging task, which is mainly due to that these datasets present substantial data-level differences and taxonomy-level variations caused by different LiDAR types and data acquisition standards. Inspired by such observation, we present a Uni3D which leverages a simple data-level correction operation and a designed semantic-level coupling-and-recoupling module to alleviate the unavoidable data-level and taxonomy-level differences, respectively. Our method is simple and easily combined with many 3D object detection baselines such as PV-RCNN and Voxel-RCNN, enabling them to effectively learn from multiple off-the-shelf 3D datasets to obtain more discriminative and generalizable representations. Experiments are conducted on many dataset consolidation settings including Waymo-nuScenes, nuScenes-KITTI, Waymo-KITTI, and Waymo-nuScenes-KITTI consolidations. Their results demonstrate that Uni3D exceeds a series of individual detectors trained on a single dataset, with a 1.04x parameter increase over a selected baseline detector. We expect this work will inspire the research of 3D generalization since it will push the limits of perceptual performance.
翻訳日:2023-05-01 16:51:47 公開日:2023-04-28
# 再帰型DRAGによるクロス共振ゲートのコヒーレント誤差の抑制

Suppression of coherent errors in Cross-Resonance gates via recursive DRAG ( http://arxiv.org/abs/2303.01427v2 )

ライセンス: Link先を確認
Boxi Li, Tommaso Calarco, Felix Motzoi(参考訳) 量子論理演算の高精度制御は、量子プロセッサの回路深度を増大させ、有用な量子アルゴリズムを実装し、フォールトトレラントなスケーラブルアーキテクチャに達するための前提条件である。 ゲートの絡み合いに使用されるユビキタスなアプローチは超伝導量子ビットの全てのマイクロウェーブ制御であり、主にクロス共振2量子ビットゲートを使用している。 ここでは、制御量子ビット上の3つの非共振遷移と不要な2ビット回転演算子の両方を抑制し、クロス共振ゲートの忠実度を著しく向上させる解析手法を導出する。 これにより、研究されたすべてのパラメータレジームにわたって、総コヒーレントエラーを1から3桁削減する。 提案手法では,対応する2レベル部分空間の各スプリアス結合に対して導出されるDRAGパルスの簡単な再帰的合成と,目標量子ビットに共振的に適用した補正トーンを用い,追加の制御ハードウェアオーバーヘッドを伴わない。

The high-precision control of quantum logical operations is a prerequisite to increasing circuit depths in quantum processors, implementing useful quantum algorithms, and reaching fault-tolerant scalable architectures. A ubiquitous approach used for entangling gates has been all-microwave control of superconducting qubits, primarily using the Cross-Resonance two-qubit gate; however, fidelities are still limited by control imperfections. Here, we derive an analytical method that significantly improves fidelities in Cross-Resonance gates, suppressing both the three off-resonant transitions on the control qubit and unwanted two-qubit rotation operators. This reduces the total coherent errors by one to three orders of magnitude across all parameter regimes studied. Our approach uses a simple recursive composition of DRAG pulses derived for each spurious coupling in the corresponding two-level subspace and a correction tone applied resonantly on the target qubit, requiring no additional control hardware overhead.
翻訳日:2023-05-01 16:50:26 公開日:2023-04-28
# 位相材料からの点ギャップ位相の普遍的プラットフォーム

Universal platform of point-gap topological phases from topological materials ( http://arxiv.org/abs/2304.08110v2 )

ライセンス: Link先を確認
Daichi Nakamura, Kazuya Inaka, Nobuyuki Okuma, Masatoshi Sato(参考訳) 点ギャップ位相は非エルミート系に固有の例外現象の原因であるが、量子材料におけるそれらの実現はいまだ解明されていない。 ここでは、エルミートトポロジカル絶縁体と超伝導体から構築された点ギャップ位相の単純で普遍的なプラットフォームを提案する。 d-次元位相絶縁体と超伝導体の境界を散逸させることにより(d-1)次元の点ギャップ位相相を実現する。 この提案の重要な観察は、D次元トポロジカル絶縁体と超伝導体における境界モードに崩壊定数を加えることは、(d-1)次元ポイントギャップトポロジカル位相を境界に取り付けることと位相的に等価であるということである。 さらに、散逸的なギャップレスモードを点ギャップ位相数に関連付けるNielsen-Ninomiya定理の拡張版から提案をさらに確立する。 点ギャップ位相のバルク境界対応から、点ギャップ位相は例外的な境界状態または高次非エルミート皮膚効果を示す。

Whereas point-gap topological phases are responsible for exceptional phenomena intrinsic to non-Hermitian systems, their realization in quantum materials is still elusive. Here we propose a simple and universal platform of point-gap topological phases constructed from Hermitian topological insulators and superconductors. We show that (d-1)-dimensional point-gap topological phases are realized by making a boundary in d-dimensional topological insulators and superconductors dissipative. A crucial observation of the proposal is that adding a decay constant to boundary modes in d-dimensional topological insulators and superconductors is topologically equivalent to attaching a (d-1)-dimensional point-gap topological phase to the boundary. We furthermore establish the proposal from the extended version of the Nielsen-Ninomiya theorem, relating dissipative gapless modes to point-gap topological numbers. From the bulk-boundary correspondence of the point-gap topological phases, the resultant point-gap topological phases exhibit exceptional boundary states or in-gap higher-order non-Hermitian skin effects.
翻訳日:2023-05-01 16:44:53 公開日:2023-04-28
# ChatPLUG: オープンドメイン生成対話システム

ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented Instruction Tuning for Digital Human ( http://arxiv.org/abs/2304.07849v2 )

ライセンス: Link先を確認
Junfeng Tian, Hehong Chen, Guohai Xu, Ming Yan, Xing Gao, Jianhai Zhang, Chenliang Li, Jiayi Liu, Wenshen Xu, Haiyang Xu, Qi Qian, Wei Wang, Qinghao Ye, Jiejing Zhang, Ji Zhang, Fei Huang, Jingren Zhou(参考訳) 本稿では,デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムChatPLUGについて述べる。 大規模事前学習やモデルサイズや対話コーパスのスケールアップに焦点を当てた他のオープンドメイン対話モデルと異なり,多種多様なスキルを持つデジタル人間のための強力で実用的な対話システムを構築することを目的としている。 そこで我々はまず,共通文書コーパスと対話データとカリキュラム学習を併用した大規模事前学習を行い,さまざまな世界知識と対話能力をChatPLUGに注入する。 そこで我々は,知識,個性,マルチターンメモリ,共感といった多様な特徴にまたがる幅広い対話タスクを収集し,その上で,統一された自然言語命令テンプレートを用いて,モデル名のチューニングをさらに進める。 インターネット検索からの外部知識は、知識幻覚の問題を緩和するための教示微調整にも使用される。 自動評価と人間評価の両方において, \modelname は最先端の中国語対話システムよりも優れており,様々なテキスト理解と生成タスクにおいて,強力なマルチタスク一般化を示す。 さらに、高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような現実世界のアプリケーションに \modelname をデプロイします。 私たちのモデルとコードは、ModelScope~\footnote{\small{https://modelscope.cn/models/damo/ChatPLUG-3.7B}} とGithub~\footnote{\small{https://github.com/X-PLUG/ChatPLUG}}で公開されます。

In this paper, we present ChatPLUG, a Chinese open-domain dialogue system for digital human applications that instruction finetunes on a wide range of dialogue tasks in a unified internet-augmented format. Different from other open-domain dialogue models that focus on large-scale pre-training and scaling up model size or dialogue corpus, we aim to build a powerful and practical dialogue system for digital human with diverse skills and good multi-task generalization by internet-augmented instruction tuning. To this end, we first conduct large-scale pre-training on both common document corpus and dialogue data with curriculum learning, so as to inject various world knowledge and dialogue abilities into ChatPLUG. Then, we collect a wide range of dialogue tasks spanning diverse features of knowledge, personality, multi-turn memory, and empathy, on which we further instruction tune \modelname via unified natural language instruction templates. External knowledge from an internet search is also used during instruction finetuning for alleviating the problem of knowledge hallucinations. We show that \modelname outperforms state-of-the-art Chinese dialogue systems on both automatic and human evaluation, and demonstrates strong multi-task generalization on a variety of text understanding and generation tasks. In addition, we deploy \modelname to real-world applications such as Smart Speaker and Instant Message applications with fast inference. Our models and code will be made publicly available on ModelScope~\footnote{\small{https://modelscope.cn/models/damo/ChatPLUG-3.7B}} and Github~\footnote{\small{https://github.com/X-PLUG/ChatPLUG}}.
翻訳日:2023-05-01 16:44:34 公開日:2023-04-28
# Data-OOB: シンプルで効率的なデータ値として推定されるアウトオブバッグ

Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value ( http://arxiv.org/abs/2304.07718v2 )

ライセンス: Link先を確認
Yongchan Kwon, James Zou(参考訳) データバリュエーション(data valuation)は、モデルトレーニングに有用なデータや有害なデータに関する統計的な洞察を提供するための強力なフレームワークである。 多くのShapleyベースのデータ評価手法は、様々な下流タスクにおいて有望な結果を示しているが、多くのモデルをトレーニングする必要があるため、計算的に困難であることが知られている。 その結果、大規模なデータセットに適用することは不可能であると認識されている。 そこで本研究では,バッグ外推定を用いたバッグモデルのためのデータ評価手法であるData-OOBを提案する。 提案手法は計算効率が高く,訓練された弱学習者を用いて数百万データにスケールできる。 具体的には、Data-OOBは、評価するために10^6$のサンプルがあり、入力次元が100である場合、1つのCPUプロセッサ上で2.25時間未満である。 さらに、data-oob は、2つの異なる点を比較した場合の無限小jackknife影響関数と同じ重要なデータポイントを識別する、という理論的な解釈を持っている。 数千のサンプルサイズを持つ12の分類データセットを用いて,包括的な実験を行った。 提案手法は,既存のデータ評価手法を著しく上回っており,誤ラベルデータを特定し,有用な(あるいは有害な)データポイントのセットを見つけ,実世界のアプリケーションでデータ値を適用する可能性を強調している。

Data valuation is a powerful framework for providing statistical insights into which data are beneficial or detrimental to model training. Many Shapley-based data valuation methods have shown promising results in various downstream tasks, however, they are well known to be computationally challenging as it requires training a large number of models. As a result, it has been recognized as infeasible to apply to large datasets. To address this issue, we propose Data-OOB, a new data valuation method for a bagging model that utilizes the out-of-bag estimate. The proposed method is computationally efficient and can scale to millions of data by reusing trained weak learners. Specifically, Data-OOB takes less than 2.25 hours on a single CPU processor when there are $10^6$ samples to evaluate and the input dimension is 100. Furthermore, Data-OOB has solid theoretical interpretations in that it identifies the same important data point as the infinitesimal jackknife influence function when two different points are compared. We conduct comprehensive experiments using 12 classification datasets, each with thousands of sample sizes. We demonstrate that the proposed method significantly outperforms existing state-of-the-art data valuation methods in identifying mislabeled data and finding a set of helpful (or harmful) data points, highlighting the potential for applying data values in real-world applications.
翻訳日:2023-05-01 16:44:00 公開日:2023-04-28
# モデル所有者決定に対する虚偽の主張

False Claims against Model Ownership Resolution ( http://arxiv.org/abs/2304.06607v2 )

ライセンス: Link先を確認
Jian Liu, Rui Zhang, Sebastian Szyller, Kui Ren, N.Asokan(参考訳) ディープニューラルネットワーク(DNN)モデルは、モデル所有者の貴重な知的特性であり、競争上の優位性を構成する。 したがって,モデル盗難から保護する技術を開発することが重要である。 モデルオーナシップ解決(mor: model ownership resolution)は、モデル盗難を抑止するテクニックのクラスである。 MORスキームにより、被疑者が被疑者モデルに対して、透かしや指紋などの証拠を提示することにより、被疑者が被疑者モデルから盗まれたか、又は被疑者が所有するソースモデルから引き出されたものであることを示す。 既存のmorスキームの多くは、悪意のある容疑者に対して堅牢性を優先し、容疑者モデルが実際に盗まれたモデルであれば、告発者が勝つことを保証している。 本稿では,文学における一般的なMORスキームが,異なる,等しく重要だが不十分な,頑健さの懸念に対して脆弱であることを示す。 我々は、悪質な告発者が、盗まれていない独立した容疑者モデルに対して、いかに偽の主張を行うかを示す。 我々の中核的な考え方は、悪意のある告発者は、独立した被疑者モデルに対する証拠としてうまく機能する(伝達可能な)逆例を見つけることによって、特定されたMORプロセスから(検出なしで)逸脱することができるということです。 この目的のために、まず共通のMORスキームの手順を一般化し、この一般化の下では、偽主張に対する防御は、(伝達可能な)逆例を防ぐのと同じくらい困難であることを示す。 体系的な実証的な評価によると、我々の偽のクレーム攻撃は、実世界のモデルであるAmazonのRekognition APIを含む、現実的な構成を持つすべての著名なMORスキームで常に成功している。

Deep neural network (DNN) models are valuable intellectual property of model owners, constituting a competitive advantage. Therefore, it is crucial to develop techniques to protect against model theft. Model ownership resolution (MOR) is a class of techniques that can deter model theft. A MOR scheme enables an accuser to assert an ownership claim for a suspect model by presenting evidence, such as a watermark or fingerprint, to show that the suspect model was stolen or derived from a source model owned by the accuser. Most of the existing MOR schemes prioritize robustness against malicious suspects, ensuring that the accuser will win if the suspect model is indeed a stolen model. In this paper, we show that common MOR schemes in the literature are vulnerable to a different, equally important but insufficiently explored, robustness concern: a malicious accuser. We show how malicious accusers can successfully make false claims against independent suspect models that were not stolen. Our core idea is that a malicious accuser can deviate (without detection) from the specified MOR process by finding (transferable) adversarial examples that successfully serve as evidence against independent suspect models. To this end, we first generalize the procedures of common MOR schemes and show that, under this generalization, defending against false claims is as challenging as preventing (transferable) adversarial examples. Via systematic empirical evaluation we demonstrate that our false claim attacks always succeed in all prominent MOR schemes with realistic configurations, including against a real-world model: Amazon's Rekognition API.
翻訳日:2023-05-01 16:43:37 公開日:2023-04-28
# 量子力学におけるベル作用素の表現について

On the representations of Bell's operators in Quantum Mechanics ( http://arxiv.org/abs/2304.05696v2 )

ライセンス: Link先を確認
Silvio Paolo Sorella(参考訳) ヒルベルト空間の次元が 2 より大きいとき、ベル=チェシュの不等式に入るベル作用素は同値なユニタリ行列表現を示す。 ベル-CHSHの不等式は違反されていることが判明したが、違反の大きさは異なる表現に対して異なり、最大の違反はツィレルソンの境界によって与えられる。 この特徴は系のヒルベルト空間のモード間のペアリング機構に依存している。

We point out that, when the dimension of the Hilbert space is greater than two, Bell's operators entering the Bell-CHSH inequality do exhibit inequivalent unitary matrix representations. Although the Bell-CHSH inequality turns out to be violated, the size of the violation is different for different representations, the maximum violation being given by Tsirelson's bound. The feature relies on a pairing mechanism between the modes of the Hilbert space of the system.
翻訳日:2023-05-01 16:43:07 公開日:2023-04-28
# chatClimate: 気候科学における会話型AI

chatClimate: Grounding Conversational AI in Climate Science ( http://arxiv.org/abs/2304.05510v2 )

ライセンス: Link先を確認
Saeid Ashraf Vaghefi, Qian Wang, Veruska Muccione, Jingwei Ni, Mathias Kraus, Julia Bingler, Tobias Schimanski, Chiara Colesanti-Senni, Nicolas Webersinke, Christrian Huggel, Markus Leippold(参考訳) 大規模言語モデル (LLM) は近年,質問応答タスク (QA) において顕著な成果を上げている。 しかし、彼らはまだ2つの大きな課題に直面している。 これらの課題は、気候変動のような重要な領域において、限られた時間で信頼できる情報源から正確かつ最新の情報を取得することが不可欠で困難である。 これらの障壁を克服するためには、LCMに外部、科学的に正確で堅牢なソース(長期記憶)へのアクセスを提供することで、その知識を継続的に更新し、不正確な、誤った、または時代遅れな情報の伝播を防ぐことができる。 本研究は,最も包括的で,最新かつ信頼性の高い資料であるIPCC AR6第6報の情報を統合することで,GPT-4を強化した。 講演AIのプロトタイプをwww.chatclimate.aiで公開し、3つの異なるQAシナリオで挑戦的な質問に正確に答える能力を示す。 1) GPT-4, 2) chatClimate および 3) ハイブリッドチャットClimate。 回答と情報源はIPCCの著者チームによって評価され、専門家の知識を用いて回答の精度を1(非常に低い)から5(非常に高い)に評価した。 評価の結果, ハイブリッドのchatClimateはより正確な回答を提供し, ソリューションの有効性を強調した。 このアプローチは特定のドメインのチャットボットに対して容易にスケールできるため、信頼性と正確な情報の配信が可能になる。

Large Language Models (LLMs) have made significant progress in recent years, achieving remarkable results in question-answering tasks (QA). However, they still face two major challenges: hallucination and outdated information after the training phase. These challenges take center stage in critical domains like climate change, where obtaining accurate and up-to-date information from reliable sources in a limited time is essential and difficult. To overcome these barriers, one potential solution is to provide LLMs with access to external, scientifically accurate, and robust sources (long-term memory) to continuously update their knowledge and prevent the propagation of inaccurate, incorrect, or outdated information. In this study, we enhanced GPT-4 by integrating the information from the Sixth Assessment Report of the Intergovernmental (IPCC AR6), the most comprehensive, up-to-date, and reliable source in this domain. We present our conversational AI prototype, available at www.chatclimate.ai and demonstrate its ability to answer challenging questions accurately in three different QA scenarios: asking from 1) GPT-4, 2) chatClimate, and 3) hybrid chatClimate. The answers and their sources were evaluated by our team of IPCC authors, who used their expert knowledge to score the accuracy of the answers from 1 (very-low) to 5 (very-high). The evaluation showed that the hybrid chatClimate provided more accurate answers, highlighting the effectiveness of our solution. This approach can be easily scaled for chatbots in specific domains, enabling the delivery of reliable and accurate information.
翻訳日:2023-05-01 16:42:59 公開日:2023-04-28
# ウォール街新生植物:マルチモーダルストックムーブメント予測問題に対するChatGPTのゼロショット分析

The Wall Street Neophyte: A Zero-Shot Analysis of ChatGPT Over MultiModal Stock Movement Prediction Challenges ( http://arxiv.org/abs/2304.05351v2 )

ライセンス: Link先を確認
Qianqian Xie, Weiguang Han, Yanzhao Lai, Min Peng, Jimin Huang(参考訳) 最近、chatgptのような大規模言語モデル(llm)は、様々な自然言語処理タスクで顕著な性能を示している。 しかし、金融分野におけるその効果、特に株式市場の動きの予測については検討が続けられている。 本稿では,マルチモーダル株式移動予測におけるchatgptの能力について,3つのツイートと過去の株価データセットを用いてゼロショット分析を行う。 その結果,chatgptは,最先端の手法だけでなく,価格特徴を用いた線形回帰法などの従来の手法にも劣るため,株価変動予測に限定された「ウォール街のネオファイト」であることがわかった。 ChatGPTは、Chain-of-Thoughtの戦略とツイートを含む可能性にもかかわらず、パフォーマンスは依然として劣っている。 さらに,その説明可能性と安定性の限界を観察し,より専門的なトレーニングや微調整の必要性を示唆した。 この研究は、ChatGPTの能力に関する洞察を提供し、ソーシャルメディアの感情と過去の株価データを活用することで、金融市場分析と予測の改善を目的とした将来の研究の基盤となる。

Recently, large language models (LLMs) like ChatGPT have demonstrated remarkable performance across a variety of natural language processing tasks. However, their effectiveness in the financial domain, specifically in predicting stock market movements, remains to be explored. In this paper, we conduct an extensive zero-shot analysis of ChatGPT's capabilities in multimodal stock movement prediction, on three tweets and historical stock price datasets. Our findings indicate that ChatGPT is a "Wall Street Neophyte" with limited success in predicting stock movements, as it underperforms not only state-of-the-art methods but also traditional methods like linear regression using price features. Despite the potential of Chain-of-Thought prompting strategies and the inclusion of tweets, ChatGPT's performance remains subpar. Furthermore, we observe limitations in its explainability and stability, suggesting the need for more specialized training or fine-tuning. This research provides insights into ChatGPT's capabilities and serves as a foundation for future work aimed at improving financial market analysis and prediction by leveraging social media sentiment and historical stock data.
翻訳日:2023-05-01 16:42:33 公開日:2023-04-28
# 超ロバスト非断熱ホロノミック量子ゲート

Accelerated Super-robust Nonadiabatic Holonomic Quantum Gates ( http://arxiv.org/abs/2304.01619v2 )

ライセンス: Link先を確認
P. Shen, Y. Liang, T. Chen, and Z.-Y. Xue(参考訳) ロンバダ型3レベルシステムに基づく非線形ホロノミック量子計算(NHQC)は、その一般的なエネルギー準位構造と幾何学的位相の固有ロバスト性のために、実験に広く適用可能である。 しかし、従来の NHQC スキームでは、計算部分空間の状態は常に非計算部分空間に漏れており、予想されるよりも堅牢性が低い。 この問題に対処するため,超ロバストな非線形ホロノミック量子計算 (SR-NHQC) 法を提案し,その有効性を実験的に実証した。 SR-NHQCはより堅牢な性能を持つが、過度に長いゲートタイムはデコヒーレンスを損なうため、実用上は非常に好ましくない。 本稿では,SR-NHQCの実装方法として,ゲート時間が長すぎるという問題を解決する手法を提案する。 3分割ハミルトニアンを用いて任意の1量子ゲートを実装し、ゲート時間が回転角に依存すると、回転角が小さくなるほど、ゲート時間が短くなる。 数値シミュレーションにより,提案方式のデコヒーレンス性能は従来の方式に比べて大幅に向上し,特に小角回転ゲートにおいて,本方式のロバスト性も向上していることが示された。 さらに, 超伝導回路に基づく物理実現理論を詳細に述べる。 したがって,本プロトコルは将来的なフォールトトレラント量子計算の代替として有望である。

The nonadiabatic holonomic quantum computation (NHQC) based on the $\Lambda$-type three-level system has wide applicability in experiments because of its popular energy level structure and inherent robustness of geometric phase. However, in the traditional NHQC scheme, the state of the calculation subspace has always leaked to the non-computation subspace, resulting in less robustness than anticipated. To address this problem, by imposing the super-robust condition, a super-robust nonadiabatic holonomic quantum computation (SR-NHQC) scheme was proposed with an experimental demonstration of its effectiveness. While SR-NHQC has better robust performance, its excessively long gate time leads to poor decoherence, making it quite unfavorable in practical applications. Here, we propose another scheme to implement SR-NHQC, solving the problem of the gate time being too long in the previous scheme. We implement arbitrary single-qubit gates via a three-segment Hamiltonian, where the gate time depends on the rotation angle, and the smaller the rotation angle, the shorter the gate time. Our numerical simulations show that the decoherence performance of our scheme is greatly improved compared to previous schemes, and the robustness of our scheme is also better, particularly for small-angle rotation gates. Moreover, we provide a detailed physical realization theoretical scheme based on superconducting circuits. Therefore, our protocol provides a more promising alternative for future fault-tolerant quantum computation.
翻訳日:2023-05-01 16:42:13 公開日:2023-04-28
# 一次元ボゾン系におけるKac-Moody対称性

Kac-Moody symmetries in one-dimensional bosonic systems ( http://arxiv.org/abs/2304.00609v2 )

ライセンス: Link先を確認
Wei Tang, Jutho Haegeman(参考訳) 共形場の理論では、共形対称性が大域的なリー群対称性によって強化されたとき、元のヴィラソロ代数はカック・ムーディ代数に拡張できる。 本稿では,[Wang et al., Phys. B. 106, 115111 (2022)]で導入されたKac-Moodyジェネレータの格子構造を連続系に拡張し, 一次元連続ボソン系に適用する。 我々は、カク・ムーディー・ジェネレータのこの微細構造を2つの方法で正当化する。 まず、現象的ボゾン化を通じて、共形場理論におけるKac-Moody生成と関連するボゾン化文脈におけるボゾン作用素の観点から、微視的な構造を表現する。 次に,可積分リーブ・ライニガーモデルにおけるKac-Moody生成体の挙動について検討し,その基礎となる粒子ホール励起像をBetheアンザッツ溶液で明らかにした。 最後に, CMPSシミュレーションにおけるKac-Moodyジェネレータの計算を検証し, より困難な非可積分系への道を開く。

In conformal field theories, when the conformal symmetry is enhanced by a global Lie group symmetry, the original Virasoro algebra can be extended to the Kac-Moody algebra. In this paper, we extend the lattice construction of the Kac-Moody generators introduced in [Wang et al., Phys. Rev. B. 106, 115111 (2022)] to continuous systems and apply it to one-dimensional continuous boson systems. We justify this microscopic construction of Kac-Moody generators in two ways. First, through phenomenological bosonization, we express the microscopic construction in terms of the boson operators in the bosonization context, which can be related to the Kac-Moody generators in the conformal field theories. Second, we study the behavior of the Kac-Moody generators in the integrable Lieb-Liniger model, and reveal its underlying particle-hole excitation picture through the Bethe ansatz solutions. Finally, we test the computation of the Kac-Moody generator in the cMPS simulations, paving the way for more challenging non-integrable systems.
翻訳日:2023-05-01 16:41:44 公開日:2023-04-28
# 物理制約深層学習によるモジュラー化核検出器のラベルフリータイミング解析

Label-free timing analysis of modularized nuclear detectors with physics-constrained deep learning ( http://arxiv.org/abs/2304.11930v2 )

ライセンス: Link先を確認
Pengcheng Ai, Le Xiao, Zhi Deng, Yi Wang, Xiangming Sun, Guangming Huang, Dong Wang, Yulei Li, Xinchi Ran(参考訳) パルスタイミングは核実験において重要な話題であり、高エネルギー物理学から放射線イメージングまで幅広い応用がある。 高速アナログ-デジタルコンバータはますます発展し、アクセスしやすくなっているが、核検出器信号処理におけるその潜在的な用途とメリットは、部分的には十分に理解され、利用されていないタイミングアルゴリズムのため、まだ不明である。 本稿では,イベントデータのラベル付けを必要とせず,モジュール型核検出器のタイミング解析を行うための深層学習に基づく新しい手法を提案する。 個々の検出器の内部時間相関を利用して、特別に設計された正規化器を用いたラベルフリー損失関数を形成し、ニューラルネットワークの有意義かつ正確なマッピング関数へのトレーニングを監督する。 本手法が求める最適関数の存在を数学的に証明し,モデルの学習と校正のための体系的アルゴリズムを与える。 提案手法は2つの実験データセット上で検証される。 玩具実験では、ニューラルネットワークモデルは8.8 psの単一チャネル時間分解能を達成し、データセットのコンセプトドリフトに対して堅牢性を示す。 電磁カロリメータ実験では、いくつかのニューラルネットワークモデル(fc、cnn、lstm)が基礎となる物理的制約への適合性を示し、従来の手法に対する性能を判定するためにテストされている。 総じて,提案手法は理想的あるいはうるさい実験条件において良好に動作し,波形サンプルからの時間情報を良好かつ正確に回収する。

Pulse timing is an important topic in nuclear instrumentation, with far-reaching applications from high energy physics to radiation imaging. While high-speed analog-to-digital converters become more and more developed and accessible, their potential uses and merits in nuclear detector signal processing are still uncertain, partially due to associated timing algorithms which are not fully understood and utilized. In this paper, we propose a novel method based on deep learning for timing analysis of modularized nuclear detectors without explicit needs of labelling event data. By taking advantage of the inner time correlation of individual detectors, a label-free loss function with a specially designed regularizer is formed to supervise the training of neural networks towards a meaningful and accurate mapping function. We mathematically demonstrate the existence of the optimal function desired by the method, and give a systematic algorithm for training and calibration of the model. The proposed method is validated on two experimental datasets. In the toy experiment, the neural network model achieves the single-channel time resolution of 8.8 ps and exhibits robustness against concept drift in the dataset. In the electromagnetic calorimeter experiment, several neural network models (FC, CNN and LSTM) are tested to show their conformance to the underlying physical constraint and to judge their performance against traditional methods. In total, the proposed method works well in either ideal or noisy experimental condition and recovers the time information from waveform samples successfully and precisely.
翻訳日:2023-05-01 16:34:54 公開日:2023-04-28
# 視覚の主セマンティクス保存による画像テキスト検索

Image-text Retrieval via Preserving Main Semantics of Vision ( http://arxiv.org/abs/2304.10254v2 )

ライセンス: Link先を確認
Xu Zhang, Xinzheng Niu, Philippe Fournier-Viger, Xudong Dai(参考訳) 画像テキスト検索はクロスモーダル検索の主要なタスクの1つである。 このタスクに対するいくつかのアプローチは、画像とテキストを共通空間にマッピングし、2つのモダリティ間の対応を生成する。 しかし、画像の内容(セマンティックス)の豊かさのため、画像内の冗長な二次情報は偽の一致を引き起こす可能性がある。 本稿では,画像の主コンテンツに着目したモデルを支援するために,視覚意味損失(vsl)として実装する意味的最適化手法を提案する。 このアプローチは、人々が通常、メインコンテンツを記述することによって画像のコンテンツに注釈をつける方法にインスパイアされています。 これにより、画像に対応する注釈付きテキストを活用して、画像の主コンテンツのキャプチャをモデル支援し、二次コンテンツの負の影響を低減できる。 2つのベンチマークデータセット(MSCOCOとFlickr30K)の大規模な実験により,本手法の優れた性能が示された。 コードは、https://github.com/ZhangXu0963/VSLで入手できる。

Image-text retrieval is one of the major tasks of cross-modal retrieval. Several approaches for this task map images and texts into a common space to create correspondences between the two modalities. However, due to the content (semantics) richness of an image, redundant secondary information in an image may cause false matches. To address this issue, this paper presents a semantic optimization approach, implemented as a Visual Semantic Loss (VSL), to assist the model in focusing on an image's main content. This approach is inspired by how people typically annotate the content of an image by describing its main content. Thus, we leverage the annotated texts corresponding to an image to assist the model in capturing the main content of the image, reducing the negative impact of secondary content. Extensive experiments on two benchmark datasets (MSCOCO and Flickr30K) demonstrate the superior performance of our method. The code is available at: https://github.com/ZhangXu0963/VSL.
翻訳日:2023-05-01 16:33:40 公開日:2023-04-28
# 圧縮または圧縮しない -- 自己教師付き学習と情報理論:レビュー

To Compress or Not to Compress -- Self-Supervised Learning and Information Theory: A Review ( http://arxiv.org/abs/2304.09355v2 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv and Yann LeCun(参考訳) ディープニューラルネットワークは教師付き学習タスクにおいて顕著な性能を示しているが、大量のラベル付きデータを必要とする。 自己組織化学習は代替のパラダイムを提供し、明示的なラベルなしでモデルがデータから学習できるようにする。 情報理論はディープニューラルネットワークの理解と最適化に役立っている。 具体的には、情報ボトルネック原理を適用し、教師付き設定における圧縮と関連する情報保存のトレードオフを最適化する。 しかし,自己教師付き学習における最適な情報目標はいまだ不明である。 本稿では,情報理論の観点からの自己教師型学習への様々なアプローチをレビューし,自己教師型情報理論学習問題を定式化する統一フレームワークを提案する。 既存の研究をコヒーレントなフレームワークに統合し、最近の自己監督手法を調査し、研究の機会と課題を特定します。 さらに,情報理論量とその推定器の実証測定について論じる。 本稿では,情報理論,自己教師付き学習,深層ニューラルネットワークの交点を網羅的に検討する。

Deep neural networks have demonstrated remarkable performance in supervised learning tasks but require large amounts of labeled data. Self-supervised learning offers an alternative paradigm, enabling the model to learn from data without explicit labels. Information theory has been instrumental in understanding and optimizing deep neural networks. Specifically, the information bottleneck principle has been applied to optimize the trade-off between compression and relevant information preservation in supervised settings. However, the optimal information objective in self-supervised learning remains unclear. In this paper, we review various approaches to self-supervised learning from an information-theoretic standpoint and present a unified framework that formalizes the self-supervised information-theoretic learning problem. We integrate existing research into a coherent framework, examine recent self-supervised methods, and identify research opportunities and challenges. Moreover, we discuss empirical measurement of information-theoretic quantities and their estimators. This paper offers a comprehensive review of the intersection between information theory, self-supervised learning, and deep neural networks.
翻訳日:2023-05-01 16:32:59 公開日:2023-04-28
# ホッターは簡単:スピン量子ビット周波数の予期せぬ温度依存性

Hotter is easier: unexpected temperature dependence of spin qubit frequencies ( http://arxiv.org/abs/2304.12984v2 )

ライセンス: Link先を確認
Brennan Undseth, Oriol Pietx-Casas, Eline Raymenants, Mohammad Mehmandoost, Mateusz T. M\k{a}dzik, Stephan G.J. Philips, Sander L. de Snoo, David J. Michalak, Sergey V. Amitonov, Larysa Tryputen, Brian Paquelet Wuetz, Viviana Fezzi, Davide Degli Esposti, Amir Sammak, Giordano Scappucci, Lieven M. K. Vandersypen(参考訳) スピンベースの量子プロセッサのサイズと複雑さが大きくなるにつれて、高いフィダリティの維持とクロストークの最小化が量子アルゴリズムと誤り訂正プロトコルの実装の成功に不可欠となる。 特に最近の実験では、マイクロ波キュービット駆動に伴う過度な過渡的キュービット周波数シフトが強調されている。 オフ共振マイクロ波バーストをプリパルスしてデバイスを定常状態にし、測定に先立って待ち時間、キュービット固有のキャリブレーションなど、小さなデバイスに対する回避策は、デバイススケーラビリティに悪影響を及ぼす。 ここでは、この効果を理解し、克服する上で大きな進歩を遂げます。 マイクロ波とベースバンドの制御信号による観測周波数シフトと一致した混合室温度とスピンラーモア周波数の驚くべき非単調関係について報告する。 この装置を200mKで故意に動作させることは、キュービットコヒーレンスや単一キュービット忠実度ベンチマークを損なうことなく、有害な加熱効果を著しく抑制することを発見した。 さらに、系統的非マルコフクロストークは大幅に削減される。 本結果は,将来のスピンベース量子プロセッサのキャリブレーション手順を簡素化しつつ,マルチスピン制御の品質を向上させるための簡単な手段を提供する。

As spin-based quantum processors grow in size and complexity, maintaining high fidelities and minimizing crosstalk will be essential for the successful implementation of quantum algorithms and error-correction protocols. In particular, recent experiments have highlighted pernicious transient qubit frequency shifts associated with microwave qubit driving. Workarounds for small devices, including prepulsing with an off-resonant microwave burst to bring a device to a steady-state, wait times prior to measurement, and qubit-specific calibrations all bode ill for device scalability. Here, we make substantial progress in understanding and overcoming this effect. We report a surprising non-monotonic relation between mixing chamber temperature and spin Larmor frequency which is consistent with observed frequency shifts induced by microwave and baseband control signals. We find that purposefully operating the device at 200 mK greatly suppresses the adverse heating effect while not compromising qubit coherence or single-qubit fidelity benchmarks. Furthermore, systematic non-Markovian crosstalk is greatly reduced. Our results provide a straightforward means of improving the quality of multi-spin control while simplifying calibration procedures for future spin-based quantum processors.
翻訳日:2023-05-01 16:23:52 公開日:2023-04-28
# 自動運転車のエンドツーエンドlidarカメラ自己校正

End-to-End Lidar-Camera Self-Calibration for Autonomous Vehicles ( http://arxiv.org/abs/2304.12412v2 )

ライセンス: Link先を確認
Arya Rachman, J\"urgen Seiler, and Andr\'e Kaup(参考訳) 自動運転車には、安全運転を可能にするマルチモーダルセンサーが搭載されている。 このような知覚センサの初期校正は高度に成熟したトピックであり、自動化された工場環境で定期的に行われる。 しかし、興味深い疑問は、車両の運転期間を通してキャリブレーションの品質を維持する方法である。 もうひとつの課題は、複数のセンサを共同で校正することで、システムエラーの伝播を防止できることだ。 本稿では,ピンホールカメラとライダーの自動校正問題に対処する,エンドツーエンドの自己校正ネットワークであるCaLiCaを提案する。 我々は,カメラ画像とLidar点雲の特徴相関を回帰することにより,カメラ内在パラメータ(焦点長と歪み)とLidar-Camera外在パラメータ(回転と変換)を共同で予測する。 ネットワークはsiamese-twin構造に配置され、ネットワークの特徴をポイントクラウドとカメラの両方の共有機能(ライダーカメラの制約)に制限する。 KITTIデータセットを用いて評価した結果,1パスの推測で0.028ピクセルの再投影誤差で0.154 {\deg} と0.059mの精度が得られた。 また,我々のエンドツーエンド学習アーキテクチャが,孤立キャリブレーションに比べて端末損失(回転損失の21%減少)を低く抑える方法についても検討した。

Autonomous vehicles are equipped with a multi-modal sensor setup to enable the car to drive safely. The initial calibration of such perception sensors is a highly matured topic and is routinely done in an automated factory environment. However, an intriguing question arises on how to maintain the calibration quality throughout the vehicle's operating duration. Another challenge is to calibrate multiple sensors jointly to ensure no propagation of systemic errors. In this paper, we propose CaLiCa, an end-to-end deep self-calibration network which addresses the automatic calibration problem for pinhole camera and Lidar. We jointly predict the camera intrinsic parameters (focal length and distortion) as well as Lidar-Camera extrinsic parameters (rotation and translation), by regressing feature correlation between the camera image and the Lidar point cloud. The network is arranged in a Siamese-twin structure to constrain the network features learning to a mutually shared feature in both point cloud and camera (Lidar-camera constraint). Evaluation using KITTI datasets shows that we achieve 0.154 {\deg} and 0.059 m accuracy with a reprojection error of 0.028 pixel with a single-pass inference. We also provide an ablative study of how our end-to-end learning architecture offers lower terminal loss (21% decrease in rotation loss) compared to isolated calibration
翻訳日:2023-05-01 16:23:31 公開日:2023-04-28
# Stubborn: インセンティブのあるエージェント間のスタバボーン性を評価する環境

Stubborn: An Environment for Evaluating Stubbornness between Agents with Aligned Incentives ( http://arxiv.org/abs/2304.12280v2 )

ライセンス: Link先を確認
Ram Rachum, Yonatan Nakar, Reuth Mirsky(参考訳) マルチエージェント強化学習(MARL)の最近の研究は、社会的行動と協調の学習に成功している。 混合サム設定におけるエージェント間の社会的ジレンマは広く研究されているが、他のエージェントの費用で報酬を得る見込みのない完全協調環境での社会的ジレンマについてはほとんど研究されていない。 完全一致の利益はエージェント間の協力に寄与するが、彼らはそれを保証しない。 我々は,その名称を冠する人間の社会的行動を捉えようとするエージェント間の「頑固さ」の尺度を提案し,その不一致は徐々にエスカレートし,潜在的に悲惨なものになる可能性がある。 エージェントの頑固な傾向、対応するエージェントの反応、結果として生じる社会的ダイナミクスについて、研究を進めたいと思います。 本稿では,完全一致するインセンティブを有するエージェント間の頑固さを評価するための環境であるstubbornを提案する。 予備的な結果から, エージェントは, パートナーの頑固さを, 環境における選択性を改善するシグナルとして利用することを学ぶ。

Recent research in multi-agent reinforcement learning (MARL) has shown success in learning social behavior and cooperation. Social dilemmas between agents in mixed-sum settings have been studied extensively, but there is little research into social dilemmas in fullycooperative settings, where agents have no prospect of gaining reward at another agent's expense. While fully-aligned interests are conducive to cooperation between agents, they do not guarantee it. We propose a measure of "stubbornness" between agents that aims to capture the human social behavior from which it takes its name: a disagreement that is gradually escalating and potentially disastrous. We would like to promote research into the tendency of agents to be stubborn, the reactions of counterpart agents, and the resulting social dynamics. In this paper we present Stubborn, an environment for evaluating stubbornness between agents with fully-aligned incentives. In our preliminary results, the agents learn to use their partner's stubbornness as a signal for improving the choices that they make in the environment.
翻訳日:2023-05-01 16:23:10 公開日:2023-04-28
# Segment Anythingがビデオと出会う(動画あり)

Track Anything: Segment Anything Meets Videos ( http://arxiv.org/abs/2304.11968v2 )

ライセンス: Link先を確認
Jinyu Yang, Mingqi Gao, Zhe Li, Shang Gao, Fangjing Wang, Feng Zheng(参考訳) 近年,画像上のセグメンテーション性能により,SAM(Segment Anything Model)が急速に注目されている。 画像のセグメンテーションにおける強い能力と異なるプロンプトによる高い対話性について,ビデオ内の一貫したセグメンテーションでは不十分であることが判明した。 そこで本報告では,ビデオの対話的追跡とセグメンテーションを高速に行うTrack Anything Model (TAM)を提案する。 詳しくは、ビデオのシーケンスが与えられているが、人間の参加はほとんどなく、数回のクリックで、興味のあるものを追跡でき、ワンパス推論で満足のいく結果が得られる。 追加のトレーニングがなければ、このようなインタラクティブなデザインは、ビデオオブジェクトのトラッキングとセグメンテーションに素晴らしい効果を発揮する。 すべてのリソースは、https://github.com/gaomingqi/Track-Anything}で利用できる。 この研究が関連研究を促進できることを願っています。

Recently, the Segment Anything Model (SAM) gains lots of attention rapidly due to its impressive segmentation performance on images. Regarding its strong ability on image segmentation and high interactivity with different prompts, we found that it performs poorly on consistent segmentation in videos. Therefore, in this report, we propose Track Anything Model (TAM), which achieves high-performance interactive tracking and segmentation in videos. To be detailed, given a video sequence, only with very little human participation, i.e., several clicks, people can track anything they are interested in, and get satisfactory results in one-pass inference. Without additional training, such an interactive design performs impressively on video object tracking and segmentation. All resources are available on {https://github.com/gaomingqi/Track-Anything}. We hope this work can facilitate related research.
翻訳日:2023-05-01 16:22:54 公開日:2023-04-28
# 3D Brainformer:脳腫瘍分離のための3D Fusion Transformer

3D Brainformer: 3D Fusion Transformer for Brain Tumor Segmentation ( http://arxiv.org/abs/2304.14508v1 )

ライセンス: Link先を確認
Rui Nian, Guoyao Zhang, Yao Sui, Yuqi Qian, Qiuying Li, Mingzhang Zhao, Jianhui Li, Ali Gholipour, and Simon K. Warfield(参考訳) mriは科学的研究と臨床研究の両方において脳のマッピングにおいて極めて重要である。 脳腫瘍の正確な分節化は臨床診断、評価、手術計画を促進する。 深層学習は、最近脳腫瘍のセグメンテーションを改善するために現れ、素晴らしい結果を得た。 畳み込みアーキテクチャは、これらのニューラルネットワークを実装するために広く使われている。 しかし、受容野の限られた性質により、これらのアーキテクチャはMRI画像におけるボクセル強度の長距離空間依存性を表す。 トランスフォーマーは最近、上記の畳み込みネットワークの制限に対処するために活用されている。 残念ながら、現在のトランスフォーマーベースの手法のほとんどは、3Dボリュームではなく2次元MRIスライスで実行される。 また,MHSA(Multi-Head Self-Attention Mechanism)では各頭部が独立に計算されるため,層間構造を組み込むことは困難である。 本研究では,3次元トランスフォーマーを用いたセグメンテーション手法を提案する。 我々は,3次元MRI画像の長距離空間依存性を探索するために,注目ヘッドを注目ロジックと重みマッピングにより組み合わせたFHSA(Fusion-Head Self-Attention Mechanism)を開発した。 我々は無限変形型フュージョントランスフォーマーモジュール(idftm)と呼ばれるプラグアンドプレイ自着モジュールを実装し,任意の変形可能な特徴マップの特徴を抽出する。 そこで我々は,脳腫瘍セグメント化の課題にアプローチを適用し,それをBRATSデータセット上で評価した。 実験の結果,提案手法はいくつかの最先端セグメンテーション法と比較して優れた性能を示した。

Magnetic resonance imaging (MRI) is critically important for brain mapping in both scientific research and clinical studies. Precise segmentation of brain tumors facilitates clinical diagnosis, evaluations, and surgical planning. Deep learning has recently emerged to improve brain tumor segmentation and achieved impressive results. Convolutional architectures are widely used to implement those neural networks. By the nature of limited receptive fields, however, those architectures are subject to representing long-range spatial dependencies of the voxel intensities in MRI images. Transformers have been leveraged recently to address the above limitations of convolutional networks. Unfortunately, the majority of current Transformers-based methods in segmentation are performed with 2D MRI slices, instead of 3D volumes. Moreover, it is difficult to incorporate the structures between layers because each head is calculated independently in the Multi-Head Self-Attention mechanism (MHSA). In this work, we proposed a 3D Transformer-based segmentation approach. We developed a Fusion-Head Self-Attention mechanism (FHSA) to combine each attention head through attention logic and weight mapping, for the exploration of the long-range spatial dependencies in 3D MRI images. We implemented a plug-and-play self-attention module, named the Infinite Deformable Fusion Transformer Module (IDFTM), to extract features on any deformable feature maps. We applied our approach to the task of brain tumor segmentation, and assessed it on the public BRATS datasets. The experimental results demonstrated that our proposed approach achieved superior performance, in comparison to several state-of-the-art segmentation methods.
翻訳日:2023-05-01 15:55:11 公開日:2023-04-28
# ロボット支援手術におけるクロスドメイン技術評価のための不確実性認識型自己教師型学習

Uncertainty-aware Self-supervised Learning for Cross-domain Technical Skill Assessment in Robot-assisted Surgery ( http://arxiv.org/abs/2304.14589v1 )

ライセンス: Link先を確認
Ziheng Wang, Andrea Mariani, Arianna Menciassi, Elena De Momi, Ann Majewicz Fey(参考訳) ロボット支援手術における新しい外科医の効果的な訓練には客観的技能評価が不可欠である。 身体環境と仮想環境の両方における外科訓練プログラムの進歩に伴い,自動評価のための汎用的手法の開発が不可欠である。 本稿では,ラベル付きキネマティックデータからラベルなしデータへのドメイン知識の伝達によるスキル評価手法を提案する。 本手法は, 縫合, 針通し, 結び結びなどの一般的な手術訓練課題からラベル付きデータを活用し, ラベル付きデータとラベル付きデータの両方を共同で訓練する。 擬似ラベルは、不確実性推定を組み込んで正確なラベル付けを保証する反復的な方法でラベル付けされていないデータに対して生成される。 本稿では,da Vinci Research Kit (dVRK) のデータを用いて,VRシミュレーショントレーニングタスク(Ring Transfer)について評価を行った。 以上の結果から,ロボット支援を受けた訓練生は,訓練能力向上におけるロボット支援のメリットを示す従来の研究と一致したp < 0.05よりも,専門家の確率が有意に高いことがわかった。 本手法は,手作業によるラベリングやロボット支援手術訓練タスクの事前知識を必要とせず,既存の作業よりも大きなアドバンテージを提供する。

Objective technical skill assessment is crucial for effective training of new surgeons in robot-assisted surgery. With advancements in surgical training programs in both physical and virtual environments, it is imperative to develop generalizable methods for automatically assessing skills. In this paper, we propose a novel approach for skill assessment by transferring domain knowledge from labeled kinematic data to unlabeled data. Our approach leverages labeled data from common surgical training tasks such as Suturing, Needle Passing, and Knot Tying to jointly train a model with both labeled and unlabeled data. Pseudo labels are generated for the unlabeled data through an iterative manner that incorporates uncertainty estimation to ensure accurate labeling. We evaluate our method on a virtual reality simulated training task (Ring Transfer) using data from the da Vinci Research Kit (dVRK). The results show that trainees with robotic assistance have significantly higher expert probability compared to these without any assistance, p < 0.05, which aligns with previous studies showing the benefits of robotic assistance in improving training proficiency. Our method offers a significant advantage over other existing works as it does not require manual labeling or prior knowledge of the surgical training task for robot-assisted surgery.
翻訳日:2023-05-01 15:38:17 公開日:2023-04-28
# グラフ拡張による知識グラフエンティティアライメントの改善

Improving Knowledge Graph Entity Alignment with Graph Augmentation ( http://arxiv.org/abs/2304.14585v1 )

ライセンス: Link先を確認
Feng Xie, Xiang Zeng, Bin Zhou, Yusong Tan(参考訳) 異なる知識グラフ(KG)をまたいだ等価エンティティをリンクするエンティティアライメント(EA)は、知識融合において重要な役割を果たす。 近年,グラフニューラルネットワーク (GNN) が多くの埋め込み型EA手法に応用されている。 しかし、既存のGNNベースの手法は、実際のKG分布に特に現れる構造的不均一性の問題に悩まされるか、または未確認(ラベルなし)な実体に対する不均一表現学習を無視し、モデルが少数のアライメントシード(トレーニングデータ)に過度に適合し、不満足なアライメント性能を引き起こす。 EAの能力を高めるために,グラフ拡張に基づく新しいEAアプローチであるGAEAを提案する。 本モデルでは、包括的構造情報とリッチリレーショナルセマンティクスを共同でモデル化することにより、エンティティの潜在表現を生成するための単純なEntity-Relation(ER)エンコーダを設計する。 さらに,グラフ拡張を用いてマージンに基づくアライメント学習と対比エンティティ表現学習のための2つのグラフビューを作成し,構造的不均一性を緩和し,モデルのアライメント性能をさらに向上させる。 ベンチマークデータセット上で行った広範囲な実験により,本手法の有効性が示された。

Entity alignment (EA) which links equivalent entities across different knowledge graphs (KGs) plays a crucial role in knowledge fusion. In recent years, graph neural networks (GNNs) have been successfully applied in many embedding-based EA methods. However, existing GNN-based methods either suffer from the structural heterogeneity issue that especially appears in the real KG distributions or ignore the heterogeneous representation learning for unseen (unlabeled) entities, which would lead the model to overfit on few alignment seeds (i.e., training data) and thus cause unsatisfactory alignment performance. To enhance the EA ability, we propose GAEA, a novel EA approach based on graph augmentation. In this model, we design a simple Entity-Relation (ER) Encoder to generate latent representations for entities via jointly modeling comprehensive structural information and rich relation semantics. Moreover, we use graph augmentation to create two graph views for margin-based alignment learning and contrastive entity representation learning, thus mitigating structural heterogeneity and further improving the model's alignment performance. Extensive experiments conducted on benchmark datasets demonstrate the effectiveness of our method.
翻訳日:2023-05-01 15:37:55 公開日:2023-04-28
# 難治性てんかんに対するアメナブル神経刺激によるデジタル治療

\'Epilexie: A digital therapeutic approach for treating intractable epilepsy via Amenable Neurostimulation ( http://arxiv.org/abs/2304.14583v1 )

ライセンス: Link先を確認
Ishan Shivansh Bangroo, Samia Tahzeen(参考訳) てんかん(英: epilepsy)は神経疾患の一種で、震えの連続性けいれん(けいれん)によって特徴づけられる。 薬物や手術などのてんかんに対する効果的な治療は存在するが、標準的な方法に反応しない難治性てんかん患者のグループはまだ存在する。 難治性てんかん(Intractable epilepsy)は、世界中で波及し、何百万人もの人に影響を及ぼす重度の神経疾患である。 難治性てんかんのコントロールは極めて困難であり、2つ以上の標準的な抗てんかん薬治療に対する反応の欠如と定義されている。 近年、プログラム可能な脳電気刺激の使用は、難治性てんかん患者の発作頻度を下げるためのデジタル治療戦略として期待されている。 本研究では, 難治性てんかんに対するデジタル治療戦略の一環として, Amenable Neurostimulation (ANS) の使用について検討した。 脳に印加すると、ANSはクローズドループシステムを使用して影響領域のニューロンを選択的に刺激し、発作の頻度を下げる。 さらに, 患者選択基準, デバイス設定, アウトカム対策など, 難治性てんかんの治療にansを用いたパイロット研究の設計と実施について述べる。 このパイロット研究の結果は、ANSが難治性てんかんに苦しむ人々にとって、現実的で成功した治療オプションである可能性を示している。 本稿では、複雑な神経疾患の治療におけるデジタル医療の展望を実証し、今後の研究・開発への道筋を提言する。

Epilepsy is a neurological illness that is characterised by continuous spasms of shaking, sometimes known as convulsions. Although there are effective treatments for epilepsy, such as drugs and surgery, there is still a group of individuals who have intractable epilepsy that fails to respond to standard methods. Intractable epilepsy is a severe neurological illness that ripples across the globe and impacts millions of individuals. It is extremely difficult to control intractable epilepsy, which is defined as the lack of response to two or more standard antiepileptic medication treatments. In recent years, the use of programmable electrical stimulation of the brain has shown promise as a digital treatment strategy for lowering seizure frequency in individuals with intractable epilepsy. In this research, the use of Amenable Neurostimulation (ANS) as part of a digital treatment strategy to intractable epilepsy is investigated. When applied to the brain, ANS uses a closed-loop system to selectively stimulate neurons in the affected areas, therefore lowering the frequency of seizures. In addition, the report describes the design and execution of a pilot research employing ANS to treat intractable epilepsy, including patient selection criteria, device settings, and outcome measures. The findings of this pilot research point to the possibility that ANS might be a realistic and successful therapy option for people afflicted with intractable epilepsy. This paper demonstrated the prospects of digital medicines in treating complicated neurological illnesses and recommends future routes for research and development in this field.
翻訳日:2023-05-01 15:37:32 公開日:2023-04-28
# Hofstadter格子の次アネレスト近傍結合における光-マター相互作用

Light-Matter interactions in Hofstadter lattice with the next-nearest neighbor couplings ( http://arxiv.org/abs/2304.14580v1 )

ライセンス: Link先を確認
Jia-Qi Li, Zhao-Min Gao, Wen-Xiao Liu and Xin Wang(参考訳) ホフシュタッター格子のバルク領域に結合するエミッタの光-マター相互作用について,De Bernardis \textit{et al。 とD。 バーナーディーズ、Z。 -P。 Cian, I. Carusotto, M. Hafezi, P. Rabl, \href{https://link.aps.org/doi/10.1103/PhysRevLett.126.103603}{Phys Rev. Lett. 126, 103603 (2021)}]. 本研究では,NNN(Next-nearest neighbor)結合を用いた拡張Hofstadter格子における光相互作用を提案する。 標準ホフシュタッター格子と比較して、NNN結合はミラー対称性を破り、エネルギーバンドは平坦ではなく、非ゼロ群速度に分散する。 de bernardis \textit{et al. による研究とは対照的である。 二つのレベルエミッタが拡張ホフスタッター格子のバルク領域と相互作用する場合、エミッタはフラットバンドとのコヒーレント振動によってタップされず、光子を一方向放射することができる。 キラル機構は、壊れたパリティ対称性に由来する。 放射率とキラリティはエミッタの結合位置によって周期的に変化する。 これらの特徴はすべてフォトニック格子プラットフォーム上で実現でき、キラル量子情報処理に応用される可能性がある。

The light-mater interactions for an emitter coupling to the bulk region of a Hofstadter lattice has recently investigated by De Bernardis \textit{et al.} [D. De Bernardis, Z.-P. Cian, I. Carusotto, M. Hafezi, and P. Rabl, \href{https://link.aps.org/doi/10.1103/PhysRevLett.126.103603}{Phys. Rev. Lett. 126, 103603 (2021)}]. We propose the light-mater interactions in an extended Hofstadter lattice with the next-nearest neighbor (NNN) couplings. Compared with the standard Hofstadter lattice, the NNN couplings break the mirror symmetry and the energy bands are not flat, i.e., dispersive with nonzero group velocity. In contrast to the study by De Bernardis \textit{et al.}, when a two-level emitter interacts with the bulk region of extended Hofstadter lattice, the emitter is no longer tapped by the coherent oscillations with the flat band, and can radiate photons unidirectional. The chiral mechanism stems from the broken parity symmetry. Both the radiation rate and the chirality periodically change with the emitter's coupling position. All of those particular features can be realized on the photonic lattice platform and may find potential application in chiral quantum information processing.
翻訳日:2023-05-01 15:37:08 公開日:2023-04-28
# AI信仰の倫理へ向けて

Toward an Ethics of AI Belief ( http://arxiv.org/abs/2304.14577v1 )

ライセンス: Link先を確認
Winnie Ma, Vincent Valton(参考訳) AIにおける哲学研究は、主にAIの倫理に焦点を当てている。 本稿では,AIの認識論,特にAIの信念の倫理,すなわちAIの信念の倫理について,AIにおける哲学研究の新たな領域を追求する必要があることを示唆する。 ここでは,様々な方法で定義されてきた信念の倫理を,認識論におけるサブフィールドと呼ぶ。 このサブフィールドは、道徳的、実践的、その他の非倫理的信念の研究に関係している。 この論文では、特定の信念が真である、正当化される、保証される、知識を構成するなど、様々な評価基準を満たしているかどうかに関する記述的疑問よりも、人間と人工の両方のエージェントが何を信じるべきかという信念の倫理における規範的疑問を主に扱う。 我々は、AI信念の倫理に応用できる(人間)信念の倫理における現在研究における4つのトピックについて提案する:AI信念のドクサスティックな誤り、道徳的に義務づけられた信念、AI信念に対する実践的および道徳的エンクローメント、AI信念に対する道徳的責任。 我々はまた、AI信仰の倫理学研究としてまだ認識されていない、先天的な不公平とAIにおける哲学研究の重要な領域を示すが、それは道徳的および実践的な信念の次元に関するものである。

Philosophical research in AI has hitherto largely focused on the ethics of AI. In this paper we, an ethicist of belief and a machine learning scientist, suggest that we need to pursue a novel area of philosophical research in AI - the epistemology of AI, and in particular an ethics of belief for AI, i.e., an ethics of AI belief. Here we take the ethics of belief, a field that has been defined in various ways, to refer to a sub-field within epistemology. This subfield is concerned with the study of possible moral, practical, and other non-alethic dimensions of belief. And in this paper, we will primarily be concerned with the normative question within the ethics of belief of what agents - both human and artificial - ought to believe, rather than with descriptive questions concerning whether certain beliefs meet various evaluative standards such as being true, being justified or warranted, constituting knowledge, and so on. We suggest four topics in extant work in the ethics of (human) belief that can be applied to an ethics of AI belief: doxastic wronging by AI; morally owed beliefs; pragmatic and moral encroachment on AI beliefs; and moral responsibility for AI beliefs. We also indicate an important nascent area of philosophical research in epistemic injustice and AI that has not yet been recognized as research in the ethics of AI belief, but which is so in virtue of concerning moral and practical dimensions of belief.
翻訳日:2023-05-01 15:36:35 公開日:2023-04-28
# deepfakesは初心者ユーザーによって作成できるのか?

Can deepfakes be created by novice users? ( http://arxiv.org/abs/2304.14576v1 )

ライセンス: Link先を確認
Pulak Mehta, Gauri Jagatap, Kevin Gallagher, Brian Timmerman, Progga Deb, Siddharth Garg, Rachel Greenstadt, Brendan Dolan-Gavitt(参考訳) 機械学習とコンピュータビジョンの最近の進歩は、Deepfakesの普及につながっている。 テクノロジーの民主化が進むにつれて、初心者がDeepfakesを作り、他人を軽視し、世論を損なう恐れが高まっている。 本稿では,高度なコンピュータスキルと様々なレベルのコンピュータサイエンスの知識を持つ参加者が,限られたメディアファイルを用いてターゲットステートメントを述べる人のディープフェイクを生み出すことができるかを理解するために,ユーザ研究を行う。 最初の研究(n = 39)では、参加者が望むツールを使って、制約のある時間枠でDeepfakeをターゲットにしようとします。 第2の研究(n = 29)では、参加者は同じDeepfakeを作成するために、事前に特定されたディープラーニングベースのツールを使用します。 第1の研究では、被験者の23.1%が音声とビデオによる完全なディープフェイクの作成に成功し、第2のユーザ調査では、ターゲット音声をターゲットビデオに縫い合わせるのに58.6%が成功した。 さらに、Deepfake検出ソフトウェアツールと人間の検査者に基づく分析を使用して、成功したDeepfake出力を偽、疑わしい、あるいは本物に分類する。 ソフトウェア検出器はDeepfakesの80%をフェイクと分類し、人間の検査官は100%の動画をフェイクと分類しました。 Deepfakesの作成は、初心者に十分なツールと時間を与えるのに十分な作業であると結論づけるが、結果のDeepfakesは十分にリアルに見えず、人間の検査者だけでなく、ソフトウェアを完全に騙すことはできない。

Recent advancements in machine learning and computer vision have led to the proliferation of Deepfakes. As technology democratizes over time, there is an increasing fear that novice users can create Deepfakes, to discredit others and undermine public discourse. In this paper, we conduct user studies to understand whether participants with advanced computer skills and varying levels of computer science expertise can create Deepfakes of a person saying a target statement using limited media files. We conduct two studies; in the first study (n = 39) participants try creating a target Deepfake in a constrained time frame using any tool they desire. In the second study (n = 29) participants use pre-specified deep learning-based tools to create the same Deepfake. We find that for the first study, 23.1% of the participants successfully created complete Deepfakes with audio and video, whereas, for the second user study, 58.6% of the participants were successful in stitching target speech to the target video. We further use Deepfake detection software tools as well as human examiner-based analysis, to classify the successfully generated Deepfake outputs as fake, suspicious, or real. The software detector classified 80% of the Deepfakes as fake, whereas the human examiners classified 100% of the videos as fake. We conclude that creating Deepfakes is a simple enough task for a novice user given adequate tools and time; however, the resulting Deepfakes are not sufficiently real-looking and are unable to completely fool detection software as well as human examiners
翻訳日:2023-05-01 15:36:09 公開日:2023-04-28
# SceneGenie:画像合成のためのシーングラフガイド拡散モデル

SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis ( http://arxiv.org/abs/2304.14573v1 )

ライセンス: Link先を確認
Azade Farshad, Yousef Yeganeh, Yu Chi, Chengzhi Shen, Bj\"orn Ommer, Nassir Navab(参考訳) 近年, テキストコンディショニングによる画像生成は, 生成的敵ネットワーク, 最近では拡散モデルによって大きく進展している。 テキストプロンプトに条件付けされた拡散モデルは印象的かつ高品質な画像を生成する一方で、特定のオブジェクトのインスタンス数などの複雑なテキストプロンプトを正確に表現することは困難である。 この制限に対処するために,追加のトレーニングデータなしで,境界ボックスとセグメンテーションマップ情報を推論時に活用する拡散モデルにおいて,サンプリングプロセスのための新しいガイダンス手法を提案する。 サンプリングプロセスの新たな損失を通じて,CLIP埋め込みのセマンティックな特徴をモデルに導出し,幾何学的制約を適用し,シーンを正確に表現する高解像度画像を生成する。 境界ボックスとセグメンテーションマップ情報を得るために,テキストプロンプトをシーングラフとして構成し,CLIP埋め込みによるノードの強化を行う。 提案モデルは,シーングラフから画像生成のための2つの公開ベンチマークにおいて最先端のパフォーマンスを実現し,様々な指標でシーングラフから画像およびテキストベースの拡散モデルに匹敵する。 本研究は,より正確なテキスト対画像生成のための拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示す。

Text-conditioned image generation has made significant progress in recent years with generative adversarial networks and more recently, diffusion models. While diffusion models conditioned on text prompts have produced impressive and high-quality images, accurately representing complex text prompts such as the number of instances of a specific object remains challenging. To address this limitation, we propose a novel guidance approach for the sampling process in the diffusion model that leverages bounding box and segmentation map information at inference time without additional training data. Through a novel loss in the sampling process, our approach guides the model with semantic features from CLIP embeddings and enforces geometric constraints, leading to high-resolution images that accurately represent the scene. To obtain bounding box and segmentation map information, we structure the text prompt as a scene graph and enrich the nodes with CLIP embeddings. Our proposed model achieves state-of-the-art performance on two public benchmarks for image generation from scene graphs, surpassing both scene graph to image and text-based diffusion models in various metrics. Our results demonstrate the effectiveness of incorporating bounding box and segmentation map guidance in the diffusion model sampling process for more accurate text-to-image generation.
翻訳日:2023-05-01 15:35:40 公開日:2023-04-28
# SCOPE:医用画像分割のための構造継続保存

SCOPE: Structural Continuity Preservation for Medical Image Segmentation ( http://arxiv.org/abs/2304.14572v1 )

ライセンス: Link先を確認
Yousef Yeganeh, Azade Farshad, Goktug Guevercin, Amr Abu-zer, Rui Xiao, Yongjian Tang, Ehsan Adeli, Nassir Navab(参考訳) 形状の連続性と生理学的解剖の保存は医用画像のセグメンテーションにおける自然な仮定であるが、主に相互接続構造ではなくピクセルとしての入力データの統計的モデリングを目的とした深層学習手法では無視されることが多い。 しかし、生物学的構造では、臓器は別個の実体ではなく、例えば、切断された血管は根本問題を示すものであるが、従来のセグメンテーションモデルは解剖の連続性を厳格に強制するために設計されておらず、不正確な診断につながる可能性がある。 本稿では,医療画像における解剖学的トポロジーの連続性と接続性を実現するグラフベースアプローチを提案する。 本手法は, 形状の連続性をグラフ制約として符号化し, ネットワークの予測が連続性を維持することを保証する。 網膜血管セグメンテーションの2つの公開ベンチマークで評価し,従来の方法に比べて接続性指標が大幅に改善され,またセグメンテーション指標の精度も向上した。

Although the preservation of shape continuity and physiological anatomy is a natural assumption in the segmentation of medical images, it is often neglected by deep learning methods that mostly aim for the statistical modeling of input data as pixels rather than interconnected structures. In biological structures, however, organs are not separate entities; for example, in reality, a severed vessel is an indication of an underlying problem, but traditional segmentation models are not designed to strictly enforce the continuity of anatomy, potentially leading to inaccurate medical diagnoses. To address this issue, we propose a graph-based approach that enforces the continuity and connectivity of anatomical topology in medical images. Our method encodes the continuity of shapes as a graph constraint, ensuring that the network's predictions maintain this continuity. We evaluate our method on two public benchmarks on retinal vessel segmentation, showing significant improvements in connectivity metrics compared to traditional methods while getting better or on-par performance on segmentation metrics.
翻訳日:2023-05-01 15:35:19 公開日:2023-04-28
# diamant: 医用画像分割のためのデュアルイメージ・アテンションマップエンコーダ

DIAMANT: Dual Image-Attention Map Encoders For Medical Image Segmentation ( http://arxiv.org/abs/2304.14571v1 )

ライセンス: Link先を確認
Yousef Yeganeh, Azade Farshad, Peter Weinberger, Seyed-Ahmad Ahmadi, Ehsan Adeli, Nassir Navab(参考訳) 純粋なトランスフォーマーベースのアーキテクチャは多くのコンピュータビジョンタスクで有望な性能を示したが、cnnとトランスフォーマーブロックからなる多くのハイブリッドモデルがより専門的なタスクに適合するように導入された。 それでも、医療画像セグメンテーションにおけるCNNと比較して、純粋なトランスフォーマーとハイブリッドトランスフォーマーベースのアーキテクチャのパフォーマンスが向上しているにもかかわらず、その高いトレーニングコストと複雑さは、実際のシナリオでの使用を困難にしている。 本稿では,純粋に畳み込み層に基づく単純なアーキテクチャを提案するとともに,自己教師付き視覚トランスフォーマーネットワーク(dinoなど)から得られる注意マップの可視化を,計算コストをはるかに低減した複雑なトランスフォーマーベースのネットワークよりも優れることを示す。 提案手法は,2つのエンコーダ枝から構成され,1つの枝にオリジナル画像が入力され,もう1つの枝の事前学習されたdinoモデル(複数チャネル)から複数のセルフアテンションヘッドから同じ画像のアテンションマップが可視化される。 2つの医療画像データセットを用いた実験の結果,提案パイプラインがu-netおよび最先端医療画像セグメンテーションモデルを上回ることがわかった。

Although purely transformer-based architectures showed promising performance in many computer vision tasks, many hybrid models consisting of CNN and transformer blocks are introduced to fit more specialized tasks. Nevertheless, despite the performance gain of both pure and hybrid transformer-based architectures compared to CNNs in medical imaging segmentation, their high training cost and complexity make it challenging to use them in real scenarios. In this work, we propose simple architectures based on purely convolutional layers, and show that by just taking advantage of the attention map visualizations obtained from a self-supervised pretrained vision transformer network (e.g., DINO) one can outperform complex transformer-based networks with much less computation costs. The proposed architecture is composed of two encoder branches with the original image as input in one branch and the attention map visualizations of the same image from multiple self-attention heads from a pre-trained DINO model (as multiple channels) in the other branch. The results of our experiments on two publicly available medical imaging datasets show that the proposed pipeline outperforms U-Net and the state-of-the-art medical image segmentation models.
翻訳日:2023-05-01 15:34:59 公開日:2023-04-28
# マルチキュービットシステムにおけるデフォーカス推定の資源理論

The resource theory of dephasing estimation in multiqubit systems ( http://arxiv.org/abs/2304.14615v1 )

ライセンス: Link先を確認
Zishi Chen, Xueyuan Hu(参考訳) 本稿では,マルチビットシステムのパワーを,推定の難解化タスクにおけるプローブとして検討する資源理論を提案する。 本手法では, デファスメントパラメータに関する量子フィッシャー情報を用いて資源測定を行う。 量子フィッシャー情報の単調性に基づき,我々は資源理論において,ハミング距離保存操作と選択的ハミング距離保存操作という2つの自由操作セットを提案する。 これらの自由操作の下での状態変換に必要な条件を導出し、一様重ね合わせ状態が資源理論の黄金状態であることを実証する。 さらに、我々の資源理論とコヒーレンスの資源理論を比較し、その自由な操作と単一ビットおよび多ビットの場合の関係を徹底的に検討する。 さらに,マルチ量子ビットシステムでは,位相推定の資源理論と,位相推定の責任を負うu(1)$非対称性との不整合性を見出す。 また, 位相推定におけるプローブ状態の性能向上のための条件についても検討した。 その結果,資源理論による量子パラメータ推定の新しい知見が得られた。

We present a resource theory to investigate the power of a multqubit system as a probe in the task of dephasing estimation. Our approach employs the quantum Fisher information about the dephasing parameter as the resource measure. Based on the monotonicity of quantum Fisher information, we propose two sets of free operations in our resource theory, the Hamming distance preserving operations and the selectively Hamming distance preserving operations. We derive a necessary condition for the state transformation under these free operations and demonstrate that uniform superposition states are the golden states in our resource theory. We further compare our resource theory with the resource theory of coherence and thoroughly investigate the relation between their free operations in both single-qubit and multiqubit cases. Additionally, for multiqubit systems, we discover the incompatibility between the resource theory of dephasing estimation and that of $U(1)$ asymmetry, which is responsible for phase estimation. The condition for enhancing the performance of a probe state in phase estimation while preserving its ability in dephasing estimation is also discussed. Our results provide new insights into quantum parameter estimation by the resource-theoretic approach.
翻訳日:2023-05-01 15:26:27 公開日:2023-04-28
# フュージョンは不十分:自動運転におけるフュージョンモデルを妥協するシングルモーダル攻撃

Fusion is Not Enough: Single-Modal Attacks to Compromise Fusion Models in Autonomous Driving ( http://arxiv.org/abs/2304.14614v1 )

ライセンス: Link先を確認
Zhiyuan Cheng, Hongjun Choi, James Liang, Shiwei Feng, Guanhong Tao, Dongfang Liu, Michael Zuzak, Xiangyu Zhang(参考訳) マルチセンサー融合(MSF)は、自動運転車(AV)の認識、特にカメラとLiDARセンサーを用いた3次元物体検出のタスクに広く採用されている。 融合の背景にある理論的根拠は、それぞれのモダリティの強さを生かしつつ、その限界を緩和することである。 融合モデルの例外的で先進的な性能は、高度なディープニューラルネットワーク(DNN)ベースの融合技術によって実証されている。 融合モデルはまた、複数のモダリティの冗長な情報のため、単一モーダルモデルに比べて攻撃に対してより強固であるとみなされる。 本研究は,カメラのモダリティを狙った単一モーダル攻撃によるこの視点に挑戦するものであり,これは融合においてあまり重要ではないが,攻撃者にとってより手頃な価格であると考えられる。 融合モデルの最も弱いリンクは、最も弱いモダリティに依存しており、敵パッチを用いた高度なカメラ-LiDAR融合モデルをターゲットにした攻撃フレームワークを提案する。 提案手法では,まず敵対的攻撃下での脆弱な画像領域を総合的に評価し,異なる融合モデルにカスタマイズされた攻撃戦略を適用し,デプロイ可能なパッチを生成する。 実世界のデータセット上での5つの最先端カメラ-LiDAR融合モデルによる評価は、我々の攻撃がすべてのモデルに侵入することに成功したことを示している。 提案手法は,検出性能の平均平均精度(map)を0.824から0.353に低下させるか,対象物体の検出スコアを平均0.727から0.151に低下させ,提案手法の有効性と実用性を示す。

Multi-sensor fusion (MSF) is widely adopted for perception in autonomous vehicles (AVs), particularly for the task of 3D object detection with camera and LiDAR sensors. The rationale behind fusion is to capitalize on the strengths of each modality while mitigating their limitations. The exceptional and leading performance of fusion models has been demonstrated by advanced deep neural network (DNN)-based fusion techniques. Fusion models are also perceived as more robust to attacks compared to single-modal ones due to the redundant information in multiple modalities. In this work, we challenge this perspective with single-modal attacks that targets the camera modality, which is considered less significant in fusion but more affordable for attackers. We argue that the weakest link of fusion models depends on their most vulnerable modality, and propose an attack framework that targets advanced camera-LiDAR fusion models with adversarial patches. Our approach employs a two-stage optimization-based strategy that first comprehensively assesses vulnerable image areas under adversarial attacks, and then applies customized attack strategies to different fusion models, generating deployable patches. Evaluations with five state-of-the-art camera-LiDAR fusion models on a real-world dataset show that our attacks successfully compromise all models. Our approach can either reduce the mean average precision (mAP) of detection performance from 0.824 to 0.353 or degrade the detection score of the target object from 0.727 to 0.151 on average, demonstrating the effectiveness and practicality of our proposed attack framework.
翻訳日:2023-05-01 15:26:10 公開日:2023-04-28
# 深層知的財産権:調査

Deep Intellectual Property: A Survey ( http://arxiv.org/abs/2304.14613v1 )

ライセンス: Link先を確認
Yuchen Sun, Tianpeng Liu, Panhe Hu, Qing Liao, Shouling Ji, Nenghai Yu, Deke Guo, Li Liu(参考訳) 産業製造業や商業サービスに広く応用されるにつれ、訓練コストと優れた一般化性能のために、十分に訓練されたディープニューラルネットワーク(DNN)はますます価値が高く重要な資産になりつつある。 これらのトレーニングされたモデルは、'Machine Learning as a Service'(MLaaS)パラダイムから恩恵を受けることなく、ユーザによって活用することができる。 しかし、このパラダイムは、モデル盗難や虐待など、さまざまな潜在的な脅威に対して、高価なモデルを公開する。 これらの脅威から防衛する緊急の要件として、私的なトレーニングデータ、痛く調整されたハイパーパラメータ、あるいは高価な学習されたモデルウェイトを保護するためのDeep Intellectual Property(DeepIP)が、業界と学界双方のコンセンサスとなっている。 この目的を達成するために、特にモデル盗みや不正な再配布を防止または発見するために、近年、多くのアプローチが提案されている。 この急速な進化の時期を考えると、本稿の目標はこの分野における最近の業績を総合的に調査することである。 この調査には190以上の研究成果が含まれており、ディープip保護の多くの側面をカバーしている: 課題/脅威、侵入的ソリューション(ウォーターマーキング)、非侵襲的ソリューション(フィンガープリンティング)、評価メトリクス、パフォーマンス。 今後の研究に期待できる方向を特定することで調査を終了する。

With the widespread application in industrial manufacturing and commercial services, well-trained deep neural networks (DNNs) are becoming increasingly valuable and crucial assets due to the tremendous training cost and excellent generalization performance. These trained models can be utilized by users without much expert knowledge benefiting from the emerging ''Machine Learning as a Service'' (MLaaS) paradigm. However, this paradigm also exposes the expensive models to various potential threats like model stealing and abuse. As an urgent requirement to defend against these threats, Deep Intellectual Property (DeepIP), to protect private training data, painstakingly-tuned hyperparameters, or costly learned model weights, has been the consensus of both industry and academia. To this end, numerous approaches have been proposed to achieve this goal in recent years, especially to prevent or discover model stealing and unauthorized redistribution. Given this period of rapid evolution, the goal of this paper is to provide a comprehensive survey of the recent achievements in this field. More than 190 research contributions are included in this survey, covering many aspects of Deep IP Protection: challenges/threats, invasive solutions (watermarking), non-invasive solutions (fingerprinting), evaluation metrics, and performance. We finish the survey by identifying promising directions for future research.
翻訳日:2023-05-01 15:25:44 公開日:2023-04-28
# パンシャープ化のための局所的グローバル変圧器拡張展開ネットワーク

Local-Global Transformer Enhanced Unfolding Network for Pan-sharpening ( http://arxiv.org/abs/2304.14612v1 )

ライセンス: Link先を確認
Mingsong Li, Yikun Liu, Tao Xiao, Yuwen Huang, and Gongping Yang(参考訳) パンシャーピングは,低分解能マルチスペクトル(LrMS)画像の空間分解能を高めることを目的として,パンクロマティック(PAN)画像の誘導を行う。 深層学習(DL)に基づくパンシャーピング法は有望な性能を達成したが、そのほとんどは2倍の欠損を有する。 例えば、普遍的に採用されたブラックボックスの原理は、モデル解釈可能性を制限する。 別のこととして、既存のDLベースのメソッドは、ローカルとグローバルの依存関係を効率的にキャプチャすることができない。 これらの問題に対処するため、まず高分解能マルチスペクトル(HrMS)画像の劣化過程を統一的変分最適化問題として定式化し、設計した反復近位勾配勾配(PGD)アルゴリズムによりそのデータと先行サブプロブレムを交互に解く。 さらに,ローカルGlobal Transformer (LGT) をカスタマイズして,ローカルおよびグローバルな依存関係を同時にモデル化し,さらにLGTベースの先行モジュールを画像のデノーミングに使用する。 以前のモジュールに加えて、軽量データモジュールも設計しました。 最後に、各反復段階におけるデータと先行モジュールのシリアル統合により、反復アルゴリズムを段階的に展開するネットワーク、LGTEUN(Local-Global Transformer Enhanced Unfolding Network)に展開し、解釈可能なMSパンシャーピングを行う。 3つの衛星データセットの総合的な実験結果から,LGTEUNの有効性と有効性を示す。 ソースコードはhttps://github.com/lms-07/LGTEUNで入手できる。

Pan-sharpening aims to increase the spatial resolution of the low-resolution multispectral (LrMS) image with the guidance of the corresponding panchromatic (PAN) image. Although deep learning (DL)-based pan-sharpening methods have achieved promising performance, most of them have a two-fold deficiency. For one thing, the universally adopted black box principle limits the model interpretability. For another thing, existing DL-based methods fail to efficiently capture local and global dependencies at the same time, inevitably limiting the overall performance. To address these mentioned issues, we first formulate the degradation process of the high-resolution multispectral (HrMS) image as a unified variational optimization problem, and alternately solve its data and prior subproblems by the designed iterative proximal gradient descent (PGD) algorithm. Moreover, we customize a Local-Global Transformer (LGT) to simultaneously model local and global dependencies, and further formulate an LGT-based prior module for image denoising. Besides the prior module, we also design a lightweight data module. Finally, by serially integrating the data and prior modules in each iterative stage, we unfold the iterative algorithm into a stage-wise unfolding network, Local-Global Transformer Enhanced Unfolding Network (LGTEUN), for the interpretable MS pan-sharpening. Comprehensive experimental results on three satellite data sets demonstrate the effectiveness and efficiency of LGTEUN compared with state-of-the-art (SOTA) methods. The source code is available at https://github.com/lms-07/LGTEUN.
翻訳日:2023-05-01 15:25:21 公開日:2023-04-28
# all-e:美的ガイド付き低光度画像エンハンスメント

ALL-E: Aesthetics-guided Low-light Image Enhancement ( http://arxiv.org/abs/2304.14610v1 )

ライセンス: Link先を確認
Ling Li, Dong Liang, Yuanhang Gao, Sheng-Jun Huang, Songcan Chen(参考訳) 低照度画像強調(LLE)の性能評価は主観的であり,人間の嗜好を画像強調に組み込むことが不可欠である。 既存の手法ではこれを考慮せず、トレーニング強化モデルの潜在的なヒューリスティックな基準を提示する。 本稿では、LLEに美的嗜好を導入し、美的報酬を伴う強化学習フレームワークにおけるトレーニングを動機付ける、美学誘導型低照度画像強調(ALL-E)という新しいパラダイムを提案する。 エージェントとして機能する各ピクセルは、再帰作用、すなわち対応する調整曲線を逐次推定することによって、自分自身を洗練させる。 広範な実験により,美的評価の統合は主観的経験と客観的評価の両方を改善することが示された。 様々なベンチマークの結果は、最先端手法よりもall-Eの方が優れていることを示している。 ソースコードとモデルはプロジェクトページにある。

Evaluating the performance of low-light image enhancement (LLE) is highly subjective, thus making integrating human preferences into image enhancement a necessity. Existing methods fail to consider this and present a series of potentially valid heuristic criteria for training enhancement models. In this paper, we propose a new paradigm, i.e., aesthetics-guided low-light image enhancement (ALL-E), which introduces aesthetic preferences to LLE and motivates training in a reinforcement learning framework with an aesthetic reward. Each pixel, functioning as an agent, refines itself by recursive actions, i.e., its corresponding adjustment curve is estimated sequentially. Extensive experiments show that integrating aesthetic assessment improves both subjective experience and objective evaluation. Our results on various benchmarks demonstrate the superiority of ALL-E over state-of-the-art methods. Source code and models are in the project page.
翻訳日:2023-05-01 15:24:52 公開日:2023-04-28
# 欠落した価値の事実的説明

Counterfactual Explanation with Missing Values ( http://arxiv.org/abs/2304.14606v1 )

ライセンス: Link先を確認
Kentaro Kanamori, Takuya Takagi, Ken Kobayashi, Yuichi Ike(参考訳) Counterfactual Explanation (CE) は、分類器の予測結果を変更するための摂動を提供するポストホックな説明法である。 ユーザーは摂動を「行動」と解釈して、望ましい判断結果を得ることができる。 既存のCEメソッドは入力インスタンスの特徴に関する完全な情報を必要とする。 しかし、あるインスタンスではしばしば値が不足しており、以前のメソッドはそのような実用的な状況では動作しない。 本稿では,まず,価値インプテーション手法の欠如が行動の妥当性に影響を及ぼすリスクと,行動が変化することを示唆する特徴を実証的かつ理論的に示す。 そこで我々は,CEの新しい枠組みであるCEPIAを提案する。CEPIAは,不備な値であっても有効なアクションをユーザが取得し,不備な値の計算によってアクションがどのように影響を受けるかを明らかにする。 具体的には、CEPIAは、与えられた不完全なインスタンスとその最適なアクションに対して、命令候補のペアの代表セットを提供する。 我々は,そのような集合を部分モジュラー最大化問題として求める問題を,近似保証付き単純なグリーディアルゴリズムで解けるように定式化する。 CEPIAは, 欠損値の存在下での基準値と比較し, 有効性を示した。

Counterfactual Explanation (CE) is a post-hoc explanation method that provides a perturbation for altering the prediction result of a classifier. Users can interpret the perturbation as an "action" to obtain their desired decision results. Existing CE methods require complete information on the features of an input instance. However, we often encounter missing values in a given instance, and the previous methods do not work in such a practical situation. In this paper, we first empirically and theoretically show the risk that missing value imputation methods affect the validity of an action, as well as the features that the action suggests changing. Then, we propose a new framework of CE, named Counterfactual Explanation by Pairs of Imputation and Action (CEPIA), that enables users to obtain valid actions even with missing values and clarifies how actions are affected by imputation of the missing values. Specifically, our CEPIA provides a representative set of pairs of an imputation candidate for a given incomplete instance and its optimal action. We formulate the problem of finding such a set as a submodular maximization problem, which can be solved by a simple greedy algorithm with an approximation guarantee. Experimental results demonstrated the efficacy of our CEPIA in comparison with the baselines in the presence of missing values.
翻訳日:2023-05-01 15:24:39 公開日:2023-04-28
# 時間的敵意増強による映像表現の改善

Improve Video Representation with Temporal Adversarial Augmentation ( http://arxiv.org/abs/2304.14601v1 )

ライセンス: Link先を確認
Jinhao Duan, Quanfu Fan, Hao Cheng, Xiaoshuang Shi, Kaidi Xu(参考訳) 近年の研究では、ニューラルネットワーク(NN)を適切に使用すれば、対向的な拡張が一般化の恩恵を受けることが示されている。 本稿では,時間的注意を利用する新しい映像拡張手法であるtemporal adversarial augmentedation (ta)を提案する。 従来の敵対的拡張とは異なり、TAは時間的関連損失関数を最大化することにより、ビデオクリップに対するニューラルネットワークの注意分布をシフトするように特別に設計されている。 TAは、ニューラルネットワークの焦点に大きな影響を及ぼす多様な時間的視点が得られることを実証する。 これらの例によるトレーニングは、不均衡な時間的情報知覚の欠陥を修復し、時間的シフトに対して防御する能力を高め、最終的にはより一般化する。 TAを活用するために,ビデオ表現を改善するためのTAF(Temporal Video Adversarial Fine-tuning)フレームワークを提案する。 tafはモデルに依存しない、汎用的で、解釈しやすいトレーニング戦略である。 TSM, GST, TAM, TPNの4つの強力なモデルを用いて, 時間関連ベンチマーク(V1&V2, dive48)を用いてTAFを評価する。 実験結果から,TAFはパラメータや計算コストを伴わずに,有意なマージンでこれらのモデルの試験精度を効果的に向上することが示された。 副産物として、TAFはアウト・オブ・ディストリビューション(OOD)設定下での堅牢性も改善する。 コードはhttps://github.com/jinhaoduan/tafで入手できる。

Recent works reveal that adversarial augmentation benefits the generalization of neural networks (NNs) if used in an appropriate manner. In this paper, we introduce Temporal Adversarial Augmentation (TA), a novel video augmentation technique that utilizes temporal attention. Unlike conventional adversarial augmentation, TA is specifically designed to shift the attention distributions of neural networks with respect to video clips by maximizing a temporal-related loss function. We demonstrate that TA will obtain diverse temporal views, which significantly affect the focus of neural networks. Training with these examples remedies the flaw of unbalanced temporal information perception and enhances the ability to defend against temporal shifts, ultimately leading to better generalization. To leverage TA, we propose Temporal Video Adversarial Fine-tuning (TAF) framework for improving video representations. TAF is a model-agnostic, generic, and interpretability-friendly training strategy. We evaluate TAF with four powerful models (TSM, GST, TAM, and TPN) over three challenging temporal-related benchmarks (Something-something V1&V2 and diving48). Experimental results demonstrate that TAF effectively improves the test accuracy of these models with notable margins without introducing additional parameters or computational costs. As a byproduct, TAF also improves the robustness under out-of-distribution (OOD) settings. Code is available at https://github.com/jinhaoduan/TAF.
翻訳日:2023-05-01 15:24:20 公開日:2023-04-28
# 反ユダヤ的メッセージ? 高品質なアノテーションとツイートのラベル付きデータセットのガイド

Antisemitic Messages? A Guide to High-Quality Annotation and a Labeled Dataset of Tweets ( http://arxiv.org/abs/2304.14599v1 )

ライセンス: Link先を確認
Gunther Jikeli, Sameer Karali, Daniel Miehling, and Katharina Soemer(参考訳) 自動ヘイトスピーチ検出における大きな課題の1つは、バイアスやバイアスのない幅広いメッセージをカバーし、一貫してラベル付けされるデータセットの欠如である。 本稿では,ラベル付きデータセットの共通弱点に対処するラベル付け手法を提案する。 われわれは、2019年1月から2021年12月までのユダヤ人、イスラエル、および反ユダヤ主義に関する会話に共通する幅広いトピックを、関連するキーワードで代表的サンプルから抽出し、ラベル付き6,941ツイートのデータセットを作成する。 アノテーションプロセスは,アノテーションのどの部分が適用されるのかをアノテーションに指定させ,ケースバイケースで個人的にその定義に異議を唱えるオプションを与えることによって,一般的に使用される反ユダヤ主義の定義を厳密に適用することを目的としています。 反ユダヤ主義を呼びかけたり、反ユダヤ主義を報告したり、あるいはホロコーストのような反ユダヤ主義と関連があるが、実際には反ユダヤ主義ではないツイートは、自動検出における偽陽性を減らすのに役立つ。 このデータセットには、IHRA(International Holocaust Remembrance Alliance)による反ユダヤ主義の定義に基づく1,250のツイート(18%)が含まれている。 ただし、データセットが包括的ではない点には注意が必要だ。 多くのトピックはまだカバーされておらず、2019年1月から2021年12月までtwitterから収集されたツイートだけを含んでいる。 さらにデータセットには、英語で書かれたツイートのみが含まれている。 これらの制限にもかかわらず、これは反ユダヤ的音声の自動検出の改善に有意義な貢献を期待する。

One of the major challenges in automatic hate speech detection is the lack of datasets that cover a wide range of biased and unbiased messages and that are consistently labeled. We propose a labeling procedure that addresses some of the common weaknesses of labeled datasets. We focus on antisemitic speech on Twitter and create a labeled dataset of 6,941 tweets that cover a wide range of topics common in conversations about Jews, Israel, and antisemitism between January 2019 and December 2021 by drawing from representative samples with relevant keywords. Our annotation process aims to strictly apply a commonly used definition of antisemitism by forcing annotators to specify which part of the definition applies, and by giving them the option to personally disagree with the definition on a case-by-case basis. Labeling tweets that call out antisemitism, report antisemitism, or are otherwise related to antisemitism (such as the Holocaust) but are not actually antisemitic can help reduce false positives in automated detection. The dataset includes 1,250 tweets (18%) that are antisemitic according to the International Holocaust Remembrance Alliance (IHRA) definition of antisemitism. It is important to note, however, that the dataset is not comprehensive. Many topics are still not covered, and it only includes tweets collected from Twitter between January 2019 and December 2021. Additionally, the dataset only includes tweets that were written in English. Despite these limitations, we hope that this is a meaningful contribution to improving the automated detection of antisemitic speech.
翻訳日:2023-05-01 15:23:59 公開日:2023-04-28
# ディープグラフのリプログラミング

Deep Graph Reprogramming ( http://arxiv.org/abs/2304.14593v1 )

ライセンス: Link先を確認
Yongcheng Jing, Chongbin Yuan, Li Ju, Yiding Yang, Xinchao Wang, Dacheng Tao(参考訳) 本稿では,グラフニューラルネットワーク (gnns) 用に最適化されたタスクを再利用する新しいモデルについて検討する。 学習済みのGNNを、生のノード機能やモデルパラメータを修正せずに再プログラムして、さまざまなドメインで多くのクロスレベル下流タスクを処理する。 この目的のために,モデル再プログラミングパラダイムと並行して,革新的なデータ再プログラミングパラダイムを提案する。 前者は入力側の様々なタスクに対する多角化グラフ特徴次元の課題に対処することを目的としており、後者はモデル側の固定されたタスク毎のモデル動作のジレンマを軽減する。 データ再プログラミングでは,不均質な入力次元を扱うための精巧なメタフェットパディング手法を考案するとともに,トランスダクティブなエッジスライミングや,多様な均質なサンプルに対する帰納的メタグレイプディング手法も開発する。 一方、モデル再プログラミングにおいて、クロスドメインタスクを扱う際の表現能力が大きいフリーズモデルを実現するために、新しいタスク適応型再プログラム可能アグリゲータを提案する。 ノード/グラフの分類/回帰, 3次元物体認識, 分散行動認識をまたいだ14のデータセット実験により, 提案手法が, スクラッチから再学習することで得られるものと同等の満足度が得られることを示した。

In this paper, we explore a novel model reusing task tailored for graph neural networks (GNNs), termed as "deep graph reprogramming". We strive to reprogram a pre-trained GNN, without amending raw node features nor model parameters, to handle a bunch of cross-level downstream tasks in various domains. To this end, we propose an innovative Data Reprogramming paradigm alongside a Model Reprogramming paradigm. The former one aims to address the challenge of diversified graph feature dimensions for various tasks on the input side, while the latter alleviates the dilemma of fixed per-task-per-model behavior on the model side. For data reprogramming, we specifically devise an elaborated Meta-FeatPadding method to deal with heterogeneous input dimensions, and also develop a transductive Edge-Slimming as well as an inductive Meta-GraPadding approach for diverse homogenous samples. Meanwhile, for model reprogramming, we propose a novel task-adaptive Reprogrammable-Aggregator, to endow the frozen model with larger expressive capacities in handling cross-domain tasks. Experiments on fourteen datasets across node/graph classification/regression, 3D object recognition, and distributed action recognition, demonstrate that the proposed methods yield gratifying results, on par with those by re-training from scratch.
翻訳日:2023-05-01 15:23:33 公開日:2023-04-28
# 文法学習のための論理語埋め込み

A logical word embedding for learning grammar ( http://arxiv.org/abs/2304.14590v1 )

ライセンス: Link先を確認
Sean Deyo, Veit Elser(参考訳) テキストのコーパスから語彙カテゴリーと構文規則の教師なし推論を可能にするために,前グループ文法と分類文法にインスパイアされた論理文法エンデビング(LGE)モデルを導入する。 LGEはその推論を要約した理解可能な出力を生成し、新しい文を生成するための完全に透明なプロセスを持ち、数百の文から学習することができる。

We introduce the logical grammar emdebbing (LGE), a model inspired by pregroup grammars and categorial grammars to enable unsupervised inference of lexical categories and syntactic rules from a corpus of text. LGE produces comprehensible output summarizing its inferences, has a completely transparent process for producing novel sentences, and can learn from as few as a hundred sentences.
翻訳日:2023-05-01 15:23:09 公開日:2023-04-28
# 障害と損失耐性を持つユニタリ平均化

Unitary Averaging with Fault and Loss Tolerance ( http://arxiv.org/abs/2304.14637v1 )

ライセンス: Link先を確認
Ryan J. Marshman, Deepesh Singh, Austin P. Lund, Timothy C. Ralph(参考訳) 単モードおよび2モードの線形光ゲートに対するユニタリ平均化フレームワークの影響を考察する。 これにより、成功確率とゲート忠実度とのトレードオフが可能となり、完全忠実度ゲートは、少なくとも原理的には、成功確率を有限に減少させることができる。 さらに,平均化方式における符号化誤りや復号誤りも1次まで抑制可能であることを示す。 また、ユニタリ平均化が既存の誤り訂正スキームとどのように連携するかについても検討する。 具体的には,フォールトトレランスを達成するために,成功確率の低下による余分な損失に対応するためにパリティエンコーディングをどのように利用するかを検討する。 また,標準耐故障スキームを用いて耐故障性を達成可能なパラメータ空間を拡張するために,ユニタリ平均化をどのように活用するかを検討する。

We consider the impact of the unitary averaging framework on single and two-mode linear optical gates. We demonstrate that this allows a trade-off between the probability of success and gate fidelity, with perfect fidelity gates being achievable for a finite decrease in the probability of success, at least in principle. Furthermore, we show that the encoding and decoding errors in the averaging scheme can also be suppressed up to the first order. We also look at how unitary averaging can work in conjunction with existing error correction schemes. Specifically, we consider how parity encoding might be used to counter the extra loss due to the decreased probability of success, with the aim of achieving fault tolerance. We also consider how unitary averaging might be utilised to expand the parameter space in which fault tolerance may be achievable using standard fault tolerant schemes.
翻訳日:2023-05-01 15:16:54 公開日:2023-04-28
# ホモ親和性仮定を超越した不均衡ノード分類

Imbalanced Node Classification Beyond Homophilic Assumption ( http://arxiv.org/abs/2304.14635v1 )

ライセンス: Link先を確認
Jie Liu, Mengting He, Guangtao Wang, Nguyen Quoc Viet Hung, Xuequn Shang, Hongzhi Yin(参考訳) 不均衡ノード分類は、グラフニューラルネットワーク(GNN)が多数派に強く依存し、少数派クラスノードの分類において深刻なパフォーマンス劣化に悩まされる現実世界のネットワークに広く存在する。 近年,ラベルとトポロジ分布のバランスをとるために,合成ノードとエッジとマイノリティクラスを構成する不均衡ノード分類法が提案されている。 しかし、それらは全て同じラベルのノードが実世界のグラフにヘテロ親和性辺が広く存在するにもかかわらず接続する傾向があるという親和的な仮定に基づいている。 したがって、ホモ親和性とヘテロ親和性の両方の特徴を均一に集約し、高い不均衡グラフに適用できない合成エッジを生成するために特徴類似性に依存する。 この問題に対処するために,同好性グラフと異好性グラフの両方で不均衡ノード分類を行う新しいグラフSANNを提案する。 まず,同種補間と異種補間を併用した合成ノードを統一的に生成する機能混合器を提案する。 次に,合成ノードと既存のノード間のエッジをランダムにサンプリングすることで,候補エッジのコンテキスト部分グラフを柔軟な範囲で適応的に抽出する適応サブグラフ抽出器を設計する。 最後に, 異なるフィルタチャネルを構成するマルチフィルタサブグラフエンコーダを開発し, 相同性および異種縁に沿って隣人の情報を識別的に集約する。 8つのデータセットに対する大規模な実験は、ホモ親和性グラフとヘテロ親和性グラフの両方において、不均衡ノード分類のためのモデルの優位性を示す。

Imbalanced node classification widely exists in real-world networks where graph neural networks (GNNs) are usually highly inclined to majority classes and suffer from severe performance degradation on classifying minority class nodes. Various imbalanced node classification methods have been proposed recently which construct synthetic nodes and edges w.r.t. minority classes to balance the label and topology distribution. However, they are all based on the homophilic assumption that nodes of the same label tend to connect despite the wide existence of heterophilic edges in real-world graphs. Thus, they uniformly aggregate features from both homophilic and heterophilic neighbors and rely on feature similarity to generate synthetic edges, which cannot be applied to imbalanced graphs in high heterophily. To address this problem, we propose a novel GraphSANN for imbalanced node classification on both homophilic and heterophilic graphs. Firstly, we propose a unified feature mixer to generate synthetic nodes with both homophilic and heterophilic interpolation in a unified way. Next, by randomly sampling edges between synthetic nodes and existing nodes as candidate edges, we design an adaptive subgraph extractor to adaptively extract the contextual subgraphs of candidate edges with flexible ranges. Finally, we develop a multi-filter subgraph encoder that constructs different filter channels to discriminatively aggregate neighbor's information along the homophilic and heterophilic edges. Extensive experiments on eight datasets demonstrate the superiority of our model for imbalanced node classification on both homophilic and heterophilic graphs.
翻訳日:2023-05-01 15:16:39 公開日:2023-04-28
# CVRecon:ニューラルコンストラクションのための3D幾何学的特徴学習を再考

CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction ( http://arxiv.org/abs/2304.14633v1 )

ライセンス: Link先を確認
Ziyue Feng, Leon Yang, Pengsheng Guo, Bing Li(参考訳) 近年,ポーズ画像を用いた神経再建の進歩が目覚ましい進歩を遂げている。 しかし、深度情報がないため、既存のボリュームベース技術は、カメラ線全体に沿った物体表面の2次元画像特徴を単純に複製する。 この重複は空空間と閉空間にノイズをもたらし、高品質な3d幾何学を生み出す上での課題となる。 従来の多視点ステレオ手法からインスピレーションを得て,コストボリュームにリッチな幾何学的埋め込みを生かし,幾何学的特徴学習を容易にするために,エンドツーエンドの3次元ニューラルネットワーク再構成フレームワークCVReconを提案する。 さらに,ビュー依存情報をエンコードする新たな3次元幾何学的特徴表現であるrccv(ray-contextual compensationd cost volume)を提案する。 総合的な実験により, 様々な測定値の復元品質が大幅に向上し, 3次元ジオメトリの明瞭な詳細を回復できることを実証した。 我々の広範なアブレーション研究は、効果的な3次元幾何学的特徴学習スキームの開発に関する洞察を提供する。 プロジェクトページ: https://cvrecon.ziyue.cool/

Recent advances in neural reconstruction using posed image sequences have made remarkable progress. However, due to the lack of depth information, existing volumetric-based techniques simply duplicate 2D image features of the object surface along the entire camera ray. We contend this duplication introduces noise in empty and occluded spaces, posing challenges for producing high-quality 3D geometry. Drawing inspiration from traditional multi-view stereo methods, we propose an end-to-end 3D neural reconstruction framework CVRecon, designed to exploit the rich geometric embedding in the cost volumes to facilitate 3D geometric feature learning. Furthermore, we present Ray-contextual Compensated Cost Volume (RCCV), a novel 3D geometric feature representation that encodes view-dependent information with improved integrity and robustness. Through comprehensive experiments, we demonstrate that our approach significantly improves the reconstruction quality in various metrics and recovers clear fine details of the 3D geometries. Our extensive ablation studies provide insights into the development of effective 3D geometric feature learning schemes. Project page: https://cvrecon.ziyue.cool/
翻訳日:2023-05-01 15:16:12 公開日:2023-04-28
# Let the Chart Spark: テキストから画像への生成モデルによるセマンティックコンテキストのグラフへの埋め込み

Let the Chart Spark: Embedding Semantic Context into Chart with Text-to-Image Generative Model ( http://arxiv.org/abs/2304.14630v1 )

ライセンス: Link先を確認
Shishi Xiao, Suizi Huang, Yue Lin, Yilin Ye, Wei Zeng(参考訳) 画像視覚化は、データとセマンティックコンテキストをシームレスに視覚表現に統合し、エンゲージメントとインフォメーションの両方の方法で複雑な情報を伝達する。 画像可視化の作成を単純化するオーサリングツールの開発に広範な研究がなされている。 しかし、主流の作業は、主に、専用のコーパスから取得した視覚要素に大きく依存する、検索と編集のパイプラインに従っている。 テキスト誘導生成法は登場しているが、事前に定義された実体によって適用性が制限される可能性がある。 本研究では,テキストから画像への生成モデルに基づく意味コンテキストをグラフに埋め込む新しいシステムであるChartSparkを提案する。 ChartSparkは、テキスト入力で伝達されるセマンティックコンテキストと、プレーンチャートに埋め込まれたデータ情報の両方に基づいて、画像視覚化を生成する。 この手法は前景と背景画像の生成の両方に汎用的であり、既存の画像視覚化に関する実証的研究から特定された設計プラクティスを満たす。 さらに,テキストアナライザ,編集モジュール,評価モジュールを統合し,ユーザが画像の可視化を生成,修正,評価できるインタラクティブなビジュアルインタフェースを開発する。 本ツールの有用性を実験的に実証し,テキストから画像への生成モデルとインタラクティブインタフェースを組み合わせた可視化設計の可能性について考察した。

Pictorial visualization seamlessly integrates data and semantic context into visual representation, conveying complex information in a manner that is both engaging and informative. Extensive studies have been devoted to developing authoring tools to simplify the creation of pictorial visualizations. However, mainstream works mostly follow a retrieving-and-editing pipeline that heavily relies on retrieved visual elements from a dedicated corpus, which often compromise the data integrity. Text-guided generation methods are emerging, but may have limited applicability due to its predefined recognized entities. In this work, we propose ChartSpark, a novel system that embeds semantic context into chart based on text-to-image generative model. ChartSpark generates pictorial visualizations conditioned on both semantic context conveyed in textual inputs and data information embedded in plain charts. The method is generic for both foreground and background pictorial generation, satisfying the design practices identified from an empirical research into existing pictorial visualizations. We further develop an interactive visual interface that integrates a text analyzer, editing module, and evaluation module to enable users to generate, modify, and assess pictorial visualizations. We experimentally demonstrate the usability of our tool, and conclude with a discussion of the potential of using text-to-image generative model combined with interactive interface for visualization design.
翻訳日:2023-05-01 15:15:55 公開日:2023-04-28
# 畳み込みニューラルネットワークを用いたランドスケープセマンティクスセグメンテーションの精度と汎用性を向上させる前処理訓練データ

Pre-processing training data improves accuracy and generalisability of convolutional neural network based landscape semantic segmentation ( http://arxiv.org/abs/2304.14625v1 )

ライセンス: Link先を確認
Andrew Clark, Stuart Phinn, Peter Scarth(参考訳) 本稿では,オーストラリア,クイーンズランド州ウェット・トロピクスおよびアザートン・テーブルランズ上空の航空写真における,畳み込みニューラルネットワーク(CNN)訓練と土地利用土地被覆(LULC)特徴のセマンティックセマンティックセグメンテーションのための様々なデータ準備方法を試行した。 これは、さまざまなトレーニングパッチ選択サンプリング戦略、パッチとバッチサイズ、データ拡張とスケーリングの試行とランキングによって実施された。 また,各パッチの1回のパスでlulc分類を行い,複数のグリッドパスを平均し,各パッチの3つの回転バージョンを平均化することにより,モデルの精度を比較した。 Our results showed: a stratified random sampling approach for producing training patches improved the accuracy of classes with a smaller area while having minimal effect on larger classes; a smaller number of larger patches compared to a larger number of smaller patches improves model accuracy; applying data augmentations and scaling are imperative in creating a generalised model able to accurately classify LULC features in imagery from a different date and sensor; and producing the output classification by averaging multiple grids of patches and three rotated versions of each patch produced and more accurate and aesthetic result. 実験の結果を組み合わせることで,2018年トレーニング画像の5モデルを完全にトレーニングし,2015年テスト画像に適用し,出力lulc分類を平均0.14ユーザ精度0.81,生成精度0.87とした。 本研究では,異なる日時センサに適用可能なlulc分類のための汎用的ディープラーニングモデルの開発において,データの事前処理の重要性を実証した。 CNNと地球観測データを用いた今後の研究は、LULCモデルの精度と転送性を高めるために、本研究の成果を実装すべきである。

In this paper, we trialled different methods of data preparation for Convolutional Neural Network (CNN) training and semantic segmentation of land use land cover (LULC) features within aerial photography over the Wet Tropics and Atherton Tablelands, Queensland, Australia. This was conducted through trialling and ranking various training patch selection sampling strategies, patch and batch sizes and data augmentations and scaling. We also compared model accuracy through producing the LULC classification using a single pass of a grid of patches and averaging multiple grid passes and three rotated version of each patch. Our results showed: a stratified random sampling approach for producing training patches improved the accuracy of classes with a smaller area while having minimal effect on larger classes; a smaller number of larger patches compared to a larger number of smaller patches improves model accuracy; applying data augmentations and scaling are imperative in creating a generalised model able to accurately classify LULC features in imagery from a different date and sensor; and producing the output classification by averaging multiple grids of patches and three rotated versions of each patch produced and more accurate and aesthetic result. Combining the findings from the trials, we fully trained five models on the 2018 training image and applied the model to the 2015 test image with the output LULC classifications achieving an average kappa of 0.84 user accuracy of 0.81 and producer accuracy of 0.87. This study has demonstrated the importance of data pre-processing for developing a generalised deep-learning model for LULC classification which can be applied to a different date and sensor. Future research using CNN and earth observation data should implement the findings of this study to increase LULC model accuracy and transferability.
翻訳日:2023-05-01 15:15:34 公開日:2023-04-28
# ハミルトン系のユニタリ制御のための一般化オイラー角

Generalized Euler angles for a unitary control of the Hamiltonian system ( http://arxiv.org/abs/2304.14624v1 )

ライセンス: Link先を確認
Seungjin Lee, Kyunghyun Baek and Jeongho Bang(参考訳) 特殊ユニタリ群 $\textrm{SU}(2^{n})$ の角パラメトリゼーションを、KAK分解を逐次適用することにより、$\textrm{SU}(2)$ のオイラー角を一般化する。 次に、与えられたハミルトニアンの指数曲線に対応する一般化オイラー角のパラメトリック曲線の制約方程式を決定する。 制約方程式は、一階微分代数方程式の形で、$\textrm{SU}(2^{n})$ に対する第二種の標準座標のWei-Norman方程式に似ている。

We provide an angular parametrization of the special unitary group $\textrm{SU}(2^{n})$ generalizing Euler angles for $\textrm{SU}(2)$ by successively applying the KAK decomposition. We then determine constraint equations for the parametric curve of generalized Euler angles corresponding to the exponential curve of a given Hamiltonian. The constraint equations are in the form of first-order differential-algebraic equations and resemble Wei-Norman equations of canonical coordinates of the second kind for $\textrm{SU}(2^{n})$.
翻訳日:2023-05-01 15:15:03 公開日:2023-04-28
# 視覚障害者の安全支援のための品質非依存画像キャプション

Quality-agnostic Image Captioning to Safely Assist People with Vision Impairment ( http://arxiv.org/abs/2304.14623v1 )

ライセンス: Link先を確認
Lu Yu, Malvina Nikandrou, Jiali Jin, Verena Reiser(参考訳) 視覚障害者にとって、自動キャプションは便利なツールになる可能性がある。 このユーザーグループによって撮影された画像は、しばしばうるさいので、誤った、さらには安全でないモデル予測につながる。 本稿では,視覚障害者のための画像キャプションモデルの性能とロバスト性を改善するための品質診断フレームワークを提案する。 データ、モデル、評価の3つの角度からこの問題に対処する。 まず,合成雑音生成のためのデータ拡張手法が,この領域におけるデータのスパーシティにどのように対処できるかを示す。 第2に,最先端のモデルをデュアルネットワークアーキテクチャに拡張し,拡張データを使用し,異なる一貫性損失を活用することで,モデルの堅牢性を高める。 その結果,最先端画像キャプションネットワークに比べ,ciderにおける2.15の絶対的改善や,ノイズに対する頑健性の向上,最大3点改善などの性能向上が示された。 最後に,難易度/雑音レベルの異なる画像に対する信頼度校正を用いた予測信頼性の評価を行い,本モデルが安全性クリティカルな状況においてより確実に動作することを示す。 改良されたモデルは、私たちが王立盲人研究所と共同で開発した補助的な生活用アプリケーションの一部である。

Automated image captioning has the potential to be a useful tool for people with vision impairments. Images taken by this user group are often noisy, which leads to incorrect and even unsafe model predictions. In this paper, we propose a quality-agnostic framework to improve the performance and robustness of image captioning models for visually impaired people. We address this problem from three angles: data, model, and evaluation. First, we show how data augmentation techniques for generating synthetic noise can address data sparsity in this domain. Second, we enhance the robustness of the model by expanding a state-of-the-art model to a dual network architecture, using the augmented data and leveraging different consistency losses. Our results demonstrate increased performance, e.g. an absolute improvement of 2.15 on CIDEr, compared to state-of-the-art image captioning networks, as well as increased robustness to noise with up to 3 points improvement on CIDEr in more noisy settings. Finally, we evaluate the prediction reliability using confidence calibration on images with different difficulty/noise levels, showing that our models perform more reliably in safety-critical situations. The improved model is part of an assisted living application, which we develop in partnership with the Royal National Institute of Blind People.
翻訳日:2023-05-01 15:14:51 公開日:2023-04-28
# MUDiff:完全分子生成のための統一拡散

MUDiff: Unified Diffusion for Complete Molecule Generation ( http://arxiv.org/abs/2304.14621v1 )

ライセンス: Link先を確認
Chenqing Hua, Sitao Luan, Minkai Xu, Rex Ying, Jie Fu, Stefano Ermon, Doina Precup(参考訳) 離散拡散過程と連続拡散過程を組み合わせることで分子データを生成する新しいモデルを提案する。 本モデルは,原子の特徴,2次元離散分子構造,および3次元連続分子座標を含む分子の包括的表現を生成する。 拡散過程を用いることで、分子過程の確率的性質を捉えることができ、異なる因子が分子構造や性質に与える影響を探索することができる。 さらに,拡散過程を認知するための新しいグラフトランスフォーマーアーキテクチャを提案する。 変換器はユークリッド変換と同型であり、原子座標の同値性を維持しながら不変原子とエッジ表現を学習することができる。 この変換器は、幾何学的変換に頑健な分子表現を学ぶために使用できる。 実験と既存手法との比較により, モデルの性能評価を行い, 優れた特性を持つより安定で有効な分子を生成する能力を示した。 我々のモデルは望ましい性質を持つ分子を設計するための有望なアプローチであり、分子モデリングにおいて幅広いタスクに適用することができる。

We present a new model for generating molecular data by combining discrete and continuous diffusion processes. Our model generates a comprehensive representation of molecules, including atom features, 2D discrete molecule structures, and 3D continuous molecule coordinates. The use of diffusion processes allows for capturing the probabilistic nature of molecular processes and the ability to explore the effect of different factors on molecular structures and properties. Additionally, we propose a novel graph transformer architecture to denoise the diffusion process. The transformer is equivariant to Euclidean transformations, allowing it to learn invariant atom and edge representations while preserving the equivariance of atom coordinates. This transformer can be used to learn molecular representations robust to geometric transformations. We evaluate the performance of our model through experiments and comparisons with existing methods, showing its ability to generate more stable and valid molecules with good properties. Our model is a promising approach for designing molecules with desired properties and can be applied to a wide range of tasks in molecular modeling.
翻訳日:2023-05-01 15:14:30 公開日:2023-04-28
# サルエント物体検出のためのf測定値に基づく正のフィードバック法

A positive feedback method based on F-measure value for Salient Object Detection ( http://arxiv.org/abs/2304.14619v1 )

ライセンス: Link先を確認
Ailing Pan, Chao Dai, Chen Pan, Dongping Zhang and Yunchao Xu(参考訳) 現在のSODモデルの大半は、完全な畳み込みネットワーク(FCN)やトランスフォーマーアーキテクチャに基づいて一連のデコーダを設計し、それらを熟練した方法で統合することに焦点を当てている。 これらのモデルは非常に高い性能を達成し、SODの開発に多大な貢献をした。 彼らの研究の主な目的は、非常に困難で時間を要するタスクである最先端のモデルを上回る、新しいアルゴリズムを開発することである。 一方,本研究では,既存の手法を用いて,SODのF測定値に基づく正のフィードバック手法を提案する。 具体的には,提案手法は画像を検出し,既存の複数のモデルに入力し,それぞれの予測マップを取得する。 これらの予測マップは、私たちのポジティブフィードバックメソッドに送られ、注意深くデコーダ設計やモデルトレーニングを必要とせずに、最終的な予測結果を生成する。 さらに,本手法は適応的であり,制約なく既存モデルにもとづく実装が可能である。 5つの公開データセットにおける実験結果から,提案手法は5つの評価指標において最新の12の手法を上回り,塩分マップ予測を行う。 さらに,提案手法では,選択した既存モデルに少なくとも1つの良好な予測結果が存在する場合,予測結果が悪くないことを保証できるロバストネス実験を行った。 提案手法は,低構成ホスト上で評価し,挿入モデルの予測時間オーバーヘッドを除去した後に,20フレーム/秒(FPS)の予測速度を実現する。 これらの結果は,本提案手法の有効性,効率,ロバスト性を強調した。

The majority of current salient object detection (SOD) models are focused on designing a series of decoders based on fully convolutional networks (FCNs) or Transformer architectures and integrating them in a skillful manner. These models have achieved remarkable high performance and made significant contributions to the development of SOD. Their primary research objective is to develop novel algorithms that can outperform state-of-the-art models, a task that is extremely difficult and time-consuming. In contrast, this paper proposes a positive feedback method based on F-measure value for SOD, aiming to improve the accuracy of saliency prediction using existing methods. Specifically, our proposed method takes an image to be detected and inputs it into several existing models to obtain their respective prediction maps. These prediction maps are then fed into our positive feedback method to generate the final prediction result, without the need for careful decoder design or model training. Moreover, our method is adaptive and can be implemented based on existing models without any restrictions. Experimental results on five publicly available datasets show that our proposed positive feedback method outperforms the latest 12 methods in five evaluation metrics for saliency map prediction. Additionally, we conducted a robustness experiment, which shows that when at least one good prediction result exists in the selected existing model, our proposed approach can ensure that the prediction result is not worse. Our approach achieves a prediction speed of 20 frames per second (FPS) when evaluated on a low configuration host and after removing the prediction time overhead of inserted models. These results highlight the effectiveness, efficiency, and robustness of our proposed approach for salient object detection.
翻訳日:2023-05-01 15:14:16 公開日:2023-04-28
# 認識可能な情報ボトルネック

Recognizable Information Bottleneck ( http://arxiv.org/abs/2304.14618v1 )

ライセンス: Link先を確認
Yilin Lyu, Xin Liu, Mingyang Song, Xinyue Wang, Yaxin Peng, Tieyong Zeng, Liping Jing(参考訳) Information Bottlenecks (IB)は、情報圧縮によって見えないデータを一般化する表現を学ぶ。 しかし、既存のIBは空の一般化境界のため、現実のシナリオにおける一般化を保証できない。 最近のpac-bayes ibは、情報圧縮の代わりに情報複雑性を使用し、相互情報一般化境界との接続を確立する。 しかし、高価な第二次曲率の計算が必要であり、実用的応用を妨げる。 本稿では,表現の認識可能性と最近の機能的条件付き相互情報(f-CMI)の一般化境界との関係を確立する。 そこで本研究では,Bregman分散の下での密度比マッチングにより最適化された認識可能性評価により,表現の認識性を規則化する認識可能情報ボトルネック(RIB)を提案する。 いくつかの一般的なデータセットに対する大規模な実験は、モデルの正規化と一般化ギャップの推定において提案手法の有効性を示す。

Information Bottlenecks (IBs) learn representations that generalize to unseen data by information compression. However, existing IBs are practically unable to guarantee generalization in real-world scenarios due to the vacuous generalization bound. The recent PAC-Bayes IB uses information complexity instead of information compression to establish a connection with the mutual information generalization bound. However, it requires the computation of expensive second-order curvature, which hinders its practical application. In this paper, we establish the connection between the recognizability of representations and the recent functional conditional mutual information (f-CMI) generalization bound, which is significantly easier to estimate. On this basis we propose a Recognizable Information Bottleneck (RIB) which regularizes the recognizability of representations through a recognizability critic optimized by density ratio matching under the Bregman divergence. Extensive experiments on several commonly used datasets demonstrate the effectiveness of the proposed method in regularizing the model and estimating the generalization gap.
翻訳日:2023-05-01 15:13:50 公開日:2023-04-28
# ユニタリ量子ゲートに対する制御ハミルトンアプローチのロバスト性

Robustness of controlled Hamiltonian approaches to unitary quantum gates ( http://arxiv.org/abs/2304.14667v1 )

ライセンス: Link先を確認
Eoin Carolan, Bar{\i}\c{s} \c{C}akmak, Steve Campbell(参考訳) 本稿では,反断熱駆動,フロッケ工学,逆工学の3つの手法を用いて,量子ゲートの実現の有効性とレジリエンスについて検討する。 我々は,ゲートの不忠実さ,エネルギーコストに基づく資源オーバーヘッド,時間的誤差への感受性,環境騒音による劣化などの観点から,それらの性能を批判的に分析する。 動的経路に顕著な違いがあるにもかかわらず、ターゲットゲートの実装とリソースオーバーヘッドの有効性の観点から、三つのアプローチにまたがる幅広い一貫した挙動を見出した。 さらに,制御フィールドの機能形式が,ゲート操作の忠実性を決定する上で重要な役割を担っていることを確認した。 我々は,1つのキュービットゲート,特にアダマールゲートについて実演し,n$-qubit 演算の拡張について検討した。

We examine the effectiveness and resilience of achieving quantum gates employing three approaches stemming from quantum control methods: counterdiabatic driving, Floquet engineering, and inverse engineering. We critically analyse their performance in terms of the gate infidelity, the associated resource overhead based on energetic cost, the susceptibility to time-keeping errors, and the degradation under environmental noise. Despite significant differences in the dynamical path taken, we find a broadly consistent behavior across the three approaches in terms of the efficacy of implementing the target gate and the resource overhead. Furthermore, we establish that the functional form of the control fields plays a crucial role in determining how faithfully a gate operation is achieved. Our results are demonstrated for single qubit gates, with particular focus on the Hadamard gate, and we discuss the extension to $N$-qubit operations.
翻訳日:2023-05-01 15:07:55 公開日:2023-04-28
# icu滞在時間予測における連合学習のためのクライアントリクルート

Client Recruitment for Federated Learning in ICU Length of Stay Prediction ( http://arxiv.org/abs/2304.14663v1 )

ライセンス: Link先を確認
Vincent Scheltjens, Lyse Naomi Wamba Momo, Wouter Verbeke, Bart De Moor(参考訳) 近年,医療・医療分野における機械学習と深層学習の進歩と性能向上が目覚ましい。 これらの方法は医療部門で利用可能な膨大なトレーニングデータを必要とするが、分散化されている。 医療機関は膨大な量のデータを生成し、データとプライバシー規制の結果、共有と集中化は依然として課題である。 連合学習技術はこれらの課題に取り組むのに適しています。 しかし、連合学習には、コミュニケーションのオーバーヘッド、効率的なパラメータアグリゲーション、クライアント選択戦略などに関連する新しいオープン問題が含まれている。 本稿では,モデルトレーニングやクライアントリクルートのための連合ネットワークの開始に先立って,その一歩を踏み出します。 クライアントをインテリジェントに採用することで、予測性能を犠牲にすることなく、通信オーバーヘッドとトレーニング全体のコストを削減できる。 クライアントの採用は、連合への最終的な貢献を示す一連の基準に基づいて、潜在的なクライアントがフェデレーションでパーキングすることを避けることを目的としている。 本研究では,クライアントサイトにおける出力分布とサンプルサイズのみを用いたクライアント採用手法を提案する。 我々は、モデル性能を犠牲にすることなく、クライアントのサブセットをリクルートする方法を示し、同時に計算時間を大幅に改善する。 要介護者189名から得られたデータを用いて, 正確な患者を対象としたフェデレーションモデルのトレーニングに採用アプローチを適用することにより, トレーニング時間やトレーニング時間の観点から, 標準手順でトレーニングしたフェデレーションモデルよりも有意に優れていることを示す。

Machine and deep learning methods for medical and healthcare applications have shown significant progress and performance improvement in recent years. These methods require vast amounts of training data which are available in the medical sector, albeit decentralized. Medical institutions generate vast amounts of data for which sharing and centralizing remains a challenge as the result of data and privacy regulations. The federated learning technique is well-suited to tackle these challenges. However, federated learning comes with a new set of open problems related to communication overhead, efficient parameter aggregation, client selection strategies and more. In this work, we address the step prior to the initiation of a federated network for model training, client recruitment. By intelligently recruiting clients, communication overhead and overall cost of training can be reduced without sacrificing predictive performance. Client recruitment aims at pre-excluding potential clients from partaking in the federation based on a set of criteria indicative of their eventual contributions to the federation. In this work, we propose a client recruitment approach using only the output distribution and sample size at the client site. We show how a subset of clients can be recruited without sacrificing model performance whilst, at the same time, significantly improving computation time. By applying the recruitment approach to the training of federated models for accurate patient Length of Stay prediction using data from 189 Intensive Care Units, we show how the models trained in federations made up from recruited clients significantly outperform federated models trained with the standard procedure in terms of predictive power and training time.
翻訳日:2023-05-01 15:07:43 公開日:2023-04-28
# CED: 文書からのカタログ抽出

CED: Catalog Extraction from Documents ( http://arxiv.org/abs/2304.14662v1 )

ライセンス: Link先を確認
Tong Zhu, Guoliang Zhang, Zechang Li, Zijian Yu, Junfei Ren, Mengsong Wu, Zhefeng Wang, Baoxing Huai, Pingfu Chao, Wenliang Chen(参考訳) 長い文書からの文別情報抽出は、枯渇しやすい作業である。 文書骨格の指標として、カタログは自然に文書をセグメントに分類し、情報的なカスケードのセマンティクスを提供する。 その有用性にもかかわらず、カタログは外部知識の助けなしに抽出することは困難である。 特定のテンプレートに準拠する文書の場合、正規表現はカタログを抽出するのに実用的である。 しかし、様々なフォーマットで異なるソースから文書を処理する場合、手作りのヒューリスティックは適用できない。 この問題に対処するため,文書からのカタログ抽出(CED)タスクの最初のデータセットである,手動で注釈付きコーパスを構築した。 このコーパスに基づいて,文書をカタログ木にパースするトランジションベースのフレームワークを提案する。 実験の結果,提案手法はベースラインシステムより優れ,転送能力も良好であることがわかった。 CEDタスクは、非常に長い文書の原文セグメントと情報抽出タスクのギャップを埋める可能性があると考えています。 データとコードは \url{https://github.com/Spico197/CatalogExtraction} で入手できる。

Sentence-by-sentence information extraction from long documents is an exhausting and error-prone task. As the indicator of document skeleton, catalogs naturally chunk documents into segments and provide informative cascade semantics, which can help to reduce the search space. Despite their usefulness, catalogs are hard to be extracted without the assist from external knowledge. For documents that adhere to a specific template, regular expressions are practical to extract catalogs. However, handcrafted heuristics are not applicable when processing documents from different sources with diverse formats. To address this problem, we build a large manually annotated corpus, which is the first dataset for the Catalog Extraction from Documents (CED) task. Based on this corpus, we propose a transition-based framework for parsing documents into catalog trees. The experimental results demonstrate that our proposed method outperforms baseline systems and shows a good ability to transfer. We believe the CED task could fill the gap between raw text segments and information extraction tasks on extremely long documents. Data and code are available at \url{https://github.com/Spico197/CatalogExtraction}
翻訳日:2023-05-01 15:07:19 公開日:2023-04-28
# 医用画像のセグメントモデルについて

Segment Anything Model for Medical Images? ( http://arxiv.org/abs/2304.14660v1 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Lian Liu, Han Zhou, Ao Chang, Xinrui Zhou, Rusi Chen, Junxuan Yu, Jiongquan Chen, Chaoyu Chen, Haozhe Chi, Xindi Hu, Deng-Ping Fan, Fajin Dong, Dong Ni(参考訳) Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。 新たなプロモータブルセグメンテーションタスクを設計し、オートマチックオールと手動プロンプトを含む2つのメインモードを通じて、事前訓練されたモデルを使用してゼロショットイメージセグメンテーションを保証した。 SAMは様々な自然な画像分割タスクにおいて印象的な結果を得た。 しかし、複雑なモダリティ、微細な解剖学的構造、不確実で複雑な物体の境界、広範囲の物体スケールにより、医療画像セグメンテーション(MIS)はより困難である。 SAMは様々な自然な画像分割タスクにおいて印象的な結果を得た。 一方、ゼロショットかつ効率的なMISは、アノテーション時間を大幅に短縮し、医用画像解析の開発を促進することができる。 したがってSAMは潜在的なツールであり、大規模な医療データセットのパフォーマンスをさらに検証する必要がある。 52のオープンソースデータセットを収集、ソートし、16のモダリティ、68のオブジェクト、553Kのスライスを持つ大規模な医療セグメンテーションデータセットを構築しました。 いわゆるCOSMOS 553Kデータセット上で,異なるSAMテスト戦略の包括的な分析を行った。 広範な実験により、SAMは医療画像の物体知覚のためのポイントやボックスなどの手動のヒントで、あらゆるモードと比較して、即時モードでのパフォーマンスが向上することが検証された。 加えて、SAMは特定のオブジェクトやモダリティにおいて顕著なパフォーマンスを示すが、不完全あるいは他の状況では完全に失敗する。 最後に,異なる因子(例えば,セグメンテーション対象のフーリエに基づく境界複雑性とサイズ)がSAMのセグメンテーション性能に与える影響を分析する。 広範な実験によりSAMのゼロショットセグメンテーション能力はMISに直接適用するには不十分であることが確認された。

The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It designed a novel promotable segmentation task, ensuring zero-shot image segmentation using the pre-trained model via two main modes including automatic everything and manual prompt. SAM has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging due to the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. SAM has achieved impressive results on various natural image segmentation tasks. Meanwhile, zero-shot and efficient MIS can well reduce the annotation time and boost the development of medical image analysis. Hence, SAM seems to be a potential tool and its performance on large medical datasets should be further validated. We collected and sorted 52 open-source datasets, and build a large medical segmentation dataset with 16 modalities, 68 objects, and 553K slices. We conducted a comprehensive analysis of different SAM testing strategies on the so-called COSMOS 553K dataset. Extensive experiments validate that SAM performs better with manual hints like points and boxes for object perception in medical images, leading to better performance in prompt mode compared to everything mode. Additionally, SAM shows remarkable performance in some specific objects and modalities, but is imperfect or even totally fails in other situations. Finally, we analyze the influence of different factors (e.g., the Fourier-based boundary complexity and size of the segmented objects) on SAM's segmentation performance. Extensive experiments validate that SAM's zero-shot segmentation capability is not sufficient to ensure its direct application to the MIS.
翻訳日:2023-05-01 15:07:04 公開日:2023-04-28
# MultiZenoTravel: Pareto Front を用いた多目的計画のための可変ベンチマーク

MultiZenoTravel: a Tunable Benchmark for Multi-Objective Planning with Known Pareto Front ( http://arxiv.org/abs/2304.14659v1 )

ライセンス: Link先を確認
Alexandre Quemy, Marc Schoenauer, Johann Dreo(参考訳) 多目的AI計画では、既知のPareto Frontsを示すベンチマークが不足している。 そこで本研究では,解析可能なベンチマーク生成器と,結果の真のParetoを確実に計算する専用ソルバを提案する。 まず、制約のあるバージョンの問題の最適計画を特徴付けることを可能にする提案を証明し、制約のある問題に一般的な問題を還元する方法を示す。 第2に,パレート最適計画を見つけ,アルゴリズムの複雑さを議論するための構成的手法を提案する。 我々は,現実的なインスタンスを適切な時間で処理できる実装を提供する。 最後に, 実演として, この解法を用いて, 世界最大の空港間50空港間の経路, 空港間の球面距離, 既成リスクを考慮した, 世界の2大空港間におけるパレート・最適計画について検討した。

Multi-objective AI planning suffers from a lack of benchmarks exhibiting known Pareto Fronts. In this work, we propose a tunable benchmark generator, together with a dedicated solver that provably computes the true Pareto front of the resulting instances. First, we prove a proposition allowing us to characterize the optimal plans for a constrained version of the problem, and then show how to reduce the general problem to the constrained one. Second, we provide a constructive way to find all the Pareto-optimal plans and discuss the complexity of the algorithm. We provide an implementation that allows the solver to handle realistic instances in a reasonable time. Finally, as a practical demonstration, we used this solver to find all Pareto-optimal plans between the two largest airports in the world, considering the routes between the 50 largest airports, spherical distances between airports and a made-up risk.
翻訳日:2023-05-01 15:06:34 公開日:2023-04-28
# ライブビデオコメント生成のための知識強化モデル

Knowledge Enhanced Model for Live Video Comment Generation ( http://arxiv.org/abs/2304.14657v1 )

ライセンス: Link先を確認
Jieting Chen, Junkai Ding, Wenping Chen, Qin Jin(参考訳) ライブビデオのコメントはビデオメディアプラットフォームで人気があり、チャットの雰囲気を作り、ビデオを見ながらユーザーに補足的な情報を提供することができる。 ライブビデオコメントの自動生成は、ユーザー体験を改善し、ボットチャットのための人間のような生成を可能にする。 既存の作品は、主に短いビデオデータセットに焦点を当て、映画のような長いビデオのような他の重要なビデオタイプを無視している。 本研究は,長編ビデオのライブビデオコメント生成を支援するために,MovieLC(MovieLC)データセットを新たに収集する。 また,ライブビデオコメントの多様性と情報性に着想を得た知識強化生成モデルを提案する。 本モデルは,プリトレーニングエンコーダ・デコーダフレームワークを採用し,外部知識を取り入れている。 実験の結果,客観的指標と人的評価の両方が提案モデルの有効性を示すことがわかった。 MovieLCデータセットとコードがリリースされる。

Live video commenting is popular on video media platforms, as it can create a chatting atmosphere and provide supplementary information for users while watching videos. Automatically generating live video comments can improve user experience and enable human-like generation for bot chatting. Existing works mostly focus on short video datasets while ignoring other important video types such as long videos like movies. In this work, we collect a new Movie Live Comments (MovieLC) dataset to support research on live video comment generation for long videos. We also propose a knowledge enhanced generation model inspired by the divergent and informative nature of live video comments. Our model adopts a pre-training encoder-decoder framework and incorporates external knowledge. Extensive experiments show that both objective metrics and human evaluation demonstrate the effectiveness of our proposed model. The MovieLC dataset and our code will be released.
翻訳日:2023-05-01 15:06:19 公開日:2023-04-28
# 明示的なコミュニケーションから暗黙的な協調へ:MARLの新しいパラダイム

From Explicit Communication to Tacit Cooperation:A Novel Paradigm for Cooperative MARL ( http://arxiv.org/abs/2304.14656v1 )

ライセンス: Link先を確認
Dapeng Li, Zhiwei Xu, Bin Zhang, Guoliang Fan(参考訳) 分散実行による集中学習(CTDE)は、複雑なタスクにおいて大きな成功を収めた広く使われている学習パラダイムである。 しかしながら、部分的な可観測性の問題とエージェント間の効果的な共有信号の欠如は、しばしば協力を促進する効果を制限する。 コミュニケーションはこの課題に対処できるが、同時にアルゴリズムの実用性を低下させる。 人間のチームによる協調学習からインスピレーションを得て,明示的なコミュニケーションから暗黙的な協調へと徐々に移行していく新しいパラダイムを提案する。 初期訓練段階では,エージェント間で関連情報を共有し,各エージェントの局所軌跡を用いて情報を同時に再構築することで協力を促進する。 次に, 明示的に伝達された情報を再構成した情報と組み合わせ, 混合情報を得る。 トレーニングプロセスを通じて、明示的に伝達された情報の比率を段階的に削減し、コミュニケーションなしで完全に分散化された実行へシームレスに移行する。 様々なシナリオにおける実験結果から,通信のない手法の性能がQMIXや通信方式の手法に近づいたり,超えたりできることが示された。

Centralized training with decentralized execution (CTDE) is a widely-used learning paradigm that has achieved significant success in complex tasks. However, partial observability issues and the absence of effectively shared signals between agents often limit its effectiveness in fostering cooperation. While communication can address this challenge, it simultaneously reduces the algorithm's practicality. Drawing inspiration from human team cooperative learning, we propose a novel paradigm that facilitates a gradual shift from explicit communication to tacit cooperation. In the initial training stage, we promote cooperation by sharing relevant information among agents and concurrently reconstructing this information using each agent's local trajectory. We then combine the explicitly communicated information with the reconstructed information to obtain mixed information. Throughout the training process, we progressively reduce the proportion of explicitly communicated information, facilitating a seamless transition to fully decentralized execution without communication. Experimental results in various scenarios demonstrate that the performance of our method without communication can approaches or even surpasses that of QMIX and communication-based methods.
翻訳日:2023-05-01 15:06:06 公開日:2023-04-28
# シャープネス・アウェア・ミニミゼーションを用いた適応ポリシー

An Adaptive Policy to Employ Sharpness-Aware Minimization ( http://arxiv.org/abs/2304.14647v1 )

ライセンス: Link先を確認
Weisen Jiang, Hansi Yang, Yu Zhang, James Kwok(参考訳) ミンマックス最適化により平坦な最小値を求めるシャープネス認識最小化(SAM)はモデル一般化の改善に有用であることが示されている。 しかし、SAMの更新には2つの勾配の計算が必要であるため、計算コストとトレーニング時間は、標準的な経験的リスク最小化(ERM)と比較して2倍になる。 最近の最先端技術はSAM更新の割合を減らし、SAMとERMの更新をランダムまたは周期的に切り替えることでSAMを加速する。 本稿では,ロスランドスケープの幾何学に基づくSAMを用いた適応ポリシーを設計する。 AE-SAMとAE-LookSAMの2つの効率的なアルゴリズムを提案する。 理論的には、AE-SAM はSAM と同じ収束速度を持つ。 各種データセットおよびアーキテクチャの実験結果から,適応ポリシーの有効性と有効性を示す。

Sharpness-aware minimization (SAM), which searches for flat minima by min-max optimization, has been shown to be useful in improving model generalization. However, since each SAM update requires computing two gradients, its computational cost and training time are both doubled compared to standard empirical risk minimization (ERM). Recent state-of-the-arts reduce the fraction of SAM updates and thus accelerate SAM by switching between SAM and ERM updates randomly or periodically. In this paper, we design an adaptive policy to employ SAM based on the loss landscape geometry. Two efficient algorithms, AE-SAM and AE-LookSAM, are proposed. We theoretically show that AE-SAM has the same convergence rate as SAM. Experimental results on various datasets and architectures demonstrate the efficiency and effectiveness of the adaptive policy.
翻訳日:2023-05-01 15:05:49 公開日:2023-04-28
# ネステロフの加速に就て

On Underdamped Nesterov's Acceleration ( http://arxiv.org/abs/2304.14642v1 )

ライセンス: Link先を確認
Shuo Chen, Bin Shi, Ya-xiang Yuan(参考訳) 高分解能微分方程式フレームワークは、Nesterovの加速勾配降下法~(\texttt{NAG})とその近位対応 -- より高速な反復収縮しきい値アルゴリズム(FISTA)のクラスのために調整されたことが証明されている。 しかし、未成年の場合(r < 2$)は含まれていないため、理論体系はまだ完成していない。 本稿では,高分解能微分方程式の枠組みに基づいて,混合項における時間 $t^{\gamma}$ または反復 $k^{\gamma}$ のパワーを動機とする,弱減衰の場合の新しいリアプノフ関数を構築する。 運動量パラメータ $r$ が 2$ であるとき、新しいリャプノフ函数は以前のものと同じである。 これらの新しい証明は、低分解能微分方程式の枠組みに従って得られた目的値の収束率だけでなく、極小勾配ノルム二乗の収束率も含んでいる。 劣化したケースで得られるすべての収束率は、パラメータ $r$ に継続的に依存する。 さらに、高分解能微分方程式は臨界の場合 $r=-1$ に対して~\texttt{NAG} の収束挙動を概ねシミュレートし、低分解能微分方程式は保守ニュートン方程式に退化する。 高分解能微分方程式フレームワークも理論的に収束率を特徴付けており、これは下水の場合の$r=-1$と一致する。

The high-resolution differential equation framework has been proven to be tailor-made for Nesterov's accelerated gradient descent method~(\texttt{NAG}) and its proximal correspondence -- the class of faster iterative shrinkage thresholding algorithms (FISTA). However, the systems of theories is not still complete, since the underdamped case ($r < 2$) has not been included. In this paper, based on the high-resolution differential equation framework, we construct the new Lyapunov functions for the underdamped case, which is motivated by the power of the time $t^{\gamma}$ or the iteration $k^{\gamma}$ in the mixed term. When the momentum parameter $r$ is $2$, the new Lyapunov functions are identical to the previous ones. These new proofs do not only include the convergence rate of the objective value previously obtained according to the low-resolution differential equation framework but also characterize the convergence rate of the minimal gradient norm square. All the convergence rates obtained for the underdamped case are continuously dependent on the parameter $r$. In addition, it is observed that the high-resolution differential equation approximately simulates the convergence behavior of~\texttt{NAG} for the critical case $r=-1$, while the low-resolution differential equation degenerates to the conservative Newton's equation. The high-resolution differential equation framework also theoretically characterizes the convergence rates, which are consistent with that obtained for the underdamped case with $r=-1$.
翻訳日:2023-05-01 15:05:38 公開日:2023-04-28
# 誘導双極子相互作用による磁気浮上質量schr\"odinger cat状態の絡み合い

Entanglement of Magnetically Levitated Massive Schr\"odinger Cat States by Induced Dipole Interaction ( http://arxiv.org/abs/2304.14638v1 )

ライセンス: Link先を確認
Ryan J. Marshman, Sougato Bose, Andrew Geraci, Anupam Mazumdar(参考訳) 量子絡み合いは、非相対論的状態において短距離量子物理学をテストする新しい方法を提供する。 磁気的に誘起される双極子-双極子相互作用と2つのナノ結晶間のカシミール-ポルダーポテンシャルをシュレッディンガーキャット状態でテストするための絡み合いベースのプロトコルを提供する。 提案手法はSG(Stern-Gerlach)装置をベースとし,ナノ結晶の質量 m~10^-19 kg と空間重畳径 0.1μn との相互作用による絡み合いを,磁気浮上に依存したトラップ内で観測することができる。 sg干渉計の位置と運動量については、磁場の勾配が緩やかな状態で閉じることができることを示す。

Quantum entanglement provides a novel way to test short-distance quantum physics in a non-relativistic regime. We provide entanglement-based protocols to potentially test the magnetically induced dipole-dipole interaction and the Casimir-Polder potential between the two nano-crystals kept in a Schrodinger Cat state. Our scheme is based on the Stern-Gerlach (SG) apparatus, where we can witness the entanglement mediated by these interactions for the nano-crystal mass m~10^-19 kg with a spatial superposition size of order 0.1 micron in a trap relying on diamagnetic levitation. We show that it is possible to close the SG interferometer in position and momentum with a modest gradient in the magnetic field.
翻訳日:2023-05-01 15:05:09 公開日:2023-04-28
# 浅層変量量子仮説試験

Shallow-Depth Variational Quantum Hypothesis Testing ( http://arxiv.org/abs/2304.14708v1 )

ライセンス: Link先を確認
Mahadevan Subramanian and Sai Vinjanampathy(参考訳) 2つの既知の量子チャネルを区別するタスクは、よく知られたバイナリ仮説テストタスクである。 本稿では,パラメータ化された状態準備と,仮説テストの受け入れ基準を定義する2値の正の演算子値測定(POVM)を備えた変分量子アルゴリズムを提案する。 状態準備と測定の両方を、局所化測定を用いて計算できる目的関数として単発判別の成功確率を用いて同時に最適化する。 制約付き信号モード光子数量子照明下では、ボソニック回路をシミュレートして既知の最適2モードプローブの性能に適合する。 その結果,変分アルゴリズムは資源制約のある二進仮説テストに最適な状態を準備できることがわかった。

The task of discriminating between two known quantum channels is a well known binary hypothesis testing task. We present a variational quantum algorithm with a parameterized state preparation and two-outcome positive operator valued measure (POVM) which defines the acceptance criteria for the hypothesis test. Both the state preparation and measurement are simultaneously optimized using success probability of single-shot discrimination as an objective function which can be calculated using localized measurements. Under constrained signal mode photon number quantum illumination we match the performance of known optimal 2-mode probes by simulating a bosonic circuit. Our results show that variational algorithms can prepare optimal states for binary hypothesis testing with resource constraints.
翻訳日:2023-05-01 14:57:28 公開日:2023-04-28
# X-RLflow:ニューラルネットワークサブグラフ変換のためのグラフ強化学習

X-RLflow: Graph Reinforcement Learning for Neural Network Subgraphs Transformation ( http://arxiv.org/abs/2304.14698v1 )

ライセンス: Link先を確認
Guoliang He, Sean Parker, Eiko Yoneki(参考訳) テンソルグラフ過最適化システムは、ニューラルネットワークへのサブグラフ置換のシーケンスを実行し、最適な計算グラフ構造を見つける。 このようなグラフ変換プロセスは、自然にシーケンシャルな意思決定の枠組みに陥り、既存のシステムは、通常、検索空間全体を探索できない、一時的なパフォーマンスの損失を許容できない、欲求的な探索アプローチを採用する。 本稿では,代替探索手法である強化学習(RL)を探索することで,テンソルグラフの超最適化問題に対処する。 提案手法であるX-RLflowでは,サブグラフを一度に置き換えるニューラルネットワークデータフローグラフ書き換えを行うことができる。 X-RLflowは、グラフニューラルネットワーク(GNN)を使用して対象の計算グラフを符号化し、変換された計算グラフを反復的に出力するモデルフリーRLエージェントに基づいている。 提案手法は,多種多様なディープラーニングモデルにおいて最先端の超最適化システムより優れており,トランスフォーマースタイルのアーキテクチャをベースとしたシステムでは最大40%向上可能であることを示す。

Tensor graph superoptimisation systems perform a sequence of subgraph substitution to neural networks, to find the optimal computation graph structure. Such a graph transformation process naturally falls into the framework of sequential decision-making, and existing systems typically employ a greedy search approach, which cannot explore the whole search space as it cannot tolerate a temporary loss of performance. In this paper, we address the tensor graph superoptimisation problem by exploring an alternative search approach, reinforcement learning (RL). Our proposed approach, X-RLflow, can learn to perform neural network dataflow graph rewriting, which substitutes a subgraph one at a time. X-RLflow is based on a model-free RL agent that uses a graph neural network (GNN) to encode the target computation graph and outputs a transformed computation graph iteratively. We show that our approach can outperform state-of-the-art superoptimisation systems over a range of deep learning models and achieve by up to 40% on those that are based on transformer-style architectures.
翻訳日:2023-05-01 14:57:17 公開日:2023-04-28
# 境界状態を示す無質量相互作用フェルミオンセルオートマトン

A massless interacting Fermionic Cellular Automaton exhibiting bound states ( http://arxiv.org/abs/2304.14687v1 )

ライセンス: Link先を確認
Edoardo Centofanti, Alessandro Bisio, Paolo Perinotti(参考訳) 1+1次元の質量を持たないディラックフェルミオンと局所的な数保存相互作用を記述するフェルミオンセルオートマトンモデルを提案する。 2つの粒子セクターの対角化は、総運動量と結合定数の特定の値が境界状態の形成を可能にすることを示している。

We present a Fermionic Cellular Automaton model which describes massless Dirac fermion in 1+1 dimension coupled with local, number preserving interaction. The diagonalization of the two particle sector shows that specific values of the total momentum and of the coupling constant allows for the formation of bound states.
翻訳日:2023-05-01 14:56:57 公開日:2023-04-28
# 通信帯域における周波数可変共振器付き単一エルビウム量子エミッタ

Frequency tunable, cavity-enhanced single erbium quantum emitter in the telecom band ( http://arxiv.org/abs/2304.14685v1 )

ライセンス: Link先を確認
Yong Yu, Dorian Oser, Gaia Da Prato, Emanuele Urbinati, Javier Carrasco \'Avila, Yu Zhang, Patrick Remy, Sara Marzban, Simon Gr\"oblacher and Wolfgang Tittel(参考訳) 固体ホストに埋め込まれた単一量子エミッタは、量子情報プロセッサと量子ネットワークノードを実現するための理想的なプラットフォームである。 現在調査中の候補のうち、er$^{3+}$ ionsは、通信バンドにおける1.5ドルの光遷移と長いスピンコヒーレンス時間によって特に魅力的である。 しかし、励起状態の長い寿命(一般的に1ミリ秒以上)と不均一な光遷移の広がりは大きな困難をもたらす。 光子放出速度は禁止的に小さく、異なる放射体は一般的に異なるスペクトルを持つ光子を生成するため、大規模でマルチノードの量子ネットワークを構築するための要求である多光子干渉を防ぐ。 ここでは、1つのer$^{3+}$イオンの放出周波数の線形スタークチューニングを初めて示すことにより、この課題を解決する。 我々のイオンはニオブ酸リチウム結晶に埋め込まれ、シリコンナノフォトニック結晶空洞にエバネッセント状に結合し、測定された崩壊率を最大143増加させる。 結晶c軸に沿って電場を印加することにより、イオンの単光子放出統計を変化させることなく、イオンの線幅よりも大きなスタークチューニングを実現する。 これらの結果は希土類イオンベースの量子ネットワークへの重要なステップである。

Single quantum emitters embedded in solid-state hosts are an ideal platform for realizing quantum information processors and quantum network nodes. Among the currently-investigated candidates, Er$^{3+}$ ions are particularly appealing due to their 1.5 $\mu$m optical transition in the telecom band as well as their long spin coherence times. However, the long lifetimes of the excited state -- generally in excess of 1 ms -- along with the inhomogeneous broadening of the optical transition result in significant challenges. Photon emission rates are prohibitively small, and different emitters generally create photons with distinct spectra, thereby preventing multi-photon interference -- a requirement for building large-scale, multi-node quantum networks. Here we solve this challenge by demonstrating for the first time linear Stark tuning of the emission frequency of a single Er$^{3+}$ ion. Our ions are embedded in a lithium niobate crystal and couple evanescently to a silicon nano-photonic crystal cavity that provides an up to 143 increase of the measured decay rate. By applying an electric field along the crystal c-axis, we achieve a Stark tuning greater than the ion's linewidth without changing the single-photon emission statistics of the ion. These results are a key step towards rare earth ion-based quantum networks.
翻訳日:2023-05-01 14:56:50 公開日:2023-04-28
# PMUを用いたロバスト,高速,スケーラブルな線形状態推定のための因子グラフ上のグラフニューラルネットワーク

Graph Neural Networks on Factor Graphs for Robust, Fast, and Scalable Linear State Estimation with PMUs ( http://arxiv.org/abs/2304.14680v1 )

ライセンス: Link先を確認
Ognjen Kundacina, Mirsad Cosovic, Dragisa Miskovic, Dejan Vukobratovic(参考訳) 送電電力システムにおいて, ファサー測定ユニット(PMU)がより広く使われるようになるにつれて, 高サンプリングレートを生かした高速状態推定(SE)アルゴリズムが求められている。 そこで我々は,グラフニューラルネットワーク(GNN)を用いて,PMU電圧と電流測定から複雑なバス電圧推定値を求める手法を提案する。 本稿では,電力系統バスや分電系統における各種計測値の統合を簡略化するために,電力系統の因子グラフ上でのGNNのオリジナル実装を提案する。 さらに、GNN予測の堅牢性を改善するために、因子グラフを拡大する。 このモデルは非常に効率的でスケーラブルであり、計算の複雑さは電力系統のノード数に対して線形である。 トレーニングとテストの例は、電力系統計測のランダムサンプリングによって生成され、pmusと線形seの厳密な解に注釈が付された。 数値的な結果は,GNNモデルがSE解の正確な近似を提供することを示している。 さらに、通常SE問題を観測不能にするPMU誤動作や通信障害によるエラーは、局所的な効果を持ち、電力系統の他の部分で結果が劣化しない。

As phasor measurement units (PMUs) become more widely used in transmission power systems, a fast state estimation (SE) algorithm that can take advantage of their high sample rates is needed. To accomplish this, we present a method that uses graph neural networks (GNNs) to learn complex bus voltage estimates from PMU voltage and current measurements. We propose an original implementation of GNNs over the power system's factor graph to simplify the integration of various types and quantities of measurements on power system buses and branches. Furthermore, we augment the factor graph to improve the robustness of GNN predictions. This model is highly efficient and scalable, as its computational complexity is linear with respect to the number of nodes in the power system. Training and test examples were generated by randomly sampling sets of power system measurements and annotated with the exact solutions of linear SE with PMUs. The numerical results demonstrate that the GNN model provides an accurate approximation of the SE solutions. Furthermore, errors caused by PMU malfunctions or communication failures that would normally make the SE problem unobservable have a local effect and do not deteriorate the results in the rest of the power system.
翻訳日:2023-05-01 14:56:30 公開日:2023-04-28
# トリレンマとしてのソーシャルメディアのハーム:非対称性、アルゴリズム、そして大胆なデザイン選択

Social Media Harms as a Trilemma: Asymmetry, Algorithms, and Audacious Design Choices ( http://arxiv.org/abs/2304.14679v1 )

ライセンス: Link先を確認
Marc Cheong(参考訳) ソーシャルメディアは、2000年代初頭の初期のソーシャルネットワークの開始以来、その利用とリーチを拡大してきた。 ユーザがソーシャルメディアに目を向けるのは、現在の状況や情報に合わせているからだ。 しかし、ソーシャルメディアは偽情報を広め、危害を及ぼすためにますます使われている。 この投稿では、情報(eco)システムとして、ソーシャルメディアサイトは、情報システムにおける古典的な3層アーキテクチャに対応する3つの側面から脆弱であると主張する: 非対称ネットワーク(データ層)、ユーザエクスペリエンス(アプリケーション層)のパーソナライズを想定するアルゴリズム、ユーザエクスペリエンスと全体的な情報エコシステム(プレゼンテーション層)の悪質または大胆な設計 - 3つのa層として要約することができる。 ソーシャルメディアを“修正”するには,どうすればよいのでしょう? 我々は、上記3Aを解消する上で、哲学からデータ倫理、社会心理学まで、さまざまな同盟分野からの提言をまとめる。

Social media has expanded in its use, and reach, since the inception of early social networks in the early 2000s. Increasingly, users turn to social media for keeping up to date with current affairs and information. However, social media is increasingly used to promote disinformation and cause harm. In this contribution, we argue that as information (eco)systems, social media sites are vulnerable from three aspects, each corresponding to the classical 3-tier architecture in information systems: asymmetric networks (data tier); algorithms powering the supposed personalisation for the user experience (application tier); and adverse or audacious design of the user experience and overall information ecosystem (presentation tier) - which can be summarized as the 3 A's. Thus, the open question remains: how can we 'fix' social media? We will unpack suggestions from various allied disciplines - from philosophy to data ethics to social psychology - in untangling the 3A's above.
翻訳日:2023-05-01 14:56:08 公開日:2023-04-28
# NeuralKG-ind: 帰納的知識グラフ表現学習のためのPythonライブラリ

NeuralKG-ind: A Python Library for Inductive Knowledge Graph Representation Learning ( http://arxiv.org/abs/2304.14678v1 )

ライセンス: Link先を確認
Wen Zhang, Zhen Yao, Mingyang Chen, Zhiwei Huang and Huajun Chen(参考訳) 近年,知識グラフの動的特性から,知識グラフ表現学習 (KGRL) が多数提案されている。 NeuralKG-indは、NeuralKGライブラリの重要なアップデートとして、インダクティブKGRLの最初のライブラリである。 これには標準化されたプロセス、豊富な既存メソッド、分離されたモジュール、包括的な評価指標が含まれる。 NeuralKG-indでは、研究者やエンジニアがKGRL法を再現し、再開発し、比較することが容易である。 NeuralKG-indのライブラリ、実験手法、モデル再実装結果はすべてhttps://github.com/zjukg/NeuralKG/tree/indで公開されている。

Since the dynamic characteristics of knowledge graphs, many inductive knowledge graph representation learning (KGRL) works have been proposed in recent years, focusing on enabling prediction over new entities. NeuralKG-ind is the first library of inductive KGRL as an important update of NeuralKG library. It includes standardized processes, rich existing methods, decoupled modules, and comprehensive evaluation metrics. With NeuralKG-ind, it is easy for researchers and engineers to reproduce, redevelop, and compare inductive KGRL methods. The library, experimental methodologies, and model re-implementing results of NeuralKG-ind are all publicly released at https://github.com/zjukg/NeuralKG/tree/ind .
翻訳日:2023-05-01 14:55:51 公開日:2023-04-28
# sam meets robot surgery:ロバスト性の観点からの実証研究

SAM Meets Robotic Surgery: An Empirical Study in Robustness Perspective ( http://arxiv.org/abs/2304.14674v1 )

ライセンス: Link先を確認
An Wang, Mobarakol Islam, Mengya Xu, Yang Zhang, Hongliang Ren(参考訳) Segment Anything Model (SAM)はセマンティックセグメンテーションの基礎モデルであり、プロンプトによる優れた一般化能力を示す。 本研究では,ロボット外科領域におけるSAMのロバスト性とゼロショット一般化性について検討する。 (i)プロンプト対アンプロンプト (ii) 点ベースのプロンプトに対するバウンディングボックス (iii)重大度5の腐敗及び摂動の一般化 (4)最先端の教師付きモデル対SAM。 我々は、MICCAI EndoVis 2017と2018の2つのよく知られたロボット機器セグメンテーションデータセットを用いて、すべての観察を行う。 広範な評価結果から,SAMはバウンディングボックスのプロンプトで顕著なゼロショット一般化能力を示すが,ポイントベースのプロンプトとアンプロンプトの設定で楽器全体をセグメント化することは困難であることがわかった。 さらに,このモデルでは,楽器マスク(顎,手首など)の一部の予測に失敗したり,同じバウンディングボックス内やポイントベースのプロンプトで楽器を重ね合わせるシナリオにおいて,異なるクラスとして楽器の部品を予測することができなかった。 実際、血液、反射、ぼやけ、日陰といった複雑な手術シナリオでは、機器を特定できない。 さらにSAMは、さまざまな形式のデータ破壊を受けると、高いパフォーマンスを維持するには不十分である。 したがって、SAMは、さらにドメイン固有の微調整をすることなく、下流での外科手術の準備が整っていないと論じることができる。

Segment Anything Model (SAM) is a foundation model for semantic segmentation and shows excellent generalization capability with the prompts. In this empirical study, we investigate the robustness and zero-shot generalizability of the SAM in the domain of robotic surgery in various settings of (i) prompted vs. unprompted; (ii) bounding box vs. points-based prompt; (iii) generalization under corruptions and perturbations with five severity levels; and (iv) state-of-the-art supervised model vs. SAM. We conduct all the observations with two well-known robotic instrument segmentation datasets of MICCAI EndoVis 2017 and 2018 challenges. Our extensive evaluation results reveal that although SAM shows remarkable zero-shot generalization ability with bounding box prompts, it struggles to segment the whole instrument with point-based prompts and unprompted settings. Furthermore, our qualitative figures demonstrate that the model either failed to predict the parts of the instrument mask (e.g., jaws, wrist) or predicted parts of the instrument as different classes in the scenario of overlapping instruments within the same bounding box or with the point-based prompt. In fact, it is unable to identify instruments in some complex surgical scenarios of blood, reflection, blur, and shade. Additionally, SAM is insufficiently robust to maintain high performance when subjected to various forms of data corruption. Therefore, we can argue that SAM is not ready for downstream surgical tasks without further domain-specific fine-tuning.
翻訳日:2023-05-01 14:55:39 公開日:2023-04-28
# 映像品質評価のためのロバストテキストプロンプトセマンティック基準に向けて

Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment ( http://arxiv.org/abs/2304.14672v1 )

ライセンス: Link先を確認
Haoning Wu, Liang Liao, Annan Wang, Chaofeng Chen, Jingwen Hou, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) 野生の自然環境下で収集されたビデオの拡散は、有効なビデオ品質評価(VQA)手法の開発を推し進めている。 現代の世論主導型VQA戦略は、VQAデータセットの規模と分布を制限し、これらのデータによって駆動されるメソッドの満足のいく一般化能力に繋がる、品質スコアのための高価な人的アノテーションからのトレーニングを主にヒンジする。 一方で、いくつかの手作りのゼロショット品質指標は人間の意見からのトレーニングを必要としないが、ビデオの意味を考慮できず、複雑な真正な歪曲(ホワイトバランス、露出など)の理解やビデオ内の意味コンテンツの品質評価に役立たない。 これらの課題に対処するため,テキストプロンプトと視覚的特徴の親和性を確認するために,コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト型セマンティック親和性指標(SAQI)とその局所化バージョン(SAQI-Local)を導入する。 既存の低レベルメトリクスとsaqiを融合することにより,bvqiと改良されたbvqi-localが,既存のゼロショットインデックスを24時間以上上回って,前例のないパフォーマンスを示している。 さらに,テキストプロンプトと最終的な融合重みを共同で最適化するbvqi-localの効率的な微調整方式を考案し,最先端の性能と一般的な意見駆動型vqa法と比較して優れた一般化能力を実現する。 我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。

The proliferation of videos collected during in-the-wild natural settings has pushed the development of effective Video Quality Assessment (VQA) methodologies. Contemporary supervised opinion-driven VQA strategies predominantly hinge on training from expensive human annotations for quality scores, which limited the scale and distribution of VQA datasets and consequently led to unsatisfactory generalization capacity of methods driven by these data. On the other hand, although several handcrafted zero-shot quality indices do not require training from human opinions, they are unable to account for the semantics of videos, rendering them ineffective in comprehending complex authentic distortions (e.g., white balance, exposure) and assessing the quality of semantic content within videos. To address these challenges, we introduce the text-prompted Semantic Affinity Quality Index (SAQI) and its localized version (SAQI-Local) using Contrastive Language-Image Pre-training (CLIP) to ascertain the affinity between textual prompts and visual features, facilitating a comprehensive examination of semantic quality concerns without the reliance on human quality annotations. By amalgamating SAQI with existing low-level metrics, we propose the unified Blind Video Quality Index (BVQI) and its improved version, BVQI-Local, which demonstrates unprecedented performance, surpassing existing zero-shot indices by at least 24\% on all datasets. Moreover, we devise an efficient fine-tuning scheme for BVQI-Local that jointly optimizes text prompts and final fusion weights, resulting in state-of-the-art performance and superior generalization ability in comparison to prevalent opinion-driven VQA methods. We conduct comprehensive analyses to investigate different quality concerns of distinct indices, demonstrating the effectiveness and rationality of our design.
翻訳日:2023-05-01 14:55:15 公開日:2023-04-28
# 医療用プロンプトエンジニアリング:方法論と応用

Prompt Engineering for Healthcare: Methodologies and Applications ( http://arxiv.org/abs/2304.14670v1 )

ライセンス: Link先を確認
Jiaqi Wang, Enze Shi, Sigang Yu, Zihao Wu, Chong Ma, Haixing Dai, Qiushi Yang, Yanqing Kang, Jinru Wu, Huawen Hu, Chenxi Yue, Haiyang Zhang, Yiheng Liu, Xiang Li, Bao Ge, Dajiang Zhu, Yixuan Yuan, Dinggang Shen, Tianming Liu, Shu Zhang(参考訳) 本稿では,医学領域における自然言語処理(nlp)分野におけるプロンプトエンジニアリングの最近の進歩を紹介する。 まず,迅速な工学開発の概要を概説し,質問応答システム,テキスト要約,機械翻訳などの医療用NLPアプリケーションへの重要な貢献を強調する。 一般的な大規模言語モデルの継続的な改善により、医療分野における迅速なエンジニアリングの重要性が高まっている。 本論文の目的は、医療NLP研究者がこの分野における即時工学の応用をよりよく探求するための有用なリソースとブリッジを提供することである。 このレビューが新たなアイデアを提供し、医学NLPの研究と応用に十分な可能性をもたらすことを願っている。

This review will introduce the latest advances in prompt engineering in the field of natural language processing (NLP) for the medical domain. First, we will provide a brief overview of the development of prompt engineering and emphasize its significant contributions to healthcare NLP applications such as question-answering systems, text summarization, and machine translation. With the continuous improvement of general large language models, the importance of prompt engineering in the healthcare domain is becoming increasingly prominent. The aim of this article is to provide useful resources and bridges for healthcare NLP researchers to better explore the application of prompt engineering in this field. We hope that this review can provide new ideas and inspire ample possibilities for research and application in medical NLP.
翻訳日:2023-05-01 14:54:37 公開日:2023-04-28
# 価格予測アプリケーションのための自動機械学習手法のベンチマーク

Benchmarking Automated Machine Learning Methods for Price Forecasting Applications ( http://arxiv.org/abs/2304.14735v1 )

ライセンス: Link先を確認
Horst St\"uhler, Marc-Andr\'e Z\"oller, Dennis Klau, Alexandre Beiderwellen-Bedrikow, Christian Tutschku(参考訳) 使用済み建設設備の価格予測は空間的・時間的価格変動による課題である。 そのため、現在の市場データに基づく予測プロセスの自動化が注目されている。 これらのデータに機械学習(ML)を適用することは、特定のツールの残高を予測するための有望なアプローチであるが、MLの専門知識が不足しているため、中小企業では実装が難しい。 そこで本研究では、自動機械学習(automl)ソリューションを用いて、手動で作成したmlパイプラインを自動生成する可能性を実証する。 私たちはAutoMLメソッドと企業のドメイン知識を組み合わせています。 CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。 複雑な産業要件をすべて考慮し,新たなアプローチの適用性を示すために,我々は,品質とユーザビリティに最も重要な技術的および非技術的指標を組み込んだ,新しい評価尺度であるmethod evaluation scoreを設計した。 この指標に基づき、価格予測の産業利用事例として、AutoMLと組み合わせたドメイン知識が、そのようなソリューションの実施に関心のある革新的中小企業におけるMLエキスパートへの依存を弱める可能性があることを示す。

Price forecasting for used construction equipment is a challenging task due to spatial and temporal price fluctuations. It is thus of high interest to automate the forecasting process based on current market data. Even though applying machine learning (ML) to these data represents a promising approach to predict the residual value of certain tools, it is hard to implement for small and medium-sized enterprises due to their insufficient ML expertise. To this end, we demonstrate the possibility of substituting manually created ML pipelines with automated machine learning (AutoML) solutions, which automatically generate the underlying pipelines. We combine AutoML methods with the domain knowledge of the companies. Based on the CRISP-DM process, we split the manual ML pipeline into a machine learning and non-machine learning part. To take all complex industrial requirements into account and to demonstrate the applicability of our new approach, we designed a novel metric named method evaluation score, which incorporates the most important technical and non-technical metrics for quality and usability. Based on this metric, we show in a case study for the industrial use case of price forecasting, that domain knowledge combined with AutoML can weaken the dependence on ML experts for innovative small and medium-sized enterprises which are interested in conducting such solutions.
翻訳日:2023-05-01 14:49:00 公開日:2023-04-28
# Search-in-the-Chain:複雑な知識集約型タスクのための精度、信頼性、トレーサブルなコンテンツ生成を目指して

Search-in-the-Chain: Towards the Accurate, Credible and Traceable Content Generation for Complex Knowledge-intensive Tasks ( http://arxiv.org/abs/2304.14732v1 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-seng Chua(参考訳) ChatGPTのような大規模言語モデル(LLM)の幅広い応用により、特に複雑な知識集約的なタスクにおいて、LLMによって生成されたコンテンツを正確かつ信頼性の高いものにする方法が非常に重要になる。 本稿では,複雑な知識集約タスクであるマルチホップ質問応答のためのllm生成コンテンツの精度,信頼性,トレーサビリティを向上させるための,search-in-the-chain(searchain)と呼ばれる新しいフレームワークを提案する。 SearChainはLLMと情報検索(IR)を深く統合したフレームワークである。 SearChainでは、LLMはマルチホップ問題の分解であるクエリの連鎖を構成する。 チェーンの各ノードは、IR指向のクエリと、このクエリのためにLLMが生成した回答からなるクエリ-問合せペアである。 IRはチェーンの各ノードの情報を確認し、完了し、追跡し、LCMを誘導して正しいチェーン・オブ・クエリを構築し、最後にマルチホップの質問に答える。 SearChainは、マルチホップ問題に直面した場合のクエリーチェーン構築の試みに対する回答から、LLMの変更を可能にし、知識推論能力を刺激し、LLMの推論プロセスに深く関与するIRのインターフェースを提供する。 IRはLLMのチェーン・オブ・クエリの各ノードと相互作用する。 ノードの情報を検証し、llmに未知の知識を提供することで、llmが応答を生成するプロセスにおいて、チェーン全体の正確性を保証する。 また、LCMがユーザに返したコンテンツは、最終回答だけでなく、問合せ、すなわち、チェーンの各ノードに対してIRによって検索されたクエリとサポートドキュメントの推論プロセスも含み、LCMが生成したコンテンツの信頼性とトレーサビリティを向上させる。 実験の結果、SearChainは4つのマルチホップ質問応答データセットのベースラインよりも優れていた。

With the wide application of Large Language Models (LLMs) such as ChatGPT, how to make the contents generated by LLM accurate and credible becomes very important, especially in complex knowledge-intensive tasks. In this paper, we propose a novel framework called Search-in-the-Chain (SearChain) to improve the accuracy, credibility and traceability of LLM-generated content for multi-hop question answering, which is a typical complex knowledge-intensive task. SearChain is a framework that deeply integrates LLM and information retrieval (IR). In SearChain, LLM constructs a chain-of-query, which is the decomposition of the multi-hop question. Each node of the chain is a query-answer pair consisting of an IR-oriented query and the answer generated by LLM for this query. IR verifies, completes, and traces the information of each node of the chain, so as to guide LLM to construct the correct chain-of-query, and finally answer the multi-hop question. SearChain makes LLM change from trying to give a answer to trying to construct the chain-of-query when faced with the multi-hop question, which can stimulate the knowledge-reasoning ability and provides the interface for IR to be deeply involved in reasoning process of LLM. IR interacts with each node of chain-of-query of LLM. It verifies the information of the node and provides the unknown knowledge to LLM, which ensures the accuracy of the whole chain in the process of LLM generating the answer. Besides, the contents returned by LLM to the user include not only the final answer but also the reasoning process for the question, that is, the chain-of-query and the supporting documents retrieved by IR for each node of the chain, which improves the credibility and traceability of the contents generated by LLM. Experimental results show SearChain outperforms related baselines on four multi-hop question-answering datasets.
翻訳日:2023-05-01 14:48:39 公開日:2023-04-28
# 量子化非干渉計量位相イメージング

Quantum enhanced non-interferometric quantitative phase imaging ( http://arxiv.org/abs/2304.14727v1 )

ライセンス: Link先を確認
Giuseppe Ortolano, Alberto Paniate, Pauline Boucher, Carmine Napoli, Sarika Soman, Silvania F. Pereira, Ivano Ruo Berchera, and Marco Genovese(参考訳) 量子エンタングルメントとスクイージングは、古典的限界を超えた干渉計設定における位相推定とイメージングを著しく改善した。 しかし、古典的領域(例えばptychographyやdiffractive imagingなど)で広く使われている非干渉位相イメージング/リトライバル法には、量子優位の実証がいまだに欠けている。 そこで,このギャップを埋めるために,エンタングルメントを利用して非干渉設定における純相物体のイメージングを強化し,自由伝搬場に対する位相効果のみを測定する。 この方法は、いわゆる「強度方程式の伝達」に基づいており、物体の事前の知識なしに位相の絶対値を提供し、広視野モードで動作するため、時間を要するラスタスキャンを必要としないため、定量的である。 さらに、入射光の空間的・時間的コヒーレンスを必要としない。 被写体を通して照射される光子の一定数における画質の一般的な改善に加えて、微小なディテールの識別性が向上し、定量的位相推定における不確かさが明らかに低減されることを示した。 可視光スペクトルにおける特定のスキームの実験的実証を提供するが、この研究は、例えば、光子線量を減らすことが最も重要であるX線イメージングなどの異なる波長での応用の道を開く。

Quantum entanglement and squeezing have significantly improved phase estimation and imaging in interferometric settings beyond the classical limits. However, for a wide class of non-interferometric phase imaging/retrieval methods vastly used in the classical domain e.g., ptychography and diffractive imaging, a demonstration of quantum advantage is still missing. Here, we fill this gap by exploiting entanglement to enhance imaging of a pure phase object in a non-interferometric setting, only measuring the phase effect on the free-propagating field. This method, based on the so-called "transport of intensity equation", is quantitative since it provides the absolute value of the phase without prior knowledge of the object and operates in wide-field mode, so it does not need time-consuming raster scanning. Moreover, it does not require spatial and temporal coherence of the incident light. Besides a general improvement of the image quality at a fixed number of photons irradiated through the object, resulting in better discrimination of small details, we demonstrate a clear reduction of the uncertainty in the quantitative phase estimation. Although we provide an experimental demonstration of a specific scheme in the visible spectrum, this research also paves the way for applications at different wavelengths, e.g., X-ray imaging, where reducing the photon dose is of utmost importance.
翻訳日:2023-05-01 14:48:06 公開日:2023-04-28
# 非線形電気力学における高次高調波の共鳴発生

Resonant generation of high-order harmonics in nonlinear electrodynamics ( http://arxiv.org/abs/2304.14722v1 )

ライセンス: Link先を確認
Ilia Kopchinskii, Petr Satunin(参考訳) 真空非線形電気力学モデルにおける閉空洞内の高次高調波の共振発生過程について検討する。 具体的には、2つのポンプモード(\omega_1$および$\omega_2$)によって誘発される複合周波数モードの共振生成とともに、単一電磁モードによる三次高調波の発生の可能性について検討する。 2\omega_1+\omega_2$複合周波数モードは共振増幅されないが、2\omega_1-\omega_2$信号モードは特定の空洞形状に対して増幅される。 量子論の観点からプロセスについて議論する。

We study the process of resonant generation of high-order harmonics in a closed cavity in the model of vacuum nonlinear electrodynamics. Concretely, we study the possibility of resonant generation of the third harmonic induced by a single electromagnetic mode in a radiofrequency cavity, as well as resonant generation of a combined frequency mode induced by two pump modes ($\omega_1$ and $\omega_2$). We explicitly show that the third harmonic as well as the $2\omega_1+\omega_2$ combined frequency mode are not resonantly amplified, while the $2\omega_1-\omega_2$ signal mode is amplified for certain cavity geometry. We discuss the process from the point of view of quantum theory.
翻訳日:2023-05-01 14:47:45 公開日:2023-04-28
# 自律システムに向けて:大規模言語モデルエージェントによるフレキシブル・モジュラー生産システム

Towards autonomous system: flexible modular production system enhanced with large language model agents ( http://arxiv.org/abs/2304.14721v1 )

ライセンス: Link先を確認
Yuchen Xia, Manthan Shenoy, Nasser Jazdi, Michael Weyrich(参考訳) 本稿では,大規模言語モデル(LLM),デジタルツイン,産業自動化システムを組み合わせて,生産プロセスのインテリジェントな計画と制御を可能にする新しいフレームワークを提案する。 我々のアプローチは、製造に関する記述情報を含むデジタル双生児システムを開発し、自動化コンポーネントやモジュールによって実行可能な細粒度機能やスキルの統一インターフェースを提供する。 その後、LLM-Agentsはデジタルツインの記述情報を解釈し、RESTfulインターフェースを介して物理システムを制御するように設計されている。 これらのLSM-Agentは自動化システム内のインテリジェントエージェントとして機能し、自律的な計画と柔軟な生産の制御を可能にする。 タスク命令が入力として与えられると、LLMエージェントはタスクを達成するための一連の原子機能とスキルを編成する。 実装済みのプロトタイプが未定義のタスクをどのように処理し、運用プロセスを計画し、操作を実行するかを示します。 この研究は、よりアジャイルでフレキシブルで適応的な生産プロセスのために産業自動化システムにllmを統合する可能性を強調するとともに、将来の作業における重要な洞察と限界を強調する。

In this paper, we present a novel framework that combines large language models (LLMs), digital twins and industrial automation system to enable intelligent planning and control of production processes. Our approach involves developing a digital twin system that contains descriptive information about the production and retrofitting the automation system to offer unified interfaces of fine-granular functionalities or skills executable by automation components or modules. Subsequently, LLM-Agents are designed to interpret descriptive information in the digital twins and control the physical system through RESTful interfaces. These LLM-Agents serve as intelligent agents within an automation system, enabling autonomous planning and control of flexible production. Given a task instruction as input, the LLM-agents orchestrate a sequence of atomic functionalities and skills to accomplish the task. We demonstrate how our implemented prototype can handle un-predefined tasks, plan a production process, and execute the operations. This research highlights the potential of integrating LLMs into industrial automation systems for more agile, flexible, and adaptive production processes, while also underscoring the critical insights and limitations for future work.
翻訳日:2023-05-01 14:47:33 公開日:2023-04-28
# マルチリンクWi-Fiネットワークにおけるリンク活性化のための強化学習フレームワーク

A Federated Reinforcement Learning Framework for Link Activation in Multi-link Wi-Fi Networks ( http://arxiv.org/abs/2304.14720v1 )

ライセンス: Link先を確認
Rashid Ali and Boris Bellalta(参考訳) 次世代Wi-Fiネットワークは、高いスループットと低レイテンシを実現するために、マルチリンク操作(MLO)のような新機能の導入を楽しみにしている。 しかしながら、利用可能なチャンネルの数が限られているため、競合するベーシックサービスセット(BSS)のグループによる複数のリンクの使用は、より高い干渉とチャネル競合をもたらす可能性があるため、パフォーマンスと信頼性が低下する可能性がある。 このような状況下では、チャネルアクセス競合の低減に寄与するなら、すべてのBSSがリンクを少なくする方がよいだろう。 近年、強化学習(RL)は、無線ネットワークにおけるリソース割り当てを最適化する可能性を示している。 しかし、各無線ネットワークの独立操作は、個々のネットワークが良い構成を学ぶのに、ほとんど不可能ではないにせよ、困難である。 本稿では,データを交換することなく複数の分散エージェントにまたがるモデルをトレーニングするための協調機械学習アプローチであるフェデレーション強化学習(FRL)フレームワークを用いて,近隣のBSSのグループによる最高のMLO-Link Allocation(LA)戦略を協調的に学習する。 シミュレーションの結果,FRL ベースの分散 MLO-LA 戦略はスループットの公平性を向上し,各 BSS が固定,ランダムおよび RL ベースの MLO-LA 方式と比較して,最小データレートを最大化するリンク割り当て戦略を見つけることができるため,信頼性が高くなった。

Next-generation Wi-Fi networks are looking forward to introducing new features like multi-link operation (MLO) to both achieve higher throughput and lower latency. However, given the limited number of available channels, the use of multiple links by a group of contending Basic Service Sets (BSSs) can result in higher interference and channel contention, thus potentially leading to lower performance and reliability. In such a situation, it could be better for all contending BSSs to use less links if that contributes to reduce channel access contention. Recently, reinforcement learning (RL) has proven its potential for optimizing resource allocation in wireless networks. However, the independent operation of each wireless network makes difficult -- if not almost impossible -- for each individual network to learn a good configuration. To solve this issue, in this paper, we propose the use of a Federated Reinforcement Learning (FRL) framework, i.e., a collaborative machine learning approach to train models across multiple distributed agents without exchanging data, to collaboratively learn the the best MLO-Link Allocation (LA) strategy by a group of neighboring BSSs. The simulation results show that the FRL-based decentralized MLO-LA strategy achieves a better throughput fairness, and so a higher reliability -- because it allows the different BSSs to find a link allocation strategy which maximizes the minimum achieved data rate -- compared to fixed, random and RL-based MLO-LA schemes.
翻訳日:2023-05-01 14:47:13 公開日:2023-04-28
# SGED:スパイキングジェスチャー感情認識の性能評価のためのベンチマークデータセット

SGED: A Benchmark dataset for Performance Evaluation of Spiking Gesture Emotion Recognition ( http://arxiv.org/abs/2304.14714v1 )

ライセンス: Link先を確認
Binqiang Wang and Gang Dong and Yaqian Zhao and Rengang Li and Lu Cao and Lihua Lu(参考訳) 情緒的コンピューティングの分野では、コミュニティの研究者がマルチモーダル情報の相補性を用いてモデルとアルゴリズムのパフォーマンスを奨励している。 しかし、より多くのモーダル情報の出現により、既存のモーダルセンシング機器の進歩に追従できないデータセットの開発が進む。 マルチモーダルデータの収集と研究は複雑で重要な作業である。 コミュニティデータの部分的欠落の課題を補うために。 既存のデータセットの分析に基づいて,新しい均質なマルチモーダルジェスチャ感情認識データセットを収集,ラベル付けした。 このデータセットは、均質なマルチモーダルデータの欠陥を補完し、感情認識のための新しい研究方向を提供する。 さらに,このデータセットに基づく疑似デュアルフローネットワークを提案し,情緒的コンピューティングコミュニティにおけるこのデータセットの応用可能性を検証する。 実験結果から、従来の視覚情報を用いて、同質なマルチモーダルデータに基づく視覚情報を視覚的感情認識に用いることが可能であることが示され、データセットは \url{https://github.com/201528014227051/SGED} で公開されている。

In the field of affective computing, researchers in the community have promoted the performance of models and algorithms by using the complementarity of multimodal information. However, the emergence of more and more modal information makes the development of datasets unable to keep up with the progress of existing modal sensing equipment. Collecting and studying multimodal data is a complex and significant work. In order to supplement the challenge of partial missing of community data. We collected and labeled a new homogeneous multimodal gesture emotion recognition dataset based on the analysis of the existing data sets. This data set complements the defects of homogeneous multimodal data and provides a new research direction for emotion recognition. Moreover, we propose a pseudo dual-flow network based on this dataset, and verify the application potential of this dataset in the affective computing community. The experimental results demonstrate that it is feasible to use the traditional visual information and spiking visual information based on homogeneous multimodal data for visual emotion recognition.The dataset is available at \url{https://github.com/201528014227051/SGED}
翻訳日:2023-05-01 14:46:42 公開日:2023-04-28
# Rydberg原子の個体群とエンタングルメントダイナミクスに対する巨大原子効果

Giant-Atom Effects on Population and Entanglement Dynamics of Rydberg Atoms ( http://arxiv.org/abs/2304.14713v1 )

ライセンス: Link先を確認
Yao-Tong Chen, Lei Du, Yan Zhang, Lingzhen Guo, Jin-Hui Wu, M. Artoni, and G. C. La Rocca(参考訳) 巨大原子は、工学的導波路の量子光学における新たなパラダイムとして注目を集めている。 本稿では、コヒーレント場によって駆動される相互作用するリドベルグ原子の対から始まり、フォトニック結晶導波路と結合した光学系で働く合成巨大原子を実現する。 巨大原子効果は、この原子対の初期進化の間、二重リドバーグ励起の位相依存的崩壊として観察できるが、(内部)原子の絡み合いは後に現れる。 このような興味深い絡み合いの発生は、非誘導真空モードに対する内在的な原子崩壊の存在下で起こり、放出された光子の反束相関が伴う。 我々の発見は量子情報処理に関係し、光学的に駆動される自然原子で巨大原子導波路物理学を広めることができるかもしれない。

Giant atoms are attracting interest as an emerging paradigm in the quantum optics of engineered waveguides. Here we propose to realize a synthetic giant atom working in the optical regime starting from a pair of interacting Rydberg atoms driven by a coherent field and coupled to a photonic crystal waveguide. Giant-atom effects can be observed as a phase-dependent decay of the double Rydberg excitation during the initial evolution of this atomic pair while (internal) atomic entanglement is exhibited at later times. Such an intriguing entanglement onset occurs in the presence of intrinsic atomic decay toward non-guided vacuum modes and is accompanied by an anti-bunching correlation of the emitted photons. Our findings may be relevant to quantum information processing, besides broadening the giant-atom waveguide physics with optically driven natural atoms.
翻訳日:2023-05-01 14:46:26 公開日:2023-04-28
# 実世界3次元バンドル問題のためのベンチマークデータセットとインスタンス生成

Benchmark dataset and instance generator for Real-World Three-Dimensional Bin Packing Problems ( http://arxiv.org/abs/2304.14712v1 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez and Sebasti\'an V. Romero(参考訳) 本稿では,実世界のビンパッキング問題のベンチマークを提案する。 このデータセットは、サイズ(38から53までのパッケージ数)とユーザ定義要件に関するさまざまなレベルの問題複雑性を解釈する12のインスタンスで構成されている。 実際、これらのインスタンスを構築するために、いくつかの現実世界指向の制限が検討されている。 一 アイテム及びビン次元 二 重量制限 三 パッケージカテゴリー間の親和性 四 パッケージ注文の優先事項及び v) ロードバランシング。 データに加えて、Q4RealBPP-DataGenと呼ばれるデータセット生成用の独自のPythonスクリプトも提供しています。 このベンチマークは、まず量子ソルバを評価するために提案され、そのため、この一連のインスタンスの特性は量子デバイスの現在の制限に従って設計された。 さらに、データセットジェネレータは汎用ベンチマークの構築を可能にする。 本稿では,量子コンピューティング研究者が実世界のビンパッキング問題に取り組むためのベースラインを提供する。

In this paper, a benchmark for real-world bin packing problems is proposed. This dataset is composed of 12 instances comprehending different levels of problem complexity regarding size (with the number of packages ranging from 38 to 53) and user-defined requirements. In fact, several real-world oriented restrictions have been considered for building these instances: i) items and bins dimensions, ii) weight restrictions, iii) affinities among packages categories iv) preferences for package ordering and v) load balancing. Besides the data, we also provide an own-developed Python script for the dataset generation, coined as Q4RealBPP-DataGen. The benchmark was firstly proposed to evaluate quantum solvers, therefore the characteristic of this set of instances were designed according to the current limitations of quantum devices. Additionally, the dataset generator is included to allow the construction of general-purpose benchmarks. The data introduced on this paper provides a baseline that will encourage quantum computing researchers to work on real-world bin packing problems
翻訳日:2023-05-01 14:46:11 公開日:2023-04-28
# 画像に基づくインド手話認識:ディープニューラルネットワークを用いた実践的レビュー

Image-based Indian Sign Language Recognition: A Practical Review using Deep Neural Networks ( http://arxiv.org/abs/2304.14710v1 )

ライセンス: Link先を確認
Mallikharjuna Rao K, Harleen Kaur, Sanjam Kaur Bedi, and M A Lekhana(参考訳) 声や聴覚障害のある人は手話を使って、視覚のジェスチャーやサインを使って自己を表現する。 手話は聴覚障害者が直面するコミュニケーション障害の解決策であるが、多くの一般市民はこの言語を理解できず、特に銀行、空港、スーパーマーケットなどの場所でコミュニケーション障壁を生んでいる。 [1]. この問題を解決するためには手話認識(SLR)システムが必要である。 このモデルの主な焦点は、手話からテキストへ翻訳するリアルタイムの単語レベルの手話認識システムを開発することである。 ASL(American sign language)に関する多くの研究がなされている。 そこで我々は、インドにおける聴覚障害と難聴者コミュニティのニーズに応えるために、ISL(Indian sign language)に取り組んでいる[2]。 本研究では,インド手話に基づく手話認識システムを提案する。 この分析のためには、ユーザーはウェブカメラを使って手の動きの写真を撮影できなければならず、システムは撮影された画像の名前を予測して表示する必要がある。 取得された画像は、グレースケール変換、拡張、マスキングなど、コンピュータビジョン技術を使用するいくつかの処理フェーズを経ている。 我々のモデルは畳み込みニューラルネットワーク(CNN)を用いて訓練され、画像の認識に使用される。 私たちの最良のモデルは99%の精度[3]です。

People with vocal and hearing disabilities use sign language to express themselves using visual gestures and signs. Although sign language is a solution for communication difficulties faced by deaf people, there are still problems as most of the general population cannot understand this language, creating a communication barrier, especially in places such as banks, airports, supermarkets, etc. [1]. A sign language recognition(SLR) system is a must to solve this problem. The main focus of this model is to develop a real-time word-level sign language recognition system that would translate sign language to text. Much research has been done on ASL(American sign language). Thus, we have worked on ISL(Indian sign language) to cater to the needs of the deaf and hard-of-hearing community of India[2]. In this research, we provide an Indian Sign Language-based Sign Language recognition system. For this analysis, the user must be able to take pictures of hand movements using a web camera, and the system must anticipate and display the name of the taken picture. The acquired image goes through several processing phases, some of which use computer vision techniques, including grayscale conversion, dilatation, and masking. Our model is trained using a convolutional neural network (CNN), which is then utilized to recognize the images. Our best model has a 99% accuracy rate[3].
翻訳日:2023-05-01 14:45:58 公開日:2023-04-28
# LostPaw:視覚入力を用いたコントラスト学習型トランスを用いたペット発見

LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input ( http://arxiv.org/abs/2304.14765v1 )

ライセンス: Link先を確認
Andrei Voinea, Robin Kock, Maruf A. Dhali(参考訳) ペットをなくすことは、ペットの飼い主にとって非常に苦痛であり、失われたペットを見つけることはしばしば困難で時間を要する。 人工知能ベースのアプリケーションは、失われたペットを見つけるスピードと精度を大幅に向上させることができる。 このような応用を容易にするため,本研究では,ペットの画像を正確に識別できるコントラストニューラルネットワークモデルを提案する。 このモデルは犬の画像の大規模なデータセットで訓練され、3倍のクロスバリデーションによって評価された。 350回の訓練の後、このモデルは90%の精度で試験を行った。 さらに、試験精度が訓練精度と密接に一致するため、オーバーフィッティングは避けられた。 以上の結果から,コントラストニューラルネットワークモデルは,失われたペットを見つけるためのツールとしてpromiseを保っていることが示唆された。 本論文は,行方不明のペットの画像をアップロードし,ユーザの画像データベースに一致する画像が見つかると通知を受け取ることのできるWebアプリケーションの基礎を提供する。 これにより、ペットの飼い主は失ったペットを素早く正確に見つけ、家族と再会できる。

Losing pets can be highly distressing for pet owners, and finding a lost pet is often challenging and time-consuming. An artificial intelligence-based application can significantly improve the speed and accuracy of finding lost pets. In order to facilitate such an application, this study introduces a contrastive neural network model capable of accurately distinguishing between images of pets. The model was trained on a large dataset of dog images and evaluated through 3-fold cross-validation. Following 350 epochs of training, the model achieved a test accuracy of 90%. Furthermore, overfitting was avoided, as the test accuracy closely matched the training accuracy. Our findings suggest that contrastive neural network models hold promise as a tool for locating lost pets. This paper provides the foundation for a potential web application that allows users to upload images of their missing pets, receiving notifications when matching images are found in the application's image database. This would enable pet owners to quickly and accurately locate lost pets and reunite them with their families.
翻訳日:2023-05-01 14:39:06 公開日:2023-04-28
# カーネル化スタインの相違に基づく適合性試験の改善のための摂動法

Using Perturbation to Improve Goodness-of-Fit Tests based on Kernelized Stein Discrepancy ( http://arxiv.org/abs/2304.14762v1 )

ライセンス: Link先を確認
Xing Liu, Andrew B. Duncan, Axel Gandy(参考訳) kernelized stein discrepancy (ksd) は、適合度テストで広く使われるスコアベースの不一致である。 対象分布が未知の正規化因子を持つ場合でも、ベイズ解析のように適用することができる。 我々は、KSD試験が、ターゲットと代替分布が同一の分離モードを持つが混合比が異なる場合、低出力に悩まされることを理論的かつ実証的に示す。 対象分布が不変である点に関して,マルコフ遷移核を介して観測試料を摂動させることを提案する。 これにより、摂動サンプルにKSDテストを適用することができます。 提案手法が好適に選択されたカーネルでは,提案手法がKSD試験よりも大幅に高出力となることを示す数値的な証拠を提供する。

Kernelized Stein discrepancy (KSD) is a score-based discrepancy widely used in goodness-of-fit tests. It can be applied even when the target distribution has an unknown normalising factor, such as in Bayesian analysis. We show theoretically and empirically that the KSD test can suffer from low power when the target and the alternative distribution have the same well-separated modes but differ in mixing proportions. We propose to perturb the observed sample via Markov transition kernels, with respect to which the target distribution is invariant. This allows us to then employ the KSD test on the perturbed sample. We provide numerical evidence that with suitably chosen kernels the proposed approach can lead to a substantially higher power than the KSD test.
翻訳日:2023-05-01 14:38:51 公開日:2023-04-28
# 非バイナリ特徴を持つ分類器のための新しいクラス説明

A New Class of Explanations for Classifiers with Non-Binary Features ( http://arxiv.org/abs/2304.14760v1 )

ライセンス: Link先を確認
Chunxi Ji and Adnan Darwiche(参考訳) 分類器による決定を分析する際,近年,2種類の説明が文献に注目されている。 最初のタイプは、なぜ決定が下されたのかを説明し、決定の十分な理由として知られています。 第2のタイプは、なぜ他の決定が行われなかったのかを説明し、決定に必要な理由として知られ、また対照的な、あるいは反事実的な説明でもある。 これらの説明は、バイナリ、離散、場合によっては連続的な特徴を持つ分類器に対して定義された。 これらの説明は,非バイナリ特徴の存在下では著しく改善され,意思決定や下位の分類器に関する情報を伝達する新たな説明のクラスへと導かれる。 必要十分かつ十分な理由はまた、決定の完全な理由の素因と含意であることが示され、それは量化演算子を用いて得られる。 本稿で定義・研究する新しい量化演算子によって得られた完全理性の概念を改良した結果,必要十分という概念は素因果関係,含意関係であることが示唆された。

Two types of explanations have received significant attention in the literature recently when analyzing the decisions made by classifiers. The first type explains why a decision was made and is known as a sufficient reason for the decision, also an abductive or PI-explanation. The second type explains why some other decision was not made and is known as a necessary reason for the decision, also a contrastive or counterfactual explanation. These explanations were defined for classifiers with binary, discrete and, in some cases, continuous features. We show that these explanations can be significantly improved in the presence of non-binary features, leading to a new class of explanations that relay more information about decisions and the underlying classifiers. Necessary and sufficient reasons were also shown to be the prime implicates and implicants of the complete reason for a decision, which can be obtained using a quantification operator. We show that our improved notions of necessary and sufficient reasons are also prime implicates and implicants but for an improved notion of complete reason obtained by a new quantification operator that we define and study in this paper.
翻訳日:2023-05-01 14:38:40 公開日:2023-04-28
# アルゴリズム的サプライチェーンにおける説明責任の理解

Understanding accountability in algorithmic supply chains ( http://arxiv.org/abs/2304.14749v1 )

ライセンス: Link先を確認
Jennifer Cobbe, Michael Veale, Jatinder Singh(参考訳) アルゴリズムのアカウンタビリティに関する学術的・政策的な提案は、しばしば「多くの手」によって生み出されていることを認識して、社会技術的文脈でアルゴリズムシステムを理解しようとする。 しかし、アルゴリズムシステムは、データの流れによって結合された複数のアクターからなるサプライチェーン内でも、生成、デプロイ、使用されるようになっている。 そのような場合、システムを動かし、特定の結果を生み出す生産、配備、使用、機能に貢献する、異なるアクターのアルゴリズム的なサプライチェーンを一緒に作業します。 アルゴリズム的説明責任の議論はサプライチェーンと、それがアルゴリズムシステムのガバナンスと説明責任に生み出す困難さを考慮すべきである。 そうすることで、アルゴリズムサプライチェーンを探索し、より広範な技術的、政治的経済状況に配置し、アルゴリズムガバナンスと説明責任(特に汎用AIサービスに関する)に関する今後の研究で理解すべきいくつかの重要な特徴を特定します。 サプライチェーンがもたらす影響をさらに強調するため、アクター間のシステム間の分散責任によるアカウンタビリティの割当、説明責任の地平による可視性の制限、利用と責任のサービスモデル、国境を越えたサプライチェーンと規制の仲裁といった課題について論じる。

Academic and policy proposals on algorithmic accountability often seek to understand algorithmic systems in their socio-technical context, recognising that they are produced by 'many hands'. Increasingly, however, algorithmic systems are also produced, deployed, and used within a supply chain comprising multiple actors tied together by flows of data between them. In such cases, it is the working together of an algorithmic supply chain of different actors who contribute to the production, deployment, use, and functionality that drives systems and produces particular outcomes. We argue that algorithmic accountability discussions must consider supply chains and the difficult implications they raise for the governance and accountability of algorithmic systems. In doing so, we explore algorithmic supply chains, locating them in their broader technical and political economic context and identifying some key features that should be understood in future work on algorithmic governance and accountability (particularly regarding general purpose AI services). To highlight ways forward and areas warranting attention, we further discuss some implications raised by supply chains: challenges for allocating accountability stemming from distributed responsibility for systems between actors, limited visibility due to the accountability horizon, service models of use and liability, and cross-border supply chains and regulatory arbitrage
翻訳日:2023-05-01 14:38:20 公開日:2023-04-28
# Flow Transformer: フローベースネットワーク侵入検知システムのためのトランスフォーマフレームワーク

FlowTransformer: A Transformer Framework for Flow-based Network Intrusion Detection Systems ( http://arxiv.org/abs/2304.14746v1 )

ライセンス: Link先を確認
Liam Daly Manocchio, Siamak Layeghy, Wai Weng Lo, Gayan K. Kulatilleke, Mohanad Sarhan, Marius Portmann(参考訳) 本稿では,トランスフォーマを用いたネットワーク侵入検知システム(NIDS)の実装手法であるFlowTransformerフレームワークを提案する。 flowtransformerはトランスフォーマーモデルの強みを利用してネットワークの長期的な振る舞いや特性を識別する。 ネットワークトラフィックの複雑なパターンを捉えることで、flowtransformerは、transformerベースのモデルを使ってnidsを実装しようとしているサイバーセキュリティコミュニティの研究者や実践者のために、柔軟で効率的なツールを提供する。 flowtransformerは、入力エンコーディング、トランス、分類ヘッド、フローベースのネットワークデータセットをまたいだそれらの評価など、様々なトランスフォーマーコンポーネントを直接置換することができる。 FlowTransformerフレームワークの有効性と効率を実証するために、GPT 2.0やBERTといった一般的なトランスフォーマーアーキテクチャを、一般的に使用されている3つのNIDSベンチマークデータセット上で広範囲に評価する。 精度、モデルサイズ、速度に関する結果を提供する。 我々の評価の重要な発見は、分類ヘッドの選択がモデル性能に最も大きな影響を与えることである。 意外なことに、テキスト分類で一般的に使用されるGlobal Average Poolingは、NIDSの文脈では非常に貧弱である。 さらに, モデルサイズを50%以上削減でき, 推論時間やトレーニング時間は向上し, 精度を損なうことなく, 入力エンコーディングや分類ヘッドの特定の選択を他の一般的な代替手段に代えて行うことができた。

This paper presents the FlowTransformer framework, a novel approach for implementing transformer-based Network Intrusion Detection Systems (NIDSs). FlowTransformer leverages the strengths of transformer models in identifying the long-term behaviour and characteristics of networks, which are often overlooked by most existing NIDSs. By capturing these complex patterns in network traffic, FlowTransformer offers a flexible and efficient tool for researchers and practitioners in the cybersecurity community who are seeking to implement NIDSs using transformer-based models. FlowTransformer allows the direct substitution of various transformer components, including the input encoding, transformer, classification head, and the evaluation of these across any flow-based network dataset. To demonstrate the effectiveness and efficiency of the FlowTransformer framework, we utilise it to provide an extensive evaluation of various common transformer architectures, such as GPT 2.0 and BERT, on three commonly used public NIDS benchmark datasets. We provide results for accuracy, model size and speed. A key finding of our evaluation is that the choice of classification head has the most significant impact on the model performance. Surprisingly, Global Average Pooling, which is commonly used in text classification, performs very poorly in the context of NIDS. In addition, we show that model size can be reduced by over 50\%, and inference and training times improved, with no loss of accuracy, by making specific choices of input encoding and classification head instead of other commonly used alternatives.
翻訳日:2023-05-01 14:37:56 公開日:2023-04-28
# 鋼製? 車両補修領域における部品の学習可能な材料

Made of Steel? Learning Plausible Materials for Components in the Vehicle Repair Domain ( http://arxiv.org/abs/2304.14745v1 )

ライセンス: Link先を確認
Annerose Eichel, Helena Schlipf, and Sabine Schulte im Walde(参考訳) 注記データセットの欠如を克服するために,事前学習言語モデル (PLM) をクローズタスク方式で探索することにより,車両修理領域の部品に対するドメイン固有の可塑性材料を学習する手法を提案する。 我々は,一連のクローゼクエリテンプレートから有能な予測を集約する新しい手法を考案し,小型で高品質なウィキペディアコーパスを用いたドメイン適応が性能を向上させることを示す。 リソース指向の選択肢を検討すると、蒸留されたplmが古典的なパターンベースのアルゴリズムよりも明らかに優れています。 さらに、ドメイン固有のコンポーネントの98%がマルチワード表現であることを考えると、データの疎さに対処する方法として構成性の仮定をうまく利用しています。

We propose a novel approach to learn domain-specific plausible materials for components in the vehicle repair domain by probing Pretrained Language Models (PLMs) in a cloze task style setting to overcome the lack of annotated datasets. We devise a new method to aggregate salient predictions from a set of cloze query templates and show that domain-adaptation using either a small, high-quality or a customized Wikipedia corpus boosts performance. When exploring resource-lean alternatives, we find a distilled PLM clearly outperforming a classic pattern-based algorithm. Further, given that 98% of our domain-specific components are multiword expressions, we successfully exploit the compositionality assumption as a way to address data sparsity.
翻訳日:2023-05-01 14:37:27 公開日:2023-04-28
# LitCQD: 数値リテラルを用いた不完全知識グラフのマルチホップ推論

LitCQD: Multi-Hop Reasoning in Incomplete Knowledge Graphs with Numeric Literals ( http://arxiv.org/abs/2304.14742v1 )

ライセンス: Link先を確認
Caglar Demir, Michel Wiebesiek, Renzhong Lu, Axel-Cyrille Ngonga Ngomo, Stefan Heindorf(参考訳) Wikidata、DBpedia、Yagoなどの現実世界の知識グラフは不完全である。 このような不完全なグラフでクエリに応答することは重要だが、難しい問題である。 近年,複雑なクエリ分解(CQD)を含む多くの手法が提案されている。 しかし、最先端のアプローチはすべて、実体と関係からなるグラフのみを考慮し、リテラル値を無視している。 本稿では,クエリと知識グラフの両方が数値リテラル値を含むことが可能な,複雑なマルチホップクエリへの応答手法であるlitcqdを提案する。 例えば、(1)特定の年齢のニューヨークに住む人、(2)ニューヨークに住む人の平均年齢を問うことができる。 litcqdをリテラル値の有無に関わらずクエリ型で評価する。 litcqdを評価するために、リテラル値によって拡張されたfb15k-237データセットのバージョンで、複雑なマルチホップクエリとそれらの期待応答を生成する。

Most real-world knowledge graphs, including Wikidata, DBpedia, and Yago are incomplete. Answering queries on such incomplete graphs is an important, but challenging problem. Recently, a number of approaches, including complex query decomposition (CQD), have been proposed to answer complex, multi-hop queries with conjunctions and disjunctions on such graphs. However, all state-of-the-art approaches only consider graphs consisting of entities and relations, neglecting literal values. In this paper, we propose LitCQD -- an approach to answer complex, multi-hop queries where both the query and the knowledge graph can contain numeric literal values: LitCQD can answer queries having numerical answers or having entity answers satisfying numerical constraints. For example, it allows to query (1)~persons living in New York having a certain age, and (2)~the average age of persons living in New York. We evaluate LitCQD on query types with and without literal values. To evaluate LitCQD, we generate complex, multi-hop queries and their expected answers on a version of the FB15k-237 dataset that was extended by literal values.
翻訳日:2023-05-01 14:37:14 公開日:2023-04-28
# Aubry-Andr\e鎖による中間超指数局在

Intermediate super-exponential localization with Aubry-Andr\'e chains ( http://arxiv.org/abs/2304.14741v1 )

ライセンス: Link先を確認
Arindam Mallick, Alexei Andreanov, Sergej Flach(参考訳) 我々は、Aubry-Andr\e鎖の固有状態に対する中間超指数的局所化系の存在を実証する。 この方法では、固有状態はワニエ・スターク・ラダーの固有状態と同様に因子的に局在する。 超指数崩壊は、$\textit{winding length}$ -- Aubry-Andr\eポテンシャルの準周期の大きい値に対して中間長スケールで現れる。 この中間局在は、系の金属相と絶縁相の両方に存在する。 絶縁相では、超指数局在は周期的に弱く崩壊するテールによって遮断され、オーブリー・アンドロエモデルによって予測される従来の漸近指数崩壊を形成する。 金属相では、スペクトルの中心からエネルギーが離れている状態に対して超指数局在が起こり、さらに延長された固有状態の次のピークへの超指数成長が起こる。 パラメータを調整することで、超指数局在の妥当性を任意に拡張することができる。 準周期離散時間ユニタリ写像において、同様の中間超指数局在性が示される。

We demonstrate the existence of an intermediate super-exponential localization regime for eigenstates of the Aubry-Andr\'e chain. In this regime, the eigenstates localize factorially similarly to the eigenstates of the Wannier-Stark ladder. The super-exponential decay emerges on intermediate length scales for large values of the $\textit{winding length}$ -- the quasi-period of the Aubry-Andr\'e potential. This intermediate localization is present both in the metallic and insulating phases of the system. In the insulating phase, the super-exponential localization is periodically interrupted by weaker decaying tails to form the conventional asymptotic exponential decay predicted for the Aubry-Andr\'e model. In the metallic phase, the super-exponential localization happens for states with energies away from the center of the spectrum and is followed by a super-exponential growth into the next peak of the extended eigenstate. By adjusting the parameters it is possible to arbitrarily extend the validity of the super-exponential localization. A similar intermediate super-exponential localization regime is demonstrated in quasiperiodic discrete-time unitary maps.
翻訳日:2023-05-01 14:36:53 公開日:2023-04-28
# 非分解性メトリクスの最適化のためのコスト感性自己評価

Cost-Sensitive Self-Training for Optimizing Non-Decomposable Metrics ( http://arxiv.org/abs/2304.14738v1 )

ライセンス: Link先を確認
Harsh Rangwani, Shrinivas Ramasubramanian, Sho Takemori, Kato Takashi, Yuhei Umeda, Venkatesh Babu Radhakrishnan(参考訳) 自己学習に基づく半教師付き学習アルゴリズムは、ラベル付きデータのほんの一部を使用して、高精度なディープニューラルネットワークの学習を可能にした。 しかし、自己学習の研究の大半は精度向上の目標に重点を置いているのに対し、実践的な機械学習システムは本質的には分解不可能な複雑な目標(クラス間のリコールの最小限の最大化など)を持つことができる。 本研究では,非分解性メトリクスを最適化するための自己学習手法を一般化したCSSTフレームワークを提案する。 我々は,本フレームワークが,自己学習分析のための類似データ分布仮定に基づいて,ラベルなしデータを利用した望ましくないメトリクスを最適化できることを示す。 提案したCSSTフレームワークを用いて、ディープニューラルネットワークを用いて異なる非分解性メトリクスを最適化するための実践的な自己学習手法(ビジョンとNLPタスクの両方)を得る。 以上の結果から,CSSTはデータセットや目的にまたがるほとんどのケースにおいて,最先端の改善を実現していることが示された。

Self-training based semi-supervised learning algorithms have enabled the learning of highly accurate deep neural networks, using only a fraction of labeled data. However, the majority of work on self-training has focused on the objective of improving accuracy, whereas practical machine learning systems can have complex goals (e.g. maximizing the minimum of recall across classes, etc.) that are non-decomposable in nature. In this work, we introduce the Cost-Sensitive Self-Training (CSST) framework which generalizes the self-training-based methods for optimizing non-decomposable metrics. We prove that our framework can better optimize the desired non-decomposable metric utilizing unlabeled data, under similar data distribution assumptions made for the analysis of self-training. Using the proposed CSST framework, we obtain practical self-training methods (for both vision and NLP tasks) for optimizing different non-decomposable metrics using deep neural networks. Our results demonstrate that CSST achieves an improvement over the state-of-the-art in majority of the cases across datasets and objectives.
翻訳日:2023-05-01 14:36:38 公開日:2023-04-28
# タスク特異的カメラパラメータのエンドツーエンド学習のための微分センサレイアウト

Differentiable Sensor Layouts for End-to-End Learning of Task-Specific Camera Parameters ( http://arxiv.org/abs/2304.14736v1 )

ライセンス: Link先を確認
Hendrik Sommerhoff, Shashank Agnihotri, Mohamed Saleh, Michael Moeller, Margret Keuper, Andreas Kolb(参考訳) ディープラーニングの成功は、エンド・ツー・エンドの方法で特定のアプリケーション上でネットワークの全パラメータをトレーニングする能力としてしばしば説明される。 しかし、センサーのピクセルレイアウトを含むカメラレベルでのいくつかの設計選択は、事前に定義され固定され、高解像度では、通常のピクセルレイアウトはコンピュータビジョンとグラフィックスにおいて最も一般的なものと考えられ、画像のすべての領域を同様に重要視している。 ハードウェアや画像処理における非一様, ヘキサゴナル, フェーベレート, ピクセルレイアウトなどを検討した作品もあるが, これまでのところ, エンド・ツー・エンドの学習パラダイムには組み込まれていない。 本研究では,特定のタスクにおけるニューラルネットワークのパラメータと協調して,画像センサ上の画素のサイズと分布を最適化する,真にエンドツーエンドな画像処理パイプラインを提案する。 センサレイアウトパラメータ化のための分析可能なアプローチを導出し、タスク固有の局所的な画素解像度を実現する。 正則位相を保持する矩形および曲線格子形状の2つの画素配置パラメータ化関数を提案する。 既存の高解像度画像からセンサシミュレーションを近似し,本手法を既存のディープラーニングモデルと直接接続するドロップインモジュールを提案する。 ネットワーク予測は2つの異なる下流タスク、分類とセマンティクスセグメンテーションにおいて学習可能なピクセルレイアウトの恩恵を受けることを示す。

The success of deep learning is frequently described as the ability to train all parameters of a network on a specific application in an end-to-end fashion. Yet, several design choices on the camera level, including the pixel layout of the sensor, are considered as pre-defined and fixed, and high resolution, regular pixel layouts are considered to be the most generic ones in computer vision and graphics, treating all regions of an image as equally important. While several works have considered non-uniform, \eg, hexagonal or foveated, pixel layouts in hardware and image processing, the layout has not been integrated into the end-to-end learning paradigm so far. In this work, we present the first truly end-to-end trained imaging pipeline that optimizes the size and distribution of pixels on the imaging sensor jointly with the parameters of a given neural network on a specific task. We derive an analytic, differentiable approach for the sensor layout parameterization that allows for task-specific, local varying pixel resolutions. We present two pixel layout parameterization functions: rectangular and curvilinear grid shapes that retain a regular topology. We provide a drop-in module that approximates sensor simulation given existing high-resolution images to directly connect our method with existing deep learning models. We show that network predictions benefit from learnable pixel layouts for two different downstream tasks, classification and semantic segmentation.
翻訳日:2023-05-01 14:36:20 公開日:2023-04-28
# 劣化ビデオからの非接触心拍測定

Non-Contact Heart Rate Measurement from Deteriorated Videos ( http://arxiv.org/abs/2304.14789v1 )

ライセンス: Link先を確認
Nhi Nguyen, Le Nguyen, Constantino \'Alvarez Casado, Olli Silv\'en, Miguel Bordallo L\'opez(参考訳) remote photoplethysmography (rppg)は、顔の映像を分析して人間の脈拍を推定するための最先端の非接触法を提供する。 その可能性にもかかわらず、rPPG法は、ノイズ、閉塞、サングラス、マスク、さらには不随意の顔接触によって引き起こされるその他の障害、例えば、不注意に顔に触れる個人など、様々な人工物に影響を受けやすい。 本研究では,映像品質の故意な劣化に画像処理変換を適用し,これらの課題条件を模倣し,劣化したデータに対する非学習型および学習型rppg法の性能評価を行った。 以上の結果から,これらのアーティファクトの存在下での精度の低下が明らかとなり,デノナイズやインペインティングなどの修復技術の適用により,心拍数推定結果の改善が提案された。 そこで本研究では,これらの課題に対処し,実環境に適応可能なRCPG手法を提案する。 提案手法の有効性を評価するため,様々なシナリオやアーティファクトタイプを含む3つの公開データセットの総合的な実験を行った。 本研究は, 修復アルゴリズムとrPPGの最適組み合わせを用いて, 堅牢なrPPGシステムの構築の可能性を明らかにするものである。 さらに,本研究はプライバシを意識したrPPG手法の進歩に寄与し,現実的かつ多様な条件下での遠隔心拍数推定分野における,この革新的な技術の全体的な有用性と影響を高める。

Remote photoplethysmography (rPPG) offers a state-of-the-art, non-contact methodology for estimating human pulse by analyzing facial videos. Despite its potential, rPPG methods can be susceptible to various artifacts, such as noise, occlusions, and other obstructions caused by sunglasses, masks, or even involuntary facial contact, such as individuals inadvertently touching their faces. In this study, we apply image processing transformations to intentionally degrade video quality, mimicking these challenging conditions, and subsequently evaluate the performance of both non-learning and learning-based rPPG methods on the deteriorated data. Our results reveal a significant decrease in accuracy in the presence of these artifacts, prompting us to propose the application of restoration techniques, such as denoising and inpainting, to improve heart-rate estimation outcomes. By addressing these challenging conditions and occlusion artifacts, our approach aims to make rPPG methods more robust and adaptable to real-world situations. To assess the effectiveness of our proposed methods, we undertake comprehensive experiments on three publicly available datasets, encompassing a wide range of scenarios and artifact types. Our findings underscore the potential to construct a robust rPPG system by employing an optimal combination of restoration algorithms and rPPG techniques. Moreover, our study contributes to the advancement of privacy-conscious rPPG methodologies, thereby bolstering the overall utility and impact of this innovative technology in the field of remote heart-rate estimation under realistic and diverse conditions.
翻訳日:2023-05-01 14:30:32 公開日:2023-04-28
# GPT-SW3用多言語トケナイザの訓練と評価

Training and Evaluation of a Multilingual Tokenizer for GPT-SW3 ( http://arxiv.org/abs/2304.14780v1 )

ライセンス: Link先を確認
Felix Stollenwerk(参考訳) 本稿では, GPT-SW3 で使用される多言語トークンについて, 詳細な考察を行う。 SentencePieceライブラリとBPEアルゴリズムを使って、北欧のパイルでトレーニングされた。 私たちはtokenizerの最も重要な特徴を概説し、その学習した語彙の詳細を共有します。 また,その特性を体系的に解析し,データに含まれる異なる言語についてトークン化器の性能評価を行う。

This paper provides a detailed discussion of the multilingual tokenizer used for GPT-SW3. It was trained on the Nordic Pile using the SentencePiece library and the BPE algorithm. We outline the tokenizer's most important features and share details on its learned vocabulary. In addition, we systematically analyze the properties and evaluate the performance of the tokenizer with regard to the different languages present in the data.
翻訳日:2023-05-01 14:30:02 公開日:2023-04-28
# 時間的トレースによる計量時間平衡論理

Metric Temporal Equilibrium Logic over Timed Traces ( http://arxiv.org/abs/2304.14778v1 )

ライセンス: Link先を確認
Arvid Becker, Pedro Cabalar, Mart\'in Di\'eguez, Torsten Schaub, Anna Schuhmann(参考訳) 線形時間に基づく Answer Set Programming (ASP) の時間拡張では、動的システムの振る舞いは状態列によって捉えられる。 この表現は相対的な順序を反映するが、各状態に関連する特定の時間を抽象化する。 しかし、例えば計画やスケジューリングが手元にある場合など、多くのアプリケーションではタイミングの制約が重要である。 我々は、時間的作用素が自然数上の間隔で制約される線形時時平衡論理の計量拡張を開発することでこの問題に対処する。 その結果生まれたMetric Equilibrium Logicは、定性的かつ定量的な動的制約を指定するためのASPベースのアプローチの基礎を提供する。 この目的のために、計量公式のモナディック一階公式への変換を定義し、それらのモデル間の距離平衡論理とモナディック量子化平衡論理の対応を与える。 興味深いことに、我々の翻訳はASPのモジュロ差分制約の観点から実装するためのブループリントを提供します。

In temporal extensions of Answer Set Programming (ASP) based on linear-time, the behavior of dynamic systems is captured by sequences of states. While this representation reflects their relative order, it abstracts away the specific times associated with each state. However, timing constraints are important in many applications like, for instance, when planning and scheduling go hand in hand. We address this by developing a metric extension of linear-time temporal equilibrium logic, in which temporal operators are constrained by intervals over natural numbers. The resulting Metric Equilibrium Logic provides the foundation of an ASP-based approach for specifying qualitative and quantitative dynamic constraints. To this end, we define a translation of metric formulas into monadic first-order formulas and give a correspondence between their models in Metric Equilibrium Logic and Monadic Quantified Equilibrium Logic, respectively. Interestingly, our translation provides a blue print for implementation in terms of ASP modulo difference constraints.
翻訳日:2023-05-01 14:29:53 公開日:2023-04-28
# 屈曲軟導波路の束縛状態

Bound States in Bent Soft Waveguides ( http://arxiv.org/abs/2304.14776v1 )

ライセンス: Link先を確認
Pavel Exner and Semjon Vugalter(参考訳) 本論文の目的は,固定プロファイルの'ditch'形式のポテンシャルを持つ2次元schr\"odinger演算子が幾何学的に誘起される離散スペクトルを持つことを示すことである。 さらに、強い幾何学的制約の下では、この主張はチャネルの「バンク」の1つに潜在的なバイアスが存在する場合にも真である。

The aim of this paper is to show that a two-dimensional Schr\"odinger operator with the potential in the form of a `ditch' of a fixed profile can have a geometrically induced discrete spectrum; this happens if such a potential channel has a single or multiple bends being straight outside a compact. Moreover, under stronger geometric restrictions the claim remains true in the presence of a potential bias at one of the channel `banks'.
翻訳日:2023-05-01 14:29:26 公開日:2023-04-28
# 回帰における概念シフトに頑健なシェープリー値に基づく特徴選択法

A feature selection method based on Shapley values robust to concept shift in regression ( http://arxiv.org/abs/2304.14774v1 )

ライセンス: Link先を確認
Carlos Sebasti\'an and Carlos E. Gonz\'alez-Guill\'en(参考訳) 特徴選択は、統計学習モデルを作成するあらゆる方法論において、最も関連するプロセスの1つです。 一般に、既存のアルゴリズムは最も影響力のある変数を選択するための基準を確立し、関連する情報をモデルに提供しない変数を捨てる。 この手法は、データの結合分布が時間とともに変化しない古典的な静的状況において意味がある。 しかし、実際のデータを扱う場合、データセットシフトの問題、具体的には変数間の関係の変化(概念シフト)に遭遇することが一般的である。 この場合、変換フェーズで学習した関係が現在の状況と一致しないため、変数の影響はモデルの回帰子としての品質を示す唯一の指標にはならない。 そこで本研究では,この事実を考慮に入れた回帰問題に対する特徴選択手法を提案し,各変数が予測に与える影響をShapley値を用いて検討する。 4つの例は、その方法が芸術の状況と一致する典型的な状況と、イベリア市場で概念シフト現象が起こった電力価格予測に関連する1つの例に対応する。 この場合,提案アルゴリズムは結果を大幅に改善する。

Feature selection is one of the most relevant processes in any methodology for creating a statistical learning model. Generally, existing algorithms establish some criterion to select the most influential variables, discarding those that do not contribute any relevant information to the model. This methodology makes sense in a classical static situation where the joint distribution of the data does not vary over time. However, when dealing with real data, it is common to encounter the problem of the dataset shift and, specifically, changes in the relationships between variables (concept shift). In this case, the influence of a variable cannot be the only indicator of its quality as a regressor of the model, since the relationship learned in the traning phase may not correspond to the current situation. Thus, we propose a new feature selection methodology for regression problems that takes this fact into account, using Shapley values to study the effect that each variable has on the predictions. Five examples are analysed: four correspond to typical situations where the method matches the state of the art and one example related to electricity price forecasting where a concept shift phenomenon has occurred in the Iberian market. In this case the proposed algorithm improves the results significantly.
翻訳日:2023-05-01 14:29:13 公開日:2023-04-28
# マルチインタラクション認識のための機械学習モデルとディープラーニングモデルの相乗効果

Synergy of Machine and Deep Learning Models for Multi-Painter Recognition ( http://arxiv.org/abs/2304.14773v1 )

ライセンス: Link先を確認
Vassilis Lyberatos, Paraskevi-Antonia Theofilou, Jason Liartis and Georgios Siolas(参考訳) デジタルアートコレクションの普及により、抽象概念に関連する膨大なデータを管理し、分析し、分類する必要性が生まれ、コンピュータ科学の要求の厳しい問題を強調し、新しい研究の視点に繋がる。 人工知能とニューラルネットワークの進歩は、この課題に適切なツールを提供する。 特定の作品で有用な特徴を抽出するアートワークの分析は、その時代の中心にある。 本研究では,WikiArtレポジトリから派生したデジタル絵画の集合における画家認識の問題にアプローチし,移動学習を用いて適切な特徴と古典的な機械学習手法を抽出し,その結果を評価する。 さまざまなモデルのテストとそれらの微調整を通じて、RegNetは機能のエクスポートにおいてパフォーマンスが向上し、SVMは、最大85%のパフォーマンスを持つ画家に基づいて、イメージの最高の分類を行う、という結論に達した。 また,62名のアーティストを含む絵画認識タスクのための大規模データセットを導入し,良好な結果を得た。

The growing availability of digitized art collections has created the need to manage, analyze and categorize large amounts of data related to abstract concepts, highlighting a demanding problem of computer science and leading to new research perspectives. Advances in artificial intelligence and neural networks provide the right tools for this challenge. The analysis of artworks to extract features useful in certain works is at the heart of the era. In the present work, we approach the problem of painter recognition in a set of digitized paintings, derived from the WikiArt repository, using transfer learning to extract the appropriate features and classical machine learning methods to evaluate the result. Through the testing of various models and their fine tuning we came to the conclusion that RegNet performs better in exporting features, while SVM makes the best classification of images based on the painter with a performance of up to 85%. Also, we introduced a new large dataset for painting recognition task including 62 artists achieving good results.
翻訳日:2023-05-01 14:28:45 公開日:2023-04-28
# マルチサンプルフローマッチング:ミニバッチ結合によるストレートニングフロー

Multisample Flow Matching: Straightening Flows with Minibatch Couplings ( http://arxiv.org/abs/2304.14772v1 )

ライセンス: Link先を確認
Aram-Alexandre Pooladian, Heli Ben-Hamu, Carles Domingo-Enrich, Brandon Amos, Yaron Lipman, and Ricky Chen(参考訳) 連続時間生成モデルのトレーニングのためのシミュレーションフリー手法は、ノイズ分布と個々のデータサンプルの間の確率経路を構築する。 フローマッチングのような最近の研究は、各データサンプルに最適な導出パスである。 しかし、これらのアルゴリズムは独立したデータとノイズサンプルに依存しており、確率経路を構築するためにデータ分布の基盤構造を活用しない。 本稿では,データとノイズサンプル間の非自明な結合を,適切な限界制約を満たしながら利用する,より一般的なフレームワークであるマルチサンプルフローマッチングを提案する。 非常に小さなオーバーヘッドコストで、この一般化によって 一 訓練中の勾配のばらつきを低減すること。 (ii)学習ベクトル場に対してより直線的な流れを得るため、少ない機能評価で高品質なサンプルを生成できる。 三 高次元の低コストで輸送地図を得ることで、生成的モデリングを超えることができる。 重要なことは、単純な最小化目標で完全にシミュレーションのない方法で行う。 提案手法は,イメージネットデータセットのサンプル一貫性を向上し,低コストなサンプル生成に繋がることを示す。

Simulation-free methods for training continuous-time generative models construct probability paths that go between noise distributions and individual data samples. Recent works, such as Flow Matching, derived paths that are optimal for each data sample. However, these algorithms rely on independent data and noise samples, and do not exploit underlying structure in the data distribution for constructing probability paths. We propose Multisample Flow Matching, a more general framework that uses non-trivial couplings between data and noise samples while satisfying the correct marginal constraints. At very small overhead costs, this generalization allows us to (i) reduce gradient variance during training, (ii) obtain straighter flows for the learned vector field, which allows us to generate high-quality samples using fewer function evaluations, and (iii) obtain transport maps with lower cost in high dimensions, which has applications beyond generative modeling. Importantly, we do so in a completely simulation-free manner with a simple minimization objective. We show that our proposed methods improve sample consistency on downsampled ImageNet data sets, and lead to better low-cost sample generation.
翻訳日:2023-05-01 14:28:28 公開日:2023-04-28
# RexUIE:ユニバーサル情報抽出のための明示的スキーマインストラクタを用いた再帰的手法

RexUIE: A Recursive Method with Explicit Schema Instructor for Universal Information Extraction ( http://arxiv.org/abs/2304.14770v1 )

ライセンス: Link先を確認
Chengyuan Liu, Fubang Zhao, Yangyang Kang, Jingyuan Zhang, Xiang Zhou, Changlong Sun, Fei Wu, Kun Kuang(参考訳) ユニバーサル情報抽出(UIE)は、様々なターゲット、異種構造、要求固有のスキーマによって引き起こされる課題により、関心のある分野である。 しかし、従来の作業は、名前付きエンティティ認識(NER)やリレーショナル抽出(RE)といった、特に四重項や四重項のような他の一般的なスキーマを抽出する場合に、真のUIEモデルに欠けるタスクを統一することで、限られた成功を収めただけである。 さらに、これらのモデルは暗黙的な構造スキーマインストラクタを使用しており、型間の誤ったリンクを引き起こし、低リソースシナリオにおけるモデルの一般化とパフォーマンスを妨げる可能性がある。 本稿では,ほぼすべての抽出スキーマを含む公式な定式化により,認証UIEを再定義する。 私たちの知る限りでは、どんな種類のスキーマにもUIEを導入するのは初めてです。 さらに,UIEのための明示的スキーマインストラクタを備えた再帰的手法であるRexUIEを提案する。 異なるタイプの干渉を避けるため,位置idと注意マスク行列をリセットした。 rexuieはフルショット設定と少数ショット設定の両方で強力なパフォーマンスを示し、複雑なスキーマを抽出するタスクで最先端の結果を得る。

Universal Information Extraction (UIE) is an area of interest due to the challenges posed by varying targets, heterogeneous structures, and demand-specific schemas. However, previous works have only achieved limited success by unifying a few tasks, such as Named Entity Recognition (NER) and Relation Extraction (RE), which fall short of being authentic UIE models particularly when extracting other general schemas such as quadruples and quintuples. Additionally, these models used an implicit structural schema instructor, which could lead to incorrect links between types, hindering the model's generalization and performance in low-resource scenarios. In this paper, we redefine the authentic UIE with a formal formulation that encompasses almost all extraction schemas. To the best of our knowledge, we are the first to introduce UIE for any kind of schemas. In addition, we propose RexUIE, which is a Recursive Method with Explicit Schema Instructor for UIE. To avoid interference between different types, we reset the position ids and attention mask matrices. RexUIE shows strong performance under both full-shot and few-shot settings and achieves State-of-the-Art results on the tasks of extracting complex schemas.
翻訳日:2023-05-01 14:28:12 公開日:2023-04-28
# 自己回帰言語モデルにおけるファクトアソシエーションの解答

Dissecting Recall of Factual Associations in Auto-Regressive Language Models ( http://arxiv.org/abs/2304.14767v1 )

ライセンス: Link先を確認
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson(参考訳) トランスフォーマティブベースの言語モデル(lms)は、そのパラメータの事実的知識をキャプチャすることが知られている。 以前の研究では、事実関連が格納されている場所を調査したが、推論中にどのように内部的に検索されるのかは、ほとんど分かっていない。 我々はこの質問を情報フローのレンズを通して検討する。 そこで本研究では,モデルが対象と関連性に関する情報を集約して正しい属性を予測する方法について検討する。 注意点への介入により、まず、情報が予測に伝播する2つの臨界点、すなわち、関係位置からの1つ、対象位置からのもう1つを識別する。 次に,これらの点の情報を解析することにより,属性抽出のための3段階の内部メカニズムを明らかにする。 まず、最終目的位置での表現は、初期のMLPサブレイヤーによって駆動される濃縮過程を経て、多くの主題関連属性を符号化する。 第2に、関係からの情報が予測に伝播する。 第三に、予測表現は、リッチな対象を「クエリ」して属性を抽出する。 おそらく驚くべきことに、この抽出は一般的に注意頭を通して行われ、しばしばパラメーターの主題属性マッピングを符号化する。 総じて,事実関係が lms 内でどのように保存・抽出されるのかを包括的に把握し,知識の局在化と編集に関する今後の研究を促進する。

Transformer-based language models (LMs) are known to capture factual knowledge in their parameters. While previous work looked into where factual associations are stored, only little is known about how they are retrieved internally during inference. We investigate this question through the lens of information flow. Given a subject-relation query, we study how the model aggregates information about the subject and relation to predict the correct attribute. With interventions on attention edges, we first identify two critical points where information propagates to the prediction: one from the relation positions followed by another from the subject positions. Next, by analyzing the information at these points, we unveil a three-step internal mechanism for attribute extraction. First, the representation at the last-subject position goes through an enrichment process, driven by the early MLP sublayers, to encode many subject-related attributes. Second, information from the relation propagates to the prediction. Third, the prediction representation "queries" the enriched subject to extract the attribute. Perhaps surprisingly, this extraction is typically done via attention heads, which often encode subject-attribute mappings in their parameters. Overall, our findings introduce a comprehensive view of how factual associations are stored and extracted internally in LMs, facilitating future research on knowledge localization and editing.
翻訳日:2023-05-01 14:27:50 公開日:2023-04-28
# ニューラルネットワーク分割によるハイパーパラメータ最適化

Hyperparameter Optimization through Neural Network Partitioning ( http://arxiv.org/abs/2304.14766v1 )

ライセンス: Link先を確認
Bruno Mlodozeniec, Matthias Reisser, Christos Louizos(参考訳) 適切に調整されたハイパーパラメータは、ニューラルネットワークの優れた一般化行動を得るために不可欠である。 適切な帰納バイアスを強制し、モデルを標準化し、特に限られたデータの存在下で、パフォーマンスを改善することができる。 本研究では,検証データを必要としない最適化目標である限界的可能性に着想を得た,簡便かつ効率的なハイパーパラメータ最適化手法を提案する。 本手法では,トレーニングデータとニューラルネットワークモデルを,それぞれ$K$のデータシャードとパラメータ分割に分割する。 各パーティションは、特定のデータシャードのみに関連付けられ、最適化される。 これらのパーティションをサブネットワークに組み合わせることで、サブネットワークの‘out-of-training-sample’損失、すなわち、サブネットワークによるデータシャードの損失をハイパーパラメータ最適化の目的として定義することができる。 我々は、この目的を、ニューラルネットワークの限界確率を最適化することを目的とした代替手法よりも大幅に安価で、単一のトレーニングランで様々なハイパーパラメータを最適化できることを示した。 最後に,再学習やクロスバリデーションが特に難しい連邦学習におけるハイパーパラメータの最適化にも着目する。

Well-tuned hyperparameters are crucial for obtaining good generalization behavior in neural networks. They can enforce appropriate inductive biases, regularize the model and improve performance -- especially in the presence of limited data. In this work, we propose a simple and efficient way for optimizing hyperparameters inspired by the marginal likelihood, an optimization objective that requires no validation data. Our method partitions the training data and a neural network model into $K$ data shards and parameter partitions, respectively. Each partition is associated with and optimized only on specific data shards. Combining these partitions into subnetworks allows us to define the ``out-of-training-sample" loss of a subnetwork, i.e., the loss on data shards unseen by the subnetwork, as the objective for hyperparameter optimization. We demonstrate that we can apply this objective to optimize a variety of different hyperparameters in a single training run while being significantly computationally cheaper than alternative methods aiming to optimize the marginal likelihood for neural networks. Lastly, we also focus on optimizing hyperparameters in federated learning, where retraining and cross-validation are particularly challenging.
翻訳日:2023-05-01 14:27:28 公開日:2023-04-28
# 単純pCCDモデルによるイオン化電位のベンチマーク

Benchmarking ionization potentials from the simple pCCD model ( http://arxiv.org/abs/2304.14810v1 )

ライセンス: Link先を確認
Saddem Mamache and Marta Ga{\l}y\'nska and Katharina Boguslawski(参考訳) 電子放出エネルギーはイオン化ポテンシャル(ip)によって測定される。 結果として、光電子分光における基本的な観測可能かつ重要な分子電子署名である。 電子放出エネルギーやイオン化ポテンシャルの正確な理論的予測は、トランジスタ、太陽電池、発光ダイオードなどの有機光電子系に必須である。 そこで本研究では,最近発表された,IP-EOM-pCCDモデルを用いた動作対結合クラスタダブルス(IP-EOM-pCCD)の性能評価を行った。 具体的には、予測イオン化エネルギーを3つの異なる分子軌道基底セットと2つの粒子-ホール作用素からなる41個の有機分子の201個の電子離離状態の統計的評価に基づく実験結果と高次結合クラスター理論と比較した。 IP-EOM-pCCDはイオン化エネルギーの適切な拡散と歪を特徴とするが、平均誤差と標準偏差は参照データから1.5eVまでずれる。 そこで本研究では, 小分子のpCCD参照関数からIPを確実に予測するための動的相関の重要性を強調した。

The electron-detachment energy is measured by its ionization potential (IP). As a result, it is a fundamental observable and important molecular electronic signature in photoelectron spectroscopy. A precise theoretical prediction of electron-detachment energies or ionization potentials is essential for organic optoelectronic systems like transistors, solar cells, or light-emitting diodes. In this work, we benchmark the performance of the recently presented IP variant of the equation-of-motion pair coupled cluster doubles (IP-EOM-pCCD) model to determine IPs. Specifically, the predicted ionization energies are compared to experimental results and higher-order coupled cluster theories based on statistically assessing 201 electron-detached states of 41 organic molecules for three different molecular orbital basis sets and two sets of particle-hole operators. While IP-EOM-pCCD features a reasonable spread and skewness of ionization energies, its mean error and standard deviation deviate up to 1.5 eV from reference data. Our study, thus, highlights the importance of dynamical correlation to reliably predict IPs from a pCCD reference function in small organic molecules.
翻訳日:2023-05-01 14:20:33 公開日:2023-04-28
# 深層学習支援マイクロ波-プラズマ相互作用に基づくプラズマ密度推定手法

Deep Learning assisted microwave-plasma interaction based technique for plasma density estimation ( http://arxiv.org/abs/2304.14807v1 )

ライセンス: Link先を確認
Pratik Ghosh, Bhaskar Chaudhury, Shishir Purohit, Vishv Joshi, Ashray Kothari(参考訳) 電子密度は、あらゆるプラズマを特徴づける重要なパラメータである。 低温プラズマ(LTP)の領域におけるプラズマ応用と研究の大部分は、プラズマ密度とプラズマ温度に基づいている。 従来の電子密度測定法は、任意の線形LTPデバイスに対して軸方向および半径方向のプロファイルを提供する。 これらの手法は、操作範囲(あまり広くない)、煩雑な計測、複雑なデータ分析手順において大きな欠点がある。 そこで本論文では, プラズマ中の電子密度分布を十分に決定できる新しい機械学習(ml)支援マイクロ波プラズマ相互作用に基づく戦略を提案する。 マイクロ波散乱による電界パターンを測定し、密度分布を推定する。 この概念の証明は、低温、非磁性、衝突プラズマからなるシミュレーショントレーニングデータセットに対して試験される。 ガウス型密度プロファイルの種別として, 10^{16}-10^{19}m^{-3}$の範囲について検討した。 その結果, 線状プラズマ装置の密度の2次元半径分布を推定する上で有望な性能を示した。 提案手法の性能をSSIM, RMSLE, MAPEの3つの指標を用いて評価した。 好ましい性能は、プラズマ診断におけるMLベースのアプローチの可能性を確認することである。

The electron density is a key parameter to characterize any plasma. Most of the plasma applications and research in the area of low-temperature plasmas (LTPs) is based on plasma density and plasma temperature. The conventional methods for electron density measurements offer axial and radial profiles for any given linear LTP device. These methods have major disadvantages of operational range (not very wide), cumbersome instrumentation, and complicated data analysis procedures. To address such practical concerns, the article proposes a novel machine learning (ML) assisted microwave-plasma interaction based strategy which is capable enough to determine the electron density profile within the plasma. The electric field pattern due to microwave scattering is measured to estimate the density profile. The proof of concept is tested for a simulated training data set comprising a low-temperature, unmagnetized, collisional plasma. Different types of Gaussian-shaped density profiles, in the range $10^{16}-10^{19}m^{-3}$, addressing a range of experimental configurations have been considered in our study. The results obtained show promising performance in estimating the 2D radial profile of the density for the given linear plasma device. The performance of the proposed deep learning based approach has been evaluated using three metrics- SSIM, RMSLE and MAPE. The favourable performance affirms the potential of the proposed ML based approach in plasma diagnostics.
翻訳日:2023-05-01 14:20:13 公開日:2023-04-28
# SemEval-2023 Task 11: Learning with Disagreements (LeWiDi)

SemEval-2023 Task 11: Learning With Disagreements (LeWiDi) ( http://arxiv.org/abs/2304.14803v1 )

ライセンス: Link先を確認
Elisa Leonardelli, Alexandra Uma, Gavin Abercrombie, Dina Almanea, Valerio Basile, Tommaso Fornaciari, Barbara Plank, Verena Rieser, Massimo Poesio(参考訳) 人間の判断に注釈を付けたNLPデータセットは、裁判官間の意見の相違に悩まされている。 これは特に感情分析や攻撃的言語検出といった主観的判断に依存するタスクに当てはまる。 特に後者では、NLPコミュニティは、これらの異なる主観的解釈の「再構成」アプローチが不適切であることを認識するようになった。 それゆえ、多くのNLP研究者は、注釈付きコーパスからの意見の相違を排除するのではなく、それらを守るべきであると結論付けている。 しかし、NLPのためのコーパス生成に対するこのアプローチはまだ広く受け入れられていない。 共有タスクのlewidiシリーズの目的は、このようなデータセットをトレーニングおよび評価するための統一フレームワークを提供することで、nlpモデルの開発にこのアプローチを促進することである。 第1版とは3つの重要な点において異なる第2回LeWiDi共有タスクについて報告する。 (i)第1版において、NLPとコンピュータビジョンの両タスクの代わりに、完全にNLPに焦点を当てている。 (ii)主観的タスクに焦点をあて、異なるタイプの不一致をカバーせず、主観的nlpタスクのラベルを集約したトレーニングは、特にデータの誤表現である。) (iii) 評価には, ソフトアプローチに焦点をあてる。 この『LeWiDi』の第2版は幅広い参加者を惹きつけ、13のタスク論文を共有した。

NLP datasets annotated with human judgments are rife with disagreements between the judges. This is especially true for tasks depending on subjective judgments such as sentiment analysis or offensive language detection. Particularly in these latter cases, the NLP community has come to realize that the approach of 'reconciling' these different subjective interpretations is inappropriate. Many NLP researchers have therefore concluded that rather than eliminating disagreements from annotated corpora, we should preserve them-indeed, some argue that corpora should aim to preserve all annotator judgments. But this approach to corpus creation for NLP has not yet been widely accepted. The objective of the LeWiDi series of shared tasks is to promote this approach to developing NLP models by providing a unified framework for training and evaluating with such datasets. We report on the second LeWiDi shared task, which differs from the first edition in three crucial respects: (i) it focuses entirely on NLP, instead of both NLP and computer vision tasks in its first edition; (ii) it focuses on subjective tasks, instead of covering different types of disagreements-as training with aggregated labels for subjective NLP tasks is a particularly obvious misrepresentation of the data; and (iii) for the evaluation, we concentrate on soft approaches to evaluation. This second edition of LeWiDi attracted a wide array of participants resulting in 13 shared task submission papers.
翻訳日:2023-05-01 14:19:56 公開日:2023-04-28
# ResiDual: デュアル残差接続型トランス

ResiDual: Transformer with Dual Residual Connections ( http://arxiv.org/abs/2304.14802v1 )

ライセンス: Link先を確認
Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan(参考訳) トランスフォーマーネットワークは最先端の性能のために多くのタスクで好まれるアーキテクチャになっている。 しかし、効果的なトレーニングに不可欠なTransformerの残差接続を実装するための最適な方法はいまだ議論されている。 広く使われている2つの変種はポスト層正規化(post-ln)とプレ層正規化(pre-ln)トランスであり、各残差ブロックの出力後または各残差ブロックの入力前にそれぞれ層正規化を適用する。 Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配の消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。 本稿では,Post-LNとPre-LNの接続を融合したPPLNを用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。 理論解析と実験実験の両方を行い,残差の有効性を検証する。 理論的には、ResiDual は、Pre-LN からの残差接続により消滅する問題を避けるために勾配が低いことを証明している。 さらにResiDualは、Post-LNからの残差接続による崩壊問題を回避するために、多様なモデル表現も備えている。 ResiDualは、異なるネットワーク深さとデータサイズにわたるいくつかの機械翻訳ベンチマークにおいて、Post-LNとPre-LNの両方のパフォーマンスを実証的に上回る。 ResiDual Transformerは、理論的および経験的なパフォーマンスにより、さまざまなAIモデル(例えば、大規模言語モデル)の基盤アーキテクチャとして機能する。 私たちのコードはhttps://github.com/microsoft/residual.comで利用可能です。

Transformer networks have become the preferred architecture for many tasks due to their state-of-the-art performance. However, the optimal way to implement residual connections in Transformer, which are essential for effective training, is still debated. Two widely used variants are the Post-Layer-Normalization (Post-LN) and Pre-Layer-Normalization (Pre-LN) Transformers, which apply layer normalization after each residual block's output or before each residual block's input, respectively. While both variants enjoy their advantages, they also suffer from severe limitations: Post-LN causes gradient vanishing issue that hinders training deep Transformers, and Pre-LN causes representation collapse issue that limits model capacity. In this paper, we propose ResiDual, a novel Transformer architecture with Pre-Post-LN (PPLN), which fuses the connections in Post-LN and Pre-LN together and inherits their advantages while avoids their limitations. We conduct both theoretical analyses and empirical experiments to verify the effectiveness of ResiDual. Theoretically, we prove that ResiDual has a lower bound on the gradient to avoid the vanishing issue due to the residual connection from Pre-LN. Moreover, ResiDual also has diverse model representations to avoid the collapse issue due to the residual connection from Post-LN. Empirically, ResiDual outperforms both Post-LN and Pre-LN on several machine translation benchmarks across different network depths and data sizes. Thanks to the good theoretical and empirical performance, ResiDual Transformer can serve as a foundation architecture for different AI models (e.g., large language models). Our code is available at https://github.com/microsoft/ResiDual.
翻訳日:2023-05-01 14:19:34 公開日:2023-04-28
# MCPrioQ: オンラインスパースマルコフチェーンのためのロックフリーアルゴリズム

MCPrioQ: A lock-free algorithm for online sparse markov-chains ( http://arxiv.org/abs/2304.14801v1 )

ライセンス: Link先を確認
Jesper Derehag, {\AA}ke Johansson(参考訳) 高性能システムでは、メモリと計算の両方において効率的である非常に大きなグラフを構築するのが難しいことがある。 本稿では,ロックフリーなスパースマルコフチェーンであるmarkov-chain-priority-queue(mcprioq)と呼ばれるデータ構造を提案する。 MCPrioQは、下降確率順で$n$-itemsのルックアップを推奨するシステムに特に適している。 同時更新はハッシュテーブルとアトミック命令を使用して達成され、同時更新時でもほぼ正しい結果が得られる新しい優先度キューによって行われる。 近似的正確かつロックフリーなプロパティは、読み取りコピー更新スキームによって維持されるが、セマンティクスがわずかに更新され、従来のポップ・インサート・スキームよりも要素のスワップが可能になった。

In high performance systems it is sometimes hard to build very large graphs that are efficient both with respect to memory and compute. This paper proposes a data structure called Markov-chain-priority-queue (MCPrioQ), which is a lock-free sparse markov-chain that enables online and continuous learning with time-complexity of $O(1)$ for updates and $O(CDF^{-1}(t))$ inference. MCPrioQ is especially suitable for recommender-systems for lookups of $n$-items in descending probability order. The concurrent updates are achieved using hash-tables and atomic instructions and the lookups are achieved through a novel priority-queue which allows for approximately correct results even during concurrent updates. The approximatly correct and lock-free property is maintained by a read-copy-update scheme, but where the semantics have been slightly updated to allow for swap of elements rather than the traditional pop-insert scheme.
翻訳日:2023-05-01 14:19:01 公開日:2023-04-28
# 点群意味セグメンテーションのための多対多知識蒸留

Multi-to-Single Knowledge Distillation for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2304.14800v1 )

ライセンス: Link先を確認
Shoumeng Qiu, Feng Jiang, Haiqiang Zhang, Xiangyang Xue and Jian Pu(参考訳) 3Dポイントクラウドセマンティックセグメンテーションは、環境理解の基本的なタスクの1つである。 近年は大きな進歩を遂げているが、実例が少ないクラスやポイントが少ないクラスのパフォーマンスは、まだ満足できるレベルには程遠い。 本稿では,3Dポイントクラウドセマンティックセマンティックセグメンテーションタスクのための多種間知識蒸留フレームワークを提案する。 マルチスキャンのすべてのポイントを直接フューズする代わりに、以前に定義されたハードクラスに属するインスタンスだけが融合する。 マルチスキャンからの貴重な知識を有効かつ十分に蒸留するために,多段階蒸留フレームワーク,すなわち特徴表現蒸留,ロジット蒸留,親和性蒸留を利用する。 さらに,高次構造知識を取り込み,ハードクラスの蒸留効果を高めるための新規なインスタンス認識アフィニティ蒸留アルゴリズムを開発した。 最後に,semantickittiデータセットについて実験を行い,バリデーションとテストの両方の結果から,本手法がベースライン法に比べて大幅に改善することを示す。 コードは \url{https://github.com/skyshoumeng/m2skd} で入手できる。

3D point cloud semantic segmentation is one of the fundamental tasks for environmental understanding. Although significant progress has been made in recent years, the performance of classes with few examples or few points is still far from satisfactory. In this paper, we propose a novel multi-to-single knowledge distillation framework for the 3D point cloud semantic segmentation task to boost the performance of those hard classes. Instead of fusing all the points of multi-scans directly, only the instances that belong to the previously defined hard classes are fused. To effectively and sufficiently distill valuable knowledge from multi-scans, we leverage a multilevel distillation framework, i.e., feature representation distillation, logit distillation, and affinity distillation. We further develop a novel instance-aware affinity distillation algorithm for capturing high-level structural knowledge to enhance the distillation efficacy for hard classes. Finally, we conduct experiments on the SemanticKITTI dataset, and the results on both the validation and test sets demonstrate that our method yields substantial improvements compared with the baseline method. The code is available at \Url{https://github.com/skyshoumeng/M2SKD}.
翻訳日:2023-05-01 14:18:42 公開日:2023-04-28
# 最高の多言語文書埋め込みは単に文埋め込みに基づいているか?

Are the Best Multilingual Document Embeddings simply Based on Sentence Embeddings? ( http://arxiv.org/abs/2304.14796v1 )

ライセンス: Link先を確認
Sonal Sannigrahi, Josef van Genabith, Cristina Espana-Bonet(参考訳) テキストデータに対する複雑なベクトル表現は、現代のNLPでは不可欠である。 テキストから推定される単語の埋め込みと文の埋め込みは、意味理解を必要とする様々なタスクにおいて最先端の結果を達成する上で重要である。 しかし, 文書レベルでの埋め込みは, 計算要求や適切なデータの欠如により困難である。 代わりに、ほとんどのアプローチは文表現に基づく文書埋め込みの計算にフォールバックする。 文書を完全にエンコードするアーキテクチャやモデルが存在するが、一般的には英語やその他の高リソース言語に限られている。 本研究では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。 3つの異なる言語族に属する8つの言語における3つの多言語間タスクにおいて、入力トークン番号の切り出し、文平均化、単純なウィンドウ化、そしていくつかの新しい拡張および学習可能なアプローチを比較する。 我々のタスクベース外在的評価は、言語とは独立して、文の埋め込みの巧妙な組み合わせは、たとえそれが可能であるとしても、全文書を単一の単位としてエンコードするよりも優れていることを示している。 単純な文平均は、分類タスクの強い基準となるが、意味タスクにはより複雑な組み合わせが必要であることを実証する。

Dense vector representations for textual data are crucial in modern NLP. Word embeddings and sentence embeddings estimated from raw texts are key in achieving state-of-the-art results in various tasks requiring semantic understanding. However, obtaining embeddings at the document level is challenging due to computational requirements and lack of appropriate data. Instead, most approaches fall back on computing document embeddings based on sentence representations. Although there exist architectures and models to encode documents fully, they are in general limited to English and few other high-resourced languages. In this work, we provide a systematic comparison of methods to produce document-level representations from sentences based on LASER, LaBSE, and Sentence BERT pre-trained multilingual models. We compare input token number truncation, sentence averaging as well as some simple windowing and in some cases new augmented and learnable approaches, on 3 multi- and cross-lingual tasks in 8 languages belonging to 3 different language families. Our task-based extrinsic evaluations show that, independently of the language, a clever combination of sentence embeddings is usually better than encoding the full document as a single unit, even when this is possible. We demonstrate that while a simple sentence average results in a strong baseline for classification tasks, more complex combinations are necessary for semantic tasks.
翻訳日:2023-05-01 14:18:25 公開日:2023-04-28
# 整合性に基づく正則化を用いた半スーパービジョンRFフィンガープリント

Semi-Supervised RF Fingerprinting with Consistency-Based Regularization ( http://arxiv.org/abs/2304.14795v1 )

ライセンス: Link先を確認
Weidong Wang, Cheng Luo, Jiancheng An, Lu Gan, Hongshu Liao, and Chau Yuen(参考訳) 有望な非パスワード認証技術として、無線周波数(RF)指紋認証は無線セキュリティを大幅に改善することができる。 近年の研究では、深層学習に基づくRFフィンガープリントが従来の手法よりも大幅に優れていることが示されている。 しかし、その優位性は主に大量のラベル付きデータを用いた教師あり学習によるもので、ラベル付きデータのみが利用可能であれば著しく劣化し、既存のアルゴリズムの多くは実践性に欠ける。 実用上,最小限の資源で十分なラベルなしデータを得るのが容易であると考えると,rfフィンガープリントの深い半教師付き学習を活用し,無線信号のための複合データ拡張方式と,一貫性に基づく正規化と擬似ラベル付けという2つの一般的な技術を組み合わせた。 シミュレーションと実世界の両方のデータセットによる実験結果から,提案手法は競合するRFフィンガープリントよりもはるかに優れており,非常に限られた例で完全に教師付き学習に近い性能が得られることが示された。

As a promising non-password authentication technology, radio frequency (RF) fingerprinting can greatly improve wireless security. Recent work has shown that RF fingerprinting based on deep learning can significantly outperform conventional approaches. The superiority, however, is mainly attributed to supervised learning using a large amount of labeled data, and it significantly degrades if only limited labeled data is available, making many existing algorithms lack practicability. Considering that it is often easier to obtain enough unlabeled data in practice with minimal resources, we leverage deep semi-supervised learning for RF fingerprinting, which largely relies on a composite data augmentation scheme designed for radio signals, combined with two popular techniques: consistency-based regularization and pseudo-labeling. Experimental results on both simulated and real-world datasets demonstrate that our proposed method for semi-supervised RF fingerprinting is far superior to other competing ones, and it can achieve remarkable performance almost close to that of fully supervised learning with a very limited number of examples.
翻訳日:2023-05-01 14:18:03 公開日:2023-04-28
# Exact Compression を用いたグラフニューラルネットワークの学習

Learning Graph Neural Networks using Exact Compression ( http://arxiv.org/abs/2304.14793v1 )

ライセンス: Link先を確認
Jeroen Bollen, Jasper Steegmans, Jan Van den Bussche, Stijn Vansummeren(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データに対する幅広い機械学習アプリケーションを可能にするディープラーニングの一形態である。 しかし、GNNの学習は、GPUのようなメモリ制限されたデバイスに課題をもたらすことが知られている。 本稿では,大規模グラフ上での学習GNNのメモリ要求を削減する手段として,正確な圧縮について検討する。 特に,圧縮に対する形式的なアプローチを採用し,GNN学習問題を証明可能な等価な圧縮GNN学習問題に変換する手法を提案する。 予備的な実験評価では,実世界のグラフ上で得られる圧縮比について考察し,既存のGNNベンチマークに方法論を適用した。

Graph Neural Networks (GNNs) are a form of deep learning that enable a wide range of machine learning applications on graph-structured data. The learning of GNNs, however, is known to pose challenges for memory-constrained devices such as GPUs. In this paper, we study exact compression as a way to reduce the memory requirements of learning GNNs on large graphs. In particular, we adopt a formal approach to compression and propose a methodology that transforms GNN learning problems into provably equivalent compressed GNN learning problems. In a preliminary experimental evaluation, we give insights into the compression ratios that can be obtained on real-world graphs and apply our methodology to an existing GNN benchmark.
翻訳日:2023-05-01 14:17:46 公開日:2023-04-28
# ウェブブラウザゲームの歴史と進化について

Caught in the Game: On the History and Evolution of Web Browser Gaming ( http://arxiv.org/abs/2304.14791v1 )

ライセンス: Link先を確認
Naif Mehanna (CRIStAL, CNRS, SPIRALS), Walter Rudametkin (UR, IUF, CNRS, IRISA, DiverSe)(参考訳) Webブラウザは、その誕生以来長い道のりを歩み、ネットワーク越しにテキストドキュメントを表示する単純な方法から、高度なグラフィックスとネットワーク機能を備えた複雑なソフトウェアスタックへと進化してきた。 パーソナルコンピュータの人気が高まるにつれて、開発者は集中管理と参入障壁の少ないクロスプラットフォームゲームを展開する機会に飛びついた。 単に正しい住所に行くだけで、ゲームを始めるのに十分です。 テキストベースからgpuベースの3dゲームまで、ブラウザゲームは従来のコンソールやモバイルベースのゲームに代わる強力な選択肢となり、カジュアルゲームとアドバンストゲームの両方をターゲットにしている。 ブラウザ技術は、より要求の多いアプリケーションに対応できるように進化しており、osに通常残された機能を置き換えることさえある。 今日では、Webサイトはリッチで計算集約的なハードウェアアクセラレーションのグラフィックスを表示しており、開発者はより印象的なアプリケーションやゲームを構築することができる。この記事では、1990年代初頭のテキストベースのゲームのリリースから、現在のオープンワールドやゲームエンジンによるブラウザゲームまで、ブラウザゲームとそれを実現するテクノロジーの進化を示す。 ブラウザゲームがもたらす社会的影響と、新しいターゲットのオーディエンスによるアクセスデジタルゲームの可能性について論じる。 最後に、ブラウザゲーム産業の将来的な進化についてレビューする。

Web browsers have come a long way since their inception, evolving from a simple means of displaying text documents over the network to complex software stacks with advanced graphics and network capabilities. As personal computers grew in popularity, developers jumped at the opportunity to deploy cross-platform games with centralized management and a low barrier to entry. Simply going to the right address is now enough to start a game. From text-based to GPU-powered 3D games, browser gaming has evolved to become a strong alternative to traditional console and mobile-based gaming, targeting both casual and advanced gamers. Browser technology has also evolved to accommodate more demanding applications, sometimes even supplanting functions typically left to the operating system. Today, websites display rich, computationally intensive, hardware-accelerated graphics, allowing developers to build ever-more impressive applications and games.In this paper, we present the evolution of browser gaming and the technologies that enabled it, from the release of the first text-based games in the early 1990s to current open-world and game-engine-powered browser games. We discuss the societal impact of browser gaming and how it has allowed a new target audience to accessdigital gaming. Finally, we review the potential future evolution ofthe browser gaming industry.
翻訳日:2023-05-01 14:17:35 公開日:2023-04-28
# 低次元グラフにおける複合ボソンの基底状態

Ground state of composite bosons in low-dimensional graphs ( http://arxiv.org/abs/2304.14834v1 )

ライセンス: Link先を確認
Cecilia Cormick and Leonardo Ermann(参考訳) 強結合フェルミオン対が低次元ネットワークを形成する部位をトンネルする複合ボソンのシステムを考える。 この系の基底状態は、2次元格子の非常に希薄なレジームにおいて凝縮的性質を持つが、1次元格子のフェルミオン化を示すことが示されている。 フラクタル次元のグラフを研究し、これらの2つのケースの中間状況を調べ、次元の増加と凝縮的性格の増加の相関を観察する。 しかし、これは、平均パス長がサイト数で 1 未満のパワーで成長し、非有界な回路ランクを持つグラフに対してのみである。 したがって、これらの2つの条件は任意のネットワークにおける複合ボソンの凝縮に関係しており、構成体間の高絡み合いの良質な基準とともに考慮すべきである。

We consider a system of composite bosons given by strongly bound fermion pairs tunneling through sites that form a low-dimensional network. It has been shown that the ground state of this system can have condensate-like properties in the very dilute regime for two-dimensional lattices but displays fermionization for one-dimensional lattices. Studying graphs with fractal dimensions, we explore intermediate situations between these two cases and observe a correlation between increasing dimension and increasing condensate-like character. However, this is only the case for graphs for which the average path length grows with power smaller than 1 in the number of sites, and which have an unbounded circuit rank. We thus conjecture that these two conditions are relevant for condensation of composite bosons in arbitrary networks, and should be considered jointly with the well-established criterion of high entanglement between constituents.
翻訳日:2023-05-01 14:11:46 公開日:2023-04-28
# 不整合測定のためのSAT法とASP法の比較

Comparison of SAT-based and ASP-based Algorithms for Inconsistency Measurement ( http://arxiv.org/abs/2304.14832v1 )

ライセンス: Link先を確認
Isabelle Kuhlmann, Anna Gessler, Vivien Laszlo, Matthias Thimm(参考訳) 提案手法は, 充足可能性問題 (sat) の解法と解集合プログラミング (asp) に基づいて, 命題的知識ベースにおける不一致度を決定する問題を解くアルゴリズムを提案する。 それぞれの決定問題が多項式階層の第一レベルにある6つの異なる不整合測度を考える。 すなわち、緊張不整合測度、忘れることに基づく不整合測度、ヒットセット不整合測度、最大距離不整合測度、総距離不整合測度、ヒット距離不整合測度である。 大規模な実験分析では、SATベースのアプローチとASPベースのアプローチ、および一連の単純ベースラインアルゴリズムを比較した。 その結果、SATベースのアプローチとASPベースのアプローチの両方が、実行時の単純なベースラインメソッドよりも明らかに優れています。 さらに,本研究で検討した6つの不整合対策について,提案手法がSAT方式よりも優れていることを示す。 さらに,上記の結果を詳細に説明するための追加実験も実施する。

We present algorithms based on satisfiability problem (SAT) solving, as well as answer set programming (ASP), for solving the problem of determining inconsistency degrees in propositional knowledge bases. We consider six different inconsistency measures whose respective decision problems lie on the first level of the polynomial hierarchy. Namely, these are the contension inconsistency measure, the forgetting-based inconsistency measure, the hitting set inconsistency measure, the max-distance inconsistency measure, the sum-distance inconsistency measure, and the hit-distance inconsistency measure. In an extensive experimental analysis, we compare the SAT-based and ASP-based approaches with each other, as well as with a set of naive baseline algorithms. Our results demonstrate that overall, both the SAT-based and the ASP-based approaches clearly outperform the naive baseline methods in terms of runtime. The results further show that the proposed ASP-based approaches perform superior to the SAT-based ones with regard to all six inconsistency measures considered in this work. Moreover, we conduct additional experiments to explain the aforementioned results in greater detail.
翻訳日:2023-05-01 14:11:31 公開日:2023-04-28
# 制限フィードバックによる余剰性能の評価

Earning Extra Performance from Restrictive Feedbacks ( http://arxiv.org/abs/2304.14831v1 )

ライセンス: Link先を確認
Jing Li, Yuangang Pan, Yueming Lyu, Yinghua Yao, Yulei Sui, and Ivor W. Tsang(参考訳) 多くの機械学習アプリケーションは、モデルプロバイダが、事前訓練されたモデルをさらに洗練して、ローカルユーザのニーズを満足させる必要がある状況に遭遇する。 この問題は、対象データがモデルに許容的に供給されると、標準モデルチューニングパラダイムに還元される。 しかし、モデルプロバイダとターゲットデータを共有していないが、一般的にはモデルに関するいくつかの評価がアクセス可能であるような、幅広いケースでは、かなり困難である。 本稿では,このモデルチューニング問題を記述するために,rerestriCTive feeddbacks} (EXPECTED) から \emph{Earning eXtra PerformancE という課題を正式に設定した。 具体的には、ローカルユーザ(あるいはユーザグループ)からのフィードバックを通じて、モデルプロバイダが複数回、候補モデルの運用パフォーマンスにアクセスすることを許可する。 モデルプロバイダの目標は、最終的にフィードバックを利用することで、ローカルユーザに対して満足いくモデルを提供することです。 対象データが常にモデル勾配を計算する準備ができている既存のモデルチューニング方法とは異なり、EXPECTEDのモデルプロバイダは、推測精度や使用率など、スカラーと同じくらい単純なフィードバックしか見ていない。 この制約条件下でのチューニングを可能にするために,パラメータ分布を探索し,モデルパラメータに関するモデル性能の幾何を特徴付けることを提案する。 特に、パラメータが複数の層に分散する深いモデルでは、よりクエリ効率のよいアルゴリズムがさらに設計され、より注意を払って層ごとにチューニングを行う。 我々の理論的分析は,提案アルゴリズムを有効性と効率の両面から正当化する。 様々な応用に関する広範な実験は、我々の研究が期待する問題に対する正しい解決策をもたらすことを示している。

Many machine learning applications encounter a situation where model providers are required to further refine the previously trained model so as to gratify the specific need of local users. This problem is reduced to the standard model tuning paradigm if the target data is permissibly fed to the model. However, it is rather difficult in a wide range of practical cases where target data is not shared with model providers but commonly some evaluations about the model are accessible. In this paper, we formally set up a challenge named \emph{Earning eXtra PerformancE from restriCTive feEDdbacks} (EXPECTED) to describe this form of model tuning problems. Concretely, EXPECTED admits a model provider to access the operational performance of the candidate model multiple times via feedback from a local user (or a group of users). The goal of the model provider is to eventually deliver a satisfactory model to the local user(s) by utilizing the feedbacks. Unlike existing model tuning methods where the target data is always ready for calculating model gradients, the model providers in EXPECTED only see some feedbacks which could be as simple as scalars, such as inference accuracy or usage rate. To enable tuning in this restrictive circumstance, we propose to characterize the geometry of the model performance with regard to model parameters through exploring the parameters' distribution. In particular, for the deep models whose parameters distribute across multiple layers, a more query-efficient algorithm is further tailor-designed that conducts layerwise tuning with more attention to those layers which pay off better. Our theoretical analyses justify the proposed algorithms from the aspects of both efficacy and efficiency. Extensive experiments on different applications demonstrate that our work forges a sound solution to the EXPECTED problem.
翻訳日:2023-05-01 14:11:11 公開日:2023-04-28
# 文レベルの関係に関するチャットGPT評価:時間的・因果的・会話的関係に着目して

ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations ( http://arxiv.org/abs/2304.14827v1 )

ライセンス: Link先を確認
Chunkit Chan, Jiayang Cheng, Weiqi Wang, Yuxin Jiang, Tianqing Fang, Xin Liu, Yangqiu Song(参考訳) 本稿では,対話型大規模言語モデルChatGPTの性能を時間的関係,因果関係,談話関係などの関係性に基づいて定量的に評価することを目的とする。 様々なタスクにおけるChatGPTの有望な性能を考えると、時間的および因果関係、PDTB2.0に基づく対話に基づく会話関係、談話理解における下流アプリケーションなど、13のデータセットの試験セット全体に対して広範な評価を行う。 信頼性の高い結果を得るために,ゼロショットプロンプトテンプレート,ゼロショットプロンプトエンジニアリング(PE)テンプレート,インコンテキスト学習(ICL)プロンプトテンプレートなど,各タスクに適した3つのプロンプトテンプレートを導入し,一般的な文対関係分類タスクのベースラインスコアを初めて確立した。 chatgptは因果関係の検出と推論において強力な性能を示すが,2つの事象間の時間順序の同定には適さない可能性がある。 既存の明示的な談話接続とのほとんどの談話関係を認識できるが、暗黙的な談話関係は依然として困難な課題である。 一方、ChatGPTは、対話関係に気付く前に対話の構造的理解を必要とする対話談話解析タスクにおいて、不十分に機能する。

This paper aims to quantitatively evaluate the performance of ChatGPT, an interactive large language model, on inter-sentential relations such as temporal relations, causal relations, and discourse relations. Given ChatGPT's promising performance across various tasks, we conduct extensive evaluations on the whole test sets of 13 datasets, including temporal and causal relations, PDTB2.0-based and dialogue-based discourse relations, and downstream applications on discourse understanding. To achieve reliable results, we adopt three tailored prompt templates for each task, including the zero-shot prompt template, zero-shot prompt engineering (PE) template, and in-context learning (ICL) prompt template, to establish the initial baseline scores for all popular sentence-pair relation classification tasks for the first time. We find that ChatGPT exhibits strong performance in detecting and reasoning about causal relations, while it may not be proficient in identifying the temporal order between two events. It can recognize most discourse relations with existing explicit discourse connectives, but the implicit discourse relation still remains a challenging task. Meanwhile, ChatGPT performs poorly in the dialogue discourse parsing task that requires structural understanding in a dialogue before being aware of the discourse relation.
翻訳日:2023-05-01 14:10:13 公開日:2023-04-28
# 放牧牛の採餌活動の認識のためのノイズ・ロバスト音響法

A noise-robust acoustic method for recognition of foraging activities of grazing cattle ( http://arxiv.org/abs/2304.14824v1 )

ライセンス: Link先を確認
Luciano S. Martinez-Rau, Jos\'e O. Chelotti, Mariano Ferrero, Julio R. Galli, Santiago A. Utsumi, Alejandra M. Planisich, H. Leonardo Rufiner, Leonardo L. Giovanini(参考訳) 成長する乳製品市場で競争力を維持するために、農家は家畜生産システムの改善を継続的に行わなければならない。 精密家畜農業技術は、商業農場で動物を個別に監視し、家畜生産を最適化する。 継続的音響モニタリングは, 放牧牛の毎日の放牧および放牧時間予算を推定するために広く受け入れられているセンシング技術である。 しかし, 牧草地の環境・自然騒音は, 現在の音響手法の性能と一般化に顕著に影響を及ぼす。 本研究では,NRFAR(Noss-Robust Foraging Activity Recognizer)と呼ばれる音響手法を提案する。 提案手法は, 放牧と反行に関連する顎運動イベントの固定長セグメントを分析し, 採餌行動を決定する。 NRFARの付加雑音頑健性は,定常ガウスホワイトノイズと4種類の非定常自然ノイズ源を用いて,複数の信号対雑音比で評価した。 ノイズのない環境では、NRFARは平均平衡精度89%に達し、2つの従来の音響手法を7%以上上回っている。 さらに、NRFARは、80の雑音シナリオのうち66の音響的手法よりも優れた性能を示す(p<0.01。 NRFARは従来の音響手法と同様の計算コストでオンラインで運用されている。 これらの特性と厳しい自由配置環境での高性能の組み合わせにより、NRFARは低消費電力組み込みデバイスにおけるリアルタイム実装に優れた選択肢となる。 この出版物内で提示される計測と計算アルゴリズムは、進行中の特許出願であるAR P20220100910によって保護されている。 web demo available at https://sinc.unl.edu.ar/web-demo/nrfar

To stay competitive in the growing dairy market, farmers must continuously improve their livestock production systems. Precision livestock farming technologies provide individualised monitoring of animals on commercial farms, optimising livestock production. Continuous acoustic monitoring is a widely accepted sensing technique used to estimate the daily rumination and grazing time budget of free-ranging cattle. However, typical environmental and natural noises on pasture noticeably affect the performance and generalisation of current acoustic methods. In this study, we present an acoustic method called Noise-Robust Foraging Activity Recognizer (NRFAR). The proposed method determines foraging activity bouts by analysing fixed-length segments of identified jaw movement events associated with grazing and rumination. The additive noise robustness of NRFAR was evaluated for several signal-to-noise ratios, using stationary Gaussian white noise and four different non-stationary natural noise sources. In noiseless conditions, NRFAR reaches an average balanced accuracy of 89%, outperforming two previous acoustic methods by more than 7%. Additionally, NRFAR presents better performance than previous acoustic methods in 66 out of 80 evaluated noisy scenarios (p<0.01). NRFAR operates online with a similar computational cost to previous acoustic methods. The combination of these properties and the high performance in harsh free-ranging environments render NRFAR an excellent choice for real-time implementation in a low-power embedded device. The instrumentation and computational algorithms presented within this publication are protected by a pending patent application: AR P20220100910. Web demo available at: https://sinc.unl.edu.ar/web-demo/nrfar
翻訳日:2023-05-01 14:09:28 公開日:2023-04-28
# 非エルミート量子力学におけるガウス固有状態ピンニング

Gaussian eigenstate pinning in non-Hermitian quantum mechanics ( http://arxiv.org/abs/2304.14818v1 )

ライセンス: Link先を確認
Qi-Bo Zeng and Rong L\"u(参考訳) 単粒子連続schr\"odinger方程式によって記述され、解析的に解かれた、線形に変化する虚ベクトルポテンシャルの1次元系について検討する。 アイジェネギースペクトルは開境界条件 (OBC) の下では実数であるが、周期境界条件 (PBC) の下で複素エネルギー平面において放物線を形成する。 固有状態は常に変調ガウス分布を示し、すべて同じ位置にピン留めされ、虚ベクトルポテンシャルと境界条件によって決定される。 これらの挙動は、一定の虚ベクトルポテンシャルを持つ系の非エルミート皮膚効果(NHSE)とは対照的であり、固有状態はOBCの下で指数関数的に分布するがPBCで拡張される。 さらに, PBCのスペクトルは開曲線であるにもかかわらず, ガウス型NHSEは依然として位相的起源を持ち, PBCスペクトルの非消滅巻数によって特徴付けられることを示した。 放物線の内部エネルギーは半無限境界条件下で局所的なエッジ状態をサポートすることができる。 対応する強結合格子モデルも同様の性質を示すが、PBCスペクトルは閉ループを形成する。 我々の研究は、空間的に異なる虚ベクトルポテンシャルを持つ量子系の研究の扉を開く。

We study the one-dimensional system subjected to a linearly varying imaginary vector potential, which is described by the single-particle continuous Schr\"odinger equation and is analytically solved. The eigenenergy spectrum is found to be real under open boundary condition (OBC) but forms a parabola in the complex energy plane under periodic boundary condition (PBC). The eigenstates always exhibit a modulated Gaussian distribution and are all pinned on the same position, which is determined by the imaginary vector potential and boundary conditions. These behaviors are in sharp contrast to the non-Hermitian skin effect (NHSE) in systems with constant imaginary vector potential, where the eigenstates are exponentially distributed under OBC but become extended under PBC. We further demonstrate that even though the spectrum under PBC is an open curve, the Gaussian type of NHSE still has a topological origin and is characterized by a nonvanishing winding number in the PBC spectrum. The energies interior to the parabola can support localized edge states under semi-infinite boundary condition. The corresponding tight-binding lattice models also show similar properties, except that the PBC spectrum form closed loops. Our work opens a door for the study of quantum systems with spatially varying imaginary vector potentials.
翻訳日:2023-05-01 14:09:04 公開日:2023-04-28
# NeRF-LiDAR:ニューラルネットワークを用いた実効性LiDAR点雲の生成

NeRF-LiDAR: Generating Realistic LiDAR Point Clouds with Neural Radiance Fields ( http://arxiv.org/abs/2304.14811v1 )

ライセンス: Link先を確認
Junge Zhang, Feihu Zhang, Shaochen Kuang, Li Zhang(参考訳) 自動運転のトレーニングのためのLiDARポイントクラウドのラベル付けは非常に高価で難しい。 LiDARシミュレーションは、ラベルでリアルなLiDARデータを生成し、より効率的に自動運転アルゴリズムを検証することを目的としている。 近年,3次元シーンを暗黙的に再構成した新しいビュー合成法としてNeRF(Neural Radiance Fields)が提案されている。 実世界の情報を利用して現実のLIDAR点雲を生成する新しいLiDARシミュレーション手法であるNeRF-LIDARを提案する。 既存のLiDARシミュレータとは異なり、自動運転車が収集した実画像とポイントクラウドデータを用いて、3Dシーン表現、ポイントクラウド生成、ラベルレンダリングを学ぶ。 生成したLiDAR点雲上で異なる3次元セグメンテーションモデルをトレーニングすることにより、NeRF-LiDARの有効性を検証する。 トレーニングされたモデルは、実際のLiDARデータでトレーニングされた同じモデルと比較して、同様の精度を達成することができる。 さらに、生成されたデータは事前トレーニングによって精度を高めることができ、実際のラベル付きデータの要求を減らすのに役立つ。

Labeling LiDAR point clouds for training autonomous driving is extremely expensive and difficult. LiDAR simulation aims at generating realistic LiDAR data with labels for training and verifying self-driving algorithms more efficiently. Recently, Neural Radiance Fields (NeRF) have been proposed for novel view synthesis using implicit reconstruction of 3D scenes. Inspired by this, we present NeRF-LIDAR, a novel LiDAR simulation method that leverages real-world information to generate realistic LIDAR point clouds. Different from existing LiDAR simulators, we use real images and point cloud data collected by self-driving cars to learn the 3D scene representation, point cloud generation and label rendering. We verify the effectiveness of our NeRF-LiDAR by training different 3D segmentation models on the generated LiDAR point clouds. It reveals that the trained models are able to achieve similar accuracy when compared with the same model trained on the real LiDAR data. Besides, the generated data is capable of boosting the accuracy through pre-training which helps reduce the requirements of the real labeled data.
翻訳日:2023-05-01 14:08:43 公開日:2023-04-28
# Deep Stock:ディープラーニングを用いたトレーニングとトレーディングスキーム

Deep Stock: training and trading scheme using deep learning ( http://arxiv.org/abs/2304.14870v1 )

ライセンス: Link先を確認
Sungwoo Kang(参考訳) 効率的な市場仮説にもかかわらず、多くの研究は株式市場に非効率の存在を示唆し、アルファとして知られる以上の市場リターンを得る技術の開発につながった。 システム取引はここ数十年で大きな進歩を遂げており、市場行動を分析し予測するための強力なツールとしてディープラーニングが出現している。 本稿では,過去600日間の株価を考察し,次のd日以内に株価が一定の割合で上昇するか低下するかを予測するプロトレーダーに触発されたモデルを提案する。 DeepStockと呼ばれる私たちのモデルは、Resnetのスキップ接続とロジットを使用して、トレーディングスキームにおけるモデルの確率を高める。 当社のモデルを韓国と米国の両方の株式市場でテストし,市場リターンをm\%上回る韓国市場でn\%の利益と,市場リターンをb\%上回る米国市場でのa\%の利益を達成する。

Despite the efficient market hypothesis, many studies suggest the existence of inefficiencies in the stock market, leading to the development of techniques to gain above-market returns, known as alpha. Systematic trading has undergone significant advances in recent decades, with deep learning emerging as a powerful tool for analyzing and predicting market behavior. In this paper, we propose a model inspired by professional traders that look at stock prices of the previous 600 days and predicts whether the stock price rises or falls by a certain percentage within the next D days. Our model, called DeepStock, uses Resnet's skip connections and logits to increase the probability of a model in a trading scheme. We test our model on both the Korean and US stock markets and achieve a profit of N\% on Korea market, which is M\% above the market return, and profit of A\% on US market, which is B\% above the market return.
翻訳日:2023-05-01 14:02:54 公開日:2023-04-28
# 位置スケール分布の1-ワッサーシュタイン距離と差分プライバシーの影響について

On the 1-Wasserstein Distance between Location-Scale Distributions and the Effect of Differential Privacy ( http://arxiv.org/abs/2304.14869v1 )

ライセンス: Link先を確認
Saurab Chhachhi, Fei Teng(参考訳) 独立な位置スケール分布間の1-wasserstein距離の正確な表現を提供する。 式は位置とスケールのパラメータと標準ガウスCDFやガンマ関数のような特別な関数を使って表現される。 具体的には,独立な一変量分布間の1-ワッサーシュタイン距離が,その基礎となる位置とスケールが元の分布の位置とスケールの差と等しい同族内の折りたたみ分布の平均値に等しいことを示す。 1-wasserstein距離上の新しい線形上界を示し、1-wasserstein距離の漸近境界をガウスの場合で詳述する。 ラプラスとガウスのメカニズムを用いた微分プライバシーが1-wasserstein距離に及ぼす影響を閉形式表現と境界を用いて研究した。

We provide an exact expressions for the 1-Wasserstein distance between independent location-scale distributions. The expressions are represented using location and scale parameters and special functions such as the standard Gaussian CDF or the Gamma function. Specifically, we find that the 1-Wasserstein distance between independent univariate location-scale distributions is equivalent to the mean of a folded distribution within the same family whose underlying location and scale are equal to the difference of the locations and scales of the original distributions. A new linear upper bound on the 1-Wasserstein distance is presented and the asymptotic bounds of the 1-Wasserstein distance are detailed in the Gaussian case. The effect of differential privacy using the Laplace and Gaussian mechanisms on the 1-Wasserstein distance is studied using the closed-form expressions and bounds.
翻訳日:2023-05-01 14:02:38 公開日:2023-04-28
# ロバスト説明可能性のためのCNNにおける意味概念表現の安定性の評価

Evaluating the Stability of Semantic Concept Representations in CNNs for Robust Explainability ( http://arxiv.org/abs/2304.14864v1 )

ライセンス: Link先を確認
Georgii Mikriukov, Gesina Schwalbe, Christian Hellert and Korinna Bade(参考訳) 畳み込みニューラルネットワーク(CNN)における意味論的概念の表現方法の分析は、CNNを解釈するための説明可能な人工知能(XAI)において広く使われているアプローチである。 モチベーションは、自動化運転のようなさまざまな領域で義務付けられているように、安全クリティカルなAIベースのシステムの透明性の必要性である。 しかし、検査やエラー検索などの安全関連目的のために概念表現を使用するには、これらは高品質で、特に安定でなければならない。 本稿では,コンピュータビジョンcnnにおける概念表現を扱う際の,概念検索の安定性と概念帰属という2つの安定性目標に焦点を当てる。 既存の概念分析(CA)手法をうまく適応させるための、オブジェクト検出(OD)CNNのためのポストホックな説明可能性フレームワークである。 概念検索の安定性に対処するために,概念分離と一貫性を考慮し,レイヤや概念表現次元に依存しない新しいメトリクスを提案する。 次に,概念抽象化レベル,概念トレーニングサンプル数,cnnサイズ,概念表現次元が安定性に与える影響について検討する。 概念帰属安定性のために,勾配不安定性が勾配に基づく説明可能性に及ぼす影響を考察する。 その結果,(1)データ集約による次元縮小により概念検索の安定性が向上し,(2)傾斜不安定がより顕著である浅層では勾配平滑化技術が推奨されている。 最後に、我々のアプローチは、安全クリティカルなXAIアプリケーションにおいて、適切な層と概念表現の次元性を選択するための貴重な洞察を提供する。

Analysis of how semantic concepts are represented within Convolutional Neural Networks (CNNs) is a widely used approach in Explainable Artificial Intelligence (XAI) for interpreting CNNs. A motivation is the need for transparency in safety-critical AI-based systems, as mandated in various domains like automated driving. However, to use the concept representations for safety-relevant purposes, like inspection or error retrieval, these must be of high quality and, in particular, stable. This paper focuses on two stability goals when working with concept representations in computer vision CNNs: stability of concept retrieval and of concept attribution. The guiding use-case is a post-hoc explainability framework for object detection (OD) CNNs, towards which existing concept analysis (CA) methods are successfully adapted. To address concept retrieval stability, we propose a novel metric that considers both concept separation and consistency, and is agnostic to layer and concept representation dimensionality. We then investigate impacts of concept abstraction level, number of concept training samples, CNN size, and concept representation dimensionality on stability. For concept attribution stability we explore the effect of gradient instability on gradient-based explainability methods. The results on various CNNs for classification and object detection yield the main findings that (1) the stability of concept retrieval can be enhanced through dimensionality reduction via data aggregation, and (2) in shallow layers where gradient instability is more pronounced, gradient smoothing techniques are advised. Finally, our approach provides valuable insights into selecting the appropriate layer and concept representation dimensionality, paving the way towards CA in safety-critical XAI applications.
翻訳日:2023-05-01 14:02:26 公開日:2023-04-28
# リアルタイムマルチラベル気象認識のためのMASK-CNN変換器

MASK-CNN-Transformer For Real-Time Multi-Label Weather Recognition ( http://arxiv.org/abs/2304.14857v1 )

ライセンス: Link先を確認
Shengchao Chen, Ting Shu, Huan Zhao, Yuan Yan Tan(参考訳) 天気予報は、交通安全、環境、気象学など、多くの実用的用途に欠かせない支援である。 しかし、既存の多くの関連著作は、その複雑な共起依存関係のため、気象条件を包括的に記述できない。 本稿では,これらの依存性を考慮した新しいマルチラベル気象認識モデルを提案する。 MASK-Convolutional Neural Network-Transformer (MASK-CT) と呼ばれる提案モデルは、Transformer、Convolutional Process、MASKメカニズムに基づいている。 このモデルは複数の畳み込み層を用いて気象画像から特徴を抽出し、トランスエンコーダを用いて各気象条件の確率を抽出した特徴量に基づいて算出する。 MASK-CTの一般化能力を向上させるため、トレーニング段階でMASK機構を使用する。 また,MASK機構の効果について検討した。 Maskメカニズムは、ワンペアトレーニングインスタンス(1つの画像とその対応するラベル)からランダムに情報を保持する。 MASKには2種類の方法がある。 具体的には、気象特徴抽出器に供給する前に、画像上にMASK-Iを設計して展開し、画像ラベルにMASK-IIを適用する。 Transformerエンコーダは、ランダムにマスクされた画像の特徴とラベルに使用される。 各種実世界の天気予報データセットによる実験結果から,提案したMASK-CTモデルは最先端の手法よりも優れていることが示された。 さらに,MASK-CTの高速動的リアルタイム気象認識能力の評価を行った。

Weather recognition is an essential support for many practical life applications, including traffic safety, environment, and meteorology. However, many existing related works cannot comprehensively describe weather conditions due to their complex co-occurrence dependencies. This paper proposes a novel multi-label weather recognition model considering these dependencies. The proposed model called MASK-Convolutional Neural Network-Transformer (MASK-CT) is based on the Transformer, the convolutional process, and the MASK mechanism. The model employs multiple convolutional layers to extract features from weather images and a Transformer encoder to calculate the probability of each weather condition based on the extracted features. To improve the generalization ability of MASK-CT, a MASK mechanism is used during the training phase. The effect of the MASK mechanism is explored and discussed. The Mask mechanism randomly withholds some information from one-pair training instances (one image and its corresponding label). There are two types of MASK methods. Specifically, MASK-I is designed and deployed on the image before feeding it into the weather feature extractor and MASK-II is applied to the image label. The Transformer encoder is then utilized on the randomly masked image features and labels. The experimental results from various real-world weather recognition datasets demonstrate that the proposed MASK-CT model outperforms state-of-the-art methods. Furthermore, the high-speed dynamic real-time weather recognition capability of the MASK-CT is evaluated.
翻訳日:2023-05-01 14:01:59 公開日:2023-04-28
# パーシステンス図のwasserstein辞書

Wasserstein Dictionaries of Persistence Diagrams ( http://arxiv.org/abs/2304.14852v1 )

ライセンス: Link先を確認
Keanu Sisouk, Julie Delon, Julien Tierny(参考訳) 本稿では,原子図辞書の重み付きwasserstein barycenters [99],[101]という形で,永続図のアンサンブルを簡潔に符号化するための計算枠組みを提案する。 本稿では,原子図の最適化と重心重みの最適化をインターリーブする,対応する最小化問題の効率的な解法として,多スケール勾配降下法を提案する。 提案手法は,両サブプロブレムの勾配解析式を活用し,高速なイテレーションを保証するとともに,共有メモリ並列性も活用する。 公的なアンサンブルに関する広範な実験は,wassersteinの辞書計算を最大例の1分単位で行うことで,このアプローチの効率性を示している。 2つのアプリケーションで貢献の効用を示します。 まず,wasserstein辞書をデータ削減に適用し,その重みを辞書で簡潔に表現することにより,永続化図を確実に圧縮する。 次に,少数の原子(典型的には3個)で定義されるワッサースタイン辞書に基づく次元減少フレームワークを示し,その辞書を視覚空間(典型的には2d)に埋め込まれた低次元のシンプレックスとして符号化する。 どちらのアプリケーションでも、定量的実験は我々のフレームワークの関連性を評価する。 最後に、結果の再現に使用できるC++の実装を提供します。

This paper presents a computational framework for the concise encoding of an ensemble of persistence diagrams, in the form of weighted Wasserstein barycenters [99], [101] of a dictionary of atom diagrams. We introduce a multi-scale gradient descent approach for the efficient resolution of the corresponding minimization problem, which interleaves the optimization of the barycenter weights with the optimization of the atom diagrams. Our approach leverages the analytic expressions for the gradient of both sub-problems to ensure fast iterations and it additionally exploits shared-memory parallelism. Extensive experiments on public ensembles demonstrate the efficiency of our approach, with Wasserstein dictionary computations in the orders of minutes for the largest examples. We show the utility of our contributions in two applications. First, we apply Wassserstein dictionaries to data reduction and reliably compress persistence diagrams by concisely representing them with their weights in the dictionary. Second, we present a dimensionality reduction framework based on a Wasserstein dictionary defined with a small number of atoms (typically three) and encode the dictionary as a low dimensional simplex embedded in a visual space (typically in 2D). In both applications, quantitative experiments assess the relevance of our framework. Finally, we provide a C++ implementation that can be used to reproduce our results.
翻訳日:2023-05-01 14:01:35 公開日:2023-04-28
# リンク予測としての音楽音声分離:マルチトラック追跡問題としての音楽知覚課題のモデル化

Musical Voice Separation as Link Prediction: Modeling a Musical Perception Task as a Multi-Trajectory Tracking Problem ( http://arxiv.org/abs/2304.14848v1 )

ライセンス: Link先を確認
Emmanouil Karystinaios, Francesco Foscarin, Gerhard Widmer(参考訳) 本稿では、多声楽曲において、相互作用する異なる声、すなわちモノフォニックメロディストリームを分離する知覚的タスクを目標とする。 音符を明示的に符号化したシンボリック・ミュージックを対象とし、このタスクを離散的な観測、すなわちピッチ時空間における音符からマルチトラック追跡(mtt)問題としてモデル化する。 提案手法では,音符毎に1つのノードを作成し,同じ音声/ストリームで連続している場合の2つの音符間のリンクを予測し,旋律的軌跡を分離することにより,楽譜からグラフを構築する。 このような局所的かつ欲望的な予測は、異種グラフニューラルネットワークによって作成されたノード埋め込みによって可能となる。 さらに,各ノードに対して少なくとも1つの受信リンクと1つの発信リンクのMTT前提を尊重し,モノフォニック(音声)トラジェクトリを優先する新たな正規化損失を提案する。 提案手法では, ドメイン固有のヒューリスティックスは使用せず, より長いシーケンスにスケーラブルで, 高い数の音声を処理でき, 音声の反転や重複といった複雑なケースを処理できる。 異なるスタイルのクラシック音楽における音声分離タスクについて,最新の結果を得た。

This paper targets the perceptual task of separating the different interacting voices, i.e., monophonic melodic streams, in a polyphonic musical piece. We target symbolic music, where notes are explicitly encoded, and model this task as a Multi-Trajectory Tracking (MTT) problem from discrete observations, i.e., notes in a pitch-time space. Our approach builds a graph from a musical piece, by creating one node for every note, and separates the melodic trajectories by predicting a link between two notes if they are consecutive in the same voice/stream. This kind of local, greedy prediction is made possible by node embeddings created by a heterogeneous graph neural network that can capture inter- and intra-trajectory information. Furthermore, we propose a new regularization loss that encourages the output to respect the MTT premise of at most one incoming and one outgoing link for every node, favouring monophonic (voice) trajectories; this loss function might also be useful in other general MTT scenarios. Our approach does not use domain-specific heuristics, is scalable to longer sequences and a higher number of voices, and can handle complex cases such as voice inversions and overlaps. We reach new state-of-the-art results for the voice separation task in classical music of different styles.
翻訳日:2023-05-01 14:01:12 公開日:2023-04-28
# ゲルマニウムハッチワイヤホールスピン量子ビットにおける超高速で電気的に可変なrabi周波数

Ultrafast and Electrically Tunable Rabi Frequency in a Germanium Hut Wire Hole Spin Qubit ( http://arxiv.org/abs/2304.14846v1 )

ライセンス: Link先を確認
He Liu, Ke Wang, Fei Gao, Jin Leng, Yang Liu, Yu-Chen Zhou, Gang Cao, Ting Wang, Jianjun Zhang, Peihao Huang, Hai-Ou Li and Guo-Ping Guo(参考訳) ゲルマニウム(Ge)に基づくホールスピン量子ビットは、強い可変スピン軌道相互作用(SOI)と超高速量子ビット演算速度を持つ。 本稿では,Gehutワイヤ(HW)ダブル量子ドット(DQD)におけるホールスピンキュービットのRabi周波数(f_Rabi)が,変形エネルギーと中ゲート電圧(V_M)によって電気的に調整されていることを報告する。 f_Rabiは劣化エネルギーの増加に伴って徐々に減少し、逆にf_RabiはV_Mと正に相関する。 我々は、SOI上の電場の変化と、量子ドットにおける励起状態のf_Rabiへの寄与に起因する。 さらに、超高速のf_Rabiが1.2GHzを超えることを示す。 超高速で電気的に調整可能なf_Rabiのホールスピン量子ビットでの発見は、半導体量子コンピューティングに潜在的な応用をもたらす。

Hole spin qubits based on germanium (Ge) have strong tunable spin orbit interaction (SOI) and ultrafast qubit operation speed. Here we report that the Rabi frequency (f_Rabi) of a hole spin qubit in a Ge hut wire (HW) double quantum dot (DQD) is electrically tuned through the detuning energy and middle gate voltage (V_M). f_Rabi gradually decreases with increasing detuning energy; on the contrary, f_Rabi is positively correlated with V_M. We attribute our results to the change of electric field on SOI and the contribution of the excited state in quantum dots to f_Rabi. We further demonstrate an ultrafast f_Rabi exceeding 1.2 GHz, which evidences the strong SOI in our device. The discovery of an ultrafast and electrically tunable f_Rabi in a hole spin qubit has potential applications in semiconductor quantum computing.
翻訳日:2023-05-01 14:00:46 公開日:2023-04-28
# sfd2: セマンティックガイドによる特徴検出と記述

SFD2: Semantic-guided Feature Detection and Description ( http://arxiv.org/abs/2304.14845v1 )

ライセンス: Link先を確認
Fei Xue and Ignas Budvytis and Roberto Cipolla(参考訳) 視覚的ローカライゼーションは、自律運転やロボット工学など、さまざまなアプリケーションの基本課題である。 従来の手法では、局所的に信頼性の高い大量の冗長な特徴の抽出に重点を置いているため、特に困難な状況下での大規模環境での効率と精度は限られている。 その代わりに,検出プロセスと記述プロセスの両方に暗黙的にハイレベルなセマンティクスを埋め込むことで,グローバルに信頼性の高い特徴を抽出することを提案する。 具体的には、semantic-aware detectorは、明示的なセマンティックラベルに頼るのではなく、信頼できるリージョン(例えば、ビルディング、トラヒックレーン)からキーポイントを検出でき、信頼できない領域(例えば、空、車)を暗黙的に抑制できます。 これにより、外観変更に敏感な機能数を減らし、テスト時に追加のセグメンテーションネットワークの必要性を避けることで、キーポイントマッチングの精度を高めることができる。 さらに、ディスクリプタはセマンティクスで強化され、識別能力が強く、テスト時により多くのインレーシを提供する。 特に,Aachen Day-Night と RobotCar-Seasons の長期的視覚的ローカライゼーション実験は,我々のモデルが従来の局所的特徴より優れ,高度なマーカに競争精度を与えるが,それぞれ2k と 4k のキーポイントを使用する場合の約 2 倍高速であることを示す。

Visual localization is a fundamental task for various applications including autonomous driving and robotics. Prior methods focus on extracting large amounts of often redundant locally reliable features, resulting in limited efficiency and accuracy, especially in large-scale environments under challenging conditions. Instead, we propose to extract globally reliable features by implicitly embedding high-level semantics into both the detection and description processes. Specifically, our semantic-aware detector is able to detect keypoints from reliable regions (e.g. building, traffic lane) and suppress unreliable areas (e.g. sky, car) implicitly instead of relying on explicit semantic labels. This boosts the accuracy of keypoint matching by reducing the number of features sensitive to appearance changes and avoiding the need of additional segmentation networks at test time. Moreover, our descriptors are augmented with semantics and have stronger discriminative ability, providing more inliers at test time. Particularly, experiments on long-term large-scale visual localization Aachen Day-Night and RobotCar-Seasons datasets demonstrate that our model outperforms previous local features and gives competitive accuracy to advanced matchers but is about 2 and 3 times faster when using 2k and 4k keypoints, respectively.
翻訳日:2023-05-01 14:00:27 公開日:2023-04-28
# 半透明虫の3次元形状復元

3D shape reconstruction of semi-transparent worms ( http://arxiv.org/abs/2304.14841v1 )

ライセンス: Link先を確認
Thomas P. Ilett, Omer Yuval, Thomas Ranner, Netta Cohen, David C. Hogg(参考訳) 3次元形状再構成は通常、被写体の複数の画像から物体の特徴やテクスチャを識別する必要がある。 このアプローチは、主題が半透明で、焦点が合っていないときに実現できません。 ここでは,画像との比較において,適応的なぼやけと透明性をもって候補形状をレンダリングすることで,これらの課題を克服する。 電子顕微鏡による線虫Caenorhabditis elegansをケーススタディとして、光学特性が常に変化する3次元複合体流体を自由に探索する。 寄生虫を3次元の曲線としてモデル化し,生物学的に不定な制約と正規化を自然に認めている。 2次元プロジェクションから画像を合成し、原画像と比較して、曲線、カメラ、レンダラーパラメータを勾配勾配を用いて共同で更新する画素ワイズ誤差を生成する新しい微分可能なレンダラーを開発した。 この手法は流体中に閉じ込められた気泡や汚れなどの干渉に対して堅牢であり、複雑な姿勢の連続を通して安定であり、ぼやけた画像から信頼性の高い推定を回復し、C. elegansを3Dで追跡する以前の試みに顕著な改善をもたらす。 本研究は, 地盤データのない複雑な物理環境における形状推定への直接的アプローチの可能性を示す。

3D shape reconstruction typically requires identifying object features or textures in multiple images of a subject. This approach is not viable when the subject is semi-transparent and moving in and out of focus. Here we overcome these challenges by rendering a candidate shape with adaptive blurring and transparency for comparison with the images. We use the microscopic nematode Caenorhabditis elegans as a case study as it freely explores a 3D complex fluid with constantly changing optical properties. We model the slender worm as a 3D curve using an intrinsic parametrisation that naturally admits biologically-informed constraints and regularisation. To account for the changing optics we develop a novel differentiable renderer to construct images from 2D projections and compare against raw images to generate a pixel-wise error to jointly update the curve, camera and renderer parameters using gradient descent. The method is robust to interference such as bubbles and dirt trapped in the fluid, stays consistent through complex sequences of postures, recovers reliable estimates from blurry images and provides a significant improvement on previous attempts to track C. elegans in 3D. Our results demonstrate the potential of direct approaches to shape estimation in complex physical environments in the absence of ground-truth data.
翻訳日:2023-05-01 13:59:58 公開日:2023-04-28
# IMP: 適応型プールによる反復的マッチングとポース推定

IMP: Iterative Matching and Pose Estimation with Adaptive Pooling ( http://arxiv.org/abs/2304.14837v1 )

ライセンス: Link先を確認
Fei Xue and Ignas Budvytis and Roberto Cipolla(参考訳) 従来の手法では2段階のプロセスを用いて特徴マッチングやポーズ推定を行い、まずマッチングを見つけ、次にポーズを推定する。 2つのタスク間の幾何学的関係を無視するため、マッチの品質向上や潜在的な外れ値のフィルタリングに重点を置いているため、効率や正確性は限られている。 これとは対照的に,2つのタスク間の幾何的接続を利用した反復的マッチングとポーズ推定フレームワーク(IMP)を提案する。 この目的のために我々は,スパースマッチとカメラポーズを共同で出力する幾何学的アレントアレントアレントアテンションベースモジュールを実装した。 具体的には、各イテレーションに対して、まず、ポーズ一貫性の損失を通じて、モジュールに幾何学情報を暗黙的に埋め込む。 第2に,eimpと呼ばれる,冗長な更新を回避し,トランスフォーマの注意計算の二次時間複雑性を著しく低減する,キーポイントを動的に破棄する\textbf{e}fficient impを導入する。 YFCC100m、Scannet、Aachen Day-Nightのデータセットに対する実験により、提案手法は精度と効率の点で従来の手法よりも優れていることが示された。

Previous methods solve feature matching and pose estimation using a two-stage process by first finding matches and then estimating the pose. As they ignore the geometric relationships between the two tasks, they focus on either improving the quality of matches or filtering potential outliers, leading to limited efficiency or accuracy. In contrast, we propose an iterative matching and pose estimation framework (IMP) leveraging the geometric connections between the two tasks: a few good matches are enough for a roughly accurate pose estimation; a roughly accurate pose can be used to guide the matching by providing geometric constraints. To this end, we implement a geometry-aware recurrent attention-based module which jointly outputs sparse matches and camera poses. Specifically, for each iteration, we first implicitly embed geometric information into the module via a pose-consistency loss, allowing it to predict geometry-aware matches progressively. Second, we introduce an \textbf{e}fficient IMP, called EIMP, to dynamically discard keypoints without potential matches, avoiding redundant updating and significantly reducing the quadratic time complexity of attention computation in transformers. Experiments on YFCC100m, Scannet, and Aachen Day-Night datasets demonstrate that the proposed method outperforms previous approaches in terms of accuracy and efficiency.
翻訳日:2023-05-01 13:59:34 公開日:2023-04-28
# 確率勾配に基づく滑らか境界制約最適化問題の解法

A Stochastic-Gradient-based Interior-Point Algorithm for Solving Smooth Bound-Constrained Optimization Problems ( http://arxiv.org/abs/2304.14907v1 )

ライセンス: Link先を確認
Frank E. Curtis, Vyacheslav Kungurtsev, Daniel P. Robinson, Qi Wang(参考訳) 境界制約を受ける連続微分可能な対象関数(非凸かもしれない)を最小化し、解析し、実験結果を通して実証する確率勾配型内点アルゴリズムを提案する。 このアルゴリズムは、探索方向を確率勾配推定を用いて計算するため、滑らかな(非凸)最適化問題を解く他のインテリアポイント法とは異なる。 また、イテレートが残らざるを得ない、実現可能な地域の内側の地区(ポジティブで消滅する近隣パラメータ配列で定義される)の使用にも特有である。 提案アルゴリズムは,障壁,ステップサイズ,近傍列のバランスを慎重に保ち,決定論的および確率的設定の収束保証を満足することを示した。 数値実験の結果, いずれの設定においても, アルゴリズムは射影(確率的)勾配法よりも優れることがわかった。

A stochastic-gradient-based interior-point algorithm for minimizing a continuously differentiable objective function (that may be nonconvex) subject to bound constraints is presented, analyzed, and demonstrated through experimental results. The algorithm is unique from other interior-point methods for solving smooth (nonconvex) optimization problems since the search directions are computed using stochastic gradient estimates. It is also unique in its use of inner neighborhoods of the feasible region -- defined by a positive and vanishing neighborhood-parameter sequence -- in which the iterates are forced to remain. It is shown that with a careful balance between the barrier, step-size, and neighborhood sequences, the proposed algorithm satisfies convergence guarantees in both deterministic and stochastic settings. The results of numerical experiments show that in both settings the algorithm can outperform a projected-(stochastic)-gradient method.
翻訳日:2023-05-01 13:53:16 公開日:2023-04-28
# 機械学習パイプラインの非線形ブロックとしてのボースアインシュタイン凝縮

Bose Einstein condensate as nonlinear block of a Machine Learning pipeline ( http://arxiv.org/abs/2304.14905v1 )

ライセンス: Link先を確認
Maurus Hans, Elinor Kath, Marius Sparn, Nikolas Liebster, Felix Draxler, Christoph Schn\"orr, Helmut Strobel, Markus K. Oberthaler(参考訳) 物理システムは情報処理の基盤として利用でき、それによって従来のコンピューティングアーキテクチャを拡張できる。 そのようなアプリケーションでは、実験的なプラットフォームは初期状態、時間的進化、読み出しの厳格な制御を保証しなければならない。 これらの材料はすべて、現代の原子ボース・アインシュタイン凝縮の実験的実現によって提供される。 量子ガスの非線形進化を機械学習パイプラインに組み込むことで、パイプラインの古典計算における線形演算のみを必要としながら、非線形関数を表現することができる。 我々は、カリウム原子の準一次元雲を用いて非線形関数の回帰と補間を成功させ、システムの性能を特徴付ける。

Physical systems can be used as an information processing substrate and with that extend traditional computing architectures. For such an application the experimental platform must guarantee pristine control of the initial state, the temporal evolution and readout. All these ingredients are provided by modern experimental realizations of atomic Bose Einstein condensates. By embedding the nonlinear evolution of a quantum gas in a Machine Learning pipeline, one can represent nonlinear functions while only linear operations on classical computing of the pipeline are necessary. We demonstrate successful regression and interpolation of a nonlinear function using a quasi one-dimensional cloud of potassium atoms and characterize the performance of our system.
翻訳日:2023-05-01 13:53:02 公開日:2023-04-28
# サプライチェーンのレジリエンス向上 - ディスラプション下のプロダクトアベイラビリティの予測のための機械学習アプローチ

Enhancing Supply Chain Resilience: A Machine Learning Approach for Predicting Product Availability Dates Under Disruption ( http://arxiv.org/abs/2304.14902v1 )

ライセンス: Link先を確認
Mustafa Can Camur, Sandipp Krishnan Ravi, Shadi Saleh(参考訳) 新型コロナウイルス(COVID-19)のパンデミックや、政治的・地域的な紛争が世界的なサプライチェーンに大きな打撃を与え、ロジスティクスの運用や国際的な出荷が大幅に遅れた。 最も差し迫った懸念の1つは製品の発売日に関する不確実性であり、これは企業が効果的なロジスティクスと出荷計画を作成するための重要な情報である。 したがって、可用性の正確な予測は、ロジスティクス運用の成功に重要な役割を果たし、最終的には輸送費と在庫コストを最小化する。 ゼネラル・エレクトリック(ge)ガス・パワーのガス・蒸気タービン事業および製造事業用インバウンド出荷日数予測について,数値的特徴とカテゴリー的特徴を活かして検討した。 本研究では,単純な回帰,ラッソ回帰,リッジ回帰,弾性ネット,ランダムフォレスト(rf),勾配ブースティングマシン(gbm),ニューラルネットワークモデルなどの回帰モデルを評価する。 実世界のデータに基づいて,木に基づくアルゴリズム(RFとGBM)が最高の一般化誤差を与え,テストした他の回帰モデルよりも優れていることを示す。 当社の予測モデルは、サプライチェーンの破壊を管理し、サプライチェーンのリスクを広範囲に低減する上で、企業を支援するものと期待しています。

The COVID 19 pandemic and ongoing political and regional conflicts have a highly detrimental impact on the global supply chain, causing significant delays in logistics operations and international shipments. One of the most pressing concerns is the uncertainty surrounding the availability dates of products, which is critical information for companies to generate effective logistics and shipment plans. Therefore, accurately predicting availability dates plays a pivotal role in executing successful logistics operations, ultimately minimizing total transportation and inventory costs. We investigate the prediction of product availability dates for General Electric (GE) Gas Power's inbound shipments for gas and steam turbine service and manufacturing operations, utilizing both numerical and categorical features. We evaluate several regression models, including Simple Regression, Lasso Regression, Ridge Regression, Elastic Net, Random Forest (RF), Gradient Boosting Machine (GBM), and Neural Network models. Based on real world data, our experiments demonstrate that the tree based algorithms (i.e., RF and GBM) provide the best generalization error and outperforms all other regression models tested. We anticipate that our prediction models will assist companies in managing supply chain disruptions and reducing supply chain risks on a broader scale.
翻訳日:2023-05-01 13:52:52 公開日:2023-04-28
# 可視化:物理誘導再生による高画質テラヘルツイメージングに向けて

Making the Invisible Visible: Toward High-Quality Terahertz Tomographic Imaging via Physics-Guided Restoration ( http://arxiv.org/abs/2304.14894v1 )

ライセンス: Link先を確認
Weng-Tai Su, Yi-Chun Hung, Po-Jen Yu, Shang-Hua Yang and Chia-Wen Lin(参考訳) terahertz (thz) 断層撮影は最近、非侵襲的、非破壊的、非イオン化、物質分類、および物体探査と検査のための超高速の性質により、注目を集めている。 しかし、その強い吸水特性と低雑音耐性は、望ましくないぼやけと再構成されたTHz画像の歪みを引き起こす。 回折制限されたTHz信号は、既存の復元法の性能を非常に制約する。 そこで本稿では,thz画像のマルチビュー・マルチスペクトル特徴を融合して画像復元と3次元断層画像再構成を行うマルチビューサブスペース・アテンション・ガイドド・リカバリ・ネットワーク(sarnet)を提案する。 この目的のために、SARNetはマルチスケールブランチを使用して、ビュー内スペクトル振幅と位相特徴を抽出し、共有部分空間投影と自己アテンションガイダンスを介してそれらを融合する。 次に,隣接ビュー間の冗長性を活用し,個々のビューの復元をさらに改善するために,ビュー間融合を行う。 本研究では,隠れた3dオブジェクトの時間・スペクトル・空間・物質のthzデータベースを構築するために,0.1thzから4thzまでの広い周波数範囲をカバーするthz時間領域分光(thz-tds)システムを構築した。 定量的評価を補完し,3次元THzトモグラフィ再構成におけるSARNetモデルの有効性を示す。

Terahertz (THz) tomographic imaging has recently attracted significant attention thanks to its non-invasive, non-destructive, non-ionizing, material-classification, and ultra-fast nature for object exploration and inspection. However, its strong water absorption nature and low noise tolerance lead to undesired blurs and distortions of reconstructed THz images. The diffraction-limited THz signals highly constrain the performances of existing restoration methods. To address the problem, we propose a novel multi-view Subspace-Attention-guided Restoration Network (SARNet) that fuses multi-view and multi-spectral features of THz images for effective image restoration and 3D tomographic reconstruction. To this end, SARNet uses multi-scale branches to extract intra-view spatio-spectral amplitude and phase features and fuse them via shared subspace projection and self-attention guidance. We then perform inter-view fusion to further improve the restoration of individual views by leveraging the redundancies between neighboring views. Here, we experimentally construct a THz time-domain spectroscopy (THz-TDS) system covering a broad frequency range from 0.1 THz to 4 THz for building up a temporal/spectral/spatial/ material THz database of hidden 3D objects. Complementary to a quantitative evaluation, we demonstrate the effectiveness of our SARNet model on 3D THz tomographic reconstruction applications.
翻訳日:2023-05-01 13:52:28 公開日:2023-04-28
# 型付きアフィン決定構造の力--ケーススタディ

The Power of Typed Affine Decision Structures: A Case Study ( http://arxiv.org/abs/2304.14888v1 )

ライセンス: Link先を確認
Gerrit Nolte and Maximilian Schl\"uter and Alnis Murtovi and Bernhard Steffen(参考訳) TADSはニューラルネットワークの新しい、簡潔なホワイトボックス表現である。 本稿では、TADSをニューラルネットワーク検証の問題に適用し、好適なニューラルネットワーク特性に対する証明または簡潔なエラー特性を生成する。 ケーススタディでは、ニューラルネットワークの敵攻撃に対する堅牢性、すなわち、ニューラルネットワークの知覚を劇的に変える入力に対する小さな変化を考察し、堅牢性エラーの発生方法と発生場所の正確な診断にTADSが使用できることを示す。 入力空間の所定の部分集合上でネットワーク動作を正確に記述したTADSを生成する手法であるPrecondition Projectionを導入し、従来のよく理解された次元削減手法であるPCAと組み合わせることで、これらの結果を得る。 PCAはTADSと容易に互換性があることを示す。 すべての分析は、TADSのリッチ代数的性質を用いて、ニューラルネットワークの説明可能性と検証のためのTADSフレームワークの有用性を実証し、簡単な方法で実装することができる。 TADSはまだ最先端のニューラルネットワーク検証器ほど効率的にスケールしていないが、PCAベースの単純化を用いることで、ネットワークのデバッグや新しいトレーニングサンプルの生成など他の目的に使用可能な潜在的なエラーの簡潔な説明が得られる。

TADS are a novel, concise white-box representation of neural networks. In this paper, we apply TADS to the problem of neural network verification, using them to generate either proofs or concise error characterizations for desirable neural network properties. In a case study, we consider the robustness of neural networks to adversarial attacks, i.e., small changes to an input that drastically change a neural networks perception, and show that TADS can be used to provide precise diagnostics on how and where robustness errors a occur. We achieve these results by introducing Precondition Projection, a technique that yields a TADS describing network behavior precisely on a given subset of its input space, and combining it with PCA, a traditional, well-understood dimensionality reduction technique. We show that PCA is easily compatible with TADS. All analyses can be implemented in a straightforward fashion using the rich algebraic properties of TADS, demonstrating the utility of the TADS framework for neural network explainability and verification. While TADS do not yet scale as efficiently as state-of-the-art neural network verifiers, we show that, using PCA-based simplifications, they can still scale to mediumsized problems and yield concise explanations for potential errors that can be used for other purposes such as debugging a network or generating new training samples.
翻訳日:2023-05-01 13:51:59 公開日:2023-04-28
# ACMマルチメディア2023計算パラ言語問題:感情共有と要求

The ACM Multimedia 2023 Computational Paralinguistics Challenge: Emotion Share & Requests ( http://arxiv.org/abs/2304.14882v1 )

ライセンス: Link先を確認
Bj\"orn W. Schuller, Anton Batliner, Shahin Amiriparian, Alexander Barnhill, Maurice Gerczuk, Andreas Triantafyllopoulos, Alice Baird, Panagiotis Tzirakis, Chris Gagne, Alan S. Cowen, Nikola Lackovic, Marie-Jos\'e Caraty(参考訳) acm multimedia 2023 computational paralinguistics challenge では、感情共有サブチャレンジでは、音声に対する回帰が必要であり、リクエストサブチャレンスでは、要求と苦情を検出する必要がある。 本稿では,通常の比較機能,audeep toolkit,deepspectrum toolkitを用いたcnnからの深層特徴抽出,wav2vec2モデルを用いたサブチャンジ,ベースライン特徴抽出,分類器について述べる。

The ACM Multimedia 2023 Computational Paralinguistics Challenge addresses two different problems for the first time in a research competition under well-defined conditions: In the Emotion Share Sub-Challenge, a regression on speech has to be made; and in the Requests Sub-Challenges, requests and complaints need to be detected. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the usual ComPaRE features, the auDeep toolkit, and deep feature extraction from pre-trained CNNs using the DeepSpectRum toolkit; in addition, wav2vec2 models are used.
翻訳日:2023-05-01 13:51:36 公開日:2023-04-28
# SGAligner : シーングラフを用いた3次元シーンアライメント

SGAligner : 3D Scene Alignment with Scene Graphs ( http://arxiv.org/abs/2304.14880v1 )

ライセンス: Link先を確認
Sayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni(参考訳) 3Dシーングラフの構築は、構造化されたリッチな方法で世界を表現するために、いくつかの具体化されたAIアプリケーションのためのシーン表現のトピックとして最近登場した。 下流タスク(ナビゲーションや部屋の配置など)の問題解決に利用が増えたことで、エージェント操作における重要なステップである環境の3Dマップの作成にそれらを活用して再利用できるだろうか? 重なりが0から偏りがあり、任意の変化を含むことができる3次元シーングラフのペアの整列に関する根本的な問題に焦点を当てる。 本研究では,SGAlignerを提案する。SGAlignerは3次元シーングラフのペアを配置する最初の手法で,環境の変化や環境の変化など,Wildのシナリオに対して堅牢である。 マルチモーダルな知識グラフにインスパイアされ、コントラスト学習を用いて、共同でマルチモーダルな埋め込み空間を学ぶ。 さらに,3RScanデータセットを用いて,2対の3Dシーン間の変換を推定できることを示す。 これらのタスクのベンチマークが欠けているので、このデータセット上でそれらを作成します。 コード、ベンチマーク、トレーニングされたモデルはプロジェクトのWebサイトで入手できる。

Building 3D scene graphs has recently emerged as a topic in scene representation for several embodied AI applications to represent the world in a structured and rich manner. With their increased use in solving downstream tasks (eg, navigation and room rearrangement), can we leverage and recycle them for creating 3D maps of environments, a pivotal step in agent operation? We focus on the fundamental problem of aligning pairs of 3D scene graphs whose overlap can range from zero to partial and can contain arbitrary changes. We propose SGAligner, the first method for aligning pairs of 3D scene graphs that is robust to in-the-wild scenarios (ie, unknown overlap -- if any -- and changes in the environment). We get inspired by multi-modality knowledge graphs and use contrastive learning to learn a joint, multi-modal embedding space. We evaluate on the 3RScan dataset and further showcase that our method can be used for estimating the transformation between pairs of 3D scenes. Since benchmarks for these tasks are missing, we create them on this dataset. The code, benchmark, and trained models are available on the project website.
翻訳日:2023-05-01 13:51:25 公開日:2023-04-28
# 多変量トレース不等式による絡み合いモノガミー

Entanglement monogamy via multivariate trace inequalities ( http://arxiv.org/abs/2304.14878v1 )

ライセンス: Link先を確認
Mario Berta and Marco Tomamichel(参考訳) エントロピー(entropy)は、量子情報理論における基本的な概念であり、絡み合いを定量化し、その性質、例えば多元系上の単元性を調べることができる。 ここでは、多成分量子系の制限された測定に基づく相対エントロピーの変分公式を求める。 これを多変量行列トレース不等式と組み合わせることで、様々な既存の絡み合いモノガミー不等式を回復し、時に強化する。 特に,一方向局所演算と古典的通信で測定された絡み合いの相対エントロピーと,それを分離的に測定された絡み合いの相対エントロピーに関連付け,相互情報の条件エントロピーの忠実度とを関連づけることで,行列解析に基づく直接的・行列解析に基づく証明を与える。 本稿では, 正の部分転置状態および多成分配置状態に対する相対エントロピーを用いて, これらの結果のばらつきについて考察する。 本研究は,情報理論タスクの漸近的実現可能性に関する操作的議論を用いた文献において,先行する導出を単純化し,一般化する。

Entropy is a fundamental concept in quantum information theory that allows to quantify entanglement and investigate its properties, for example its monogamy over multipartite systems. Here, we derive variational formulas for relative entropies based on restricted measurements of multipartite quantum systems. By combining these with multivariate matrix trace inequalities, we recover and sometimes strengthen various existing entanglement monogamy inequalities. In particular, we give direct, matrix-analysis-based proofs for the faithfulness of squashed entanglement by relating it to the relative entropy of entanglement measured with one-way local operations and classical communication, as well as for the faithfulness of conditional entanglement of mutual information by relating it to the separably measured relative entropy of entanglement. We discuss variations of these results using the relative entropy to states with positive partial transpose, and multipartite setups. Our results simplify and generalize previous derivations in the literature that employed operational arguments about the asymptotic achievability of information-theoretic tasks.
翻訳日:2023-05-01 13:51:04 公開日:2023-04-28
# 線検出のためのDense Hybrid ProposalModulation

Dense Hybrid Proposal Modulation for Lane Detection ( http://arxiv.org/abs/2304.14874v1 )

ライセンス: Link先を確認
Yuejian Wu, Linqing Zhao, Jiwen Lu, Haibin Yan(参考訳) 本稿では,車線検出のための高密度ハイブリッド提案変調(DHPM)法を提案する。 既存の手法の多くは、ハイスコアな提案のサブセットをスパースに監督するが、他の提案では効果的な形状と位置案内が得られず、結果として全体的な品質が低下する。 これを解決するために, 位相的, 空間的に高品質なレーン予測を識別表現で生成するために, 全ての提案を厳密に調整した。 具体的には、単車線形状と位置制約を適用することにより、車線提案が物理的に有意であることを保証する。 提案手法の利点を生かして,各提案に対して,空間的レイアウトから効率的に学習する対象の基底真理レーンを割り当てる。 一般化の促進とプロソザル間関係のモデル化を目的として,同じ接地路に一致する提案の形状差を多様化する。 形状と位置の制約に加えて,各肯定的提案を適応的に監督し,識別力をさらに向上させることができる品質認識型分類損失を設計する。 我々のDHPMは4つの人気のあるベンチマークデータセットで非常に競争力のあるパフォーマンスを実現しています。 さらに、新しいパラメータを導入せず、推論速度を下げることなく、ほとんどのメトリクスのベースラインモデルより一貫して優れています。

In this paper, we present a dense hybrid proposal modulation (DHPM) method for lane detection. Most existing methods perform sparse supervision on a subset of high-scoring proposals, while other proposals fail to obtain effective shape and location guidance, resulting in poor overall quality. To address this, we densely modulate all proposals to generate topologically and spatially high-quality lane predictions with discriminative representations. Specifically, we first ensure that lane proposals are physically meaningful by applying single-lane shape and location constraints. Benefitting from the proposed proposal-to-label matching algorithm, we assign each proposal a target ground truth lane to efficiently learn from spatial layout priors. To enhance the generalization and model the inter-proposal relations, we diversify the shape difference of proposals matching the same ground-truth lane. In addition to the shape and location constraints, we design a quality-aware classification loss to adaptively supervise each positive proposal so that the discriminative power can be further boosted. Our DHPM achieves very competitive performances on four popular benchmark datasets. Moreover, we consistently outperform the baseline model on most metrics without introducing new parameters and reducing inference speed.
翻訳日:2023-05-01 13:50:42 公開日:2023-04-28
# マルチモーダルモデルの融合に関する実証的研究

An Empirical Study of Multimodal Model Merging ( http://arxiv.org/abs/2304.14933v1 )

ライセンス: Link先を確認
Yi-Lin Sung, Linjie Li, Kevin Lin, Zhe Gan, Mohit Bansal, Lijuan Wang(参考訳) モデルマージ(例えば補間やタスク演算)は、異なるタスクで訓練された複数のモデルを融合させ、マルチタスクソリューションを生成する。 このテクニックは、同様のタスクと同じ初期化でモデルがトレーニングされる以前の研究で成功したことが証明されている。 本稿では,この概念をマルチモーダルな構成に拡張し,異なるモーダル性で訓練されたトランスフォーマーをマージする。 さらに,モダリティ固有のアーキテクチャの視覚,言語,クロスモーダルトランスフォーマーを融合し,パラメータ効率のよいモダリティ非依存アーキテクチャを構築するという,新たな目標に向けて研究を行う。 総合実験を通じて,初期化,統合機構,モデルアーキテクチャなど,統合後のモデル性能に影響を及ぼす要因を系統的に検討する。 本分析は,モデルマージによるモダリティ非依存ベースライン(スクラッチから事前学習したベースライン)の性能をマッチングするための効果的なトレーニングレシピを導出する。 私たちのコードは、https://github.com/ylsung/vl-mergingで利用可能です。

Model merging (e.g., via interpolation or task arithmetic) fuses multiple models trained on different tasks to generate a multi-task solution. The technique has been proven successful in previous studies, where the models are trained on similar tasks and with the same initialization. In this paper, we expand on this concept to a multimodal setup by merging transformers trained on different modalities. Furthermore, we conduct our study for a novel goal where we can merge vision, language, and cross-modal transformers of a modality-specific architecture to create a parameter-efficient modality-agnostic architecture. Through comprehensive experiments, we systematically investigate the key factors impacting model performance after merging, including initialization, merging mechanisms, and model architectures. Our analysis leads to an effective training recipe for matching the performance of the modality-agnostic baseline (i.e. pre-trained from scratch) via model merging. Our code is available at: https://github.com/ylsung/vl-merging
翻訳日:2023-05-01 13:43:30 公開日:2023-04-28
# HQP:オンラインのプロパガンダを検知する人称アノテーション付きデータセット

HQP: A Human-Annotated Dataset for Detecting Online Propaganda ( http://arxiv.org/abs/2304.14931v1 )

ライセンス: Link先を確認
Abdurahman Maarouf, Dominik B\"ar, Dominique Geissler, Stefan Feuerriegel(参考訳) オンラインプロパガンダは社会の完全性に深刻な脅威をもたらす。 しかし、オンラインプロパガンダを検出するための既存のデータセットには重要な制限がある。 1) 高品質ラベルを用いたオンラインプロパガンダ検出のための新しいデータセット (n=30,000) を提案する。 私たちの知る限り、 \datasetは、人間のアノテーションによって作成されたオンラインプロパガンダを検出する最初のデータセットです。 2) 弱いラベル(AUC: 64.03)でトレーニングした場合, 最先端言語モデルはオンラインプロパガンダの検出に失敗することを示す。 対照的に最先端の言語モデルでは、高品質なラベル(auc: 92.25)でトレーニングされた場合、オンラインプロパガンダを正確に検出できます。 (3) ラベリングのコストに対処するため, 作業を数発の学習に拡張する。 具体的には,高品質ラベルの少数のサンプルを用いた即時学習が依然として妥当な性能(AUC: 80.27)が得られることを示す。 最後に、NLPコミュニティがラベリングのコストと品質のバランスをとることの意味について論じる。 本研究は,プロパガンダ検出などのセンシティブなnlpタスクにおける高品質ラベルの重要性を強調する。

Online propaganda poses a severe threat to the integrity of societies. However, existing datasets for detecting online propaganda have a key limitation: they were annotated using weak labels that can be noisy and even incorrect. To address this limitation, our work makes the following contributions: (1) We present \dataset: a novel dataset (N=30,000) for detecting online propaganda with high-quality labels. To the best of our knowledge, \dataset is the first dataset for detecting online propaganda that was created through human annotation. (2) We show empirically that state-of-the-art language models fail in detecting online propaganda when trained with weak labels (AUC: 64.03). In contrast, state-of-the-art language models can accurately detect online propaganda when trained with our high-quality labels (AUC: 92.25), which is an improvement of ~44%. (3) To address the cost of labeling, we extend our work to few-shot learning. Specifically, we show that prompt-based learning using a small sample of high-quality labels can still achieve a reasonable performance (AUC: 80.27). Finally, we discuss implications for the NLP community to balance the cost and quality of labeling. Crucially, our work highlights the importance of high-quality labels for sensitive NLP tasks such as propaganda detection.
翻訳日:2023-05-01 13:43:14 公開日:2023-04-28
# 畳み込みとして表される境界を持つウィグナー関数ダイナミクス

Wigner function dynamics with boundaries expressed as convolution ( http://arxiv.org/abs/2304.14928v1 )

ライセンス: Link先を確認
S. S. Seidov(参考訳) 本稿では,無限量子井戸における粒子のウィグナー関数のダイナミクスの探索法を開発した。 計算不能な壁からの反射の問題から始め、得られた解は任意の次元において無限の井戸に閉じ込められた粒子の場合に一般化される。 量子力学の位相空間の定式化における境界値問題は驚くほど難しいことが知られている。 この合併症は、ウィグナー関数の計算にかかわる表現の非局所性から生じる。 このような問題を扱ういくつかの方法が提案された。 それらはかなり複雑でエキゾチックであり、例えばディラックデルタ関数の微分に比例する運動エネルギーの補正を含む。 解析的視点と数値計算の両面から,本手法による提案はより単純である。 解は、井戸の形状によって定義されるある種の関数を持つ自由粒子溶液の畳み込みの形に導かれる。 この手順には積分の計算が必要であり、解析的および数値的手法が開発されている。

In the present paper a method of finding the dynamics of the Wigner function of a particle in an infinite quantum well is developed. Starting with the problem of a reflection from an impenetrable wall, the obtained solution is then generalized to the case of a particle confined in an infinite well in arbitrary dimensions. It is known, that boundary value problems in the phase space formulation of the quantum mechanics are surprisingly tricky. The complications arise from nonlocality of the expression involved in calculation of the Wigner function. Several ways of treating such problems were proposed. They are rather complicated and even exotic, involving, for example, corrections to the kinetic energy proportional to the derivatives of the Dirac delta--function. The presented in the manuscript approach is simpler both from analytical point of view and regarding numerical calculation. The solution is brought to a form of convolution of the free particle solution with some function, defined by the shape of the well. This procedure requires calculation of an integral, which can be done by developed analytical and numerical method.
翻訳日:2023-05-01 13:42:51 公開日:2023-04-28
# 円形社会のスケーラブルな地盤形成のための技術枠組み

A technological framework for scalable ground-up formation of Circular Societies ( http://arxiv.org/abs/2304.14921v1 )

ライセンス: Link先を確認
Anant Sujatanagarjuna(参考訳) 循環経済(CE)は環境危機の解決策と見なされている。 しかし、主流のCEは、社会への影響を克服し、総消費を減少させるような過小評価のソリューションを見越して、成長を続ける経済の倫理に挑戦する動きに悩まされている。 循環社会(CS)はこの倫理に挑戦することでこれらの懸念に対処する。 彼らは、社会的再編成の基盤を強調し、満足度戦略を通じて過剰な消費に対処し、自然、社会、技術間の複雑な相互依存を地域、地域、グローバルレベルで考慮する必要性を強調している。 しかし、CSを形成するための青写真は存在しない。 私の論文の最初の目的は、既存の社会ネットワークオントロジーを探求し、CSの広範囲に適用可能なモデルを開発することである。 地域、地域、グローバルレベルでの社会的再編成は、ネットワークの複雑さに複合的な影響をもたらすため、これらの相互依存をデジタル化する技術枠組みが必要である。 最後に、透明性と民主化というcsの原則に固執し、ネットワーク状態の協調的なコンセンサスを達成するためには信頼のシステムが必要である。

The Circular Economy (CE) is regarded as a solution to the environmental crisis. However, mainstream CE measures skirt around challenging the ethos of ever-increasing economic growth,overlooking social impacts and under-representing solutions such as reducing overall consumption. Circular Societies (CS) address these concerns by challenging this ethos. They emphasize ground-up social reorganization, address over-consumption through sufficiency strategies, and highlight the need for considering the complex inter-dependencies between nature, society, and technology on local,regional and global levels. However, no blueprint exists for forming CSs. An initial objective of my thesis is exploring existing social-network ontologies and developing a broadly applicable model for CSs. Since ground-up social reorganization on local, regional,and global levels has compounding effects on network complexities, a technological framework digitizing these inter-dependencies is necessary. Finally, adhering to CS principles of transparency and democratization, a system of trust is necessary to achieve collaborative consensus of the network state.
翻訳日:2023-05-01 13:41:50 公開日:2023-04-28
# 表象問題:チェスのゲームは視覚トランスフォーマーに挑戦する

Representation Matters: The Game of Chess Poses a Challenge to Vision Transformers ( http://arxiv.org/abs/2304.14918v1 )

ライセンス: Link先を確認
Johannes Czech, Jannis Bl\"uml, Kristian Kersting(参考訳) トランスフォーマーは "Swiss Army knife of AI" という評判を得たが、古典的なAIベンチマークのひとつであるチェスのゲームを習得するために、誰も挑戦しなかった。 AlphaZeroでの視覚変換器(ViT)の使用は、主にViTが遅すぎるため、チェスのゲームをマスターしない。 MobileNetとNextViTの組み合わせを使って、より効率的にすることでさえ、実際には何よりも優れている。入力表現の単純な変更と値損失により、AlphaZeroよりも最大180Eloポイントが向上する。

While transformers have gained the reputation as the "Swiss army knife of AI", no one has challenged them to master the game of chess, one of the classical AI benchmarks. Simply using vision transformers (ViTs) within AlphaZero does not master the game of chess, mainly because ViTs are too slow. Even making them more efficient using a combination of MobileNet and NextViT does not beat what actually matters: a simple change of the input representation and value loss, resulting in a greater boost of up to 180 Elo points over AlphaZero.
翻訳日:2023-05-01 13:40:47 公開日:2023-04-28
# テレポーテーションが明らかに

Teleportation Revealed ( http://arxiv.org/abs/2304.14959v1 )

ライセンス: Link先を確認
Charles Alexandre B\'edard(参考訳) 量子テレポーテーション(quantum teleportation)は問題の名前である:アリスの場所の状態をコード化する実数値パラメータは、共有の絡み合いと2ビットの古典的通信によってボブの場所へどのように進むのか? 説明なしでは、テレポーテーションは厄介なトリックのようだ。 schr\"odinger状態と還元密度行列による現象の調査は、量子系の局所的かつ完全な記述ではないため、常にゆるく終わる。 ハイゼンベルクの絵が局所的かつ完全な記述を認めていることを示すと、DeutschとHaydenはテレポーテーションの背後にあるトリック、すなわち完全にローカルな説明を提供することによって説明力の顕在化を図った。 彼らの分析は再公開され、さらに発展しました。

Quantum teleportation is the name of a problem: how can the real-valued parameters encoding the state at Alice's location make their way to Bob's location via shared entanglement and only two bits of classical communication? Without an explanation, teleportation appears to be a conjuring trick. Investigating the phenomenon with Schr\"odinger states and reduced density matrices shall always leave loose ends because they are not local and complete descriptions of quantum systems. Upon demonstrating that the Heisenberg picture admits a local and complete description, Deutsch and Hayden rendered its explanatory power manifest by revealing the trick behind teleportation, namely, by providing an entirely local account. Their analysis is re-exposed and further developed.
翻訳日:2023-05-01 13:34:14 公開日:2023-04-28
# PAO: 正確な力学と閉形遷移密度を持つ一般粒子群アルゴリズム

PAO: A general particle swarm algorithm with exact dynamics and closed-form transition densities ( http://arxiv.org/abs/2304.14956v1 )

ライセンス: Link先を確認
Max D. Champneys and Timothy J. Rogers(参考訳) 勾配に基づく最適化者が伝統的に苦労してきた設定において,グローバルな最適性を見出すことのできるメタヒューリスティック最適化手法について,多くの研究がなされている。 これらのうち、いわゆる粒子群最適化(pso)アプローチは、多くの応用分野において非常に効果的であることが証明されている。 PSOの分野が成熟していることを考えると、PSOアルゴリズムの新しい変種は、パフォーマンスの面では限界的な利得しか提供しない。 ベンチマーク最適化関数のスイートのパフォーマンスだけを追いかけるのではなく、他の有用な特性を持つアルゴリズムの追求において研究の努力がより適していると論じている。 本研究では, psoアルゴリズムの高一般化, 解釈可能な変種である particle attractor algorithm (pao) を提案する。 さらに、このアルゴリズムは、遷移密度(粒子の運動を1世代から次の世代に記述する)を各ステップごとに正確に閉じた形で計算できるように設計されている。 閉形式遷移密度へのアクセスは、シークエンシャルモンテカルロ(SMC)の密接に関連する分野に重要な影響をもたらす。 実用性が性能の犠牲にならないことを示すために、PAOはベンチマーク比較研究において、他の最先端のヒューリスティック最適化アルゴリズムと比較される。

A great deal of research has been conducted in the consideration of meta-heuristic optimisation methods that are able to find global optima in settings that gradient based optimisers have traditionally struggled. Of these, so-called particle swarm optimisation (PSO) approaches have proven to be highly effective in a number of application areas. Given the maturity of the PSO field, it is likely that novel variants of the PSO algorithm stand to offer only marginal gains in terms of performance -- there is, after all, no free lunch. Instead of only chasing performance on suites of benchmark optimisation functions, it is argued herein that research effort is better placed in the pursuit of algorithms that also have other useful properties. In this work, a highly-general, interpretable variant of the PSO algorithm -- particle attractor algorithm (PAO) -- is proposed. Furthermore, the algorithm is designed such that the transition densities (describing the motions of the particles from one generation to the next) can be computed exactly in closed form for each step. Access to closed-form transition densities has important ramifications for the closely-related field of Sequential Monte Carlo (SMC). In order to demonstrate that the useful properties do not come at the cost of performance, PAO is compared to several other state-of-the art heuristic optimisation algorithms in a benchmark comparison study.
翻訳日:2023-05-01 13:34:00 公開日:2023-04-28
# 医療分野におけるサイバーセキュリティ規制・基準・ガイドラインの体系化

A Systematization of Cybersecurity Regulations, Standards and Guidelines for the Healthcare Sector ( http://arxiv.org/abs/2304.14955v1 )

ライセンス: Link先を確認
Maria Patrizia Carello, Alberto Marchetti Spaccamela, Leonardo Querzoni, Marco Angelini(参考訳) 医療分野におけるITソリューションの採用が増加し、サイバーセキュリティインシデントの増加が着実に進んでいる。 その結果、世界中の組織が、このセクターにおけるサイバーセキュリティとデータ保護の問題に対処するための規制、基準、ベストプラクティスを導入しました。 しかし、この大規模な文書の応用は運用上の困難を呈し、オペレーターはサイバー攻撃に対するレジリエンスに遅れを取っている。 本稿では,医療分野に関連する重要なサイバーセキュリティ文書の体系化に寄与する。 我々は49の最も重要な文書を収集し,nistサイバーセキュリティフレームワークを用いて重要情報を分類し,サイバーセキュリティ対策の実施を支援する。

The growing adoption of IT solutions in the healthcare sector is leading to a steady increase in the number of cybersecurity incidents. As a result, organizations worldwide have introduced regulations, standards, and best practices to address cybersecurity and data protection issues in this sector. However, the application of this large corpus of documents presents operational difficulties, and operators continue to lag behind in resilience to cyber attacks. This paper contributes a systematization of the significant cybersecurity documents relevant to the healthcare sector. We collected the 49 most significant documents and used the NIST cybersecurity framework to categorize key information and support the implementation of cybersecurity measures.
翻訳日:2023-05-01 13:33:38 公開日:2023-04-28
# PAM:ベイズ非パラメトリックデータ解析のための格子原子モデル

PAM: Plaid Atoms Model for Bayesian Nonparametric Analysis of Grouped Data ( http://arxiv.org/abs/2304.14954v1 )

ライセンス: Link先を確認
Dehua Bi and Yuan Ji(参考訳) グループ内の観察のクラスタリングについて考察する。 提案されたモデルは格子状原子モデル (pam) と呼ばれ、各グループのクラスターの集合を推定し、いくつかのクラスターを他のグループと共有するか、グループによって一意に所有することができる。 PAMは、クラスタ重み付けの可能な値としてゼロを追加することで、よく知られたスティックブレーキングプロセスの拡張に基づいており、結果としてモデルにゼロ拡張ベータ(ZAB)の分布をもたらす。 その結果、ZABはいくつかのクラスター重みを複数の群で正確にゼロとし、グループ間で共有原子と一意原子を共有できる。 我々は、PAMの理論的性質を探求し、既知のベイズ非パラメトリックモデルとの関係を示す。 後方推論のための効率的なスライスサンプリング手法を提案する。 多変量またはカウントデータに対する提案モデルの拡張について述べる。 実世界のデータセットを用いたシミュレーション研究と応用は、モデルの望ましいパフォーマンスを示している。

We consider dependent clustering of observations in groups. The proposed model, called the plaid atoms model (PAM), estimates a set of clusters for each group and allows some clusters to be either shared with other groups or uniquely possessed by the group. PAM is based on an extension to the well-known stick-breaking process by adding zero as a possible value for the cluster weights, resulting in a zero-augmented beta (ZAB) distribution in the model. As a result, ZAB allows some cluster weights to be exactly zero in multiple groups, thereby enabling shared and unique atoms across groups. We explore theoretical properties of PAM and show its connection to known Bayesian nonparametric models. We propose an efficient slice sampler for posterior inference. Minor extensions of the proposed model for multivariate or count data are presented. Simulation studies and applications using real-world datasets illustrate the model's desirable performance.
翻訳日:2023-05-01 13:33:28 公開日:2023-04-28
# ccpdf: web crawlデータからの視覚的にリッチな文書のための高品質コーパスの構築

CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data ( http://arxiv.org/abs/2304.14953v1 )

ライセンス: Link先を確認
Micha{\l} Turski, Tomasz Stanis{\l}awek, Karol Kaczmarek, Pawe{\l} Dyda, and Filip Grali\'nski(参考訳) 近年,文書理解の分野が盛んに進んでいる。 この進歩の大きな部分は、大量のドキュメントに事前学習された言語モデルを使用することによって可能になった。 しかし、文書理解の領域で使われる事前学習コーパスは、単一ドメイン、単言語、あるいは非パブリックである。 本研究の目的は,pdfファイルが文書理解において最も標準的な文書タイプであるため,共通クローラを用いて,インターネット全体からpdfファイルの大規模多言語コーパスを作成するための効率的なパイプラインを提案することである。 私たちはパイプラインのすべてのステップを分析し、データ品質と処理時間の間のトレードオフとなるソリューションを提案しました。 また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。 本稿では、より優れた多言語言語モデルを開発する機会を研究者に提供する。

In recent years, the field of document understanding has progressed a lot. A significant part of this progress has been possible thanks to the use of language models pretrained on large amounts of documents. However, pretraining corpora used in the domain of document understanding are single domain, monolingual, or nonpublic. Our goal in this paper is to propose an efficient pipeline for creating a big-scale, diverse, multilingual corpus of PDF files from all over the Internet using Common Crawl, as PDF files are the most canonical types of documents as considered in document understanding. We analysed extensively all of the steps of the pipeline and proposed a solution which is a trade-off between data quality and processing time. We also share a CCpdf corpus in a form or an index of PDF files along with a script for downloading them, which produces a collection useful for language model pretraining. The dataset and tools published with this paper offer researchers the opportunity to develop even better multilingual language models.
翻訳日:2023-05-01 13:33:13 公開日:2023-04-28
# ポラリトン誘導励起子

Excitons guided by polaritons ( http://arxiv.org/abs/2304.14951v1 )

ライセンス: Link先を確認
K. Mukherjee and S. W\"uster(参考訳) 本研究では,エキシトン輸送に同期する非平衡媒質によって誘導される有効測定によって,離散鎖上のエキシトンが誘導されることを示す。 実験的な検証のために, 偏光子を担持する遅い光媒質で囲まれた原子鎖上にエキシトンを電子励起として担持するハイブリッドコールド原子プラットフォームを提案する。 鎖は長距離リドベルク相互作用によって媒質と結合する。 誘導機構が非一貫性であるにもかかわらず、エキシトンパルスは高い忠実度でコヒーレントに搬送することができる。 実装にはチェーンと媒体を慎重にアライメントする必要があるが、その後、時間依存制御が不要になる。 我々の概念は、媒体やデバイスを運ぶ他の励起子や偏光子に移植することができ、2つの準粒子が関与するスイッチや導波路が実現される。

We show that an exciton on a discrete chain of sites can be guided by effective measurements induced by an ambient, non-equilibrium medium that is synchronised to the exciton transport. For experimental verification, we propose a hybrid cold atom platform, carrying the exciton as electronic excitation on a chain of atoms, which are surrounded by a slow light medium supporting polaritons. The chain is coupled to the medium through long-range Rydberg interactions. Despite the guiding mechanism being incoherent, the exciton pulse can be coherently transported with high fidelity. The implementation requires careful alignment of chain and medium but then no further time-dependent control. Our concept can be ported to other exciton and polariton carrying media or devices, and will enable switches and waveguides operating with the two quasi particles involved, as we demonstrate.
翻訳日:2023-05-01 13:32:57 公開日:2023-04-28
# 関連量子情報の局在化のエネルギーコスト

Energy Cost of Localization of Relational Quantum Information ( http://arxiv.org/abs/2304.14943v1 )

ライセンス: Link先を確認
Adam Dukehart, David Mattingly(参考訳) 空間的に分離された量子状態の絡み合いは通常、外部の観測者によって提供される参照フレームに対して定義される。 したがって、量子情報を空間的に分離されたエンタングル状態内にローカライズしたい場合は、その外部フレームに関しても定義されたエンタングルメント抽出プロトコルを実行しなければならない。 このような外部フレーム構成におけるガウス基底状態の絡み合い抽出は最小エネルギーを必要とすることが示されており、したがって重力物理学の興味深いプロセスであり、局所化とエネルギーコストの検証は長い歴史を持つ。 しかし、一般的な共分散は外部フレームへの依存を妨げる。 一般共変理論において抽出プロトコルを成立させるためには、外部参照フレームへの依存性をまず取り除き、状態が関係付ける必要がある。 本研究では,全微分同相不変性に対して翻訳不変性が組み合わされる関係玩具モデルにおいて,自由度と自由度が絡み合っているガウス状態の抽出プロトコルの実装について検討する。 完全リレーショナル状態の構築と対応する抽出/局在化は原則として2つの方法で行うことができる。 外部フレームの位置情報は、翻訳を通じて$g$-twirlingによって削除するか、補助フィールドの勾配または$z$-modelを介して自発的に翻訳対称性を破ることができる。 我々は、状態が$G$-twirlと$Z$-modelによって完全にリレーショナルになった後、量子情報ローカライゼーションのエネルギーを決定する。 また,この2つのアプローチ間を正の演算子値測定(povm)でスムーズに遷移できることを示す。

Entanglement of spatially separated quantum states is usually defined with respect to a reference frame provided by some external observer. Thus, if one wishes to localize the quantum information within a spatially separated entangled state, one must enact an entanglement extraction protocol also defined with respect to that external frame. Entanglement extraction for Gaussian ground states in such an external frame construction has been shown to require a minimum energy and is hence an interesting process for gravitational physics, where examinations of localization vs. energy cost have a long history. General covariance however, precludes dependence on external frames. In order to enact an extraction protocol in a generally covariant theory, dependence on the external reference frame must first be removed and the states made relational. We examine the implementation of an extraction protocol for Gaussian states, who's center-of-mass and relational degrees of freedom are entangled, in a relational toy model where translation invariance stands in for full diffeomorphism invariance. Constructing fully relational states and the corresponding extraction/localization can, in principle, be done in two ways. External frame position information can be removed through $G$-twirling over translations or one can spontaneously break the translation symmetry via the gradient of an auxiliary field, or $Z$-model. We determine the energetics of quantum information localization after the states have been made fully relational via both the $G$-twirl and $Z$-model. We also show one can smoothly transition between the two approaches via positive operator valued measurements (POVM).
翻訳日:2023-05-01 13:32:45 公開日:2023-04-28
# 群衆の感情--クロスモーダル蒸留によるツイートからのイメージ感情の学習

The Emotions of the Crowd: Learning Image Sentiment from Tweets via Cross-modal Distillation ( http://arxiv.org/abs/2304.14942v1 )

ライセンス: Link先を確認
Alessio Serra, Fabio Carrara, Maurizio Tesconi and Fabrizio Falchi(参考訳) ソーシャルメディアのトレンドと意見マイニングは、テキストに加えて、画像やショートビデオなどのビジュアルメディアを含む新しいインタラクションに焦点を当てている。 本研究では,ソーシャルメディア画像の視覚的感情分析,特に画像感情極性の予測の問題に取り組む。 従来の研究は手動でラベル付けしたトレーニングセットに頼っていたが, クロスモーダル蒸留パラダイムに基づく感情極性分類器の自動構築手法を提案し, スクラップしたマルチモーダル(テキスト+画像)データから, 対応するテキストモダリティの感情を分析するテキスト教師モデルの出力に基づいて, 視覚的モダリティに基づく学生モデルを訓練した。 この手法をTwitterからランダムに収集した画像に3ヶ月かけて適用し、自動クリーニングの後、150万ドルの画像の弱いラベル付きデータセットを作成した。 ノイズの多いラベル付きサンプルを悪用しながら、トレーニングパイプラインは強力な一般化能力を示す分類器を生成し、手動でラベル付けされた5つのベンチマークで画像の感度極性予測を行う。

Trends and opinion mining in social media increasingly focus on novel interactions involving visual media, like images and short videos, in addition to text. In this work, we tackle the problem of visual sentiment analysis of social media images -- specifically, the prediction of image sentiment polarity. While previous work relied on manually labeled training sets, we propose an automated approach for building sentiment polarity classifiers based on a cross-modal distillation paradigm; starting from scraped multimodal (text + images) data, we train a student model on the visual modality based on the outputs of a textual teacher model that analyses the sentiment of the corresponding textual modality. We applied our method to randomly collected images crawled from Twitter over three months and produced, after automatic cleaning, a weakly-labeled dataset of $\sim$1.5 million images. Despite exploiting noisy labeled samples, our training pipeline produces classifiers showing strong generalization capabilities and outperforming the current state of the art on five manually labeled benchmarks for image sentiment polarity prediction.
翻訳日:2023-05-01 13:32:18 公開日:2023-04-28
# スマートフォンを用いた接触レス手動振幅測定:開発とパイロット評価

Contactless hand tremor amplitude measurement using smartphones: development and pilot evaluation ( http://arxiv.org/abs/2304.14937v1 )

ライセンス: Link先を確認
James Bungay, Osasenaga Emokpae, Samuel D. Relton, Jane Alty, Stefan Williams, Hui Fang, David C. Wong(参考訳) 背景: 生理的震動は不随意およびリズミカル揺動として定義される。 手の振れは多発神経疾患の重要な症状であり、その頻度と振幅は疾患の種類や疾患の進行によって異なる。 定期的な臨床実践では,0から4の整数スケールを用いて,震度と振幅を専門家評価により評価する。 このような評価は主観的で、層間信頼性が低い。 したがって、手振れを客観的に評価するための実用的かつ正確な方法が必要となる。 目的:スマートフォンのビデオから手振れ振幅を測定するための原理実証法を開発すること。 方法: 手にあるサリエント点を自動的に抽出し,震動による1次元の時系列をピクセル内で生成するコンピュータビジョンパイプラインを開発した。 スマートフォンの深度測定を用いて,この測定値を実距離単位に変換する。 健常成人2人の異なる振幅の振動をシミュレーションした60本のビデオを用いて,その精度を評価した。 ビデオは手とカメラの間の50cm、75cm、100cmの距離で撮影された。 参加者はフィッツパトリックスケールでスキントーンIIとVIを持っていた。 本手法をスライド則による金標準測定と比較した。 bland-altman methods agreement analysis では、0.04 cm のバイアスと 95% の合意限界が -1.27 から 1.20 cm に示されていた。 さらに, 被験者の手にバンドエイドを装着するなど, 肌の色調や咬合制限の相違に頑健であることも, 定性的に観察した。 臨床関連性: スマートフォンビデオから震度を計測する方法を実証した。 震動周波数と連動して、このアプローチは神経疾患の診断と監視に役立つかもしれない

Background: Physiological tremor is defined as an involuntary and rhythmic shaking. Tremor of the hand is a key symptom of multiple neurological diseases, and its frequency and amplitude differs according to both disease type and disease progression. In routine clinical practice, tremor frequency and amplitude are assessed by expert rating using a 0 to 4 integer scale. Such ratings are subjective and have poor inter-rater reliability. There is thus a clinical need for a practical and accurate method for objectively assessing hand tremor. Objective: to develop a proof of principle method to measure hand tremor amplitude from smartphone videos. Methods: We created a computer vision pipeline that automatically extracts salient points on the hand and produces a 1-D time series of movement due to tremor, in pixels. Using the smartphones' depth measurement, we convert this measure into real distance units. We assessed the accuracy of the method using 60 videos of simulated tremor of different amplitudes from two healthy adults. Videos were taken at distances of 50, 75 and 100 cm between hand and camera. The participants had skin tone II and VI on the Fitzpatrick scale. We compared our method to a gold-standard measurement from a slide rule. Bland-Altman methods agreement analysis indicated a bias of 0.04 cm and 95% limits of agreement from -1.27 to 1.20 cm. Furthermore, we qualitatively observed that the method was robust to differences in skin tone and limited occlusion, such as a band-aid affixed to the participant's hand. Clinical relevance: We have demonstrated how tremor amplitude can be measured from smartphone videos. In conjunction with tremor frequency, this approach could be used to help diagnose and monitor neurological diseases
翻訳日:2023-05-01 13:31:57 公開日:2023-04-28
# 公開文書情報抽出ベンチマークにおける情報冗長性とバイアス

Information Redundancy and Biases in Public Document Information Extraction Benchmarks ( http://arxiv.org/abs/2304.14936v1 )

ライセンス: Link先を確認
Seif Laatiri, Pirashanth Ratnamogan, Joel Tang, Laurent Lam, William Vanhuffel, Fabien Caspani(参考訳) Visually-rich Document Understanding (VrDU)フィールドの進歩、特にキー情報抽出(KIE)タスクは、LayoutLMモデルのような効率的なトランスフォーマーベースのアプローチの出現によって特徴付けられる。 公開ベンチマークで微調整されたkieモデルの優れた性能にもかかわらず、十分なドキュメントアノテーションを持たない複雑な実生活ユースケースの一般化にはまだ苦労している。 我々の研究は、SROIEやFUNSDなどのKIE標準ベンチマークは、トレーニングとテスト文書の間に大きな類似点があり、モデルの一般化をよりよく評価するために調整可能であることを強調した。 本研究では,公開ベンチマークにおける情報冗長性を定量化し,sroie公式テストセットで75%,funsdで16%のテンプレートレプリケーションを明らかにした。 また,モデルの一般化能力を示すベンチマークを提供するための再サンプリング戦略も提案した。 その結果、文書分析に適さないモデルは、sroieでは平均10,5%f1、funsdでは3.5%、sroieでは7,5%f1、funsdでは0.5%f1であった。

Advances in the Visually-rich Document Understanding (VrDU) field and particularly the Key-Information Extraction (KIE) task are marked with the emergence of efficient Transformer-based approaches such as the LayoutLM models. Despite the good performance of KIE models when fine-tuned on public benchmarks, they still struggle to generalize on complex real-life use-cases lacking sufficient document annotations. Our research highlighted that KIE standard benchmarks such as SROIE and FUNSD contain significant similarity between training and testing documents and can be adjusted to better evaluate the generalization of models. In this work, we designed experiments to quantify the information redundancy in public benchmarks, revealing a 75% template replication in SROIE official test set and 16% in FUNSD. We also proposed resampling strategies to provide benchmarks more representative of the generalization ability of models. We showed that models not suited for document analysis struggle on the adjusted splits dropping on average 10,5% F1 score on SROIE and 3.5% on FUNSD compared to multi-modal models dropping only 7,5% F1 on SROIE and 0.5% F1 on FUNSD.
翻訳日:2023-05-01 13:31:34 公開日:2023-04-28
# 量子フィッシャー情報とその動的性質

Quantum Fisher Information and its dynamical nature ( http://arxiv.org/abs/2304.14984v1 )

ライセンス: Link先を確認
Matteo Scandi, Paolo Abiuso, Jacopo Surace and Dario De Santis(参考訳) 量子フィッシャー情報計量の重要性は、仮説テストからメトロロジーまで、熱力学を通り抜けるものまで、非常に異なる分野のアプリケーション数によって検証される。 それでも、量子フィッシャー情報の豊富な範囲から、通常はほんの一握りしか使われて研究されていない。 本総説は,フィッシャー情報の研究を開始する人々や,それに取り組んでいる人々にとって,よりオーガニックな理解を得られるような文献に散在する多くの結果を集めることを目的としている。 さらに,本研究は,フィッシャー情報と物理進化の関係に関する新たな結果と相補する。 [1] で行った研究を拡張して、全ての物理的に実現可能な力学はフィッシャー情報計量との関係でのみ定義可能であることを証明した。 さらに、マルコビアン性、レトロディクション、詳細なバランスといった他の性質も同じ形式で表現できる。 これらの結果から,漁業情報の本質的な動的性質を文献で部分的に見守ることができた。

The importance of the quantum Fisher information metric is testified by the number of applications that this has in very different fields, ranging from hypothesis testing to metrology, passing through thermodynamics. Still, from the rich range of possible quantum Fisher information, only a handful are typically used and studied. This review aims at collecting a number of results scattered in the literature that can be useful to people who begin the study of Fisher information and to those who are already working on it to have a more organic understanding of the topic. Moreover, we complement the review with new results about the relation between Fisher information and physical evolutions. Extending the study done in [1], we prove that all the physically realisable dynamics can be defined solely in terms of their relation with respect to the Fisher information metric. Moreover, other properties as Markovianity, retrodiction or detailed balance can be expressed in the same formalism. These results show a fact that was partially overseen in the literature, namely the inherently dynamical nature of Fisher information.
翻訳日:2023-05-01 13:24:36 公開日:2023-04-28
# 階層型・分散型連合学習

Hierarchical and Decentralised Federated Learning ( http://arxiv.org/abs/2304.14982v1 )

ライセンス: Link先を確認
Omer Rana, Theodoros Spyridopoulos, Nathaniel Hudson, Matt Baughman, Kyle Chard, Ian Foster, Aftab Khan(参考訳) フェデレーション学習は、分散環境でMLモデルをトレーニングし、通信コストを削減し、データのプライバシを保護する方法として、大きな可能性を秘めている。 しかし、インターネット・オブ・Thingsのような複雑なサイバー物理システムの台頭は、従来のFL手法に適合しない新しい課題を提示している。 階層型連合学習は従来のflプロセスを拡張し、アプリケーションのニーズやデプロイメント環境の特性(リソース機能やネットワーク接続など)に基づいて、より効率的なモデル集約を可能にする。 これは、クラウドエッジ連続体間での処理のバランスの利点を示しています。 階層型連合学習は、パフォーマンスの向上とコスト削減を可能にすると同時に、従来のflに適合しない環境にflワークフローをデプロイ可能にするため、スマートファームやスマートエネルギ管理など、幅広いアプリケーションにとって重要な実現手段となる。 モデルアグリゲーションアルゴリズム、ソフトウェアフレームワーク、インフラストラクチャは、成長中のドメイン全体にわたって、研究者やエンジニアがそのようなソリューションにアクセスできるように設計され、実装される必要がある。 H-FLはいくつかの新しい課題も導入している。 例えば、暗黙のインフラ内課題があります。 一般化されたモデルとパーソナライズされたモデルとのトレードオフもある。 データのための地理的パターン(例えば、スマートファームの土壌条件は、地域自体の地理に関係している可能性が高い)が存在する場合、ローカルで使用されるモデルは、グローバルに学習されたモデルに加えて、独自の地域性を考慮することが重要である。 h-flは将来のflソリューションにとって不可欠であり、複数のレベルでモデルを集約し、分散することで、局所性依存とグローバル異常ロバスト性の間のトレードオフを最適に果たすことができる。

Federated learning has shown enormous promise as a way of training ML models in distributed environments while reducing communication costs and protecting data privacy. However, the rise of complex cyber-physical systems, such as the Internet-of-Things, presents new challenges that are not met with traditional FL methods. Hierarchical Federated Learning extends the traditional FL process to enable more efficient model aggregation based on application needs or characteristics of the deployment environment (e.g., resource capabilities and/or network connectivity). It illustrates the benefits of balancing processing across the cloud-edge continuum. Hierarchical Federated Learning is likely to be a key enabler for a wide range of applications, such as smart farming and smart energy management, as it can improve performance and reduce costs, whilst also enabling FL workflows to be deployed in environments that are not well-suited to traditional FL. Model aggregation algorithms, software frameworks, and infrastructures will need to be designed and implemented to make such solutions accessible to researchers and engineers across a growing set of domains. H-FL also introduces a number of new challenges. For instance, there are implicit infrastructural challenges. There is also a trade-off between having generalised models and personalised models. If there exist geographical patterns for data (e.g., soil conditions in a smart farm likely are related to the geography of the region itself), then it is crucial that models used locally can consider their own locality in addition to a globally-learned model. H-FL will be crucial to future FL solutions as it can aggregate and distribute models at multiple levels to optimally serve the trade-off between locality dependence and global anomaly robustness.
翻訳日:2023-05-01 13:24:22 公開日:2023-04-28
# 集合的ケメニー投票方式の最適多数決ルールと量的コンドルセット特性

Optimal majority rules and quantitative Condorcet properties of setwise Kemeny voting schemes ( http://arxiv.org/abs/2304.14980v1 )

ライセンス: Link先を確認
Xuan Kien Phung and Sylvie Hamel(参考訳) 重要なケメニー問題は、ケメニー投票規則に関する選挙の中央値のコンセンサスランキングを計算し、生物学や計算社会選択における重要な応用を認め、最近ギルバートらによって興味深いセットワイズアプローチによって一般化された。 アル まず, 古典的ケメニー中央値問題に対して, ベツラーらによる非アニミティー特性の最適量的拡張と, 3/4$-majority rule が確立された。 Moreover, by elaborating an exhaustive list of quantified axiomatic properties (such as the Condorcet and Smith criteria, the $5/6$-majority rule, etc.) of the $3$-wise Kemeny rule where not only pairwise comparisons but also the discordance between the winners of subsets of three candidates are also taken into account, we come to the conclusion that the $3$-wise Kemeny voting scheme induced by the $3$-wise Kendall-tau distance presents interesting advantages in comparison with the classical Kemeny rule. 例えば、いくつかの改良された操作耐性特性を満たす。 3$-wise Kemeny 問題は NP-hard であるため、この結果は対の相対順序を決定することで、最初の有用な空間縮小手法も提供する。 我々の研究は、古典的なケメニー方式よりも高価な計算コストを正当化し補償する、より集合的なケメニー投票方式の興味深い特性を示唆している。

The important Kemeny problem, which consists of computing median consensus rankings of an election with respect to the Kemeny voting rule, admits important applications in biology and computational social choice and was generalized recently via an interesting setwise approach by Gilbert et. al. Our first results establish optimal quantitative extensions of the Unanimity property and the well-known $3/4$-majority rule of Betzler et al. for the classical Kemeny median problem. Moreover, by elaborating an exhaustive list of quantified axiomatic properties (such as the Condorcet and Smith criteria, the $5/6$-majority rule, etc.) of the $3$-wise Kemeny rule where not only pairwise comparisons but also the discordance between the winners of subsets of three candidates are also taken into account, we come to the conclusion that the $3$-wise Kemeny voting scheme induced by the $3$-wise Kendall-tau distance presents interesting advantages in comparison with the classical Kemeny rule. For example, it satisfies several improved manipulation-proof properties. Since the $3$-wise Kemeny problem is NP-hard, our results also provide some of the first useful space reduction techniques by determining the relative orders of pairs of alternatives. Our works suggest similar interesting properties of higher setwise Kemeny voting schemes which justify and compensate for the more expensive computational cost than the classical Kemeny scheme.
翻訳日:2023-05-01 13:23:52 公開日:2023-04-28
# MLCopilot: 機械学習タスクの解決における大規模言語モデルのパワーの解放

MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks ( http://arxiv.org/abs/2304.14979v1 )

ライセンス: Link先を確認
Lei Zhang, Yuge Zhang, Kan Ren, Dongsheng Li, Yuqing Yang(参考訳) 機械学習(ML)の分野は広く普及し、特定のシナリオにMLを適用することに対する大きな需要が生まれている。 MLタスクの自動化(例えば、AutoML)に対する主要なアプローチは、しばしば時間がかかり、人間の開発者にとって理解するのが困難である。 対照的に、人間のエンジニアは、タスクとソリューションに関する推論を理解する驚くべき能力を持っているが、彼らの経験と知識は、しばしば、量的アプローチによって利用され難い。 本稿では,機械知能と人間の知識のギャップを埋めるために,最先端のLCMを活用して新しいタスクのためのMLソリューションを開発する,新しいフレームワークMLCopilotを導入する。 本稿では、構造化された入力を理解するためのLLMの能力を拡張し、新しいMLタスクを解くための徹底的な推論を行う可能性を示す。 そして私たちは、いくつかの専用デザインの後、LLMが実現できることに気付きました。 (i)MLタスクの既存の経験から観察し、 二 新たな業務に有望な成果を効果的に提供する理由 生成したソリューションは、高いレベルの競争力を達成するために直接使用することができる。

The field of machine learning (ML) has gained widespread adoption, leading to a significant demand for adapting ML to specific scenarios, which is yet expensive and non-trivial. The predominant approaches towards the automation of solving ML tasks (e.g., AutoML) are often time consuming and hard to understand for human developers. In contrast, though human engineers have the incredible ability to understand tasks and reason about solutions, their experience and knowledge are often sparse and difficult to utilize by quantitative approaches. In this paper, we aim to bridge the gap between machine intelligence and human knowledge by introducing a novel framework MLCopilot, which leverages the state-of-the-art LLMs to develop ML solutions for novel tasks. We showcase the possibility of extending the capability of LLMs to comprehend structured inputs and perform thorough reasoning for solving novel ML tasks. And we find that, after some dedicated design, the LLM can (i) observe from the existing experiences of ML tasks and (ii) reason effectively to deliver promising results for new tasks. The solution generated can be used directly to achieve high levels of competitiveness.
翻訳日:2023-05-01 13:23:30 公開日:2023-04-28
# 不正確な注釈付き医用画像分割のための品質適応スプリットフェデレーション学習

Quality-Adaptive Split-Federated Learning for Segmenting Medical Images with Inaccurate Annotations ( http://arxiv.org/abs/2304.14976v1 )

ライセンス: Link先を確認
Zahra Hafezi Kafshgari, Chamani Shiranthika, Parvaneh Saeedi, Ivan V. Baji\'c(参考訳) フェデレーションとスプリットラーニング(FLとSL)を組み合わせたSplitFed Learningは、分散機械学習分野における最新の発展の1つである。 分割学習では、モデルはクライアントとサーバが協調してトレーニングする。 イメージセグメンテーションでは、各クライアントでラベルが独立して作成され、クライアントのバイアス、不正確性、不整合の対象となる。 本稿では,複数のクライアント上での注釈付き基底真理(GT)品質の変動に対処するため,QA-SplitFedと呼ばれるデータ品質に基づく適応的学習手法を提案する。 提案手法は,ヒト胚のイメージセグメンテーション学習における5つの最先端モデル平均化手法と比較した。 実験の結果, 5つのベースライン法は, クライアント数の増加に伴い, 精度の維持に失敗することがわかった。 しかし、QA-SplitFedは、少なくとも1つの不正なクライアントがある限り、事実上腐敗に対処する。

SplitFed Learning, a combination of Federated and Split Learning (FL and SL), is one of the most recent developments in the decentralized machine learning domain. In SplitFed learning, a model is trained by clients and a server collaboratively. For image segmentation, labels are created at each client independently and, therefore, are subject to clients' bias, inaccuracies, and inconsistencies. In this paper, we propose a data quality-based adaptive averaging strategy for SplitFed learning, called QA-SplitFed, to cope with the variation of annotated ground truth (GT) quality over multiple clients. The proposed method is compared against five state-of-the-art model averaging methods on the task of learning human embryo image segmentation. Our experiments show that all five baseline methods fail to maintain accuracy as the number of corrupted clients increases. QA-SplitFed, however, copes effectively with corruption as long as there is at least one uncorrupted client.
翻訳日:2023-05-01 13:23:14 公開日:2023-04-28
# 半教師付き道路更新ネットワーク(srunet) : リモートセンシング画像と履歴ベクトルマップからの道路更新のための深層学習手法

Semi-supervised Road Updating Network (SRUNet): A Deep Learning Method for Road Updating from Remote Sensing Imagery and Historical Vector Maps ( http://arxiv.org/abs/2304.14972v1 )

ライセンス: Link先を確認
Xin Chen, Anzhu Yu, Qun Sun, Wenyue Guo, Qing Xu and Bowei Wen(参考訳) 道路は都市の骨格であり、基本的で重要な地理的要素である。 現在、多くの国が地理情報データベースを構築し、大量の地理データを収集している。 しかし、インフラの整備や都市の急速な拡張により、道路データの自動更新は、現在の基本的な地理情報の質を維持することが不可欠である。 However, obtaining bi-phase images for the same area is difficult, and complex post-processing methods are required to update the existing databases.To solve these problems, we proposed a road detection method based on semi-supervised learning (SRUNet) specifically for road-updating applications; in this approach, historical road information was fused with the latest images to directly obtain the latest state of the road.Considering that the texture of a road is complex, a multi-branch network, named the Map Encoding Branch (MEB) was proposed for representation learning, where the Boundary Enhancement Module (BEM) was used to improve the accuracy of boundary prediction, and the Residual Refinement Module (RRM) was used to optimize the prediction results. さらに,ラベル情報の限られた量を完全に活用し,ラベル付き画像の予測精度を高めるために,平均教師フレームワークを基本半教師付き学習フレームワークとして利用し,道路と背景要素の特徴を識別するモデル能力を向上させるために地域コントラスト(ReCo)を導入した。 私たちのモデルはラベルが少ないモデルのパフォーマンスを効果的に改善できます。 全体として、提案されたsrunetは、幅広い道路更新タスクに対して安定した最新かつ信頼性の高い予測結果を提供することができる。

A road is the skeleton of a city and is a fundamental and important geographical component. Currently, many countries have built geo-information databases and gathered large amounts of geographic data. However, with the extensive construction of infrastructure and rapid expansion of cities, automatic updating of road data is imperative to maintain the high quality of current basic geographic information. However, obtaining bi-phase images for the same area is difficult, and complex post-processing methods are required to update the existing databases.To solve these problems, we proposed a road detection method based on semi-supervised learning (SRUNet) specifically for road-updating applications; in this approach, historical road information was fused with the latest images to directly obtain the latest state of the road.Considering that the texture of a road is complex, a multi-branch network, named the Map Encoding Branch (MEB) was proposed for representation learning, where the Boundary Enhancement Module (BEM) was used to improve the accuracy of boundary prediction, and the Residual Refinement Module (RRM) was used to optimize the prediction results. Further, to fully utilize the limited amount of label information and to enhance the prediction accuracy on unlabeled images, we utilized the mean teacher framework as the basic semi-supervised learning framework and introduced Regional Contrast (ReCo) in our work to improve the model capacity for distinguishing between the characteristics of roads and background elements.We applied our method to two datasets. Our model can effectively improve the performance of a model with fewer labels. Overall, the proposed SRUNet can provide stable, up-to-date, and reliable prediction results for a wide range of road renewal tasks.
翻訳日:2023-05-01 13:22:57 公開日:2023-04-28
# 単一GPU上での大規模量子回路のエクササイズと近似シミュレーション

Exact and approximate simulation of large quantum circuits on a single GPU ( http://arxiv.org/abs/2304.14969v1 )

ライセンス: Link先を確認
Daniel Strano, Benn Bollay, Aryan Blaauw, Nathan Shammah, William J. Zeng, Andrea Mari(参考訳) 我々は、(ゲートモデル)量子コンピュータの高性能古典シミュレーションのためのオープンソースのソフトウェアライブラリであるQrackの性能をベンチマークする。 Qrackは、Schr\"odinger図において、基本的な量子ゲートからなる回路の適用の下で進化する$n$ qubitsの正確な量子状態をシミュレートする。 さらに、Qrackは、実行時間とメモリフットプリントの大幅な削減のために量子状態のチューナブルな減少を取引する近似シミュレーションを実行することもできる。 本稿では,シミュレーション手法(実演と近似)について概観し,物理ベースの手法とソフトウェアベースの手法を強調する。 さらに、1つのGPU上で計算量の多いベンチマークを実行し、大きな量子フーリエ変換回路と大きなランダム回路を実行する。 他の古典的シミュレータと比較して、最大27キュービットのフーリエ変換回路の正確なシミュレーションの競合実行時間を報告する。 また、7層からなる54量子ビットに作用する無作為回路の振幅の近似シミュレーションを平均で約4\%$で示す。

We benchmark the performances of Qrack, an open-source software library for the high-performance classical simulation of (gate-model) quantum computers. Qrack simulates, in the Schr\"odinger picture, the exact quantum state of $n$ qubits evolving under the application of a circuit composed of elementary quantum gates. Moreover, Qrack can also run approximate simulations in which a tunable reduction of the quantum state fidelity is traded for a significant reduction of the execution time and memory footprint. In this work, we give an overview of both simulation methods (exact and approximate), highlighting the main physics-based and software-based techniques. Moreover, we run computationally heavy benchmarks on a single GPU, executing large quantum Fourier transform circuits and large random circuits. Compared with other classical simulators, we report competitive execution times for the exact simulation of Fourier transform circuits with up to 27 qubits. We also demonstrate the approximate simulation of all amplitudes of random circuits acting on 54 qubits with 7 layers at average fidelity higher $\approx 4\%$, a task commonly considered hard without super-computing resources.
翻訳日:2023-05-01 13:22:35 公開日:2023-04-28
# 共鳴パルス放射により励起された冷原子アンサンブルの蛍光のダイナミクスにおける運動効果

Motional effects in dynamics of fluorescence of cold atomic ensembles excited by resonance pulse radiation ( http://arxiv.org/abs/2304.14968v1 )

ライセンス: Link先を確認
A. S. Kuraptsev and I. M. Sokolov(参考訳) 共鳴パルスによる希薄原子アンサンブルの蛍光ダイナミクスに及ぼす原子運動の影響について検討した。 サブドップラー温度においても、原子の運動はスーパーラジエートとサブラジエートの両方の性質に大きく影響することを示した。 また, 移動散乱器のアンサンブルの場合, 蛍光速度の非単調な時間依存性を観察できることを示した。 これにより、ある時間間隔で温度が上昇しても、コヒーレント散乱の円錐の蛍光強度は減少せず、増大するという事実が導かれる。 光学的に密度の高い媒体における多重光散乱による二次放射の周波数拡散の役割を解析した。 スペクトル拡大は共鳴励起の放射トラップを決定する主因子であることが示された。 その後、トラップ段階の後、動力学は近接した原子対(二量体)に支配される。 これらのダイマーの励起状態のダイナミクスは、詳細に研究されている。 原子間距離の変化によって引き起こされる二原子準分子の与えられた断熱項の寿命の変化と、原子運動によって引き起こされるサブ状態とスーパーラジアント状態の間の非断熱遷移は、サブラジエーション効果の予測される弱化ではなく、その増強につながることが示唆された。

We report the investigation of the influence of atomic motion on the fluorescence dynamics of dilute atomic ensemble driven by resonant pulse radiation. We show that even for sub-Doppler temperatures, the motion of atoms can significantly affect the nature of both superradiation and subradiation. We also demonstrate that, in the case of an ensemble of moving scatterers, it is possible to observe the nonmonotonic time dependence of the fluorescence rate. This leads to the fact that, in certain time intervals, increasing in temperature causes not an decrease but increase of the fluorescence intensity in the cone of coherent scattering. We have analyzed the role of the frequency diffusion of secondary radiation as a result of multiple light scattering in an optically dense medium. It is shown that spectrum broadening is the main factor which determines radiation trapping upon resonant excitation. At later time, after the trapping stage, the dynamics is dominated by close pairs of atoms (dimers). The dynamics of the excited states of these dimers has been studied in detail. It is shown that the change in the lifetime of the given adiabatic term of the diatomic quasi-molecule induced by the change in the interatomic distance as well as possible non-adiabatic transitions between sub- and superradiant states caused by atomic motion can lead not to the anticipated weakening of subradiation effect but to its enhancement.
翻訳日:2023-05-01 13:22:17 公開日:2023-04-28
# コンビネーションの新しい量子デンプスター則

A New Quantum Dempster Rule of Combination ( http://arxiv.org/abs/2304.14966v1 )

ライセンス: Link先を確認
Huaping He, Fuyuan Xiao(参考訳) Dempster Rule of combination (DRC) は知的情報システムにおける不確実性推論に広く用いられている。 しかし、識別フレームワーク要素の増加に伴い、組み合わせのデンプスター規則の計算複雑性が指数関数的に増加する。 この問題に対処するために, toffoliゲートを用いた新しい量子デンプスター結合則(qdrc)を提案する。 QDRCの組み合わせプロセスは量子回路で完全に実装されている。

Dempster rule of combination (DRC) is widely used for uncertainty reasoning in intelligent information system, which is generalized to complex domain recently. However, as the increase of identification framework elements, the computational complexity of Dempster Rule of Combination increases exponentially. To address this issue, we propose a novel quantum Dempster rule of combination (QDRC) by means of Toffoli gate. The QDRC combination process is completely implemented using quantum circuits.
翻訳日:2023-05-01 13:21:53 公開日:2023-04-28
# 相違点の流れ:再重み付けの改善を目的とした条件付き正規化フロー

Flow Away your Differences: Conditional Normalizing Flows as an Improvement to Reweighting ( http://arxiv.org/abs/2304.14963v1 )

ライセンス: Link先を確認
Malte Algren, Tobias Golling, Manuel Guth, Chris Pollard, John Andrew Raine(参考訳) 模擬サンプルにおける誤モデリングの修正にしばしば必要となる条件分布の所望の変化を考慮に入れた分布の修正手法の代替として,再重み付け手法を提案する。 条件付き正規化フローを用いて条件付き確率分布を学習し、対象分布から引き出された条件付き値の新しい事象をサンプリングし、所望の変化した分布を生成する。 一般的な再重み付け手法とは対照的に、この手法は双対選択とは独立であり、2つの分布間の密度比の推定に依存しない。 いくつかのおもちゃの例では、正規化フローは目標の分布に合うように再重み付け手法より優れており、補正された分布は基礎的な真実とよく一致し、トレーニングデータセット上の統計的不確実性はブートストラップによって確認できることを示す。 この例では、ソースとターゲットの分布を同一のサンプルサイズで再重み付けする手法よりも、統計精度が最大3倍に向上する。 また、高エネルギー粒子物理学の文脈における応用についても検討する。

We present an alternative to reweighting techniques for modifying distributions to account for a desired change in an underlying conditional distribution, as is often needed to correct for mis-modelling in a simulated sample. We employ conditional normalizing flows to learn the full conditional probability distribution from which we sample new events for conditional values drawn from the target distribution to produce the desired, altered distribution. In contrast to common reweighting techniques, this procedure is independent of binning choice and does not rely on an estimate of the density ratio between two distributions. In several toy examples we show that normalizing flows outperform reweighting approaches to match the distribution of the target.We demonstrate that the corrected distribution closes well with the ground truth, and a statistical uncertainty on the training dataset can be ascertained with bootstrapping. In our examples, this leads to a statistical precision up to three times greater than using reweighting techniques with identical sample sizes for the source and target distributions. We also explore an application in the context of high energy particle physics.
翻訳日:2023-05-01 13:21:45 公開日:2023-04-28
# LLaMA-Adapter V2:パラメータ効率の良い視覚インストラクションモデル

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model ( http://arxiv.org/abs/2304.15010v1 )

ライセンス: Link先を確認
Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao(参考訳) 大規模言語モデル(LLM)を命令従者へ効率よく変換する方法は近年,マルチモーダル推論のためのLLMの訓練はいまだ研究されていない。 最近のllama-adapterは、llmでビジュアル入力を扱う可能性を実証しているが、gpt-4の背後にあるオープンエンドのビジュアル命令やラグにうまく一般化できない。 本稿ではパラメータ効率のよいビジュアルインストラクションモデルであるLLaMA-Adapter V2を提案する。 具体的には、より学習可能なパラメータ(例えば、ノルム、バイアス、スケール)をアンロックすることで、LLaMA-Adapterを初めて拡張する。 第2に,初期のLCM層にのみ視覚トークンを供給し,視覚知識の充実に寄与する早期融合戦略を提案する。 第3に、学習可能なパラメータの解離群を最適化することにより、画像テキストペアと命令追従データの合同トレーニングパラダイムを導入する。 この戦略は、画像テキストアライメントと命令追従の2つのタスク間の干渉を効果的に軽減し、小さな画像テキストと命令データセットだけで強力なマルチモーダル推論を実現する。 推論の際には,LLaMA-Adapterに新たなエキスパートモデル(キャプション/OCRシステムなど)を組み込んで,トレーニングコストを発生させることなく画像理解能力をさらに強化する。 従来のLLaMA-Adapterと比較して、LLaMA上に14Mパラメータを導入するだけで、LLaMA-Adapter V2はオープンなマルチモーダル命令を実行できます。 新たに設計されたフレームワークは、より強固な言語のみの命令追跡機能や、チャットインタラクションにも優れている。 私たちのコードとモデルはhttps://github.com/zrrskywalker/llama-adapterで利用可能です。

How to efficiently transform large language models (LLMs) into instruction followers is recently a popular research direction, while training LLM for multi-modal reasoning remains less explored. Although the recent LLaMA-Adapter demonstrates the potential to handle visual inputs with LLMs, it still cannot generalize well to open-ended visual instructions and lags behind GPT-4. In this paper, we present LLaMA-Adapter V2, a parameter-efficient visual instruction model. Specifically, we first augment LLaMA-Adapter by unlocking more learnable parameters (e.g., norm, bias and scale), which distribute the instruction-following ability across the entire LLaMA model besides adapters. Secondly, we propose an early fusion strategy to feed visual tokens only into the early LLM layers, contributing to better visual knowledge incorporation. Thirdly, a joint training paradigm of image-text pairs and instruction-following data is introduced by optimizing disjoint groups of learnable parameters. This strategy effectively alleviates the interference between the two tasks of image-text alignment and instruction following and achieves strong multi-modal reasoning with only a small-scale image-text and instruction dataset. During inference, we incorporate additional expert models (e.g. captioning/OCR systems) into LLaMA-Adapter to further enhance its image understanding capability without incurring training costs. Compared to the original LLaMA-Adapter, our LLaMA-Adapter V2 can perform open-ended multi-modal instructions by merely introducing 14M parameters over LLaMA. The newly designed framework also exhibits stronger language-only instruction-following capabilities and even excels in chat interactions. Our code and models are available at https://github.com/ZrrSkywalker/LLaMA-Adapter.
翻訳日:2023-05-01 13:16:55 公開日:2023-04-28
# 大規模言語モデルの創発的能力はミラージュか?

Are Emergent Abilities of Large Language Models a Mirage? ( http://arxiv.org/abs/2304.15004v1 )

ライセンス: Link先を確認
Rylan Schaeffer, Brando Miranda, Sanmi Koyejo(参考訳) 最近の研究は、大規模言語モデルには創発的な能力、大規模モデルに存在しない能力があると主張している。 創発的能力が興味をそそられるのは、その鋭さと、現在から現在へ即時に移行しているように見えること、予測不可能なモデルスケールで現れることの2つだ。 ここでは、ある特定のタスクとモデルファミリーに対して、固定されたモデル出力を分析する際に、創発的能力の推論につながるメトリックを選択するか、そうでない別のメトリックを選択することができる。 したがって,既存の創発能力の主張は,特定のタスクにおけるモデル行動の基本的な変化ではなく,研究者の分析の創作であることが示唆された。 We present our explanation in a simple mathematical model, then test it in three complementary ways: we (1) make, test and confirm three predictions on the effect of metric choice using the InstructGPT/GPT-3 family on tasks with claimed emergent abilities, (2) make, test and confirm two predictions about metric choices in a meta-analysis of emergent abilities on BIG-Bench; and (3) show how similar metric decisions suggest apparent emergent abilities on vision tasks in diverse deep network architectures (convolutional, autoencoder, transformers). これら3つの分析において、創発能力がAIモデルをスケーリングする基本的な性質ではないという強い支持証拠が見つかる。

Recent work claims that large language models display emergent abilities, abilities not present in smaller-scale models that are present in larger-scale models. What makes emergent abilities intriguing is two-fold: their sharpness, transitioning seemingly instantaneously from not present to present, and their unpredictability, appearing at seemingly unforeseeable model scales. Here, we present an alternative explanation for emergent abilities: that for a particular task and model family, when analyzing fixed model outputs, one can choose a metric which leads to the inference of an emergent ability or another metric which does not. Thus, our alternative suggests that existing claims of emergent abilities are creations of the researcher's analyses, not fundamental changes in model behavior on specific tasks with scale. We present our explanation in a simple mathematical model, then test it in three complementary ways: we (1) make, test and confirm three predictions on the effect of metric choice using the InstructGPT/GPT-3 family on tasks with claimed emergent abilities, (2) make, test and confirm two predictions about metric choices in a meta-analysis of emergent abilities on BIG-Bench; and (3) show how similar metric decisions suggest apparent emergent abilities on vision tasks in diverse deep network architectures (convolutional, autoencoder, transformers). In all three analyses, we find strong supporting evidence that emergent abilities may not be a fundamental property of scaling AI models.
翻訳日:2023-05-01 13:16:11 公開日:2023-04-28
# 量子制御マシン:データとしての量子プログラムの限界

Quantum Control Machine: The Limits of Quantum Programs as Data ( http://arxiv.org/abs/2304.15000v1 )

ライセンス: Link先を確認
Charles Yuan, Agnes Villanyi, Michael Carbin(参考訳) 因子化、探索、シミュレーションのための量子アルゴリズムは、重ね合わせにおける量子データの値に基づいて分岐や反復などの制御フローを実行することで計算上の利点を得る。 これらのアルゴリズムの複雑な実現は、支配的な量子マシンモデルにおいて、プログラムカウンタによって具現化された全ての制御フローが古典的であり、重ね合わせには存在しないという事実である。 本研究では,プログラムカウンタを重畳する代替モデルが障害に直面していることを確認し,従来の条件ジャンプを含む非インジェクティブなセマンティクスによる制御フロー構造を正しくサポートすることはできない。 実際、この命令を支持する以前の試みは、プログラムがデータの重ね合わせを不適切に崩壊させ、つまり量子アドバンテージが失われる。 本稿では,インジェクティブ・セマンティクスを用いた条件ジャンプの変種を用いて,データに対する量子効果とデータ依存制御フローの両方をサポートする量子マシンモデルを提案する。 データの重ね合わせを保存するためのプログラムに必要な条件を特定し、表現可能なプログラムがユニタリ量子回路と一致することを示す。

Quantum algorithms for factorization, search, and simulation obtain computational advantage by performing control flow such as branching and iteration based on the value of quantum data in superposition. Complicating realization of these algorithms is the fact that in predominant quantum machine models, all control flow as embodied by the program counter is classical, and cannot exist in superposition. In this work, we identify that an alternative model to enable a program counter in superposition faces an obstacle -- no such machine can correctly support control flow constructs with non-injective semantics, including the conventional conditional jump. In fact, prior attempts to support this instruction cause programs to inappropriately collapse the superposition of data, meaning that quantum advantage is lost. We present a quantum machine model that supports both quantum effects on data and data-dependent control flow, using variants of conditional jump with injective semantics. We identify the necessary condition for programs for such a machine to preserve superposition of data, and show that expressible programs coincide with the unitary quantum circuits.
翻訳日:2023-05-01 13:15:41 公開日:2023-04-28
# LLM用PEFT技術の強度と弱さの実証解析

Empirical Analysis of the Strengths and Weaknesses of PEFT Techniques for LLMs ( http://arxiv.org/abs/2304.14999v1 )

ライセンス: Link先を確認
George Pu, Anirudh Jain, Jihan Yin, Russell Kaplan(参考訳) 基礎モデルのサイズが指数関数的に拡大し続ければ、適応の効率的な方法がますます重要になる。 パラメータ効率のよい微調整(PEFT)は、モデルパラメータのごく一部の変更しか必要としない最近の手法のクラスであり、現在、大規模言語モデル(LLM)を適応する最も一般的な方法である。 さまざまなトレードオフを伴うpeftテクニックが最近提案されている。 我々は,代表LLM,FLAN-T5モデルにまたがる様々なPEFT手法の総合的かつ均一なベンチマークを行い,分類と生成データセットの異なるデータスケールにおけるモデル性能を評価する。 これに基づいて,タスクタイプとデータ可用性を考慮した最適な微調整手法を選択するためのフレームワークを提供する。 また,PEFT手法が低データシナリオにおいて,完全なチューニングよりも遅く収束することが実証的に証明され,PEFT法に必要なデータ量を効率よく,効率的に収束させることができる。 最後に,モデルのどの部分を選択的に選択することによって,これらのペフト手法をさらに最適化し,それらの手法を維持・改善しながら,はるかに少ないパラメータで適用できることを見出した。

As foundation models continue to exponentially scale in size, efficient methods of adaptation become increasingly critical. Parameter-efficient fine-tuning (PEFT), a recent class of techniques that require only modifying a small percentage of the model parameters, is currently the most popular method for adapting large language models (LLMs). Several PEFT techniques have recently been proposed with varying tradeoffs. We provide a comprehensive and uniform benchmark of various PEFT techniques across a representative LLM, the FLAN-T5 model, and evaluate model performance across different data scales of classification and generation datasets. Based on this, we provide a framework for choosing the optimal fine-tuning techniques given the task type and data availability. Contrary to popular belief, we also empirically prove that PEFT techniques converge slower than full tuning in low data scenarios, and posit the amount of data required for PEFT methods to both perform well and converge efficiently. Lastly, we further optimize these PEFT techniques by selectively choosing which parts of the model to train, and find that these techniques can be applied with significantly fewer parameters while maintaining and even improving performance.
翻訳日:2023-05-01 13:15:23 公開日:2023-04-28
# メカニスティック・インタプリタビリティのための自動回路発見に向けて

Towards Automated Circuit Discovery for Mechanistic Interpretability ( http://arxiv.org/abs/2304.14997v1 )

ライセンス: Link先を確認
Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan Heimersheim, Adri\`a Garriga-Alonso(参考訳) 機械的解釈可能性に関する最近の研究は、変圧器モデルの非自明な振る舞いをリバースエンジニアリングした。 これらの貢献にはかなりの努力と研究者の直感が必要であり、現在のモデルが示す複雑な振る舞いを理解するために同じ方法を適用することは困難である。 しかし、その中核であるこれらの発見のワークフローは驚くほど似ている。 研究者は、望ましいモデル行動を引き出すデータセットとメトリクスを作成し、ネットワークを適切な抽象単位に分割し、それらのユニットのアクティベーションを置き換えて、それらのユニットが実装する機能を特定する。 調査中のデータセット、メトリック、ユニットを変更することで、研究者はそれぞれのニューラルネットワーク領域と構成する回路の機能を理解することができる。 本研究では,ネットワーク内の重要なユニットの識別を自動化する新しいアルゴリズムであるAutomatic Circuit DisCovery (ACDC)を提案する。 モデルの計算グラフが与えられたとき、ACDCはモデルの振る舞いを説明する部分グラフを見つける。 acdcは、以前のpython docstringsの回路を小さなトランスフォーマーで再現し、最大3層の深さを持つ6/7の重要な注意ヘッドを特定し、91%の接続を削減した。

Recent work in mechanistic interpretability has reverse-engineered nontrivial behaviors of transformer models. These contributions required considerable effort and researcher intuition, which makes it difficult to apply the same methods to understand the complex behavior that current models display. At their core however, the workflow for these discoveries is surprisingly similar. Researchers create a data set and metric that elicit the desired model behavior, subdivide the network into appropriate abstract units, replace activations of those units to identify which are involved in the behavior, and then interpret the functions that these units implement. By varying the data set, metric, and units under investigation, researchers can understand the functionality of each neural network region and the circuits they compose. This work proposes a novel algorithm, Automatic Circuit DisCovery (ACDC), to automate the identification of the important units in the network. Given a model's computational graph, ACDC finds subgraphs that explain a behavior of the model. ACDC was able to reproduce a previously identified circuit for Python docstrings in a small transformer, identifying 6/7 important attention heads that compose up to 3 layers deep, while including 91% fewer the connections.
翻訳日:2023-05-01 13:15:02 公開日:2023-04-28
# ニューラルネットワークを用いた初期値PDEの安定かつスケーラブルな解法

A Stable and Scalable Method for Solving Initial Value PDEs with Neural Networks ( http://arxiv.org/abs/2304.14994v1 )

ライセンス: Link先を確認
Marc Finzi, Andres Potapczynski, Matthew Choptuik, Andrew Gordon Wilson(参考訳) 偏微分方程式(PDE)を解く従来のグリッドやメッシュベースの手法とは異なり、ニューラルネットワークは次元の呪いを破る可能性があり、古典的な解法の使用が困難または不可能な問題に対する近似的な解決策を提供する。 ネットワークパラメータ上のPDE残差のグローバル最小化は境界値問題に対してうまく機能するが、破滅的な忘れ込みは初期値問題(IVP)に対するこのアプローチの適用性を損なう。 代替的なローカル・イン・タイム・アプローチでは、最適化問題をネットワークパラメータ上の常微分方程式(ODE)に変換することができ、その解は時間内に伝播するが、本手法に基づく現在の手法は2つの重要な問題に悩まされていることを示す。 まず、ODEに従うと、問題の条件付けにおいて制御不能な成長が生じ、最終的に許容できないほど大きな数値誤差が生じる。 第二に、ODE法はモデルパラメータの数で3次スケールするので、これらは小さなニューラルネットワークに限定され、複雑なPDE初期条件と解を表現する能力は著しく制限される。 これらの知見に基づいて、我々は、パラメータ数でネットワークが不調になるのを防止し、時間リニアな動作を可能にするODEベースのIPP解決器であるNeural IVPを開発し、ニューラルネットワークによる挑戦的PDEのダイナミクスを進化させる。

Unlike conventional grid and mesh based methods for solving partial differential equations (PDEs), neural networks have the potential to break the curse of dimensionality, providing approximate solutions to problems where using classical solvers is difficult or impossible. While global minimization of the PDE residual over the network parameters works well for boundary value problems, catastrophic forgetting impairs the applicability of this approach to initial value problems (IVPs). In an alternative local-in-time approach, the optimization problem can be converted into an ordinary differential equation (ODE) on the network parameters and the solution propagated forward in time; however, we demonstrate that current methods based on this approach suffer from two key issues. First, following the ODE produces an uncontrolled growth in the conditioning of the problem, ultimately leading to unacceptably large numerical errors. Second, as the ODE methods scale cubically with the number of model parameters, they are restricted to small neural networks, significantly limiting their ability to represent intricate PDE initial conditions and solutions. Building on these insights, we develop Neural IVP, an ODE based IVP solver which prevents the network from getting ill-conditioned and runs in time linear in the number of parameters, enabling us to evolve the dynamics of challenging PDEs with neural networks.
翻訳日:2023-05-01 13:14:42 公開日:2023-04-28
# ChatGPT - コンピュータサイエンスの学生とインストラクターにとっての祝福か、それともカースか?

ChatGPT -- a Blessing or a Curse for Undergraduate Computer Science Students and Instructors? ( http://arxiv.org/abs/2304.14993v1 )

ライセンス: Link先を確認
Ishika Joshi, Ritvik Budhiraja, Harshal Dev, Jahnvi Kadia, M. Osama Ataullah, Sayan Mitra, Dhruv Kumar, Harshal D. Akolekar(参考訳) chatgptはopenaiが開発したai言語モデルで、人間のようなテキストを理解し、生成することができる。 言語生成、質問応答、テキスト要約、チャットボット開発、言語翻訳、感情分析、コンテンツ生成、パーソナライズ、テキスト補完、ストーリーテリングなど、さまざまなユースケースで使用することができる。 ChatGPTは大きな肯定的な注目を集めているが、学術界では理解と不確実性の感覚も生み出している。 学生はchatgptを利用して家庭での課題や試験を完了し、真に知識を得ることなく良い成績を得ることができるのではないかという懸念がある。 本稿では,学部生のコンピュータ科学における話題に関する多岐にわたる質問に対して,chatgptの信頼性の高まりを定量的に示す手法を提案する。 分析の結果,学生はチャットgptに依拠して自傷行為のリスクを負い,課題や試験を完遂する可能性が示唆された。 この分析に基づいて、学生とインストラクターの両方に建設的なレコメンデーションを提供する。

ChatGPT is an AI language model developed by OpenAI that can understand and generate human-like text. It can be used for a variety of use cases such as language generation, question answering, text summarization, chatbot development, language translation, sentiment analysis, content creation, personalization, text completion, and storytelling. While ChatGPT has garnered significant positive attention, it has also generated a sense of apprehension and uncertainty in academic circles. There is concern that students may leverage ChatGPT to complete take-home assignments and exams and obtain favorable grades without genuinely acquiring knowledge. This paper adopts a quantitative approach to demonstrate ChatGPT's high degree of unreliability in answering a diverse range of questions pertaining to topics in undergraduate computer science. Our analysis shows that students may risk self-sabotage by blindly depending on ChatGPT to complete assignments and exams. We build upon this analysis to provide constructive recommendations to both students and instructors.
翻訳日:2023-05-01 13:14:18 公開日:2023-04-28
# Kullback-Leibler Maillard Smpling for Multi-armed Bandits with bounded Rewards

Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards ( http://arxiv.org/abs/2304.14989v1 )

ライセンス: Link先を確認
Hao Qin, Kwang-Sung Jun and Chicheng Zhang(参考訳) 我々は、腕の報酬分布がすべて$[0,1]$間隔で支えられるような$K$武器の盗賊問題を研究する。 この環境では、後悔効率の悪いランダム化探索アルゴリズムを設計することが難しかった。 maillard sampling~\cite{maillard13apprentissage}(トンプソンサンプリングに代わる魅力的な代替品)は、最近、オフラインポリシー評価に有用なクローズドフォームアクション確率を維持しながら、サブゲージの報酬設定における競合的な後悔の保証を達成することが示されている。 本研究では,KL-Leibler Maillard Smpling (KL-MS)アルゴリズムを提案する。 kl-ms は、報酬がベルヌーイであるときに漸近的最適性を享受し、最悪の場合の後悔の束縛が $o(\sqrt{\mu^*(1-\mu^*) k t \ln k} + k \ln t)$ であることを示し、ここで $\mu^*$ は最適アームの期待報酬であり、$t$ は時平線の長さである。

We study $K$-armed bandit problems where the reward distributions of the arms are all supported on the $[0,1]$ interval. It has been a challenge to design regret-efficient randomized exploration algorithms in this setting. Maillard sampling~\cite{maillard13apprentissage}, an attractive alternative to Thompson sampling, has recently been shown to achieve competitive regret guarantees in the sub-Gaussian reward setting~\cite{bian2022maillard} while maintaining closed-form action probabilities, which is useful for offline policy evaluation. In this work, we propose the Kullback-Leibler Maillard Sampling (KL-MS) algorithm, a natural extension of Maillard sampling for achieving KL-style gap-dependent regret bound. We show that KL-MS enjoys the asymptotic optimality when the rewards are Bernoulli and has a worst-case regret bound of the form $O(\sqrt{\mu^*(1-\mu^*) K T \ln K} + K \ln T)$, where $\mu^*$ is the expected reward of the optimal arm, and $T$ is the time horizon length.
翻訳日:2023-05-01 13:14:00 公開日:2023-04-28
# セマンティック・ビジュアル・プライオリティを用いた視覚と言語生成モデルの解釈

Interpreting Vision and Language Generative Models with Semantic Visual Priors ( http://arxiv.org/abs/2304.14986v1 )

ライセンス: Link先を確認
Michele Cafagna, Lina M. Rojas-Barahona, Kees van Deemter, Albert Gatt(参考訳) 画像からテキストへのモデルに適用すると、解釈可能性の手法はトークン毎の説明、つまり生成されたシーケンスの各トークンに対する視覚的な説明を計算する。 これらの説明は計算に高価であり、モデルの出力を包括的に説明できない。 したがって、これらのモデルは、しばしば誤解を招く説明につながる何らかの近似を必要とする。 我々は,出力列全体の意味表現を活用し,包括的かつ有意義な説明を生成できるフレームワークであるshapを開発した。 さらに,視覚バックボーンのセマンティクスプリエントを活用し,大規模モデル上でのシェープリー値の効率的な計算を可能にする任意の数の特徴を抽出し,同時に非常に有意義な視覚的説明を生成する。 提案手法は,計算コストの低い従来の手法よりも意味的に表現力に富む説明を生成し,他の説明可能性法よりも一般化できることを実証する。

When applied to Image-to-text models, interpretability methods often provide token-by-token explanations namely, they compute a visual explanation for each token of the generated sequence. Those explanations are expensive to compute and unable to comprehensively explain the model's output. Therefore, these models often require some sort of approximation that eventually leads to misleading explanations. We develop a framework based on SHAP, that allows for generating comprehensive, meaningful explanations leveraging the meaning representation of the output sequence as a whole. Moreover, by exploiting semantic priors in the visual backbone, we extract an arbitrary number of features that allows the efficient computation of Shapley values on large-scale models, generating at the same time highly meaningful visual explanations. We demonstrate that our method generates semantically more expressive explanations than traditional methods at a lower compute cost and that it can be generalized over other explainability methods.
翻訳日:2023-05-01 13:13:27 公開日:2023-04-28
# 誤り訂正符号距離のスケーリングによる論理量子ビット上のゼロノイズ外挿

Zero noise extrapolation on logical qubits by scaling the error correction code distance ( http://arxiv.org/abs/2304.14985v1 )

ライセンス: Link先を確認
Misty A. Wahl, Andrea Mari, Nathan Shammah, William J. Zeng, Gokul Subramanian Ravi(参考訳) 本研究では,ゼロノイズ外挿法(ZNE)の量子誤差軽減手法をフォールトトレラント量子コンピューティングに移行する。 我々は、ZNE を \emph{physical} qubits ではなく \emph{logically encoded} qubits に採用する。 このアプローチは量子誤り訂正(QEC)が実装可能であるが、QECで利用可能な量子ビットの数は限られている状況において有用である。 QEC体制における従来のZNE手法(回路レベルのユニタリ折り畳み)の実用性を示すだけでなく、QECに特化された新しいノイズスケーリングZNE法を提案する: \emph{distance scaled ZNE (DS-ZNE)}。 DS-ZNEは誤り訂正符号の距離を拡大し、結果として得られる論理誤差率をZNEのスケーリング「knob」として利用する。 論理量子ビット誤り率は、一定の数の物理量子ビットに対して最大到達可能な符号距離までスケールし、従来のzneから移行した補間技術によって低い誤り率(すなわち、効果的に高い符号距離)を達成する。 さらに、ZNE実験における物理量子ビット利用を最大化するために、量子デバイス上の物理量子ビットが許容する最大値よりも低い符号距離での論理実行を並列化し、デバイス利用を最適化する。 提案手法を数値シミュレーションで検証し,ZNEが論理誤差率を下げ,量子デバイスの物理能力を超えた有効符号距離を増大させることを確認した。 例えば、物理符号距離11では、DS−ZNE有効符号距離は17であり、物理符号距離13では、DS−ZNE有効符号距離は21である。 提案手法を、量子デバイスの一定回数の実行の制約下でユニタリ折り畳みZNEと比較した場合、DS-ZNEは、ポストZNE論理誤差率において、ユニタリ折り畳みを最大92%上回っている。

In this work, we migrate the quantum error mitigation technique of Zero-Noise Extrapolation (ZNE) to fault-tolerant quantum computing. We employ ZNE on \emph{logically encoded} qubits rather than \emph{physical} qubits. This approach will be useful in a regime where quantum error correction (QEC) is implementable but the number of qubits available for QEC is limited. Apart from illustrating the utility of a traditional ZNE approach (circuit-level unitary folding) for the QEC regime, we propose a novel noise scaling ZNE method specifically tailored to QEC: \emph{distance scaled ZNE (DS-ZNE)}. DS-ZNE scales the distance of the error correction code, and thereby the resulting logical error rate, and utilizes this code distance as the scaling `knob' for ZNE. Logical qubit error rates are scaled until the maximum achievable code distance for a fixed number of physical qubits, and lower error rates (i.e., effectively higher code distances) are achieved via extrapolation techniques migrated from traditional ZNE. Furthermore, to maximize physical qubit utilization over the ZNE experiments, logical executions at code distances lower than the maximum allowed by the physical qubits on the quantum device are parallelized to optimize device utilization. We validate our proposal with numerical simulation and confirm that ZNE lowers the logical error rates and increases the effective code distance beyond the physical capability of the quantum device. For instance, at a physical code distance of 11, the DS-ZNE effective code distance is 17, and at a physical code distance of 13, the DS-ZNE effective code distance is 21. When the proposed technique is compared against unitary folding ZNE under the constraint of a fixed number of executions of the quantum device, DS-ZNE outperforms unitary folding by up to 92\% in terms of the post-ZNE logical error rate.
翻訳日:2023-05-01 13:13:11 公開日:2023-04-28
# $\pi$-Tuning: 最適マルチタスク補間によるマルチモーダル基礎モデルの転送

$\pi$-Tuning: Transferring Multimodal Foundation Models with Optimal Multi-task Interpolation ( http://arxiv.org/abs/2304.14381v2 )

ライセンス: Link先を確認
Chengyue Wu, Teng Wang, Yixiao Ge, Zeyu Lu, Ruisong Zhou, Ying Shan, Ping Luo(参考訳) ファウンデーションモデルは、単一タスクとマルチモーダルタスクの統一インターフェースによるマルチタスク学習において大きな進歩を遂げている。 しかし,このようなマルチタスク学習者の潜在能力は,移動学習において活用されていない。 本研究では,視覚・言語・視覚言語タスクのための汎用パラメータ効率変換学習手法であるPredict-Interpolate Tuning(\pi$-Tuning)を提案する。 同様のタスクから学んだ軽量タスク固有のエキスパートのパラメータを集約し、ターゲットとなるダウンストリームタスクを支援する。 タスク類似性は、統一モダリティ非依存空間で予測され、タスク関係を示すスケーラブルなグラフが得られる。 $\pi$-チューニングにはいくつかの魅力がある。 まず、特にデータ共有シナリオにおいて、類似したタスク間のモーダル間転送可能性の両方を柔軟に探索し、転送学習の精度と堅牢性を改善する。 第2に、マルチタスク予測と補間による転送学習の体系的なソリューションを提供し、プロンプトやアダプタなど、さまざまなパラメータ効率のエキスパートと互換性がある。 第3に、14のユニモーダルデータセットと6つのマルチモーダルデータセットにおけるタスクレベルの相互利益に関する広範な研究は、$\pi$-Tuningが、フルショットとローショットのいずれにおいても、ファインチューニングやその他のパラメータ効率のよいトランスファー学習方法を上回ることを示している。 タスクグラフはまた、モダリティ間のタスク転送可能性の詳細な解釈可能な分析を可能にする。

Foundation models have achieved great advances in multi-task learning with a unified interface of unimodal and multimodal tasks. However, the potential of such multi-task learners has not been exploited during transfer learning. In this work, we present a universal parameter-efficient transfer learning method, termed Predict-Interpolate Tuning ($\pi$-Tuning), for vision, language, and vision-language tasks. It aggregates the parameters of lightweight task-specific experts learned from similar tasks to aid the target downstream task. The task similarities are predicted in a unified modality-independent space, yielding a scalable graph to demonstrate task relationships. $\pi$-Tuning has several appealing benefits. First, it flexibly explores both intra- and inter-modal transferability between similar tasks to improve the accuracy and robustness of transfer learning, especially in data-scarce scenarios. Second, it offers a systematical solution for transfer learning with multi-task prediction-and-then-interpolation, compatible with diverse types of parameter-efficient experts, such as prompt and adapter. Third, an extensive study of task-level mutual benefits on 14 unimodal and 6 multimodal datasets shows that $\pi$-Tuning surpasses fine-tuning and other parameter-efficient transfer learning methods both in full-shot and low-shot regimes. The task graph also enables an in-depth interpretable analysis of task transferability across modalities.
翻訳日:2023-05-01 11:11:39 公開日:2023-04-28
# ミリ波レーダスパースポイント雲を用いた人間の意味セグメンテーション

Human Semantic Segmentation using Millimeter-Wave Radar Sparse Point Clouds ( http://arxiv.org/abs/2304.14132v2 )

ライセンス: Link先を確認
Pengfei Song, Luoyu Mei, Han Cheng(参考訳) 本稿では,ミリ波レーダの粗い逐次点雲のセマンティックセグメンテーションのためのフレームワークを提案する。 カメラやライダーと比較すると、ミリ波レーダーはプライバシーを明らかにせず、強力な干渉防止能力を持ち、検出距離が長いという利点がある。 mmWaveデータの空間性と時間的トポロジ的特徴は依然として問題である。 しかし、人間の意味セグメンテーションタスクで時間的トポロジー結合の特徴を捉える問題により、従来の高度なセグメンテーション手法(pointnet、pointcnn、point transformerなど)が実用的なシナリオでうまく利用できない。 データのスパース性と時間的トポロジー的特徴に起因する課題に対処するために,我々は,その課題について述べる。 (i)点雲にグラフ構造と位相的特徴を導入する。 (ii)グローバル機能抽出モジュールとシーケンシャル機能抽出モジュールを含むセマンティックセグメンテーションフレームワークを提案する。 さらに,グラフクラスタリングに基づくより優れたトレーニングプロセスとセグメンテーション結果のための,効率的で適合性の高い損失関数を設計する。 実験では,汎用セマンティックセグメンテーションアルゴリズム(Transformer,GCNNなど)をカスタムデータセット上に展開する。 実験結果から,本モデルはカスタムデータセットの平均精度を$\mathbf{82.31}\%$で達成し,最先端アルゴリズムよりも優れていることがわかった。 さらに、モデルの堅牢性を検証するために、よく知られたS3DISデータセットにモデルをデプロイする。 S3DISデータセットでは、平均精度を$\mathbf{92.6}\%$で達成し、ベースラインアルゴリズムより優れている。

This paper presents a framework for semantic segmentation on sparse sequential point clouds of millimeter-wave radar. Compared with cameras and lidars, millimeter-wave radars have the advantage of not revealing privacy, having a strong anti-interference ability, and having long detection distance. The sparsity and capturing temporal-topological features of mmWave data is still a problem. However, the issue of capturing the temporal-topological coupling features under the human semantic segmentation task prevents previous advanced segmentation methods (e.g PointNet, PointCNN, Point Transformer) from being well utilized in practical scenarios. To address the challenge caused by the sparsity and temporal-topological feature of the data, we (i) introduce graph structure and topological features to the point cloud, (ii) propose a semantic segmentation framework including a global feature-extracting module and a sequential feature-extracting module. In addition, we design an efficient and more fitting loss function for a better training process and segmentation results based on graph clustering. Experimentally, we deploy representative semantic segmentation algorithms (Transformer, GCNN, etc.) on a custom dataset. Experimental results indicate that our model achieves mean accuracy on the custom dataset by $\mathbf{82.31}\%$ and outperforms the state-of-the-art algorithms. Moreover, to validate the model's robustness, we deploy our model on the well-known S3DIS dataset. On the S3DIS dataset, our model achieves mean accuracy by $\mathbf{92.6}\%$, outperforming baseline algorithms.
翻訳日:2023-05-01 11:11:12 公開日:2023-04-28
# コンテキスト依存型テキストからSQLへの制御可能なデータ拡張

Controllable Data Augmentation for Context-Dependent Text-to-SQL ( http://arxiv.org/abs/2304.13902v2 )

ライセンス: Link先を確認
Dingzirui Wang, Longxu Dou, Wanxiang Che(参考訳) 注釈付きデータの限られたスケールは、ラベル付けの複雑さのため、既存のコンテキスト依存のテキスト-SQLモデルに制約を与える。 データ拡張法はこの問題を解決するのによく使われる方法である。 しかし、現在の拡張手法によって生成されたデータは、しばしば多様性を欠いている。 本稿では,対話型質問とそれに対応するSQL結果を生成するConDAを紹介する。 状態遷移を通じてデータの多様性を高めるためにsql対話状態を設計した。 また,接地モデルによってデータ品質を保証するフィルタ手法を提案する。 さらに,状態情報にミスマッチする低品質な質問を識別・フィルタリングするために,接地モデルを用いる。 SParCとCoSQLデータセットの実験結果によると、ConDAはベースラインモデルを強化し、複雑な問題に対して平均3.3\%の改善を達成する。 さらに,SQLテンプレートの硬度,型,ターン,質問整合性の両方において,ConDAが生成するデータが高品質であることを明らかにする。

The limited scale of annotated data constraints existing context-dependent text-to-SQL models because of the complexity of labeling. The data augmentation method is a commonly used method to solve this problem. However, the data generated by current augmentation methods often lack diversity. In this paper, we introduce ConDA, which generates interactive questions and corresponding SQL results. We designed the SQL dialogue state to enhance the data diversity through the state transition. Meanwhile, we also present a filter method to ensure the data quality by a grounding model. Additionally, we utilize a grounding model to identify and filter low-quality questions that mismatch the state information. Experimental results on the SParC and CoSQL datasets show that ConDA boosts the baseline model to achieve an average improvement of $3.3\%$ on complex questions. Moreover, we analyze the augmented data, which reveals that the data generated by ConDA are of high quality in both SQL template hardness and types, turns, and question consistency.
翻訳日:2023-05-01 11:10:49 公開日:2023-04-28
# SSLモデルはD\'ej\`a Vuを持っているか? 自己指導型学習における意図しない記憶の1例

Do SSL Models Have D\'ej\`a Vu? A Case of Unintended Memorization in Self-supervised Learning ( http://arxiv.org/abs/2304.13850v2 )

ライセンス: Link先を確認
Casey Meehan, Florian Bordes, Pascal Vincent, Kamalika Chaudhuri, Chuan Guo(参考訳) 自己教師付き学習(ssl)アルゴリズムは、自然画像の異なる部分を互いに関連付けるように学習することで有用な画像表現を生成することができる。 しかし、極端な場合、SSLモデルは意味論的に意味のある関連を学習するのではなく、個々のトレーニングサンプルの特定の部分を意図せずに記憶することができる。 本研究では,SSL モデルにおける画像固有情報の意図しない記憶に関する体系的研究を行い,これを d\'ej\`a vu 記憶と呼ぶ。 具体的には、背景(水、空、草など)のみを含む訓練画像の訓練モデルと作物を考慮すれば、前景オブジェクトを高精度に推測したり、視覚的に再構成したりすることが可能であることを示す。 さらに,d\'ej\`a vuの記憶は異なるsslアルゴリズムに共通であり,特定の設計選択によって悪化し,従来の表現品質評価手法では検出できないことを示す。 d\'ej\`a vuメモリ化に関する我々の研究は、SSLモデルでこれまで未知のプライバシリスクを明らかにし、潜在的な実用的な緩和戦略を示唆している。 コードはhttps://github.com/facebookresearch/DejaVu.comで入手できる。

Self-supervised learning (SSL) algorithms can produce useful image representations by learning to associate different parts of natural images with one another. However, when taken to the extreme, SSL models can unintendedly memorize specific parts in individual training samples rather than learning semantically meaningful associations. In this work, we perform a systematic study of the unintended memorization of image-specific information in SSL models -- which we refer to as d\'ej\`a vu memorization. Concretely, we show that given the trained model and a crop of a training image containing only the background (e.g., water, sky, grass), it is possible to infer the foreground object with high accuracy or even visually reconstruct it. Furthermore, we show that d\'ej\`a vu memorization is common to different SSL algorithms, is exacerbated by certain design choices, and cannot be detected by conventional techniques for evaluating representation quality. Our study of d\'ej\`a vu memorization reveals previously unknown privacy risks in SSL models, as well as suggests potential practical mitigation strategies. Code is available at https://github.com/facebookresearch/DejaVu.
翻訳日:2023-05-01 11:10:35 公開日:2023-04-28
# Sachdev-Ye-Kitaevモデルと荷電ブラックホールの量子統計力学

Quantum statistical mechanics of the Sachdev-Ye-Kitaev model and charged black holes ( http://arxiv.org/abs/2304.13744v2 )

ライセンス: Link先を確認
Subir Sachdev(参考訳) このレビューはMichael E. Fisherの記憶に捧げられた本への貢献である。 準粒子励起が期待できない量子多体系の最初の例は、ウィルソン・フィッシャー共形場理論である。 準粒子の欠如は、ランダム相互作用を持つフェルミオンのSachdev-Ye-Kitaevモデルの圧縮可能な金属状態に確立することができる。 後者のモデルの可解性は、量子ブラックホールを記述すると期待されるようなカオス多体状態の非量子粒子ダイナミクスの多くの計算を可能にした。 我々は、SYKモデルの熱力学特性を概説し、低エネルギー超対称性を持たない荷電ブラックホールの状態の低エネルギー密度の普遍構造をいかに理解したかを説明する。

This review is a contribution to a book dedicated to the memory of Michael E. Fisher. The first example of a quantum many body system not expected to have any quasiparticle excitations was the Wilson-Fisher conformal field theory. The absence of quasiparticles can be established in the compressible, metallic state of the Sachdev-Ye-Kitaev model of fermions with random interactions. The solvability of the latter model has enabled numerous computations of the non-quasiparticle dynamics of chaotic many-body states, such as those expected to describe quantum black holes. We review thermodynamic properties of the SYK model, and describe how they have led to an understanding of the universal structure of the low energy density of states of charged black holes without low energy supersymmetry.
翻訳日:2023-05-01 11:10:17 公開日:2023-04-28
# テキストとテーブルのシームレスなクエリのためのマルチモーダルdbmsに向けて

Towards Multi-Modal DBMSs for Seamless Querying of Texts and Tables ( http://arxiv.org/abs/2304.13559v2 )

ライセンス: Link先を確認
Matthias Urban and Carsten Binnig(参考訳) 本稿では,SQL を用いてテキストやテーブルをシームレスにクエリできる新しいデータベースシステムである Multi-Modal Databases (MMDB) を提案する。 MMDBにおけるSQLを用いたテキストデータのシームレスなクエリを実現するために,GPT-3のような最近の大規模言語モデルの発展を基盤として,いわゆるマルチモーダル演算子(MMOps)による関係データベースの拡張を提案する。 MMOpsの主な考え方は、手動でデータを変換することなく、テキストコレクションをテーブルとして扱うことができることだ。 評価で示すように,我々のMMDBプロトタイプは,テキスト・ツー・テーブルのような最先端のアプローチを精度と性能で上回るだけでなく,未知のテキスト・コレクションのモデルを微調整するためには,トレーニングデータも大幅に少なくする。

In this paper, we propose Multi-Modal Databases (MMDBs), which is a new class of database systems that can seamlessly query text and tables using SQL. To enable seamless querying of textual data using SQL in an MMDB, we propose to extend relational databases with so-called multi-modal operators (MMOps) which are based on the advances of recent large language models such as GPT-3. The main idea of MMOps is that they allow text collections to be treated as tables without the need to manually transform the data. As we show in our evaluation, our MMDB prototype can not only outperform state-of-the-art approaches such as text-to-table in terms of accuracy and performance but it also requires significantly less training data to fine-tune the model for an unseen text collection.
翻訳日:2023-05-01 11:09:35 公開日:2023-04-28