このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230717となっている論文です。

PDF登録状況(公開日: 20230717)

TitleAuthorsAbstract論文公表日・翻訳日
# 学習可能なシステムのためのSTPA:調査と新しい実践

STPA for Learning-Enabled Systems: A Survey and A New Practice ( http://arxiv.org/abs/2302.10588v2 )

ライセンス: Link先を確認
Yi Qi, Yi Dong, Siddartha Khastgir, Paul Jennings, Xingyu Zhao, Xiaowei Huang(参考訳) システム理論プロセス分析(System Theoretic Process Analysis、STPA)は、輸送、エネルギー、防衛を含む多くの産業セクターで使用されているハザード分析の体系的なアプローチである。 安全クリティカルなシステムで機械学習(ML)を使用することは、STPAをLearning-Enabled Systems(LES)に拡張する必要性が高まっている。 様々な例での作業は少ないが、体系的なレビューなしには、拡張されたstpaメソッドがどの程度効果的で一般化可能で、さらなる改善が可能かは不明である。 そこで本研究では,31の論文を体系的に調査し,5つの視点(関心,研究対象,修正対象,微分,モデル化されるプロセス)から要約する。 さらに,改善の余地を特定し,現状から欠落している2つの側面からstpaを強化するdeepstpaを導入する。 (i)MLライフサイクルにまたがるデータ駆動開発プロセスからハザードを特定するために、制御ループ構造を明示的に拡張する。 (II)根本原因を検出するため,MLモデルの層レベルで細粒度関数をモデル化する。 自律型緊急ブレーキシステムのケーススタディを通じて,deepstpaとstpaの比較を行った。

Systems Theoretic Process Analysis (STPA) is a systematic approach for hazard analysis that has been used across many industrial sectors including transportation, energy, and defense. The unstoppable trend of using Machine Learning (ML) in safety-critical systems has led to the pressing need of extending STPA to Learning-Enabled Systems (LESs). Although works have been carried out on various example LESs, without a systematic review, it is unclear how effective and generalisable the extended STPA methods are, and whether further improvements can be made. To this end, we present a systematic survey of 31 papers, summarising them from five perspectives (attributes of concern, objects under study, modifications, derivatives and processes being modelled). Furthermore, we identify room for improvement and accordingly introduce DeepSTPA, which enhances STPA from two aspects that are missing from the state-of-the-practice: (i) Control loop structures are explicitly extended to identify hazards from the data-driven development process spanning the ML lifecycle; (ii) Fine-grained functionalities are modelled at the layer-wise levels of ML models to detect root causes. We demonstrate and compare DeepSTPA and STPA through a case study on an autonomous emergency braking system.
翻訳日:2023-10-24 13:04:58 公開日:2023-07-17
# データドリフト検出による継続的統合におけるmlモデル崩壊の軽減--実証的研究

Mitigating ML Model Decay in Continuous Integration with Data Drift Detection: An Empirical Study ( http://arxiv.org/abs/2305.12736v2 )

ライセンス: Link先を確認
Ali Kazemi Arani, Triet Huynh Minh Le, Mansooreh Zahedi and Muhammad Ali Babar(参考訳) 背景: マシンラーニング(ml)メソッドは、継続的インテグレーション(ci)のテストケース優先化(tcp)など、さまざまなアクティビティを自動化するためにますます使われています。 しかし、データドリフトとして知られるCI環境の変化の結果、MLモデルは頻繁に再トレーニングする必要がある。 また、継続的にトレーニングするMLモデルは、多くの時間と労力を消費します。 したがって、CI環境でTCPに使用されるMLモデルの再トレーニングの労力と時間の削減に役立つ適切なアプローチを特定し、評価する必要性が緊急にある。 目的: 本研究は,ci環境におけるtcp用mlモデルのリトレーニングポイントを自動的に検出するデータドリフト検出手法の性能を,ソフトウェアプロジェクトの詳細な知識を必要とせずに検証することを目的とした。 方法:我々はHellinger距離を用いて入力データの値と分布の変化を同定し,これらの変化をMLモデルの再学習点として利用した。 本手法の有効性を複数のデータセットで評価し,APFDcとNAPFDの評価指標を定期的に再訓練されたモデルと比較し,統計的手法を慎重に検討した。 結果: Hellinger distance-based method を実験的に評価し,再学習点の検出と関連コストの低減に効果と効率性を示した。 しかし,本手法の性能はデータセットによって異なる場合がある。 結論:データドリフト検出法は,CI環境におけるMLモデルの再トレーニング点の同定に有効であり,再トレーニング時間を大幅に短縮できる可能性が示唆された。 これらの手法は、ソフトウェアプロジェクトの専門知識を欠いた実践者がMLモデルの精度を維持するのに役立つ。

Background: Machine Learning (ML) methods are being increasingly used for automating different activities, e.g., Test Case Prioritization (TCP), of Continuous Integration (CI). However, ML models need frequent retraining as a result of changes in the CI environment, more commonly known as data drift. Also, continuously retraining ML models consume a lot of time and effort. Hence, there is an urgent need of identifying and evaluating suitable approaches that can help in reducing the retraining efforts and time for ML models used for TCP in CI environments. Aims: This study aims to investigate the performance of using data drift detection techniques for automatically detecting the retraining points for ML models for TCP in CI environments without requiring detailed knowledge of the software projects. Method: We employed the Hellinger distance to identify changes in both the values and distribution of input data and leveraged these changes as retraining points for the ML model. We evaluated the efficacy of this method on multiple datasets and compared the APFDc and NAPFD evaluation metrics against models that were regularly retrained, with careful consideration of the statistical methods. Results: Our experimental evaluation of the Hellinger distance-based method demonstrated its efficacy and efficiency in detecting retraining points and reducing the associated costs. However, the performance of this method may vary depending on the dataset. Conclusions: Our findings suggest that data drift detection methods can assist in identifying retraining points for ML models in CI environments, while significantly reducing the required retraining time. These methods can be helpful for practitioners who lack specialized knowledge of software projects, enabling them to maintain ML model accuracy.
翻訳日:2023-10-24 08:02:43 公開日:2023-07-17
# 確率的ビシミュレーションのためのスプリッタ順序付け

Splitter Orderings for Probabilistic Bisimulation ( http://arxiv.org/abs/2307.08614v1 )

ライセンス: Link先を確認
Mohammadsadegh Mohagheghi, Khayyam Salehi(参考訳) モデル検査はコンピュータベースおよびサイバー物理システムを解析するための正式な検証手法として提案されている。 状態空間爆発問題は、このアプローチを洗練されたシステムに適用するための主要な障害である。 バイシミュレーションの最小化はラベル付き遷移系における状態数を減らすための顕著な方法であり、状態空間爆発問題の課題を緩和するために用いられる。 確率的挙動を持つ系では、確率的双シミュレーションは与えられたモデルを最小化された等価なモデルに還元するために用いられる。 近年,確率システムの確率的ビシミュレートを非決定的挙動で計算する反復的手法の時間的複雑さを低減する手法が提案されている。 本稿では,与えられた確率モデルの状態空間をバイシミュレートクラスに分割する反復過程を高速化する手法を提案する。 最初のテクニックは、スプリッターブロックの選択に2つの順序ヒューリスティックを適用する。 第2のテクニックは、ハッシュテーブルを使用して、標準反復法のランニング時間と平均時間複雑さを削減する。 提案手法は, 従来のいくつかのケーススタディで実装, 実行し, 実行時間を平均1桁削減する。

Model checking has been proposed as a formal verification approach for analyzing computer-based and cyber-physical systems. The state space explosion problem is the main obstacle for applying this approach for sophisticated systems. Bisimulation minimization is a prominent method for reducing the number of states in a labeled transition system and is used to alleviate the challenges of the state space explosion problem. For systems with stochastic behaviors, probabilistic bisimulation is used to reduce a given model to its minimized equivalent one. In recent years, several techniques have been proposed to reduce the time complexity of the iterative methods for computing probabilistic bisimulation of stochastic systems with nondeterministic behaviors. In this paper, we propose several techniques to accelerate iterative processes to partition the state space of a given probabilistic model to its bisimulation classes. The first technique applies two ordering heuristics for choosing splitter blocks. The second technique uses hash tables to reduce the running time and the average time complexity of the standard iterative method. The proposed approaches are implemented and run on several conventional case studies and reduce the running time by one order of magnitude on average.
翻訳日:2023-10-23 17:25:08 公開日:2023-07-17
# ソフトウェア工学におけるアダプタベース知識伝達のための事前学習言語モデルの利用

Utilization of Pre-trained Language Model for Adapter-based Knowledge Transfer in Software Engineering ( http://arxiv.org/abs/2307.08540v1 )

ライセンス: Link先を確認
Iman Saberi, Fatemeh Fard and Fuxiang Chen(参考訳) software engineering (se) pre-trained language model (plm) は、codebertのような大規模なコードコーパス上で事前学習されており、plmを微調整することで下流タスク(例えば、コードクローン検出)へ移行することに成功した。 自然言語処理(NLP)では、PLMに挿入されるコンパクトでパラメータ効率の良いモジュールであるアダプタを用いて、PLMの知識を伝達する代替手段を探索する。 アダプタの使用は多くのNLPベースのダウンストリームタスクにおいて有望な結果を示しているが、SEベースのダウンストリームタスクの応用と探索は限られている。 本稿では,クローゼテスト,コードクローン検出,コード要約など,複数の下流タスクに対するアダプタを用いた知識伝達について検討する。 これらのアダプタはコードコーパスでトレーニングされ、英語コーパスまたはコードコーパスで事前トレーニングされたplmに挿入される。 これらのPLMをNL-PLM, C-PLMと呼ぶ。 アダプタを持たないPLMに対してNL-PLMを用いることで,NL-PLMからSEタスクに有用な知識を変換し,活用できることが示唆された。 結果がc-plmの結果と同等かそれ以上になる場合があり、パラメータ数やトレーニング時間の観点からはより効率的である。 興味深いことに、C-PLMに挿入されたアダプタは、通常、従来の微調整されたC-PLMよりも良い結果をもたらす。 結果はSEタスクのためのよりコンパクトなモデルを構築するための新しい方向を開く。

Software Engineering (SE) Pre-trained Language Models (PLMs), such as CodeBERT, are pre-trained on large code corpora, and their learned knowledge has shown success in transferring into downstream tasks (e.g., code clone detection) through fine-tuning the PLMs. In Natural Language Processing (NLP), an alternative in transferring the knowledge of PLMs is explored through the use of adapter, a compact and parameter efficient module that is inserted into a PLM. Although the use of adapters has shown promising results in many NLP-based downstream tasks, their application and exploration in SE-based downstream tasks are limited. Here, we study the knowledge transfer using adapters on multiple downstream tasks including cloze test, code clone detection, and code summarization. These adapters are trained on code corpora and are inserted into a PLM that is pre-trained on English corpora or code corpora. We called these PLMs as NL-PLM and C-PLM, respectively. We observed an improvement in results using NL-PLM over a PLM that does not have adapters, and this suggested that adapters can transfer and utilize useful knowledge from NL-PLM to SE tasks. The results are sometimes on par with or exceed the results of C-PLM; while being more efficient in terms of the number of parameters and training time. Interestingly, adapters inserted into a C-PLM generally yield better results than a traditional fine-tuned C-PLM. Our results open new directions to build more compact models for SE tasks.
翻訳日:2023-10-23 17:24:40 公開日:2023-07-17
# JITコンパイラバグローカライゼーションのためのダイレクトテストプログラム生成

Directed Test Program Generation for JIT Compiler Bug Localization ( http://arxiv.org/abs/2307.08885v1 )

ライセンス: Link先を確認
HeuiChan Lim and Saumya Debray(参考訳) ジャスト・イン・タイム(jit)コンパイラのバグローカライゼーション技術は、この目的のために生成された一連のテストプログラム上でターゲットのjitコンパイラの実行動作を分析することに基づいており、これらのテスト入力の特徴はバグローカライゼーションの精度に大きな影響を与える可能性がある。 しかし、現在のテストプログラム自動生成のアプローチはJITコンパイラのバグローカライズにはうまくいきません。 本稿では,jitコンパイラのバグローカライズのための自動テストプログラム生成のための新しい手法を提案する。(1)生成したテストプログラムは,パス入力(バグをトリガしない)と失敗入力(バグをトリガする)の両方を含むべきである。 シードプログラムの構造解析を使用して、パスケースとフェールケース毎にコードのどの部分が変更されるべきかを決定します。 試行錯誤実験の結果,提案手法を用いて生成したテストインプットにより,既存手法よりもバグローカライゼーション結果が大幅に改善された。

Bug localization techniques for Just-in-Time (JIT) compilers are based on analyzing the execution behaviors of the target JIT compiler on a set of test programs generated for this purpose; characteristics of these test inputs can significantly impact the accuracy of bug localization. However, current approaches for automatic test program generation do not work well for bug localization in JIT compilers. This paper proposes a novel technique for automatic test program generation for JIT compiler bug localization that is based on two key insights: (1) the generated test programs should contain both passing inputs (which do not trigger the bug) and failing inputs (which trigger the bug); and (2) the passing inputs should be as similar as possible to the initial seed input, while the failing programs should be as different as possible from it. We use a structural analysis of the seed program to determine which parts of the code should be mutated for each of the passing and failing cases. Experiments using a prototype implementation indicate that test inputs generated using our approach result in significantly improved bug localization results than existing approaches.
翻訳日:2023-10-23 17:11:33 公開日:2023-07-17
# 移植可能なグラフニューラルフィンガープリントモデルによる次世代バイオサートへのクイックレスポンス

Transferable Graph Neural Fingerprint Models for Quick Response to Future Bio-Threats ( http://arxiv.org/abs/2308.01921v1 )

ライセンス: Link先を確認
Wei Chen, Yihui Ren, Ai Kagawa, Matthew R. Carbone, Samuel Yen-Chi Chen, Xiaohui Qu, Shinjae Yoo, Austin Clyde, Arvind Ramanathan, Rick L. Stevens, Hubertus J. J. van Dam, Deyu Liu(参考訳) リガンド結合親和性に基づく薬物分子の高速スクリーニングは、創薬パイプラインにおいて重要なステップである。 グラフニューラルフィンガープリントは高いスループットと高い忠実度を持つ分子ドッキングサロゲートの開発に有望な方法である。 本研究では、23種類のタンパク質を標的とした約30万種類の薬物候補のドッキングデータセットを構築した。 このデータセットを用いて、高スループットの仮想COVID-19薬物スクリーニングのためのグラフニューラルフィンガードッキングモデルを訓練した。 グラフニューラルフィンガープリントモデルは、ドッキング対象のほとんどにおいて平均2乗誤差が0.21$ kcal/mol未満のドッキングスコアにおいて高い予測精度を示し、従来の円形指紋法よりも大幅に改善した。 未知のターゲットに対して神経指紋を転送可能にするために,複数のターゲットに対してトレーニングしたグラフ神経指紋法を提案する。 ターゲット固有のグラフニューラルフィンガープリントモデルと同等の精度で、転送可能なモデルは、スーパーブトレーニングとデータ効率を示す。 今回の研究は、新型コロナウイルス(covid-19)データセット以外にも影響が及んでいることを強調する。高速仮想リガンドスクリーニングのアプローチは、将来的なバイオ脅威と戦うために、一般的な機械学習アクセラレーションパイプラインに容易に適応し、統合することが可能です。

Fast screening of drug molecules based on the ligand binding affinity is an important step in the drug discovery pipeline. Graph neural fingerprint is a promising method for developing molecular docking surrogates with high throughput and great fidelity. In this study, we built a COVID-19 drug docking dataset of about 300,000 drug candidates on 23 coronavirus protein targets. With this dataset, we trained graph neural fingerprint docking models for high-throughput virtual COVID-19 drug screening. The graph neural fingerprint models yield high prediction accuracy on docking scores with the mean squared error lower than $0.21$ kcal/mol for most of the docking targets, showing significant improvement over conventional circular fingerprint methods. To make the neural fingerprints transferable for unknown targets, we also propose a transferable graph neural fingerprint method trained on multiple targets. With comparable accuracy to target-specific graph neural fingerprint models, the transferable model exhibits superb training and data efficiency. We highlight that the impact of this study extends beyond COVID-19 dataset, as our approach for fast virtual ligand screening can be easily adapted and integrated into a general machine learning-accelerated pipeline to battle future bio-threats.
翻訳日:2023-08-14 02:07:30 公開日:2023-07-17
# 歩行脳波のノイズ除去法に関する調査研究

Noise removal methods on ambulatory EEG: A Survey ( http://arxiv.org/abs/2308.02437v1 )

ライセンス: Link先を確認
Sarthak Johari, Gowri Namratha Meedinti, Radhakrishnan Delhibabu and Deepak Joshi(参考訳) 何十年もの間、脳波のノイズ除去に関する研究が試みられている。 この点について,ノイズ除去の同定のための膨大な研究論文が公表されているが,これらの文献を詳細に検討することは困難である。 そこで本稿では,雑音の検出と除去について検討する試みを行っている。 100以上の研究論文が、脳波の検出と除去のテクニックを解明するために議論されている。 さらに本研究では,脳波データセットの異なる状況において,眼球開放と閉鎖の検出に必要なパターン認識が変化することを示した。 これは主に異なる条件下で検出された脳波が異なる特性を持っているためである。 これは、脳波データの様々な条件から脳波ノイズデータを効果的に識別するために、パターン認識技術の同定を必要とする。

Over many decades, research is being attempted for the removal of noise in the ambulatory EEG. In this respect, an enormous number of research papers is published for identification of noise removal, It is difficult to present a detailed review of all these literature. Therefore, in this paper, an attempt has been made to review the detection and removal of an noise. More than 100 research papers have been discussed to discern the techniques for detecting and removal the ambulatory EEG. Further, the literature survey shows that the pattern recognition required to detect ambulatory method, eye open and close, varies with different conditions of EEG datasets. This is mainly due to the fact that EEG detected under different conditions has different characteristics. This is, in turn, necessitates the identification of pattern recognition technique to effectively distinguish EEG noise data from a various condition of EEG data.
翻訳日:2023-08-14 01:27:09 公開日:2023-07-17
# クリル群集と重力探索アルゴリズムの医療への応用に関する研究

Current Studies and Applications of Krill Herd and Gravitational Search Algorithms in Healthcare ( http://arxiv.org/abs/2308.01268v1 )

ライセンス: Link先を確認
Rebwar Khalid Hamad and Tarik A. Rashid(参考訳) ネイチャーインスパイアド・コンピューティング(ネイチャーインスパイアド・コンピューティング、Nature-Inspired Computing、略称NIC)は、自然現象が複雑な問題に対する解を見つけるためにどのように機能するかを研究することによって、新しい計算方法を見つけようとする比較的若い分野である。 この結果、合成免疫機能、ニューラルネットワーク、Swarmの知性、進化の計算など、さまざまな領域において、画期的な研究が実施されている。 生物学、物理学、工学、経済学、管理の分野ではNIC技術が用いられている。 現実世界の分類、最適化、予測、クラスタリング、および工学と科学の問題において、メタヒューリスティックスアルゴリズムは成功し、効率的で弾力性がある。 2つのアクティブなnicパターンがある:重力探索アルゴリズムとkrill herdアルゴリズムである。 Krill Herd Algorithm (KH) と Gravitational Search Algorithm (GSA) を医療・医療に利用する研究は、この出版物において世界的かつ歴史的にレビューされている。 khやgsaなど、他の自然に触発されたアルゴリズムに関する包括的な調査が行われている。 KH と GSA のアルゴリズムの様々なバージョンとその医療への応用について,本論文で概説する。 それでも医療分野におけるKHとGSAに関する調査は行われていない。 結果として、この研究はKHとGSAの徹底的なレビューを行い、研究者が様々な領域で使用したり、他の一般的なアルゴリズムとハイブリダイゼーションしたりするのに役立ちます。 また、khおよびgsaの応用、修正、およびハイブリダイゼーションの観点からの詳細な検査も提供する。 本研究の目的は、特に医療・医療分野におけるアルゴリズムの能力と性能の研究に関心のある研究者に対して、KHによるGSAの視点を提供することである。

Nature-Inspired Computing or NIC for short is a relatively young field that tries to discover fresh methods of computing by researching how natural phenomena function to find solutions to complicated issues in many contexts. As a consequence of this, ground-breaking research has been conducted in a variety of domains, including synthetic immune functions, neural networks, the intelligence of swarm, as well as computing of evolutionary. In the domains of biology, physics, engineering, economics, and management, NIC techniques are used. In real-world classification, optimization, forecasting, and clustering, as well as engineering and science issues, meta-heuristics algorithms are successful, efficient, and resilient. There are two active NIC patterns: the gravitational search algorithm and the Krill herd algorithm. The study on using the Krill Herd Algorithm (KH) and the Gravitational Search Algorithm (GSA) in medicine and healthcare is given a worldwide and historical review in this publication. Comprehensive surveys have been conducted on some other nature-inspired algorithms, including KH and GSA. The various versions of the KH and GSA algorithms and their applications in healthcare are thoroughly reviewed in the present article. Nonetheless, no survey research on KH and GSA in the healthcare field has been undertaken. As a result, this work conducts a thorough review of KH and GSA to assist researchers in using them in diverse domains or hybridizing them with other popular algorithms. It also provides an in-depth examination of the KH and GSA in terms of application, modification, and hybridization. It is important to note that the goal of the study is to offer a viewpoint on GSA with KH, particularly for academics interested in investigating the capabilities and performance of the algorithm in the healthcare and medical domains.
翻訳日:2023-08-06 10:54:16 公開日:2023-07-17
# 2次元テキスト空間化のための話題モデルの大規模評価と次元縮小法

Large-Scale Evaluation of Topic Models and Dimensionality Reduction Methods for 2D Text Spatialization ( http://arxiv.org/abs/2307.11770v1 )

ライセンス: Link先を確認
Daniel Atzberger, Tim Cech, Willy Scheibel, Matthias Trapp, Rico Richter, J\"urgen D\"ollner, Tobias Schreck(参考訳) トピックモデルは、テキストコーパス内の意味構造を検出するための教師なし学習アルゴリズムのクラスである。 その後の次元削減アルゴリズムとともに、テキストコーパスの空間化を2次元散乱プロットとして導出し、文書間の意味的類似性を反映し、コーパス解析を支援するためにトピックモデルを用いることができる。 トピックモデルの選択、次元の縮小、それらの基礎となるハイパーパラメータは、結果として生じるレイアウトに大きな影響を与えるが、どの組み合わせが精度と知覚の指標に関して高品質なレイアウトをもたらすのかは不明である。 本研究では,2次元散乱プロット(またはランドスケープ型可視化の基礎)としてのコーパスの空間化に対するトピックモデルと次元低減手法の有効性を検討するため,大規模ベンチマークに基づく計算評価を行う。 本評価は,(1)コーパスの組,(2)トピックモデルと次元縮小を組み合わせたレイアウトアルゴリズムの組,(3)レイアウトの定量化のための品質指標からなる。 コーパスは文書項行列として与えられ、各文書は主題クラスに割り当てられる。 選択された指標は、局所的および大域的特性の保存と二次元散乱プロットの知覚的有効性を定量化する。 計算クラスタ上でのベンチマークを評価することにより,40000以上の個別レイアウトと対応する品質指標を備えた多変量データセットを導出した。 そこで本研究では,話題モデルと次元性低減に基づくテキスト空間化の効果的な設計のためのガイドラインを提案する。 その結果,解釈可能な話題モデルはテキストコーパスの構造を捉えるのに有用であることがわかった。 さらに, t-SNE をその後の次元化に活用することを推奨する。

Topic models are a class of unsupervised learning algorithms for detecting the semantic structure within a text corpus. Together with a subsequent dimensionality reduction algorithm, topic models can be used for deriving spatializations for text corpora as two-dimensional scatter plots, reflecting semantic similarity between the documents and supporting corpus analysis. Although the choice of the topic model, the dimensionality reduction, and their underlying hyperparameters significantly impact the resulting layout, it is unknown which particular combinations result in high-quality layouts with respect to accuracy and perception metrics. To investigate the effectiveness of topic models and dimensionality reduction methods for the spatialization of corpora as two-dimensional scatter plots (or basis for landscape-type visualizations), we present a large-scale, benchmark-based computational evaluation. Our evaluation consists of (1) a set of corpora, (2) a set of layout algorithms that are combinations of topic models and dimensionality reductions, and (3) quality metrics for quantifying the resulting layout. The corpora are given as document-term matrices, and each document is assigned to a thematic class. The chosen metrics quantify the preservation of local and global properties and the perceptual effectiveness of the two-dimensional scatter plots. By evaluating the benchmark on a computing cluster, we derived a multivariate dataset with over 45 000 individual layouts and corresponding quality metrics. Based on the results, we propose guidelines for the effective design of text spatializations that are based on topic models and dimensionality reductions. As a main result, we show that interpretable topic models are beneficial for capturing the structure of text corpora. We furthermore recommend the use of t-SNE as a subsequent dimensionality reduction.
翻訳日:2023-07-30 04:17:33 公開日:2023-07-17
# 大規模言語モデルからのドメイン知識蒸留 : 自律運転領域における実証的研究

Domain Knowledge Distillation from Large Language Model: An Empirical Study in the Autonomous Driving Domain ( http://arxiv.org/abs/2307.11769v1 )

ライセンス: Link先を確認
Yun Tang, Antonio A. Bruto da Costa, Jason Zhang, Irvine Patrick, Siddartha Khastgir, Paul Jennings(参考訳) エンジニアリング知識ベース(あるいは専門家)システムは、広範な手作業とドメイン知識を必要とする。 大規模な言語モデル(llm)は、膨大な量のクロスドメイン知識を使ってトレーニングされるため、そのようなエンジニアリングプロセスを自動化することが可能になります。 本稿では,素早い工学とLLM ChatGPTを用いたドメイン知識蒸留のための経験的自動化と半自動化フレームワークを提案する。 自律走行領域におけるフレームワークを実証的に評価し、重要な観察結果を示す。 実装では、chatgptで「チャッティング」することでドメイン知識オントロジーを構築する。 鍵となる発見は、完全に自動化されたドメインオントロジーの構築が可能であるが、人間の監督と早期介入は、通常、応答ランダム性や蝶効果の影響を減らすことにより、効率と出力品質を改善することである。 そこで我々は,Webベースの蒸留アシスタントを開発し,実行時の監督とフレキシブルな介入を可能にする。 私たちの発見とツールが将来の研究を刺激し、アプリケーションドメイン全体にわたる知識ベースのシステムのエンジニアリングに革命をもたらすことを期待しています。

Engineering knowledge-based (or expert) systems require extensive manual effort and domain knowledge. As Large Language Models (LLMs) are trained using an enormous amount of cross-domain knowledge, it becomes possible to automate such engineering processes. This paper presents an empirical automation and semi-automation framework for domain knowledge distillation using prompt engineering and the LLM ChatGPT. We assess the framework empirically in the autonomous driving domain and present our key observations. In our implementation, we construct the domain knowledge ontology by "chatting" with ChatGPT. The key finding is that while fully automated domain ontology construction is possible, human supervision and early intervention typically improve efficiency and output quality as they lessen the effects of response randomness and the butterfly effect. We, therefore, also develop a web-based distillation assistant enabling supervision and flexible intervention at runtime. We hope our findings and tools could inspire future research toward revolutionizing the engineering of knowledge-based systems across application domains.
翻訳日:2023-07-30 04:17:05 公開日:2023-07-17
# 思考連鎖推論における忠実性の測定

Measuring Faithfulness in Chain-of-Thought Reasoning ( http://arxiv.org/abs/2307.13702v1 )

ライセンス: Link先を確認
Tamera Lanham, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez, Dustin Li, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamil\.e Luko\v{s}i\=ut\.e, Karina Nguyen, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Robin Larson, Sam McCandlish, Sandipan Kundu, Saurav Kadavath, Shannon Yang, Thomas Henighan, Timothy Maxwell, Timothy Telleen-Lawton, Tristan Hume, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez(参考訳) 大規模言語モデル(LLM)は、質問に答える前に、ステップバイステップで"Chain-of-Thought"(CoT)推論を生成するときに、より良い性能を発揮するが、その推論がモデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。 モデル予測がcotに介入した場合(例えば、ミスの追加やパラフレージングなど)にどのように変化するかを調べることにより、cot推論が不利であるかを仮定する。 モデルは、CoTが回答を予測するときに、いかにCoTに強く依存しているかというタスク間で大きなバリエーションを示します。 CoTのパフォーマンス向上は、CoTが追加したテストタイム計算だけでなく、CoTの特定のフレーズによって符号化された情報からもたらされるようには見えない。 モデルがより大きく、より有能になるにつれて、研究するほとんどのタスクに対する忠実な推論は少なくなる。 全体的な結果から,モデルサイズやタスクなどの状況が慎重に選択された場合,CoTは忠実である可能性が示唆された。

Large language models (LLMs) perform better when they produce step-by-step, "Chain-of-Thought" (CoT) reasoning before answering a question, but it is unclear if the stated reasoning is a faithful explanation of the model's actual reasoning (i.e., its process for answering the question). We investigate hypotheses for how CoT reasoning may be unfaithful, by examining how the model predictions change when we intervene on the CoT (e.g., by adding mistakes or paraphrasing it). Models show large variation across tasks in how strongly they condition on the CoT when predicting their answer, sometimes relying heavily on the CoT and other times primarily ignoring it. CoT's performance boost does not seem to come from CoT's added test-time compute alone or from information encoded via the particular phrasing of the CoT. As models become larger and more capable, they produce less faithful reasoning on most tasks we study. Overall, our results suggest that CoT can be faithful if the circumstances such as the model size and task are carefully chosen.
翻訳日:2023-07-30 03:56:21 公開日:2023-07-17
# PGCN:時空間交通予測のためのプログレッシブグラフ畳み込みネットワーク

PGCN: Progressive Graph Convolutional Networks for Spatial-Temporal Traffic Forecasting ( http://arxiv.org/abs/2202.08982v2 )

ライセンス: Link先を確認
Yuyol Shin and Yoonjin Yoon(参考訳) 交通ネットワークにおける複雑な時空間相関は、交通予測問題を難しくする。 輸送システムは本質的にグラフ構造を持っているため、多くの研究がグラフニューラルネットワークで行われている。 近年、データに対する適応グラフの構築は、単一の静的グラフ構造に依存するモデルに対して有望な結果を示している。 しかし、グラフ適応はトレーニングフェーズで適用され、テストフェーズで使用されるデータを反映しない。 このような欠点は、特に交通データが時系列の予期せぬ変化や不規則に悩まされるため、交通予測において問題となる。 本研究では,PGCN(Progressive Graph Convolutional Network)と呼ばれる新しいトラフィック予測フレームワークを提案する。 PGCNは、トレーニングとテストフェーズの間、入力データに徐々に適応してグラフの集合を構築する。 具体的には,グラフノード間の傾向類似性を学習することで,進行的隣接行列を構築するモデルを実装した。 そして、拡張因果畳み込みとゲート活性化ユニットとを組み合わせることで、時間的特徴を抽出する。 残差接続とスキップ接続により、PGCNはトラフィック予測を行う。 多様な幾何学的性質を持つ4つの実世界のトラフィックデータセットに適用すると、提案モデルはすべてのデータセットで一貫性のある最先端のパフォーマンスを達成する。 我々は、PGCNが入力データに徐々に適応する能力により、頑健な異なる研究現場でモデルを一般化することができると結論付けた。

The complex spatial-temporal correlations in transportation networks make the traffic forecasting problem challenging. Since transportation system inherently possesses graph structures, much research efforts have been put with graph neural networks. Recently, constructing adaptive graphs to the data has shown promising results over the models relying on a single static graph structure. However, the graph adaptations are applied during the training phases, and do not reflect the data used during the testing phases. Such shortcomings can be problematic especially in traffic forecasting since the traffic data often suffers from the unexpected changes and irregularities in the time series. In this study, we propose a novel traffic forecasting framework called Progressive Graph Convolutional Network (PGCN). PGCN constructs a set of graphs by progressively adapting to input data during the training and the testing phases. Specifically, we implemented the model to construct progressive adjacency matrices by learning trend similarities among graph nodes. Then, the model is combined with the dilated causal convolution and gated activation unit to extract temporal features. With residual and skip connections, PGCN performs the traffic prediction. When applied to four real-world traffic datasets of diverse geometric nature, the proposed model achieves state-of-the-art performance with consistency in all datasets. We conclude that the ability of PGCN to progressively adapt to input data enables the model to generalize in different study sites with robustness.
翻訳日:2023-07-21 19:17:07 公開日:2023-07-17
# MetaMask: 自己監督学習のための次元的共同創設者の再考

MetaMask: Revisiting Dimensional Confounder for Self-Supervised Learning ( http://arxiv.org/abs/2209.07902v4 )

ライセンス: Link先を確認
Jiangmeng Li, Wenwen Qiang, Yanan Zhang, Wenyi Mo, Changwen Zheng, Bing Su, Hui Xiong(参考訳) 自己教師あり学習のアプローチとして、コントラスト学習は、入力サンプルの歪み間で共有される不変情報を学習することを目的としている。 対照的な学習は、サンプリング戦略とアーキテクチャ設計において継続的な進歩をもたらしてきたが、タスク関連情報の干渉とサンプルの非効率性の2つの持続的な欠陥は、自明な定数解の存在に関係している。 次元解析の観点からは,次元冗長性と次元共創者が現象の背後にある本質的な問題であることが分かり,我々の視点を支える実験的証拠を提供する。 さらに,メタ学習によって学習された次元マスクを省略して,次元冗長性に対する表現を学習するメタマスクを提案する。 メタマスクは, 次元冗長性問題に対処するために冗長性低減技術を採用し, 典型的な自己監督タスクにおけるマスク表現の性能向上を目的としたメタラーニングパラダイムを用いて訓練した, 共同創設者を含む特定の次元の勾配効果を低減するために, 次元マスクを革新的に導入する。 我々は,MetaMaskが典型的コントラスト法と比較して,下流分類の厳密なリスク境界が得られることを示すための理論解析を行った。 提案手法は,様々なベンチマークにおける最先端性能を実証的に達成する。

As a successful approach to self-supervised learning, contrastive learning aims to learn invariant information shared among distortions of the input sample. While contrastive learning has yielded continuous advancements in sampling strategy and architecture design, it still remains two persistent defects: the interference of task-irrelevant information and sample inefficiency, which are related to the recurring existence of trivial constant solutions. From the perspective of dimensional analysis, we find out that the dimensional redundancy and dimensional confounder are the intrinsic issues behind the phenomena, and provide experimental evidence to support our viewpoint. We further propose a simple yet effective approach MetaMask, short for the dimensional Mask learned by Meta-learning, to learn representations against dimensional redundancy and confounder. MetaMask adopts the redundancy-reduction technique to tackle the dimensional redundancy issue and innovatively introduces a dimensional mask to reduce the gradient effects of specific dimensions containing the confounder, which is trained by employing a meta-learning paradigm with the objective of improving the performance of masked representations on a typical self-supervised task. We provide solid theoretical analyses to prove MetaMask can obtain tighter risk bounds for downstream classification compared to typical contrastive methods. Empirically, our method achieves state-of-the-art performance on various benchmarks.
翻訳日:2023-07-21 18:57:47 公開日:2023-07-17
# 事前予測はあなたが考えるよりも重要である:ツリーベースのコード生成に効果的な方法

Antecedent Predictions Are More Important Than You Think: An Effective Method for Tree-Based Code Generation ( http://arxiv.org/abs/2208.09998v3 )

ライセンス: Link先を確認
Yihong Dong, Ge Li, Xue Jiang, and Zhi Jin(参考訳) コード生成は自然言語(nl)の発話をコードスニペットに自動変換することに焦点を当てている。 シーケンス・トゥ・ツリー(Seq2Tree)アプローチは、ASTノードの先行予測に依存する抽象構文木(AST)ノードを生成する生成コードの文法的正しさを保証するコード生成のために提案される。 既存のseq2treeメソッドは、先行予測とその後の予測の両方を等しく扱う傾向がある。 しかし、ast制約の下では、seq2treeモデルが不正確な先行予測に基づいて正しい後続予測を生成することは困難である。 したがって、先行予測はその後の予測よりも多くの注目を集めるべきである。 そこで本研究では,生成されたastノードの位置情報を活用し,先行予測の重要性をモデルに付与する手法として,先行優先度付き損失(antecedent priorityd (ap) loss)を提案する。 我々は,ASTノードの位置情報を2次元ベクトルにマッピングし,ASTノードの位置情報をモデル化するAST-to-Vector (AST2Vec) 法を設計する。 提案した損失の有効性を評価するため,APT と呼ばれるAntecedent Prioritized Tree ベースのコード生成モデルを実装し,訓練する。 先行予測とそれに伴う予測により、APTは性能を大幅に改善する。 4つのベンチマークデータセットについて広範な実験を行い,提案手法の優越性と汎用性を実証した。

Code generation focuses on the automatic conversion of natural language (NL) utterances into code snippets. The sequence-to-tree (Seq2Tree) approaches are proposed for code generation, with the guarantee of the grammatical correctness of the generated code, which generate the subsequent Abstract Syntax Tree (AST) node relying on antecedent predictions of AST nodes. Existing Seq2Tree methods tend to treat both antecedent predictions and subsequent predictions equally. However, under the AST constraints, it is difficult for Seq2Tree models to produce the correct subsequent prediction based on incorrect antecedent predictions. Thus, antecedent predictions ought to receive more attention than subsequent predictions. To this end, in this paper, we propose an effective method, named Antecedent Prioritized (AP) Loss, that helps the model attach importance to antecedent predictions by exploiting the position information of the generated AST nodes. We design an AST-to-Vector (AST2Vec) method, that maps AST node positions to two-dimensional vectors, to model the position information of AST nodes. To evaluate the effectiveness of our proposed loss, we implement and train an Antecedent Prioritized Tree-based code generation model called APT. With better antecedent predictions and accompanying subsequent predictions, APT significantly improves the performance. We conduct extensive experiments on four benchmark datasets, and the experimental results demonstrate the superiority and generality of our proposed method.
翻訳日:2023-07-21 18:56:55 公開日:2023-07-17
# 旗多様体上の弦平均化とその応用

Chordal Averaging on Flag Manifolds and Its Applications ( http://arxiv.org/abs/2303.13501v2 )

ライセンス: Link先を確認
Nathan Mankovich and Tolga Birdal(参考訳) 本稿では,旗多様体上の点の集合のフラッグ平均とフラッグメディアンをコード計量で計算する新しい証明可能収束アルゴリズムを提案する。 フラッグ多様体は、次元が増加するベクトル空間のネストされた部分空間の列であるフラッグからなる数学的空間である。 フラッグ多様体はStiefel や Grassmanian など、既知の行列空間の広い範囲のスーパーセットであり、多種多様なコンピュータビジョン問題に有用な一般的な対象である。 1次フラグ統計の計算の課題に取り組むため、まず問題をスティーフェル多様体に制約された補助変数を含む問題に変換する。 stiefel多様体は直交フレームの空間であり、stiefel-manifold optimizationの数値安定性と効率を活用すれば、フラグ平均を効果的に計算することができる。 一連の実験により, 主成分分析と同様に, グラスマン法と回転平均法における本手法の能力を示す。 ソースコードはhttps://github.com/nmank/flagaveragingで公開しています。

This paper presents a new, provably-convergent algorithm for computing the flag-mean and flag-median of a set of points on a flag manifold under the chordal metric. The flag manifold is a mathematical space consisting of flags, which are sequences of nested subspaces of a vector space that increase in dimension. The flag manifold is a superset of a wide range of known matrix spaces, including Stiefel and Grassmanians, making it a general object that is useful in a wide variety computer vision problems. To tackle the challenge of computing first order flag statistics, we first transform the problem into one that involves auxiliary variables constrained to the Stiefel manifold. The Stiefel manifold is a space of orthogonal frames, and leveraging the numerical stability and efficiency of Stiefel-manifold optimization enables us to compute the flag-mean effectively. Through a series of experiments, we show the competence of our method in Grassmann and rotation averaging, as well as principal component analysis. We release our source code under https://github.com/nmank/FlagAveraging.
翻訳日:2023-07-21 18:19:09 公開日:2023-07-17
# 機関的AI研究と導入を導く多ドメイン関係フレームワーク

A multidomain relational framework to guide institutional AI research and adoption ( http://arxiv.org/abs/2303.10106v2 )

ライセンス: Link先を確認
Vincent J. Straub, Deborah Morgan, Youmna Hashem, John Francis, Saba Esnaashari, Jonathan Bright(参考訳) 機関や行政における人工知能(AI)の採用を導くための新しいメトリクス、技術標準、ガバナンスメカニズムが現在一般的である。 しかし、AIを採用することの意味を理解することを目的としたほとんどの研究と政策の取り組みは、ほんの一握りのアイデアだけを優先する傾向がある。 In this position paper, we contend that this omission stems, in part, from what we call the relational problem in socio-technical discourse: fundamental ontological issues have not yet been settled--including semantic ambiguity, a lack of clear relations between concepts and differing standard terminologies. This contributes to the persistence of disparate modes of reasoning to assess institutional AI systems, and the prevalence of conceptual isolation in the fields that study them including ML, human factors, social science and policy. After developing this critique, we offer a way forward by proposing a simple policy and research design tool in the form of a conceptual framework to organize terms across fields--consisting of three horizontal domains for grouping relevant concepts and related methods: Operational, Epistemic, and Normative. まず,2つの主要な学術会場であるAIESとFAccTの社会技術談話の背景に立ち,それぞれの領域で関連する概念を運用することで,適切なメトリクス,標準,メカニズムの開発をいかに支援できるかを説明する。 最後に,このリレーショナルアプローチを制度的AI研究や導入に適用するための,優れた質問を概説する。

Calls for new metrics, technical standards and governance mechanisms to guide the adoption of Artificial Intelligence (AI) in institutions and public administration are now commonplace. Yet, most research and policy efforts aimed at understanding the implications of adopting AI tend to prioritize only a handful of ideas; they do not fully connect all the different perspectives and topics that are potentially relevant. In this position paper, we contend that this omission stems, in part, from what we call the relational problem in socio-technical discourse: fundamental ontological issues have not yet been settled--including semantic ambiguity, a lack of clear relations between concepts and differing standard terminologies. This contributes to the persistence of disparate modes of reasoning to assess institutional AI systems, and the prevalence of conceptual isolation in the fields that study them including ML, human factors, social science and policy. After developing this critique, we offer a way forward by proposing a simple policy and research design tool in the form of a conceptual framework to organize terms across fields--consisting of three horizontal domains for grouping relevant concepts and related methods: Operational, Epistemic, and Normative. We first situate this framework against the backdrop of recent socio-technical discourse at two premier academic venues, AIES and FAccT, before illustrating how developing suitable metrics, standards, and mechanisms can be aided by operationalizing relevant concepts in each of these domains. Finally, we outline outstanding questions for developing this relational approach to institutional AI research and adoption.
翻訳日:2023-07-21 18:18:09 公開日:2023-07-17
# 生成拡散モデルによる合成ラグランジュ乱流

Synthetic Lagrangian Turbulence by Generative Diffusion Models ( http://arxiv.org/abs/2307.08529v1 )

ライセンス: Link先を確認
Tianyi Li, Luca Biferale, Fabio Bonaccorso, Martino Andrea Scarpolini and Michele Buzzicotti(参考訳) ラグランジアン乱流は、工学、生物流体、大気、海洋、天体物理学における分散と混合の物理学に関する多くの応用および基本的な問題の核にある。 過去30年間にわたる特別な理論的、数値的、実験的な努力にもかかわらず、乱流の粒子軌道によって示される統計的および位相的性質を忠実に再現する既存のモデルは存在していない。 本研究では,最先端拡散モデルに基づく機械学習手法を提案し,レイノルズ数で3次元乱流の単一粒子軌道を生成することにより,直接数値シミュレーションや実験を回避し,信頼性の高いラグランジアンデータを得る。 本モデルでは, 速度インクリメントに対する脂肪尾分布の存在, 異常電力法則, 散逸スケール周辺の断続性の向上など, 時間スケール全体で関連するすべての統計ベンチマークを定量的に再現する能力を示す。 このモデルは極端な事象に対して優れた一般化性を示し、前例のない強度と希薄さを達成する。 これにより、ラグランジュ乱流の下流の様々な応用を事前学習するための合成高品質データセットの作成方法が整う。

Lagrangian turbulence lies at the core of numerous applied and fundamental problems related to the physics of dispersion and mixing in engineering, bio-fluids, atmosphere, oceans, and astrophysics. Despite exceptional theoretical, numerical, and experimental efforts conducted over the past thirty years, no existing models are capable of faithfully reproducing statistical and topological properties exhibited by particle trajectories in turbulence. We propose a machine learning approach, based on a state-of-the-art Diffusion Model, to generate single-particle trajectories in three-dimensional turbulence at high Reynolds numbers, thereby bypassing the need for direct numerical simulations or experiments to obtain reliable Lagrangian data. Our model demonstrates the ability to quantitatively reproduce all relevant statistical benchmarks over the entire range of time scales, including the presence of fat tails distribution for the velocity increments, anomalous power law, and enhancement of intermittency around the dissipative scale. The model exhibits good generalizability for extreme events, achieving unprecedented intensity and rarity. This paves the way for producing synthetic high-quality datasets for pre-training various downstream applications of Lagrangian turbulence.
翻訳日:2023-07-21 17:09:45 公開日:2023-07-17
# Wasserstein Quantum Monte Carlo: Quantum Many-Body Schr\"odinger方程式の解法

Wasserstein Quantum Monte Carlo: A Novel Approach for Solving the Quantum Many-Body Schr\"odinger Equation ( http://arxiv.org/abs/2307.07050v2 )

ライセンス: Link先を確認
Kirill Neklyudov, Jannes Nys, Luca Thiede, Juan Carrasquilla, Qiang Liu, Max Welling, Alireza Makhzani(参考訳) Solving the quantum many-body Schr\"odinger equation is a fundamental and challenging problem in the fields of quantum physics, quantum chemistry, and material sciences. One of the common computational approaches to this problem is Quantum Variational Monte Carlo (QVMC), in which ground-state solutions are obtained by minimizing the energy of the system within a restricted family of parameterized wave functions. Deep learning methods partially address the limitations of traditional QVMC by representing a rich family of wave functions in terms of neural networks. However, the optimization objective in QVMC remains notoriously hard to minimize and requires second-order optimization methods such as natural gradient. In this paper, we first reformulate energy functional minimization in the space of Born distributions corresponding to particle-permutation (anti-)symmetric wave functions, rather than the space of wave functions. We then interpret QVMC as the Fisher-Rao gradient flow in this distributional space, followed by a projection step onto the variational manifold. This perspective provides us with a principled framework to derive new QMC algorithms, by endowing the distributional space with better metrics, and following the projected gradient flow induced by those metrics. More specifically, we propose "Wasserstein Quantum Monte Carlo" (WQMC), which uses the gradient flow induced by the Wasserstein metric, rather than Fisher-Rao metric, and corresponds to transporting the probability mass, rather than teleporting it. 我々は, wqmcのダイナミクスが分子系の基底状態への収束を早めることを実証的に示す。

Solving the quantum many-body Schr\"odinger equation is a fundamental and challenging problem in the fields of quantum physics, quantum chemistry, and material sciences. One of the common computational approaches to this problem is Quantum Variational Monte Carlo (QVMC), in which ground-state solutions are obtained by minimizing the energy of the system within a restricted family of parameterized wave functions. Deep learning methods partially address the limitations of traditional QVMC by representing a rich family of wave functions in terms of neural networks. However, the optimization objective in QVMC remains notoriously hard to minimize and requires second-order optimization methods such as natural gradient. In this paper, we first reformulate energy functional minimization in the space of Born distributions corresponding to particle-permutation (anti-)symmetric wave functions, rather than the space of wave functions. We then interpret QVMC as the Fisher-Rao gradient flow in this distributional space, followed by a projection step onto the variational manifold. This perspective provides us with a principled framework to derive new QMC algorithms, by endowing the distributional space with better metrics, and following the projected gradient flow induced by those metrics. More specifically, we propose "Wasserstein Quantum Monte Carlo" (WQMC), which uses the gradient flow induced by the Wasserstein metric, rather than Fisher-Rao metric, and corresponds to transporting the probability mass, rather than teleporting it. We demonstrate empirically that the dynamics of WQMC results in faster convergence to the ground state of molecular systems.
翻訳日:2023-07-21 17:07:15 公開日:2023-07-17
# hyperparameter tuning cookbook: a guide for scikit-learn, pytorch, river, spotpython

Hyperparameter Tuning Cookbook: A guide for scikit-learn, PyTorch, river, and spotPython ( http://arxiv.org/abs/2307.10262v1 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein(参考訳) このドキュメントは、Scikit-learn、PyTorch、RiverのSpotPythonを使ったハイパーパラメータチューニングの包括的なガイドを提供する。 第1部ではSpotPythonのサロゲートモデルベースの最適化プロセスを導入し、第2部ではハイパーパラメータチューニングに重点を置いている。 sklearnモデルのハイパーパラメータチューニング(サポートベクター分類、ランダムフォレスト、勾配ブースティング(xgb)、k-nearest neighbors(knn)など)や、川からのhoeffding adaptive tree regressorなど、いくつかのケーススタディが提示されている。 spotPythonのPyTorchおよびPyTorch Lightningトレーニングワークフローへの統合についても論じている。 ハンズオンのアプローチとステップバイステップの説明により、このクックブックはPythonでのハイパーパラメータチューニングに関心のある人には実用的な出発点となる。 ハイライトはtensorboard、pytorch lightning、spotpython、river間のインタープレイである。 この出版物は開発中であり、対応するWebページで更新が利用可能である。

This document provides a comprehensive guide to hyperparameter tuning using spotPython for scikit-learn, PyTorch, and river. The first part introduces spotPython's surrogate model-based optimization process, while the second part focuses on hyperparameter tuning. Several case studies are presented, including hyperparameter tuning for sklearn models such as Support Vector Classification, Random Forests, Gradient Boosting (XGB), and K-nearest neighbors (KNN), as well as a Hoeffding Adaptive Tree Regressor from river. The integration of spotPython into the PyTorch and PyTorch Lightning training workflow is also discussed. With a hands-on approach and step-by-step explanations, this cookbook serves as a practical starting point for anyone interested in hyperparameter tuning with Python. Highlights include the interplay between Tensorboard, PyTorch Lightning, spotPython, and river. This publication is under development, with updates available on the corresponding webpage.
翻訳日:2023-07-21 16:41:21 公開日:2023-07-17
# マルウェア検出のためのランダム再起動とブースティングによる隠れマルコフモデル

Hidden Markov Models with Random Restarts vs Boosting for Malware Detection ( http://arxiv.org/abs/2307.10256v1 )

ライセンス: Link先を確認
Aditya Raghavan and Fabio Di Troia and Mark Stamp(参考訳) 効果的なマルウェア検出は、セキュアなデジタルシステムの構築研究の最前線にある。 他の多くの分野と同様に、マルウェア検出研究は機械学習アルゴリズムの適用が劇的に増加した。 特に隠れマルコフモデル(HMM)における一般およびマルウェア検出においてパターンマッチングの分野で広く使われている機械学習技術の一つ。 HMMトレーニングはヒルクライミングに基づいており、初期値の異なる複数回のトレーニングによってモデルを改善することが可能である。 本研究では,AdaBoostを用いた強化HMMと複数のランダム再起動を訓練したHMMを,マルウェア検出の文脈で比較した。 これらのテクニックは、さまざまな困難なマルウェアデータセットに適用される。 ランダムな再起動は、ブースティングと比べて驚くほどうまく機能する。 最も難しい"コールドスタート(cold start)"ケース(トレーニングデータが極めて制限されている)では、スコアリングフェーズで高い計算コストを正当化するための十分な改善が期待できる。

Effective and efficient malware detection is at the forefront of research into building secure digital systems. As with many other fields, malware detection research has seen a dramatic increase in the application of machine learning algorithms. One machine learning technique that has been used widely in the field of pattern matching in general-and malware detection in particular-is hidden Markov models (HMMs). HMM training is based on a hill climb, and hence we can often improve a model by training multiple times with different initial values. In this research, we compare boosted HMMs (using AdaBoost) to HMMs trained with multiple random restarts, in the context of malware detection. These techniques are applied to a variety of challenging malware datasets. We find that random restarts perform surprisingly well in comparison to boosting. Only in the most difficult "cold start" cases (where training data is severely limited) does boosting appear to offer sufficient improvement to justify its higher computational cost in the scoring phase.
翻訳日:2023-07-21 16:40:34 公開日:2023-07-17
# ウェルログ曲線合成のための効率的な選択的注意LSTM

Efficient selective attention LSTM for well log curve synthesis ( http://arxiv.org/abs/2307.10253v1 )

ライセンス: Link先を確認
Yuankai Zhou, Huanyu Li(参考訳) 非コア掘削は徐々に地質工学における主要な探査方法となり、地質情報の主要担体として伐採曲線の重要性が高まっている。 しかし, 地質環境, 伐採装置, ボーリングホール品質, 予期せぬ事象などの要因は, いずれも, 坑井伐採曲線の質に影響を与える可能性がある。 以前の再ログインや手作業による修正の方法は、高いコストと低い効率に関係している。 本稿では,既存のデータを用いて坑井の伐採曲線を推定する機械学習手法を提案し,その有効性と妥当性を実験により検証した。 提案手法は,データ空間依存性を分析する自己認識機構を組み込むことで,従来の長短期記憶(LSTM)ニューラルネットワーク上に構築する。 LSTMに支配的な計算結果を選択的に含み、計算複雑性をO(n^2)からO(nlogn)に低減し、モデル効率を向上させる。 実験の結果,提案手法はFCNNとLSTMに基づく従来の曲線合成法と比較して精度が高いことがわかった。 この正確で効率的でコスト効率の良い予測方法は、工学的応用において実用的な価値を持っている。

Non-core drilling has gradually become the primary exploration method in geological engineering, and well logging curves have increasingly gained importance as the main carriers of geological information. However, factors such as geological environment, logging equipment, borehole quality, and unexpected events can all impact the quality of well logging curves. Previous methods of re-logging or manual corrections have been associated with high costs and low efficiency. This paper proposes a machine learning method that utilizes existing data to predict missing well logging curves, and its effectiveness and feasibility have been validated through experiments. The proposed method builds upon the traditional Long Short-Term Memory (LSTM) neural network by incorporating a self-attention mechanism to analyze the spatial dependencies of the data. It selectively includes the dominant computational results in the LSTM, reducing the computational complexity from O(n^2) to O(nlogn) and improving model efficiency. Experimental results demonstrate that the proposed method achieves higher accuracy compared to traditional curve synthesis methods based on Fully Connected Neural Networks (FCNN) and LSTM. This accurate, efficient, and cost-effective prediction method holds practical value in engineering applications.
翻訳日:2023-07-21 16:39:57 公開日:2023-07-17
# 帰属攻撃における低レベル攻撃パターンに対するサイバー脅威アクタのハイレベル攻撃パターンの機械学習による実証評価

A Machine Learning based Empirical Evaluation of Cyber Threat Actors High Level Attack Patterns over Low level Attack Patterns in Attributing Attacks ( http://arxiv.org/abs/2307.10252v1 )

ライセンス: Link先を確認
Umara Noor, Sawera Shahid, Rimsha Kanwal, Zahid Rashid(参考訳) サイバー脅威の帰属は、サイバースペースにおける攻撃事件の犯人を特定する過程である。 正確でタイムリーな脅威の帰属は、適切な、タイムリーな防御機構を適用することによって将来の攻撃を抑止する上で重要な役割を果たす。 ハニーポットの展開、侵入検知システム、ファイアウォール、およびトレースバック手順によって収集された攻撃パターンの手動分析は、依然としてサイバー脅威の帰属に対するセキュリティ分析の好適な方法である。 このような攻撃パターンは、妥協の低レベル指標(IOC)である。 彼らは戦術、技術、手続き(TTP)、および敵がキャンペーンで使用するソフトウェアツールを表現している。 敵が再使用することは滅多にない。 それらは操作も可能で、結果として偽りや不公平な帰属が生じる。 両種のIOCの有効性を実証的に評価し,比較するためには,対処すべき問題が2つある。 第1の問題は、最近の研究において、サイバー脅威の帰属に対する低レベルのIOCの非効率性が直感的に議論されていることである。 実世界のデータセットに基づく低レベルIOCの有効性の測定のための実証的評価が欠落している。 第2の問題は、高レベルのIOCで利用可能なデータセットが、マシンラーニングモデルのトレーニングに直接使用できない予測クラスラベル毎に単一のインスタンスを持つことだ。 本研究では,これらの課題に対処するために,高次IOCとの比較分析のために構築された実世界のデータセットに基づいて,低次IOCの有効性を実証的に評価する。 実験の結果,高レベルのIOCトレーニングモデルでは,精度が40%の低レベルのIOCトレーニングモデルと比較して,95%の精度でサイバー攻撃を効果的に評価した。

Cyber threat attribution is the process of identifying the actor of an attack incident in cyberspace. An accurate and timely threat attribution plays an important role in deterring future attacks by applying appropriate and timely defense mechanisms. Manual analysis of attack patterns gathered by honeypot deployments, intrusion detection systems, firewalls, and via trace-back procedures is still the preferred method of security analysts for cyber threat attribution. Such attack patterns are low-level Indicators of Compromise (IOC). They represent Tactics, Techniques, Procedures (TTP), and software tools used by the adversaries in their campaigns. The adversaries rarely re-use them. They can also be manipulated, resulting in false and unfair attribution. To empirically evaluate and compare the effectiveness of both kinds of IOC, there are two problems that need to be addressed. The first problem is that in recent research works, the ineffectiveness of low-level IOC for cyber threat attribution has been discussed intuitively. An empirical evaluation for the measure of the effectiveness of low-level IOC based on a real-world dataset is missing. The second problem is that the available dataset for high-level IOC has a single instance for each predictive class label that cannot be used directly for training machine learning models. To address these problems in this research work, we empirically evaluate the effectiveness of low-level IOC based on a real-world dataset that is specifically built for comparative analysis with high-level IOC. The experimental results show that the high-level IOC trained models effectively attribute cyberattacks with an accuracy of 95% as compared to the low-level IOC trained models where accuracy is 40%.
翻訳日:2023-07-21 16:39:38 公開日:2023-07-17
# GPT-4言語モデルによる帰納的推論:刑事調査、医療実践、科学研究の事例研究

Abductive Reasoning with the GPT-4 Language Model: Case studies from criminal investigation, medical practice, scientific research ( http://arxiv.org/abs/2307.10250v1 )

ライセンス: Link先を確認
Remo Pareschi(参考訳) 本研究は,医学診断,犯罪学,宇宙論などの複雑な分野におけるGPT-4大言語モデルの帰納的推論を評価する。 対話型のインタビューフォーマットを使用して、AIアシスタントは仮説の生成と選択の信頼性を示した。 患者データに基づいてプラウシブルな診断を推測し、犯罪学や宇宙論の潜在的な原因と説明を提供した。 その結果、複雑な問題解決におけるLLMの可能性と、実用性を最大化するためのさらなる研究の必要性を強調した。

This study evaluates the GPT-4 Large Language Model's abductive reasoning in complex fields like medical diagnostics, criminology, and cosmology. Using an interactive interview format, the AI assistant demonstrated reliability in generating and selecting hypotheses. It inferred plausible medical diagnoses based on patient data and provided potential causes and explanations in criminology and cosmology. The results highlight the potential of LLMs in complex problem-solving and the need for further research to maximize their practical applications.
翻訳日:2023-07-21 16:39:13 公開日:2023-07-17
# RCM融合:3次元物体検出のためのレーダーカメラ多層核融合

RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection ( http://arxiv.org/abs/2307.10249v1 )

ライセンス: Link先を確認
Jisong Kim, Minjae Seong, Geonho Bang, Dongsuk Kum, Jun Won Choi(参考訳) LiDARセンサーは3Dオブジェクト検出に精力的に応用されているが、レーダーとカメラセンサーの可利用性は、融合レーダーと3Dオブジェクト検出のためのカメラへの関心を高めている。 しかし, 従来のレーダカメラ融合モデルでは, カメラの特徴のみに基づいて初期3次元提案が生成され, インスタンスレベルの融合が実施されるなど, レーダ情報を十分に活用できなかった。 本稿では,レーダー情報を完全に活用するために,機能レベルとインスタンスレベルの両方でレーダとカメラのモードを融合するレーダ・カメラ・マルチレベル融合(rcm-fusion)を提案する。 機能レベルでは、レーダバードのEye-View(BEV)機能を利用して、画像特徴を正確なBEV表現に変換し、レーダとカメラのBEV機能を適応的に組み合わせたRadar Guided BEV Encoderを提案する。 実例レベルでは,レーダ点雲の特性を考慮し,局所化誤差を低減できるレーダ格子点微細化モジュールを提案する。 公開nuScenesデータセットを用いて行った実験により,提案したRCM-Fusionは,カメラのみのベースラインモデルよりも11.8%の性能向上を実現し,nuScenes 3Dオブジェクト検出ベンチマークにおけるレーダカメラ融合手法の最先端化を実現した。 コードは公開される予定だ。

While LiDAR sensors have been succesfully applied to 3D object detection, the affordability of radar and camera sensors has led to a growing interest in fusiong radars and cameras for 3D object detection. However, previous radar-camera fusion models have not been able to fully utilize radar information in that initial 3D proposals were generated based on the camera features only and the instance-level fusion is subsequently conducted. In this paper, we propose radar-camera multi-level fusion (RCM-Fusion), which fuses radar and camera modalities at both the feature-level and instance-level to fully utilize radar information. At the feature-level, we propose a Radar Guided BEV Encoder which utilizes radar Bird's-Eye-View (BEV) features to transform image features into precise BEV representations and then adaptively combines the radar and camera BEV features. At the instance-level, we propose a Radar Grid Point Refinement module that reduces localization error by considering the characteristics of the radar point clouds. The experiments conducted on the public nuScenes dataset demonstrate that our proposed RCM-Fusion offers 11.8% performance gain in nuScenes detection score (NDS) over the camera-only baseline model and achieves state-of-the-art performaces among radar-camera fusion methods in the nuScenes 3D object detection benchmark. Code will be made publicly available.
翻訳日:2023-07-21 16:39:04 公開日:2023-07-17
# ナラティブテキストからの自動行動モデル獲得

Automated Action Model Acquisition from Narrative Texts ( http://arxiv.org/abs/2307.10247v1 )

ライセンス: Link先を確認
Ruiqi Li, Leyang Cui, Songtuan Lin, Patrik Haslum(参考訳) プレコンディション/エフェクトの公理の形をとるアクションモデルは、AIエージェントのアクション間の因果関係と動機関係を促進する。 行動モデル取得は、特に物語計画における計画技術の応用におけるボトルネックとして認識されている。 物語テキストから自動でアクションモデルを取得することは不可欠であるが、そのようなテキスト固有の複雑さのために困難である。 本稿では,ナラティブテキストから構造化イベントを抽出し,その後,コモンセンスイベント関係の予測に基づく計画言語形式の行動モデルを生成するシステムであるナルトについて,教師なしの方法で述べる。 古典的な物語計画領域における実験結果は、NaRutoが既存の完全自動化手法よりもはるかに優れた品質のアクションモデルを生成することができることを示している。

Action models, which take the form of precondition/effect axioms, facilitate causal and motivational connections between actions for AI agents. Action model acquisition has been identified as a bottleneck in the application of planning technology, especially within narrative planning. Acquiring action models from narrative texts in an automated way is essential, but challenging because of the inherent complexities of such texts. We present NaRuto, a system that extracts structured events from narrative text and subsequently generates planning-language-style action models based on predictions of commonsense event relations, as well as textual contradictions and similarities, in an unsupervised manner. Experimental results in classical narrative planning domains show that NaRuto can generate action models of significantly better quality than existing fully automated methods, and even on par with those of semi-automated methods.
翻訳日:2023-07-21 16:38:36 公開日:2023-07-17
# ディープニューラルネットワークと脳アライメント:脳のエンコーディングとデコーディング(サーベイ)

Deep Neural Networks and Brain Alignment: Brain Encoding and Decoding (Survey) ( http://arxiv.org/abs/2307.10246v1 )

ライセンス: Link先を確認
Subba Reddy Oota, Manish Gupta, Raju S. Bapi, Gael Jobard, Frederic Alexandre, Xavier Hinaut(参考訳) 脳はどのように異なる種類の情報を表現するのか? ユーザが何を考えているかを自動的に理解するシステムを設計できるだろうか? このような疑問は、機能的磁気共鳴画像(fMRI)のような脳の記録を研究することで答えることができる。 最初のステップとして、神経科学コミュニティは、概念語、物語、写真、映画の受動的読解/視聴に関連する、いくつかの大きな認知神経科学データセットに貢献している。 これらのデータセットを用いたエンコーディングとデコードモデルも過去20年間で提案されている。 これらのモデルは認知科学と神経科学の基礎研究のための追加のツールとして機能する。 エンコーディングモデルは、刺激が与えられたfmri脳の表現を自動的に生成することを目指している。 神経疾患の評価と診断にいくつかの実用的な応用があり、脳損傷の治療の設計にも役立つ。 デコードモデルは、fMRIが与えられた刺激を再構成する逆問題を解決する。 脳-機械または脳-コンピュータインタフェースの設計に有用である。 近年,自然言語処理,コンピュータビジョン,音声に対するディープラーニングモデルの有効性に触発されて,ニューラルエンコーディングや復号化モデルが提案されている。 本稿ではまず,言語,視覚,音声刺激の一般的な表現について論じ,神経科学データセットの概要を紹介する。 さらに、一般的なディープラーニングベースのエンコーディングとデコードアーキテクチャをレビューし、そのメリットと限界について注目する。 最後に,今後のトレンドに関する概要と議論をまとめる。 最近『計算的認知神経科学』コミュニティで発表された膨大な研究を踏まえると、この調査はたくさんの仕事をうまく整理し、コヒーレントなストーリーとして提示していると信じている。

How does the brain represent different modes of information? Can we design a system that automatically understands what the user is thinking? Such questions can be answered by studying brain recordings like functional magnetic resonance imaging (fMRI). As a first step, the neuroscience community has contributed several large cognitive neuroscience datasets related to passive reading/listening/viewing of concept words, narratives, pictures and movies. Encoding and decoding models using these datasets have also been proposed in the past two decades. These models serve as additional tools for basic research in cognitive science and neuroscience. Encoding models aim at generating fMRI brain representations given a stimulus automatically. They have several practical applications in evaluating and diagnosing neurological conditions and thus also help design therapies for brain damage. Decoding models solve the inverse problem of reconstructing the stimuli given the fMRI. They are useful for designing brain-machine or brain-computer interfaces. Inspired by the effectiveness of deep learning models for natural language processing, computer vision, and speech, recently several neural encoding and decoding models have been proposed. In this survey, we will first discuss popular representations of language, vision and speech stimuli, and present a summary of neuroscience datasets. Further, we will review popular deep learning based encoding and decoding architectures and note their benefits and limitations. Finally, we will conclude with a brief summary and discussion about future trends. Given the large amount of recently published work in the `computational cognitive neuroscience' community, we believe that this survey nicely organizes the plethora of work and presents it as a coherent story.
翻訳日:2023-07-21 16:38:20 公開日:2023-07-17
# ハードウェアエラーに対する深部勧告システムのロバスト性評価と改善

Evaluating and Enhancing Robustness of Deep Recommendation Systems Against Hardware Errors ( http://arxiv.org/abs/2307.10244v1 )

ライセンス: Link先を確認
Dongning Ma, Xun Jiao, Fred Lin, Mengshi Zhang, Alban Desmaison, Thomas Sellinger, Daniel Moore, Sriram Sankar(参考訳) ディープレコメンデーションシステム(DRS)は、エネルギー、効率、レコメンデーション品質を最適化するために、特別なHPCハードウェアとアクセラレーターに大きく依存している。 DRSが配備される大規模艦隊システムで観測されるハードウェアエラーの増加にもかかわらず、DSSの堅牢性はほとんど見過ごされている。 本稿では,ハードウェアエラーに対するdrsのロバスト性に関する最初の体系的研究を行う。 我々は、広く使われているPyTorchの上に、ユーザフレンドリーで効率的で柔軟なエラー注入フレームワークであるTerrorchを開発した。 我々は、幅広いモデルとデータセットを評価し、ハードウェアエラーに対するDSSの堅牢性は、モデルパラメータから入力特性まで様々な要因に影響されていることを観察する。 また,アルゴリズムベースの耐障害性 (ABFT) やアクティベーションクリッピング,選択的ビット保護 (SBP) を含む3つのエラー軽減手法についても検討する。 その結果,アクティベーションクリッピングを施すことで,AUC-ROCスコアの最大30%を回復できることがわかった。

Deep recommendation systems (DRS) heavily depend on specialized HPC hardware and accelerators to optimize energy, efficiency, and recommendation quality. Despite the growing number of hardware errors observed in large-scale fleet systems where DRS are deployed, the robustness of DRS has been largely overlooked. This paper presents the first systematic study of DRS robustness against hardware errors. We develop Terrorch, a user-friendly, efficient and flexible error injection framework on top of the widely-used PyTorch. We evaluate a wide range of models and datasets and observe that the DRS robustness against hardware errors is influenced by various factors from model parameters to input characteristics. We also explore 3 error mitigation methods including algorithm based fault tolerance (ABFT), activation clipping and selective bit protection (SBP). We find that applying activation clipping can recover up to 30% of the degraded AUC-ROC score, making it a promising mitigation method.
翻訳日:2023-07-21 16:37:56 公開日:2023-07-17
# デコヒーレント歴史のエントロピーによる量子カオスの探索

Probing quantum chaos with the entropy of decoherent histories ( http://arxiv.org/abs/2307.10269v1 )

ライセンス: Link先を確認
Evgeny Polyakov, Nataliya Arefyeva(参考訳) 量子カオス(quantum chaos)は、前世紀に研究され始めた現象だが、いまだに厳密な理解を持っていない。 対応原理により、古典的なレベルでカオス力学をもたらす系の性質は、基礎となる量子系にも存在しなければならない。 古典的な場合、近傍の軌道の時間における指数的発散は、リアプノフ指数を用いて記述される。 しかし、量子の場合、同様のカオスの記述は、軌道がないため厳密には不可能である。 この状況を治療するには異なるアプローチがあるが、量子カオスの普遍的基準は欠落している。 量子カオス定義は, 軌道の量子アナログとしてデコヒーレント・ヒストリーを用いた古典的カオス定義と類似している。 この目的のために、ボゾン浴である環境と相互作用するオープン量子キックトップのモデルを検討し、そのアイデアを解説する。 ここでの環境は軌道記録装置の役割を担う。 キック強度に応じて古典的なレベルのキックトップモデルには、統合可能とカオス的レジームの交差がある。 このようなモデルでは, 可積分系とカオス系では, エントロピーの生成が根本的に異なることが示されている。 したがって、量子軌道のアンサンブルのエントロピーは量子カオスのシグネチャとして使うことができる。

Quantum chaos, a phenomenon that began to be studied in the last century, still does not have a rigorous understanding. By virtue of the correspondence principle, the properties of the system that lead to chaotic dynamics at the classical level must also be present in the underlying quantum system. In the classical case, the exponential divergence of nearby trajectories in time is described in terms of the Lyapunov exponent. However, in the quantum case, a similar description of chaos is strictly speaking impossible due to absence of trajectories. There are different approaches to remedy this situation, but the universal criterium of quantum chaos is absent. We propose the quantum chaos definition in the manner similar to classical one using decoherent histories as a quantum analog of trajectories. For this purpose we consider the model of open quantum kicked top interacting with environment, which is bosonic bath and illustrate this idea on it. Here environment plays the role of trajectory recording device. For kicked top model on classical level depending on the kick strength there is crossover between integrable and chaotic regimes. We show that for such a model the production of entropy of decoherent histories is radically different in the integrable and chaotic regimes. Thus, the entropy of an ensemble of quantum trajectories can be used as a signature of quantum chaos.
翻訳日:2023-07-21 16:27:30 公開日:2023-07-17
# 野生におけるアブラムシクラスタのリアルタイムセマンティクスセグメンテーションについて

On the Real-Time Semantic Segmentation of Aphid Clusters in the Wild ( http://arxiv.org/abs/2307.10267v1 )

ライセンス: Link先を確認
Raiyan Rahman, Christopher Indris, Tianxiao Zhang, Kaidong Li, Brian McCornack, Daniel Flippo, Ajay Sharda, Guanghui Wang(参考訳) アブラムシの寄生は小麦やソルガム畑に大きな被害を与え、植物ウイルスを拡散させ、農業でかなりの収量を失う。 この問題に対処するため、農夫はしばしば化学殺虫剤を頼りにしており、これは広大な畑で非効率に適用される。 その結果、害虫がいない地域ではかなりの量の農薬が消費され、深刻な流行のある地域では不適切な量の農薬が使用される。 この論文は、複雑な作物のキャノピー内で感染を発見・散布し、農薬の使用と環境への影響を低減できるインテリジェントな自律システムの必要性に焦点を当てている。 我々は,フィールド内に大規模なアフィド画像データセットを収集・ラベル付けし,アフィドのクラスタをセグメント化するリアルタイム意味セグメンテーションモデルを提案する。 クラスタをさまざまなスケールで学習するために、マルチスケールデータセットが生成される。 aphidクラスタデータセット上の4つの最先端セマンティックセグメンテーションモデルのセグメンテーション速度と精度を比較し、非リアルタイムモデルと比較した。 本研究は,不効率な農薬使用を低減し,収穫量を増加させるリアルタイムソリューションの有効性を示し,自律的害虫検出システムへの道を開く。

Aphid infestations can cause extensive damage to wheat and sorghum fields and spread plant viruses, resulting in significant yield losses in agriculture. To address this issue, farmers often rely on chemical pesticides, which are inefficiently applied over large areas of fields. As a result, a considerable amount of pesticide is wasted on areas without pests, while inadequate amounts are applied to areas with severe infestations. The paper focuses on the urgent need for an intelligent autonomous system that can locate and spray infestations within complex crop canopies, reducing pesticide use and environmental impact. We have collected and labeled a large aphid image dataset in the field, and propose the use of real-time semantic segmentation models to segment clusters of aphids. A multiscale dataset is generated to allow for learning the clusters at different scales. We compare the segmentation speeds and accuracy of four state-of-the-art real-time semantic segmentation models on the aphid cluster dataset, benchmarking them against nonreal-time models. The study results show the effectiveness of a real-time solution, which can reduce inefficient pesticide use and increase crop yields, paving the way towards an autonomous pest detection system.
翻訳日:2023-07-21 16:27:12 公開日:2023-07-17
# 深部ニューラルネットワーク検証のためのDPLL(T)フレームワーク

A DPLL(T) Framework for Verifying Deep Neural Networks ( http://arxiv.org/abs/2307.10266v1 )

ライセンス: Link先を確認
Hai Duong, Linhan Li, ThanhVu Nguyen, Matthew Dwyer(参考訳) Deep Neural Networks (DNN)は、現実世界の問題を解決する効果的なアプローチとして登場した。 しかし、人書きのソフトウェアのように、自動生成されたDNNにはバグがあり、攻撃を受けることができる。 これにより、効果的でスケーラブルなDNN検証技術やツールの開発において、近年多くの関心を集めている。 本稿では,DNN検証に対する新しい制約解決手法であるNeuralSATを紹介する。 NeuralSATの設計は、(矛盾した)節の学習、抽象化、理論解を含む現代のSMT解決法であるDPLL(T)アルゴリズムに従っており、したがってNeuralSATはDNNのSMTフレームワークとみなすことができる。 予備的な結果は、NeuralSATのプロトタイプが最先端技術と競合していることを示している。 我々は、適切な最適化とエンジニアリングにより、最新のSAT/SMTソルバのパワーと成功をDNN検証にもたらすことを願っている。 NeuralSAT は https://github.com/dynaroars/neuralsat-solver

Deep Neural Networks (DNNs) have emerged as an effective approach to tackling real-world problems. However, like human-written software, automatically-generated DNNs can have bugs and be attacked. This thus attracts many recent interests in developing effective and scalable DNN verification techniques and tools. In this work, we introduce a NeuralSAT, a new constraint solving approach to DNN verification. The design of NeuralSAT follows the DPLL(T) algorithm used modern SMT solving, which includes (conflict) clause learning, abstraction, and theory solving, and thus NeuralSAT can be considered as an SMT framework for DNNs. Preliminary results show that the NeuralSAT prototype is competitive to the state-of-the-art. We hope, with proper optimization and engineering, NeuralSAT will carry the power and success of modern SAT/SMT solvers to DNN verification. NeuralSAT is avaliable from: https://github.com/dynaroars/neuralsat-solver
翻訳日:2023-07-21 16:26:47 公開日:2023-07-17
# AIによる研究の強化:科学がAIから恩恵を受ける10の方法

AI empowering research: 10 ways how science can benefit from AI ( http://arxiv.org/abs/2307.10265v1 )

ライセンス: Link先を確認
C\'esar Fran\c{c}a(参考訳) 本稿では,人工知能(AI)が科学的研究に与える影響について考察する。 強力な参照ツール、研究問題の理解の改善、研究質問生成の改善、最適化された研究設計、スタブデータ生成、データ変換、高度なデータ分析、AI支援レポートなど、AIが科学者の仕事に革命をもたらす10の方法を強調している。 AIには数多くのメリットがあるが、バイアスやプライバシの懸念、人間とAIのコラボレーションの必要性といった課題を考慮する必要がある。 記事は、AIは人間の創造性を科学で強化するが、それを置き換えることはできない、と強調している。

This article explores the transformative impact of artificial intelligence (AI) on scientific research. It highlights ten ways in which AI is revolutionizing the work of scientists, including powerful referencing tools, improved understanding of research problems, enhanced research question generation, optimized research design, stub data generation, data transformation, advanced data analysis, and AI-assisted reporting. While AI offers numerous benefits, challenges such as bias, privacy concerns, and the need for human-AI collaboration must be considered. The article emphasizes that AI can augment human creativity in science but not replace it.
翻訳日:2023-07-21 16:26:33 公開日:2023-07-17
# 境界散逸横場イジングモデルの厳密解:リウヴィリアスペクトルの構造と動的双対性

Exact solution of the boundary-dissipated transverse field Ising model: Structure of Liouvillian spectrum and dynamical duality ( http://arxiv.org/abs/2212.04785v2 )

ライセンス: Link先を確認
Zhen-Yu Zheng, Xueliang Wang, Shu Chen(参考訳) リンドブラッド・マスター方程式によって記述された境界散逸横場イジングモデルを研究し、パラメータ空間全体のリウビリアンスペクトルを正確に解く。 パリティ制約の下で虚数境界ポテンシャルを持つSu-Schrieffer-Heegerモデルにリウヴィリアンをマッピングすることにより、ラピダリティスペクトルを解析的に解き、パリティ制約条件で厳密にリウヴィリアンスペクトルを構成する。 以上の結果から,Louvilianスペクトルは4つの異なる構造を示し,それぞれ異なるセグメント数で特徴付けられることがわかった。 急速スペクトルの性質を解析することにより、異なるスペクトル構造間の位相境界を解析的に決定し、弱および強散逸領域における双対関係を満たすリウヴィリアギャップを証明できる。 さらに, 動的双対性の存在, すなわち, 長期緩和ダイナミクスは, 双対関係が真である限り, 弱く強い散逸領域において, ほとんど同じ動的挙動を示す。

We study the boundary-dissipated transverse field Ising model described by a Lindblad Master equation and exactly solve its Liouvillian spectrum in the whole parameter space. By mapping the Liouvillian into a Su-Schrieffer-Heeger model with imaginary boundary potentials under a parity constraint, we solve the rapidity spectrum analytically and thus construct the Liouvillian spectrum strictly with a parity constraint condition. Our results demonstrate that the Liouvillian spectrum displays four different structures, which are characterized by different numbers of segments. By analyzing the properties of rapidity spectrum, we can determine the phase boundaries between different spectrum structures analytically and prove the Liouvillian gap fulfilling a duality relation in the weak and strong dissipation region. Furthermore, we unveil the existence of a dynamical duality, i.e., the long-time relaxation dynamics exhibits almost the same dynamical behavior in the weak and strong dissipation region as long as the duality relation holds true.
翻訳日:2023-07-20 17:53:37 公開日:2023-07-17
# Few-Shot Regimeにおける小物体検出のための交差点再考

Rethinking Intersection Over Union for Small Object Detection in Few-Shot Regime ( http://arxiv.org/abs/2307.09562v1 )

ライセンス: Link先を確認
Pierre Le Jeune, Anissa Mokraoui(参考訳) Few-Shot Object Detection (FSOD)では、小さな物体を検出することは極めて困難である。 限られた監督によってモデルの局所化能力が損なわれ、数ピクセルのシフトによって、接地真理と小物体の予測ボックスの間のIoU(Intersection over Union)が劇的に減少する。 そこで我々は,新しいボックス類似度尺度であるSIoU(Scale-Adaptive Intersection over Union)を提案する。 SIoUはオブジェクトのサイズによって変化し、小さなオブジェクトシフトでより寛大になる。 ユーザスタディとSIoUは,IoUと人的判断の整合性を比較検討した。 評価基準としてSIoUを採用することは、より多くのユーザ指向モデルを構築するのに役立つ。 siouは、トレーニング中に小さなオブジェクトを優先順位付けし、既存の損失関数を上回るロス関数としても使用できる。 siouは非ショット方式で小さなオブジェクト検出を改善しているが、アノテーション付き検出データセットが取得するには高価すぎるため、この設定は業界では非現実的である。 したがって,本実験は,SIoU損失の優越性と多目的性を示すため,数発体制に重点を置いている。 SIoUは、自然(パスカルVOCとCOCOデータセット)と空中画像(DOTAとDIOR)の小さなオブジェクトでのFSOD性能を大幅に改善する。 空中画像では、小さな物体が重要であり、SIoU損失はDOTAおよびDIOR上の新しい最先端のFSODを達成する。

In Few-Shot Object Detection (FSOD), detecting small objects is extremely difficult. The limited supervision cripples the localization capabilities of the models and a few pixels shift can dramatically reduce the Intersection over Union (IoU) between the ground truth and predicted boxes for small objects. To this end, we propose Scale-adaptive Intersection over Union (SIoU), a novel box similarity measure. SIoU changes with the objects' size, it is more lenient with small object shifts. We conducted a user study and SIoU better aligns than IoU with human judgment. Employing SIoU as an evaluation criterion helps to build more user-oriented models. SIoU can also be used as a loss function to prioritize small objects during training, outperforming existing loss functions. SIoU improves small object detection in the non-few-shot regime, but this setting is unrealistic in the industry as annotated detection datasets are often too expensive to acquire. Hence, our experiments mainly focus on the few-shot regime to demonstrate the superiority and versatility of SIoU loss. SIoU improves significantly FSOD performance on small objects in both natural (Pascal VOC and COCO datasets) and aerial images (DOTA and DIOR). In aerial imagery, small objects are critical and SIoU loss achieves new state-of-the-art FSOD on DOTA and DIOR.
翻訳日:2023-07-20 16:15:29 公開日:2023-07-17
# Quarl: 学習型量子回路最適化器

Quarl: A Learning-Based Quantum Circuit Optimizer ( http://arxiv.org/abs/2307.10120v1 )

ライセンス: Link先を確認
Zikun Li, Jinjun Peng, Yixuan Mei, Sina Lin, Yi Wu, Oded Padon, Zhihao Jia(参考訳) 量子回路の最適化は、機能的に等価な回路の非常に大きな探索空間と、最終的な性能改善を達成するために一時的に性能を低下させる変換を適用する必要性のために困難である。 本稿では,学習型量子回路最適化器quarlを提案する。 量子回路最適化への強化学習(RL)の適用は、大きく変化するアクション空間と、一様でない状態表現という2つの大きな課題を提起する。 Quarlは、新しいニューラルアーキテクチャとRLトレーニング手順でこれらの問題に対処する。 我々のニューラルアーキテクチャは、アクション空間を2つの部分に分解し、その状態表現においてグラフニューラルネットワークを活用する。 評価の結果,Quarlの回路最適化性能は,ほぼすべてのベンチマーク回路で大幅に向上した。 驚くべきことに、Quarlは既存のオプティマイザの別パスとして実装された複雑で非局所的な回路最適化であるローテーションマージを実行することができる。

Optimizing quantum circuits is challenging due to the very large search space of functionally equivalent circuits and the necessity of applying transformations that temporarily decrease performance to achieve a final performance improvement. This paper presents Quarl, a learning-based quantum circuit optimizer. Applying reinforcement learning (RL) to quantum circuit optimization raises two main challenges: the large and varying action space and the non-uniform state representation. Quarl addresses these issues with a novel neural architecture and RL-training procedure. Our neural architecture decomposes the action space into two parts and leverages graph neural networks in its state representation, both of which are guided by the intuition that optimization decisions can be mostly guided by local reasoning while allowing global circuit-wide reasoning. Our evaluation shows that Quarl significantly outperforms existing circuit optimizers on almost all benchmark circuits. Surprisingly, Quarl can learn to perform rotation merging, a complex, non-local circuit optimization implemented as a separate pass in existing optimizers.
翻訳日:2023-07-20 13:19:13 公開日:2023-07-17
# オンラインオブザーバによる逆強化学習

Online Observer-Based Inverse Reinforcement Learning ( http://arxiv.org/abs/2011.02057v3 )

ライセンス: Link先を確認
Ryan Self, Kevin Coleman, He Bai, Rushikesh Kamalapurkar(参考訳) 本稿では,2次コスト関数を持つ線形システムに対して,IRL問題を状態推定問題としてキャストすることで,出力フィードバック逆強化学習(IRL)問題に対する新しいアプローチを開発した。 従来の状態推定を履歴スタックで再利用する新しいオブザーバ手法を含む,IRLのための2つのオブザーバベースの技術を開発した。 収束と堅牢性の理論的保証は適切な励起条件下で確立される。 ノイズフリー・ノイズフリー測定における観測器とフィルタの性能をシミュレーションにより検証した。

In this paper, a novel approach to the output-feedback inverse reinforcement learning (IRL) problem is developed by casting the IRL problem, for linear systems with quadratic cost functions, as a state estimation problem. Two observer-based techniques for IRL are developed, including a novel observer method that re-uses previous state estimates via history stacks. Theoretical guarantees for convergence and robustness are established under appropriate excitation conditions. Simulations demonstrate the performance of the developed observers and filters under noisy and noise-free measurements.
翻訳日:2023-07-19 20:02:03 公開日:2023-07-17
# rea,triple-entry accounting,blockchain:共有台帳システムへの収束パス

REA, Triple-Entry Accounting and Blockchain: Converging Paths to Shared Ledger Systems ( http://arxiv.org/abs/2005.07802v5 )

ライセンス: Link先を確認
Juan Ignacio Iba\~nez, Chris N. Bayer, Paolo Tasca, Jiahua Xu(参考訳) 単一の真実の源を提供する共有台帳システムの概念は、従来の帳簿記を疑問視している。 長期にわたる二重エントリーシステムの改善により、Resource-Event-Agent(REA)会計フレームワーク、トリプルエントリー会計(TEA)、ブロックチェーンなどのソリューションが進歩した。 しかし、今日までこれらの概念の歴史的発展は不安定である。 本稿では,共有台帳システムの系譜解析を行い,特にrea,tea,ブロックチェーンの開発を追跡する。 reaフレームワークが茶の分野における独立した研究の流れにどのように影響したか、そして、この相互作用がブロックチェーンにおける共有台帳システムの現状にどのように影響するかを示す。 そうすることで、私たちは、この開発に寄与する重要な個人の影響を明確に認識し、共通の誤解を正し、rea、tea、blockchainのパスが共有台帳システムの領域でどのように重複するかをマップします。

The concept of shared ledger systems offering a single source of truth has repeatedly called traditional bookkeeping into question. Improving upon the long-standing double-entry system, solutions such as the Resource-Event-Agent (REA) accounting framework, triple-entry accounting (TEA) and blockchain have been advanced. However, to date, the historical development of these concepts remains murky. This paper conducts a genealogical analysis of shared ledger systems, in particular tracing the development of REA, TEA and blockchain. We show how the REA framework has had a distinct influence on independent streams of research in the field of TEA, and how this interaction may be traced to the present incarnation of shared ledger systems in blockchain. In doing so, we duly acknowledge the influence of key individuals contributing to this development, correct common misconceptions and map out how the paths of REA, TEA and blockchain overlap in the realm of shared ledger systems.
翻訳日:2023-07-19 20:01:56 公開日:2023-07-17
# seasondepth: 複数の環境下でのクロスシーズン単眼深度予測データセットとベンチマーク

SeasonDepth: Cross-Season Monocular Depth Prediction Dataset and Benchmark under Multiple Environments ( http://arxiv.org/abs/2011.04408v7 )

ライセンス: Link先を確認
Hanjiang Hu, Baoquan Yang, Zhijian Qiao, Shiqi Liu, Jiacheng Zhu, Zuxin Liu, Wenhao Ding, Ding Zhao, Hesheng Wang(参考訳) 異なる環境は、長期的な自動運転のための屋外の堅牢な視覚認識にとって大きな課題であり、異なる環境における学習ベースのアルゴリズムの一般化は、まだ未解決の問題である。 単眼深度予測は近年よく研究されているが、例えば照明や季節の変化など、様々な環境における学習に基づく深度予測の堅牢性に焦点を当てた研究はほとんどない。 この目的のために,最初のクロスシーズン単眼深度予測データセットとベンチマークである seasondepth を導入し,異なる環境下での深さ推定性能のベンチマークを行った。 提案手法は,提案手法を応用した,最先端のオープンソースの教師付きおよび自己教師型深度予測手法である。 提案したデータセットの広範囲な実験的評価と、現在の自律運転データセットによるクロスデータセット評価により、複数の環境の影響に対する性能と堅牢性を質的かつ定量的に分析する。 また,我々の研究は,屋外視知覚の長期的ロバスト性と一般化に関するさらなる研究を促進できると信じている。 データセットはhttps://seasondepth.github.ioで、ベンチマークツールキットはhttps://github.com/ SeasonDepth/SeasonDepthで入手できる。

Different environments pose a great challenge to the outdoor robust visual perception for long-term autonomous driving, and the generalization of learning-based algorithms on different environments is still an open problem. Although monocular depth prediction has been well studied recently, few works focus on the robustness of learning-based depth prediction across different environments, e.g. changing illumination and seasons, owing to the lack of such a multi-environment real-world dataset and benchmark. To this end, the first cross-season monocular depth prediction dataset and benchmark, SeasonDepth, is introduced to benchmark the depth estimation performance under different environments. We investigate several state-of-the-art representative open-source supervised and self-supervised depth prediction methods using newly-formulated metrics. Through extensive experimental evaluation on the proposed dataset and cross-dataset evaluation with current autonomous driving datasets, the performance and robustness against the influence of multiple environments are analyzed qualitatively and quantitatively. We show that long-term monocular depth prediction is still challenging and believe our work can boost further research on the long-term robustness and generalization for outdoor visual perception. The dataset is available on https://seasondepth.github.io, and the benchmark toolkit is available on https://github.com/ SeasonDepth/SeasonDepth.
翻訳日:2023-07-19 19:54:07 公開日:2023-07-17
# 確率確率マップによる条件校正予測分布:銀河赤方偏移推定と確率予測への応用

Conditionally Calibrated Predictive Distributions by Probability-Probability Map: Application to Galaxy Redshift Estimation and Probabilistic Forecasting ( http://arxiv.org/abs/2205.14568v4 )

ライセンス: Link先を確認
Biprateep Dey and David Zhao and Jeffrey A. Newman and Brett H. Andrews and Rafael Izbicki and Ann B. Lee(参考訳) 不確実性定量化は、AIアルゴリズムの予測能力を評価するために重要である。 多くの研究は、予測分布 (PD) $F(y|\mathbf{x})$ を対象変数 $y \in \mathbb{R}$ とする複素入力特徴 $\mathbf{x} \in \mathcal{X}$ を記述することに費やされている。 しかし、オフ・ザ・シェルフPD(例えば、フローの正規化やベイズニューラルネットワーク)は、入力された$\mathbf{x}$が予測される確率と大きく異なる事象が発生する確率で条件キャリブレーションを欠くことが多い。 現在の校正法は、条件付きPDを十分に評価・実施していない。 本稿では、キャリブレーションデータから単一の確率確率マップを学習することにより、PD診断と再校正の両方に対処する手法である「texttt{Cal-PIT}」を提案する。 鍵となる考え方は、確率積分変換のスコアを$\mathbf{x}$に戻すことである。 推定回帰は、機能空間全体の条件付きカバレッジの解釈可能な診断を提供する。 同じ回帰関数は、不特定なPDをすべての$\mathbf{x}$に対して再校正されたPDに変形する。 我々は,修正された予測帯域(修正PDの副産物)を,オラクルバンドおよび合成データの最先端予測アルゴリズムと比較した。 また、2つのアプリケーションに対する結果も提供します。 (i)衛星画像の所定のシーケンスの確率的再キャスティング、及び (ii)撮像データによる銀河距離の条件密度推定(いわゆる測光赤方偏移推定)。 私たちのコードはPythonパッケージ https://github.com/lee-group-cmu/Cal-PIT として利用可能です。

Uncertainty quantification is crucial for assessing the predictive ability of AI algorithms. Much research has been devoted to describing the predictive distribution (PD) $F(y|\mathbf{x})$ of a target variable $y \in \mathbb{R}$ given complex input features $\mathbf{x} \in \mathcal{X}$. However, off-the-shelf PDs (from, e.g., normalizing flows and Bayesian neural networks) often lack conditional calibration with the probability of occurrence of an event given input $\mathbf{x}$ being significantly different from the predicted probability. Current calibration methods do not fully assess and enforce conditionally calibrated PDs. Here we propose \texttt{Cal-PIT}, a method that addresses both PD diagnostics and recalibration by learning a single probability-probability map from calibration data. The key idea is to regress probability integral transform scores against $\mathbf{x}$. The estimated regression provides interpretable diagnostics of conditional coverage across the feature space. The same regression function morphs the misspecified PD to a re-calibrated PD for all $\mathbf{x}$. We benchmark our corrected prediction bands (a by-product of corrected PDs) against oracle bands and state-of-the-art predictive inference algorithms for synthetic data. We also provide results for two applications: (i) probabilistic nowcasting given sequences of satellite images, and (ii) conditional density estimation of galaxy distances given imaging data (so-called photometric redshift estimation). Our code is available as a Python package https://github.com/lee-group-cmu/Cal-PIT .
翻訳日:2023-07-19 19:44:54 公開日:2023-07-17
# 異種時間アンサンブルの多解表現による熱需要予測

Heat Demand Forecasting with Multi-Resolutional Representation of Heterogeneous Temporal Ensemble ( http://arxiv.org/abs/2210.13108v2 )

ライセンス: Link先を確認
Adithya Ramachandran, Satyaki Chatterjee, Siming Bayer, Andreas Maier, Thorkil Flensmark(参考訳) 電力会社が直面する主要な課題の1つは、温室効果ガスの排出を最小限に抑えることである。 スマートメーターとスマートグリッドの出現は、負荷予測のような積極的な技術によって熱エネルギーの最適供給を実現する前例のない利点をもたらす。 本稿では,天気やホリデー/非ホリデーといった外因性変数を組み込む能力を備えたスカルグラムとして時系列を符号化したニューラルネットワークに基づく熱需要予測フレームワークを提案する。 その後、CNNを用いて、熱負荷のマルチステップ予測を行う。 最後に,提案手法をSARIMAXやLSTMといった最先端の手法と比較する。 振り返り実験による定量的結果は,提案フレームワークがデンマークから取得した実世界のデータを用いて,最先端のベースライン法を一貫して上回っていることを示している。 MAPEでは7.54%,RMSEでは417kWという最小誤差が,他の手法と比較して提案手法を用いて達成されている。

One of the primal challenges faced by utility companies is ensuring efficient supply with minimal greenhouse gas emissions. The advent of smart meters and smart grids provide an unprecedented advantage in realizing an optimised supply of thermal energies through proactive techniques such as load forecasting. In this paper, we propose a forecasting framework for heat demand based on neural networks where the time series are encoded as scalograms equipped with the capacity of embedding exogenous variables such as weather, and holiday/non-holiday. Subsequently, CNNs are utilized to predict the heat load multi-step ahead. Finally, the proposed framework is compared with other state-of-the-art methods, such as SARIMAX and LSTM. The quantitative results from retrospective experiments show that the proposed framework consistently outperforms the state-of-the-art baseline method with real-world data acquired from Denmark. A minimal mean error of 7.54% for MAPE and 417kW for RMSE is achieved with the proposed framework in comparison to all other methods.
翻訳日:2023-07-19 19:35:31 公開日:2023-07-17
# 多目的GFlowNets

Multi-Objective GFlowNets ( http://arxiv.org/abs/2210.12765v2 )

ライセンス: Link先を確認
Moksh Jain, Sharath Chandra Raparthy, Alex Hernandez-Garcia, Jarrid Rector-Brooks, Yoshua Bengio, Santiago Miret, Emmanuel Bengio(参考訳) 我々は多目的最適化の文脈で多様な候補を生成する問題について検討する。 創薬やマテリアルデザインのような機械学習の多くの応用において、目標は潜在的な対立する目標のセットを同時に最適化する候補を生成することである。 さらに、これらの目的は、しばしば関心の基盤となる性質の完全な評価であり、高価な下流評価のための複数の選択肢を持つ多様な候補を生成することが重要である。 GFlowNetsに基づいた多目的最適解を生成する新しい手法であるMOGFN(Multi-Objective GFlowNets)を提案する。 我々はMOGFNの2つの変種を紹介する。MOGFN-PCは、スカラー化関数で定義された独立サブプロブレムの族をモデル化し、報酬条件付きGFlowNetsとMOGFN-ALは、能動学習ループで取得関数で定義されたサブプロブレムの列を解く。 多様な合成およびベンチマークタスクに関する実験は,パレート性能の観点から提案手法の利点を示すとともに,本研究の主な貢献である候補の多様性の向上を図っている。

We study the problem of generating diverse candidates in the context of Multi-Objective Optimization. In many applications of machine learning such as drug discovery and material design, the goal is to generate candidates which simultaneously optimize a set of potentially conflicting objectives. Moreover, these objectives are often imperfect evaluations of some underlying property of interest, making it important to generate diverse candidates to have multiple options for expensive downstream evaluations. We propose Multi-Objective GFlowNets (MOGFNs), a novel method for generating diverse Pareto optimal solutions, based on GFlowNets. We introduce two variants of MOGFNs: MOGFN-PC, which models a family of independent sub-problems defined by a scalarization function, with reward-conditional GFlowNets, and MOGFN-AL, which solves a sequence of sub-problems defined by an acquisition function in an active learning loop. Our experiments on wide variety of synthetic and benchmark tasks demonstrate advantages of the proposed methods in terms of the Pareto performance and importantly, improved candidate diversity, which is the main contribution of this work.
翻訳日:2023-07-19 19:35:16 公開日:2023-07-17
# 希少事象による動的因果発見に向けて:非パラメトリック条件独立試験

Towards Dynamic Causal Discovery with Rare Events: A Nonparametric Conditional Independence Test ( http://arxiv.org/abs/2211.16596v5 )

ライセンス: Link先を確認
Chih-Yuan Chiu, Kshitij Kulkarni, Shankar Sastry(参考訳) 稀な事象に関連する因果現象は、危険に敏感な安全分析、事故解析と予防、極端な価値理論など、幅広い工学的問題にまたがる。 しかし、因果発見の現在の手法は、変数が最初に低確率の実現を経験したときにのみ現れる、動的環境におけるランダム変数間の因果関係を発見できないことが多い。 そこで本研究では, 時間不変力学系から収集されたデータに対して, 稀ではあるが連続的な事象が発生する新しい統計独立性テストを提案する。 特に,システム状態の重畳されたデータセットを,異なるタイミングで発生する前に構築するために,基礎となるデータの時間的不変性を利用する。 次に、再構成データに基づいて条件付き独立試験を設計する。 本手法の一貫性のために非漸近的なサンプル複雑性境界を提供し,caltrans performance measurement system (pems) から収集したインシデントデータを含む様々なシミュレーションおよび実世界のデータセットでその性能を検証する。 データセットと実験を含むコードは公開されている。

Causal phenomena associated with rare events occur across a wide range of engineering problems, such as risk-sensitive safety analysis, accident analysis and prevention, and extreme value theory. However, current methods for causal discovery are often unable to uncover causal links, between random variables in a dynamic setting, that manifest only when the variables first experience low-probability realizations. To address this issue, we introduce a novel statistical independence test on data collected from time-invariant dynamical systems in which rare but consequential events occur. In particular, we exploit the time-invariance of the underlying data to construct a superimposed dataset of the system state before rare events happen at different timesteps. We then design a conditional independence test on the reorganized data. We provide non-asymptotic sample complexity bounds for the consistency of our method, and validate its performance across various simulated and real-world datasets, including incident data collected from the Caltrans Performance Measurement System (PeMS). Code containing the datasets and experiments is publicly available.
翻訳日:2023-07-19 19:25:25 公開日:2023-07-17
# 内部リワード強化学習

Internally Rewarded Reinforcement Learning ( http://arxiv.org/abs/2302.00270v2 )

ライセンス: Link先を確認
Mengdi Li, Xufeng Zhao, Jae Hee Lee, Cornelius Weber, Stefan Wermter(参考訳) 本研究では,政策に依存し,協調的に最適化された判別器によって,政策学習の報奨信号を生成する強化学習問題のクラスについて検討する。 この方針と差別者間の相互依存は、未熟な差別者からの報酬信号が騒々しく、政策学習を阻害し、逆に過度に最適化された政策が差別者学習を妨げるため、不安定な学習プロセスにつながる。 我々はこの学習セットを,環境から直接は提供されず,判別者によっては \textit{internally rewarded reinforcement learning} (irrl) と呼ぶ。 本稿では、IRRLを公式に定式化し、IRRLに属する問題のクラスを示す。 本稿では,irrlにおける報酬関数の効果を理論的に導出し,経験的に解析し,これらの解析からクリップ型報酬関数を提案する。 実験結果から,提案する報酬関数は,報奨ノイズの影響を低減し,様々なタスクのベースラインと比較して,より高速に収束し,高いパフォーマンスが得られることを示した。

We study a class of reinforcement learning problems where the reward signals for policy learning are generated by a discriminator that is dependent on and jointly optimized with the policy. This interdependence between the policy and the discriminator leads to an unstable learning process because reward signals from an immature discriminator are noisy and impede policy learning, and conversely, an under-optimized policy impedes discriminator learning. We call this learning setting \textit{Internally Rewarded Reinforcement Learning} (IRRL) as the reward is not provided directly by the environment but \textit{internally} by the discriminator. In this paper, we formally formulate IRRL and present a class of problems that belong to IRRL. We theoretically derive and empirically analyze the effect of the reward function in IRRL and based on these analyses propose the clipped linear reward function. Experimental results show that the proposed reward function can consistently stabilize the training process by reducing the impact of reward noise, which leads to faster convergence and higher performance compared with baselines in diverse tasks.
翻訳日:2023-07-19 19:16:12 公開日:2023-07-17
# 自分のリスクで編集する - 分散シフトに対する編集モデルのロバスト性の評価

Edit at your own risk: evaluating the robustness of edited models to distribution shifts ( http://arxiv.org/abs/2303.00046v2 )

ライセンス: Link先を確認
Davis Brown, Charles Godfrey, Cody Nizinski, Jonathan Tu, Henry Kvinge(参考訳) より大型のモデルに対する現在のトレンドは、標準のトレーニング手順をはるかに高価な負担にしている。 このため、計算量的に安価で解釈可能なポストホックなモデル修正を可能にするモデル編集への関心が高まっている。 多くのモデル編集技術は有望であるが、編集モデルの特性に関する研究は検証精度の評価にほとんど制限されている。 編集モデルのロバスト性は重要だが、ほとんど未検討のトピックである。 本稿では,モデル編集がモデルの一般的なロバスト性に与える影響と,編集対象の特定の動作のロバスト性の両方を調査するために,ディープラーニングロバストネスの分野から最近開発された手法を用いる。 編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存する。 重み空間補間を用いた新しいモデル編集アルゴリズムである1層補間 (1-li) を導入し, 作業精度と汎用ロバスト性とのトレードオフを探索する。

The current trend toward ever-larger models makes standard retraining procedures an ever-more expensive burden. For this reason, there is growing interest in model editing, which enables computationally inexpensive, interpretable, post-hoc model modifications. While many model editing techniques are promising, research on the properties of edited models is largely limited to evaluation of validation accuracy. The robustness of edited models is an important and yet mostly unexplored topic. In this paper, we employ recently developed techniques from the field of deep learning robustness to investigate both how model editing affects the general robustness of a model, as well as the robustness of the specific behavior targeted by the edit. We find that edits tend to reduce general robustness, but that the degree of degradation depends on the editing algorithm and layers chosen. Motivated by these observations we introduce a new model editing algorithm, 1-layer interpolation (1-LI), which uses weight-space interpolation to navigate the trade-off between editing task accuracy and general robustness.
翻訳日:2023-07-19 19:06:00 公開日:2023-07-17
# マンモグラフィをスクリーニングする人工知能モデルの性能ギャップ --公正かつ解釈可能なモデルに向けて-

Performance Gaps of Artificial Intelligence Models Screening Mammography -- Towards Fair and Interpretable Models ( http://arxiv.org/abs/2305.04422v2 )

ライセンス: Link先を確認
Linglin Zhang, Beatrice Brown-Mulry, Vineela Nalla, InChan Hwang, Judy Wawira Gichoya, Aimilia Gastounioti, Imon Banerjee, Laleh Seyyed-Kalantari, MinJae Woo, Hari Trivedi(参考訳) 異常分類のための深層学習モデルは, スクリーニングマンモグラフィでは良好に機能するが, スクリーニングマンモグラムにおける異常分類の障害リスクの増加に伴う年齢層と画像特性はいまだに不明である。 2013年から2020年にかけて、エモリー大学医療センターで撮影された115,931人のマンモグラムを含むエモリー乳房画像データセット(embed)のデータを用いた。 臨床および画像データには、乳房画像報告・データシステム(BI-RADS)の評価、異常に対する関心座標の領域、画像の特徴、病理学的結果、および患者の人口統計が含まれる。 inceptionv3、vgg16、resnet50v2、resnet152v2を含むディープラーニングモデルを開発し、異常組織のパッチとランダムに選択された正常組織のパッチをスクリーニングマンモグラムから区別した。 トレーニング、検証、テストセットの分布は、10,678人(54.2%)の患者29,144人(55.6%)、9,910人(18.9%)の患者3,609人(18.3%)、13,390人(25.5%)の患者5,404人(27.5%)である。 年齢,人種,病理学的結果,画像的特徴によって定義されるサブグループ内でのモデル性能を評価し,誤分類の原因を評価する。 テストセットでは、正常組織と異常組織を分類するために訓練されたResNet152V2モデルが92.6%(95%CI=92.0-93.2%)、受信機操作特性曲線0.975(95%CI=0.972-0.978)の領域を達成した。 画像の誤分類に関連する画像の特徴としては、高次組織密度(リスク比 [RR]=1.649; p=.010, BI-RADS 密度 C と RR=2.026; p=.003, BI-RADS 密度 D)、構造歪み(RR=1.026; p<.001)がある。 成績は, 年齢, 人種, 病理所見, その他の画像所見(p<.001。

Even though deep learning models for abnormality classification can perform well in screening mammography, the demographic and imaging characteristics associated with increased risk of failure for abnormality classification in screening mammograms remain unclear. This retrospective study used data from the Emory BrEast Imaging Dataset (EMBED) including mammograms from 115,931 patients imaged at Emory University Healthcare between 2013 to 2020. Clinical and imaging data includes Breast Imaging Reporting and Data System (BI-RADS) assessment, region of interest coordinates for abnormalities, imaging features, pathologic outcomes, and patient demographics. Deep learning models including InceptionV3, VGG16, ResNet50V2, and ResNet152V2 were developed to distinguish between patches of abnormal tissue and randomly selected patches of normal tissue from the screening mammograms. The distributions of the training, validation and test sets are 29,144 (55.6%) patches of 10,678 (54.2%) patients, 9,910 (18.9%) patches of 3,609 (18.3%) patients, and 13,390 (25.5%) patches of 5,404 (27.5%) patients. We assessed model performance overall and within subgroups defined by age, race, pathologic outcome, and imaging characteristics to evaluate reasons for misclassifications. On the test set, a ResNet152V2 model trained to classify normal versus abnormal tissue patches achieved an accuracy of 92.6% (95%CI=92.0-93.2%), and area under the receiver operative characteristics curve 0.975 (95%CI=0.972-0.978). Imaging characteristics associated with higher misclassifications of images include higher tissue densities (risk ratio [RR]=1.649; p=.010, BI-RADS density C and RR=2.026; p=.003, BI-RADS density D), and presence of architectural distortion (RR=1.026; p<.001). Small but statistically significant differences in performance were observed by age, race, pathologic outcome, and other imaging features (p<.001).
翻訳日:2023-07-19 18:59:03 公開日:2023-07-17
# 医用画像におけるセグメンテーション

Segment Anything in Medical Images ( http://arxiv.org/abs/2304.12306v2 )

ライセンス: Link先を確認
Jun Ma, Yuting He, Feifei Li, Lin Han, Chenyu You, and Bo Wang(参考訳) 医療画像分割は臨床における重要な要素であり、正確な診断、治療計画、疾患のモニタリングが容易である。 しかし、現在の手法は主にカスタマイズされたモデルに依存しており、様々なタスクにまたがる汎用性は限られている。 本研究では,ユニバーサルな医用画像分割のための基礎モデルであるMedSAMについて述べる。 MedSAMは、100万以上の画像からなる精巧にキュレートされたデータセットのパワーを損なうだけでなく、既存の最先端セグメンテーション基盤モデルよりも優れています。 さらにメドサムは腫瘍負担定量化のための必須バイオマーカーの精密抽出を可能にする。 幅広いタスクにまたがって正確で効率的なセグメンテーションを提供することで、メドサムは診断ツールの進化と治療計画のパーソナライズを早める重要な可能性を秘めている。

Medical image segmentation is a critical component in clinical practice, facilitating accurate diagnosis, treatment planning, and disease monitoring. However, current methods predominantly rely on customized models, which exhibit limited generality across diverse tasks. In this study, we present MedSAM, the inaugural foundation model designed for universal medical image segmentation. Harnessing the power of a meticulously curated dataset comprising over one million images, MedSAM not only outperforms existing state-of-the-art segmentation foundation models, but also exhibits comparable or even superior performance to specialist models. Moreover, MedSAM enables the precise extraction of essential biomarkers for tumor burden quantification. By delivering accurate and efficient segmentation across a wide spectrum of tasks, MedSAM holds significant potential to expedite the evolution of diagnostic tools and the personalization of treatment plans.
翻訳日:2023-07-19 18:57:27 公開日:2023-07-17
# 確率的専門家による医用画像分割のための暗黙的解剖レンダリング

Implicit Anatomical Rendering for Medical Image Segmentation with Stochastic Experts ( http://arxiv.org/abs/2304.03209v2 )

ライセンス: Link先を確認
Chenyu You, Weicheng Dai, Yifei Min, Lawrence Staib, James S. Duncan(参考訳) 高レベル意味的関連コンテンツと低レベルの解剖学的特徴の統合は、医用画像のセグメンテーションにおいて重要となる。 この目的のために,近年の深層学習に基づく医学的セグメンテーション手法は,そのような情報をモデル化する上で大きな可能性を示している。 しかし、医学的なセグメンテーションのための畳み込み演算子は通常、通常、高周波領域、すなわち境界領域を曖昧にする正規格子上で動作します。 本稿では,医学的画像分割学習を支援するために解剖学的レベルで設計された,汎用的な暗黙的ニューラルネットワークフレームワークであるmorseを提案する。 提案手法は,暗黙的神経表現が離散格子表現よりも複雑な信号に適合し,コンピュータグラフィックスの問題を解くのに有効であることが示されている。 このアプローチの核心は、医用画像分割をエンドツーエンドのレンダリング問題として定式化することです。 具体的には、粗いセグメンテーション予測を曖昧な座標に基づく点表現と連続的に調整し、これらの特徴を集約して境界領域を適応的に洗練する。 マルチスケール画素レベルの特徴を並列に最適化するために,Mixture-of-Expert(MoE)のアイデアを活用し,確率的ゲーティング機構でMORSEを設計・訓練する。 実験により,MORSEは異なる医療セグメントのバックボーンとよく機能し,医用セグメントの2次元および3次元管理手法の競争性能の向上を一貫して達成できることが示された。 理論上はモースの優越性も分析する。

Integrating high-level semantically correlated contents and low-level anatomical features is of central importance in medical image segmentation. Towards this end, recent deep learning-based medical segmentation methods have shown great promise in better modeling such information. However, convolution operators for medical segmentation typically operate on regular grids, which inherently blur the high-frequency regions, i.e., boundary regions. In this work, we propose MORSE, a generic implicit neural rendering framework designed at an anatomical level to assist learning in medical image segmentation. Our method is motivated by the fact that implicit neural representation has been shown to be more effective in fitting complex signals and solving computer graphics problems than discrete grid-based representation. The core of our approach is to formulate medical image segmentation as a rendering problem in an end-to-end manner. Specifically, we continuously align the coarse segmentation prediction with the ambiguous coordinate-based point representations and aggregate these features to adaptively refine the boundary region. To parallelly optimize multi-scale pixel-level features, we leverage the idea from Mixture-of-Expert (MoE) to design and train our MORSE with a stochastic gating mechanism. Our experiments demonstrate that MORSE can work well with different medical segmentation backbones, consistently achieving competitive performance improvements in both 2D and 3D supervised medical segmentation methods. We also theoretically analyze the superiority of MORSE.
翻訳日:2023-07-19 18:56:07 公開日:2023-07-17
# action++: アダプティブ解剖学的コントラストによる半教師付き医用画像分割の改善

ACTION++: Improving Semi-supervised Medical Image Segmentation with Adaptive Anatomical Contrast ( http://arxiv.org/abs/2304.02689v3 )

ライセンス: Link先を確認
Chenyu You, Weicheng Dai, Yifei Min, Lawrence Staib, Jasjeet S. Sekhon, James S. Duncan(参考訳) 医学的データは、しばしば重いクラスの不均衡を伴うロングテール分布を示すため、マイノリティクラス(すなわち境界領域や希少なオブジェクト)の分類が困難になる。 最近の研究は、教師なしのコントラスト基準を付与することで、ロングテールシナリオにおける半教師付き医用画像分割を大幅に改善した。 しかし、クラス分布が高度に不均衡なデータのラベル付き部分で、どの程度うまく機能するかは、まだ不明である。 本稿では,半教師付き医学セグメント化のための適応的解剖学的コントラストを備えた,改良型コントラスト学習フレームワークであるaction++を提案する。 具体的には、まず、組込み空間(例えばオフライン)に均一に分布するクラスセンターの最適位置を計算し、異なるクラス特徴に適応的かつ一様に分布するクラスセンターを適応的に適合させることにより、オンラインコントラストマッチング訓練を行う適応型教師付きコントラスト損失を提案する。 さらに,ロングテール医療データに対する対照的な損失において,一定温度である$\tau$ を盲目的に採用することは最適ではなく,単純なコサインスケジュールを通じて動的$\tau$ を使うことを提案し,多数派と少数派階級の分離性を高める。 ACDCとLAのベンチマークでACTION++を評価し、2つの半教師付き設定で最先端を実現することを示す。 理論的には,適応解剖学的コントラストの性能を解析し,ラベル効率の優位性を確認した。

Medical data often exhibits long-tail distributions with heavy class imbalance, which naturally leads to difficulty in classifying the minority classes (i.e., boundary regions or rare objects). Recent work has significantly improved semi-supervised medical image segmentation in long-tailed scenarios by equipping them with unsupervised contrastive criteria. However, it remains unclear how well they will perform in the labeled portion of data where class distribution is also highly imbalanced. In this work, we present ACTION++, an improved contrastive learning framework with adaptive anatomical contrast for semi-supervised medical segmentation. Specifically, we propose an adaptive supervised contrastive loss, where we first compute the optimal locations of class centers uniformly distributed on the embedding space (i.e., off-line), and then perform online contrastive matching training by encouraging different class features to adaptively match these distinct and uniformly distributed class centers. Moreover, we argue that blindly adopting a constant temperature $\tau$ in the contrastive loss on long-tailed medical data is not optimal, and propose to use a dynamic $\tau$ via a simple cosine schedule to yield better separation between majority and minority classes. Empirically, we evaluate ACTION++ on ACDC and LA benchmarks and show that it achieves state-of-the-art across two semi-supervised settings. Theoretically, we analyze the performance of adaptive anatomical contrast and confirm its superiority in label efficiency.
翻訳日:2023-07-19 18:55:42 公開日:2023-07-17
# 顔認証の視力説明に向けて

Towards Visual Saliency Explanations of Face Verification ( http://arxiv.org/abs/2305.08546v3 )

ライセンス: Link先を確認
Yuhang Lu, Zewei Xu, Touradj Ebrahimi(参考訳) 過去数年間、深層畳み込みニューラルネットワークは、認証と識別の両方のシナリオにおいて、顔認識(FR)技術のフロンティアを推し進めてきた。 精度が高いにもかかわらず、説明性に欠けるとしてしばしば批判される。 深層顔認識システムにおける意思決定プロセスの理解に対する需要が高まっている。 近年の研究では、視覚塩分マップの解説としての利用が研究されているが、顔認識の文脈では議論や分析が欠如していることが多い。 本稿では,説明可能な顔認証タスクに集中し,新しい説明枠組みを提案する。 まず、深いFRモデルによる決定に焦点をあてた、正当性に基づく説明法の定義について述べる。 次に, 顔画像の類似領域と類似領域の両方を明らかにするために, corrrise というモデル非依存な新しい説明法を提案する。 また,顔認証における一般的な視覚的相性説明法の性能を評価するために2つの評価指標が設計された。 その結果,提案したCorrRISE法は,他の最先端の顔認証手法と比較して有望な結果を示した。

In the past years, deep convolutional neural networks have been pushing the frontier of face recognition (FR) techniques in both verification and identification scenarios. Despite the high accuracy, they are often criticized for lacking explainability. There has been an increasing demand for understanding the decision-making process of deep face recognition systems. Recent studies have investigated the usage of visual saliency maps as an explanation, but they often lack a discussion and analysis in the context of face recognition. This paper concentrates on explainable face verification tasks and conceives a new explanation framework. First, a definition of the saliency-based explanation method is provided, which focuses on the decisions made by the deep FR model. Then, a new model-agnostic explanation method named CorrRISE is proposed to produce saliency maps, which reveal both the similar and dissimilar regions of any given pair of face images. Besides, two evaluation metrics are designed to measure the performance of general visual saliency explanation methods in face verification. Consequently, substantial visual and quantitative results have shown that the proposed CorrRISE method demonstrates promising results in comparison with other state-of-the-art explainable face verification approaches.
翻訳日:2023-07-19 18:48:36 公開日:2023-07-17
# 一般グラフ上の自己反発ランダムウォーク --非線形マルコフ連鎖による最小サンプリング変動の実現

Self-Repellent Random Walks on General Graphs -- Achieving Minimal Sampling Variance via Nonlinear Markov Chains ( http://arxiv.org/abs/2305.05097v2 )

ライセンス: Link先を確認
Vishwaraj Doshi, Jie Hu and Do Young Eun(参考訳) 一般非向グラフのような離散状態空間上のランダムウォークを考えると、ランダムウォーカーはマルコフ連鎖モンテカルロ (mcmc) 手順の形でサンプリングと近傍探索を通じてネットワークトポロジー上の対象量を近似するように設計されている。 目的とする確率分布に対応するマルコフ連鎖が与えられた場合、過去に頻繁に訪れたノードに遷移する可能性が低く、滅多に訪れないノードに遷移する可能性が低い自己反発ランダムウォーク(SRRW)を設計する。 正の実 {\alpha} でパラメータ化された SRRW のクラスに対して、過程の経験的分布は、基礎となるマルコフ連鎖核の標的(定常的)分布にほぼ確実に収束することを示す。 すると、中心極限定理を提供し、生成する漸近共分散行列の正確な形を導出し、より強い忌避性を持つsrrw( larger {\alpha})が常により小さい漸近共分散(英語版)(loewner order of co-variance matrice)となることを示すことができる。 特に、SRRW駆動のMCMCアルゴリズムでは、漸近サンプリング分散の減少はO(1/{\alpha})の次数であり、最終的には0となる。 最後に, 理論結果に補完する数値シミュレーションを行い, srrwのバージョンと時間とともに増加する {\alpha} を実験的に実験し, より大きな {\alpha} による漸近的分散の利点と, より小さな {\alpha} を持つsrrwのより高速な混合特性を経験的に観測した。

We consider random walks on discrete state spaces, such as general undirected graphs, where the random walkers are designed to approximate a target quantity over the network topology via sampling and neighborhood exploration in the form of Markov chain Monte Carlo (MCMC) procedures. Given any Markov chain corresponding to a target probability distribution, we design a self-repellent random walk (SRRW) which is less likely to transition to nodes that were highly visited in the past, and more likely to transition to seldom visited nodes. For a class of SRRWs parameterized by a positive real {\alpha}, we prove that the empirical distribution of the process converges almost surely to the the target (stationary) distribution of the underlying Markov chain kernel. We then provide a central limit theorem and derive the exact form of the arising asymptotic co-variance matrix, which allows us to show that the SRRW with a stronger repellence (larger {\alpha}) always achieves a smaller asymptotic covariance, in the sense of Loewner ordering of co-variance matrices. Especially for SRRW-driven MCMC algorithms, we show that the decrease in the asymptotic sampling variance is of the order O(1/{\alpha}), eventually going down to zero. Finally, we provide numerical simulations complimentary to our theoretical results, also empirically testing a version of SRRW with {\alpha} increasing in time to combine the benefits of smaller asymptotic variance due to large {\alpha}, with empirically observed faster mixing properties of SRRW with smaller {\alpha}.
翻訳日:2023-07-19 18:47:05 公開日:2023-07-17
# 教師なし埋め込み品質評価

Unsupervised Embedding Quality Evaluation ( http://arxiv.org/abs/2305.16562v2 )

ライセンス: Link先を確認
Anton Tsitsulin, Marina Munkhoeva, Bryan Perozzi(参考訳) 教師なし学習は最近、特にディープラーニングベースのアプローチで人気が高まっている。 さまざまな学術ベンチマークで多くの成功と教師レベルパフォーマンスに近づいているにもかかわらず、教師なしの性質のため、SSLモデルを実際にトレーニングし評価することは依然として困難である。 監視された方法でトレーニングされたネットワークであっても、他のドメインに転送されるとうまく機能するかどうかは不明だ。 過去の研究は一般に、深層ニューラルネットワークの自己教師あり学習に最も関係する埋め込みに含まれる情報量を評価することに限定されている。 安定した方法でデータを線形に分離することがいかに容易か、定量化できますか? 文献を調査し,表現の質評価に使用可能な3つの方法を明らかにする。 また,自己教師付き学習における高次元幾何学的構造を理解するための新しい手法を提案する。 我々は、これらのメトリクスと、前回の研究で導入されたものの特性について広範な実験を行い、研究する。 その結果,無料のランチは存在しないものの,埋没品質を教師なしの方法で確実に推定できる指標が存在することが示唆された。

Unsupervised learning has recently significantly gained in popularity, especially with deep learning-based approaches. Despite numerous successes and approaching supervised-level performance on a variety of academic benchmarks, it is still hard to train and evaluate SSL models in practice due to the unsupervised nature of the problem. Even with networks trained in a supervised fashion, it is often unclear whether they will perform well when transferred to another domain. Past works are generally limited to assessing the amount of information contained in embeddings, which is most relevant for self-supervised learning of deep neural networks. This works chooses to follow a different approach: can we quantify how easy it is to linearly separate the data in a stable way? We survey the literature and uncover three methods that could be potentially used for evaluating quality of representations. We also introduce one novel method based on recent advances in understanding the high-dimensional geometric structure of self-supervised learning. We conduct extensive experiments and study the properties of these metrics and ones introduced in the previous work. Our results suggest that while there is no free lunch, there are metrics that can robustly estimate embedding quality in an unsupervised way.
翻訳日:2023-07-19 18:38:56 公開日:2023-07-17
# LLMのマルチステップ推論における自己整合性の2つの失敗

Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs ( http://arxiv.org/abs/2305.14279v2 )

ライセンス: Link先を確認
Angelica Chen, Jason Phang, Alicia Parrish, Vishakh Padmakumar, Chen Zhao, Samuel R. Bowman, Kyunghyun Cho(参考訳) 大規模言語モデル(LLM)は、様々なコンテキスト内数ショットタスクで広く成功しているが、この成功は通常、一貫性よりも正確性によって評価される。 自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。 本稿では,多段階推論において特に重要な自己整合性(仮説的他の文脈における出力の予測能力)と構成的整合性(中間的なサブステップをそれらのステップの出力に置き換える際のモデルの最終出力の整合性)の2つのタイプを提案する。 GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの一貫性の低下を示す。

Large language models (LLMs) have achieved widespread success on a variety of in-context few-shot tasks, but this success is typically evaluated via correctness rather than consistency. We argue that self-consistency is an important criteria for valid multi-step reasoning in tasks where the solution is composed of the answers to multiple sub-steps. We propose two types of self-consistency that are particularly important for multi-step reasoning -- hypothetical consistency (a model's ability to predict what its output would be in a hypothetical other context) and compositional consistency (consistency of a model's final outputs when intermediate sub-steps are replaced with the model's outputs for those steps). We demonstrate that multiple variants of the GPT-3/-4 models exhibit poor consistency rates across both types of consistency on a variety of tasks.
翻訳日:2023-07-19 18:37:47 公開日:2023-07-17
# 大規模視覚表現学習の効率化と評価

Efficient Large-Scale Visual Representation Learning And Evaluation ( http://arxiv.org/abs/2305.13399v4 )

ライセンス: Link先を確認
Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin Mejran, Vaibhav Malpani, and Mahir Yavuz(参考訳) 本稿では,単一モダリティ視覚表現学習へのアプローチについて述べる。 アイテムの視覚的表現を理解することは、eコマースにおけるファッションレコメンデーションに不可欠である。 畳み込みニューラルネットワークとビジョントランスフォーマーファミリの両方において、複数の事前学習されたバックボーンアーキテクチャを含む低リソース環境下で、大規模視覚表現学習モデルを効率的に微調整するための技術の詳細とコントラストについて述べる。 電子商取引アプリケーションの課題を大規模に説明し、視覚的表現をより効率的に訓練し、評価し、提供する取り組みを強調します。 本稿では,モバイル端末上での視覚的に類似した広告レコメンデーションを含む,ダウンストリームタスクにおけるオフライン表示性能の評価を行う。 そこで本研究では,視覚類似のレコメンデーションシステムのための多言語音声から画像へのオフライン評価手法を提案する。 最後に、etsyにデプロイされた機械学習システムのオンライン結果を含める。

In this article, we present our approach to single-modality visual representation learning. Understanding visual representations of items is vital for fashion recommendations in e-commerce. We detail and contrast techniques used to finetune large-scale visual representation learning models in an efficient manner under low-resource settings, including several pretrained backbone architectures, both in the convolutional neural network as well as the vision transformer family. We describe the challenges for e-commerce applications at-scale and highlight the efforts to more efficiently train, evaluate, and serve visual representations. We present ablation studies evaluating the representation offline performance for several downstream tasks, including visually similar ad recommendations on mobile devices. To this end, we present a novel multilingual text-to-image generative offline evaluation method for visually similar recommendation systems. Finally, we include online results from deployed machine learning systems in production at Etsy.
翻訳日:2023-07-19 18:37:22 公開日:2023-07-17
# 完全単一光子源

Perfect single-photon sources ( http://arxiv.org/abs/2306.13646v2 )

ライセンス: Link先を確認
Sana Khalid and Fabrice P. Laussy(参考訳) 非相関光子を背景とする単一光子源(SPS)の形で「ガッペドコヒーレント状態」を導入するが、時間間隔$t_\mathrm{G}$よりも2つの光子が時間に近づくことができないことを要求している。 正確な光子ストリームを生成する明確な量子メカニズムはまだ特定されていないが、数値シミュレーションは、まず相関のない(ポアソニアン)信号を生成し、リスト内の各光子に対して、そのような時間ギャップを追加するか、$t_\mathrm{g}$ 以下の光子から時間に近い全ての連続光子を取り除くかのどちらかによって容易に達成される。 本稿では,このような仮説信号の統計的特性について考察する。 これは、連続波(定常波)とパルス単一光子源の間のきれいで自然な接続を提供し、また、そのような光源が単一光子放出の点において完璧であるという意味にも依存する。

We introduce the "gapped coherent state" in the form of a single-photon source (SPS) that consists of uncorrelated photons as a background, except that we demand that no two photons can be closer in time than a time gap $t_\mathrm{G}$. While no obvious quantum mechanism is yet identified to produce exactly such a photon stream, a numerical simulation is easily achieved by first generating an uncorrelated (Poissonian) signal and then for each photon in the list, either adding such a time gap or removing all successive photons that are closer in time from any photon that is kept than $t_\mathrm{G}$. We study the statistical properties of such a hypothetical signal, which exhibits counter-intuitive features. This provides a neat and natural connection between continuous-wave (stationary) and pulsed single-photon sources, with also a bearing on what it means for such sources to be perfect in terms of single-photon emission.
翻訳日:2023-07-19 18:30:18 公開日:2023-07-17
# 非エルミート系における生体直交動的量子相転移

Biorthogonal dynamical quantum phase transitions in non-Hermitian systems ( http://arxiv.org/abs/2307.02993v2 )

ライセンス: Link先を確認
Yecheng Jing, Jian-Jun Dong, Yu-Yu Zhang, and Zi-Xiang Hu(参考訳) 生物直交基底を用いて、非エルミート系における生物直交動的量子相転移の完全な枠組みを構築する。 これまで見過ごされていた関連状態の助けを借りて, 自動正規化バイオノゴナルロスシュミットエコーを定義する。 このアプローチは、複素固有値を持つ任意の非エルミート系を扱うことができ、生体直交基底なしで得られるロスシュミットレートの負の値を自然に取り除くことができる。 非エルミート的なSu-Schrieffer-Heegerモデルを具体例として、伝統的な量子相転移を超越した、生物直交の動的トポロジカル秩序パラメータの1/2$の特別な変化が観察される。 また、臨界運動量における2段階のサブシステムが振動するか、定常状態に達するかによって、生物直交の動的量子相転移の周期性も分かる。

By using biorthogonal bases, we construct a complete framework for biorthogonal dynamical quantum phase transitions in non-Hermitian systems. With the help of associated state which is overlooked previously, we define the automatically normalized biorthogonal Loschmidt echo. This approach is capable of handling arbitrary non-Hermitian systems with complex eigenvalues, which naturally eliminates the negative value of Loschmidt rate obtained without the biorthogonal bases. Taking the non-Hermitian Su-Schrieffer-Heeger model as a concrete example, a peculiar $1/2$ change in biorthogonal dynamical topological order parameter, which is beyond the traditional dynamical quantum phase transitions is observed. We also find the periodicity of biorthogonal dynamical quantum phase transitions depend on whether the two-level subsystem at the critical momentum oscillates or reaches a steady state.
翻訳日:2023-07-19 18:19:33 公開日:2023-07-17
# 記憶してはいけない; 過去ミミック: エピソジック記憶のないフェデレーションクラスインクリメンタルラーニング

Don't Memorize; Mimic The Past: Federated Class Incremental Learning Without Episodic Memory ( http://arxiv.org/abs/2307.00497v2 )

ライセンス: Link先を確認
Sara Babakniya, Zalan Fabian, Chaoyang He, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) ディープラーニングモデルは、新しいデータでトレーニングされた時に過去に学んだ情報を忘れやすい。 この問題は、データが分散化され、ユーザ毎に独立した変更が行われるフェデレーション学習(fl)の文脈でさらに顕著になる。 連続学習(CL)は、いわゆる‘textit{catastrophic forgetting’現象を主に集中的な設定で研究し、学習者は完全なトレーニングデータセットに直接アクセスできる。 しかし、プライバシの懸念とリソース制限のため、CLテクニックをFLに適用することは簡単ではない。 本稿では,生成モデルを用いて過去のデータの一部を保存するのではなく,過去の分布からサンプルを合成するフェデレーションクラスインクリメンタル学習の枠組みを提案する。 そして、クライアントは生成モデルを利用して、局所的な破滅的な忘れを緩和できる。 生成モデルは、クライアントからデータを要求することなく、各タスクの最後にデータフリーのメソッドを使用してサーバ上でトレーニングされる。 そのため、クライアントのプライベートデータでトレーニングするのではなく、データ漏洩のリスクを低減する。 既存のベースラインと比較して,CIFAR-100データセットの大幅な改善を示す。

Deep learning models are prone to forgetting information learned in the past when trained on new data. This problem becomes even more pronounced in the context of federated learning (FL), where data is decentralized and subject to independent changes for each user. Continual Learning (CL) studies this so-called \textit{catastrophic forgetting} phenomenon primarily in centralized settings, where the learner has direct access to the complete training dataset. However, applying CL techniques to FL is not straightforward due to privacy concerns and resource limitations. This paper presents a framework for federated class incremental learning that utilizes a generative model to synthesize samples from past distributions instead of storing part of past data. Then, clients can leverage the generative model to mitigate catastrophic forgetting locally. The generative model is trained on the server using data-free methods at the end of each task without requesting data from clients. Therefore, it reduces the risk of data leakage as opposed to training it on the client's private data. We demonstrate significant improvements for the CIFAR-100 dataset compared to existing baselines.
翻訳日:2023-07-19 18:18:29 公開日:2023-07-17
# 2層ReLUニューラルネットワークによる確率的マルチタスク表現学習

Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2307.06887v2 )

ライセンス: Link先を確認
Liam Collins, Hamed Hassani, Mahdi Soltanolkotabi, Aryan Mokhtari, Sanjay Shakkottai(参考訳) 特徴学習(すなわち、データの意味のある表現を抽出する)は、勾配降下で訓練されたニューラルネットワークの実用的成功に必須であるが、その発生方法と理由を説明するのは非常に困難である。 最近の理論的研究により、勾配に基づく手法で1つのタスクに最適化された浅層ニューラルネットワークが有意義な特徴を学習できることが示されている。 しかし、実際には、ニューラルネットワークは損失関数の異なるタスクと同時に多くのタスクで訓練されることが多く、これらの以前の分析はそのような設定に一般化しない。 マルチタスク学習では、単純な線形モデルによる効果的な特徴学習が様々な研究で示されている。 しかし、実際には最も一般的な学習パラダイムである {\em nonlinear} モデルによるマルチタスク学習はほとんど謎のままである。 本研究では, 非線形モデルを用いたマルチタスク環境において, 特徴学習を行う最初の結果を示す。 その結果,2層reluニューラルネットワーク上では,2層ニューラルネットワークを用いた簡易な勾配型マルチタスク学習アルゴリズムが,2層reluニューラルネットワークによって学習されることがわかった。 特に、r$ 地上座標上のダウンストリームタスクは、環境次元 $d$ とは無関係にサンプルとニューロン複雑性を持つ線形分類器を学習することで解決できるが、ランダム特徴モデルでは、そのような保証のために$d$ の指数的複雑性を必要とする。

Feature learning, i.e. extracting meaningful representations of data, is quintessential to the practical success of neural networks trained with gradient descent, yet it is notoriously difficult to explain how and why it occurs. Recent theoretical studies have shown that shallow neural networks optimized on a single task with gradient-based methods can learn meaningful features, extending our understanding beyond the neural tangent kernel or random feature regime in which negligible feature learning occurs. But in practice, neural networks are increasingly often trained on {\em many} tasks simultaneously with differing loss functions, and these prior analyses do not generalize to such settings. In the multi-task learning setting, a variety of studies have shown effective feature learning by simple linear models. However, multi-task learning via {\em nonlinear} models, arguably the most common learning paradigm in practice, remains largely mysterious. In this work, we present the first results proving feature learning occurs in a multi-task setting with a nonlinear model. We show that when the tasks are binary classification problems with labels depending on only $r$ directions within the ambient $d\gg r$-dimensional input space, executing a simple gradient-based multitask learning algorithm on a two-layer ReLU neural network learns the ground-truth $r$ directions. In particular, any downstream task on the $r$ ground-truth coordinates can be solved by learning a linear classifier with sample and neuron complexity independent of the ambient dimension $d$, while a random feature model requires exponential complexity in $d$ for such a guarantee.
翻訳日:2023-07-19 18:10:25 公開日:2023-07-17
# 改良ハミルトンを用いた格子QCDの量子シミュレーション

Quantum Simulation of Lattice QCD with Improved Hamiltonians ( http://arxiv.org/abs/2307.05593v2 )

ライセンス: Link先を確認
Anthony N. Ciavarella(参考訳) 格子ゲージ理論の量子シミュレーションはQCDのリアルタイムダイナミクスを直接探究すると予想されるが、ゲージ場の必要な切り離しと好ましくはスケールしない。 改良されたハミルトニアンは、SU(3)コグト・ススキンド・ハミルトニアンに対するゲージ場切断の影響を正すために導かれる。 1+1d$ で示されるように、これは低彩色電場切断により、様々なカップリングとクォーク質量にわたって、断続的理論の特徴を定量的に再現することができる。 3+1d$ では、改良されたハミルトニアンが、スタッガー付き質量を持たないフェルミオンを持つ格子 qcd に対して導出される。 強い結合限界において、スペクトルは2つのフレーバーqcdの側面を定性的に再現し、小さなシステムのシミュレーションはibmの量子プロセッサで行われることが示されている。

Quantum simulations of lattice gauge theories are anticipated to directly probe the real time dynamics of QCD, but scale unfavorably with the required truncation of the gauge fields. Improved Hamiltonians are derived to correct for the effects of gauge field truncations on the SU(3) Kogut-Susskind Hamiltonian. It is shown in $1+1D$ that this enables low chromo-electric field truncations to quantitatively reproduce features of the untruncated theory over a range of couplings and quark masses. In $3+1D$, an improved Hamiltonian is derived for lattice QCD with staggered massless fermions. It is shown in the strong coupling limit that the spectrum qualitatively reproduces aspects of two flavor QCD and simulations of a small system are performed on IBM's {\tt Perth} quantum processor.
翻訳日:2023-07-19 18:09:55 公開日:2023-07-17
# 実世界利用事例による金融企業の統計分析と応用に基づく戦略計画の策定

Formulating A Strategic Plan Based On Statistical Analyses And Applications For Financial Companies Through A Real-World Use Case ( http://arxiv.org/abs/2307.04778v2 )

ライセンス: Link先を確認
Saman Sarraf(参考訳) ビジネス統計は、企業レベルでデータ主導型戦略計画を実施する上で重要な役割を担い、そのような計画の結果を企業が意思決定プロセスを強化したり、組織へのリスクを軽減できる様々な分析手法を採用する。 そこで本研究では,高度な特徴選択能力とともにビッグデータプラットフォームの導入の可能性を探ることを目的とした,レンディングクラブという金融企業に対して,統計的分析により得られた戦略計画を提案する。 このような計画の主な目的は、融資を返済できない借り手への融資のリスクを低減しつつ、会社の収益を増大させることである。 本研究では,企業の関心事に対応するために定式化された異なる仮説について検討し,ローンの額が借入者数に大きく影響することを明らかにした。 また、提案された戦略計画には、機械学習などの高度な分析技術が組み込まれており、同社はより一般的なデータ駆動予測モデルを構築することができる。

Business statistics play a crucial role in implementing a data-driven strategic plan at the enterprise level to employ various analytics where the outcomes of such a plan enable an enterprise to enhance the decision-making process or to mitigate risks to the organization. In this work, a strategic plan informed by the statistical analysis is introduced for a financial company called LendingClub, where the plan is comprised of exploring the possibility of onboarding a big data platform along with advanced feature selection capacities. The main objectives of such a plan are to increase the company's revenue while reducing the risks of granting loans to borrowers who cannot return their loans. In this study, different hypotheses formulated to address the company's concerns are studied, where the results reveal that the amount of loans profoundly impacts the number of borrowers charging off their loans. Also, the proposed strategic plan includes onboarding advanced analytics such as machine learning technologies that allow the company to build better generalized data-driven predictive models.
翻訳日:2023-07-19 18:08:55 公開日:2023-07-17
# データセットバイアスの有無によるKNNの公正性の検証

Certifying the Fairness of KNN in the Presence of Dataset Bias ( http://arxiv.org/abs/2307.08722v1 )

ライセンス: Link先を確認
Yannan Li, Jingbo Wang, and Chao Wang(参考訳) そこで本研究では,保護された少数集団のサンプルの系統的誤ラベルによる履歴バイアスを前提として,広く使用されている教師付き学習アルゴリズムであるk-nearest neighbors(KNN)の分類結果の公平性を検証する手法を提案する。 私たちの知る限りでは、これはフェアネス定義の3つの変種(個別フェアネス、$\epsilon$-fairness、ラベルフリッピングフェアネス)に基づく最初のnnの認定方法である。 まず、KNNの公平性証明問題を定義し、次に最先端のKNNアルゴリズムで用いられる複素演算の音響近似を提案する。 これは、計算結果を具体的なドメインから抽象ドメインに引き上げ、計算コストを削減することを目的としている。 本稿では,この抽象解釈に基づく手法の有効性を,フェアネス研究で広く用いられている6つのデータセットの実験的評価を通して示す。 また,この手法は,データセットに歴史的バイアスが存在するにもかかわらず,多数のテスト入力に対して公平性認定を得るのに十分な精度を示す。

We propose a method for certifying the fairness of the classification result of a widely used supervised learning algorithm, the k-nearest neighbors (KNN), under the assumption that the training data may have historical bias caused by systematic mislabeling of samples from a protected minority group. To the best of our knowledge, this is the first certification method for KNN based on three variants of the fairness definition: individual fairness, $\epsilon$-fairness, and label-flipping fairness. We first define the fairness certification problem for KNN and then propose sound approximations of the complex arithmetic computations used in the state-of-the-art KNN algorithm. This is meant to lift the computation results from the concrete domain to an abstract domain, to reduce the computational cost. We show effectiveness of this abstract interpretation based technique through experimental evaluation on six datasets widely used in the fairness research literature. We also show that the method is accurate enough to obtain fairness certifications for a large number of test inputs, despite the presence of historical bias in the datasets.
翻訳日:2023-07-19 18:00:12 公開日:2023-07-17
# 大統領は先週どこに訪れましたか。 ニュース記事から有名人の旅行を検知する

Where Did the President Visit Last Week? Detecting Celebrity Trips from News Articles ( http://arxiv.org/abs/2307.08721v1 )

ライセンス: Link先を確認
Kai Peng, Ying Zhang, Shuai Ling, Zhaoru Ke, Haipeng Zhang(参考訳) 有名人の居場所は広く重要である。 例えば、政治家の出入り頻度、出会っている人などには、地政学的にも経済的にも大きな影響がある。 ニュース記事にはセレブの旅行情報が含まれているが,自動検出ツールの欠如により大規模かつネットワーク的な分析は不可能である。 このようなツールを設計するには, ニュース記事の異質性の難しさを克服する必要がある。1) 関連のない人や場所,特に記事が長い場合には, 一つの記事が騒々しい。 2)複数の項目を一つにまとめて特定の旅行を決定するのに役立ちますが,重要セマンティクスは様々なノイズに絡み合ったさまざまな項目に分散しており,効果的にまとめるのが困難である。 3) 記事の20%以上は、有名人の旅行を間接的に参照し、正確な有名人名や場所名を使う代わりに、通常の検出アルゴリズムから逃れる旅行の大部分を導く。 各候補の場所に関連する記事間のテキストコンテンツをグラフとしてモデル化し,本質的情報を関連付け,ノイズをキャンセルする。 さらに,注意機構とノード類似性に基づく特別なプーリング層を設計し,より長い記事から無関係な情報を減らす。 間接的な言及から得られた情報不足を補うため、名前付きエンティティ(人、組織、施設など)の知識サブグラフを構築します。 具体的には、事前トレーニングされたイベント表現ではキャプチャされないイベントのプロパティ(日付と場所)が毎回変化するため、ニュース記述からg7 summitのようなイベントエンティティの埋め込みを動的に更新する。 提案されたceletripは、これらモジュールを共同でトレーニングし、すべてのベースラインモデルを上回り、f1メトリックで82.53%を達成する。

Celebrities' whereabouts are of pervasive importance. For instance, where politicians go, how often they visit, and who they meet, come with profound geopolitical and economic implications. Although news articles contain travel information of celebrities, it is not possible to perform large-scale and network-wise analysis due to the lack of automatic itinerary detection tools. To design such tools, we have to overcome difficulties from the heterogeneity among news articles: 1)One single article can be noisy, with irrelevant people and locations, especially when the articles are long. 2)Though it may be helpful if we consider multiple articles together to determine a particular trip, the key semantics are still scattered across different articles intertwined with various noises, making it hard to aggregate them effectively. 3)Over 20% of the articles refer to the celebrities' trips indirectly, instead of using the exact celebrity names or location names, leading to large portions of trips escaping regular detecting algorithms. We model text content across articles related to each candidate location as a graph to better associate essential information and cancel out the noises. Besides, we design a special pooling layer based on attention mechanism and node similarity, reducing irrelevant information from longer articles. To make up the missing information resulted from indirect mentions, we construct knowledge sub-graphs for named entities (person, organization, facility, etc.). Specifically, we dynamically update embeddings of event entities like the G7 summit from news descriptions since the properties (date and location) of the event change each time, which is not captured by the pre-trained event representations. The proposed CeleTrip jointly trains these modules, which outperforms all baseline models and achieves 82.53% in the F1 metric.
翻訳日:2023-07-19 17:59:56 公開日:2023-07-17
# ivrit.ai:AI研究開発のためのヘブライ語音声の包括的データセット

ivrit.ai: A Comprehensive Dataset of Hebrew Speech for AI Research and Development ( http://arxiv.org/abs/2307.08720v1 )

ライセンス: Link先を確認
Yanir Marmor, Kinneret Misgav and Yair Lifshitz(参考訳) 本稿では,ヘブライ語における音声認識(ASR)技術の進歩に向けた,広範囲かつ高品質なリソースの欠如に対処する包括的ヘブライ語音声データセット「ivrit.ai」を紹介する。 3300以上の発話時間と数千以上の多様な話者を抱えたivrit.aiは、様々な文脈でヘブライ語をかなりのコンピレーションで提供する。 生の未処理オーディオ、Voice後のアクティビティ検出データ、部分的に書き起こされたデータという、さまざまな研究ニーズに対応するために、3つの形式で配信される。 データセットは法的アクセシビリティを際立っており、無償で使用することができ、研究者、開発者、商用エンティティにとって重要なリソースとなっている。 ivrit.aiは多数のアプリケーションを開き、ヘブライ語でAI機能を強化する大きな可能性を秘めている。 今後の取り組みは、ivrit.aiをさらに拡大し、AI研究と技術におけるヘブライ語の地位を向上することを目指している。

We introduce "ivrit.ai", a comprehensive Hebrew speech dataset, addressing the distinct lack of extensive, high-quality resources for advancing Automated Speech Recognition (ASR) technology in Hebrew. With over 3,300 speech hours and a over a thousand diverse speakers, ivrit.ai offers a substantial compilation of Hebrew speech across various contexts. It is delivered in three forms to cater to varying research needs: raw unprocessed audio; data post-Voice Activity Detection, and partially transcribed data. The dataset stands out for its legal accessibility, permitting use at no cost, thereby serving as a crucial resource for researchers, developers, and commercial entities. ivrit.ai opens up numerous applications, offering vast potential to enhance AI capabilities in Hebrew. Future efforts aim to expand ivrit.ai further, thereby advancing Hebrew's standing in AI research and technology.
翻訳日:2023-07-19 17:59:26 公開日:2023-07-17
# 指導ビデオにおけるキーステップ認識のためのビデオマイニングタスクグラフ

Video-Mined Task Graphs for Keystep Recognition in Instructional Videos ( http://arxiv.org/abs/2307.08763v1 )

ライセンス: Link先を確認
Kumar Ashutosh, Santhosh Kumar Ramakrishnan, Triantafyllos Afouras, Kristen Grauman(参考訳) プロシージャのアクティビティ理解は、レシピのステップやdiyのフィクスイットタスクなど、最終的なゴール状態に到達するために、複数のキーステップを長いビデオで連続して実行する、より広いタスクの観点からヒューマンアクションを知覚する必要がある。 以前の作業では、このより広い構造を分離してキーステップ認識を主に扱うか、あるいは事前に定義されたシーケンシャルスクリプトと整合するためにキーステップを厳格に閉じ込める。 how-toビデオからタスクグラフを自動的に見つけて、人々がkeystepを実行する確率的に表現し、このグラフを利用して新しいビデオでkeystep認識を規則化する。 実世界の教育ビデオの複数のデータセット上で、より信頼性の高いゼロショットのキーステップのローカライゼーションとビデオ表現学習の改善が、芸術の状態を超越した影響を示す。

Procedural activity understanding requires perceiving human actions in terms of a broader task, where multiple keysteps are performed in sequence across a long video to reach a final goal state -- such as the steps of a recipe or a DIY fix-it task. Prior work largely treats keystep recognition in isolation of this broader structure, or else rigidly confines keysteps to align with a predefined sequential script. We propose discovering a task graph automatically from how-to videos to represent probabilistically how people tend to execute keysteps, and then leverage this graph to regularize keystep recognition in novel videos. On multiple datasets of real-world instructional videos, we show the impact: more reliable zero-shot keystep localization and improved video representation learning, exceeding the state of the art.
翻訳日:2023-07-19 17:51:43 公開日:2023-07-17
# 空間変調対称性を有するボース・ハバード模型におけるエキゾチック量子液体

Exotic quantum liquids in Bose-Hubbard models with spatially-modulated symmetries ( http://arxiv.org/abs/2307.08761v1 )

ライセンス: Link先を確認
Pablo Sala, Yizhi You, Johannes Hauschild, Olexei Motrunich(参考訳) 空間変調された連続保存量の量子基底状態への影響について検討する。 粒子数の有限フーリエモーメントを保存する1次元の局所量子ロータとボソニックモデルを導入することで、粒子数自体ではなく有限個のフーリエモーメントを保存することができる。 これらは標準ボース・ハッバードモデル(BHM)の一般化に対応し、ボース曲面の物理学に関係している。 まず、無限次元の局所ヒルベルト空間を持つにもかかわらず、そのような系は格子と相容れないモーメントの非自明なヒルベルト空間の断片化を特徴付ける。 これは、密度スペクトルを持つ保存量の性質と関連付けられ、最初の例を提供する。 次に、可換および不測モーメントの両方についてゼロ温度位相図を特徴付ける。 どちらの場合も、解析的および数値計算はギャップ(モット絶縁)と準長範囲秩序相の間の相転移を予測し、後者は赤外における2種のルッティンガー液体によって特徴づけられるが、顕微鏡的な期待値を計算する際には振動寄与によって着る。 対応するロータモデルの厳密な悪質な定式化に従えば、この位相のロバスト性を再正規化群引数を用いて推定する二重記述を導出する。 固定対称性セクター内のクーロン相互作用を変調した2次元渦ガスとして系の等価表現を用いてこの結論を支持する。 ベレジンスキー-コステリッツ-チューレス型遷移は、時間方向に沿った渦の非結合性によって引き起こされると推測する。

We investigate the effect that spatially modulated continuous conserved quantities can have on quantum ground states. We do so by introducing a family of one-dimensional local quantum rotor and bosonic models which conserve finite Fourier momenta of the particle number, but not the particle number itself. These correspond to generalizations of the standard Bose-Hubbard model (BHM), and relate to the physics of Bose surfaces. First, we show that while having an infinite-dimensional local Hilbert space, such systems feature a non-trivial Hilbert space fragmentation for momenta incommensurate with the lattice. This is linked to the nature of the conserved quantities having a dense spectrum and provides the first such example. We then characterize the zero-temperature phase diagram for both commensurate and incommensurate momenta. In both cases, analytical and numerical calculations predict a phase transition between a gapped (Mott insulating) and quasi-long range order phase; the latter is characterized by a two-species Luttinger liquid in the infrared, but dressed by oscillatory contributions when computing microscopic expectation values. Following a rigorous Villain formulation of the corresponding rotor model, we derive a dual description, from where we estimate the robustness of this phase using renormalization group arguments, where the driving perturbation has ultra-local correlations in space but power law correlations in time. We support this conclusion using an equivalent representation of the system as a two-dimensional vortex gas with modulated Coulomb interactions within a fixed symmetry sector. We conjecture that a Berezinskii-Kosterlitz-Thouless-type transition is driven by the unbinding of vortices along the temporal direction.
翻訳日:2023-07-19 17:51:26 公開日:2023-07-17
# 平面バンドを持つ非エルミート準1次元鎖の位相的性質

Topological properties of a non-Hermitian quasi-one-dimensional chain with a flat band ( http://arxiv.org/abs/2307.08754v1 )

ライセンス: Link先を確認
C.Mart\'inez-Strasser, M.A.J.Herrera, G.Palumbo, F.K.Kunst and D.Bercioux(参考訳) 非エルミート準1次元格子のスペクトル特性を2つの可能な二量化構成で検討する。 具体的には、ゼロエネルギーフラットバンドを示す非エルミートダイヤモンド鎖に焦点をあてる。 フラットバンドは波の干渉から始まり、単位セルの2つの点のみに有限の寄与を持つ固有状態となる。 非エルミート的特徴を達成するために, 連鎖内の非相互ホッピング項を導入する。 これにより、非エルミート皮膚効果として知られる系の境界に固有状態が蓄積される。 この固有状態の蓄積にもかかわらず、2つの可能な構成の1つに対して、実空間位相不変量(英語版)(biorthogonal polarization)によってゼロエネルギーにおける非自明なエッジ状態の存在を特徴付けることができる。 破壊干渉法を用いて評価したこの不変性は、非エルミタンダイヤモンド鎖の非自明な相を特徴づけることを示す。 他の可能な非エルミート構成に対しては、平面バンドに付随する有限量子計量が存在することが分かる。 さらに,本システムは純粋に現実的あるいは想像上のスペクトルを持つにもかかわらず,皮膚効果を観察する。 どちらの構成においても、2つの非エルミートダイヤモンド鎖は、平坦なバンドの存在下で、su-シュリーファー-ヘーガー鎖の2つのモデルにマッピングできることを示した。 このマッピングによって、これらのシステムの振る舞いや特性に関する貴重な洞察を導き出すことができます。

We investigate the spectral properties of a non-Hermitian quasi-one-dimensional lattice in two possible dimerization configurations. Specifically, we focus on a non-Hermitian diamond chain that presents a zero-energy flat band. The flat band originates from wave interference and results in eigenstates with a finite contribution only on two sites of the unit cell. To achieve the non-Hermitian characteristics, we introduce non-reciprocal intrasite hopping terms in the chain. This leads to the accumulation of eigenstates on the boundary of the system, known as the non-Hermitian skin effect. Despite this accumulation of eigenstates, for one of the two possible configurations, we can characterize the presence of non-trivial edge states at zero energy by a real-space topological invariant known as the biorthogonal polarization. We show that this invariant, evaluated using the destructive interference method, characterizes the non-trivial phase of the non-Hermitian diamond chain. For the other possible non-Hermitian configuration, we find that there is a finite quantum metric associated with the flat band. Additionally, we observe the skin effect despite having the system a purely real or imaginary spectrum. For both configurations, we show that two non- Hermitian diamond chains can be mapped into two models of the Su-Schrieffer-Heeger chains, either non-Hermitian and Hermitian, in the presence of a flat band. This mapping allows us to draw valuable insights into the behavior and properties of these systems.
翻訳日:2023-07-19 17:50:55 公開日:2023-07-17
# 条件付き正規化流の新しい応用:ジャイロクロノロジーを用いた恒星年齢推定

A Novel Application of Conditional Normalizing Flows: Stellar Age Inference with Gyrochronology ( http://arxiv.org/abs/2307.08753v1 )

ライセンス: Link先を確認
Phil Van-Lane (1), Joshua S. Speagle (2 and 1 and 3 and 4), Stephanie Douglas (5) ((1) Department of Astronomy & Astrophysics, University of Toronto, Canada, (2) Department of Statistical Sciences, University of Toronto, Canada, (3) Dunlap Institute of Astronomy & Astrophysics, University of Toronto, Canada, (4) Data Sciences Institute, University of Toronto, Canada, (5) Department of Physics, Lafayette College, United States)(参考訳) 恒星年齢は進化モデルの重要な構成要素であるが、低質量主系列星の観測は困難である。 この方法での未探究の解決策は、確率的機械学習手法をジャイロクロノロジー(ジャイロクロノロジー)に応用することである。 正確な分析ジャイロクロノロジーモデルの開発は困難であることが証明されているが、ここでは開放型星団からの測光データに条件付き正規化フローを適用し、データ駆動アプローチがジャイロクロノロジー年代を他の標準技術に匹敵する精度で制限できることを実証する。 我々は,ベイズフレームワークの文脈におけるフロー結果を評価し,推定年齢が文学的価値を十分に回復することを示す。 本研究は,ジャイロクロノロジー年代測定の適用可能性を広げる確率論的データ駆動ソリューションの可能性を示す。

Stellar ages are critical building blocks of evolutionary models, but challenging to measure for low mass main sequence stars. An unexplored solution in this regime is the application of probabilistic machine learning methods to gyrochronology, a stellar dating technique that is uniquely well suited for these stars. While accurate analytical gyrochronological models have proven challenging to develop, here we apply conditional normalizing flows to photometric data from open star clusters, and demonstrate that a data-driven approach can constrain gyrochronological ages with a precision comparable to other standard techniques. We evaluate the flow results in the context of a Bayesian framework, and show that our inferred ages recover literature values well. This work demonstrates the potential of a probabilistic data-driven solution to widen the applicability of gyrochronological stellar dating.
翻訳日:2023-07-19 17:50:29 公開日:2023-07-17
# 原子状ジョセフソン接合におけるシャピロステップ

Shapiro steps in driven atomic Josephson junctions ( http://arxiv.org/abs/2307.08743v1 )

ライセンス: Link先を確認
Vijay Pal Singh, Juan Polo, Ludwig Mathey, and Luigi Amico(参考訳) 2次元原子雲とトンネルバリアを結合した駆動型原子ジョセフソン接合について検討した。 バリアを一定速度で移動させることで、dcとacジョセフソンのレジームはそれぞれジャンクションを横切るゼロと非ゼロの原子密度差によって特徴づけられる。 ここでは,上述の定数速度プロトコルに加えて,バリアの位置を周期的に駆動する場合に,システムに生じるダイナミクスを監視する。 時間平均粒子の不均衡は、駆動型超伝導ジョセフソン接合で観測されるシャピロステップに類似したステップ様の挙動を示す。 基礎となる力学は渦とフォノンの励起の興味深い相互作用を示し、シャピロは渦成長の抑制によって誘導される。 古典場ダイナミクス法を用いて実験を行い, 駆動型回路ダイナミクスを用いて実験結果のベンチマークを行った。

We study driven atomic Josephson junctions realized by coupling two two-dimensional atomic clouds with a tunneling barrier. By moving the barrier at a constant velocity, dc and ac Josephson regimes are characterized by a zero and nonzero atomic density difference across the junction, respectively. Here, we monitor the dynamics resulting in the system when, in addition to the above constant velocity protocol, the position of the barrier is periodically driven. We demonstrate that the time-averaged particle imbalance features a step-like behavior that is the analog of Shapiro steps observed in driven superconducting Josephson junctions. The underlying dynamics reveals an intriguing interplay of the vortex and phonon excitations, where Shapiro steps are induced via suppression of vortex growth. We study the system with a classical-field dynamics method, and benchmark our findings with a driven circuit dynamics.
翻訳日:2023-07-19 17:50:14 公開日:2023-07-17
# ノイズ量子デバイスにおけるコヒーレント誤差のキャラクタリゼーション

Characterization of Coherent Errors in Noisy Quantum Devices ( http://arxiv.org/abs/2307.08741v1 )

ライセンス: Link先を確認
Noah Kaufmann, Ivan Rojkov, Florentin Reiter(参考訳) 量子デバイスのキャラクタリゼーションは、その外乱の原因に関する洞察を生み出す。 最先端のキャラクタリゼーションプロトコルは、しばしばコヒーレントノイズに焦点を当て、パウリやクリフォード・トワイリング技術を使用する際にコヒーレントエラーを取り除く。 このアプローチは、有効雑音の構造をバイアスし、回路を追加し、オーバーヘッドをサンプリングする。 我々は,不整合局所パウリ雑音モデルの拡張をコヒーレントエラーに動機付け,任意のゲート層に対する実用的な特徴付けプロトコルを提案する。 超伝導ハードウェアプラットフォーム上での当社のプロトコルの実証と,先行するコヒーレントエラーの同定を行う。 特徴的雑音構造を検証するために,ゲートレベルのコヒーレント雑音低減手法を用いて,そのコヒーレント成分と不整合成分を確率的誤差キャンセルとともに緩和する。 提案手法は,デバイスキャリブレーション,ハードウェア開発,エラー緩和と補正技術の改善の可能性を開くものである。

Characterization of quantum devices generates insights into their sources of disturbances. State-of-the-art characterization protocols often focus on incoherent noise and eliminate coherent errors when using Pauli or Clifford twirling techniques. This approach biases the structure of the effective noise and adds a circuit and sampling overhead. We motivate the extension of an incoherent local Pauli noise model to coherent errors and present a practical characterization protocol for an arbitrary gate layer. We demonstrate our protocol on a superconducting hardware platform and identify the leading coherent errors. To verify the characterized noise structure, we mitigate its coherent and incoherent components using a gate-level coherent noise mitigation scheme in conjunction with probabilistic error cancellation. The proposed characterization procedure opens up possibilities for device calibration, hardware development, and improvement of error mitigation and correction techniques.
翻訳日:2023-07-19 17:49:57 公開日:2023-07-17
# 自律量子マシンのDivincenzoライクな基準

DiVincenzo-like criteria for autonomous quantum machines ( http://arxiv.org/abs/2307.08739v1 )

ライセンス: Link先を確認
Jos\'e Antonio Mar\'in Guzm\'an and Paul Erker and Simone Gasparinetti and Marcus Huber and Nicole Yunger Halpern(参考訳) 制御された量子マシンは著しく成熟した。 自然な次のステップは、自律性を与え、タイムドな外部制御から解放することだ。 例えば、自律性は古典的な制御線から量子コンピュータを解き放ち、量子冷凍機は、計算に必要となるように、最近超伝導量子ビットを基底状態に近い状態にリセットした。 有用な自律量子マシンの実現には,どのような条件が必要か? 最近の量子力学と化学にインスパイアされた我々は、Divincenzoの量子コンピューティングの基準に類似した条件を仮定する。 私たちの基準は、有用な自律量子マシンの開発をフォメントし、ガイドすることを目的としています。

Controlled quantum machines have matured significantly. A natural next step is to grant them autonomy, freeing them from timed external control. For example, autonomy could unfetter quantum computers from classical control wires that heat and decohere them; and an autonomous quantum refrigerator recently reset superconducting qubits to near their ground states, as is necessary before a computation. What conditions are necessary for realizing useful autonomous quantum machines? Inspired by recent quantum thermodynamics and chemistry, we posit conditions analogous to DiVincenzo's criteria for quantum computing. Our criteria are intended to foment and guide the development of useful autonomous quantum machines.
翻訳日:2023-07-19 17:49:40 公開日:2023-07-17
# 可変トランスモンを用いた長距離デュアルレール消去量子ビットの実証

Demonstrating a long-coherence dual-rail erasure qubit using tunable transmons ( http://arxiv.org/abs/2307.08737v1 )

ライセンス: Link先を確認
Harry Levine, Arbel Haim, Jimmy S.C. Hung, Nasser Alidoust, Mahmoud Kalaee, Laura DeLorenzo, E. Alex Wollack, Patricio Arrangoiz Arriola, Amirhossein Khalajhedayati, Yotam Vaknin, Aleksander Kubica, Aashish A. Clerk, David Hover, Fernando Brand\~ao, Alex Retzker, and Oskar Painter(参考訳) 消去量子ビットによる量子誤差補正は、消去誤差のしきい値が好ましいため、標準誤差補正よりも大きな利点を約束する。 この利点を実現するには、ほとんど全てのエラーが消去エラーであるキュービットと、そのキュービットを軽視することなく消去エラーをチェックする能力が必要である。 共振結合された一対のトランスモンからなる「デュアルレールキュービット」は、高いコヒーレントな消去キュービットを形成し、そこでは消去誤差率が$T_1$で与えられるが、残差が強く抑制され、キュービット部分空間内でミリ秒スケールのコヒーレンスをもたらすことを実験的に実証した。 単一キュービットゲートは、主に消去誤差によって制限されており、消去確率は$p_\text{erasure} = 2.19(2)\times 10^{-3}$ であり、残差は$\sim 40$ 以下である。 さらに、チェック毎に$<0.1\%$ dephasingエラーを導入しながら、消去エラーの中間回路検出を示す。 最後に、トランスモンノイズの抑制により、広帯域の可変動作域における高コヒーレンスを保ち、周波数衝突を回避する能力の向上が期待できることを示す。 この研究は、ハードウェア効率の量子誤り訂正のための魅力的なビルディングブロックとして、トランスモンベースのデュアルレールキュービットを確立する。

Quantum error correction with erasure qubits promises significant advantages over standard error correction due to favorable thresholds for erasure errors. To realize this advantage in practice requires a qubit for which nearly all errors are such erasure errors, and the ability to check for erasure errors without dephasing the qubit. We experimentally demonstrate that a "dual-rail qubit" consisting of a pair of resonantly-coupled transmons can form a highly coherent erasure qubit, where the erasure error rate is given by the transmon $T_1$ but for which residual dephasing is strongly suppressed, leading to millisecond-scale coherence within the qubit subspace. We show that single-qubit gates are limited primarily by erasure errors, with erasure probability $p_\text{erasure} = 2.19(2)\times 10^{-3}$ per gate while the residual errors are $\sim 40$ times lower. We further demonstrate mid-circuit detection of erasure errors while introducing $< 0.1\%$ dephasing error per check. Finally, we show that the suppression of transmon noise allows this dual-rail qubit to preserve high coherence over a broad tunable operating range, offering an improved capacity to avoid frequency collisions. This work establishes transmon-based dual-rail qubits as an attractive building block for hardware-efficient quantum error correction.
翻訳日:2023-07-19 17:49:27 公開日:2023-07-17
# セルフカラーからのセマンティックカウント

Semantic Counting from Self-Collages ( http://arxiv.org/abs/2307.08727v1 )

ライセンス: Link先を確認
Lukas Knobel, Tengda Han, Yuki M. Asano(参考訳) 最近の参照ベースのオブジェクトカウントのための教師付きメソッドは、ベンチマークデータセットのパフォーマンスを改善し続けているが、画像に数十のオブジェクトを手動でアノテートするコストのため、小さなデータセットに依存する必要がある。 手動のアノテーションを必要とせずにこのタスクを学習できるモデルUnsupervised Counter (UnCo)を提案する。 この目的のために,様々なペーストされたオブジェクトをトレーニングサンプルとして,任意のオブジェクトタイプとカウントをカバーする豊富な学習信号を提供する「セルフコラージュ」を構築する。 本手法は既存の教師なし表現とセグメンテーション技術に基づき,手作業による監視なしにオブジェクトをカウントできることを実証する。 実験の結果,本手法はFasterRCNNのような単純なベースラインやジェネリックモデルよりも優れるだけでなく,いくつかの領域における教師付きカウントモデルの性能と一致していることがわかった。

While recent supervised methods for reference-based object counting continue to improve the performance on benchmark datasets, they have to rely on small datasets due to the cost associated with manually annotating dozens of objects in images. We propose Unsupervised Counter (UnCo), a model that can learn this task without requiring any manual annotations. To this end, we construct "SelfCollages", images with various pasted objects as training samples, that provide a rich learning signal covering arbitrary object types and counts. Our method builds on existing unsupervised representations and segmentation techniques to successfully demonstrate the ability to count objects without manual supervision. Our experiments show that our method not only outperforms simple baselines and generic models such as FasterRCNN, but also matches the performance of supervised counting models in some domains.
翻訳日:2023-07-19 17:48:43 公開日:2023-07-17
# シーンテキスト認識の再考:データの視点から

Revisiting Scene Text Recognition: A Data Perspective ( http://arxiv.org/abs/2307.08723v1 )

ライセンス: Link先を確認
Qing Jiang, Jiapeng Wang, Dezhi Peng, Chongyu Liu, Lianwen Jin(参考訳) 本稿では,シーンテキスト認識(STR)をデータ指向の観点から再評価することを目的とする。 まずSTRでよく使われる6つのベンチマークを再検討し、パフォーマンス飽和の傾向を観察し、13の代表的なモデルのアンサンブルによってベンチマーク画像の2.91%しか正確に認識できない。 これらの結果は印象的であり、STRが解決される可能性が示唆されているが、これは主に共通のベンチマークの難易度が低いためであり、STRが直面している根本的な問題を隠蔽しているためである。 この目的のために,400万のラベル付き画像と1000万のラベルなし画像からなるUnion14Mという大規模な実STRデータセットを統合し,より複雑な実世界のシナリオにおけるSTRモデルの性能を評価する。 我々の実験では、13モデルは400万枚のラベル付き画像で平均66.53%の精度しか達成できないことが示されており、STRは現実世界で多くの課題に直面している。 13モデルの誤りパターンを解析することにより、STRのオープンな7つの課題を特定し、8つの異なるサブセットからなるチャレンジ駆動ベンチマークを開発し、この分野のさらなる進歩を促進する。 私たちの調査は、strが解決され、データを活用することが有望なソリューションであることを示している。 そこで本研究では,自己教師付き事前学習による1000万枚の未ラベル画像の利用により,実世界のシナリオにおけるSTRモデルのロバスト性が大きく向上し,最先端の性能が向上することを見出した。

This paper aims to re-assess scene text recognition (STR) from a data-oriented perspective. We begin by revisiting the six commonly used benchmarks in STR and observe a trend of performance saturation, whereby only 2.91% of the benchmark images cannot be accurately recognized by an ensemble of 13 representative models. While these results are impressive and suggest that STR could be considered solved, however, we argue that this is primarily due to the less challenging nature of the common benchmarks, thus concealing the underlying issues that STR faces. To this end, we consolidate a large-scale real STR dataset, namely Union14M, which comprises 4 million labeled images and 10 million unlabeled images, to assess the performance of STR models in more complex real-world scenarios. Our experiments demonstrate that the 13 models can only achieve an average accuracy of 66.53% on the 4 million labeled images, indicating that STR still faces numerous challenges in the real world. By analyzing the error patterns of the 13 models, we identify seven open challenges in STR and develop a challenge-driven benchmark consisting of eight distinct subsets to facilitate further progress in the field. Our exploration demonstrates that STR is far from being solved and leveraging data may be a promising solution. In this regard, we find that utilizing the 10 million unlabeled images through self-supervised pre-training can significantly improve the robustness of STR model in real-world scenarios and leads to state-of-the-art performance.
翻訳日:2023-07-19 17:48:16 公開日:2023-07-17
# マルチタイムマルチエージェント強化学習のための非定常ポリシー学習

Non-Stationary Policy Learning for Multi-Timescale Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2307.08794v1 )

ライセンス: Link先を確認
Patrick Emami, Xiangyu Zhang, David Biagioni, Ahmed S. Zamzam(参考訳) マルチタイム・マルチエージェント強化学習(MARL)では、エージェントは異なる時間スケールで相互作用する。 一般に、複数の時間スケールによって引き起こされるような時間依存行動のポリシーは定常的ではない。 非定常ポリシーの学習は困難であり、一般的に高度なアルゴリズムや非効率なアルゴリズムを必要とする。 実世界の複合システムにおけるこの制御問題の普及により,マルチスケールMARLのための非定常ポリシーを学習するためのシンプルなフレームワークを導入する。 提案手法では,エージェントの時間スケールに関する情報を用いて周期的時間エンコーディングを定義する。 理論的には、複数の時間スケールによって導入された非定常性の効果は、周期的マルチエージェントポリシーによって学習できる。 このような方針を学習するために,アクターと批判者を位相関数型ニューラルネットワークでパラメータ化し,周期性に対する帰納的バイアスを与えるポリシ勾配アルゴリズムを提案する。 グリッドワールドとエネルギー管理環境の構築において,マルチタイム・ポリシーを効果的に学習するフレームワークの能力を検証する。

In multi-timescale multi-agent reinforcement learning (MARL), agents interact across different timescales. In general, policies for time-dependent behaviors, such as those induced by multiple timescales, are non-stationary. Learning non-stationary policies is challenging and typically requires sophisticated or inefficient algorithms. Motivated by the prevalence of this control problem in real-world complex systems, we introduce a simple framework for learning non-stationary policies for multi-timescale MARL. Our approach uses available information about agent timescales to define a periodic time encoding. In detail, we theoretically demonstrate that the effects of non-stationarity introduced by multiple timescales can be learned by a periodic multi-agent policy. To learn such policies, we propose a policy gradient algorithm that parameterizes the actor and critic with phase-functioned neural networks, which provide an inductive bias for periodicity. The framework's ability to effectively learn multi-timescale policies is validated on a gridworld and building energy management environment.
翻訳日:2023-07-19 17:40:33 公開日:2023-07-17
# 量子コヒーレンスと微視的可逆性の原理

Quantum coherence and the principle of microscopic reversibility ( http://arxiv.org/abs/2307.08792v1 )

ライセンス: Link先を確認
K. Khan, W. F. Magalhaes, Jailson S. Araujo, B. de Lima Bernardo and Gabriel H. Aguilar(参考訳) 微視的可逆性の原理は、ゆらぎ関係とオンサガーの相互関係の定式化の基本的な要素である。 したがって、この原理が量子力学のシナリオにどのように適合するかを明確に記述することは、非平衡量子過程をよりよく理解するために重要である。 本稿では、量子遷移を観測する確率と対応する時間反転過程との対称性関係においてコヒーレンスが果たす役割を強調する、この原理の量子一般化を提案する。 本研究では,温熱貯留層と相互作用する量子ビット系の枠組みにおける知見の意義について検討し,そのダイナミクスをシミュレートする光学実験を実施する。 理論および実験の結果, 低温ではコヒーレンスの影響がより決定的であり, 古典の場合からの最大離脱は最大コヒーレント状態に対しては起こらないことがわかった。 古典的な予測は適切な範囲で回復される。

The principle of microscopic reversibility is a fundamental element in the formulation of fluctuation relations and the Onsager reciprocal relations. As such, a clear description of whether and how this principle is adapted to the quantum mechanical scenario might be essential to a better understanding of nonequilibrium quantum processes. Here, we propose a quantum generalization of this principle, which highlights the role played by coherence in the symmetry relations involving the probability of observing a quantum transition and that of the corresponding time reversed process. We study the implications of our findings in the framework of a qubit system interacting with a thermal reservoir, and implement an optical experiment that simulates the dynamics. Our theoretical and experimental results show that the influence of coherence is more decisive at low temperatures and that the maximum departure from the classical case does not take place for maximally coherent states. Classical predictions are recovered in the appropriate limits.
翻訳日:2023-07-19 17:40:18 公開日:2023-07-17
# 農業環境におけるAIに基づく画像生成モデルDALLE 2の力の調和

Harnessing the Power of AI based Image Generation Model DALLE 2 in Agricultural Settings ( http://arxiv.org/abs/2307.08789v1 )

ライセンス: Link先を確認
Ranjan Sapkota(参考訳) 本研究では,OpenAIが開発した先進的なAI画像生成装置であるDALLE 2を用いて,農業分野における可視化プロセスの強化に対する人工知能(AI)の潜在的影響を検討した。 GAN(Generative Adversarial Networks)フレームワークを用いたチャットGPTの自然言語処理能力とDALLE 2モデルの生成技術を相乗的に活用することにより,テキスト記述子をリアルなビジュアルコンテンツに変換する革新的な手法を提案する。 我々の厳格に組み立てられたデータセットには、果物、植物、雑草から作物を区別するシナリオなど、幅広い農業要素が含まれています。 平均二乗誤差(MSE)、ピーク信号-雑音比(PSNR)、特徴類似度指数(FSIM)などにより,AI生成画像の品質と精度を評価した。 その結果、農業における可視化プロセスの強化、より情報のある意思決定支援、資源配分改善におけるDALLE 2モデルの重要性が明らかになった。 この研究の結果は、精密農業の領域におけるAI主導の変革の差し迫った台頭を浮き彫りにしている。

This study investigates the potential impact of artificial intelligence (AI) on the enhancement of visualization processes in the agricultural sector, using the advanced AI image generator, DALLE 2, developed by OpenAI. By synergistically utilizing the natural language processing proficiency of chatGPT and the generative prowess of the DALLE 2 model, which employs a Generative Adversarial Networks (GANs) framework, our research offers an innovative method to transform textual descriptors into realistic visual content. Our rigorously assembled datasets include a broad spectrum of agricultural elements such as fruits, plants, and scenarios differentiating crops from weeds, maintained for AI-generated versus original images. The quality and accuracy of the AI-generated images were evaluated via established metrics including mean squared error (MSE), peak signal-to-noise ratio (PSNR), and feature similarity index (FSIM). The results underline the significant role of the DALLE 2 model in enhancing visualization processes in agriculture, aiding in more informed decision-making, and improving resource distribution. The outcomes of this research highlight the imminent rise of an AI-led transformation in the realm of precision agriculture.
翻訳日:2023-07-19 17:40:01 公開日:2023-07-17
# FathomNet2023競合データセット

The FathomNet2023 Competition Dataset ( http://arxiv.org/abs/2307.08781v1 )

ライセンス: Link先を確認
Eric Orenstein, Kevin Barnard, Lonny Lundsten, Genevi\`eve Patterson, Benjamin Woodward, and Kakani Katija(参考訳) 海洋科学者は何十年も海洋生物を研究するために視覚データを収集してきた。 これらの画像とビデオは、基本的な科学と環境モニタリングの両方に非常に価値がある。 これらのデータを自動で処理するツールもあるが、サンプル集団の極端な変動、画像の品質、海洋の視覚的なサンプリングに共通する生息地特性を処理できるツールは存在しない。 このような分布シフトは、非常に短い物理的距離と狭い時間窓で起こりうる。 画像やビデオのシーケンスが新しい生物、珍しい動物のコレクションを含むことを認識できるモデルを作成することは、海の視覚データを完全に活用する上で非常に重要である。 fathomnet2023コンペティションデータセットは、ターゲットデータ内の動物の集合がトレーニングデータと異なる現実的なシナリオを示す。 課題は、ターゲット画像中の生物を識別し、サンプル外かどうかを評価することである。

Ocean scientists have been collecting visual data to study marine organisms for decades. These images and videos are extremely valuable both for basic science and environmental monitoring tasks. There are tools for automatically processing these data, but none that are capable of handling the extreme variability in sample populations, image quality, and habitat characteristics that are common in visual sampling of the ocean. Such distribution shifts can occur over very short physical distances and in narrow time windows. Creating models that are able to recognize when an image or video sequence contains a new organism, an unusual collection of animals, or is otherwise out-of-sample is critical to fully leverage visual data in the ocean. The FathomNet2023 competition dataset presents a realistic scenario where the set of animals in the target data differs from the training data. The challenge is both to identify the organisms in a target image and assess whether it is out-of-sample.
翻訳日:2023-07-19 17:39:40 公開日:2023-07-17
# 類似性 Min-Max: ゼロショットデイナイトドメイン適応

Similarity Min-Max: Zero-Shot Day-Night Domain Adaptation ( http://arxiv.org/abs/2307.08779v1 )

ライセンス: Link先を確認
Rundong Luo, Wenjing Wang, Wenhan Yang, Jiaying Liu(参考訳) 低照度条件は人間の視覚経験を妨げるだけでなく、下流の視覚タスクにおけるモデルの性能を低下させる。 既存の作業は昼夜のドメイン適応において著しく進歩するが、それらはタスク固有の夜間データセットから派生したドメイン知識に大きく依存する。 本稿では、夜間データに依存しないゼロショットの昼夜領域適応という、境界適用性を伴うより複雑なシナリオに挑戦する。 画像レベルの翻訳やモデルレベルの適応を強調する以前のゼロショット適応アプローチとは異なり、これらを統一されたフレームワークで考慮した類似性min-maxパラダイムを提案する。 画像レベルでは、最小限の機能の類似性に向かって画像を暗くして、ドメインギャップを拡大します。 そして、モデルレベルでは、暗い画像と通常の光との特徴の類似性を最大化し、より良いモデル適応を行う。 私たちの知る限りでは、この研究は両方の側面を共同で最適化する先駆的な取り組みであり、結果としてモデルの一般化性が大幅に向上します。 提案手法は,分類,意味セグメンテーション,視覚位置認識,映像行動認識など,様々な夜間視覚タスクにおいて有効性と幅広い適用性を示す。 コードと事前トレーニングされたモデルは、https://red-fairy.github.io/zeroshotdaynightda-webpage/で入手できる。

Low-light conditions not only hamper human visual experience but also degrade the model's performance on downstream vision tasks. While existing works make remarkable progress on day-night domain adaptation, they rely heavily on domain knowledge derived from the task-specific nighttime dataset. This paper challenges a more complicated scenario with border applicability, i.e., zero-shot day-night domain adaptation, which eliminates reliance on any nighttime data. Unlike prior zero-shot adaptation approaches emphasizing either image-level translation or model-level adaptation, we propose a similarity min-max paradigm that considers them under a unified framework. On the image level, we darken images towards minimum feature similarity to enlarge the domain gap. Then on the model level, we maximize the feature similarity between the darkened images and their normal-light counterparts for better model adaptation. To the best of our knowledge, this work represents the pioneering effort in jointly optimizing both aspects, resulting in a significant improvement of model generalizability. Extensive experiments demonstrate our method's effectiveness and broad applicability on various nighttime vision tasks, including classification, semantic segmentation, visual place recognition, and video action recognition. Code and pre-trained models are available at https://red-fairy.github.io/ZeroShotDayNightDA-Webpage/.
翻訳日:2023-07-19 17:39:28 公開日:2023-07-17
# GEAR: 汎用的で効率的なツール解決による言語モデルの拡張

GEAR: Augmenting Language Models with Generalizable and Efficient Tool Resolution ( http://arxiv.org/abs/2307.08775v1 )

ライセンス: Link先を確認
Yining Lu and Haoping Yu and Daniel Khashabi(参考訳) 外部ツールを使用するための大型言語モデル(llm)の拡張は、さまざまなタスクにおけるパフォーマンスを向上させる。 しかしながら、タスク固有のツール使用のデモでは、大規模LLMへのコールが多すぎるため、その一般化性と計算コストが制限される。 GEARは,タスク固有の実演に頼らず,ツールの使用を必要とする様々なタスクに一般化可能な,計算効率のよいクエリツールグラウンドアルゴリズムである。 GEARは、ツール接地と実行をそれぞれ小言語モデル(SLM)とLLMに委譲し、質問レベルと回答レベルのセマンティックとパターンベースの評価を活用して、一般化可能なツール接地を実現する。 6つのダウンストリームタスクにまたがる14のデータセット上でギアを評価し,新しいタスクやツール,slmの汎用性を示す。 効率性は高いが、GEAR は LLM プロンプトを用いた以前の戦略に比べてツール接地精度が向上し、計算コストの削減により下流の精度が向上する。 例えば,gear-augmented gpt-j と gpt-3 がツール-augmented ベースラインよりも優れたツール使用率を示す。

Augmenting large language models (LLM) to use external tools enhances their performance across a variety of tasks. However, prior works over-rely on task-specific demonstration of tool use that limits their generalizability and computational cost due to making many calls to large-scale LLMs. We introduce GEAR, a computationally efficient query-tool grounding algorithm that is generalizable to various tasks that require tool use while not relying on task-specific demonstrations. GEAR achieves better efficiency by delegating tool grounding and execution to small language models (SLM) and LLM, respectively; while leveraging semantic and pattern-based evaluation at both question and answer levels for generalizable tool grounding. We evaluate GEAR on 14 datasets across 6 downstream tasks, demonstrating its strong generalizability to novel tasks, tools and different SLMs. Despite offering more efficiency, GEAR achieves higher precision in tool grounding compared to prior strategies using LLM prompting, thus improving downstream accuracy at a reduced computational cost. For example, we demonstrate that GEAR-augmented GPT-J and GPT-3 outperform counterpart tool-augmented baselines because of better tool use.
翻訳日:2023-07-19 17:39:07 公開日:2023-07-17
# 保全のためのAI支援意思決定ワークショップの振り返り

Reflections from the Workshop on AI-Assisted Decision Making for Conservation ( http://arxiv.org/abs/2307.08774v1 )

ライセンス: Link先を確認
Lily Xu, Esther Rolf, Sara Beery, Joseph R. Bennett, Tanya Berger-Wolf, Tanya Birch, Elizabeth Bondi-Kelly, Justin Brashares, Melissa Chapman, Anthony Corso, Andrew Davies, Nikhil Garg, Angela Gaylard, Robert Heilmayr, Hannah Kerner, Konstantin Klemmer, Vipin Kumar, Lester Mackey, Claire Monteleoni, Paul Moorcroft, Jonathan Palmer, Andrew Perrault, David Thau, Milind Tambe(参考訳) 本稿では,2022年10月20日から21日にかけてハーバード大学の計算社会研究センターが主催する,AI支援による保全のための意思決定ワークショップのプレゼンテーションと議論の要点を合成する。 資源割り当て、計画、生物多様性の保全のための介入に関する重要なオープンな研究課題を特定し、AIソリューションだけでなく、新しい方法論の進歩も必要としている。 ワークショップの講演や議論の要約に加えて、この文書が、生態学者、環境保全意思決定者、AI研究者の協力を通じて、現実世界の保全課題を優先順位付けするためのアルゴリズムによる意思決定アプローチの拡張を促進するための、行動として機能することを願っています。

In this white paper, we synthesize key points made during presentations and discussions from the AI-Assisted Decision Making for Conservation workshop, hosted by the Center for Research on Computation and Society at Harvard University on October 20-21, 2022. We identify key open research questions in resource allocation, planning, and interventions for biodiversity conservation, highlighting conservation challenges that not only require AI solutions, but also require novel methodological advances. In addition to providing a summary of the workshop talks and discussions, we hope this document serves as a call-to-action to orient the expansion of algorithmic decision-making approaches to prioritize real-world conservation challenges, through collaborative efforts of ecologists, conservation decision-makers, and AI researchers.
翻訳日:2023-07-19 17:38:45 公開日:2023-07-17
# UPSCALE: 制約のないチャネルプルーニング

UPSCALE: Unconstrained Channel Pruning ( http://arxiv.org/abs/2307.08771v1 )

ライセンス: Link先を確認
Alvin Wan, Hanxiang Hao, Kaushik Patnaik, Yueyang Xu, Omer Hadad, David G\"uera, Zhile Ren, Qi Shan(参考訳) ニューラルネットワークのサイズと複雑さが大きくなるにつれて、推論速度は低下する。 これに対抗するために、最も効果的な圧縮技術であるチャネルプルーニングは、重みからチャネルを取り除く。 しかし、モデルのマルチブランチセグメントの場合、チャネル削除は推論時のメモリコピーを導入することができる。 結果として、これらのコピーは推論遅延を増加させる -- プルーンドモデルが未実行モデルよりも遅くなるように。 回避策として、プルーナーは伝統的に、あるチャネルを一緒にプルーニングすることを制約する。 これはメモリのコピーを完全に排除するが、私たちが示すように、精度を著しく損なう。 制約を取り除いたり、レイテンシを増大させたり、制約を追加したり、正確性を損なったりします。 その結果,(1)メモリコピーの削減による遅延低減,(2)制約の除去による精度向上,といった課題が検討された。 この知見を用いて、任意のプルーニングパターンでモデルをプルーする汎用アルゴリズムUPSCALEを設計する。 既存のプルーナから制約を取り除き、トレーニング後のプルーナモデルのイメージネットの精度を平均2.1ポイント向上し、dangnet (+16.9)、 efficientnetv2 (+7.9)、resnet (+6.2) の恩恵を受ける。 さらに、チャネルを並べ替えることで、UPSCALEはベースラインエクスポートで最大2倍の推論速度を改善する。

As neural networks grow in size and complexity, inference speeds decline. To combat this, one of the most effective compression techniques -- channel pruning -- removes channels from weights. However, for multi-branch segments of a model, channel removal can introduce inference-time memory copies. In turn, these copies increase inference latency -- so much so that the pruned model can be slower than the unpruned model. As a workaround, pruners conventionally constrain certain channels to be pruned together. This fully eliminates memory copies but, as we show, significantly impairs accuracy. We now have a dilemma: Remove constraints but increase latency, or add constraints and impair accuracy. In response, our insight is to reorder channels at export time, (1) reducing latency by reducing memory copies and (2) improving accuracy by removing constraints. Using this insight, we design a generic algorithm UPSCALE to prune models with any pruning pattern. By removing constraints from existing pruners, we improve ImageNet accuracy for post-training pruned models by 2.1 points on average -- benefiting DenseNet (+16.9), EfficientNetV2 (+7.9), and ResNet (+6.2). Furthermore, by reordering channels, UPSCALE improves inference speeds by up to 2x over a baseline export.
翻訳日:2023-07-19 17:38:31 公開日:2023-07-17
# 数学問題に対する言語モデルの性能向上のための混合政策

A mixed policy to improve performance of language models on math problems ( http://arxiv.org/abs/2307.08767v1 )

ライセンス: Link先を確認
Gang Chen(参考訳) 数学の問題を解くとき、ほとんどの言語モデルは、条件付き確率に応じて次の単語を予測するためにサンプリング戦略を取る。 数学の推論のステップでは、間違った答えを生み出すかもしれません。 数学の問題が決定論的であることを考えると,強化学習を用いて数学問題を解決するための混合政策探索手法を提案する。 抽象レベルは確率で次のトークンを探索し、第二レベルは決定論的である。 具体的には、抽象レベルポリシーは、トークンが演算子であるか、それとも確率サンプリングでオペランドであるかを判断するが、第2レベルは、最も高いスコアで次のトークンを選択することは決定論的である。 提案手法をGPT-2モデルを用いてGSM8Kデータセット上でテストし,2\%以上の性能向上を示す。 私たちの実装はhttps://github.com/vividitytech/math_lm_rlで利用可能です。

When to solve math problems, most language models take a sampling strategy to predict next word according conditional probabilities. In the math reasoning step, it may generate wrong answer. Considering math problems are deterministic, we propose a mixed policy exploration approach to solve math problems with reinforcement learning. In peculiar, we propose a two level token exploration policy: the abstract level explores next token with probability and the second level is deterministic. Specifically, the abstract level policy will decide whether the token is operator or operand with probability sampling, while the second level is deterministic to select next token with the highest score in a greedy way. We test our method on GSM8K dataset with GPT-2 model, and demonstrate more than $2\%$ performance gain. Our implementation is available at https://github.com/vividitytech/math_lm_rl.
翻訳日:2023-07-19 17:38:08 公開日:2023-07-17
# ウェアラブルデバイスを用いた心血管バイオマーカーモニタリングのための光胸撮影信号の品質評価

Quality Assessment of Photoplethysmography Signals For Cardiovascular Biomarkers Monitoring Using Wearable Devices ( http://arxiv.org/abs/2307.08766v1 )

ライセンス: Link先を確認
Felipe M. Dias, Marcelo A. F. Toledo, Diego A. C. Cardenas, Douglas A. Almeida, Filipe A. C. Oliveira, Estela Ribeiro, Jose E. Krieger, Marco A. Gutierrez(参考訳) photoplethysmography(ppg)は、微小血管床の血液量の変化を測定する非侵襲的技術である。 パルスオキシメータや手首に装着した心拍モニターなどの医療機器で、心臓血管の血行動態をモニターするために一般的に用いられる。 PPGは血管収縮や血管拡張などの病態を示すパラメータ(心拍数、脈波波形、末梢灌流など)の評価を可能にし、微小血管血流に関する情報を提供するので、心臓血管の健康をモニタリングするための貴重なツールとなる。 しかし、PDGはその正確さと信頼性に影響を及ぼす可能性のある様々な要因、特にモーションアーティファクト、皮膚色素化、血管運動などの連続的な監視にウェアラブルデバイスを使用する場合である。 本研究では,勾配ブースティング(XGBoostとCatBoost)とランダムフォレスト(RF)アルゴリズムに基づいて,PPG信号から27種類の統計的特徴を抽出し,PPG信号の品質を良質または劣悪な品質と評価した。 公開データセットのppg時系列を用いて感度(se)、正の予測値(ppv)、f1-score(f1)を用いたアルゴリズムsの性能評価を行った。 XGBoostはSe, PPV, F1スコアが94.4, 95.6, 95.0, CatBoostは94.7, 95.9, 95.3, RFは93.7, 91.3, 92.5であった。 文献で報告されている最先端技術に匹敵するが,よりシンプルなモデルを用いて,MLモデルが遠隔・非侵襲・連続計測装置の開発に有効であることを示す。

Photoplethysmography (PPG) is a non-invasive technology that measures changes in blood volume in the microvascular bed of tissue. It is commonly used in medical devices such as pulse oximeters and wrist worn heart rate monitors to monitor cardiovascular hemodynamics. PPG allows for the assessment of parameters (e.g., heart rate, pulse waveform, and peripheral perfusion) that can indicate conditions such as vasoconstriction or vasodilation, and provides information about microvascular blood flow, making it a valuable tool for monitoring cardiovascular health. However, PPG is subject to a number of sources of variations that can impact its accuracy and reliability, especially when using a wearable device for continuous monitoring, such as motion artifacts, skin pigmentation, and vasomotion. In this study, we extracted 27 statistical features from the PPG signal for training machine-learning models based on gradient boosting (XGBoost and CatBoost) and Random Forest (RF) algorithms to assess quality of PPG signals that were labeled as good or poor quality. We used the PPG time series from a publicly available dataset and evaluated the algorithm s performance using Sensitivity (Se), Positive Predicted Value (PPV), and F1-score (F1) metrics. Our model achieved Se, PPV, and F1-score of 94.4, 95.6, and 95.0 for XGBoost, 94.7, 95.9, and 95.3 for CatBoost, and 93.7, 91.3 and 92.5 for RF, respectively. Our findings are comparable to state-of-the-art reported in the literature but using a much simpler model, indicating that ML models are promising for developing remote, non-invasive, and continuous measurement devices.
翻訳日:2023-07-19 17:37:53 公開日:2023-07-17
# AI強化シミュレーションによるオペレータ誘導

Operator Guidance Informed by AI-Augmented Simulations ( http://arxiv.org/abs/2307.08810v1 )

ライセンス: Link先を確認
Samuel J. Edwards and Michael Levine(参考訳) 本稿では,Long Short-Term Memory (LSTM) ニューラルネットワークを用いた多要素データ適応型手法を提案する。 この研究には、高速で低忠実なボリュームベースツールSimpleCodeと、Large Amplitude Motion Program(LAMP)と呼ばれる高忠実なツールが使用される。 単純コードとランプデータは、北大西洋における共通の双方向海洋条件によって訓練データとして生成された。 LAMP船の動き応答データを用いてLSTMネットワークをトレーニングした後、サンプル経路をトラバースし、ランダムにサンプルした過去の天気をSimpleCodeとLSTMネットワークに入力し、高い忠実度結果と比較した。

This paper will present a multi-fidelity, data-adaptive approach with a Long Short-Term Memory (LSTM) neural network to estimate ship response statistics in bimodal, bidirectional seas. The study will employ a fast low-fidelity, volume-based tool SimpleCode and a higher-fidelity tool known as the Large Amplitude Motion Program (LAMP). SimpleCode and LAMP data were generated by common bi-modal, bi-directional sea conditions in the North Atlantic as training data. After training an LSTM network with LAMP ship motion response data, a sample route was traversed and randomly sampled historical weather was input into SimpleCode and the LSTM network, and compared against the higher fidelity results.
翻訳日:2023-07-19 17:31:20 公開日:2023-07-17
# ローカルかグローバルか:限定ラベルによるフェデレーション学習のための選択的知識同化

Local or Global: Selective Knowledge Assimilation for Federated Learning with Limited Labels ( http://arxiv.org/abs/2307.08809v1 )

ライセンス: Link先を確認
Yae Jee Cho and Gauri Joshi and Dimitrios Dimitriadis(参考訳) 既存のflメソッドの多くは、完全なラベル付きデータを持つクライアントを想定しているが、現実的な設定では、ラベル付けのコストと手間のかかるプロセスのために、クライアントは限定的なラベルを持っている。 限定ラベル付きローカルデータは、しばしば、未ラベルデータとのクラス分配ミスマッチなど、より大きな未ラベルのローカルデータに対する一般化能力の低いローカルモデルにつながる。 結果として、クライアントは、ラベル付けされていないデータを活用するためにクライアント間でトレーニングされたグローバルモデルの恩恵を受けることができるが、クライアント間のデータの均一性のため、これは難しくなる。 そこで本研究では,クライアントがローカルモデルやグローバルモデルを選択的に選択し,ラベルのないデータをデータの専門家のどちらかに応じて擬似ラベル付けするfeedlabelを提案する。 さらに, ローカルモデルとグローバルモデルの両方の知識をグローバル局所整合正則化により活用し, ラベルのないデータに対して同一の擬似ラベルを持つ場合の出力のばらつきを最小化する。 他の半教師付きFLベースラインとは異なり、本手法では局所的あるいは大域的モデル以外の専門家は必要とせず、通信するパラメータも必要としない。 サーバラベル付きデータや完全なラベル付きクライアントも想定していません。 クロスデバイスとクロスサイロの両方の設定において、FedLabelは、他の半教師付きFLベースラインを8-24-%$で上回り、標準のフル教師付きFLベースライン(100-%$ラベル付きデータ)をわずか5-20-%$で上回ります。

Many existing FL methods assume clients with fully-labeled data, while in realistic settings, clients have limited labels due to the expensive and laborious process of labeling. Limited labeled local data of the clients often leads to their local model having poor generalization abilities to their larger unlabeled local data, such as having class-distribution mismatch with the unlabeled data. As a result, clients may instead look to benefit from the global model trained across clients to leverage their unlabeled data, but this also becomes difficult due to data heterogeneity across clients. In our work, we propose FedLabel where clients selectively choose the local or global model to pseudo-label their unlabeled data depending on which is more of an expert of the data. We further utilize both the local and global models' knowledge via global-local consistency regularization which minimizes the divergence between the two models' outputs when they have identical pseudo-labels for the unlabeled data. Unlike other semi-supervised FL baselines, our method does not require additional experts other than the local or global model, nor require additional parameters to be communicated. We also do not assume any server-labeled data or fully labeled clients. For both cross-device and cross-silo settings, we show that FedLabel outperforms other semi-supervised FL baselines by $8$-$24\%$, and even outperforms standard fully supervised FL baselines ($100\%$ labeled data) with only $5$-$20\%$ of labeled data.
翻訳日:2023-07-19 17:31:06 公開日:2023-07-17
# ナノスケール濃縮ヘリウム3の超流動相転移

Superfluid phase transition of nanoscale-confined helium-3 ( http://arxiv.org/abs/2307.08808v1 )

ライセンス: Link先を確認
Canon Sun, Adil Attar, Igor Boettcher(参考訳) 最近の実験で実現した1次元のナノスケール閉じ込め下でのヘリウム3の超流動相転移を理論的に検討した。 3次元系の3x3複素行列秩序パラメータの代わりに、準2次元超流動は還元された3x2複素行列によって記述される。 オーダーパラメータの値に関係なく、nodal準粒子スペクトルを特徴とする。 3x2オーダーのパラメータの起源は、2粒子のクーパー問題によって説明され、クーパー対が$p_x$ と $p_y$ の軌道において、$p_z$ の軌道よりも低い境界状態エネルギーを持つことが示され、相転移におけるエネルギー的に有利な役割を示唆する。 次に平均場近似における拘束下でのランダウ自由エネルギーを計算し、3x2次パラメータの凝縮臨界温度が他の競合相よりも大きいことを示す。 平均場自由エネルギーの正確な最小化により、平均場理論は、A相と平面相という対称性に関係のない遷移において、正確に2つのエネルギー的に退化する超流動秩序を予測する。 平均場近似を超えて、強結合補正は実験で観測されるa相を好むが、弱い結合摂動再正規化群は平面相が安定であると予測する。

We theoretically investigate the superfluid phase transition of helium-3 under nanoscale confinement of one spatial dimension realized in recent experiments. Instead of the 3x3 complex matrix order parameter found in the three-dimensional system, the quasi two-dimensional superfluid is described by a reduced 3x2 complex matrix. It features a nodal quasiparticle spectrum, regardless of the value of the order parameter. The origin of the 3x2 order parameter is first illustrated via the two-particle Cooper problem, where Cooper pairs in the $p_x$ and $p_y$ orbitals are shown to have a lower bound state energy than those in $p_z$ orbitals, hinting at their energetically favorable role at the phase transition. We then compute the Landau free energy under confinement within the mean-field approximation and show that the critical temperature for condensation of the 3x2 order parameter is larger than for other competing phases. Through exact minimization of the mean-field free energy, we show that mean-field theory predicts precisely two energetically degenerate superfluid orders to emerge at the transition that are not related by symmetry: the A-phase and the planar phase. Beyond the mean-field approximation, we show that strong-coupling corrections favor the A-phase observed in experiment, whereas weak-coupling perturbative renormalization group predicts the planar phase to be stable.
翻訳日:2023-07-19 17:30:35 公開日:2023-07-17
# 選択辞書学習による異常検出

Anomaly Detection with Selective Dictionary Learning ( http://arxiv.org/abs/2307.08807v1 )

ライセンス: Link先を確認
Denis C. Ilie-Ablachim, Bogdan Dumitrescu(参考訳) 本稿では,辞書学習(DL)とカーネル辞書学習(KDL)に基づく新たな異常検出手法を提案する。 主な貢献は、既知のdlアルゴリズムとkdlアルゴリズムを非教師なし法(outlier detection)という形で適応させることである。 本稿では,大規模なカーネル行列のため,大規模なデータセットの問題に有用なカーネルバージョン(RKDL)を提案する。 また、トレーニング手順から外れ値を取り除くことを目的としたランダムな信号選択により、DLとRKDLの手法を改善した。 全てのアルゴリズムは異常検出ツールボックスに導入され、標準ベンチマーク結果と比較される。

In this paper we present new methods of anomaly detection based on Dictionary Learning (DL) and Kernel Dictionary Learning (KDL). The main contribution consists in the adaption of known DL and KDL algorithms in the form of unsupervised methods, used for outlier detection. We propose a reduced kernel version (RKDL), which is useful for problems with large data sets, due to the large kernel matrix. We also improve the DL and RKDL methods by the use of a random selection of signals, which aims to eliminate the outliers from the training procedure. All our algorithms are introduced in an anomaly detection toolbox and are compared to standard benchmark results.
翻訳日:2023-07-19 17:30:10 公開日:2023-07-17
# リボスイッチの自動設計に向けて

Towards Automated Design of Riboswitches ( http://arxiv.org/abs/2307.08801v1 )

ライセンス: Link先を確認
Frederic Runge, J\"org K. H. Franke, Frank Hutter(参考訳) 新規リボスイッチの発見のための実験的スクリーニングと選択パイプラインは、高価で、時間がかかり、非効率である。 計算手法を用いて画面の候補数を減らし、これらのコストを大幅に削減することができる。 しかし、既存の計算手法はそのような初期スクリーニングライブラリの設計の全ての要件を完全に満たしていない。 本研究では,多様な可変長候補のRNAフォーカスライブラリを提供する新しい方法であるlibLEARNAを提案する。 提案する構造ベース設計手法はグローバル特性と所望のシーケンスと構造の特徴を考慮に入れている。 本手法の利点は,以前に公開されたプロトコルに従ってtheophylline riboswitchライブラリを設計し,30%のユニークな高品質な候補を得ることである。

Experimental screening and selection pipelines for the discovery of novel riboswitches are expensive, time-consuming, and inefficient. Using computational methods to reduce the number of candidates for the screen could drastically decrease these costs. However, existing computational approaches do not fully satisfy all requirements for the design of such initial screening libraries. In this work, we present a new method, libLEARNA, capable of providing RNA focus libraries of diverse variable-length qualified candidates. Our novel structure-based design approach considers global properties as well as desired sequence and structure features. We demonstrate the benefits of our method by designing theophylline riboswitch libraries, following a previously published protocol, and yielding 30% more unique high-quality candidates.
翻訳日:2023-07-19 17:30:01 公開日:2023-07-17
# regulAS:RNA-Seqデータを用いた代替スプライシングレギュロームの統合解析のためのバイオインフォマティクスツール

regulAS: A Bioinformatics Tool for the Integrative Analysis of Alternative Splicing Regulome using RNA-Seq data ( http://arxiv.org/abs/2307.08800v1 )

ライセンス: Link先を確認
Sofya Lipnitskaya(参考訳) regulasソフトウェアパッケージは、がんや健康なヒトドナーからの大規模なrna-seqデータの統合分析を通じて、スプライシング変化の制御機構を調査するために、計算生物学研究者を支援するために設計されたバイオインフォマティクスツールである。 このテクニカルレポートは、コア機能、基本モジュール、実験構成、さらなる拡張性とカスタマイズに焦点を当てた、regulASの包括的な概要を提供する。 regulASのコア機能は、計算実験の自動化、効率的な結果の保存と処理、ワークフロー管理の効率化を可能にする。 統合基本モジュールはregulaを拡張し、パブリックマルチオミクスのucsc xenaデータリポジトリからのrna-seqデータ検索、scikit-learnパッケージを用いた予測モデリングと機能ランキング機能、遺伝子発現プロファイルの解析のためのフレキシブルレポーティング生成、組織とがんタイプにまたがる代替スプライシング収差の関連する変調といった機能を備えている。 実験構成はHydraとOmegaConfライブラリでYAMLファイルを通じて処理され、ユーザフレンドリなアプローチを提供する。 さらにregulasは、特別なタスクを処理するカスタムモジュールの開発と統合を可能にする。 結論として、regulasは代替スプライシングとがん生物学の研究のための自動化ソリューションを提供し、効率の向上、再現性、実験設計のカスタマイズを可能にし、パイプラインの拡張性により研究者は特定のニーズに合わせてソフトウェアパッケージをさらに調整することができる。 ソースコードはMITライセンスでhttps://github.com/slipnitskaya/regulASで入手できる。

The regulAS software package is a bioinformatics tool designed to support computational biology researchers in investigating regulatory mechanisms of splicing alterations through integrative analysis of large-scale RNA-Seq data from cancer and healthy human donors, characterized by TCGA and GTEx projects. This technical report provides a comprehensive overview of regulAS, focusing on its core functionality, basic modules, experiment configuration, further extensibility and customisation. The core functionality of regulAS enables the automation of computational experiments, efficient results storage and processing, and streamlined workflow management. Integrated basic modules extend regulAS with features such as RNA-Seq data retrieval from the public multi-omics UCSC Xena data repository, predictive modeling and feature ranking capabilities using the scikit-learn package, and flexible reporting generation for analysing gene expression profiles and relevant modulations of alternative splicing aberrations across tissues and cancer types. Experiment configuration is handled through YAML files with the Hydra and OmegaConf libraries, offering a user-friendly approach. Additionally, regulAS allows for the development and integration of custom modules to handle specialized tasks. In conclusion, regulAS provides an automated solution for alternative splicing and cancer biology studies, enhancing efficiency, reproducibility, and customization of experimental design, while the extensibility of the pipeline enables researchers to further tailor the software package to their specific needs. Source code is available under the MIT license at https://github.com/slipnitskaya/regulAS.
翻訳日:2023-07-19 17:29:50 公開日:2023-07-17
# デコヒーレンス時間スケールとH\"オーマンダ条件

Decoherence Time Scales and the H\"ormander condition ( http://arxiv.org/abs/2307.08799v1 )

ライセンス: Link先を確認
Roman Schubert and Thomas Plastow(参考訳) 我々は、GKLS方程式によって記述されたオープン量子系を考察し、デコヒーレンスの発生に関心を持つ。 特に私たちは、システムのある程度の自由度が環境と結合している状況に関心を持ち、ノイズがシステムを通過するのがどれくらい速く、最終的にすべての自由度に影響するのかを理解したいと思っています。 これは、リンドブラッド作用素のハミルトニアンベクトル場と、pdeの理論から知られている低楕円性の条件である内部ハミルトニアン(英語版)の交換子上の条件である h\"ormander condition の項で理解できる。 ガウス量子チャネルの場合、この条件はデコヒーレンスの発生の遅れを招き、デコヒーレンス自由部分系を検出するのにも使えることを示す。

We consider an open quantum system described by the GKLS equation and we are interested in the onset of decoherence. We are in particulary interested in situations where only some degrees of freedom of the system are coupled to the environment, and we want to understand if, and how fast, the noise travels through the system and eventually affects all degrees of freedom. We find that this can be understood in terms of the H\"ormander condition, a condition on the commutators of the Hamiltonian vectorfields of the Lindblad operators and the internal Hamiltonian, which is a condition for hypoellipticity known from the theory of PDE's. We show that for Gaussian quantum channels this condition leads to a delay in the onset of decoherence and can as well be used to detect decoherence free subsystems.
翻訳日:2023-07-19 17:29:13 公開日:2023-07-17
# カーネル辞書学習の削減

Reduced Kernel Dictionary Learning ( http://arxiv.org/abs/2307.08798v1 )

ライセンス: Link先を確認
Denis C. Ilie-Ablachim, Bogdan Dumitrescu(参考訳) 本稿では,カーネル辞書学習(KDL)問題における縮小サイズの非線形表現を学習するための新しいアルゴリズムを提案する。 標準のkdlは、データセットが大きい場合、カーネルマトリックスの大きなサイズの欠点がある。 カーネルサイズを減らすいくつかの方法があり、特にnystr\"omサンプリングがある。 本稿では,入力信号のスパース表現を訓練したカーネルベクトルを得る,辞書学習の精神における新しい手法を提案する。 さらに、勾配降下ステップを用いて、kdlプロセスにおけるカーネルベクトルを直接最適化する。 我々は,カーネルベクトルが少ないにもかかわらず,アルゴリズムがより良い表現を提供することができることを示すとともに,KDLに関して実行時間を短縮することを示す。

In this paper we present new algorithms for training reduced-size nonlinear representations in the Kernel Dictionary Learning (KDL) problem. Standard KDL has the drawback of a large size of the kernel matrix when the data set is large. There are several ways of reducing the kernel size, notably Nystr\"om sampling. We propose here a method more in the spirit of dictionary learning, where the kernel vectors are obtained with a trained sparse representation of the input signals. Moreover, we optimize directly the kernel vectors in the KDL process, using gradient descent steps. We show with three data sets that our algorithms are able to provide better representations, despite using a small number of kernel vectors, and also decrease the execution time with respect to KDL.
翻訳日:2023-07-19 17:28:57 公開日:2023-07-17
# 自由意志のない量子ステアリング

Quantum steering without free will ( http://arxiv.org/abs/2307.08797v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 独立したソースを持つ量子ネットワークは、入力なしで量子非局所性の観測を可能にする。 したがって、測定の不整合性は、独立したソースにアクセスする場合、量子非局所性を観測するために必要なものではない。 ここでは、任意の量子非局所性を観測できる入力を使わずに最小のシナリオを調べる。 古典的に相関する可能性のある2つのソースを持つ2つのパーティであっても、その1つが信頼されている場合、特に量子ステアリングと呼ばれる量子非局所性(quantum steering)の一形態を、入力のないネットワークで確認することができる。 この効果をスワップステアリングと呼ぶ。 この研究で示されたシナリオは、そのような効果を観察するには最小限です。 したがって、量子ステアリングは観測できるがベル非局所性は観測できないシナリオが存在する。 さらにスワップステアリングを観察する線形証人を構築した。

Quantum networks with independent sources allow the observation of quantum nonlocality without inputs. Consequently, the incompatibility of measurements is not a necessity for observing quantum nonlocality when one has access to independent sources. Here we investigate the minimal scenario without inputs where one can observe any form of quantum nonlocality. We show that even two parties with two sources that might be classically correlated can witness a form of quantum nonlocality, in particular quantum steering, in networks without inputs if one of the parties is trusted, that is, performs a fixed known measurement. We term this effect as swap-steering. The scenario presented in this work is minimal to observe such an effect. Consequently, a scenario exists where one can observe quantum steering but not Bell non-locality. We further construct a linear witness to observe swap-steering.
翻訳日:2023-07-19 17:28:47 公開日:2023-07-17
# 非一貫性カーネル辞書学習による分類

Classification with Incoherent Kernel Dictionary Learning ( http://arxiv.org/abs/2307.08796v1 )

ライセンス: Link先を確認
Denis C. Ilie-Ablachim, Bogdan Dumitrescu(参考訳) 本稿では,辞書学習(DL)に基づく新しい分類手法を提案する。 主な貢献は、標準線形のdlから派生したincoherent dlのカーネルバージョンである。 また,表現更新に関するAK-SVDアルゴリズムの改良も提案する。 我々のアルゴリズムは、いくつかの一般的な分類問題のデータベースでテストされている。

In this paper we present a new classification method based on Dictionary Learning (DL). The main contribution consists of a kernel version of incoherent DL, derived from its standard linear counterpart. We also propose an improvement of the AK-SVD algorithm concerning the representation update. Our algorithms are tested on several popular databases of classification problems.
翻訳日:2023-07-19 17:28:35 公開日:2023-07-17
# 個人化フェデレーション学習のためのプライバシ保護型患者クラスタリング

Privacy-preserving patient clustering for personalized federated learning ( http://arxiv.org/abs/2307.08847v1 )

ライセンス: Link先を確認
Ahmed Elhussein and Gamze Gursoy(参考訳) Federated Learning(FL)は、複数の組織が中央サーバーとデータを共有せずにモデルをトレーニングできる機械学習フレームワークである。 しかし、データが独立に分散された(非IID)場合、パフォーマンスが著しく低下する。 これは、患者数の変動が病院間での分布の差異に大きく寄与する医療環境における問題である。 パーソナライズされたflは、サイト固有の分布の違いを説明することでこの問題に対処している。 パーソナライズされたFL変種であるClustered FLは、患者を病院全体のグループに分類し、各グループで個別のモデルを訓練することでこの問題に対処するために使用された。 しかしながら、クラスタリングプロセスでは患者レベルの情報を交換する必要があるため、プライバシの懸念は課題として残った。 これは以前、集約されたデータを使ってクラスタを形成し、不正確なグループとパフォーマンス劣化を引き起こした。 本研究では,プライバシを保護しながら患者をクラスタ化できる新しいクラスタ型FLフレームワークであるプライバシ保存コミュニティベースフェデレーション機械学習(PCBFL)を提案する。 PCBFLは暗号化技術であるSecure Multiparty Computationを使用して、病院全体の患者レベルの類似度スコアを安全に計算する。 次に、eicuデータセットから20のサイトを用いたフェデレーション死亡予測モデルを訓練し、pcbflを評価する。 我々はPCBFLの性能向上と従来のクラスタ化FLフレームワークを比較した。 以上の結果より,PCBFLは低,中,高リスク患者の臨床的に有意なコホートを形成することができた。 PCBFLは、従来のクラスタ化されたFLフレームワークよりもパフォーマンスが良く、平均AUCの改善は4.3%、AUPRCの改善は7.8%である。

Federated Learning (FL) is a machine learning framework that enables multiple organizations to train a model without sharing their data with a central server. However, it experiences significant performance degradation if the data is non-identically independently distributed (non-IID). This is a problem in medical settings, where variations in the patient population contribute significantly to distribution differences across hospitals. Personalized FL addresses this issue by accounting for site-specific distribution differences. Clustered FL, a Personalized FL variant, was used to address this problem by clustering patients into groups across hospitals and training separate models on each group. However, privacy concerns remained as a challenge as the clustering process requires exchange of patient-level information. This was previously solved by forming clusters using aggregated data, which led to inaccurate groups and performance degradation. In this study, we propose Privacy-preserving Community-Based Federated machine Learning (PCBFL), a novel Clustered FL framework that can cluster patients using patient-level data while protecting privacy. PCBFL uses Secure Multiparty Computation, a cryptographic technique, to securely calculate patient-level similarity scores across hospitals. We then evaluate PCBFL by training a federated mortality prediction model using 20 sites from the eICU dataset. We compare the performance gain from PCBFL against traditional and existing Clustered FL frameworks. Our results show that PCBFL successfully forms clinically meaningful cohorts of low, medium, and high-risk patients. PCBFL outperforms traditional and existing Clustered FL frameworks with an average AUC improvement of 4.3% and AUPRC improvement of 7.8%.
翻訳日:2023-07-19 17:21:19 公開日:2023-07-17
# Covariate-Adjusted Homogeneity Test と顔認識精度評価への応用

A Covariate-Adjusted Homogeneity Test with Application to Facial Recognition Accuracy Assessment ( http://arxiv.org/abs/2307.08846v1 )

ライセンス: Link先を確認
Ngoc-Ty Nguyen, P. Jonathon Phillips, Larry Tang(参考訳) 通常のスコアは医療画像研究やブラックボックスの法医学研究でよく見られる。 研究におけるレーダの精度を評価するためには,レーダの共変量を考慮したレシーバ動作特性(ROC)曲線を推定する必要がある。 本稿では,複数のレーダ群間の精度差を判定する共変量調整同質性試験を提案する。 提案試験の理論的結果を導出し,提案試験の有限サンプル性能を評価するため,広範囲なシミュレーション実験を行った。 本研究は,5つのグループ間の統計的に有意な差異を識別するための顔認識実験に適用した。

Ordinal scores occur commonly in medical imaging studies and in black-box forensic studies \citep{Phillips:2018}. To assess the accuracy of raters in the studies, one needs to estimate the receiver operating characteristic (ROC) curve while accounting for covariates of raters. In this paper, we propose a covariate-adjusted homogeneity test to determine differences in accuracy among multiple rater groups. We derived the theoretical results of the proposed test and conducted extensive simulation studies to evaluate the finite sample performance of the proposed test. Our proposed test is applied to a face recognition study to identify statistically significant differences among five participant groups.
翻訳日:2023-07-19 17:20:31 公開日:2023-07-17
# 確率制約付き最適化によるベイズ安全政策学習--ベトナム戦争中の軍事安全評価への応用

Bayesian Safe Policy Learning with Chance Constrained Optimization: Application to Military Security Assessment during the Vietnam War ( http://arxiv.org/abs/2307.08840v1 )

ライセンス: Link先を確認
Zeyang Jia, Eli Ben-Michael and Kosuke Imai(参考訳) アルゴリズム的およびデータ駆動的な決定と勧告は、刑事司法、医療、公共政策などの高度な意思決定設定で一般的に使用される。 1969年後半のベトナム戦争直後の調査結果をもとに,ベトナム戦争におけるセキュリティ評価アルゴリズムの改善が可能か検討した。 この経験的応用は、アルゴリズム的意思決定において頻繁に発生する方法論的課題を提起する。 まず、新しいアルゴリズムを実装する前に、既存のアルゴリズムよりも悪い結果をもたらすリスクを特徴づけ、制御することが不可欠である。 第二に、既存のアルゴリズムは決定論的であり、新しいアルゴリズムを学習するには透明な外挿が必要である。 第三に、既存のアルゴリズムは、一般的なが最適化が難しい離散的な決定テーブルを含んでいる。 これらの課題に対処するために、我々はまず、新しいアルゴリズムポリシーが個々のサブグループに対して悪い結果をもたらすリスクを定量化し、それをサブグループの分布よりも平均化するAverage Conditional Risk (ACRisk)を導入する。 また,後方予測ACRiskを制御しながら,後方予測値を最大化するベイズ政策学習フレームワークを提案する。 このフレームワークは、不均一な処理効果をポリシー最適化から切り離し、複雑なポリシークラスに対する影響の柔軟な推定と最適化を可能にする。 結果の確率制約最適化問題を制約線形プログラミング問題として特徴付ける。 ベトナム戦争における実際のアルゴリズムと比較して,学習アルゴリズムは,ほとんどの地域を軍事的要因よりも経済的・政治的要因を重視し,より安全であると評価した。

Algorithmic and data-driven decisions and recommendations are commonly used in high-stakes decision-making settings such as criminal justice, medicine, and public policy. We investigate whether it would have been possible to improve a security assessment algorithm employed during the Vietnam War, using outcomes measured immediately after its introduction in late 1969. This empirical application raises several methodological challenges that frequently arise in high-stakes algorithmic decision-making. First, before implementing a new algorithm, it is essential to characterize and control the risk of yielding worse outcomes than the existing algorithm. Second, the existing algorithm is deterministic, and learning a new algorithm requires transparent extrapolation. Third, the existing algorithm involves discrete decision tables that are common but difficult to optimize over. To address these challenges, we introduce the Average Conditional Risk (ACRisk), which first quantifies the risk that a new algorithmic policy leads to worse outcomes for subgroups of individual units and then averages this over the distribution of subgroups. We also propose a Bayesian policy learning framework that maximizes the posterior expected value while controlling the posterior expected ACRisk. This framework separates the estimation of heterogeneous treatment effects from policy optimization, enabling flexible estimation of effects and optimization over complex policy classes. We characterize the resulting chance-constrained optimization problem as a constrained linear programming problem. Our analysis shows that compared to the actual algorithm used during the Vietnam War, the learned algorithm assesses most regions as more secure and emphasizes economic and political factors over military factors.
翻訳日:2023-07-19 17:20:19 公開日:2023-07-17
# DARTS:スーパーレゾリューション用ダブルアテンション参照型トランス

DARTS: Double Attention Reference-based Transformer for Super-resolution ( http://arxiv.org/abs/2307.08837v1 )

ライセンス: Link先を確認
Masoomeh Aslahishahri, Jordan Ubbens, Ian Stavness(参考訳) 参照ベース画像超解像のための変換器モデルであるDARTSを提案する。 DARTSは2つの画像分布の合同表現を学習し、高分解能参照画像から学習した対応性を通じて低分解能入力画像の内容を強化する。 参照ベース画像超解像における最先端技術は、マルチネットワーク・マルチステージアーキテクチャに基づいている。 本研究では,2つの視覚的ストリームを別々に処理し,ゲーティング・アテンション・ストラテジーを通じて自己注意ブロックと相互注意ブロックを組み合わせることにより,GAN文献からの二重注意ブロックを適応させる。 我々の研究は、アテンションメカニズムが参照ベース画像の特定の要求にどのように適応できるかを示し、アーキテクチャとトレーニングパイプラインを著しく単純化する。 トランスフォーマーモデルと最先端モデルとの競合性は高いが,全体的なアーキテクチャとトレーニングプロセスはよりシンプルである。 特に、psnr/ssimが29.83 / .809であるsun80データセットで最先端の技術を得る。 これらの結果から,複数目的のサブネットワーク構築や知識蒸留,多段階訓練などを行わず,RSR作業に十分な注意力を持つことが示唆された。

We present DARTS, a transformer model for reference-based image super-resolution. DARTS learns joint representations of two image distributions to enhance the content of low-resolution input images through matching correspondences learned from high-resolution reference images. Current state-of-the-art techniques in reference-based image super-resolution are based on a multi-network, multi-stage architecture. In this work, we adapt the double attention block from the GAN literature, processing the two visual streams separately and combining self-attention and cross-attention blocks through a gating attention strategy. Our work demonstrates how the attention mechanism can be adapted for the particular requirements of reference-based image super-resolution, significantly simplifying the architecture and training pipeline. We show that our transformer-based model performs competitively with state-of-the-art models, while maintaining a simpler overall architecture and training process. In particular, we obtain state-of-the-art on the SUN80 dataset, with a PSNR/SSIM of 29.83 / .809. These results show that attention alone is sufficient for the RSR task, without multiple purpose-built subnetworks, knowledge distillation, or multi-stage training.
翻訳日:2023-07-19 17:19:55 公開日:2023-07-17
# AGI企業におけるリスクアセスメント:他の安全クリティカル産業のリスクアセスメント手法のレビュー

Risk assessment at AGI companies: A review of popular risk assessment techniques from other safety-critical industries ( http://arxiv.org/abs/2307.08823v1 )

ライセンス: Link先を確認
Leonie Koessler, Jonas Schuett(参考訳) OpenAI、Google DeepMind、Anthhropicといった企業は、さまざまな認知タスクにおいて、人間と同等以上のパフォーマンスを持つ人工知能(AGI)を構築するという目標を掲げている。 しかし、AGIが壊滅的なリスクをもたらすとの懸念が高まっている。 これを踏まえて、AGI企業はリスク管理の実践を大幅に改善する必要があります。 このような取り組みを支援するため,他の安全クリティカル産業のリスクアセスメント手法をレビューし,AIによる破滅的なリスク評価にAGI企業が活用する方法を提案する。 本稿では,リスク識別技術(scenario analysis, fishbone method, and risk typologies and taxonomies),5つのリスク分析技術(causal mapping, delphi technique, cross-impact analysis, bow tie analysis, and system-theoretic process analysis),2つのリスク評価手法(チェックリストとリスクマトリクス)について述べる。 それぞれについて、その動作方法を説明し、agi企業がそれらを利用する方法を提案し、そのメリットと限界を議論し、推奨する。 最後に、リスクアセスメントの実施時期、そのテクニックの使用時期、使用方法について論じる。 レビューされたテクニックは、他の業界のリスク管理専門家にとって明らかです。 aiによる壊滅的なリスクを評価するには不十分です。 しかし、AGI企業は、他の業界からベストプラクティスをレビューする簡単な手順を省略すべきではない。

Companies like OpenAI, Google DeepMind, and Anthropic have the stated goal of building artificial general intelligence (AGI) - AI systems that perform as well as or better than humans on a wide variety of cognitive tasks. However, there are increasing concerns that AGI would pose catastrophic risks. In light of this, AGI companies need to drastically improve their risk management practices. To support such efforts, this paper reviews popular risk assessment techniques from other safety-critical industries and suggests ways in which AGI companies could use them to assess catastrophic risks from AI. The paper discusses three risk identification techniques (scenario analysis, fishbone method, and risk typologies and taxonomies), five risk analysis techniques (causal mapping, Delphi technique, cross-impact analysis, bow tie analysis, and system-theoretic process analysis), and two risk evaluation techniques (checklists and risk matrices). For each of them, the paper explains how they work, suggests ways in which AGI companies could use them, discusses their benefits and limitations, and makes recommendations. Finally, the paper discusses when to conduct risk assessments, when to use which technique, and how to use any of them. The reviewed techniques will be obvious to risk management professionals in other industries. And they will not be sufficient to assess catastrophic risks from AI. However, AGI companies should not skip the straightforward step of reviewing best practices from other industries.
翻訳日:2023-07-19 17:19:35 公開日:2023-07-17
# レート分割型マルチアクセスのためのメタラーニング型プリコーダ最適化フレームワーク

A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting Multiple Access ( http://arxiv.org/abs/2307.08822v1 )

ライセンス: Link先を確認
Rafael Cerna Loli, Bruno Clerckx(参考訳) 本稿では,トランスミッタ(csit)における部分チャネル状態情報を含むレート・スプリッティング・マルチアクセス(rsma)プリコーダを直接最適化するためのメタラーニング型プリコーダ最適化フレームワークを提案する。 コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。 数値計算の結果,メタラーニングに基づくソリューションは,中規模シナリオにおける従来のプリコーダ最適化と同等のasr性能を達成し,大規模システムにおけるサブ最適低複雑性プリコーダアルゴリズムを著しく上回っていることがわかった。

In this letter, we propose the use of a meta-learning based precoder optimization framework to directly optimize the Rate-Splitting Multiple Access (RSMA) precoders with partial Channel State Information at the Transmitter (CSIT). By exploiting the overfitting of the compact neural network to maximize the explicit Average Sum-Rate (ASR) expression, we effectively bypass the need for any other training data while minimizing the total running time. Numerical results reveal that the meta-learning based solution achieves similar ASR performance to conventional precoder optimization in medium-scale scenarios, and significantly outperforms sub-optimal low complexity precoder algorithms in the large-scale regime.
翻訳日:2023-07-19 17:19:07 公開日:2023-07-17
# 量子情報の量子読み取り

Quantum reading of quantum information ( http://arxiv.org/abs/2307.08821v1 )

ライセンス: Link先を確認
Samad Khabbazi-Oskouei, Stefano Mancini, Milajiguli Rexiti(参考訳) 量子読み取りの概念を、取り出すべき情報が量子チャネルの集合に符号化される場合まで拡張する。 システム環境の相互作用を記述する2つのキュービットユニタリを用い、システムの入力出力チャネルを決定する初期環境状態と、エンコードされた情報を使用する。 最も関連性の高い2量子ユニタリのパフォーマンスは2つの異なるアプローチで決定される。 一 環境とシステムの出力との間に生じるチャネルの一発の量子容量 二 環境の初期量子状態の特徴とするパラメータの推定 得られた結果は主に(有資格な)合意であり、cnotユニタリを含むいくつかの特徴がある。

We extend the notion of quantum reading to the case where the information to be retrieved, which is encoded into a set of quantum channels, is of quantum nature. We use two qubit unitaries describing the system environment interaction, with the initial environment state determining the system's input output channel and hence the encoded information. The performance of the most relevant two-qubit unitaries is determined with two different approaches: i) one-shot quantum capacity of the channel arising between environment and system's output; ii) estimation of parameters characterizing the initial quantum state of the environment. The obtained results are mostly in (qualitative) agreement, with some distinguishing features that include the CNOT unitary.
翻訳日:2023-07-19 17:18:56 公開日:2023-07-17
# 強化学習サロゲートモデルによるベンダー分割促進に向けて

Towards Accelerating Benders Decomposition via Reinforcement Learning Surrogate Models ( http://arxiv.org/abs/2307.08816v1 )

ライセンス: Link先を確認
Stephen Mak, Kyle Mana, Parisa Zehtabi, Michael Cashmore, Daniele Magazzeni, Manuela Veloso(参考訳) 確率最適化(SO)は不確実性の存在下で最適な決定を下そうとする。 多くの場合 これらの問題の古典的な定式化は (a)不確実性を捉えるのに必要なシナリオの数、及び (b)現実世界の計画問題の離散的性質。 これらのトラクタビリティ問題を解決するために、実践者は問題をより小さく、よりトラクタブルなサブプロブレムに分割する分解方法に目を向ける。 本論文の焦点分解法は,シナリオ独立性に基づいて確率的最適化問題を分解するBenders decomposition (BD) である。 本稿では,NP-hard整数マスター問題の代わりに代理モデルを用いてBDを高速化する手法を提案する。 加速度法により、他の加速BD実装と比較して30%高速な平均収束を観測する。 本稿では,強化学習エージェントをサロゲートとして導入し,確率的在庫管理問題の解法を実証する。

Stochastic optimization (SO) attempts to offer optimal decisions in the presence of uncertainty. Often, the classical formulation of these problems becomes intractable due to (a) the number of scenarios required to capture the uncertainty and (b) the discrete nature of real-world planning problems. To overcome these tractability issues, practitioners turn to decomposition methods that divide the problem into smaller, more tractable sub-problems. The focal decomposition method of this paper is Benders decomposition (BD), which decomposes stochastic optimization problems on the basis of scenario independence. In this paper we propose a method of accelerating BD with the aid of a surrogate model in place of an NP-hard integer master problem. Through the acceleration method we observe 30% faster average convergence when compared to other accelerated BD implementations. We introduce a reinforcement learning agent as a surrogate and demonstrate how it can be used to solve a stochastic inventory management problem.
翻訳日:2023-07-19 17:18:47 公開日:2023-07-17
# 分子相互作用と経路知識抽出のための大規模言語モデルの比較性能評価

Comparative Performance Evaluation of Large Language Models for Extracting Molecular Interactions and Pathway Knowledge ( http://arxiv.org/abs/2307.08813v1 )

ライセンス: Link先を確認
Gilchan Park, Byung-Jun Yoon, Xihaier Luo, Vanessa L\'opez-Marrero, Patrick Johnstone, Shinjae Yoo, Francis J. Alexander(参考訳) タンパク質の相互作用と経路の知識を理解することは、生体システムの複雑さを解明し、生物学的機能や複雑な疾患の基盤となるメカニズムを研究するために重要である。 既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供するが、それらはしばしば不完全であり、保守は労働集約的であり、代替アプローチを必要とする。 本研究では,このような知識を科学文献から自動抽出し,大規模言語モデルの能力を活用することを提案する。 そこで本研究では,タンパク質の相互作用,経路,遺伝子制御関係の認識に関わるタスクにおいて,異なる大規模言語モデルの有効性を検討する。 我々は,様々なモデルの性能を徹底的に評価し,重要な知見を浮き彫りにし,今後の可能性と今後の課題を議論する。 コードとデータは、https://github.com/boxorange/bioie-llmで入手できる。

Understanding protein interactions and pathway knowledge is crucial for unraveling the complexities of living systems and investigating the underlying mechanisms of biological functions and complex diseases. While existing databases provide curated biological data from literature and other sources, they are often incomplete and their maintenance is labor-intensive, necessitating alternative approaches. In this study, we propose to harness the capabilities of large language models to address these issues by automatically extracting such knowledge from the relevant scientific literature. Toward this goal, in this work, we investigate the effectiveness of different large language models in tasks that involve recognizing protein interactions, pathways, and gene regulatory relations. We thoroughly evaluate the performance of various models, highlight the significant findings, and discuss both the future opportunities and the remaining challenges associated with this approach. The code and data are available at: https://github.com/boxorange/BioIE-LLM
翻訳日:2023-07-19 17:18:34 公開日:2023-07-17
# DeepMem: ストレージチャネルとしてのMLモデルとその(ミス)応用

DeepMem: ML Models as storage channels and their (mis-)applications ( http://arxiv.org/abs/2307.08811v1 )

ライセンス: Link先を確認
Md Abdullah Al Mamun, Quazi Mishkatul Alam, Erfan Shaigani, Pedram Zaree, Ihsen Alouani, Nael Abu-Ghazaleh(参考訳) 機械学習(ML)モデルは、一般性をサポートし、過剰適合を避けるために過パラメータ化される。 以前の研究は、これらの追加パラメータが悪意のある(例えば、訓練されたモデル内にモデルを隠蔽する)ことと、有益な(例えば、モデルの透かし)の両方に使用できることを示した。 本稿では, mlモデルについて, 過パラメータ化に伴って増加する容量を有するストレージチャネルとして, 新たな情報理論的な視点を提案する。 具体的には、トレーニング時にモデルに任意の情報を埋め込み、ブラックボックスでデプロイされたモデルにアクセスした受信者によって抽出できる送信者について検討する。 利用可能なパラメータの数に基づいてチャネルの容量の上限を導出する。 次に、攻撃者が許可するプリミティブをブラックボックスで書き読みます。 (i)送信側のトレーニングデータを増強することにより、モデルを最適化した方法でデータを保存すること、及び (ii) モデルがデプロイされた後に問い合わせて読むこと。 また,書き込みプリミティブの検出可能性を分析し,情報記憶の隠ぺいを考慮した新しい問題を考える。 具体的には,書き込みプリミティブに使用されるデータ拡張が,初期(ベースラインタスク)分布による分散シフトを最小限に抑えるように,新たな制約を導入する。 この制約は、最初のタスクと"干渉"のレベルを導入し、チャネルの効果的なキャパシティを制限する。 そこで本研究では,新しいml固有の置換型誤り訂正プロトコルを含むキャパシティ向上のための最適化手法を開発した。 この問題のモデリングはMLの潜在的な脆弱性をよりよく理解し緩和するための新しいツールを提供すると我々は信じている。

Machine learning (ML) models are overparameterized to support generality and avoid overfitting. Prior works have shown that these additional parameters can be used for both malicious (e.g., hiding a model covertly within a trained model) and beneficial purposes (e.g., watermarking a model). In this paper, we propose a novel information theoretic perspective of the problem; we consider the ML model as a storage channel with a capacity that increases with overparameterization. Specifically, we consider a sender that embeds arbitrary information in the model at training time, which can be extracted by a receiver with a black-box access to the deployed model. We derive an upper bound on the capacity of the channel based on the number of available parameters. We then explore black-box write and read primitives that allow the attacker to: (i) store data in an optimized way within the model by augmenting the training data at the transmitter side, and (ii) to read it by querying the model after it is deployed. We also analyze the detectability of the writing primitive and consider a new version of the problem which takes information storage covertness into account. Specifically, to obtain storage covertness, we introduce a new constraint such that the data augmentation used for the write primitives minimizes the distribution shift with the initial (baseline task) distribution. This constraint introduces a level of "interference" with the initial task, thereby limiting the channel's effective capacity. Therefore, we develop optimizations to improve the capacity in this case, including a novel ML-specific substitution based error correction protocol. We believe that the proposed modeling of the problem offers new tools to better understand and mitigate potential vulnerabilities of ML, especially in the context of increasingly large models.
翻訳日:2023-07-19 17:18:19 公開日:2023-07-17
# AIが支援する知識開発環境に向けたアイデアの生成とテストのためのAI

AI for the Generation and Testing of Ideas Towards an AI Supported Knowledge Development Environment ( http://arxiv.org/abs/2307.08876v1 )

ライセンス: Link先を確認
Ted Selker(参考訳) 新しいシステムは機械学習を使用して、大きな知識ソースを探索し、柔軟な大規模言語モデルを作成する。 これらのモデルはコンテキストを識別し、様々な通信形態の逐次情報を予測する。 トランスフォーマーを利用する生成AIは、人間の反応を模倣したテキストまたは視覚出力を生成する。 ユーザが検討可能な1つまたは複数のコンテキスト可能なソリューションを提案する。 しかし、生成AIは、情報の起源を示す検索エンジンが提供する有用な機能であるアイデアのトレーサビリティをサポートしていない。 生成AIの物語スタイルは肯定的な評価を得た。 人々は物語から学びます。 しかし、初期のChatGPTの取り組みは、真理、参照、計算、そして正確な地図のような側面に難しかった。 現在の位置の参照とアプリへのリンクの機能は、私たちが20年間使用してきたリンク中心の検索方法により適しているように思えます。 真に信じられるソリューションのデプロイは、生成AIによるコンテキスト関連性のシミュレートを超えて行われる。 生成AIの創造性とインターネットソースの証明をハイブリッドシナリオで組み合わせることで、インターネットの利用が向上する。 ジェネレーティブAIは、ドラフトと見なされ、思考を刺激し、最終バージョンやアクションのための代替アイデアを提供する。 情報要求のシナリオが考慮される。 生成AIが人間のバイアスを排除してアイデア生成を促進する方法について論じる。 また,検索が事実,論理,文脈をどのように検証できるかについても述べる。 ユーザは、これらの生成したアイデアを選択および使用のために評価する。 本稿では,知識労働者のためのシステムとして,専門家の最高のコラボレーションを必要とするソリューションを,個人が効率的に作成できるようにする。

New systems employ Machine Learning to sift through large knowledge sources, creating flexible Large Language Models. These models discern context and predict sequential information in various communication forms. Generative AI, leveraging Transformers, generates textual or visual outputs mimicking human responses. It proposes one or multiple contextually feasible solutions for a user to contemplate. However, generative AI does not currently support traceability of ideas, a useful feature provided by search engines indicating origin of information. The narrative style of generative AI has gained positive reception. People learn from stories. Yet, early ChatGPT efforts had difficulty with truth, reference, calculations, and aspects like accurate maps. Current capabilities of referencing locations and linking to apps seem to be better catered by the link-centric search methods we've used for two decades. Deploying truly believable solutions extends beyond simulating contextual relevance as done by generative AI. Combining the creativity of generative AI with the provenance of internet sources in hybrid scenarios could enhance internet usage. Generative AI, viewed as drafts, stimulates thinking, offering alternative ideas for final versions or actions. Scenarios for information requests are considered. We discuss how generative AI can boost idea generation by eliminating human bias. We also describe how search can verify facts, logic, and context. The user evaluates these generated ideas for selection and usage. This paper introduces a system for knowledge workers, Generate And Search Test, enabling individuals to efficiently create solutions previously requiring top collaborations of experts.
翻訳日:2023-07-19 17:11:57 公開日:2023-07-17
# 関数近似を用いたロバスト強化学習のための自然アクター批判

Natural Actor-Critic for Robust Reinforcement Learning with Function Approximation ( http://arxiv.org/abs/2307.08875v1 )

ライセンス: Link先を確認
Ruida Zhou, Tao Liu, Min Cheng, Dileep Kalathil, P. R. Kumar, Chao Tian(参考訳) 本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。 従来のポリシーベースのロバストなRLアルゴリズムは主に、ロバストなポリシー評価を容易にする不確実性セットの下での表の設定に重点を置いているが、状態のスケールアップ時にはもはや取り外せない。 この目的のために,2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。 どちらも、シミュレータにしかアクセスできない場合でも、大規模で堅牢なRLを牽引可能である。 本稿では,新しい不確実性集合を取り入れ,関数近似を用いる,頑健な自然なアクター批判(RNAC)アプローチを提案する。 提案するrnacアルゴリズムの関数近似誤差における最適ロバストポリシーに対する有限時間収束保証を提案する。 最後に,複数の MuJoCo 環境と実際の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。

We study robust reinforcement learning (RL) with the goal of determining a well-performing policy that is robust against model mismatch between the training simulator and the testing environment. Previous policy-based robust RL algorithms mainly focus on the tabular setting under uncertainty sets that facilitate robust policy evaluation, but are no longer tractable when the number of states scales up. To this end, we propose two novel uncertainty set formulations, one based on double sampling and the other on an integral probability metric. Both make large-scale robust RL tractable even when one only has access to a simulator. We propose a robust natural actor-critic (RNAC) approach that incorporates the new uncertainty sets and employs function approximation. We provide finite-time convergence guarantees for the proposed RNAC algorithm to the optimal robust policy within the function approximation error. Finally, we demonstrate the robust performance of the policy learned by our proposed RNAC approach in multiple MuJoCo environments and a real-world TurtleBot navigation task.
翻訳日:2023-07-19 17:11:35 公開日:2023-07-17
# ニューラルネットワーク推論器の潜在空間表現

Latent Space Representations of Neural Algorithmic Reasoners ( http://arxiv.org/abs/2307.08874v1 )

ライセンス: Link先を確認
Vladimir V. Mirjani\'c (1), Razvan Pascanu (2), Petar Veli\v{c}kovi\'c (1 and 2) ((1) University of Cambridge, (2) Google DeepMind)(参考訳) ニューラルアルゴリズム推論(Neural Algorithmic Reasoning, NAR)は、アルゴリズムの実行を学ぶことによって、古典的な計算を確実にキャプチャできるニューラルネットワークの設計に焦点を当てた研究分野である。 典型的なアプローチは、アルゴリズムの実行中に繰り返し変換される高次元潜在空間の入力を符号化するグラフニューラルネットワーク(GNN)アーキテクチャに依存する。 本稿では,アルゴリズムの実行時にGNNによって誘導される潜伏空間の構造を詳細に解析する。 可能な障害モードは2つあります。 (i) 分解能の喪失、類似の値の識別が困難であること。 (ii)訓練中に観察された範囲外の値を扱うことができないこと。 本稿では,ソフトマックスアグリゲータに頼って最初の問題を解くことを提案するとともに,範囲外値を扱うために潜在空間を減衰させることを提案する。 これらの変更は、最先端のTriplet-GMPNNプロセッサを使用する場合、CLRS-30ベンチマークのアルゴリズムの大部分の改善につながることを示す。 私たちのコードは \href{https://github.com/mirjanic/nar-latent-spaces}{https://github.com/mirjanic/nar-latent-spaces} で利用可能です。

Neural Algorithmic Reasoning (NAR) is a research area focused on designing neural architectures that can reliably capture classical computation, usually by learning to execute algorithms. A typical approach is to rely on Graph Neural Network (GNN) architectures, which encode inputs in high-dimensional latent spaces that are repeatedly transformed during the execution of the algorithm. In this work we perform a detailed analysis of the structure of the latent space induced by the GNN when executing algorithms. We identify two possible failure modes: (i) loss of resolution, making it hard to distinguish similar values; (ii) inability to deal with values outside the range observed during training. We propose to solve the first issue by relying on a softmax aggregator, and propose to decay the latent space in order to deal with out-of-range values. We show that these changes lead to improvements on the majority of algorithms in the standard CLRS-30 benchmark when using the state-of-the-art Triplet-GMPNN processor. Our code is available at \href{https://github.com/mirjanic/nar-latent-spaces}{https://github.com/mirjanic/nar-latent-spaces}.
翻訳日:2023-07-19 17:11:16 公開日:2023-07-17
# 変数の代替:リスク-逆ポリシー勾配に対するジーニ偏差

An Alternative to Variance: Gini Deviation for Risk-averse Policy Gradient ( http://arxiv.org/abs/2307.08873v1 )

ライセンス: Link先を確認
Yudong Luo, Guiliang Liu, Pascal Poupart, Yangchen Pan(参考訳) 政策の回帰の分散を制限することは、その明確な数学的定義と容易に解釈できるため、リスク回避強化学習(RL)において一般的な選択である。 従来の手法では、全戻り値の分散を直接制限する。 最近の方法は、プロキシとしてのステップごとの報酬分散を制限する。 数値スケールに対する感受性や政策学習の妨げなど,これらの分散に基づく手法の限界を徹底的に検討し,代替リスク尺度であるジーニ偏差を代替手段として用いることを提案する。 我々は,この新しいリスク尺度の諸特性を調査し,その最小化のための政策勾配アルゴリズムを導出する。 リスク回避が明確に定義できる領域における経験的評価から,本アルゴリズムは分散に基づくリスク対策の限界を緩和し,他者が合理的な方針を学習できない場合,分散やgini偏差の面で低いリスクで高いリターンを達成することができることを示した。

Restricting the variance of a policy's return is a popular choice in risk-averse Reinforcement Learning (RL) due to its clear mathematical definition and easy interpretability. Traditional methods directly restrict the total return variance. Recent methods restrict the per-step reward variance as a proxy. We thoroughly examine the limitations of these variance-based methods, such as sensitivity to numerical scale and hindering of policy learning, and propose to use an alternative risk measure, Gini deviation, as a substitute. We study various properties of this new risk measure and derive a policy gradient algorithm to minimize it. Empirical evaluation in domains where risk-aversion can be clearly defined, shows that our algorithm can mitigate the limitations of variance-based risk measures and achieves high return with low risk in terms of variance and Gini deviation when others fail to learn a reasonable policy.
翻訳日:2023-07-19 17:10:59 公開日:2023-07-17
# メタバリュー学習 : 学習意識を持つ学習のための汎用フレームワーク

Meta-Value Learning: a General Framework for Learning with Learning Awareness ( http://arxiv.org/abs/2307.08863v1 )

ライセンス: Link先を確認
Tim Cooijmans, Milad Aghajohari, Aaron Courville(参考訳) マルチエージェントシステムにおける勾配ベースの学習は、エージェントの学習プロセス間の相互作用を考慮しない一階モデルに由来するため、難しい。 LOLA (arXiv:1709.04326) は最適化の一段階を微分することでこれを説明している。 LOLAの考え方を拡張し、最適化のための完全に汎用的な価値ベースアプローチを開発する。 中心となる関数はメタ値と呼ばれ、これは共同政治空間の各点において、将来の最適化ステップよりも各エージェントの目的の割引された和を与える。 メタ値の勾配は、最適化の効果を経験的に観察した結果から、元の目的の勾配よりも信頼性の高い改善方向を与えると論じる。 エージェントがメタ値の勾配に従う最適化軌跡に沿ってtd誤差を最小化するためにニューラルネットワークを訓練することで、メタ値の近似方法を示す。 我々は,ロジスティックゲームと反復囚人ジレンマにおける手法の挙動を解析した。

Gradient-based learning in multi-agent systems is difficult because the gradient derives from a first-order model which does not account for the interaction between agents' learning processes. LOLA (arXiv:1709.04326) accounts for this by differentiating through one step of optimization. We extend the ideas of LOLA and develop a fully-general value-based approach to optimization. At the core is a function we call the meta-value, which at each point in joint-policy space gives for each agent a discounted sum of its objective over future optimization steps. We argue that the gradient of the meta-value gives a more reliable improvement direction than the gradient of the original objective, because the meta-value derives from empirical observations of the effects of optimization. We show how the meta-value can be approximated by training a neural network to minimize TD error along optimization trajectories in which agents follow the gradient of the meta-value. We analyze the behavior of our method on the Logistic Game and on the Iterated Prisoner's Dilemma.
翻訳日:2023-07-19 17:10:42 公開日:2023-07-17
# グラフニューラルネットワークのカリキュラム学習 : 多視点コンピテンスに基づくアプローチ

Curriculum Learning for Graph Neural Networks: A Multiview Competence-based Approach ( http://arxiv.org/abs/2307.08859v1 )

ライセンス: Link先を確認
Nidhi Vakil and Hadi Amiri(参考訳) カリキュラムは、計画された学習教材のシリーズであり、学習を人間と機械の両方で効率的かつ効果的にすることができる。 最近の研究は、言語応用におけるグラフニューラルネットワークを訓練するための効果的なデータ駆動カリキュラム学習手法を開発した。 しかし、既存のカリキュラム学習アプローチでは、トレーニングパラダイムにおいて困難を単一の基準で定義することが多い。 本稿では,(難易度基準として)グラフ複雑性形式と学習時のモデル能力に基づく新しいアプローチを導入することで,カリキュラム学習の新しい視点を提案する。 モデルは,学習中のサンプル難易度とモデルの能力の異なる視点を考慮し,効果的なカリキュラムを導出するスケジューリングスキームからなる。 提案手法は、グラフニューラルネットワークのカリキュラム学習における既存の研究を前進させ、グラフの難易度基準の細かいスペクトルを学習パラダイムに組み込むことができる。 実世界のリンク予測とノード分類タスクの実験結果は,提案手法の有効性を示す。

A curriculum is a planned sequence of learning materials and an effective one can make learning efficient and effective for both humans and machines. Recent studies developed effective data-driven curriculum learning approaches for training graph neural networks in language applications. However, existing curriculum learning approaches often employ a single criterion of difficulty in their training paradigms. In this paper, we propose a new perspective on curriculum learning by introducing a novel approach that builds on graph complexity formalisms (as difficulty criteria) and model competence during training. The model consists of a scheduling scheme which derives effective curricula by accounting for different views of sample difficulty and model competence during training. The proposed solution advances existing research in curriculum learning for graph neural networks with the ability to incorporate a fine-grained spectrum of graph difficulty criteria in their training paradigms. Experimental results on real-world link prediction and node classification tasks illustrate the effectiveness of the proposed approach.
翻訳日:2023-07-19 17:10:26 公開日:2023-07-17
# Recommenderシステムに対する許容シフト一貫性法

An Admissible Shift-Consistent Method for Recommender Systems ( http://arxiv.org/abs/2307.08857v1 )

ライセンス: Link先を確認
Tung Nguyen and Jeffrey Uhlmann(参考訳) 本稿では,レコメンダシステムの文脈で行列/テンソル補完問題を解くための新しい制約であるshift-consistencyを提案する。 本手法は,(1)レコメンダシステムに対する最近確立された許容可能性基準を満たすこと,(2)ユーザがシステムレコメンデーションに悪影響を及ぼす可能性のある特定の種類の機会をなくす公平性の定義を満たすこと,(3)欠落価値インポテーションの証明可能な一意性を生かして堅牢性を提供すること,の2つの重要な数学的特性を保証する。 ユーザ属性と製品属性の集合間の複雑な構造関係の表現と利用を可能にするために,行列からテンソル形式への一般化を含む厳密な数学的記述を提供する。 我々は、機械学習手法で証明可能な性能特性を確立できる潜在空間投影を定義する構造化手法を提案している。

In this paper, we propose a new constraint, called shift-consistency, for solving matrix/tensor completion problems in the context of recommender systems. Our method provably guarantees several key mathematical properties: (1) satisfies a recently established admissibility criterion for recommender systems; (2) satisfies a definition of fairness that eliminates a specific class of potential opportunities for users to maliciously influence system recommendations; and (3) offers robustness by exploiting provable uniqueness of missing-value imputation. We provide a rigorous mathematical description of the method, including its generalization from matrix to tensor form to permit representation and exploitation of complex structural relationships among sets of user and product attributes. We argue that our analysis suggests a structured means for defining latent-space projections that can permit provable performance properties to be established for machine learning methods.
翻訳日:2023-07-19 17:10:11 公開日:2023-07-17
# 量子タット埋め込み

Quantum Tutte Embeddings ( http://arxiv.org/abs/2307.08851v1 )

ライセンス: Link先を確認
Shion Fukuzawa, Michael T. Goodrich, Sandy Irani(参考訳) tutte埋め込みのフレームワークを使って、量子コンピュータを使ってグラフを視覚化する \emph{quantum graph drawing} の探索を開始する。 この論文の主な貢献は、量子グラフ描画のモデルを定式化し、与えられたグラフからグラフ描画量子回路を作成する方法を説明し、タット埋め込みをこの回路内の量子状態として計算し、それをサンプル化して埋め込みを抽出する方法を示すことである。 量子タッテ埋め込み回路の複雑さを評価するために、タッテ埋め込みから生じる線形系のタイプを解くためのよく知られた古典的アルゴリズムから導かれた古典的計算条件で確立された理論的境界と比較する。 また,実験的な量子シミュレーションから得られた実験結果を示す。

Using the framework of Tutte embeddings, we begin an exploration of \emph{quantum graph drawing}, which uses quantum computers to visualize graphs. The main contributions of this paper include formulating a model for quantum graph drawing, describing how to create a graph-drawing quantum circuit from a given graph, and showing how a Tutte embedding can be calculated as a quantum state in this circuit that can then be sampled to extract the embedding. To evaluate the complexity of our quantum Tutte embedding circuits, we compare them to theoretical bounds established in the classical computing setting derived from a well-known classical algorithm for solving the types of linear systems that arise from Tutte embeddings. We also present empirical results obtained from experimental quantum simulations.
翻訳日:2023-07-19 17:09:52 公開日:2023-07-17
# lidar-bevmtn: 自律運転のためのリアルタイムlidar bird's-eye viewマルチタスク知覚ネットワーク

LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving ( http://arxiv.org/abs/2307.08850v1 )

ライセンス: Link先を確認
Sambit Mohapatra, Senthil Yogamani, Varun Ravi Kumar, Stefan Milz, Heinrich Gotzig and Patrick M\"ader(参考訳) LiDARは、自動運転における堅牢な3Dシーン認識に不可欠である。 LiDARの知覚は、カメラの知覚の後最大の文学体を持つ。 しかし、LiDARを用いた検出、セグメンテーション、モーション推定といったタスクを横断するマルチタスク学習は、特に自動車グレードの組込みプラットフォームにおいて、比較的探索されていない。 本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。 この統一アーキテクチャは共有エンコーダとタスク固有のデコーダで構成され、共同表現学習を可能にする。 オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。 ヘテロジニアスなトレーニングスキームは、さまざまなデータセットを組み合わせることで、タスク間のヒントを補完します。 この作業は、組み込みNVIDIA Xavierプラットフォーム上で3msのレイテンシを実現するLiDARポイントクラウドから、これらの重要な認識タスクを統合する最初の組み込み実装を提供する。 3dオブジェクト検出のための最先端性能,セマンティックセグメンテーション,モーションセグメンテーションの2つのタスクにおいて,最先端の結果を得る。 ハードウェアの効率を最大化し,マルチタスクのシナジーを活用することにより,現実の自動運転デプロイメントに適した,正確かつ効率的なソリューションを提供する。 質的な結果はhttps://youtu.be/H-hWRzv2lIYで見ることができる。

LiDAR is crucial for robust 3D scene perception in autonomous driving. LiDAR perception has the largest body of literature after camera perception. However, multi-task learning across tasks like detection, segmentation, and motion estimation using LiDAR remains relatively unexplored, especially on automotive-grade embedded platforms. We present a real-time multi-task convolutional neural network for LiDAR-based object detection, semantics, and motion segmentation. The unified architecture comprises a shared encoder and task-specific decoders, enabling joint representation learning. We propose a novel Semantic Weighting and Guidance (SWAG) module to transfer semantic features for improved object detection selectively. Our heterogeneous training scheme combines diverse datasets and exploits complementary cues between tasks. The work provides the first embedded implementation unifying these key perception tasks from LiDAR point clouds achieving 3ms latency on the embedded NVIDIA Xavier platform. We achieve state-of-the-art results for two tasks, semantic and motion segmentation, and close to state-of-the-art performance for 3D object detection. By maximizing hardware efficiency and leveraging multi-task synergies, our method delivers an accurate and efficient solution tailored for real-world automated driving deployment. Qualitative results can be seen at https://youtu.be/H-hWRzv2lIY.
翻訳日:2023-07-19 17:09:39 公開日:2023-07-17
# グラフ生成のための自己回帰拡散モデル

Autoregressive Diffusion Model for Graph Generation ( http://arxiv.org/abs/2307.08849v1 )

ライセンス: Link先を確認
Lingkai Kong, Jiaming Cui, Haotian Sun, Yuchen Zhuang, B. Aditya Prakash, Chao Zhang(参考訳) 拡散グラフ生成モデルは最近,グラフ生成の有望な結果を得た。 しかし、既存の拡散に基づくグラフ生成モデルは、主に1ショット生成モデルであり、非等化隣接行列空間においてガウス拡散を適用する。 このような戦略は、モデルトレーニングの難しさ、サンプリング速度の遅さ、制約を組み込むことができないことに悩まされる。 グラフ生成のための 'emph{autoregressive diffusion} モデルを提案する。 既存の方法とは異なり、離散グラフ空間内で直接動作するノード吸収拡散プロセスを定義する。 フォワード拡散のために、グラフトポロジーから順序を吸収するデータ依存ノードを学習する \emph{diffusion order network} を設計する。 逆生成のために,新しいノードとそのエッジのノードタイプを,それまでのノードで予測することで,逆ノード順序付けを用いてグラフを効率的に再構築するネットワーク「emph{denoising Network」を設計する。 グラフの置換不変性に基づき、単純なデータ確率の上限を最適化することで、2つのネットワークを共同で訓練できることを示す。 6つの多種多様なグラフデータセットと2つの分子データセットに関する実験により、我々のモデルは従来の最先端技術よりも優れた、あるいは同等な生成性能を示し、一方、高速な生成速度を享受している。

Diffusion-based graph generative models have recently obtained promising results for graph generation. However, existing diffusion-based graph generative models are mostly one-shot generative models that apply Gaussian diffusion in the dequantized adjacency matrix space. Such a strategy can suffer from difficulty in model training, slow sampling speed, and incapability of incorporating constraints. We propose an \emph{autoregressive diffusion} model for graph generation. Unlike existing methods, we define a node-absorbing diffusion process that operates directly in the discrete graph space. For forward diffusion, we design a \emph{diffusion ordering network}, which learns a data-dependent node absorbing ordering from graph topology. For reverse generation, we design a \emph{denoising network} that uses the reverse node ordering to efficiently reconstruct the graph by predicting the node type of the new node and its edges with previously denoised nodes at a time. Based on the permutation invariance of graph, we show that the two networks can be jointly trained by optimizing a simple lower bound of data likelihood. Our experiments on six diverse generic graph datasets and two molecule datasets show that our model achieves better or comparable generation performance with previous state-of-the-art, and meanwhile enjoys fast generation speed.
翻訳日:2023-07-19 17:09:15 公開日:2023-07-17
# マルチエージェント強化学習(RL)法を用いた1型糖尿病(T1D)患者の基本方策

Basal-Bolus Advisor for Type 1 Diabetes (T1D) Patients Using Multi-Agent Reinforcement Learning (RL) Methodology ( http://arxiv.org/abs/2307.08897v1 )

ライセンス: Link先を確認
Mehrad Jalolia, Marzia Cescon(参考訳) 本稿では,1型糖尿病(t1d)患者の血糖コントロールをパーソナライズするマルチエージェント強化学習(rl)手法を提案する。 この方法は、血糖(bg)代謝モデルと、基底ボロースアドバイザーとして働くマルチエージェントのソフト・アクタ・クリティック・rlモデルからなるクローズドループシステムを用いる。 RL剤を従来の療法と比較し, 3つのシナリオで性能評価を行った。 評価指標には、血糖値(最小値、最大値、平均値)、異なるbg範囲での使用時間、および1日平均のボロースおよび基礎インスリン量が含まれる。 その結果, rlベースの基底ボーラス・アドバイザはグルコース制御を著しく改善し, 血糖変動を低減し, 目標範囲 (70~180 mg/dl) で使用時間を増加させた。 低血糖は効果的に予防され、重度の高血糖は減少する。 RLアプローチは、従来の治療と比較して、平均的な1日インスリン摂取量を統計的に有意に減少させる。 以上の結果から,t1d患者の血糖コントロールの改善と高血糖のリスク軽減にマルチエージェントrl法が有効であることが示唆された。

This paper presents a novel multi-agent reinforcement learning (RL) approach for personalized glucose control in individuals with type 1 diabetes (T1D). The method employs a closed-loop system consisting of a blood glucose (BG) metabolic model and a multi-agent soft actor-critic RL model acting as the basal-bolus advisor. Performance evaluation is conducted in three scenarios, comparing the RL agents to conventional therapy. Evaluation metrics include glucose levels (minimum, maximum, and mean), time spent in different BG ranges, and average daily bolus and basal insulin dosages. Results demonstrate that the RL-based basal-bolus advisor significantly improves glucose control, reducing glycemic variability and increasing time spent within the target range (70-180 mg/dL). Hypoglycemia events are effectively prevented, and severe hyperglycemia events are reduced. The RL approach also leads to a statistically significant reduction in average daily basal insulin dosage compared to conventional therapy. These findings highlight the effectiveness of the multi-agent RL approach in achieving better glucose control and mitigating the risk of severe hyperglycemia in individuals with T1D.
翻訳日:2023-07-19 17:00:43 公開日:2023-07-17
# 準粒子検出によるマヨラナ量子ビットのパウリ誤差の指数的抑制

Exponential suppression of Pauli errors in Majorana qubits via quasiparticle detection ( http://arxiv.org/abs/2307.08896v1 )

ライセンス: Link先を確認
Abhijeet Alase, Kevin D. Stubbs, Barry C. Sanders and David L. Feder(参考訳) マヨラナ系量子ビットの準粒子中毒は、基礎となるトポロジカルな性質によって抑制されず、このプラットフォームの有用性を損なう。 この研究は準粒子測定によってこの問題に取り組む。 誤り検出マヨラナ安定化符号は、ワニエ位置演算子を用いて安定化器を測定することができる。 これらの符号の1つに符号化された論理量子ビットに対して、パウリ誤差率は符号距離において指数関数的に抑制される。 この利点は、距離とともに直線的に増加する量子ビット損失率のコストが伴うが、これらは適切な外部コードによって容易に補償できる。 ここで開発されたフレームワークは、コンダクタンス測定のような現実的な測定が、これらのシステムにおける耐障害性を達成するためにどのように活用できるかを理解する基盤となる。 この研究はまた、ワニエ関数の理論が標準安定化符号を超える誤り訂正符号につながる可能性を示し、凝縮物物理学と量子情報理論の間の別の実りある関係を明らかにする。

Quasiparticle poisoning errors in Majorana-based qubits are not suppressed by the underlying topological properties, which undermines the usefulness of this proposed platform. This work tackles the issue via quasiparticle measurement. Error-detecting Majorana stabilizer codes are constructed whose stabilizers can be measured by means of Wannier position operators. For a logical qubit encoded in one of these codes, the Pauli error rates are exponentially suppressed in the code distance, a result tied to the exponential localization of Wannier functions. The benefit comes at the cost of a qubit loss rate that increases linearly with the distance, but these can be readily compensated for by a suitable outer code. The framework developed here serves as a basis for understanding how realistic measurements, such as conductance measurements, could be utilized for achieving fault tolerance in these systems. The work also demonstrates that the theory of Wannier functions could lead to error correcting codes beyond the standard stabilizer codes, uncovering another fruitful connection between condensed matter physics and quantum information theory.
翻訳日:2023-07-19 17:00:20 公開日:2023-07-17
# ゲノム発見と疾患リスク予測のための教師なし不整合表現学習の評価

Evaluating unsupervised disentangled representation learning for genomic discovery and disease risk prediction ( http://arxiv.org/abs/2307.08893v1 )

ライセンス: Link先を確認
Taedong Yun(参考訳) バイオバンクスケールデータセットのアクセシビリティと,特にディープラーニングを用いた高性能なモデリング技術の開発により,高次元臨床データが遺伝学の貴重な資源となっている。 近年の研究では、変異型オートエンコーダ(VAE)によって得られたこれらの臨床データの低次元埋め込みがゲノムワイド関連研究やポリジェニックリスク予測に利用できることが示されている。 本研究では,遺伝子関連研究の文脈において,複数の教師なし学習手法,すなわちオートエンコーダ,VAE,β-VAE,FacterVAEについて検討する。 ランニング例として英国バイオバンクのスピログラムを用いて, 正常なVAAEや非可変オートエンコーダと比較して, 喘息, 慢性閉塞性肺疾患に対するポリジェニックリスクスコアの数, 遺伝性, パフォーマンスの改善が認められた。 FactorVAEは正規化ハイパーパラメータの複数の値に対して効果的に動作し、beta-VAEはハイパーパラメータ値に対してはるかに敏感であった。

High-dimensional clinical data have become invaluable resources for genetic studies, due to their accessibility in biobank-scale datasets and the development of high performance modeling techniques especially using deep learning. Recent work has shown that low dimensional embeddings of these clinical data learned by variational autoencoders (VAE) can be used for genome-wide association studies and polygenic risk prediction. In this work, we consider multiple unsupervised learning methods for learning disentangled representations, namely autoencoders, VAE, beta-VAE, and FactorVAE, in the context of genetic association studies. Using spirograms from UK Biobank as a running example, we observed improvements in the number of genome-wide significant loci, heritability, and performance of polygenic risk scores for asthma and chronic obstructive pulmonary disease by using FactorVAE or beta-VAE, compared to standard VAE or non-variational autoencoders. FactorVAEs performed effectively across multiple values of the regularization hyperparameter, while beta-VAEs were much more sensitive to the hyperparameter values.
翻訳日:2023-07-19 16:59:58 公開日:2023-07-17
# 予測削除動的モデル:ML予測の利点を無償で活用する

The Predicted-Deletion Dynamic Model: Taking Advantage of ML Predictions, for Free ( http://arxiv.org/abs/2307.08890v1 )

ライセンス: Link先を確認
Quanquan C. Liu and Vaidehi Srinivas(参考訳) 効率的な動的アルゴリズムを設計する際のボトルネックは、更新シーケンスの未知の性質である。 特に、3頂点接続、すべてのペアの最短経路を平面ディグラフで表すといった問題があり、最高の部分動的解と最高の完全動的解の間の実行時の分離は多項式であり、時には指数関数である。 本稿では,動的グラフにおけるエッジ更新の予測に関する最近の経験的作業に動機づけられた予測削除動的モデルを定式化する。 このモデルでは、エッジをオンラインに挿入して削除し、エッジを挿入すると、その削除時間の"予測"が伴う。 このモデルは、サービスが入力に関する履歴データや他の情報にアクセスし、その情報を使用してユーザーの振る舞いを予測できる現実世界の設定をモデル化する。 このモデルは、部分動的設定と完全動的設定の間を補間し、動的設定への予測パラダイムを伴うアルゴリズムの自然な拡張を提供するので、理論的にも興味深い。 我々は、部分動的アルゴリズムをオーバーヘッドの少ない完全な動的設定に"リフト"する、このモデルのための新しいフレームワークを提供する。 我々はこのフレームワークを用いて、様々な問題に対して最先端の動的アルゴリズムの効率バウンダリを改善する。 特に、予測が高品質である場合に高い確率で部分的に動的アルゴリズムでスケールするアモータイズされた更新時間を持つアルゴリズムを設計する。 逆に、予測が低品質である場合、我々のアルゴリズムは既存のフルダイナミックアルゴリズムよりも悪くはない。 さらに,本アルゴリズムは両事例間に優雅なトレードオフを示す。 したがって、私たちは"無償で"漸近的に"ML予測を活用できます。 ''

The main bottleneck in designing efficient dynamic algorithms is the unknown nature of the update sequence. In particular, there are some problems, like 3-vertex connectivity, planar digraph all pairs shortest paths, and others, where the separation in runtime between the best partially dynamic solutions and the best fully dynamic solutions is polynomial, sometimes even exponential. In this paper, we formulate the predicted-deletion dynamic model, motivated by a recent line of empirical work about predicting edge updates in dynamic graphs. In this model, edges are inserted and deleted online, and when an edge is inserted, it is accompanied by a "prediction" of its deletion time. This models real world settings where services may have access to historical data or other information about an input and can subsequently use such information make predictions about user behavior. The model is also of theoretical interest, as it interpolates between the partially dynamic and fully dynamic settings, and provides a natural extension of the algorithms with predictions paradigm to the dynamic setting. We give a novel framework for this model that "lifts" partially dynamic algorithms into the fully dynamic setting with little overhead. We use our framework to obtain improved efficiency bounds over the state-of-the-art dynamic algorithms for a variety of problems. In particular, we design algorithms that have amortized update time that scales with a partially dynamic algorithm, with high probability, when the predictions are of high quality. On the flip side, our algorithms do no worse than existing fully-dynamic algorithms when the predictions are of low quality. Furthermore, our algorithms exhibit a graceful trade-off between the two cases. Thus, we are able to take advantage of ML predictions asymptotically "for free.''
翻訳日:2023-07-19 16:59:37 公開日:2023-07-17
# グラフ学習モデルにおけるdegree分布とホモフィリーの影響の検討

Examining the Effects of Degree Distribution and Homophily in Graph Learning Models ( http://arxiv.org/abs/2307.08881v1 )

ライセンス: Link先を確認
Mustafa Yasir, John Palowitch, Anton Tsitsulin, Long Tran-Thanh, Bryan Perozzi(参考訳) GNN開発への関心の高まりにもかかわらず、ベンチマークデータセットの均一性は依然としてGNN研究の根本的な問題である。 GraphWorldは、Stochastic Block Model(SBM)を使用して、GNNタスクのベンチマークに様々な種類の合成グラフを生成する、最近のソリューションである。 その成功にもかかわらず、sbmはgraphworldが作成できるグラフ構造の種類に根本的な制限を課した。 本稿では,グラフクラスタリング文学において確立されたモデルであるLFRと,GNNベンチマークに適したBarabasi-Albertモデルの最近の適応であるCABAMの2つの追加合成グラフ生成がGraphWorldの評価を改善する方法について検討する。 これらのジェネレータを統合することで、現実のネットワークで観測される主要なグラフ特性を保ちながら、GraphWorldフレームワーク内のグラフ空間のカバレッジを大幅に拡大する。 その効果を示すために,ノード分類タスクにおいて,11のGNNモデルをベンチマークするために30万のグラフを生成する。 相同性,次数分布,特徴信号に応答して,GNNの性能が変化する。 これらの結果に基づいて,これらの特性下での新しい発電機に対する感度でモデルを分類する。 さらに、githubリポジトリでgraphworldに作成された拡張機能をリリースし、新しいグラフでgnnのパフォーマンスをさらに評価します。

Despite a surge in interest in GNN development, homogeneity in benchmarking datasets still presents a fundamental issue to GNN research. GraphWorld is a recent solution which uses the Stochastic Block Model (SBM) to generate diverse populations of synthetic graphs for benchmarking any GNN task. Despite its success, the SBM imposed fundamental limitations on the kinds of graph structure GraphWorld could create. In this work we examine how two additional synthetic graph generators can improve GraphWorld's evaluation; LFR, a well-established model in the graph clustering literature and CABAM, a recent adaptation of the Barabasi-Albert model tailored for GNN benchmarking. By integrating these generators, we significantly expand the coverage of graph space within the GraphWorld framework while preserving key graph properties observed in real-world networks. To demonstrate their effectiveness, we generate 300,000 graphs to benchmark 11 GNN models on a node classification task. We find GNN performance variations in response to homophily, degree distribution and feature signal. Based on these findings, we classify models by their sensitivity to the new generators under these properties. Additionally, we release the extensions made to GraphWorld on the GitHub repository, offering further evaluation of GNN performance on new graphs.
翻訳日:2023-07-19 16:59:13 公開日:2023-07-17
# モジュラーニューラルネットワークによる手術画像認識

Modular Neural Network Approaches for Surgical Image Recognition ( http://arxiv.org/abs/2307.08880v1 )

ライセンス: Link先を確認
Nosseiba Ben Salem, Younes Bennani, Joseph Karkazan, Abir Barbara, Charles Dacheux, Thomas Gregory(参考訳) 近年、ディープラーニングベースのアプリケーションは大きな成功を収めている。 テキスト、オーディオ、画像、ビデオはすべて、ディープラーニングアプローチを使って大きな成功を収めています。 コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の使用は、特に信頼性の高い結果をもたらしている。 これらの結果を得るためには、大量のデータが必要である。 しかし、データセットには常にアクセスできない。 さらに、データのアノテートも難しく、時間がかかります。 セルフトレーニングは、この問題を緩和し、最先端のパフォーマンスを達成するための、半教師付きアプローチである。 理論的解析は、通常の分類器よりもより良い一般化をもたらすことを証明した。 ニューラルネットワークが直面するもうひとつの問題は、現代的な問題の複雑さが増し、高い計算とストレージコストが要求されることだ。 この問題を軽減する一つの方法は、モジュール学習として知られる人間の認知に触発された戦略である。 このアプローチの原則は、複雑な問題を単純なサブタスクに分解することである。 このアプローチには、学習の高速化、一般化の改善、解釈可能性の向上など、いくつかのメリットがある。 本稿では,DCSS(Dorsal Capsulo-Scapholunate Septum)不安定度分類のためのモジュール型学習の異なるアーキテクチャを紹介し,評価する。 実験により,モジュラー学習は非モジュラーシステムに比べて性能が向上することを示した。 さらに,重み付きモジュラーは,ゲーティングモジュールの確率を用いて出力を重み付けすることであり,ほぼ完全な分類を達成した。 第2部では,肩関節鏡画像への自己訓練によるデータラベリングとセグメンテーションのアプローチを提案する。

Deep learning-based applications have seen a lot of success in recent years. Text, audio, image, and video have all been explored with great success using deep learning approaches. The use of convolutional neural networks (CNN) in computer vision, in particular, has yielded reliable results. In order to achieve these results, a large amount of data is required. However, the dataset cannot always be accessible. Moreover, annotating data can be difficult and time-consuming. Self-training is a semi-supervised approach that managed to alleviate this problem and achieve state-of-the-art performances. Theoretical analysis even proved that it may result in a better generalization than a normal classifier. Another problem neural networks can face is the increasing complexity of modern problems, requiring a high computational and storage cost. One way to mitigate this issue, a strategy that has been inspired by human cognition known as modular learning, can be employed. The principle of the approach is to decompose a complex problem into simpler sub-tasks. This approach has several advantages, including faster learning, better generalization, and enables interpretability. In the first part of this paper, we introduce and evaluate different architectures of modular learning for Dorsal Capsulo-Scapholunate Septum (DCSS) instability classification. Our experiments have shown that modular learning improves performances compared to non-modular systems. Moreover, we found that weighted modular, that is to weight the output using the probabilities from the gating module, achieved an almost perfect classification. In the second part, we present our approach for data labeling and segmentation with self-training applied on shoulder arthroscopy images.
翻訳日:2023-07-19 16:58:53 公開日:2023-07-17
# リンク予測における一般化性向上のためのグラフトポロジーからのノード属性の分離

Disentangling Node Attributes from Graph Topology for Improved Generalizability in Link Prediction ( http://arxiv.org/abs/2307.08877v1 )

ライセンス: Link先を確認
Ayan Chatterjee, Robin Walters, Giulia Menichetti, and Tina Eliassi-Rad(参考訳) リンク予測は、さまざまなアプリケーションによるグラフ機械学習において重要なタスクである。 ノード属性とグラフトポロジの相互作用を調べ,事前学習したノード属性を組み込むことでリンク予測モデルの一般化能力が向上することを示す。 提案手法であるUPNA(Unsupervised Pre-training of Node Attributes)は,グラフニューラルネットワーク(GNN)とは対照的に,一対のノード属性を抽出し,エッジの確率を予測する関数を学習することにより,帰納的リンク予測問題を解く。 このようにして、UPNAは、学習した関数を使用して、成長するグラフに入ってくるノードを追加することができるため、潜伏グラフ生成機構の重要な部分を学ぶ。 事前学習されたノード属性を利用することで、観測バイアスを克服し、観測されていないノードについて有意義な予測を行い、ベンチマークデータセットにおける最先端のパフォーマンス(3倍から34倍の改善)を上回る。 UPNAは、様々なペアワイズ学習タスクに適用でき、既存のリンク予測モデルと統合して、一般化可能性とグラフ生成モデルを強化することができる。

Link prediction is a crucial task in graph machine learning with diverse applications. We explore the interplay between node attributes and graph topology and demonstrate that incorporating pre-trained node attributes improves the generalization power of link prediction models. Our proposed method, UPNA (Unsupervised Pre-training of Node Attributes), solves the inductive link prediction problem by learning a function that takes a pair of node attributes and predicts the probability of an edge, as opposed to Graph Neural Networks (GNN), which can be prone to topological shortcuts in graphs with power-law degree distribution. In this manner, UPNA learns a significant part of the latent graph generation mechanism since the learned function can be used to add incoming nodes to a growing graph. By leveraging pre-trained node attributes, we overcome observational bias and make meaningful predictions about unobserved nodes, surpassing state-of-the-art performance (3X to 34X improvement on benchmark datasets). UPNA can be applied to various pairwise learning tasks and integrated with existing link prediction models to enhance their generalizability and bolster graph generative models.
翻訳日:2023-07-19 16:58:32 公開日:2023-07-17
# 逐次および図形エンコーディングによるペプチド自己組織化の効率的予測

Efficient Prediction of Peptide Self-assembly through Sequential and Graphical Encoding ( http://arxiv.org/abs/2307.09169v1 )

ライセンス: Link先を確認
Zihan Liu, Jiaqi Wang, Yun Luo, Shuang Zhao, Wenbin Li, Stan Z. Li(参考訳) 近年,様々なペプチド特性の予測への深層学習の応用に関する研究が爆発的に増えている。 分子動力学は大きなペプチドデータセットの効率的な収集を可能にし、ディープラーニングのための信頼性の高いトレーニングデータを提供する。 しかし、AIによるペプチド関連タスクに不可欠なペプチドエンコーディングの体系的解析が欠如しているため、予測精度の向上のためには緊急に解決すべき課題である。 この問題に対処するため,我々はまず,粗粒分子動力学(cgmd)によって生成された62,000以上のサンプルを含むペプチド自己組織化の高品質なコロッサルシミュレーションデータセットを収集した。 そこで本研究では, ペプチド自己組織化予測の精度, ペプチド関連応用に先立って, ペプチド自己組織化予測の精度について, 最先端シーケンシャル(rnn, lstm, トランスフォーマー)と構造深層学習モデル(gcn, gat, グラフセージ)を用いて, アミノ酸を配列や分子グラフにコードするペプチドが与える影響を体系的に検討した。 広範なベンチマーク研究により、transformerは最も強力なシーケンスエンコーディングベースのディープラーニングモデルであることが証明され、ペプチド自己組織化予測の限界をデカペプチドに押し上げている。 要約すると、この研究は高度なディープラーニングモデルを用いたペプチドエンコーディングの総合的なベンチマーク分析を提供し、等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。

In recent years, there has been an explosion of research on the application of deep learning to the prediction of various peptide properties, due to the significant development and market potential of peptides. Molecular dynamics has enabled the efficient collection of large peptide datasets, providing reliable training data for deep learning. However, the lack of systematic analysis of the peptide encoding, which is essential for AI-assisted peptide-related tasks, makes it an urgent problem to be solved for the improvement of prediction accuracy. To address this issue, we first collect a high-quality, colossal simulation dataset of peptide self-assembly containing over 62,000 samples generated by coarse-grained molecular dynamics (CGMD). Then, we systematically investigate the effect of peptide encoding of amino acids into sequences and molecular graphs using state-of-the-art sequential (i.e., RNN, LSTM, and Transformer) and structural deep learning models (i.e., GCN, GAT, and GraphSAGE), on the accuracy of peptide self-assembly prediction, an essential physiochemical process prior to any peptide-related applications. Extensive benchmarking studies have proven Transformer to be the most powerful sequence-encoding-based deep learning model, pushing the limit of peptide self-assembly prediction to decapeptides. In summary, this work provides a comprehensive benchmark analysis of peptide encoding with advanced deep learning models, serving as a guide for a wide range of peptide-related predictions such as isoelectric points, hydration free energy, etc.
翻訳日:2023-07-19 15:02:28 公開日:2023-07-17
# 二項分類のための分類エンコーダのベンチマーク

A benchmark of categorical encoders for binary classification ( http://arxiv.org/abs/2307.09191v1 )

ライセンス: Link先を確認
Federico Matteucci, Vadim Arzamasov, Klemens Boehm(参考訳) 分類エンコーダは、幅広い機械学習モデルに欠かせない分類的特徴を数値表現に変換する。 既存のエンコーダベンチマークでは,(1)エンコーダ,(2)実験因子,(3)データセットの選択が限定されているため,一般化性に欠ける。 さらに、さまざまな集約戦略を採用することで矛盾が生じる。 本論文は,これまで最も包括的なカテゴリエンコーダのベンチマークであり,多種多様な家族のエンコーダ構成32種,実験因子36種,データセット50種について広範な評価を行った。 この研究では、データセットの選択、実験的な要因、集約戦略がベンチマークの結論に深く影響していることが示されている。

Categorical encoders transform categorical features into numerical representations that are indispensable for a wide range of machine learning models. Existing encoder benchmark studies lack generalizability because of their limited choice of (1) encoders, (2) experimental factors, and (3) datasets. Additionally, inconsistencies arise from the adoption of varying aggregation strategies. This paper is the most comprehensive benchmark of categorical encoders to date, including an extensive evaluation of 32 configurations of encoders from diverse families, with 36 combinations of experimental factors, and on 50 datasets. The study shows the profound influence of dataset selection, experimental factors, and aggregation strategies on the benchmark's conclusions -- aspects disregarded in previous encoder benchmarks.
翻訳日:2023-07-19 14:52:45 公開日:2023-07-17
# 胸部x線からのcovid-19検出のための視覚トランスフォーマーの研究

Study of Vision Transformers for Covid-19 Detection from Chest X-rays ( http://arxiv.org/abs/2307.09402v1 )

ライセンス: Link先を確認
Sandeep Angara, Sharath Thirunagaru(参考訳) 新型コロナウイルスのパンデミックが世界的な健康危機を引き起こし、迅速かつ正確なウイルス検出の必要性を強調している。 本研究は,視覚トランスフォーマによる画像認識タスクにおける優れた性能で知られているcovid-19検出のためのトランスフォーマによるトランスファー学習について検討する。 我々は、視覚トランスフォーマーの能力を利用して、グローバルコンテキストを捉え、胸部x線画像から複雑なパターンを学習する。 本研究では、最新の最先端トランスモデルを用いて、視覚変換器(ViT)、スウィントランス、マックスビジョン変換器(MViT)、ピラミッドビジョン変換器(PVT)などのCXR画像を用いて、Covid-19を検出する。 imageNET の重みによるトランスファーラーニングの利用により、このモデルは98.75%から99.5%の精度で到達した。 我々の実験は、Vision Transformerが新型コロナウイルス検出における最先端のパフォーマンスを達成し、従来の手法、さらには畳み込みニューラルネットワーク(CNN)よりも優れていることを示した。 その結果、新型コロナウイルス検出の強力なツールとしてのビジョントランスフォーマーの可能性を強調し、臨床環境でのスクリーニングと診断の効率と精度を向上させることが示唆された。

The COVID-19 pandemic has led to a global health crisis, highlighting the need for rapid and accurate virus detection. This research paper examines transfer learning with vision transformers for COVID-19 detection, known for its excellent performance in image recognition tasks. We leverage the capability of Vision Transformers to capture global context and learn complex patterns from chest X-ray images. In this work, we explored the recent state-of-art transformer models to detect Covid-19 using CXR images such as vision transformer (ViT), Swin-transformer, Max vision transformer (MViT), and Pyramid Vision transformer (PVT). Through the utilization of transfer learning with IMAGENET weights, the models achieved an impressive accuracy range of 98.75% to 99.5%. Our experiments demonstrate that Vision Transformers achieve state-of-the-art performance in COVID-19 detection, outperforming traditional methods and even Convolutional Neural Networks (CNNs). The results highlight the potential of Vision Transformers as a powerful tool for COVID-19 detection, with implications for improving the efficiency and accuracy of screening and diagnosis in clinical settings.
翻訳日:2023-07-19 13:44:02 公開日:2023-07-17
# ソフトウェア引用形式は時間とともにどのように進化するか? R言語パッケージの縦解析

How do software citation formats evolve over time? A longitudinal analysis of R programming language packages ( http://arxiv.org/abs/2307.09390v1 )

ライセンス: Link先を確認
Yuzhuo Wang, Kai Li(参考訳) データ駆動研究パラダイムの下では、研究ソフトウェアは科学調査のほぼすべての段階において重要な役割を担っている。 研究者は、学術出版物におけるソフトウェアの正式な引用を提唱し、従来の研究成果と同等に扱う。 しかし、ソフトウェアは一貫して引用されることはほとんどない: 1つのソフトウェアエンティティは異なるオブジェクトとして参照することができ、引用は時間とともに変化する。 しかし、これらの問題は、ソフトウェア引用に関する既存の実証研究でほとんど見過ごされている。 上記のギャップを埋めるため,本研究では2021年と2022年に収集された全rパッケージの引用形式を縦断的に比較分析し,r言語パッケージの引用形式,オープンソースソフトウェアファミリーの重要なメンバ,引用形式が時間とともにどのように進化するかを理解する。 特に,引用の基盤となる異なる文書タイプと,引用形式におけるメタデータ要素が時間とともに変化したかについて検討する。 さらに,ソフトウェア(ソフトウェア論文)として引用された論文の学際性を詳細に分析する。 本研究は,ソフトウェア引用に関する複雑さをより深く理解し,今後のソフトウェア引用方針とインフラに光を当てることを目的としている。

Under the data-driven research paradigm, research software has come to play crucial roles in nearly every stage of scientific inquiry. Scholars are advocating for the formal citation of software in academic publications, treating it on par with traditional research outputs. However, software is hardly consistently cited: one software entity can be cited as different objects, and the citations can change over time. These issues, however, are largely overlooked in existing empirical research on software citation. To fill the above gaps, the present study compares and analyzes a longitudinal dataset of citation formats of all R packages collected in 2021 and 2022, in order to understand the citation formats of R-language packages, important members in the open-source software family, and how the citations evolve over time. In particular, we investigate the different document types underlying the citations and what metadata elements in the citation formats changed over time. Furthermore, we offer an in-depth analysis of the disciplinarity of journal articles cited as software (software papers). By undertaking this research, we aim to contribute to a better understanding of the complexities associated with software citation, shedding light on future software citation policies and infrastructure.
翻訳日:2023-07-19 13:43:22 公開日:2023-07-17
# マヨラナエッジモードへの渦の注入の動的シミュレーション

Dynamical simulation of the injection of vortices into a Majorana edge mode ( http://arxiv.org/abs/2307.07447v2 )

ライセンス: Link先を確認
I. M. Flor, A. Donis Vela, C. W. J. Beenakker and G. Lemut(参考訳) 位相超伝導体のキラルエッジモードは、アーベル交換統計量を持つフェルミオン準粒子を輸送できるが、非可換なアノン(マヨルダナのゼロモードは境界に沿って伝播する「pi」相のドメインウォールに束縛される)も輸送できる。 このようなエッジ渦は、ジョセフソン接合上のh/2e流束バイアスの適用により注入される。 射出過程の既存の説明は、ジョゼフソン接合の内部ダイナミクスを無視する断熱系の瞬時散乱近似に依存する。 ここでは, 誘導過程の時間依存多体シミュレーションにおいて, この近似を超越し, 超伝導体の大部分に非移動型アブリコソフ渦を用いた移動端渦のブレイディングを行う。 我々のシミュレーションは、飛行するMajorana qubitの実装に必要とされるジョセフソン接合の特性に光を当てる。

The chiral edge modes of a topological superconductor can transport fermionic quasiparticles, with Abelian exchange statistics, but they can also transport non-Abelian anyons: Majorana zero-modes bound to a {\pi}-phase domain wall that propagates along the boundary. Such an edge vortex is injected by the application of an h/2e flux bias over a Josephson junction. Existing descriptions of the injection process rely on the instantaneous scattering approximation of the adiabatic regime, where the internal dynamics of the Josephson junction is ignored. Here we go beyond that approximation in a time-dependent many-body simulation of the injection process, followed by a braiding of the mobile edge vortex with an immobile Abrikosov vortex in the bulk of the superconductor. Our simulation sheds light on the properties of the Josephson junction needed for a successful implementation of a flying Majorana qubit.
翻訳日:2023-07-19 11:39:04 公開日:2023-07-17
# 古典から量子へ:無限次元のエントロピー上の一様連続性境界

From Classical to Quantum: Uniform Continuity Bounds on Entropies in Infinite Dimensions ( http://arxiv.org/abs/2104.02019v2 )

ライセンス: Link先を確認
Simon Becker, Nilanjana Datta, Michael G. Jabbour(参考訳) 無限状態空間上の古典的確率変数と無限次元系の量子状態の両方のエントロピーに対して、新しいおよび洗練された一様連続性境界を証明した。 乱数変数のシャノンエントロピーにおいて、可算無限アルファベットを持つ最初の強連続性推定値を得る。 この証明は、新しい平均制約付きファノ型不等式と確率変数の最大結合の概念に依存する。 次に、この古典的結果を用いて、無限次元量子系の状態のフォン・ノイマンエントロピーに束縛された最初のタイトなエネルギー制約付き連続性を導出し、ハミルトニアンが数作用素であるときに、量子情報理論の文脈において無限次元量子系の研究において最も関連するハミルトニアンとなる。 上記のスキームはシャノンとフォン・ノイマンのエントロピーにのみ作用する。 したがって、より一般的なエントロピー、例えば $\alpha$-R\'enyi や $\alpha$-Tsallis entropies を扱うために、連続性境界が有限次元系でのみ知られている$\alpha \in (0,1)$ は、作用素 H\"older 連続函数の最近の結果とハミルトンの特別なスペクトル部分空間におけるすべてのシャッテンノルムの同値性に依存する新しい近似スキームを開発する。 このアプローチは、我々が示すように、エントロピー汎関数のh\"older連続性から従う確率変数の$\alpha$-r\'enyiと$\alpha$-tsallisエントロピーの連続性境界によって動機付けられる。 $\alpha>1$のバウンドも提供される。 最後に、シロコフによるいわゆる有限次元近似(fa)特性に関する最近の研究で提起された、関連する近似問題に関するオープン問題を解く。

We prove a variety of new and refined uniform continuity bounds for entropies of both classical random variables on an infinite state space and of quantum states of infinite-dimensional systems. We obtain the first tight continuity estimate on the Shannon entropy of random variables with a countably infinite alphabet. The proof relies on a new mean-constrained Fano-type inequality and the notion of maximal coupling of random variables. We then employ this classical result to derive the first tight energy-constrained continuity bound for the von Neumann entropy of states of infinite-dimensional quantum systems, when the Hamiltonian is the number operator, which is arguably the most relevant Hamiltonian in the study of infinite-dimensional quantum systems in the context of quantum information theory. The above scheme works only for Shannon- and von Neumann entropies. Hence, to deal with more general entropies, e.g. $\alpha$-R\'enyi and $\alpha$-Tsallis entropies, with $\alpha \in (0,1)$, for which continuity bounds are known only for finite-dimensional systems, we develop a novel approximation scheme which relies on recent results on operator H\"older continuous functions and the equivalence of all Schatten norms in special spectral subspaces of the Hamiltonian. This approach is, as we show, motivated by continuity bounds for $\alpha$-R\'enyi and $\alpha$-Tsallis entropies of random variables that follow from the H\"older continuity of the entropy functionals. Bounds for $\alpha>1$ are provided, too. Finally, we settle an open problem on related approximation questions posed in the recent works by Shirokov on the so-called Finite-dimensional Approximation (FA) property.
翻訳日:2023-07-19 01:18:06 公開日:2023-07-17
# 半教師付き学習: ラベルなしデータが等しく有用である場合

Semi-Supervised Learning: the Case When Unlabeled Data is Equally Useful ( http://arxiv.org/abs/2005.11018v3 )

ライセンス: Link先を確認
Jingge Zhu(参考訳) 半教師付き学習アルゴリズムは比較的安価な未ラベルデータを利用して学習性能を向上させる。 本研究では,データ分布が連続パラメータによって特徴づけられる統計モデルについて考察する。 分布の特定の条件下では,ラベルなしデータは学習率の点でラベル付き日付として等しく有用であることを示す。 具体的には、$n, m$をラベル付きデータとラベルなしデータの数とする。 半教師学習の学習レートは、$O(1/n)$ if $m\sim n$, and scales $O(1/n^{1+\gamma})$ if $m\sim n^{1+\gamma}$ for some $\gamma>0$, 一方、教師学習の学習レートは$O(1/n)$である。

Semi-supervised learning algorithms attempt to take advantage of relatively inexpensive unlabeled data to improve learning performance. In this work, we consider statistical models where the data distributions can be characterized by continuous parameters. We show that under certain conditions on the distribution, unlabeled data is equally useful as labeled date in terms of learning rate. Specifically, let $n, m$ be the number of labeled and unlabeled data, respectively. It is shown that the learning rate of semi-supervised learning scales as $O(1/n)$ if $m\sim n$, and scales as $O(1/n^{1+\gamma})$ if $m\sim n^{1+\gamma}$ for some $\gamma>0$, whereas the learning rate of supervised learning scales as $O(1/n)$.
翻訳日:2023-07-19 01:16:26 公開日:2023-07-17
# 自動学術論文レビュー:概念,技術,課題

Automated scholarly paper review: Concepts, technologies, and challenges ( http://arxiv.org/abs/2111.07533v4 )

ライセンス: Link先を確認
Jialiang Lin, Jiaxin Song, Zhangping Zhou, Yidong Chen, Xiaodong Shi(参考訳) ピアレビューは、学術出版において重要な役割を果たす研究評価のメカニズムとして広く受け入れられている。 しかし、その効率の低さと再現性の低さから、このメカニズムに対する批判が長く続いてきた。 近年、ピアレビュープロセスを支援するために人工知能(AI)が応用されている。 それでも人間の関与により、このような制限は避けられないままである。 本稿では,aspr(automated scholarly paper review)の概念とパイプラインを提案し,本格的コンピュータ化レビュープロセスを実現するための文献と技術について検討する。 レビューと議論に基づいて,ASPRの各段階にすでに対応する研究と予備的な実装が存在すると結論づける。 我々は、既存の技術でasprの課題をさらに調査する。 主な困難は、不適切なデータ、不完全な文書解析と表現、欠陥のある人間の$\unicode{x2013}$コンピュータ相互作用、そして深い論理的推論である。 さらに,今後の方向性を指摘し,asprの倫理的・倫理的課題について論じる。 近い将来、 aspr と peer review は、 aspr が人間からのレビュー作業を完全に引き受ける前に、強化的な方法で共存していくだろう。

Peer review is a widely accepted mechanism for research evaluation, playing a pivotal role in academic publishing. However, criticisms have long been leveled at this mechanism, mostly because of its poor efficiency and low reproducibility. Recent years have seen the application of artificial intelligence (AI) in assisting the peer review process. Nonetheless, with the involvement of humans, such limitations remain inevitable. In this paper, we propose the concept and pipeline of automated scholarly paper review (ASPR) and review the relevant literature and technologies of achieving a full-scale computerized review process. On the basis of the review and discussion, we conclude that there is already corresponding research and preliminary implementation at each stage of ASPR. We further look into the challenges in ASPR with the existing technologies. The major difficulties lie in inadequate data, imperfect document parsing and representation, defective human$\unicode{x2013}$computer interaction, and flawed deep logical reasoning. Moreover, we point out the future directions and discuss the possible moral and ethical issues of ASPR. In the foreseeable future, ASPR and peer review will coexist in a reinforcing manner before ASPR is able to fully undertake the reviewing workload from humans.
翻訳日:2023-07-19 01:09:47 公開日:2023-07-17
# 極小ポート型テレポーテーション

Minimal Port-based Teleportation ( http://arxiv.org/abs/2111.05499v2 )

ライセンス: Link先を確認
Sergii Strelchuk, Micha{\l} Studzi\'nski(参考訳) ポートベースのテレポーテーション(PBT)プロトコルには2つの種類がある: 決定論的(Deterministic) - 状態が常に受信機に到着するが、不完全な送信と確率的(probabilistic) - 状態が高い確率で受信機に到達する場合。 p_{succ}=1-\frac{n+2}{2^{n+1}}$とfidelity $1-o(\frac{1}{n})$と$n$maxally entangled状態からなるリソース状態とをテレポートする。 このプロトコルは決定性または確率性のあるPBTプロトコルから再現できない。 我々は、より少ない最大エンタングル状態でより古典的なビットを送信する、対応する効率的なスーパーデンス符号化プロトコルを定義する。 さらに,異なるPBTプロトコルの比較と変換を行う厳密な手法を提案する。

There are two types of port-based teleportation (PBT) protocols: deterministic -- when the state always arrives to the receiver but is imperfectly transmitted and probabilistic -- when the state reaches the receiver intact with high probability. We introduce the minimal set of requirements that define a feasible PBT protocol and construct a simple PBT protocol that satisfies these requirements: it teleports an unknown state of a qubit with success probability $p_{succ}=1-\frac{N+2}{2^{N+1}}$ and fidelity $1-O(\frac{1}{N})$ with the resource state consisting of $N$ maximally entangled states. This protocol is not reducible from either the deterministic or probabilistic PBT protocol. We define the corresponding efficient superdense coding protocols which transmit more classical bits with fewer maximally entangled states. Furthermore, we introduce rigorous methods for comparing and converting between different PBT protocols.
翻訳日:2023-07-19 01:08:54 公開日:2023-07-17
# 生物医学領域における事前学習言語モデル:体系的調査

Pre-trained Language Models in Biomedical Domain: A Systematic Survey ( http://arxiv.org/abs/2110.05006v4 )

ライセンス: Link先を確認
Benyou Wang, Qianqian Xie, Jiahuan Pei, Zhihong Chen, Prayag Tiwari, Zhao Li, and Jie fu(参考訳) 事前学習された言語モデル(plms)は、ほとんどの自然言語処理(nlp)タスクのデファクトパラダイムである。 情報学、医学、コンピュータサイエンス(CS)コミュニティの研究者は、バイオメディカルテキスト、電子健康記録、タンパク質、および様々なバイオメディカルタスクのためのDNA配列など、バイオメディカルデータセットに基づいて訓練された様々なPLMを提案する。 しかし、生物医学的plmの学際的特徴はコミュニティ間の拡散を阻害し、既存の作品のいくつかは包括的に比較・議論することなく互いに分離されている。 バイオメディカルplmの最近の進歩とその応用を体系的にレビューするだけでなく、用語やベンチマークを標準化する調査が期待されている。 本稿では,生物医学領域における事前学習言語モデルの最近の進歩と,その生物医学下流課題への応用について概説する。 特に,その動機を議論し,既存の生物医学plmの分類法を提案する。 バイオメディカルダウンストリームタスクにおけるそれらの応用を概観する。 最後に,研究コミュニティの今後の研究にインスピレーションを与えてくれるような,さまざまな制限と今後のトレンドについて紹介する。

Pre-trained language models (PLMs) have been the de facto paradigm for most natural language processing (NLP) tasks. This also benefits biomedical domain: researchers from informatics, medicine, and computer science (CS) communities propose various PLMs trained on biomedical datasets, e.g., biomedical text, electronic health records, protein, and DNA sequences for various biomedical tasks. However, the cross-discipline characteristics of biomedical PLMs hinder their spreading among communities; some existing works are isolated from each other without comprehensive comparison and discussions. It expects a survey that not only systematically reviews recent advances of biomedical PLMs and their applications but also standardizes terminology and benchmarks. In this paper, we summarize the recent progress of pre-trained language models in the biomedical domain and their applications in biomedical downstream tasks. Particularly, we discuss the motivations and propose a taxonomy of existing biomedical PLMs. Their applications in biomedical downstream tasks are exhaustively discussed. At last, we illustrate various limitations and future trends, which we hope can provide inspiration for the future research of the research community.
翻訳日:2023-07-19 01:08:35 公開日:2023-07-17
# Pandoraのボックスを相関で近似する

Approximating Pandora's Box with Correlations ( http://arxiv.org/abs/2108.12976v3 )

ライセンス: Link先を確認
Shuchi Chawla, Evangelia Gergatsouli, Jeremy McMahan, Christos Tzamos(参考訳) 古典的なpandora's box (pb) 問題をボックス値の相関分布の下で再検討する。 arXiv:1911.01632の最近の研究は、ボックスを一定の順序で訪問する問題に対する制限されたポリシーのクラスに対して、一定の近似アルゴリズムを得た。 本研究では,これまで見てきた値に基づいて,次に訪れるボックスを適応的に選択できる最適ポリシーの近似の複雑さについて検討する。 本研究の主な成果は,確率的最適化による一様決定木(UDT)問題に対するPBの近似保存等価性を確立し,Min-Sum Set Cover(\text{MSSC}_f$)問題の変種を定式化することである。 サポート$m$の分布に対して、UDTは$\log m$近似を認め、多項式時間における定数係数近似は長年の開問題であるが、定数係数近似は半周期時間(arXiv:1906.11385)で達成可能である。 私たちの主な結果は、PBと$\text{MSSC}_f$のプロパティが同じであることを示している。 また、値の分布がより簡潔に$m$の製品分布の混合物として与えられる場合についても検討する。 この問題は、さらに困難である最適決定木(Optimal Decision Tree)のうるさい変種と再び関係している。 時間$n^{ \tilde O(m^2/\varepsilon^2 ) }$ 各ボックス上の混合成分が同一またはテレビ距離で$\varepsilon$で分離された場合、定数係数近似を与える。

We revisit the classic Pandora's Box (PB) problem under correlated distributions on the box values. Recent work of arXiv:1911.01632 obtained constant approximate algorithms for a restricted class of policies for the problem that visit boxes in a fixed order. In this work, we study the complexity of approximating the optimal policy which may adaptively choose which box to visit next based on the values seen so far. Our main result establishes an approximation-preserving equivalence of PB to the well studied Uniform Decision Tree (UDT) problem from stochastic optimization and a variant of the Min-Sum Set Cover ($\text{MSSC}_f$) problem. For distributions of support $m$, UDT admits a $\log m$ approximation, and while a constant factor approximation in polynomial time is a long-standing open problem, constant factor approximations are achievable in subexponential time (arXiv:1906.11385). Our main result implies that the same properties hold for PB and $\text{MSSC}_f$. We also study the case where the distribution over values is given more succinctly as a mixture of $m$ product distributions. This problem is again related to a noisy variant of the Optimal Decision Tree which is significantly more challenging. We give a constant-factor approximation that runs in time $n^{ \tilde O( m^2/\varepsilon^2 ) }$ when the mixture components on every box are either identical or separated in TV distance by $\varepsilon$.
翻訳日:2023-07-19 01:08:16 公開日:2023-07-17
# MKConv:ポイントクラウド分析のための多次元特徴表現

MKConv: Multidimensional Feature Representation for Point Cloud Analysis ( http://arxiv.org/abs/2107.12655v3 )

ライセンス: Link先を確認
Sungmin Woo, Dogyoon Lee, Sangwon Hwang, Woojin Kim and Sangyoun Lee(参考訳) 深層学習の顕著な成功にもかかわらず、点雲上の最適な畳み込み操作は、不規則なデータ構造のため、いまだ解明されていない。 既存の手法は主に、連続空間における任意の点を扱える効果的な連続カーネル関数の設計に焦点を当てている。 高パフォーマンスを示す様々なアプローチが提案されているが、標準的なポイントワイズ特徴は1dチャネルで表現され、その表現が追加の空間的特徴次元を伴う場合により有益になる可能性がある。 本稿では、点特徴表現をベクトルから多次元行列に変換することを学ぶ新しい畳み込み演算子である多次元カーネル畳み込み(mkconv)を提案する。 標準点の畳み込みとは異なり、MKConvは2ステップで進む。 i)多次元カーネル重みを利用して局所特徴表現の空間次元を最初に活性化する。 これらの空間的に拡張された特徴は、より詳細な局所構造情報を持ちながら、空間的相関や特徴空間のチャネル相関を通じて埋め込み情報を表現することができる。 (ii) 離散畳み込みを格子構造行列と見なすことができる多次元特徴量に適用する。 このようにして、情報損失に苦しむボクセル化をすることなく、ポイントクラウドデータの離散畳み込みを利用することができる。 さらに,空間的特徴量を再重み付けした局所点内における包括的構造認識を実現するために,空間的注意モジュールMultidimensional Local Attention (MLA)を提案する。 我々は,MKConvがオブジェクト分類,オブジェクト部分分割,シーンセマンティックセマンティックセマンティクスなどのクラウド処理タスクに優れた適用性を有することを示す。

Despite the remarkable success of deep learning, an optimal convolution operation on point clouds remains elusive owing to their irregular data structure. Existing methods mainly focus on designing an effective continuous kernel function that can handle an arbitrary point in continuous space. Various approaches exhibiting high performance have been proposed, but we observe that the standard pointwise feature is represented by 1D channels and can become more informative when its representation involves additional spatial feature dimensions. In this paper, we present Multidimensional Kernel Convolution (MKConv), a novel convolution operator that learns to transform the point feature representation from a vector to a multidimensional matrix. Unlike standard point convolution, MKConv proceeds via two steps. (i) It first activates the spatial dimensions of local feature representation by exploiting multidimensional kernel weights. These spatially expanded features can represent their embedded information through spatial correlation as well as channel correlation in feature space, carrying more detailed local structure information. (ii) Then, discrete convolutions are applied to the multidimensional features which can be regarded as a grid-structured matrix. In this way, we can utilize the discrete convolutions for point cloud data without voxelization that suffers from information loss. Furthermore, we propose a spatial attention module, Multidimensional Local Attention (MLA), to provide comprehensive structure awareness within the local point set by reweighting the spatial feature dimensions. We demonstrate that MKConv has excellent applicability to point cloud processing tasks including object classification, object part segmentation, and scene semantic segmentation with superior results.
翻訳日:2023-07-19 01:07:48 公開日:2023-07-17
# 反射エントロピーのためのページ曲線

The Page Curve for Reflected Entropy ( http://arxiv.org/abs/2201.11730v3 )

ライセンス: Link先を確認
Chris Akers, Thomas Faulkner, Simon Lin and Pratik Rath(参考訳) We study the reflect entropy $S_R$ in the West Coast Model, a toy model of black hole evaporation with the end-of-the-world branes。 位相遷移から遠ざかるエンタングルメントウェッジ断面に関連するホログラフィック双対性の有効性を示す。 さらに,$s_r$相転移における不連続を滑らかにする重要な非摂動効果を解析した。 重力経路積分を行うことにより、反射絡み合いスペクトルを解析的に求める。 スペクトルは超選択セクタからなる単純な形式を取るが、これは幾何学の直接の和、切断されたもの、閉宇宙を含む接続されたものと解釈する。 o(\sqrt{g_n})$の領域変動は、エントロピーのエントロピー相転移に類似した正準アンサンブル内の$s_r$相転移を拡散する。 また,反射エントロピーのrenyi一般化を検討し,renyiパラメータの関数として位相遷移の位置が変化することを示した。

We study the reflected entropy $S_R$ in the West Coast Model, a toy model of black hole evaporation consisting of JT gravity coupled to end-of-the-world branes. We demonstrate the validity of the holographic duality relating it to the entanglement wedge cross section away from phase transitions. Further, we analyze the important non-perturbative effects that smooth out the discontinuity in the $S_R$ phase transition. By performing the gravitational path integral, we obtain the reflected entanglement spectrum analytically. The spectrum takes a simple form consisting of superselection sectors, which we interpret as a direct sum of geometries, a disconnected one and a connected one involving a closed universe. We find that area fluctuations of $O(\sqrt{G_N})$ spread out the $S_R$ phase transition in the canonical ensemble, analogous to the entanglement entropy phase transition. We also consider a Renyi generalization of the reflected entropy and show that the location of the phase transition varies as a function of the Renyi parameter.
翻訳日:2023-07-19 00:58:34 公開日:2023-07-17
# トップ2アルゴリズムのための情報指向選択

Information-Directed Selection for Top-Two Algorithms ( http://arxiv.org/abs/2205.12086v3 )

ライセンス: Link先を確認
Wei You, Chao Qin, Zihao Wang, Shuoguang Yang(参考訳) マルチアームバンディットにおける最適なk腕識別問題について検討し、測定を逐次割当てることにより、最も高い平均報酬でk腕の正確なセットを選択することを目的とする。 双対変数を用いた最適割り当てに必要な条件と十分な条件を特徴付ける。 これらの最適条件は、最初ベストアーム識別のために提案されたトップ2のアルゴリズム設計原則(Russo, 2020)の拡張につながる。 さらに、最適条件は、情報ゲインの尺度に基づいて上位2候補の1つを選択する、情報指向選択(IDS)と呼ばれるシンプルで効果的な選択ルールを誘導する。 理論的な保証として、トップ2のトンプソンサンプリングが(漸近的に)ガウスのベストアーム識別に最適であることを証明し、純粋な探検文献(russo, 2020)で明らかな問題を解決した。 副産物として,k > 1 の場合,アルゴリズムが未知の「最適」チューニングパラメータにアクセスできる場合でも,上位2 のアルゴリズムは最適性を達成できないことを示す。 数値実験により,提案するトップ2アルゴリズムの性能は,適応的選択を伴わないアルゴリズムと比較して有意に向上した。

We consider the best-k-arm identification problem for multi-armed bandits, where the objective is to select the exact set of k arms with the highest mean rewards by sequentially allocating measurement effort. We characterize the necessary and sufficient conditions for the optimal allocation using dual variables. Remarkably these optimality conditions lead to the extension of top-two algorithm design principle (Russo, 2020), initially proposed for best-arm identification. Furthermore, our optimality conditions induce a simple and effective selection rule dubbed information-directed selection (IDS) that selects one of the top-two candidates based on a measure of information gain. As a theoretical guarantee, we prove that integrated with IDS, top-two Thompson sampling is (asymptotically) optimal for Gaussian best-arm identification, solving a glaring open problem in the pure exploration literature (Russo, 2020). As a by-product, we show that for k > 1, top-two algorithms cannot achieve optimality even when the algorithm has access to the unknown "optimal" tuning parameter. Numerical experiments show the superior performance of the proposed top-two algorithms with IDS and considerable improvement compared with algorithms without adaptive selection.
翻訳日:2023-07-19 00:49:54 公開日:2023-07-17
# 予測サンプリングによる非定常帯域学習

Non-Stationary Bandit Learning via Predictive Sampling ( http://arxiv.org/abs/2205.01970v6 )

ライセンス: Link先を確認
Yueyang Liu, Xu Kuang, Benjamin Van Roy(参考訳) トンプソンサンプリングは、幅広い定常的なバンディット環境において有効であることが証明されている。 しかし,本論文で示すように,非定常環境に適用しても性能は低下する。 このような失敗は、探索時に、取得した情報が非定常性によってその有用性を失う速さに基づいて、アルゴリズムが動作を区別しないという事実に起因している。 この知見に基づいて,情報取得を優先的に行うアルゴリズムである予測サンプリングを提案する。 ベイズ後悔境界によって予測サンプリングの性能に関する理論的保証が確立される。 計算を実用的関心のある複雑なバンディット環境に気軽に拡張できる予測サンプリング版を提供する。 数値シミュレーションにより,非定常環境において,予測サンプリングがトンプソンサンプリングより優れていることを示す。

Thompson sampling has proven effective across a wide range of stationary bandit environments. However, as we demonstrate in this paper, it can perform poorly when applied to non-stationary environments. We attribute such failures to the fact that, when exploring, the algorithm does not differentiate actions based on how quickly the information acquired loses its usefulness due to non-stationarity. Building upon this insight, we propose predictive sampling, an algorithm that deprioritizes acquiring information that quickly loses usefulness. A theoretical guarantee on the performance of predictive sampling is established through a Bayesian regret bound. We provide versions of predictive sampling for which computations tractably scale to complex bandit environments of practical interest. Through numerical simulations, we demonstrate that predictive sampling outperforms Thompson sampling in all non-stationary environments examined.
翻訳日:2023-07-19 00:48:09 公開日:2023-07-17
# 幾何学的相対エントロピーと偏心R'enyi発散

Geometric relative entropies and barycentric R\'enyi divergences ( http://arxiv.org/abs/2207.14282v2 )

ライセンス: Link先を確認
Mil\'an Mosonyi, Gergely Bunth, P\'eter Vrana(参考訳) 単調量子相対エントロピーを定義する体系的な方法と、単調量子相対エントロピーの集合から始まる(多重変量)量子R\'enyiの発散を与える。 情報理論における中心的な重要性にもかかわらず、古典的相対エントロピーの2つの加法的および単トン量子拡張のみが知られている。 ここでは、同じ性質を持つ与えられたものから単調および加法的量子相対エントロピーを構築するための一般的な手順を与える。特に、梅垣相対エントロピーから始めると、フルランク状態において、梅垣とベラブキン・スタスツキーの間を補間する単調および加法的量子相対エントロピーの新しい1パラメータの族を与える。 異なる方向において、古典的変分公式の一般化を用いて、量子相対エントロピーの任意の有限集合に対応する多変量R\'enyi量を定義する。$(D^{q_x})_{x\in X}$と符号付き確率測度$P$, as $$ Q_P^{b,q}((\rho_x)_{x\in X}):=\sup_{\tau\ge 0}\left\{\Tr\tau-\sum_xP(x)D^{q_x}(\tau\|\rho_x)\right\}。 P$が確率測度であるときに、単調量子相対エントロピーが単調R'enyi量を定義することを示す。 固有正規化により、上記の量の負対数により、2変数の場合 (x=\{0,1\}$, $p(0)=\alpha$) における古典 r\'enyi $\alpha$-divergence の量子拡張が得られる。 D^{q_0}$と$D^{q_1}$の両方が単調で加法的な量子相対エントロピーであり、そのうちの少なくとも一方が梅垣相対エントロピーより厳密に大きい場合、結果として生じる準中心 R\'enyi の発散は、対数ユークリッドと最大 R\'enyi の発散の間に厳密にあり、従って以前に研究された任意の量子 R'enyi の発散とは異なる。

We give systematic ways of defining monotone quantum relative entropies and (multi-variate) quantum R\'enyi divergences starting from a set of monotone quantum relative entropies. Despite its central importance in information theory, only two additive and monotone quantum extensions of the classical relative entropy have been known so far, the Umegaki and the Belavkin-Staszewski relative entropies. Here we give a general procedure to construct monotone and additive quantum relative entropies from a given one with the same properties; in particular, when starting from the Umegaki relative entropy, this gives a new one-parameter family of monotone and additive quantum relative entropies interpolating between the Umegaki and the Belavkin-Staszewski ones on full-rank states. In a different direction, we use a generalization of a classical variational formula to define multi-variate quantum R\'enyi quantities corresponding to any finite set of quantum relative entropies $(D^{q_x})_{x\in X}$ and signed probability measure $P$, as $$ Q_P^{b,q}((\rho_x)_{x\in X}):=\sup_{\tau\ge 0}\left\{\Tr\tau-\sum_xP(x)D^{q_x}(\tau\|\rho_x)\right\}. $$ We show that monotone quantum relative entropies define monotone R\'enyi quantities whenever $P$ is a probability measure. With the proper normalization, the negative logarithm of the above quantity gives a quantum extension of the classical R\'enyi $\alpha$-divergence in the 2-variable case ($X=\{0,1\}$, $P(0)=\alpha$). We show that if both $D^{q_0}$ and $D^{q_1}$ are monotone and additive quantum relative entropies, and at least one of them is strictly larger than the Umegaki relative entropy then the resulting barycentric R\'enyi divergences are strictly between the log-Euclidean and the maximal R\'enyi divergences, and hence they are different from any previously studied quantum R\'enyi divergence.
翻訳日:2023-07-19 00:39:07 公開日:2023-07-17
# 患者集団グラフにおけるグラフトランスの教師なし事前学習

Unsupervised pre-training of graph transformers on patient population graphs ( http://arxiv.org/abs/2207.10603v2 )

ライセンス: Link先を確認
Chantal Pellegrini, Nassir Navab, Anees Kazi(参考訳) 事前トレーニングは、コンピュータビジョン、自然言語処理(nlp)、医療画像など、さまざまな分野の機械学習で成功を収めている。 しかし, 臨床データ解析では十分に研究されていない。 膨大な量の臨床記録が記録されているが、小さな病院で収集されたデータや稀な疾患を扱うデータやラベルは少ない。 このようなシナリオでは、より大規模な臨床データの事前トレーニングにより、パフォーマンスが向上する可能性がある。 本稿では,集団グラフ上でのグラフ深層学習を生かして,マスク言語モデリング(MLM)に触発された患者結果予測のための,異種多モード臨床データを対象とした教師なし事前学習手法を提案する。 そこで本研究では,異種臨床データを扱うグラフトランスフォーマベースのネットワークを提案する。 マスキングベースプリトレーニングとトランスベースネットワークを組み合わせることで,マスキングベースのプリトレーニングが他の領域での成功を,異種臨床データに翻訳する。 3つの医学データセットであるTADPOLE, MIMIC-III, セプシス予測データセットを用いて, 自己教師型および移動学習環境における事前学習手法の利点を示す。 提案手法は,患者および人口レベルでのデータをモデル化し,すべてのデータセットにおける異なる微調整タスクの性能を向上させるのに役立つ。

Pre-training has shown success in different areas of machine learning, such as Computer Vision, Natural Language Processing (NLP), and medical imaging. However, it has not been fully explored for clinical data analysis. An immense amount of clinical records are recorded, but still, data and labels can be scarce for data collected in small hospitals or dealing with rare diseases. In such scenarios, pre-training on a larger set of unlabelled clinical data could improve performance. In this paper, we propose novel unsupervised pre-training techniques designed for heterogeneous, multi-modal clinical data for patient outcome prediction inspired by masked language modeling (MLM), by leveraging graph deep learning over population graphs. To this end, we further propose a graph-transformer-based network, designed to handle heterogeneous clinical data. By combining masking-based pre-training with a transformer-based network, we translate the success of masking-based pre-training in other domains to heterogeneous clinical data. We show the benefit of our pre-training method in a self-supervised and a transfer learning setting, utilizing three medical datasets TADPOLE, MIMIC-III, and a Sepsis Prediction Dataset. We find that our proposed pre-training methods help in modeling the data at a patient and population level and improve performance in different fine-tuning tasks on all datasets.
翻訳日:2023-07-19 00:37:59 公開日:2023-07-17
# 半教師付き言語間感情認識

Semi-supervised cross-lingual speech emotion recognition ( http://arxiv.org/abs/2207.06767v2 )

ライセンス: Link先を確認
Mirko Agarla, Simone Bianco, Luigi Celona, Paolo Napoletano, Alexey Petrovsky, Flavio Piccoli, Raimondo Schettini, Ivan Shanin(参考訳) 近年,一言語での音声感情認識(SER)の性能は,深層学習技術を用いて大幅に向上している。 しかし、第1の要因は、ソースとターゲットドメインの分布の間の大きなギャップであり、第2の要因は、新しい言語のラベル付き発話とは対照的に、ラベルなし発話が主要な可用性である。 従来の側面を考慮して,対象領域(すなわち新しい言語)にラベル付き例がほとんどない場合に,言語間感情認識のためのセミスーパーバイズドラーニング(SSL)手法を提案する。 提案手法はトランスフォーマーをベースとして,ラベルなし発話の擬似ラベル付け戦略を利用して新しいドメインに適応する。 特に,硬質で軟質な擬似ラベルを用いた手法について検討した。 提案手法の性能を,話者に依存しない音源と新言語の両方で徹底的に評価し,異なる言語系統に属する5言語にまたがる頑健性を示す。 実験の結果,非重み付き精度は最先端手法と比較して平均40%向上した。

Performance in Speech Emotion Recognition (SER) on a single language has increased greatly in the last few years thanks to the use of deep learning techniques. However, cross-lingual SER remains a challenge in real-world applications due to two main factors: the first is the big gap among the source and the target domain distributions; the second factor is the major availability of unlabeled utterances in contrast to the labeled ones for the new language. Taking into account previous aspects, we propose a Semi-Supervised Learning (SSL) method for cross-lingual emotion recognition when only few labeled examples in the target domain (i.e. the new language) are available. Our method is based on a Transformer and it adapts to the new domain by exploiting a pseudo-labeling strategy on the unlabeled utterances. In particular, the use of a hard and soft pseudo-labels approach is investigated. We thoroughly evaluate the performance of the proposed method in a speaker-independent setup on both the source and the new language and show its robustness across five languages belonging to different linguistic strains. The experimental findings indicate that the unweighted accuracy is increased by an average of 40% compared to state-of-the-art methods.
翻訳日:2023-07-19 00:37:34 公開日:2023-07-17
# 近傍不変性を考慮した領域外一般化予測

Predicting Out-of-Domain Generalization with Neighborhood Invariance ( http://arxiv.org/abs/2207.02093v3 )

ライセンス: Link先を確認
Nathan Ng and Neha Hulkund and Kyunghyun Cho and Marzyeh Ghassemi(参考訳) 機械学習モデルの開発とデプロイは、新しい環境に一般化する能力の特徴付けと比較能力に依存する。 近年の研究では、モデルの一般化能力を直接予測または理論的に限定できる様々な方法が提案されているが、列車/テスト分布のマッチングやモデルの勾配へのアクセスといった強力な仮定に依存している。 これらの仮定が満たされない場合の一般化を特徴付けるために,局所変換近傍における分類器出力不変量の尺度である近傍不変性を提案する。 具体的には、一連の変換をサンプリングし、入力試験点を付与し、同じクラスに分類される変換点の最大分数として不変性を計算する。 重要な点は、この尺度は計算が簡単で、テストポイントの真のラベルに依存しておらず、データ分散やモデルについて仮定せず、既存のメソッドができない領域外(ood)の設定でも適用でき、適切なデータ変換のセットを選択するだけでよい。 画像分類,感情分析,自然言語推論におけるロバストネスベンチマークの実験において,100以上の単体/テストドメイン対で評価された4,600以上のモデルに対して,我々の近傍不変度測定値と実際のOOD一般化との強い相関を示す。

Developing and deploying machine learning models safely depends on the ability to characterize and compare their abilities to generalize to new environments. Although recent work has proposed a variety of methods that can directly predict or theoretically bound the generalization capacity of a model, they rely on strong assumptions such as matching train/test distributions and access to model gradients. In order to characterize generalization when these assumptions are not satisfied, we propose neighborhood invariance, a measure of a classifier's output invariance in a local transformation neighborhood. Specifically, we sample a set of transformations and given an input test point, calculate the invariance as the largest fraction of transformed points classified into the same class. Crucially, our measure is simple to calculate, does not depend on the test point's true label, makes no assumptions about the data distribution or model, and can be applied even in out-of-domain (OOD) settings where existing methods cannot, requiring only selecting a set of appropriate data transformations. In experiments on robustness benchmarks in image classification, sentiment analysis, and natural language inference, we demonstrate a strong and robust correlation between our neighborhood invariance measure and actual OOD generalization on over 4,600 models evaluated on over 100 unique train/test domain pairs.
翻訳日:2023-07-19 00:37:17 公開日:2023-07-17
# cnot$^{\text{n}}$およびc$_2$not$^2$gateの平行実装 : ライドバーグ原子のホモ核およびヘテロ核f\"{o}rster相互作用

Parallel implementation of CNOT$^{\text{N}}$ and C$_2$NOT$^2$ gates via homonuclear and heteronuclear F\"{o}rster interactions of Rydberg atoms ( http://arxiv.org/abs/2206.12176v3 )

ライセンス: Link先を確認
Ahmed M. Farouk, I.I. Beterov, Peng Xu, S. Bergamini, I.I. Ryabtsev(参考訳) 高忠実度マルチ量子ビットcnot$^{\text{n}}$とc$_{2}$not$^{2}$ゲートのスキームを量子ビットとして使用するアルカリ金属中性原子に対して解析した。 これらのスキームは、M. M\"{u}ller et al.によって提案された電磁誘導透過性とライドベルク封鎖に基づいている。 [PRL 102, 170502 (2009)] 元々の論文では、rydbergブロックに基づくマルチ量子ビットcnot$^{\text{n}}$ゲートの忠実性は、ターゲット原子間の相互作用と結合レーザー強度によって制限されていた。 制御とターゲット原子間のF\"{o}rster相互作用を介して強いヘテロ核双極子-双極子相互作用を用いてこれらの制限を克服し、ターゲット原子は弱いファンデルワールス相互作用で結合する。 我々は,ゲート方式の実験的実現性を向上させるため,レーザーの結合強度を極力小さく保ちつつ,高い忠実性を達成するためにゲート性能を最適化した。 また,C$_{2}$NOT$^{2}$ゲートのスキームの最適化についても検討した。 我々の数値シミュレーションにより、CNOT$^4$ゲート(単一制御と4つのターゲット原子)の忠実度は最大97.5\%$、C$2$NOT$^2$(2つの制御と2つのターゲット原子)の忠実度は実験的に実現可能な条件に対して最大980\%$であることを確認した。

We analyze the schemes of high-fidelity multiqubit CNOT$^{\text{N}}$ and C$_{2}$NOT$^{2}$ gates for alkali-metal neutral atoms used as qubits. These schemes are based on the electromagnetically induced transparency and Rydberg blockade, as proposed by M. M\"{u}ller et al. [PRL 102, 170502 (2009)]. In the original paper, the fidelity of multi-qubit CNOT$^{\text{N}}$ gate based on Rydberg blockade was limited by the interaction between target atoms, and by the coupling laser intensity. We propose overcoming these limits by using strong heteronuclear dipole-dipole interactions via F\"{o}rster interactions between the control and target atoms, while the target atoms remain coupled by weaker van der Waals interaction. We have optimized the gate performance in order to achieve higher fidelity, while keeping coupling laser intensity as small as possible in order to improve the experimental feasibility of the gate schemes. We also considered optimization of schemes of C$_{2}$NOT$^{2}$ gates, where the fidelity is also affected by the relation between the control-control, control-target and target-target interaction energies. Our numeric simulations confirm that the fidelity of CNOT$^4$ gate (single control and four target atoms) can be up to $97.5\%$ and the fidelity of C$_2$NOT$^2$ (two control and two target atoms) is up to $98\%$ for the conditions which are experimentally feasible.
翻訳日:2023-07-19 00:36:55 公開日:2023-07-17
# ガウス混合モデルを用いた自然勾配変分推定の統一的視点

A Unified Perspective on Natural Gradient Variational Inference with Gaussian Mixture Models ( http://arxiv.org/abs/2209.11533v2 )

ライセンス: Link先を確認
Oleg Arenz, Philipp Dahlinger, Zihan Ye, Michael Volpp, Gerhard Neumann(参考訳) ガウス混合モデル(GMM)による変分推論は、最大数百次元の抽出可能な対象分布の高トラクタブルかつマルチモーダルな近似の学習を可能にする。 現在最も効果的なGMMベースの変分推定法であるVIPSとiBayes-GMMは、それぞれ独立して個々の成分とその重みの自然な勾配を更新する。 実際の実装と理論的保証は異なっているが,これらの更新が等価であることを示すのは今回が初めてである。 サンプル選択, 自然勾配推定, 段階的適応, 信頼領域が強制されるか, 適応する部品の数など, 双方のアプローチを区別する設計上の選択について検討する。 混合モデルからサンプルを用いて個々のコンポーネントを更新することにより、iBayes-GMMは低ウェイトなコンポーネントに対して有意義な更新を行うことができず、VIPSは自然勾配を推定するためにゼロオーダー法を用いることで、高次元問題に対して著しくスケールする。 さらに,情報幾何学的信頼領域(VIPS)は,1次自然勾配推定を用いても有効であり,iBayes-GMMによる改良ベイズ学習規則(iBLR)よりも優れていることを示す。 我々は,設計選択の効果を体系的に評価し,ハイブリッドアプローチが両者の先行作業を大きく上回ることを示す。 この研究と並行して,ガウス混合モデルを用いた自然勾配変分推論の高度にモジュール化された効率的な実装を行い,設計選択の432の異なる組み合わせをサポートし,実験の再現を容易にし,実践者にとって有益であることを証明した。

Variational inference with Gaussian mixture models (GMMs) enables learning of highly tractable yet multi-modal approximations of intractable target distributions with up to a few hundred dimensions. The two currently most effective methods for GMM-based variational inference, VIPS and iBayes-GMM, both employ independent natural gradient updates for the individual components and their weights. We show for the first time, that their derived updates are equivalent, although their practical implementations and theoretical guarantees differ. We identify several design choices that distinguish both approaches, namely with respect to sample selection, natural gradient estimation, stepsize adaptation, and whether trust regions are enforced or the number of components adapted. We argue that for both approaches, the quality of the learned approximations can heavily suffer from the respective design choices: By updating the individual components using samples from the mixture model, iBayes-GMM often fails to produce meaningful updates to low-weight components, and by using a zero-order method for estimating the natural gradient, VIPS scales badly to higher-dimensional problems. Furthermore, we show that information-geometric trust-regions (used by VIPS) are effective even when using first-order natural gradient estimates, and often outperform the improved Bayesian learning rule (iBLR) update used by iBayes-GMM. We systematically evaluate the effects of design choices and show that a hybrid approach significantly outperforms both prior works. Along with this work, we publish our highly modular and efficient implementation for natural gradient variational inference with Gaussian mixture models, which supports 432 different combinations of design choices, facilitates the reproduction of all our experiments, and may prove valuable for the practitioner.
翻訳日:2023-07-19 00:29:48 公開日:2023-07-17
# コントラスト特徴学習を用いた行動に基づく早期自閉症診断

Action-based Early Autism Diagnosis Using Contrastive Feature Learning ( http://arxiv.org/abs/2209.05379v4 )

ライセンス: Link先を確認
Asha Rani, Pankaj Yadav, Yashaswi Verma(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder, ASD)は、神経疾患である。 その主な症状は、(言語および/または非言語)コミュニケーションの困難さ、堅固で反復的な行動である。 これらの症状は、通常(コントロール)個体と区別できないことが多いが、この疾患は、治療が遅れる早期に診断されないためである。 初期年齢では学習曲線が急なため、自閉症の早期診断は適切なタイミングで適切な介入が可能であり、自閉症児の成長に正の影響を与える可能性がある。 さらに、伝統的な自閉症診断の方法は、専門の精神科医を複数回訪問する必要があるが、このプロセスは時間がかかる可能性がある。 本稿では,簡単なアクションビデオクリップを用いて,自閉症の診断を自動化するための学習ベースアプローチを提案する。 このタスクは、利用可能な注釈付きデータの量は少なく、2つのカテゴリ(ASDとコントロール)のサンプル間のばらつきは一般的に区別できないため、特に難しい。 これは、ベースラインエンコーダの上のクロスエントロピー損失を用いて学習したバイナリ分類器の低性能からも明らかである。 そこで我々は,自己指導型と教師型両方の学習フレームワークにおいて,対照的な特徴学習を導入し,これらが2値分類器の予測精度を大幅に向上させることを示す。 さらに,2つの公開データセット上で異なるセットアップの下で徹底的な実験分析を行うことで,この検証を行う。

Autism, also known as Autism Spectrum Disorder (or ASD), is a neurological disorder. Its main symptoms include difficulty in (verbal and/or non-verbal) communication, and rigid/repetitive behavior. These symptoms are often indistinguishable from a normal (control) individual, due to which this disorder remains undiagnosed in early childhood leading to delayed treatment. Since the learning curve is steep during the initial age, an early diagnosis of autism could allow to take adequate interventions at the right time, which might positively affect the growth of an autistic child. Further, the traditional methods of autism diagnosis require multiple visits to a specialized psychiatrist, however this process can be time-consuming. In this paper, we present a learning based approach to automate autism diagnosis using simple and small action video clips of subjects. This task is particularly challenging because the amount of annotated data available is small, and the variations among samples from the two categories (ASD and control) are generally indistinguishable. This is also evident from poor performance of a binary classifier learned using the cross-entropy loss on top of a baseline encoder. To address this, we adopt contrastive feature learning in both self supervised and supervised learning frameworks, and show that these can lead to a significant increase in the prediction accuracy of a binary classifier on this task. We further validate this by conducting thorough experimental analyses under different set-ups on two publicly available datasets.
翻訳日:2023-07-19 00:28:59 公開日:2023-07-17
# 量子多体状態のシュミット分解を効率的に表現するテンソルネットワーク

Tensor Network Efficiently Representing Schmidt Decomposition of Quantum Many-Body States ( http://arxiv.org/abs/2210.08166v2 )

ライセンス: Link先を確認
Peng-Fei Zhou, Ying Lu, Jia-Hao Wang, Shi-Ju Ran(参考訳) 量子多体状態の絡み合う状態にアクセスする効率的な方法では、一般に複雑性はシステムサイズが$N$と指数関数的にスケールする。 本稿では、非自明な二分割境界を持つ有限および無限大量子状態のシュミット分解を効率的に表現するシュミットテンソルネットワーク状態(schmidt tns)を提案する。 鍵となる考え方は、シュミット係数(すなわち絡み合いスペクトル)と分解における変換を線形スケールの複雑性を持つテンソルネットワーク(TN)に変換することである。 具体的には、変換は局所ユニタリテンソルによって形成されるTNとして記述され、シュミット係数は正定値行列積状態(MPS)に符号化される。 翻訳不変性は無限大の場合のTNとMPSに課すことができる。 シュミット tns の妥当性を幾何学的フラストレーションを伴う準一次元スピンモデルの基底状態のシミュレーションにより証明した。 その結果, 崩壊状態の絡み合いエントロピーが強い場合でも, シュミット係数を符号化するMPSは弱絡み合っていることがわかった。 これは、シュミット係数を符号化するためにMPSを使用する効率を正当化し、全状態サンプリングタスクで指数的なスピードアップを約束する。

Efficient methods to access the entanglement of a quantum many-body state, where the complexity generally scales exponentially with the system size $N$, have long a concern. Here we propose the Schmidt tensor network state (Schmidt TNS) that efficiently represents the Schmidt decomposition of finite- and even infinite-size quantum states with nontrivial bipartition boundary. The key idea is to represent the Schmidt coefficients (i.e., entanglement spectrum) and transformations in the decomposition to tensor networks (TNs) with linearly-scaled complexity versus $N$. Specifically, the transformations are written as the TNs formed by local unitary tensors, and the Schmidt coefficients are encoded in a positive-definite matrix product state (MPS). Translational invariance can be imposed on the TNs and MPS for the infinite-size cases. The validity of Schmidt TNS is demonstrated by simulating the ground state of the quasi-one-dimensional spin model with geometrical frustration. Our results show that the MPS encoding the Schmidt coefficients is weakly entangled even when the entanglement entropy of the decomposed state is strong. This justifies the efficiency of using MPS to encode the Schmidt coefficients, and promises an exponential speedup on the full-state sampling tasks.
翻訳日:2023-07-19 00:20:00 公開日:2023-07-17
# 有限地平線制約マルコフ決定過程に対する政策勾配アプローチ

A policy gradient approach for Finite Horizon Constrained Markov Decision Processes ( http://arxiv.org/abs/2210.04527v2 )

ライセンス: Link先を確認
Soumyajit Guin and Shalabh Bhatnagar(参考訳) 有限地平線設定は強化学習(RL)問題に広く採用されている。 これらは常に最適な定常的な政策をもたらす。 多くの場合、有限な地平線制御問題に興味を持ち、そのような問題に対して、最適方針は一般に時変である。 近年では、エージェントが報酬を最大化し、与えられた制約基準を満たすことを目指す制約強化学習(Constrained Reinforcement Learning)も人気になっている。 しかし、この設定は定常ポリシーが最適である無限地平線 MDP の文脈でのみ研究されている。 固定時間(有限時間)後に地平線が終了する有限水平設定における制約付きRLのアルゴリズムを提案する。 提案手法では,状態空間と動作空間が大きい場合や連続する場合に必要となる関数近似を用い,最適方針を求めるためにポリシー勾配法を用いる。 得られる最適方針は段階によって異なり、一般的には非定常である。 最善の知識を得るために,本論文は制約付き有限地平線設定のための最初のポリシー勾配アルゴリズムを提案する。 制約付き最適ポリシーへのアルゴリズムの収束を示す。 また,本アルゴリズムの性能を実験により比較分析し,他の既知のアルゴリズムよりも優れた性能を示す。

The infinite horizon setting is widely adopted for problems of reinforcement learning (RL). These invariably result in stationary policies that are optimal. In many situations, finite horizon control problems are of interest and for such problems, the optimal policies are time-varying in general. Another setting that has become popular in recent times is of Constrained Reinforcement Learning, where the agent maximizes its rewards while it also aims to satisfy some given constraint criteria. However, this setting has only been studied in the context of infinite horizon MDPs where stationary policies are optimal. We present an algorithm for constrained RL in the Finite Horizon Setting where the horizon terminates after a fixed (finite) time. We use function approximation in our algorithm which is essential when the state and action spaces are large or continuous and use the policy gradient method to find the optimal policy. The optimal policy that we obtain depends on the stage and so is non-stationary in general. To the best of our knowledge, our paper presents the first policy gradient algorithm for the finite horizon setting with constraints. We show the convergence of our algorithm to a constrained optimal policy. We also compare and analyze the performance of our algorithm through experiments and show that our algorithm performs better than some other well known algorithms.
翻訳日:2023-07-19 00:19:06 公開日:2023-07-17
# 一様系列回路の時間進化

Time Evolution of Uniform Sequential Circuits ( http://arxiv.org/abs/2210.03751v3 )

ライセンス: Link先を確認
Nikita Astrakhantsev, Sheng-Hsuan Lin, Frank Pollmann and Adam Smith(参考訳) 古典的数値的アプローチを用いた汎用量子多体系の時間進化のシミュレーションは、進化時間またはシステムサイズで指数関数的にコストが増大する。 本研究では,熱力学極限における一次元均一系の時間発展のための多項式スケーリングハイブリッド量子古典アルゴリズムを提案する。 このアルゴリズムは、階層化された一様量子回路を変分アンサッツとして、無限の翻訳不変量子状態を表す。 このアンザッツは、所定の精度でシミュレーション時間に複数のパラメータ多項式を必要とすることを数値的に示す。 さらに, このアンザッツのスケーリングは, 変分進化アルゴリズムにおいて維持される。 ハイブリッド最適化のすべてのステップは、短期的なデジタル量子コンピュータを念頭に設計されている。 古典的コンピュータ上で進化アルゴリズムをベンチマークした後、クラウドベースの量子処理ユニット上の有限個の量子ビットを用いて、この一様状態の可観測性の測定を実証する。 より効率的なテンソル収縮スキームにより、このアルゴリズムは古典的な数値アルゴリズムとして改善される可能性がある。

Simulating time evolution of generic quantum many-body systems using classical numerical approaches has an exponentially growing cost either with evolution time or with the system size. In this work, we present a polynomially scaling hybrid quantum-classical algorithm for time evolving a one-dimensional uniform system in the thermodynamic limit. This algorithm uses a layered uniform sequential quantum circuit as a variational ansatz to represent infinite translation-invariant quantum states. We show numerically that this ansatz requires a number of parameters polynomial in the simulation time for a given accuracy. Furthermore, this favourable scaling of the ansatz is maintained during our variational evolution algorithm. All steps of the hybrid optimization are designed with near-term digital quantum computers in mind. After benchmarking the evolution algorithm on a classical computer, we demonstrate the measurement of observables of this uniform state using a finite number of qubits on a cloud-based quantum processing unit. With more efficient tensor contraction schemes, this algorithm may also offer improvements as a classical numerical algorithm.
翻訳日:2023-07-19 00:18:48 公開日:2023-07-17
# マスクスパイキング変圧器

Masked Spiking Transformer ( http://arxiv.org/abs/2210.01208v2 )

ライセンス: Link先を確認
Ziqing Wang, Yuetong Fang, Jiahang Cao, Qiang Zhang, Zhongrui Wang, Renjing Xu(参考訳) スパイキングニューラルネットワーク(SNN)とトランスフォーマーの組み合わせは、高エネルギー効率と高性能性の可能性から注目されている。 しかしながら、このトピックに関する既存の作業は、通常、直接トレーニングに依存しており、それが最適でないパフォーマンスにつながる可能性がある。 そこで本研究では,SNN と Transformer を組み合わせた ANN-to-SNN 変換手法の利点を活用することを提案する。 さらに、神経系で観測される量子シナプス障害の影響を受け、シナプス間を伝播するスパイクの数を減少させるため、ランダムスパイク・マスク・マスキング(RSM)法を組み込んだ新しいMasked Spiking Transformer(MST)フレームワークを導入し、余剰スパイクを誘発し、性能を犠牲にすることなくエネルギー消費を削減した。 実験の結果,マスク比が75%の場合に,MSTモデルが26.8%の消費電力削減を実現し,マスキングモデルと同等の性能を維持した。

The combination of Spiking Neural Networks (SNNs) and Transformers has attracted significant attention due to their potential for high energy efficiency and high-performance nature. However, existing works on this topic typically rely on direct training, which can lead to suboptimal performance. To address this issue, we propose to leverage the benefits of the ANN-to-SNN conversion method to combine SNNs and Transformers, resulting in significantly improved performance over existing state-of-the-art SNN models. Furthermore, inspired by the quantal synaptic failures observed in the nervous system, which reduces the number of spikes transmitted across synapses, we introduce a novel Masked Spiking Transformer (MST) framework that incorporates a Random Spike Masking (RSM) method to prune redundant spikes and reduce energy consumption without sacrificing performance. Our experimental results demonstrate that the proposed MST model achieves a significant reduction of 26.8% in power consumption when the masking ratio is 75% while maintaining the same level of performance as the unmasked model.
翻訳日:2023-07-19 00:18:34 公開日:2023-07-17
# 言語モデルタスクにおけるアンダーシグメンテーション:因果関係に基づく代名詞分解の研究

Underspecification in Language Modeling Tasks: A Causality-Informed Study of Gendered Pronoun Resolution ( http://arxiv.org/abs/2210.00131v3 )

ライセンス: Link先を確認
Emily McMilin(参考訳) 与えられたトークン予測に対して、多くの単語は推論時に自然言語を生成するというユーザの意図を満たすが、訓練時にタスクの損失関数を最小化するのは1つの単語のみである。 我々は,スプリアス相関の生成において,下位特定が果たす役割を記述した,単純かつ妥当な因果メカニズムを提案する。 その単純さにもかかわらず、我々の因果関係モデルは、2つの軽量なブラックボックス評価手法の開発を直接的に通知し、幅広いLLMにおける代名詞解決タスクに適用する。 1【活用による推論時間不特定化の検出支援】 2) これまで報告されていなかった性別 vs. 時間と性別 vs. 位置 llm と a) サイズ(bert-base から gpt 3.5, b) 事前学習目標: マスク型および自己回帰型言語モデリングからこれらの目的の混合、そして c) トレーニング段階: 事前学習のみから人間フィードバックからの強化学習(rlhf)まで。 コードとオープンソースのデモはhttps: //github.com/2dot71mily/sib_paperで利用可能である。

Modern language modeling tasks are often underspecified: for a given token prediction, many words may satisfy the user's intent of producing natural language at inference time, however only one word would minimize the task's loss function at training time. We provide a simple yet plausible causal mechanism describing the role underspecification plays in the generation of spurious correlations. Despite its simplicity, our causal model directly informs the development of two lightweight black-box evaluation methods, that we apply to gendered pronoun resolution tasks on a wide range of LLMs to 1) aid in the detection of inference-time task underspecification by exploiting 2) previously unreported gender vs. time and gender vs. location spurious correlations on LLMs with a range of A) sizes: from BERT-base to GPT 3.5, B) pre-training objectives: from masked & autoregressive language modeling to a mixture of these objectives, and C) training stages: from pre-training only to reinforcement learning from human feedback (RLHF). Code and open-source demos available at https: //github.com/2dot71mily/sib_paper.
翻訳日:2023-07-19 00:17:49 公開日:2023-07-17
# 解釈可能な時相論理動作計画のためのスパース報酬強化学習におけるトランスフォーマーの活用

Exploiting Transformer in Sparse Reward Reinforcement Learning for Interpretable Temporal Logic Motion Planning ( http://arxiv.org/abs/2209.13220v2 )

ライセンス: Link先を確認
Hao Zhang, Hao Wang, and Zhen Kan(参考訳) オートマトンベースのアプローチにより、ロボットは様々な複雑なタスクを実行できる。 しかし、既存のオートマトンベースのアルゴリズムの多くは、検討されたタスクの状態を手動でカスタマイズすることで、深い強化学習アルゴリズムの適用性を制限している。 この問題に対処するため,Transformer を強化学習に組み込むことで,Transformer の構造的特徴,すなわち Transformer モジュールを介して LTL 命令を符号化して,トレーニング中のタスク命令を効率的に理解し,さらに Transformer を通じてコンテキスト変数を符号化することで,タスク性能を向上する,Double-Transformer ガイダンスのテンポラル論理フレームワーク (T2TL) を開発した。 特に ltl 命令は co-safe ltl で指定される。 セマンティックス保存リライト操作として、LTLプログレクションを用いて複雑なタスクを学習可能なサブゴールに分解し、非マルコフ報酬決定過程をマルコフ報酬に変換するだけでなく、複数のサブタスクを同時に学習することでサンプリング効率を向上させる。 環境に依存しないTLL事前学習スキームが組み込まれ、Transformerモジュールの学習が容易になり、LTLの表現が向上する。 シミュレーションの結果,T2TLフレームワークの有効性が示された。

Automaton based approaches have enabled robots to perform various complex tasks. However, most existing automaton based algorithms highly rely on the manually customized representation of states for the considered task, limiting its applicability in deep reinforcement learning algorithms. To address this issue, by incorporating Transformer into reinforcement learning, we develop a Double-Transformer-guided Temporal Logic framework (T2TL) that exploits the structural feature of Transformer twice, i.e., first encoding the LTL instruction via the Transformer module for efficient understanding of task instructions during the training and then encoding the context variable via the Transformer again for improved task performance. Particularly, the LTL instruction is specified by co-safe LTL. As a semantics-preserving rewriting operation, LTL progression is exploited to decompose the complex task into learnable sub-goals, which not only converts non-Markovian reward decision processes to Markovian ones, but also improves the sampling efficiency by simultaneous learning of multiple sub-tasks. An environment-agnostic LTL pre-training scheme is further incorporated to facilitate the learning of the Transformer module resulting in an improved representation of LTL. The simulation results demonstrate the effectiveness of the T2TL framework.
翻訳日:2023-07-19 00:17:15 公開日:2023-07-17
# 運動画像分類のためのSPD多様体上のグラフニューラルネットワーク:時間周波数解析からの展望

Graph Neural Networks on SPD Manifolds for Motor Imagery Classification: A Perspective from the Time-Frequency Analysis ( http://arxiv.org/abs/2211.02641v3 )

ライセンス: Link先を確認
Ce Ju and Cuntai Guan(参考訳) 運動画像(MI)分類は脳脳波(EEG)に基づく脳-コンピュータインターフェースにおいて顕著な研究課題となっている。 過去数十年間、MI-EEG分類器の性能は徐々に改善してきた。 本研究では、時間周波数解析の観点から、MI-EEG分類のための幾何学的深層学習分類器を強化し、Graph-CSPNetと呼ばれる新しいアーキテクチャを導入する。 この分類器のカテゴリを幾何学的手法と呼び、信号共分散行列によって誘導される微分幾何学の豊かな背景を強調する。 Graph-CSPNetは、新しいSPD行列値グラフ畳み込み技術を用いて、時間周波数領域における脳波の特徴を捉える。 Graph-CSPNetの有効性を評価するために、一般に利用可能な5つのMI-EEGデータセットを使用し、11シナリオ中9シナリオでほぼ最適な分類精度を達成する。 Pythonリポジトリはhttps://github.com/GeometricBCI/Tensor-CSPNet-and-Graph-CSPNetにある。

The motor imagery (MI) classification has been a prominent research topic in brain-computer interfaces based on electroencephalography (EEG). Over the past few decades, the performance of MI-EEG classifiers has gradually improved. In this study, we enhance the geometric deep learning classifier for MI-EEG classification from the perspective of time-frequency analysis, introducing a new architecture called Graph-CSPNet. We refer to this category of classifiers as geometric methods, emphasizing their rich background in differential geometry induced by signal covariance matrices. Graph-CSPNet utilizes a novel SPD matrix-valued graph convolutional techniques to capture the EEG features in the time-frequency domain, providing greater flexibility in signal segmentation and capturing localized fluctuations. To evaluate the effectiveness of Graph-CSPNet, we employ five commonly-used publicly available MI-EEG datasets, achieving near-optimal classification accuracies in nine out of eleven scenarios. The Python repository can be found at https://github.com/GeometricBCI/Tensor-CSPNet-and-Graph-CSPNet
翻訳日:2023-07-19 00:10:25 公開日:2023-07-17
# 任意軌道沿いの量子状態駆動

Quantum State Driving along Arbitrary Trajectories ( http://arxiv.org/abs/2211.02457v2 )

ライセンス: Link先を確認
Le Hu and Andrew N. Jordan(参考訳) 無限小形式の量子ブラヒストローネ問題から始め、任意の事前に割り当てられた軌道に沿って限られたリソースを持つ純粋な量子状態を動かすための最小時間と対応する時間依存ハミルトニアンを解く。 また、あらゆる可能な軌道のうち、限られた資源を持ち、物理的にアクセス可能であり、そうでないことも示されている。 解は混合量子状態のケースに一般化され、離散的あるいは連続的なスペクトルを持つ単一または複数のパラメータによってパラメータ化される軌跡に適用される。 次に,その解法を対断駆動法と比較し,ベリー相が両方の駆動過程にどのように直接関与しているかを示す。

Starting with the quantum brachistochrone problem of the infinitesimal form, we solve the minimal time and corresponding time-dependent Hamiltonian to drive a pure quantum state with limited resources along arbitrary pre-assigned trajectories. It is also shown that out of all possible trajectories, with limited resources, which are physically accessible and which are not. The solution is then generalized to the mixed quantum state cases, and applied to trajectories parameterized by single or multiple parameters with discrete or continuous spectrum. We then compare the solution to that of the counterdiabatic driving, and show how the Berry phase is directly involved in both driving processes.
翻訳日:2023-07-19 00:10:06 公開日:2023-07-17
# FocusedCleaner:ロバストなGNNベースのノード分類のための中毒グラフの消毒

FocusedCleaner: Sanitizing Poisoned Graphs for Robust GNN-based Node Classification ( http://arxiv.org/abs/2210.13815v2 )

ライセンス: Link先を確認
Yulin Zhu, Liang Tong, Gaolei Li, Xiapu Luo, Kai Zhou(参考訳) グラフニューラルネットワーク(GNN)は、GNNモデルへの入力として有毒なグラフを生成するデータ中毒攻撃に対して脆弱である。 攻撃者が注入した毒を効果的に識別するために,FocusedCleanerを有毒グラフ消毒剤として提示した。 具体的には、FocusedCleanerは、双方向構造学習と犠牲者ノード検出という、2つのモジュールからなる衛生フレームワークを提供する。 特に、構造学習モジュールは攻撃プロセスを反転させ、グラフを着実にサニタイズする一方、検出モジュールは構造学習に ``the focus' -- 狭くより正確な検索領域 -- を提供する。 これら2つのモジュールは反復して動作し、互いに強化して有毒なグラフを段階的に浄化する。 重要な応用として,ノード分類タスクの衛生化グラフ上で訓練されたGNNの対角的ロバスト性が著しく向上したことを示す。 大規模な実験では、FocusedCleanerは有毒なグラフの衛生と堅牢性の改善の両方で最先端のベースラインを上回っている。

Graph Neural Networks (GNNs) are vulnerable to data poisoning attacks, which will generate a poisoned graph as the input to the GNN models. We present FocusedCleaner as a poisoned graph sanitizer to effectively identify the poison injected by attackers. Specifically, FocusedCleaner provides a sanitation framework consisting of two modules: bi-level structural learning and victim node detection. In particular, the structural learning module will reverse the attack process to steadily sanitize the graph while the detection module provides ``the focus" -- a narrowed and more accurate search region -- to structural learning. These two modules will operate in iterations and reinforce each other to sanitize a poisoned graph step by step. As an important application, we show that the adversarial robustness of GNNs trained over the sanitized graph for the node classification task is significantly improved. Extensive experiments demonstrate that FocusedCleaner outperforms the state-of-the-art baselines both on poisoned graph sanitation and improving robustness.
翻訳日:2023-07-19 00:09:01 公開日:2023-07-17
# リプシッツ非線形単一ニューロンモデルの能動的学習

Active Learning for Single Neuron Models with Lipschitz Non-Linearities ( http://arxiv.org/abs/2210.13601v3 )

ライセンス: Link先を確認
Aarshvi Gajjar, Chinmay Hegde, Christopher Musco(参考訳) 単一ニューロンモデルのアクティブラーニングの問題(しばしば「リッジ関数」とも呼ばれる)を、不可知な設定(逆ラベル雑音下で)において検討する。 このようなモデルは、物理現象のモデリングや偏微分方程式の代理データ駆動モデルの構築に広く有効であることが示されている。 驚くべきことに、任意のリプシッツ非線形性(relu、sgmoid、絶対値、低次多項式など)を持つ単一ニューロンモデルの場合、無依存な設定で \emph{linear function} を満たすための有名なアクティブ学習戦略を用いて、強い証明可能な近似保証が得られる。 % --すなわち、非線形性が存在しない場合である。 すなわち、他のアクティブな学習シナリオでほぼ最適であることが示されている統計値 \emph{leverage score sampling} によってサンプルを収集できる。 実験的なシミュレーションにより,単一ニューロンモデルに適合する場合に,スコアサンプリング法(通常)に匹敵する一様サンプリングを活用し,アクティブラーニング戦略を提案する。

We consider the problem of active learning for single neuron models, also sometimes called ``ridge functions'', in the agnostic setting (under adversarial label noise). Such models have been shown to be broadly effective in modeling physical phenomena, and for constructing surrogate data-driven models for partial differential equations. Surprisingly, we show that for a single neuron model with any Lipschitz non-linearity (such as the ReLU, sigmoid, absolute value, low-degree polynomial, among others), strong provable approximation guarantees can be obtained using a well-known active learning strategy for fitting \emph{linear functions} in the agnostic setting. % -- i.e. for the case when there is no non-linearity. Namely, we can collect samples via statistical \emph{leverage score sampling}, which has been shown to be near-optimal in other active learning scenarios. We support our theoretical results with empirical simulations showing that our proposed active learning strategy based on leverage score sampling outperforms (ordinary) uniform sampling when fitting single neuron models.
翻訳日:2023-07-19 00:08:41 公開日:2023-07-17
# 量子力学的散乱における角度時間遅延

Angular time delay in quantum mechanical scattering ( http://arxiv.org/abs/2210.13018v2 )

ライセンス: Link先を確認
Jochen Zahn(参考訳) ブリュネッティとフレデンハーゲンの[phys. rev. a 66 (2002) 044101] 量子力学における事象発生時刻の概念を球面ポテンシャルの散乱の例に適用する。 そこで我々は, 角度時間遅延に対するフロワサート, ゴールドベルガー, ワトソン [Phys. Rev. 131 (1963) 2820] の表現を再導出し, その導出に関する概念的問題を明らかにした。 また、同じ著者が量子力学的文脈で定義した「空間シフト」(基本的には衝撃パラメータ)の基本的な再導出についても述べる。 wkb近似の文脈において,両者の量と古典的量との関係を明らかにする。 一例として、ハード球面における散乱の概念を適用する。 短波長散乱のための前方回折領域の強度の最小値における時間遅延と空間シフトの双方で明瞭なピークを見いだし、これらが原則的に観測可能であるかどうかを議論した。

We apply Brunetti and Fredenhagen's [Phys. Rev. A 66 (2002) 044101] concept of the time of occurrence of an event in quantum mechanics to the example of scattering off a spherical potential. Thereby, we re-derive the expression of Froissart, Goldberger, and Watson [Phys. Rev. 131 (1963) 2820] for the angular time delay, clarifying some conceptual issues with their derivation. We also present an elementary re-derivation of the "space shift" (essentially the impact parameter) defined in the quantum mechanical context by the same authors. We clarify the relation of both quantities to their classical counterparts in the context of the WKB approximation. As an example, we apply the concepts to scattering at a hard sphere. We find pronounced peaks in the both the time delay and the space shift at the minima of intensity in the forward diffraction region for short wavelength scattering and discuss whether these could in principle be observable.
翻訳日:2023-07-19 00:08:22 公開日:2023-07-17
# PVT++: シンプルなエンドツーエンドのレイテンシ対応ビジュアルトラッキングフレームワーク

PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework ( http://arxiv.org/abs/2211.11629v3 )

ライセンス: Link先を確認
Bowen Li, Ziyuan Huang, Junjie Ye, Yiming Li, Sebastian Scherer, Hang Zhao, Changhong Fu(参考訳) 知的ロボットには視覚物体追跡が不可欠である。 既存のほとんどのアプローチは、実際の処理中に重大なパフォーマンス劣化を引き起こすオンラインレイテンシを無視している。 特に、ロバストな追跡が難しく、オンボード計算が制限されている無人航空機(uavs)では、レイテンシの問題が致命的になる可能性がある。 本研究では、エンドツーエンドの遅延認識トラッキング(PVT++)のためのシンプルなフレームワークを提案する。 Kalman Filtersをトラッカーに付加する既存のソリューションとは異なり、PVT++はモーション情報だけでなく、トレーニング済みのほとんどのトラッカーモデルで豊富な視覚的知識を有効活用して堅牢な予測を行うことができる。 さらに,トレーニング・評価領域のギャップを埋めるために,PVT++が難易度が高く複雑なUAV追跡シーンに一般化できるようにするための相対的な動き係数を提案する。 これらの注意深い設計は、小容量軽量PVT++を広く有効なソリューションにした。 さらに、オンライン環境での任意の速度トラッカーを評価するための遅延認識評価ベンチマークも拡張されている。 航空の観点からのロボットプラットフォームでの実証結果から、pvt++は様々なトラッカーで大幅なパフォーマンス向上を達成でき、以前のソリューションよりも高い精度を示し、レイテンシによる劣化を軽減できることがわかった。

Visual object tracking is essential to intelligent robots. Most existing approaches have ignored the online latency that can cause severe performance degradation during real-world processing. Especially for unmanned aerial vehicles (UAVs), where robust tracking is more challenging and onboard computation is limited, the latency issue can be fatal. In this work, we present a simple framework for end-to-end latency-aware tracking, i.e., end-to-end predictive visual tracking (PVT++). Unlike existing solutions that naively append Kalman Filters after trackers, PVT++ can be jointly optimized, so that it takes not only motion information but can also leverage the rich visual knowledge in most pre-trained tracker models for robust prediction. Besides, to bridge the training-evaluation domain gap, we propose a relative motion factor, empowering PVT++ to generalize to the challenging and complex UAV tracking scenes. These careful designs have made the small-capacity lightweight PVT++ a widely effective solution. Additionally, this work presents an extended latency-aware evaluation benchmark for assessing an any-speed tracker in the online setting. Empirical results on a robotic platform from the aerial perspective show that PVT++ can achieve significant performance gain on various trackers and exhibit higher accuracy than prior solutions, largely mitigating the degradation brought by latency.
翻訳日:2023-07-18 23:59:15 公開日:2023-07-17
# $k$Nearest隣人のための2段階能動学習アルゴリズム

A Two-Stage Active Learning Algorithm for $k$-Nearest Neighbors ( http://arxiv.org/abs/2211.10773v3 )

ライセンス: Link先を確認
Nick Rittler and Kamalika Chaudhuri(参考訳) k$-nearest neighbor classificationは、分散スケールの変更に対する自動適応のような望ましい特性により、一般的なノンパラメトリックな手法である。 残念なことに、これらの望ましい性質を自然に保持する地元の投票ベースの分類器の訓練のためにアクティブラーニング戦略を設計することは困難であり、したがってk$-nearestの隣人分類のためのアクティブラーニング戦略は文学から顕著に欠落している。 そこで本研究では,$k$-nearest近傍の分類器を学習するための,単純で直感的な能動学習アルゴリズムを提案する。 また,条件付き確率関数 $\mathbb{p}(y=y|x=x)$ が十分に滑らかであり,tsybakov 雑音条件が保持されている場合,能動的に訓練された分類器は,受動的に訓練された $k$-nearest 隣接分類器よりも早い漸近速度でベイズ最適分類器に収束することを示す。

$k$-nearest neighbor classification is a popular non-parametric method because of desirable properties like automatic adaption to distributional scale changes. Unfortunately, it has thus far proved difficult to design active learning strategies for the training of local voting-based classifiers that naturally retain these desirable properties, and hence active learning strategies for $k$-nearest neighbor classification have been conspicuously missing from the literature. In this work, we introduce a simple and intuitive active learning algorithm for the training of $k$-nearest neighbor classifiers, the first in the literature which retains the concept of the $k$-nearest neighbor vote at prediction time. We provide consistency guarantees for a modified $k$-nearest neighbors classifier trained on samples acquired via our scheme, and show that when the conditional probability function $\mathbb{P}(Y=y|X=x)$ is sufficiently smooth and the Tsybakov noise condition holds, our actively trained classifiers converge to the Bayes optimal classifier at a faster asymptotic rate than passively trained $k$-nearest neighbor classifiers.
翻訳日:2023-07-18 23:58:52 公開日:2023-07-17
# dronenet: セルフオンによるドローンの群集密度の推定

DroneNet: Crowd Density Estimation using Self-ONNs for Drones ( http://arxiv.org/abs/2211.07137v4 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, and Ridha Hamila(参考訳) ドローンによるビデオ監視は、展開の容易さと、多くのシナリオにおける無人機の動きのために便利かつ効率的である。 ドローンによるビデオ監視の興味深い応用は、公共の場で群衆密度(歩行者と車両の両方)を推定することだ。 畳み込みニューラルネットワーク(CNN)を用いた深層学習は、画像やビデオを用いた自動群集カウントと密度推定に使用される。 しかしながら、これらのモデルの性能と精度は、一般的にモデルアーキテクチャに依存する。つまり、より深いcnnモデルは、推論時間を増やすコストで精度を向上させる。 本稿では,自己組織型オペレーショナルニューラルネットワーク(Self-ONN)を用いたドローン(DroneNet)の群集密度推定モデルを提案する。 Self-ONNはCNNベースのモデルと比較して計算複雑性の低い効率的な学習機能を提供する。 私たちは2つのドローンビュー公開データセットでアルゴリズムをテストしました。 評価の結果,提案するDroneNetは同等のCNNモデルにおいて優れた性能を示した。

Video surveillance using drones is both convenient and efficient due to the ease of deployment and unobstructed movement of drones in many scenarios. An interesting application of drone-based video surveillance is to estimate crowd densities (both pedestrians and vehicles) in public places. Deep learning using convolution neural networks (CNNs) is employed for automatic crowd counting and density estimation using images and videos. However, the performance and accuracy of such models typically depend upon the model architecture i.e., deeper CNN models improve accuracy at the cost of increased inference time. In this paper, we propose a novel crowd density estimation model for drones (DroneNet) using Self-organized Operational Neural Networks (Self-ONN). Self-ONN provides efficient learning capabilities with lower computational complexity as compared to CNN-based models. We tested our algorithm on two drone-view public datasets. Our evaluation shows that the proposed DroneNet shows superior performance on an equivalent CNN-based model.
翻訳日:2023-07-18 23:58:07 公開日:2023-07-17
# 自由ハミルトニアン還元による量子一般化カロジェロ・モーゼ系

Quantum generalized Calogero-Moser systems from free Hamiltonian reduction ( http://arxiv.org/abs/2211.05751v3 )

ライセンス: Link先を確認
Katarzyna Kowalczyk-Murynka, Marek Ku\'s(参考訳) 1/x^2$の反発ポテンシャルを持つ粒子の1次元系は、カロジェロ・モーサー系として知られている。 その古典的なバージョンは、ポアソン括弧に関して$\mathfrak{so}(N)$または$\mathfrak{su}(N)$代数にまたがる結合定数を追加の自由度で置換することで一般化することができる。 この一般化モデルの量子バージョンを示す。 古典的一般化は自由系のシンプレクティック還元によって得られるので、類似した直線に沿って量子系を得る方法を提案する。 自由量子系の還元はハミルトニアン(英語版)(hamiltonian)となり、基底、直交、ユニタリ、対称性群に依存する古典系の力学の違いを保存できる。 直交系はユニタリ系よりも反発性が低いことが知られており、還元された自由量子ハミルトニアンはこの性質を、考慮された系の素直なディラック量子化を行う際に存在しない追加の魅力的な項 $\sum_{i<j}\frac{-\hbar^2}{(x_i-x_j)^2}$ で示している。 一般化された量子カロジェロ・モーゼル・ハミルトニアンの詳細と厳密な導出を示し、粒子数$N=2,3$のスペクトルと波動関数を見つけ、一般値$N$のハミルトニアンを部分的に対角化する。

The one-dimensional system of particles with a $1/x^2$ repulsive potential is known as the Calogero-Moser system. Its classical version can be generalised by substituting the coupling constants with additional degrees of freedom, which span the $\mathfrak{so}(N)$ or $\mathfrak{su}(N)$ algebra with respect to Poisson brackets. We present the quantum version of this generalized model. As the classical generalization is obtained by a symplectic reduction of a free system, we present a method of obtaining a quantum system along similar lines. The reduction of a free quantum system results in a Hamiltonian, which preserves the differences in dynamics of the classical system depending on the underlying, orthogonal or unitary, symmetry group. The orthogonal system is known to be less repulsive than the unitary one, and the reduced free quantum Hamiltonian manifests this trait through an additional attractive term $\sum_{i<j}\frac{-\hbar^2}{(x_i-x_j)^2}$, which is absent when one performs the straightforward Dirac quantization of the considered system. We present a detailed and rigorous derivation of the generalized quantum Calogero-Moser Hamiltonian, we find the spectra and wavefunctions for the number of particles $N=2,3$, and we diagonalize the Hamiltonian partially for a general value of $N$.
翻訳日:2023-07-18 23:57:52 公開日:2023-07-17
# パウリ移動行列による量子過程とハミルトニアンの学習

Learning Quantum Processes and Hamiltonians via the Pauli Transfer Matrix ( http://arxiv.org/abs/2212.04471v2 )

ライセンス: Link先を確認
Matthias C. Caro(参考訳) 量子メモリと量子処理に依存する量子強化実験から物理システムを学ぶことは、古典的なメモリと処理しか利用できない実験から学ぶことより優れている。 様々な状態学習タスクに対する量子的優位性は確立されているが、量子プロセス学習は、注意深い問題定式化のみで同等の優位性を実現することができ、理解されていない。 未知の$n$-qubit量子プロセス $\mathcal{N}$ を学ぶための指数的量子優位性を確立する。 量子メモリは以下のタスクを効率的に解くことができることを示す。 (a)任意の$\mathcal{N}$のパウリ転移行列を学習する b) 任意の$\mathcal{N}$の出力で測定された有界パウリスパース観測値の予測と、パウリスパース状態の入力による予測 c) 未知の$\mathcal{n}$の出力で測定された任意の有界可観測値の期待値を、任意の状態の入力時にスパースポーリ転送行列で予測する。 量子メモリでは、これらのタスクは$\mathcal{n}$のchoi状態のコピーを線形にn$で解くことができる。 (b) 対照的に、量子メモリを持たない学習者は、適応的に選択された状態のサブシステム上で$\mathcal{n}$をクエリし、適応的に選択された測定を実行する場合でも、指数関数的に多くのクエリを必要とする。 この分離の証明では、choi-jamiolkowski同型を通じて、既存のシャドウトモグラフィーを状態からチャネルへの上限まで拡張する。 さらに、パウリ変換行列学習と多項式補間法を組み合わせて、短時間の力学から局所的全対全相互作用を持つ任意のハミルトン群を学習する手法を開発する。 この結果から,量子力学を学習するための量子化実験のパワーが強調された。

Learning about physical systems from quantum-enhanced experiments, relying on a quantum memory and quantum processing, can outperform learning from experiments in which only classical memory and processing are available. Whereas quantum advantages have been established for a variety of state learning tasks, quantum process learning allows for comparable advantages only with a careful problem formulation and is less understood. We establish an exponential quantum advantage for learning an unknown $n$-qubit quantum process $\mathcal{N}$. We show that a quantum memory allows to efficiently solve the following tasks: (a) learning the Pauli transfer matrix of an arbitrary $\mathcal{N}$, (b) predicting expectation values of bounded Pauli-sparse observables measured on the output of an arbitrary $\mathcal{N}$ upon input of a Pauli-sparse state, and (c) predicting expectation values of arbitrary bounded observables measured on the output of an unknown $\mathcal{N}$ with sparse Pauli transfer matrix upon input of an arbitrary state. With quantum memory, these tasks can be solved using linearly-in-$n$ many copies of the Choi state of $\mathcal{N}$, and even time-efficiently in the case of (b). In contrast, any learner without quantum memory requires exponentially-in-$n$ many queries, even when querying $\mathcal{N}$ on subsystems of adaptively chosen states and performing adaptively chosen measurements. In proving this separation, we extend existing shadow tomography upper and lower bounds from states to channels via the Choi-Jamiolkowski isomorphism. Moreover, we combine Pauli transfer matrix learning with polynomial interpolation techniques to develop a procedure for learning arbitrary Hamiltonians, which may have non-local all-to-all interactions, from short-time dynamics. Our results highlight the power of quantum-enhanced experiments for learning highly complex quantum dynamics.
翻訳日:2023-07-18 23:51:24 公開日:2023-07-17
# マルチユーザエンタングルメント分布のためのネットワークトポロジのスケーリング

Scaling Network Topologies for Multi-User Entanglement Distribution ( http://arxiv.org/abs/2212.02877v2 )

ライセンス: Link先を確認
Muhammad Daud, Aeysha Khalique(参考訳) 将来の量子インターネットは大規模な絡み合い分布に依存している。 量子デコヒーレンス(英語版)は、大規模ネットワークにおいて重要な障害であり、そうでなければソースと宛先の間の複数の経路でより良い性能を発揮する。 我々は,絡み合ったペアのマルチパスルーティングをサポートするために,大量の冗長エッジを持つ新しいトポロジー,コネクテッドツリーを提案する。 我々は,量子ネットワークのスケーラビリティを定性的に解析し,異なるトポロジーのデコヒーレンスにおける最大ユーザ容量を求める。 解析の結果,薄結合ツリーネットワークは,均等に分布する格子位相よりも多くのユーザ対に対応できることがわかった。 解析を量子鍵分布に拡張し、薄木トポロジーの量子ネットワークがデコヒーレンスに対してより堅牢であることを示し、複数の通信相手間の鍵分布を改善する。

Future quantum internet relies on large-scale entanglement distribution. Quantum decoherence is a significant obstacle in large-scale networks, which otherwise perform better with multiple paths between the source and destination. We propose a new topology, connected tree, with a significant amount of redundant edges to support multi-path routing of entangled pairs. We qualitatively analyse the scalability of quantum networks to maximum user capacity in decoherence for different topologies. Our analysis shows that thin-connected tree networks can accommodate a larger number of user pairs than more evenly distributed lattice topology. We extend our analysis to quantum key distribution and show that the quantum network of a thin tree topology is more robust against decoherence and leads to better key distribution among multiple communicating parties.
翻訳日:2023-07-18 23:50:39 公開日:2023-07-17
# kHGCN:連続および離散曲率学習による木のようなモデリング

kHGCN: Tree-likeness Modeling via Continuous and Discrete Curvature Learning ( http://arxiv.org/abs/2212.01793v3 )

ライセンス: Link先を確認
Menglin Yang, Min Zhou, Lujia Pan, Irwin King(参考訳) 階層構造や電力法分布を含む木のような構造は、推薦システム、エコシステム、金融ネットワーク、ソーシャルネットワークなど、現実世界のアプリケーションに広く存在している。 近年,木状度モデリングにおける双曲空間の活用は,指数的成長量によって注目されている。 平坦なユークリッド空間と比較して、曲線双曲空間は、特に暗黙的な木のようなアーキテクチャを示すデータセットに対して、より快適で埋め込み可能な空間を提供する。 しかし、実世界の木のようなデータの複雑な性質は、木のような、平らで、丸い領域の異質な構成をしばしば表示するため、かなり困難である。 そのような不均一な構造を均質な埋め込み空間(すなわち双曲空間)に直接埋め込むことは必然的に大きな歪みをもたらす。 上記の不足を軽減するため,ネットワークトポロジが伝達するメッセージを学習過程で符号化することを目的として,離散構造と連続学習空間間の曲率を探索し,木のようなモデリングを改善する。 最後に,曲率に着目した双曲グラフ畳み込みニューラルネットワークである \{kappa}hgcnを提案する。 ノード分類とリンク予測タスクに関する広範囲な実験は、様々な競合モデルよりも大きなマージンで一貫して優れており、提案の優位性を検証する。

The prevalence of tree-like structures, encompassing hierarchical structures and power law distributions, exists extensively in real-world applications, including recommendation systems, ecosystems, financial networks, social networks, etc. Recently, the exploitation of hyperbolic space for tree-likeness modeling has garnered considerable attention owing to its exponential growth volume. Compared to the flat Euclidean space, the curved hyperbolic space provides a more amenable and embeddable room, especially for datasets exhibiting implicit tree-like architectures. However, the intricate nature of real-world tree-like data presents a considerable challenge, as it frequently displays a heterogeneous composition of tree-like, flat, and circular regions. The direct embedding of such heterogeneous structures into a homogeneous embedding space (i.e., hyperbolic space) inevitably leads to heavy distortions. To mitigate the aforementioned shortage, this study endeavors to explore the curvature between discrete structure and continuous learning space, aiming at encoding the message conveyed by the network topology in the learning process, thereby improving tree-likeness modeling. To the end, a curvature-aware hyperbolic graph convolutional neural network, \{kappa}HGCN, is proposed, which utilizes the curvature to guide message passing and improve long-range propagation. Extensive experiments on node classification and link prediction tasks verify the superiority of the proposal as it consistently outperforms various competitive models by a large margin.
翻訳日:2023-07-18 23:50:24 公開日:2023-07-17
# CLIP: 少ないデータでより速くトレーニングする

CLIP: Train Faster with Less Data ( http://arxiv.org/abs/2212.01452v2 )

ライセンス: Link先を確認
Muhammad Asif Khan, Ridha Hamila, and Hamid Menouar(参考訳) ディープラーニングモデルは、トレーニングに膨大なデータを必要とします。 しかし、最近では機械学習がモデル中心からデータ中心のアプローチにシフトしている。 データ中心のアプローチでは、モデルアーキテクチャを再設計するのではなく、データの品質を洗練・改善し、モデルの学習性能を改善することに重点を置いています。 本稿では,CLIP(Criculum Learning with Iterative Data Pruning)を提案する。 CLIPは、カリキュラム学習とデータセットプルーニングという2つのデータ中心のアプローチを組み合わせて、モデルの学習精度と収束速度を改善する。 提案手法は,最小限のサンプルを反復的に除去し,カリキュラム学習における有効データセットのサイズを段階的に削減する。 群集密度推定モデルを用いて行った広範囲な実験は、収束時間を短縮し一般化を改善することにより、この2つのアプローチの背後にある概念を検証する。 我々の知る限り、カリキュラム学習における組込みプロセスとしてのデータプルーニングの考え方は新しくない。

Deep learning models require an enormous amount of data for training. However, recently there is a shift in machine learning from model-centric to data-centric approaches. In data-centric approaches, the focus is to refine and improve the quality of the data to improve the learning performance of the models rather than redesigning model architectures. In this paper, we propose CLIP i.e., Curriculum Learning with Iterative data Pruning. CLIP combines two data-centric approaches i.e., curriculum learning and dataset pruning to improve the model learning accuracy and convergence speed. The proposed scheme applies loss-aware dataset pruning to iteratively remove the least significant samples and progressively reduces the size of the effective dataset in the curriculum learning training. Extensive experiments performed on crowd density estimation models validate the notion behind combining the two approaches by reducing the convergence time and improving generalization. To our knowledge, the idea of data pruning as an embedded process in curriculum learning is novel.
翻訳日:2023-07-18 23:49:27 公開日:2023-07-17
# 不完全ラベルを用いた集団密度推定

Crowd Density Estimation using Imperfect Labels ( http://arxiv.org/abs/2212.01450v2 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, and Ridha Hamila(参考訳) 人口密度推定法は, ヘッドアノテートされた群集画像から深層学習モデルを学習し, 群集密度を推定する手法として最も広く用いられている手法の1つである。 通常、モデルの学習性能はアノテーションの精度に大きく影響され、不正確なアノテーションは、予測中の局所化やエラーのカウントにつながる可能性がある。 完全なラベル付きデータセットを使用して、群衆のカウントにかなりの量の作業が存在しているが、アノテーションのエラーがモデルの精度に与える影響についての研究は行われていない。 本稿では,不完全なラベル(ノイズとラベルの欠落)が群集数精度に与える影響について検討する。 本研究では,ディープラーニングモデル(アノテータと呼ばれる)を用いて不完全なラベルを自動的に生成し,新たな群衆カウントモデル(ターゲットモデル)を学習するシステムを提案する。 2つの群集計数モデルと2つのベンチマークデータセットの解析により,提案手法は,群集モデルのアノテーションエラーに対する頑健性を示す完全ラベルで訓練されたモデルに近い精度が得られることを示した。

Density estimation is one of the most widely used methods for crowd counting in which a deep learning model learns from head-annotated crowd images to estimate crowd density in unseen images. Typically, the learning performance of the model is highly impacted by the accuracy of the annotations and inaccurate annotations may lead to localization and counting errors during prediction. A significant amount of works exist on crowd counting using perfectly labelled datasets but none of these explore the impact of annotation errors on the model accuracy. In this paper, we investigate the impact of imperfect labels (both noisy and missing labels) on crowd counting accuracy. We propose a system that automatically generates imperfect labels using a deep learning model (called annotator) which are then used to train a new crowd counting model (target model). Our analysis on two crowd counting models and two benchmark datasets shows that the proposed scheme achieves accuracy closer to that of the model trained with perfect labels showing the robustness of crowd models to annotation errors.
翻訳日:2023-07-18 23:49:13 公開日:2023-07-17
# SuS-X: 視覚言語モデルの訓練自由名専用転送

SuS-X: Training-Free Name-Only Transfer of Vision-Language Models ( http://arxiv.org/abs/2211.16198v3 )

ライセンス: Link先を確認
Vishaal Udandarao, Ankush Gupta, Samuel Albanie(参考訳) Contrastive Language-Image Pre-Training (CLIP) は、大規模な視覚言語モデルを訓練するための単純かつ効果的な方法として登場した。 CLIPは、さまざまな下流タスクに対する印象的なゼロショットの分類と検索を示す。 しかし、その潜在能力を最大限活用するためには、微調整が必要であるようだ。 クリップモデル全体の微調整はリソース集約的で不安定です。 さらに、このような微調整を回避しようとする最近の手法では、ターゲット分布からの画像にアクセスする必要がある。 本稿では,異なるアプローチを追求し,ダウンストリームタスクに関する知識が下流のターゲットカテゴリの名前のみを含む,トレーニングフリーな"名前のみの転送"の仕組みを検討する。 本稿では,SuSとTIP-Xという2つの重要なビルディングブロックで構成されるSuS-Xを提案する。 SuS-Xは19のベンチマークデータセットで最先端のゼロショット分類結果を達成する。 また,TIP-Xをトレーニング不要な複数ショット設定で有効性を示すとともに,トレーニング不要なベースラインの強化に対して,最先端の結果が得られた。 コードはhttps://github.com/vishaal27/SuS-Xで入手できる。

Contrastive Language-Image Pre-training (CLIP) has emerged as a simple yet effective way to train large-scale vision-language models. CLIP demonstrates impressive zero-shot classification and retrieval on diverse downstream tasks. However, to leverage its full potential, fine-tuning still appears to be necessary. Fine-tuning the entire CLIP model can be resource-intensive and unstable. Moreover, recent methods that aim to circumvent this need for fine-tuning still require access to images from the target distribution. In this paper, we pursue a different approach and explore the regime of training-free "name-only transfer" in which the only knowledge we possess about the downstream task comprises the names of downstream target categories. We propose a novel method, SuS-X, consisting of two key building blocks -- SuS and TIP-X, that requires neither intensive fine-tuning nor costly labelled data. SuS-X achieves state-of-the-art zero-shot classification results on 19 benchmark datasets. We further show the utility of TIP-X in the training-free few-shot setting, where we again achieve state-of-the-art results over strong training-free baselines. Code is available at https://github.com/vishaal27/SuS-X.
翻訳日:2023-07-18 23:48:58 公開日:2023-07-17
# StitchNet: トレーニング済みフラグメントからニューラルネットワークを構成する

StitchNet: Composing Neural Networks from Pre-Trained Fragments ( http://arxiv.org/abs/2301.01947v2 )

ライセンス: Link先を確認
Surat Teerapittayanon, Marcus Comiter, Brad McDanel, H.T. Kung(参考訳) 複数のトレーニング済みニューラルネットワークから断片(1つ以上の連続的なネットワーク層)を縫合する新しいニューラルネットワーク生成パラダイムであるStitchNetを提案する。 StitchNetは、バックプロパゲーショントレーニングを通じて、従来のモデル作成プロセスで必要となる大きな計算とデータを必要とすることなく、高性能なニューラルネットワークを作成することができる。 我々はCKA(Centered Kernel Alignment)を互換性尺度として利用し、特定の精度のニーズやリソース制約に合わせたタスクのネットワークを構成する際に、これらのフラグメントの選択を効率的に導く。 次に、これらのフラグメントを縫い合わせることで、コンピュータリソースとデータ要求のごく一部で、従来トレーニングされたネットワークに匹敵する精度でニューラルネットワークを作成することができることを示す。 最後に,この新たなパラダイムによって実現されたモデル生成と推論アプリケーションについて検討する。

We propose StitchNet, a novel neural network creation paradigm that stitches together fragments (one or more consecutive network layers) from multiple pre-trained neural networks. StitchNet allows the creation of high-performing neural networks without the large compute and data requirements needed under traditional model creation processes via backpropagation training. We leverage Centered Kernel Alignment (CKA) as a compatibility measure to efficiently guide the selection of these fragments in composing a network for a given task tailored to specific accuracy needs and computing resource constraints. We then show that these fragments can be stitched together to create neural networks with comparable accuracy to traditionally trained networks at a fraction of computing resource and data requirements. Finally, we explore a novel on-the-fly personalized model creation and inference application enabled by this new paradigm.
翻訳日:2023-07-18 23:40:16 公開日:2023-07-17
# スパイク符号化ネットワークを用いた閉形式制御

Closed-form control with spike coding networks ( http://arxiv.org/abs/2212.12887v2 )

ライセンス: Link先を確認
Filip S. Slijkhuis, Sander W. Keemink, Pablo Lanillos(参考訳) スパイクニューラルネットワーク(snn)を用いた効率的でロバストな制御は、まだ未解決の問題である。 生物学的エージェントの振る舞いは、ロバストかつ効率的な制御を提供する、スパースおよび不規則なスパイクパターンによって生成されるが、制御に使用されるほとんどの人工スパイクニューラルネットワークのアクティビティパターンは、密度が高く、規則的である。 さらに、既存のほとんどの制御ソリューションでは、ネットワークトレーニングや最適化が必要であり、完全に識別されたシステムでも、オンチップの低消費電力ソリューションの実装を複雑にします。 スパイクコーディングネットワーク(scns)の神経科学理論は、再帰的なスパイクニューラルネットワークに動的システムを実装するための、完全に分析的なソリューションを提供する。 ここでは、閉形式最適推定と制御を取り入れてSCN理論を拡張する。 結果として得られるネットワークは、線形四角形-ガウス型コントローラのスパイク等価として機能する。 入力, システムノイズ, システム障害, 神経サイレンシングなど, 様々な摂動に直面して, 模擬スプリング・マス・ダンパーおよびカートポールシステムの強烈なスパイク制御を実証した。 われわれのアプローチは学習や最適化を必要としないため、生物学的に現実的な活動を伴う高速で効率的なタスク固有スパイクコントローラをデプロイする機会を提供する。

Efficient and robust control using spiking neural networks (SNNs) is still an open problem. Whilst behaviour of biological agents is produced through sparse and irregular spiking patterns, which provide both robust and efficient control, the activity patterns in most artificial spiking neural networks used for control are dense and regular -- resulting in potentially less efficient codes. Additionally, for most existing control solutions network training or optimization is necessary, even for fully identified systems, complicating their implementation in on-chip low-power solutions. The neuroscience theory of Spike Coding Networks (SCNs) offers a fully analytical solution for implementing dynamical systems in recurrent spiking neural networks -- while maintaining irregular, sparse, and robust spiking activity -- but it's not clear how to directly apply it to control problems. Here, we extend SCN theory by incorporating closed-form optimal estimation and control. The resulting networks work as a spiking equivalent of a linear-quadratic-Gaussian controller. We demonstrate robust spiking control of simulated spring-mass-damper and cart-pole systems, in the face of several perturbations, including input- and system-noise, system disturbances, and neural silencing. As our approach does not need learning or optimization, it offers opportunities for deploying fast and efficient task-specific on-chip spiking controllers with biologically realistic activity.
翻訳日:2023-07-18 23:39:32 公開日:2023-07-17
# mavil: マスキングされたオーディオビデオ学習者

MAViL: Masked Audio-Video Learners ( http://arxiv.org/abs/2212.08071v2 )

ライセンス: Link先を確認
Po-Yao Huang, Vasu Sharma, Hu Xu, Chaitanya Ryali, Haoqi Fan, Yanghao Li, Shang-Wen Li, Gargi Ghosh, Jitendra Malik, Christoph Feichtenhofer(参考訳) 本研究では,masked Audio-Video Learners (MAViL) を用いて映像表現の学習を行う。 提案手法は,(1)マスク付き音声・ビデオ入力データの再構成,(2)マスキングによるモーダル内およびモーダル間コントラスト学習,(3)最初の2つの目的から学習した音声・ビデオのコンテキスト化特徴の再構成による自己学習の3つの相補的な形態で学習する。 MAViLによる事前トレーニングは、音声・視覚的分類および検索タスクにおいて、モデルがうまく機能するだけでなく、微調整や推論のために他のモードからの情報を使わずに、個別に各モードの表現を改善することができる。 MAViLは、AudioSet(53.1 mAP)とVGGSound(67.1%の精度)に新たな最先端技術を設定する。 自己教師付きオーディオビジュアルモデルが初めて、これらのベンチマークの外部監視を使用するモデルよりも優れている。

We present Masked Audio-Video Learners (MAViL) to train audio-visual representations. Our approach learns with three complementary forms of self-supervision: (1) reconstruction of masked audio and video input data, (2) intra- and inter-modal contrastive learning with masking, and (3) self-training by reconstructing joint audio-video contextualized features learned from the first two objectives. Pre-training with MAViL not only enables the model to perform well in audio-visual classification and retrieval tasks but also improves representations of each modality in isolation, without using information from the other modality for fine-tuning or inference. Empirically, MAViL sets a new state-of-the-art on AudioSet (53.1 mAP) and VGGSound (67.1% accuracy). For the first time, a self-supervised audio-visual model outperforms ones that use external supervision on these benchmarks.
翻訳日:2023-07-18 23:38:09 公開日:2023-07-17
# 軽量コントラストモデルのためのより強固なベースラインの確立

Establishing a stronger baseline for lightweight contrastive models ( http://arxiv.org/abs/2212.07158v2 )

ライセンス: Link先を確認
Wenye Lin, Yifeng Ding, Zhixiong Cao, Hai-tao Zheng(参考訳) 最近の研究では、mobilenet や efficientnet のような特別に設計された効率的なネットワークにおける自己教師付きコントラスト学習の性能低下が報告されている。 この問題に対処する一般的な方法は、事前訓練されたコントラスト教師モデルを導入し、教師が生成した蒸留信号を用いて軽量ネットワークを訓練することである。 しかし、教師モデルが利用できない場合には、事前訓練に時間とリソースがかかります。 本研究では,教師モデルの事前学習を使わずに,軽量コントラストモデルのための強力なベースラインを確立することを目的とする。 特に、効率的なモデルの最適なレシピは、より大きなモデルのレシピと異なり、resnet50と同じトレーニング設定を使うことは、以前の研究と同様に不適切であることを示す。 さらに,肯定的,否定的いずれの視点でもノイズが発生するようなコントラスト学習において共通issu eを観測し,この問題を緩和するために情報損失の平滑化バージョンを提案する。 その結果, mobilenet-v3-largeでは36.3\%から62.3\%に,imagenetでは42.2\%から65.8\%に,resnet50では5\times$のパラメータで精度ギャップを解消した。 私たちの研究が軽量コントラストモデルの利用を促進することを期待しています。

Recent research has reported a performance degradation in self-supervised contrastive learning for specially designed efficient networks, such as MobileNet and EfficientNet. A common practice to address this problem is to introduce a pretrained contrastive teacher model and train the lightweight networks with distillation signals generated by the teacher. However, it is time and resource consuming to pretrain a teacher model when it is not available. In this work, we aim to establish a stronger baseline for lightweight contrastive models without using a pretrained teacher model. Specifically, we show that the optimal recipe for efficient models is different from that of larger models, and using the same training settings as ResNet50, as previous research does, is inappropriate. Additionally, we observe a common issu e in contrastive learning where either the positive or negative views can be noisy, and propose a smoothed version of InfoNCE loss to alleviate this problem. As a result, we successfully improve the linear evaluation results from 36.3\% to 62.3\% for MobileNet-V3-Large and from 42.2\% to 65.8\% for EfficientNet-B0 on ImageNet, closing the accuracy gap to ResNet50 with $5\times$ fewer parameters. We hope our research will facilitate the usage of lightweight contrastive models.
翻訳日:2023-07-18 23:37:53 公開日:2023-07-17
# 1次元クラスター状態の融合による高閾値量子コンピューティング

High-threshold quantum computing by fusing one-dimensional cluster states ( http://arxiv.org/abs/2212.06775v2 )

ライセンス: Link先を確認
Stefano Paesani and Benjamin J. Brown(参考訳) 本論文では,1次元クラスタ状態と融合計測のみで実現可能な,フォールトトレラント量子計算のための計測ベースモデルを提案する。 本シミュレーションは, 基本絡み合った資源と2量子核融合測定で実現した他の測定ベースモデルと比較して, 高い閾値を示す。 ノイズに対する高い耐性は、量子エミッタと線形光学素子を用いたスケーラブルな量子コンピューティングへの有望なルートを提供することを示している。

We propose a measurement-based model for fault-tolerant quantum computation that can be realised with one-dimensional cluster states and fusion measurements only; basic resources that are readily available with scalable photonic hardware. Our simulations demonstrate high thresholds compared with other measurement-based models realized with basic entangled resources and two-qubit fusion measurements. Its high tolerance to noise indicates that our practical construction offers a promising route to scalable quantum computing with quantum emitters and linear-optical elements.
翻訳日:2023-07-18 23:37:25 公開日:2023-07-17
# ニュートン法によるロバストな経験的リスク最小化

Robust empirical risk minimization via Newton's method ( http://arxiv.org/abs/2301.13192v2 )

ライセンス: Link先を確認
Eirini Ioannou, Muni Sreenivas Pydi, Po-Ling Loh(参考訳) 実験的リスク最小化のためのニュートン法の新しい変種について検討し、最適化アルゴリズムの反復毎に、目的関数の勾配とヘッシアンを、多変量データのロバスト平均推定に関する既存の文献から取られたロバスト推定器に置き換える。 集団レベル最小化器の周りの小さな球への逐次反復の収束に関する一般的な定理を証明した後、ハマーのエプシロン汚染モデルや重み付き分布からデータを生成する際に一般化線形モデルにおける理論の結果を研究する。 共役勾配法に基づくロバストニュートン方向を求めるアルゴリズムも提案されており、高次元設定に適しており、結果として得られるアルゴリズムの収束に関する予想も提案されている。 頑健な勾配降下と比較して、提案アルゴリズムは、凸問題に対する2次アルゴリズムによってしばしば達成される連続的な反復に対する収束の高速な速度、すなわち、最適近傍における二次収束を、バックトラックラインサーチによって適応的に選択できるステップサイズで楽しむ。

A new variant of Newton's method for empirical risk minimization is studied, where at each iteration of the optimization algorithm, the gradient and Hessian of the objective function are replaced by robust estimators taken from existing literature on robust mean estimation for multivariate data. After proving a general theorem about the convergence of successive iterates to a small ball around the population-level minimizer, consequences of the theory in generalized linear models are studied when data are generated from Huber's epsilon-contamination model and/or heavytailed distributions. An algorithm for obtaining robust Newton directions based on the conjugate gradient method is also proposed, which may be more appropriate for high-dimensional settings, and conjectures about the convergence of the resulting algorithm are offered. Compared to robust gradient descent, the proposed algorithm enjoys the faster rates of convergence for successive iterates often achieved by second-order algorithms for convex problems, i.e., quadratic convergence in a neighborhood of the optimum, with a stepsize that may be chosen adaptively via backtracking linesearch.
翻訳日:2023-07-18 23:31:25 公開日:2023-07-17
# 病理医のような診断:全スライド画像分類のためのトランスフォーマー付き階層的注意誘導型複数インスタンス学習

Diagnose Like a Pathologist: Transformer-Enabled Hierarchical Attention-Guided Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2301.08125v2 )

ライセンス: Link先を確認
Conghao Xiong, Hao Chen, Joseph J.Y. Sung, Irwin King(参考訳) マルチインスタンスラーニング(MIL)とトランスフォーマーは、病理組織学的全スライド画像(WSI)分類においてますます人気がある。 しかしながら、異なる倍率の下で組織病理組織の特定の領域を選択的に観察する人間の病理学者とは異なり、ほとんどの方法はwsisの複数の解像度を階層的にも注意的にも組み込んでいないため、wsisと他の解像度からの情報に焦点を合わせない。 この問題を解決するために、WSIを完全に活用するための階層型注意誘導型多重インスタンス学習フレームワークを提案する。 このフレームワークは、WSIの複数の解像度にわたる識別領域を動的かつ注意深く発見することができる。 このフレームワーク内では、変換器の性能をさらに向上し、より包括的なWSI(bag)表現を得るために、統合注意変換器が提案されている。 このトランスフォーマーは、トランスフォーマー層と、そのバッグ内のすべてのインスタンス表現に基づいてバッグ表現を生成するアグリゲーションモジュールの組み合わせである、複数の統合アテンションモジュールで構成されている。 実験の結果,Camelyon16, TCGA-RCC, TCGA-NSCLC, および社内IMGCデータセットを含む複数のデータセット上での最先端性能が得られた。 コードはhttps://github.com/BearCleverProud/HAG-MILで入手できる。

Multiple Instance Learning (MIL) and transformers are increasingly popular in histopathology Whole Slide Image (WSI) classification. However, unlike human pathologists who selectively observe specific regions of histopathology tissues under different magnifications, most methods do not incorporate multiple resolutions of the WSIs, hierarchically and attentively, thereby leading to a loss of focus on the WSIs and information from other resolutions. To resolve this issue, we propose a Hierarchical Attention-Guided Multiple Instance Learning framework to fully exploit the WSIs. This framework can dynamically and attentively discover the discriminative regions across multiple resolutions of the WSIs. Within this framework, an Integrated Attention Transformer is proposed to further enhance the performance of the transformer and obtain a more holistic WSI (bag) representation. This transformer consists of multiple Integrated Attention Modules, which is the combination of a transformer layer and an aggregation module that produces a bag representation based on every instance representation in that bag. The experimental results show that our method achieved state-of-the-art performances on multiple datasets, including Camelyon16, TCGA-RCC, TCGA-NSCLC, and an in-house IMGC dataset. The code is available at https://github.com/BearCleverProud/HAG-MIL.
翻訳日:2023-07-18 23:30:06 公開日:2023-07-17
# FemtoDet: エネルギーバーサス性能トレードオフのためのオブジェクト検出ベースライン

FemtoDet: An Object Detection Baseline for Energy Versus Performance Tradeoffs ( http://arxiv.org/abs/2301.06719v4 )

ライセンス: Link先を確認
Peng Tu, Xu Xie, Guo AI, Yuexiang Li, Yawen Huang, Yefeng Zheng(参考訳) エッジデバイスの効率的な検出器は、しばしばパラメータや速度カウントの指標に最適化され、検出器のエネルギーと弱い相関関係にある。 しかし、常にオンの監視カメラのような畳み込みニューラルネットワークの視覚応用はエネルギー制約に不可欠である。 本論文は, エネルギーと性能のトレードオフに到達するための検出器を設計することで, ベースラインとして機能することを目的としている。1) 活性化関数の選択, 畳み込み演算子, 首のフィーチャ融合構造など, 低エネルギーのアーキテクチャを識別するために, 様々なCNNを広範囲に解析する。 これらの未承認の詳細は, 検出器のエネルギー消費に深刻な影響を及ぼす; 2) ディレンマ的なエネルギー性能問題を突破するために, 発見された低エネルギー成分であるtextit{FemtoDet} を用いて, エネルギーによって駆動される平衡検出器を提案する。 新たな構成に加えて,畳み込みとトレーニング戦略最適化を考慮したFemtoDetの改良を行った。 具体的には,様々な空間表現におけるcnnの限られた容量と検出タスクの矛盾を克服する畳み込み最適化のための新しいインスタンス境界拡張(ibe)モジュールを開発し,一般の増補で生成されたデータシフトを考慮して,軽量検出器のサブ最適化から逃れるための訓練戦略を最適化する再帰的ウォームリスタート(recwr)を提案する。 その結果、68.77kのパラメータしか持たないFemtoDetは、PASCAL VOCで46.3 AP50、Qualcomm Snapdragon 865 CPUプラットフォームで1.11 W$\&$ 64.47 FPSの競合スコアを達成した。 COCOとTJU-DHDデータセットの大規模な実験は、提案手法が多様な場面で競合する結果をもたらすことを示している。

Efficient detectors for edge devices are often optimized for parameters or speed count metrics, which remain in weak correlation with the energy of detectors. However, some vision applications of convolutional neural networks, such as always-on surveillance cameras, are critical for energy constraints. This paper aims to serve as a baseline by designing detectors to reach tradeoffs between energy and performance from two perspectives: 1) We extensively analyze various CNNs to identify low-energy architectures, including selecting activation functions, convolutions operators, and feature fusion structures on necks. These underappreciated details in past work seriously affect the energy consumption of detectors; 2) To break through the dilemmatic energy-performance problem, we propose a balanced detector driven by energy using discovered low-energy components named \textit{FemtoDet}. In addition to the novel construction, we improve FemtoDet by considering convolutions and training strategy optimizations. Specifically, we develop a new instance boundary enhancement (IBE) module for convolution optimization to overcome the contradiction between the limited capacity of CNNs and detection tasks in diverse spatial representations, and propose a recursive warm-restart (RecWR) for optimizing training strategy to escape the sub-optimization of light-weight detectors by considering the data shift produced in popular augmentations. As a result, FemtoDet with only 68.77k parameters achieves a competitive score of 46.3 AP50 on PASCAL VOC and 1.11 W $\&$ 64.47 FPS on Qualcomm Snapdragon 865 CPU platforms. Extensive experiments on COCO and TJU-DHD datasets indicate that the proposed method achieves competitive results in diverse scenes.
翻訳日:2023-07-18 23:29:26 公開日:2023-07-17
# ベストサブセット選択を理解する:2つのC(Omplex)の物語

Understanding Best Subset Selection: A Tale of Two C(omplex)ities ( http://arxiv.org/abs/2301.06259v2 )

ライセンス: Link先を確認
Saptarshi Roy, Ambuj Tewari, Ziwei Zhu(参考訳) 数十年の間、ベストサブセット選択(BSS)は、主に計算ボトルネックのために統計学者を除いた。 しかし、最近まで、現代の計算のブレークスルーはBSSに対する理論的な関心を再燃させ、新たな発見をもたらした。 近年, BSS のモデル選択性能は, LASSO, SCAD, MCP などの現代的な手法とは異なり, 設計依存性に頑健なマージン量で制御されていることが明らかとなった。 本稿では,それらの理論結果に動機づけられ,高次元スパース線形回帰設定における最適部分集合選択の変数選択特性について検討する。 識別可能性マージンとは別に、以下の2つの複雑性測度がモデル一貫性のマージン条件を特徴付ける基本的な役割を担っていることを示す。 a) \emph{residualized features} の複雑さ。 (b) \emph{spurious projections} の複雑性。 特に,2つの複雑性尺度のうち,識別可能性マージンと支配性にのみ依存する簡単なマージン条件を確立する。 さらに,BSSのモデル整合性には,類似のマージン量と複雑性尺度によるマージン条件も必要であることを示す。 より広範な理解のために,BSSのモデル選択性能に関する理論的理解を異なる相関構造下で洗練する複雑性尺度の変動を示すための簡単な例についても考察する。

For decades, best subset selection (BSS) has eluded statisticians mainly due to its computational bottleneck. However, until recently, modern computational breakthroughs have rekindled theoretical interest in BSS and have led to new findings. Recently, \cite{guo2020best} showed that the model selection performance of BSS is governed by a margin quantity that is robust to the design dependence, unlike modern methods such as LASSO, SCAD, MCP, etc. Motivated by their theoretical results, in this paper, we also study the variable selection properties of best subset selection for high-dimensional sparse linear regression setup. We show that apart from the identifiability margin, the following two complexity measures play a fundamental role in characterizing the margin condition for model consistency: (a) complexity of \emph{residualized features}, (b) complexity of \emph{spurious projections}. In particular, we establish a simple margin condition that depends only on the identifiability margin and the dominating one of the two complexity measures. Furthermore, we show that a margin condition depending on similar margin quantity and complexity measures is also necessary for model consistency of BSS. For a broader understanding, we also consider some simple illustrative examples to demonstrate the variation in the complexity measures that refines our theoretical understanding of the model selection performance of BSS under different correlation structures.
翻訳日:2023-07-18 23:28:50 公開日:2023-07-17
# 基本量子サブルーチン:複数の有マーク要素の発見と総和数

Basic quantum subroutines: finding multiple marked elements and summing numbers ( http://arxiv.org/abs/2302.10244v2 )

ライセンス: Link先を確認
Joran van Apeldoorn, Sander Gribling, Harold Nieuwboer(参考訳) 最小の量子メモリを持つ設定において、最適な数$O(\sqrt{Nk})$とゲート複雑性におけるポリ対数的オーバーヘッドのみを用いて、$k$マークされた要素を$N$の一覧で見つける方法を示す。 以前のアルゴリズムでは、ゲートの複雑さで$k$のオーバーヘッドを発生させたり、クエリの複雑さで$\log(k)$を増加させたりしていた。 次に、$s = \sum_{i=1}^N v_i$, $v=(v_i) \in [0,1]^N$の乗法的な$\delta$-approximationを求める問題を考える。 我々は、少なくとも1-\rho$の確率で、$o(\sqrt{n \log(1/\rho) / \delta})$量子クエリ($\rho$の穏やかな仮定の下で)を使用するアルゴリズムを与える。 これにより、1/\delta$ と $\log(1/\rho)$ への依存度は振幅推定の直接的な適用よりも向上する。 改良された$\log(1/\rho)$ 依存を得るには、最初の結果を使う。

We show how to find all $k$ marked elements in a list of size $N$ using the optimal number $O(\sqrt{N k})$ of quantum queries and only a polylogarithmic overhead in the gate complexity, in the setting where one has a small quantum memory. Previous algorithms either incurred a factor $k$ overhead in the gate complexity, or had an extra factor $\log(k)$ in the query complexity. We then consider the problem of finding a multiplicative $\delta$-approximation of $s = \sum_{i=1}^N v_i$ where $v=(v_i) \in [0,1]^N$, given quantum query access to a binary description of $v$. We give an algorithm that does so, with probability at least $1-\rho$, using $O(\sqrt{N \log(1/\rho) / \delta})$ quantum queries (under mild assumptions on $\rho$). This quadratically improves the dependence on $1/\delta$ and $\log(1/\rho)$ compared to a straightforward application of amplitude estimation. To obtain the improved $\log(1/\rho)$ dependence we use the first result.
翻訳日:2023-07-18 23:21:04 公開日:2023-07-17
# ガウス過程状態空間モデルに対する自由形式変分推論

Free-Form Variational Inference for Gaussian Process State-Space Models ( http://arxiv.org/abs/2302.09921v2 )

ライセンス: Link先を確認
Xuhui Fan, Edwin V. Bonilla, Terence J. O'Kane, Scott A. Sisson(参考訳) ガウス過程状態空間モデル(英: gaussian process state-space model、gpssms)は、潜在状態のダイナミクスをモデル化するための原理的かつ柔軟なアプローチである。 しかし、GPSSMの推論は、モデル内の大量の潜伏変数とそれらの間の強い時間的依存関係のために、計算的に、統計的に困難である。 本稿では,従来の手法,すなわち過剰に単純化された仮定と高い計算要求の欠点を克服したベイズGPSSMの推論手法を提案する。 本手法は帰納的形式論における確率勾配ハミルトンモンテカルロによる自由形式変分推論に基づく。 さらに,提案した変分分布を利用して,帰納変数を解析的に疎外化する手法の拡張を行う。 また,本手法を粒子MCMC法と組み合わせた結果を示す。 実世界の6つのデータセットにおいて、我々のアプローチは競合する手法よりもより正確に遷移力学や潜伏状態を学ぶことができることを示す。

Gaussian process state-space models (GPSSMs) provide a principled and flexible approach to modeling the dynamics of a latent state, which is observed at discrete-time points via a likelihood model. However, inference in GPSSMs is computationally and statistically challenging due to the large number of latent variables in the model and the strong temporal dependencies between them. In this paper, we propose a new method for inference in Bayesian GPSSMs, which overcomes the drawbacks of previous approaches, namely over-simplified assumptions, and high computational requirements. Our method is based on free-form variational inference via stochastic gradient Hamiltonian Monte Carlo within the inducing-variable formalism. Furthermore, by exploiting our proposed variational distribution, we provide a collapsed extension of our method where the inducing variables are marginalized analytically. We also showcase results when combining our framework with particle MCMC methods. We show that, on six real-world datasets, our approach can learn transition dynamics and latent states more accurately than competing methods.
翻訳日:2023-07-18 23:20:38 公開日:2023-07-17
# ENInst: 弱教師付きローショットインスタンスセグメンテーションの強化

ENInst: Enhancing Weakly-supervised Low-shot Instance Segmentation ( http://arxiv.org/abs/2302.09765v2 )

ライセンス: Link先を確認
Moon Ye-Bin, Dongmin Choi, Yongjin Kwon, Junsik Kim, Tae-Hyun Oh(参考訳) 我々は,新しいクラスを効果的に扱うためのアノテーション効率のよい訓練手法である,弱教師付きローショットインスタンスセグメンテーションに対処する。 まず,問題の難易度を調査し,単純なベースラインモデルを用いてモデルコンポーネントと個々のサブタスクの系統的分析を行い,性能ボトルネックを特定する。 そこで本研究では,画素の局在性向上のためのインスタンスワイズマスク改良法と,分類精度向上のための新しい分類器構成法を提案する。 提案手法は,各サブタスクの性能を向上させることで全体の性能を高める。 ENInstは、既存の完全に教師されたいくつかのショットモデルに匹敵するパフォーマンスを達成する上で、7.5倍の効率を示します。

We address a weakly-supervised low-shot instance segmentation, an annotation-efficient training method to deal with novel classes effectively. Since it is an under-explored problem, we first investigate the difficulty of the problem and identify the performance bottleneck by conducting systematic analyses of model components and individual sub-tasks with a simple baseline model. Based on the analyses, we propose ENInst with sub-task enhancement methods: instance-wise mask refinement for enhancing pixel localization quality and novel classifier composition for improving classification accuracy. Our proposed method lifts the overall performance by enhancing the performance of each sub-task. We demonstrate that our ENInst is 7.5 times more efficient in achieving comparable performance to the existing fully-supervised few-shot models and even outperforms them at times.
翻訳日:2023-07-18 23:20:22 公開日:2023-07-17
# 生成型NeRFを用いた3次元ブレンディング

3D-aware Blending with Generative NeRFs ( http://arxiv.org/abs/2302.06608v2 )

ライセンス: Link先を確認
Hyunsu Kim, Gayoung Lee, Yunjey Choi, Jin-Hwa Kim, Jun-Yan Zhu(参考訳) 画像ブレンディングは、複数の画像をシームレスに組み合わせることを目的としている。 既存の2D方式では、特に3Dカメラのポーズとオブジェクト形状の違いにより入力画像が不一致である場合、依然として困難である。 そこで本研究では,3d-aware alignmentと3d-aware blendingの2つの主要コンポーネントを含む,生成的ニューラルネットワーク放射場(nerf)を用いた3d-aware blending法を提案する。 3d認識アライメントでは,まず基準画像のカメラポーズを生成型nerfに対して推定し,各部分に対して3d局所アライメントを行う。 生成したNeRFの3D情報をさらに活用するために,原画素空間ではなく,NeRFの潜在表現空間上で直接画像をブレンドする3D対応ブレンディングを提案する。 本手法は,FFHQとAFHQ-Catによる定量的,定性的な評価により,既存の2次元ベースラインよりも優れていた。

Image blending aims to combine multiple images seamlessly. It remains challenging for existing 2D-based methods, especially when input images are misaligned due to differences in 3D camera poses and object shapes. To tackle these issues, we propose a 3D-aware blending method using generative Neural Radiance Fields (NeRF), including two key components: 3D-aware alignment and 3D-aware blending. For 3D-aware alignment, we first estimate the camera pose of the reference image with respect to generative NeRFs and then perform 3D local alignment for each part. To further leverage 3D information of the generative NeRF, we propose 3D-aware blending that directly blends images on the NeRF's latent representation space, rather than raw pixel space. Collectively, our method outperforms existing 2D baselines, as validated by extensive quantitative and qualitative evaluations with FFHQ and AFHQ-Cat.
翻訳日:2023-07-18 23:19:58 公開日:2023-07-17
# コントラストインバー:多次元地震インバージョンのための超スパースラベル半教師付き回帰

ContrasInver: Ultra-Sparse Label Semi-supervised Regression for Multi-dimensional Seismic Inversion ( http://arxiv.org/abs/2302.06441v3 )

ライセンス: Link先を確認
Yimin Dou, Kewen Li, Wenjun Lv, Timing Li, Hongjie Duan, Zhifeng Xu(参考訳) 深層学習(DL)法の開発により, 地震データの自動解釈とインバージョンが大幅に進展した。 しかし、これらの手法は、しばしば多くのコストのかかる井戸ログを必要とし、そのアプリケーションは成熟または合成データに限られる。 本稿では,2つか3つの坑井による地震インバージョンを実現する手法であるcontrasinverについて述べる。 ContrasInverでは、半教師付き学習を超スパースラベルで回帰タスクに適用する際の課題に対処する3つの重要なイノベーションを提案する。 多次元サンプル生成(MSG)技術は多次元インバージョンにおけるサンプル生成のパラダイムを開拓した。 単一の井戸から多数の多様なサンプルを生成し、地震データに横方向の連続性を確立する。 msgは、半教師付き学習を使わずとも、現在の技術を大きく改善する。 地域成長訓練(英語版)(rgt)戦略は地震データの本質的な連続性を活用し、井戸ログの近接に基づいてより遠くの地域から精度を効果的に伝播させる。 インピーダンスベクトル化投影(IVP)はインピーダンス値をベクトル化し、圧縮空間で半教師付き学習を行う。 この空間から派生したヤコビ行列は擬ラベルベクトルの外部成分をフィルタリングし、半教師付き回帰学習における値混乱問題を解くことを実証した。 実験では、ContrasInverは合成データSEAM Iで最先端の性能を達成した。 2つか3つの well ログを持つフィールドデータでは,提案するコンポーネントに基づく手法のみが妥当な結果を得ることができた。 オランダのF3とDelftでは,それぞれ3つと2つの井戸ログのみを使用して,信頼性の高い結果をもたらす,初めてのデータ駆動型アプローチである。

The automated interpretation and inversion of seismic data have advanced significantly with the development of Deep Learning (DL) methods. However, these methods often require numerous costly well logs, limiting their application only to mature or synthetic data. This paper presents ContrasInver, a method that achieves seismic inversion using as few as two or three well logs, significantly reducing current requirements. In ContrasInver, we propose three key innovations to address the challenges of applying semi-supervised learning to regression tasks with ultra-sparse labels. The Multi-dimensional Sample Generation (MSG) technique pioneers a paradigm for sample generation in multi-dimensional inversion. It produces a large number of diverse samples from a single well, while establishing lateral continuity in seismic data. MSG yields substantial improvements over current techniques, even without the use of semi-supervised learning. The Region-Growing Training (RGT) strategy leverages the inherent continuity of seismic data, effectively propagating accuracy from closer to more distant regions based on the proximity of well logs. The Impedance Vectorization Projection (IVP) vectorizes impedance values and performs semi-supervised learning in a compressed space. We demonstrated that the Jacobian matrix derived from this space can filter out some outlier components in pseudo-label vectors, thereby solving the value confusion issue in semi-supervised regression learning. In the experiments, ContrasInver achieved state-of-the-art performance in the synthetic data SEAM I. In the field data with two or three well logs, only the methods based on the components proposed in this paper were able to achieve reasonable results. It's the first data-driven approach yielding reliable results on the Netherlands F3 and Delft, using only three and two well logs respectively.
翻訳日:2023-07-18 23:19:15 公開日:2023-07-17
# HumanMAC:人間の動作予測のための仮面運動補完

HumanMAC: Masked Motion Completion for Human Motion Prediction ( http://arxiv.org/abs/2302.03665v3 )

ライセンス: Link先を確認
Ling-Hao Chen, Jiawei Zhang, Yewen Li, Yiren Pang, Xiaobo Xia, Tongliang Liu(参考訳) 人間の動作予測はコンピュータビジョンとコンピュータグラフィックスにおいて古典的な問題であり、幅広い実用的応用がある。 従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現する。 このスタイルの方法は、まず前の動きを潜在表現にエンコードし、次に潜在表現を予測された動きに復号する。 しかし、実際には、複雑な損失制約、面倒なトレーニングプロセス、予測における異なるカテゴリーの動作の切り替えなど、いくつかの問題により、まだ満足できない。 本稿では、上記の課題に対処するため、先進的なスタイルから脱却し、新しい視点から新しい枠組みを提案する。 具体的には、我々のフレームワークはマスク付き補完方式で機能する。 トレーニング段階では、ランダムノイズから動きを生成する動き拡散モデルを学ぶ。 推論段階では, より連続かつ制御可能な予測を出力するために, 観測された動きに動き予測条件を付ける。 提案フレームワークは,最適化に1つの損失しか必要とせず,エンドツーエンドでトレーニングされる,有望なアルゴリズム特性を享受する。 さらに、異なるカテゴリーの動作を効果的に切り替えることができ、例えばアニメーションタスクのような現実的なタスクにおいて重要である。 ベンチマークに関する包括的な実験により,提案フレームワークの優位性が確認された。 プロジェクトページはhttps://lhchen.top/human-macで閲覧できる。

Human motion prediction is a classical problem in computer vision and computer graphics, which has a wide range of practical applications. Previous effects achieve great empirical performance based on an encoding-decoding style. The methods of this style work by first encoding previous motions to latent representations and then decoding the latent representations into predicted motions. However, in practice, they are still unsatisfactory due to several issues, including complicated loss constraints, cumbersome training processes, and scarce switch of different categories of motions in prediction. In this paper, to address the above issues, we jump out of the foregoing style and propose a novel framework from a new perspective. Specifically, our framework works in a masked completion fashion. In the training stage, we learn a motion diffusion model that generates motions from random noise. In the inference stage, with a denoising procedure, we make motion prediction conditioning on observed motions to output more continuous and controllable predictions. The proposed framework enjoys promising algorithmic properties, which only needs one loss in optimization and is trained in an end-to-end manner. Additionally, it accomplishes the switch of different categories of motions effectively, which is significant in realistic tasks, e.g., the animation task. Comprehensive experiments on benchmarks confirm the superiority of the proposed framework. The project page is available at https://lhchen.top/Human-MAC.
翻訳日:2023-07-18 23:17:56 公開日:2023-07-17
# 変調ニューラルネットワーク

Modulated Neural ODEs ( http://arxiv.org/abs/2302.13262v2 )

ライセンス: Link先を確認
Ilze Amanda Auzina, \c{C}a\u{g}atay Y{\i}ld{\i}z, Sara Magliacane, Matthias Bethge and Efstratios Gavves(参考訳) 神経常微分方程式(ノード)は任意の軌道の非線形ダイナミクスを学ぶのに有用であることが証明されている。 しかし、現在のNODEメソッドは、初期状態値または自動回帰エンコーダ更新によってのみ、トラジェクトリ間のバリエーションをキャプチャする。 本研究では,動的状態と変動の基本的な静的要因を分離し,既存のNODE法を改善する新しいフレームワークであるModulated Neural ODEs(MoNODEs)を紹介する。 特に、データから学習した$\textit{time-invariant modulator variables}$を紹介します。 提案するフレームワークを4つの既存のNODEに組み込む。 振動系,ビデオおよび人間の歩行軌跡でMoNODEを試験し,各軌跡は軌道特異的な変調を有することを示した。 我々のフレームワークは、新しい動的パラメータ化に一般化し、極水平予測を行う既存のモデル能力を一貫して改善する。 さらに,提案する変調器変数が,$r^2$スコアで測定した真の未知の変動要因について有意であることを確認した。

Neural ordinary differential equations (NODEs) have been proven useful for learning non-linear dynamics of arbitrary trajectories. However, current NODE methods capture variations across trajectories only via the initial state value or by auto-regressive encoder updates. In this work, we introduce Modulated Neural ODEs (MoNODEs), a novel framework that sets apart dynamics states from underlying static factors of variation and improves the existing NODE methods. In particular, we introduce $\textit{time-invariant modulator variables}$ that are learned from the data. We incorporate our proposed framework into four existing NODE variants. We test MoNODE on oscillating systems, videos and human walking trajectories, where each trajectory has trajectory-specific modulation. Our framework consistently improves the existing model ability to generalize to new dynamic parameterizations and to perform far-horizon forecasting. In addition, we verify that the proposed modulator variables are informative of the true unknown factors of variation as measured by $R^2$ scores.
翻訳日:2023-07-18 23:10:45 公開日:2023-07-17
# ニューラルネットワークによる連続名前付きエンティティ認識モデル

A Neural Span-Based Continual Named Entity Recognition Model ( http://arxiv.org/abs/2302.12200v2 )

ライセンス: Link先を確認
Yunan Zhang, Qingcai Chen(参考訳) 連続学習(CL)が可能な名前付きエンティティ認識(NER)モデルは、エンティティタイプが継続的に増加する領域(例えばパーソナルアシスタント)において現実的に有用である。 一方、nerの学習パラダイムは、スパンベースのメソッドのような新しいパターンに進化する。 しかし、clへの可能性は完全には検討されていない。 本稿では,cl-nerにおける競合を防止するために,メモリ保存とマルチラベル予測を行うkdモデルであるspanklを提案する。 従来のシーケンスラベリングアプローチとは異なり、SpanKLのコヒーレント最適化によるスパンとエンティティレベルの本質的に独立したモデリングは、各段階における学習を促進し、忘れを緩和する。 OntoNotes と Few-NERD から得られた合成CLデータセットの実験により、SpanKL は以前の SoTA よりも多くの点で顕著に優れており、CL から上界への最小のギャップが得られた。 コードはhttps://github.com/Qznan/SpanKLで公開されている。

Named Entity Recognition (NER) models capable of Continual Learning (CL) are realistically valuable in areas where entity types continuously increase (e.g., personal assistants). Meanwhile the learning paradigm of NER advances to new patterns such as the span-based methods. However, its potential to CL has not been fully explored. In this paper, we propose SpanKL, a simple yet effective Span-based model with Knowledge distillation (KD) to preserve memories and multi-Label prediction to prevent conflicts in CL-NER. Unlike prior sequence labeling approaches, the inherently independent modeling in span and entity level with the designed coherent optimization on SpanKL promotes its learning at each incremental step and mitigates the forgetting. Experiments on synthetic CL datasets derived from OntoNotes and Few-NERD show that SpanKL significantly outperforms previous SoTA in many aspects, and obtains the smallest gap from CL to the upper bound revealing its high practiced value. The code is available at https://github.com/Qznan/SpanKL.
翻訳日:2023-07-18 23:10:30 公開日:2023-07-17
# Fair Diffusion: 公平性に基づくテキスト・画像生成モデルの指導

Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness ( http://arxiv.org/abs/2302.10893v3 )

ライセンス: Link先を確認
Felix Friedrich, Manuel Brack, Lukas Struppek, Dominik Hintersdorf, Patrick Schramowski, Sasha Luccioni, Kristian Kersting(参考訳) 生成AIモデルは、最近、品質の驚くべき結果を達成し、結果として急速に成長するアプリケーションに採用されている。 しかし、それらは高度にデータ駆動であり、インターネットからランダムに取り除かれた数十億規模のデータセットに依存しているため、私たちが示すように、劣化と偏りのある人間の行動にも悩まされている。 実際、彼らはそのような偏見を補強するかもしれない。 これらの望ましくない効果を解明するだけでなく、fair diffusionと呼ばれる新しい戦略を提案し、生成的テキストから画像へのモデルの展開後のバイアスを軽減する。 具体的には、人間の指示に基づいて、任意の方向にバイアスをシフトさせることで、例えばアイデンティティグループに対して任意に新しい比率を得ることを示す。 実験的な評価が示すように、この制御により、データフィルタリングや追加の訓練を必要とせず、公平に生成画像モデルを指示することができる。

Generative AI models have recently achieved astonishing results in quality and are consequently employed in a fast-growing number of applications. However, since they are highly data-driven, relying on billion-sized datasets randomly scraped from the internet, they also suffer from degenerated and biased human behavior, as we demonstrate. In fact, they may even reinforce such biases. To not only uncover but also combat these undesired effects, we present a novel strategy, called Fair Diffusion, to attenuate biases after the deployment of generative text-to-image models. Specifically, we demonstrate shifting a bias, based on human instructions, in any direction yielding arbitrarily new proportions for, e.g., identity groups. As our empirical evaluation demonstrates, this introduced control enables instructing generative image models on fairness, with no data filtering and additional training required.
翻訳日:2023-07-18 23:09:10 公開日:2023-07-17
# 狭帯域双対ビームからの隠蔽光子間のHong-Ou-Mandel干渉の展開

Unfolding the Hong-Ou-Mandel interference between heralded photons from narrowband twin beams ( http://arxiv.org/abs/2302.10652v2 )

ライセンス: Link先を確認
K. Laiho, T. Dirmeier, G. Shafiee, Ch. Marquardt(参考訳) ホン・オ・マンデル干渉(HOM)は最も興味深い量子光学現象の1つであり、量子光学通信および計算タスクの実行に不可欠である。 近年、パラメトリックダウンコンバージョン (PDC) プロセスに依存しているような双対ビームエミッターは、単一の光子の信頼できる源となっている。 しかし、ポンプのパワーが十分に高い場合、PDC(しばしばシグナルとアイドラーと呼ばれる)を介して生成されるペアは、調査された量子的特徴を歪ませる多光子寄与を含んでいる。 ここでは、2つの独立な狭帯域pdc源からのヘラルド状態間のhom干渉の時間的特性を導出する。 PDC多光子含有量とは別に、不平衡ビームスプリッタ比と光損失の影響も考慮に入れた。 我々は,通信波長範囲のシミュレーションを行い,PDCプロセスパラメータの最適選択を見つけるための有用なツールを提供する。 本研究は,狭帯域PDC光源の特性を考察し,量子光学応用を駆動する際に有用であることを示す。

The Hong-Ou-Mandel (HOM) interference is one of the most intriguing quantum optical phenomena and crucial in performing quantum optical communication and computation tasks. Lately, twin beam emitters such as those relying on the process of parametric down-conversion (PDC) have become confident sources of heralded single photons. However, if the pump power is high enough, the pairs produced via PDC -- often called signal and idler -- incorporate multiphoton contributions that usually distort the investigated quantum features. Here, we derive the temporal characteristics of the HOM interference between heralded states from two independent narrowband PDC sources. Apart from the PDC multiphoton content, our treatment also takes into account effects arriving from an unbalanced beam splitter ratio and optical losses. We perform a simulation in the telecommunication wavelength range and provide a useful tool for finding the optimal choice for PDC process parameters. Our results offer insight in the properties of narrowband PDC sources and turn useful when driving quantum optical applications with them.
翻訳日:2023-07-18 23:08:54 公開日:2023-07-17
# LDMVFI:潜時拡散モデルを用いたビデオフレーム補間

LDMVFI: Video Frame Interpolation with Latent Diffusion Models ( http://arxiv.org/abs/2303.09508v2 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang, David Bull(参考訳) 既存のビデオフレーム補間(VFI)の研究は、主に出力と接地木フレームの間のL1またはL2距離を最小化するために訓練されたディープニューラルネットワークを使用している。 近年の進歩にもかかわらず、既存のVFI手法は知覚的に劣る結果をもたらす傾向にあり、特に大きな動きや動的テクスチャを含む挑戦的なシナリオでは顕著である。 知覚指向型VFI法の開発に向けて,潜在拡散モデルに基づくVFI,LDMVFIを提案する。 これは、VFI問題を条件生成問題として定式化することで、生成の観点からアプローチする。 遅延拡散モデルを用いてVFIに対処する最初の試みとして、既存のVFI文献で採用されている共通評価プロトコルに従って、我々の手法を厳格にベンチマークする。 ldmvfiの定量的実験とユーザスタディにより,高分解能環境においても,映像コンテンツは美術品よりも優れた知覚品質で補間可能であることが示された。 ソースコードはここで入手できます。

Existing works on video frame interpolation (VFI) mostly employ deep neural networks trained to minimize the L1 or L2 distance between their outputs and ground-truth frames. Despite recent advances, existing VFI methods tend to produce perceptually inferior results, particularly for challenging scenarios including large motions and dynamic textures. Towards developing perceptually-oriented VFI methods, we propose latent diffusion model-based VFI, LDMVFI. This approaches the VFI problem from a generative perspective by formulating it as a conditional generation problem. As the first effort to address VFI using latent diffusion models, we rigorously benchmark our method following the common evaluation protocol adopted in the existing VFI literature. Our quantitative experiments and user study indicate that LDMVFI is able to interpolate video content with superior perceptual quality compared to the state of the art, even in the high-resolution regime. Our source code will be made available here.
翻訳日:2023-07-18 23:01:36 公開日:2023-07-17
# 2成分測定による信号再構成の学習

Learning to Reconstruct Signals From Binary Measurements ( http://arxiv.org/abs/2303.08691v2 )

ライセンス: Link先を確認
Juli\'an Tachella and Laurent Jacques(参考訳) 教師なし学習の最近の進歩は、ノイズと不完全な線形測定のみから信号を再構成する学習の可能性を強調している。 これらの手法は、地上の真実データがほとんど得られず、入手が難しい、医学的、科学的な画像やセンシングにおいて重要な役割を担っている。 しかし実際には、測定はノイズが多く不完全であるだけでなく、定量化されている。 ここでは,二進法からの学習の極端な事例を考察し,不完全二進法データからの信号集合の同定に必要な測定回数について,必要十分条件を提示する。 以上の結果は,2値測定からの信号回復に関する既存の境界を補完するものである。 さらに,学習のためのバイナリデータのみを必要とするssbmと名づけた,新しい自己教師付き学習手法を提案する。 我々は,SSBMが教師付き学習と同等に行う実データセットを用いた一連の実験で示し,広いマージンで固定ウェーブレットベースでスパース再構成法より優れることを示した。

Recent advances in unsupervised learning have highlighted the possibility of learning to reconstruct signals from noisy and incomplete linear measurements alone. These methods play a key role in medical and scientific imaging and sensing, where ground truth data is often scarce or difficult to obtain. However, in practice, measurements are not only noisy and incomplete but also quantized. Here we explore the extreme case of learning from binary observations and provide necessary and sufficient conditions on the number of measurements required for identifying a set of signals from incomplete binary data. Our results are complementary to existing bounds on signal recovery from binary measurements. Furthermore, we introduce a novel self-supervised learning approach, which we name SSBM, that only requires binary data for training. We demonstrate in a series of experiments with real datasets that SSBM performs on par with supervised learning and outperforms sparse reconstruction methods with a fixed wavelet basis by a large margin.
翻訳日:2023-07-18 23:00:40 公開日:2023-07-17
# 画像の記憶可能性予測に有用な特徴表現

Feature representations useful for predicting image memorability ( http://arxiv.org/abs/2303.07679v2 )

ライセンス: Link先を確認
Takumi Harada, Hiroyuki Sakai(参考訳) 画像記憶性の予測は様々な分野に注目されている。 その結果、畳み込みニューラルネットワーク(cnn)モデルの予測精度は、人間の一貫性に基づいて推定される経験的上限に近づいている。 しかし、CNNモデルに埋め込まれた特徴表現の特定は、高い記憶可能性予測精度の原因となっている。 そこで我々は,脳の類似性を利用したCNNモデルにおける記憶可能性関連特徴表現の同定を試みた。 具体的には,オブジェクト認識のために事前学習された64cnnモデルの16,860層にまたがる記憶可能性予測精度と脳の類似性を調べた。 この包括的分析では、高い記憶性予測精度を持つ層は、腹側視路の最も高い段階である下側頭葉(IT)皮質と脳の類似性が高いという明確な傾向が観察された。 さらに,記憶可能性予測のための64cnnモデルの微調整を行った結果,ペナルティメート層のit野と脳の類似性はモデルの記憶可能性予測精度と正の相関を示した。 この分析により、記憶可能性予測のために開発された最新のcnnモデルに匹敵する精度を最良に調整したモデルが得られた。 本研究の結果から,CNNモデルによる記憶可能性予測の成功は,IT大脳皮質と同様,特徴表現獲得に依存していることが明らかとなった。 本研究では,特徴表現の理解を深め,画像の記憶可能性を予測する。

Prediction of image memorability has attracted interest in various fields. Consequently, the prediction accuracy of convolutional neural network (CNN) models has been approaching the empirical upper bound estimated based on human consistency. However, identifying which feature representations embedded in CNN models are responsible for the high memorability prediction accuracy remains an open question. To tackle this problem, we sought to identify memorability-related feature representations in CNN models using brain similarity. Specifically, memorability prediction accuracy and brain similarity were examined across 16,860 layers in 64 CNN models pretrained for object recognition. A clear tendency was observed in this comprehensive analysis that layers with high memorability prediction accuracy had higher brain similarity with the inferior temporal (IT) cortex, which is the highest stage in the ventral visual pathway. Furthermore, fine-tuning of the 64 CNN models for memorability prediction revealed that brain similarity with the IT cortex at the penultimate layer positively correlated with the memorability prediction accuracy of the models. This analysis also showed that the best fine-tuned model provided accuracy comparable to state-of-the-art CNN models developed for memorability prediction. Overall, the results of this study indicated that the CNN models' great success in predicting memorability relies on feature representation acquisition, similar to the IT cortex. This study advances our understanding of feature representations and their use in predicting image memorability.
翻訳日:2023-07-18 23:00:13 公開日:2023-07-17
# 非自己回帰機械翻訳のための非巡回グラフのファジィアライメント

Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2303.06662v2 )

ライセンス: Link先を確認
Zhengrui Ma, Chenze Shao, Shangtong Gui, Min Zhang and Yang Feng(参考訳) 非自己回帰翻訳(NAT)は、復号遅延を低減させるが、マルチモード問題による性能劣化に悩まされる。 近年、有向非巡回グラフの構造は、頂点間の依存性を導入することで多モード問題に取り組むNATにおいて大きな成功を収めている。 しかし、負の対数損失でトレーニングするには、参照トークンと頂点の間の厳密なアライメントが必要であり、複数の翻訳モダリティを扱う能力は弱まる。 本稿では,グラフ内のすべての経路が参照文とファジィに一致しているという見解を保持する。 我々は正確なアライメントを必要としないが、グラフと参照の間のファジィアライメントスコアを最大化するためにモデルを訓練する。 大規模なWMTベンチマーク実験により,本手法は翻訳性能を大幅に向上し,予測信頼性を向上し,生のトレーニングデータに基づいてNATの新たな技術状態を設定する。

Non-autoregressive translation (NAT) reduces the decoding latency but suffers from performance degradation due to the multi-modality problem. Recently, the structure of directed acyclic graph has achieved great success in NAT, which tackles the multi-modality problem by introducing dependency between vertices. However, training it with negative log-likelihood loss implicitly requires a strict alignment between reference tokens and vertices, weakening its ability to handle multiple translation modalities. In this paper, we hold the view that all paths in the graph are fuzzily aligned with the reference sentence. We do not require the exact alignment but train the model to maximize a fuzzy alignment score between the graph and reference, which takes captured translations in all modalities into account. Extensive experiments on major WMT benchmarks show that our method substantially improves translation performance and increases prediction confidence, setting a new state of the art for NAT on the raw training data.
翻訳日:2023-07-18 22:59:54 公開日:2023-07-17
# Aberration-Aware Depth-from-Focus

Aberration-Aware Depth-from-Focus ( http://arxiv.org/abs/2303.04654v2 )

ライセンス: Link先を確認
Xinge Yang, Qiang Fu, Mohammed Elhoseiny, Wolfgang Heidrich(参考訳) 深度推定のためのコンピュータビジョン法は通常、理想化された光学系を持つ単純なカメラモデルを用いる。 現代の機械学習アプローチでは、特にDepth-from-Focusのようなフォーカスセンシティブなタスクにおいて、シミュレーションデータでディープネットワークをトレーニングしようとするときに問題が発生する。 本研究では,focalスタックにおける最良焦点フレームの決定に影響を与えるオフ軸収差に起因する領域ギャップについて検討する。 次に、収差認識トレーニング(AAT)を通じて、このドメインギャップをブリッジすることを検討します。 我々のアプローチは、異なる位置におけるレンズ収差と焦点距離をモデル化し、従来のネットワークトレーニングパイプラインに統合する軽量ネットワークである。 我々は、合成データと実世界のデータの両方で事前訓練されたモデルの一般性を評価する。 実験の結果,提案手法はモデルを微調整したり,ネットワークアーキテクチャを変更することなく,深度推定精度を向上させることができることがわかった。

Computer vision methods for depth estimation usually use simple camera models with idealized optics. For modern machine learning approaches, this creates an issue when attempting to train deep networks with simulated data, especially for focus-sensitive tasks like Depth-from-Focus. In this work, we investigate the domain gap caused by off-axis aberrations that will affect the decision of the best-focused frame in a focal stack. We then explore bridging this domain gap through aberration-aware training (AAT). Our approach involves a lightweight network that models lens aberrations at different positions and focus distances, which is then integrated into the conventional network training pipeline. We evaluate the generality of pretrained models on both synthetic and real-world data. Our experimental results demonstrate that the proposed AAT scheme can improve depth estimation accuracy without fine-tuning the model or modifying the network architecture.
翻訳日:2023-07-18 22:59:24 公開日:2023-07-17
# cleanclip: マルチモーダルコントラスト学習におけるデータ中毒攻撃の軽減

CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning ( http://arxiv.org/abs/2303.03323v3 )

ライセンス: Link先を確認
Hritik Bansal, Nishad Singhi, Yu Yang, Fan Yin, Aditya Grover, Kai-Wei Chang(参考訳) マルチモーダルコントラストプリトレーニングは、クリップなどのマルチモーダル表現モデルを大量のペア画像テキストデータでトレーニングするために使われてきた。 しかし、これまでの研究ではそのようなモデルはバックドア攻撃に弱いことが判明している。 特に、バックドアの例でトレーニングすると、CLIPは埋め込みバックドアトリガーとターゲットラベルの間の急激な相関を学習し、それらの表現を共同埋め込み空間で整列させる。 300万の事前学習データに75の例など、少数の有毒な例を注入しても、モデルの振る舞いを著しく操作できるため、そのような相関を検出または解き放つことは困難である。 この問題に対処するために,個別のモダリティの表現を独立に調整することで,バックドア攻撃によって引き起こされる学習的刺激的関連を弱めるための微調整フレームワークであるCleanCLIPを提案する。 本研究では,マルチモーダルコントラストとユニモーダル自己教師付き目標の組み合わせを用いた教師なし微調整により,バックドア攻撃の影響を著しく低減できることを実証する。 さらに,タスク固有のラベル付き画像データに対する教師付き微調整により,CLIPビジョンエンコーダのバックドアトリガが除去されることを示す。 マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら,CleanCLIPが良質な例でモデル性能を維持していることを示す。 コードとチェックポイントはhttps://github.com/nishadsinghi/CleanCLIPで確認できる。

Multimodal contrastive pretraining has been used to train multimodal representation models, such as CLIP, on large amounts of paired image-text data. However, previous studies have revealed that such models are vulnerable to backdoor attacks. Specifically, when trained on backdoored examples, CLIP learns spurious correlations between the embedded backdoor trigger and the target label, aligning their representations in the joint embedding space. Injecting even a small number of poisoned examples, such as 75 examples in 3 million pretraining data, can significantly manipulate the model's behavior, making it difficult to detect or unlearn such correlations. To address this issue, we propose CleanCLIP, a finetuning framework that weakens the learned spurious associations introduced by backdoor attacks by independently re-aligning the representations for individual modalities. We demonstrate that unsupervised finetuning using a combination of multimodal contrastive and unimodal self-supervised objectives for individual modalities can significantly reduce the impact of the backdoor attack. Additionally, we show that supervised finetuning on task-specific labeled image data removes the backdoor trigger from the CLIP vision encoder. We show empirically that CleanCLIP maintains model performance on benign examples while erasing a range of backdoor attacks on multimodal contrastive learning. The code and checkpoints are available at https://github.com/nishadsinghi/CleanCLIP.
翻訳日:2023-07-18 22:58:40 公開日:2023-07-17
# 知識蒸留から自己知識蒸留へ:正規化損失とカスタマイズソフトラベルを用いた統一的アプローチ

From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft Labels ( http://arxiv.org/abs/2303.13005v2 )

ライセンス: Link先を確認
Zhendong Yang, Ailing Zeng, Zhe Li, Tianke Zhang, Chun Yuan, Yu Li(参考訳) 知識蒸留(KD)は、教師の予測ロジットをソフトラベルとして使用し、セルフKDはソフトラベルを必要とする真の教師を必要としない。 この研究は、汎用的なKD損失を正規化KD(NKD)損失に分解して再編成し、ターゲットクラス(イメージのカテゴリ)とUniversal Self-Knowledge Distillation(USKD)という非ターゲットクラスの両方にカスタマイズしたソフトラベルを組み込むことにより、2つのタスクの定式化を行う。 kdの損失を分解し、その損失から非目標の損失を見つけることで、生徒の非目標のロジットは教師の損失と一致させるが、2つの非目標のロジットの合計が異なるため、同一視できない。 NKDはターゲットでないロジットを正規化して和を等化する。 一般的に、KDとセルフKDは、蒸留損失にソフトラベルをよりよく利用するために用いられる。 USKDは教師なしでターゲットクラスと非ターゲットクラスの両方にカスタマイズされたソフトラベルを生成する。 これは学生のターゲットロジットをソフトターゲットラベルとして滑らかにし、中間特徴のランクを使ってzipfの法則でソフトターゲットでないラベルを生成する。 教師のKDでは,CIFAR-100とImageNetデータセットの最先端のパフォーマンスを実現し,ResNet18のImageNet Top-1精度を69.90%から71.96%に向上させた。 教師がいないセルフKDでは、USKDはCNNモデルとViTモデルの両方に、許容しない追加時間とメモリコストで効果的に適用できる最初のセルフKD手法であり、それぞれ1.17%と0.55%の精度でImageNet for MobileNetとDeiT-Tinyの精度が向上した。 私たちのコードはhttps://github.com/yzd-v/cls_kdで利用可能です。

Knowledge Distillation (KD) uses the teacher's prediction logits as soft labels to guide the student, while self-KD does not need a real teacher to require the soft labels. This work unifies the formulations of the two tasks by decomposing and reorganizing the generic KD loss into a Normalized KD (NKD) loss and customized soft labels for both target class (image's category) and non-target classes named Universal Self-Knowledge Distillation (USKD). We decompose the KD loss and find the non-target loss from it forces the student's non-target logits to match the teacher's, but the sum of the two non-target logits is different, preventing them from being identical. NKD normalizes the non-target logits to equalize their sum. It can be generally used for KD and self-KD to better use the soft labels for distillation loss. USKD generates customized soft labels for both target and non-target classes without a teacher. It smooths the target logit of the student as the soft target label and uses the rank of the intermediate feature to generate the soft non-target labels with Zipf's law. For KD with teachers, our NKD achieves state-of-the-art performance on CIFAR-100 and ImageNet datasets, boosting the ImageNet Top-1 accuracy of ResNet18 from 69.90% to 71.96% with a ResNet-34 teacher. For self-KD without teachers, USKD is the first self-KD method that can be effectively applied to both CNN and ViT models with negligible additional time and memory cost, resulting in new state-of-the-art results, such as 1.17% and 0.55% accuracy gains on ImageNet for MobileNet and DeiT-Tiny, respectively. Our codes are available at https://github.com/yzd-v/cls_KD.
翻訳日:2023-07-18 22:52:42 公開日:2023-07-17
# Ref-NeuS:反射を用いた多視点再構成のためのあいまいさによるニューラルインプリシトサーフェスラーニング

Ref-NeuS: Ambiguity-Reduced Neural Implicit Surface Learning for Multi-View Reconstruction with Reflection ( http://arxiv.org/abs/2303.10840v2 )

ライセンス: Link先を確認
Wenhang Ge and Tao Hu and Haoyu Zhao and Shu Liu and Ying-Cong Chen(参考訳) ニューラルな暗黙的表面学習は、連続的な暗黙的表面表現とビュー依存放射量を提供する多層パーセプトロンによって物体が表現される多視点3D再構成において顕著な進歩を示している。 しかし、現在の手法では反射面の正確な再構成に失敗し、重度の曖昧さを生じさせることが多い。 この問題を解決するために,反射面の効果を減衰させることにより曖昧さを低減することを目的としたRef-NeuSを提案する。 具体的には, 反射面の局所化を目的とし, 反射率を推定するために異常検出器を用いる。 その後,色調をガウス分布としてモデル化し,その差分を表す反射スコアを適応的に低減する反射型測光損失を設計する。 反射方向依存性の放射能と合わせて, 反射面の高品質な表面再構成を達成し, 最先端技術を大きく上回っていることを示す。 さらに、我々のモデルは一般曲面にも匹敵する。

Neural implicit surface learning has shown significant progress in multi-view 3D reconstruction, where an object is represented by multilayer perceptrons that provide continuous implicit surface representation and view-dependent radiance. However, current methods often fail to accurately reconstruct reflective surfaces, leading to severe ambiguity. To overcome this issue, we propose Ref-NeuS, which aims to reduce ambiguity by attenuating the effect of reflective surfaces. Specifically, we utilize an anomaly detector to estimate an explicit reflection score with the guidance of multi-view context to localize reflective surfaces. Afterward, we design a reflection-aware photometric loss that adaptively reduces ambiguity by modeling rendered color as a Gaussian distribution, with the reflection score representing the variance. We show that together with a reflection direction-dependent radiance, our model achieves high-quality surface reconstruction on reflective surfaces and outperforms the state-of-the-arts by a large margin. Besides, our model is also comparable on general surfaces.
翻訳日:2023-07-18 22:50:36 公開日:2023-07-17
# 振動交換相互作用を持つ量子ゲート

Quantum Gates with Oscillating Exchange Interaction ( http://arxiv.org/abs/2303.18015v2 )

ライセンス: Link先を確認
Daniel Q. L. Nguyen, Irina Heinz and Guido Burkard(参考訳) スピン量子ビット間の2量子ビットゲートはしばしば長方形または断熱交換相互作用パルスを使用して行われ、czゲートとなる。 発振交換パルスは、CZゲートを実行するだけでなく、量子アルゴリズムを実行するための柔軟性を提供するiSWAPゲートも可能にする。 共振およびオフ共振交換パルスを用いた2量子ビットゲートの詳細な記述と、各ゲートの実行条件を与え、その性能を最先端の静的ゲートと比較する。 比較的低電荷雑音では、ゲートは依然として確実に動作し、従来のCZゲートよりも優れた性能を発揮する。

Two-qubit gates between spin qubits are often performed using a rectangular or an adiabatic exchange interaction pulse resulting in a CZ gate. An oscillating exchange pulse not only performs a CZ gate, but also enables the iSWAP gate, which offers more flexibility to perform quantum algorithms. We provide a detailed description for two-qubit gates using resonant and off-resonant exchange pulses, give conditions for performing the respective gates, and compare their performance to the state-of-the-art static counterpart. We find that for relatively low charge noise the gates still perform reliably and can outperform the conventional CZ gate.
翻訳日:2023-07-18 22:39:12 公開日:2023-07-17
# 原子力燃料最適化のための強化学習アルゴリズムの評価

Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant Fuel Optimization ( http://arxiv.org/abs/2305.05812v2 )

ライセンス: Link先を確認
Paul Seurin, Koroush Shirvan(参考訳) 核燃料負荷パターン最適化問題は、大規模組合せ最適化のクラスに属する。 また、複数の目的と制約が特徴であり、明示的な解決は不可能である。 遺伝的アルゴリズムやシミュレートアニーリングを含む確率的最適化手法は、異なる原子力ユーティリティやベンダーによって使用されているが、手作りのソリューションが業界で広く使われている手法である。 最先端の深層強化学習(Deep Reinforcement Learning, RL)を改善するために, 特に, 近接政策最適化を活用している。 この研究は、深いRLを利用してロードパターン問題を解決するための第一種アプローチを示し、あらゆるエンジニアリング設計最適化に利用することができる。 本稿では,RLアルゴリズムに影響を及ぼす複数のハイパーパラメータの挙動について,初めて考察する。 このアルゴリズムは、学習の安定性に影響を与えるファッジ因子として振る舞うコア設計のために導出される目的関数の形状など、複数の要因に大きく依存する。 また、エピソード毎にエージェントが見るロードパターンの数、ポリシー更新nsteps前に収集されたサンプル数、トレーニング中のポリシーのランダム性を高めるエントロピー因子ent_coefなど、さまざまなパラメータを通じて現れる探索/探索トレードオフも用意されている。 我々は、rl は、獲得関数がパラメトリズドポリシーに置き換えられるガウス過程と同様に適用されなければならないことを見出した。 そして、最初にハイパーパラメータのセットが見つかると、それ以上の学習が観察されるまでnstepsとent_coefを減らし、最も高いサンプリング効率を安定して得られる。 これにより経済的利益は535,000ドルから642,000ドル/年となった。

The nuclear fuel loading pattern optimization problem belongs to the class of large-scale combinatorial optimization. It is also characterized by multiple objectives and constraints, which makes it impossible to solve explicitly. Stochastic optimization methodologies including Genetic Algorithms and Simulated Annealing are used by different nuclear utilities and vendors, but hand-designed solutions continue to be the prevalent method in the industry. To improve the state-of-the-art, Deep Reinforcement Learning (RL), in particular, Proximal Policy Optimization is leveraged. This work presents a first-of-a-kind approach to utilize deep RL to solve the loading pattern problem and could be leveraged for any engineering design optimization. This paper is also to our knowledge the first to propose a study of the behavior of several hyper-parameters that influence the RL algorithm. The algorithm is highly dependent on multiple factors such as the shape of the objective function derived for the core design that behaves as a fudge factor that affects the stability of the learning. But also, an exploration/exploitation trade-off that manifests through different parameters such as the number of loading patterns seen by the agents per episode, the number of samples collected before a policy update nsteps, and an entropy factor ent_coef that increases the randomness of the policy during training. We found that RL must be applied similarly to a Gaussian Process in which the acquisition function is replaced by a parametrized policy. Then, once an initial set of hyper-parameters is found, reducing nsteps and ent_coef until no more learning is observed will result in the highest sample efficiency robustly and stably. This resulted in an economic benefit of 535,000- 642,000 $/year/plant.
翻訳日:2023-07-18 22:33:05 公開日:2023-07-17
# 目標駆動ワンショット非教師なしドメイン適応

Target-driven One-Shot Unsupervised Domain Adaptation ( http://arxiv.org/abs/2305.04628v2 )

ライセンス: Link先を確認
Julio Ivan Davila Carrazco, Suvarna Kishorkumar Kadam, Pietro Morerio, Alessio Del Bue, Vittorio Murino(参考訳) 本稿では,1つの未ラベルのターゲットサンプルのみで対象ドメインに適応することを目的とした,ワンショット非教師付きドメイン適応(OSUDA)の課題に対する新しい枠組みを提案する。 大規模ラベル付きソースと未ラベルのターゲットデータに依存する既存のアプローチとは異なり、ターゲット駆動型ワンショットUDA(TOS-UDA)アプローチでは、ターゲットサンプルのスタイルによってガイドされる学習可能な拡張戦略を用いて、ソース分布とターゲット分布を整合させる。 本手法は,拡張モジュール,スタイルアライメントモジュール,分類器の3つのモジュールから構成される。 既存の方法とは異なり、我々の拡張モジュールはソースサンプルの強い変換を可能にし、利用可能な単一のターゲットサンプルのスタイルは知覚的類似性を保証することによって拡張を導くために利用される。 さらに,拡張とスタイルアライメントを統合し,追加データセットで個別に事前トレーニングする必要をなくした。 提案手法は,DigitsおよびDomainNetベンチマークにおいて,既存のOS-UDAメソッドよりも優れ,かつ同等に動作する。

In this paper, we introduce a novel framework for the challenging problem of One-Shot Unsupervised Domain Adaptation (OSUDA), which aims to adapt to a target domain with only a single unlabeled target sample. Unlike existing approaches that rely on large labeled source and unlabeled target data, our Target-driven One-Shot UDA (TOS-UDA) approach employs a learnable augmentation strategy guided by the target sample's style to align the source distribution with the target distribution. Our method consists of three modules: an augmentation module, a style alignment module, and a classifier. Unlike existing methods, our augmentation module allows for strong transformations of the source samples, and the style of the single target sample available is exploited to guide the augmentation by ensuring perceptual similarity. Furthermore, our approach integrates augmentation with style alignment, eliminating the need for separate pre-training on additional datasets. Our method outperforms or performs comparably to existing OS-UDA methods on the Digits and DomainNet benchmarks.
翻訳日:2023-07-18 22:32:36 公開日:2023-07-17
# 軽度三重項損失による運動とテキストのクロスモーダル検索

Cross-Modal Retrieval for Motion and Text via MildTriple Loss ( http://arxiv.org/abs/2305.04195v2 )

ライセンス: Link先を確認
Sheng Yan, Haoqiang Wang, Xin Du, Mengyuan Liu, Hong Liu(参考訳) クロスモーダル検索は、画像テキスト検索技術やビデオテキスト検索技術の進歩により、コンピュータビジョンと自然言語処理において顕著な研究トピックとなっている。 しかし,人間の動作シーケンスとテキスト間のクロスモーダル検索は,ユーザの行動や言語をよりよく理解するための仮想現実アプリケーションを支援するなど,アプリケーションの価値が広いにもかかわらず,十分な注意を払っていない。 本課題は,2つのモダリティの連成モデリング,テキストからの人中心情報理解,人間の3次元動作系列からの学習行動特徴などの課題を提示する。 動作データモデリングにおける従来の研究は,従来の情報を忘れてしまうような自己回帰的特徴抽出器に頼っていた。一方,2つの異なるモードから表現を学習し,長期的依存関係をキャプチャする,単純かつパワフルなトランスフォーマーベースモーションとテキストエンコーダを含む革新的なモデルを提案する。 さらに、異なる人間の動きの同じ原子の作用が重なり合うことで意味的な対立が生じ、新たな三重項損失関数であるMildTriple Lossが探索される。 モーダル空間内のサンプル間の類似性を利用して、結合埋め込み空間における軟弱な負のサンプルマイニングを誘導し、三重項損失を訓練し、偽負のサンプルによる違反を減らす。 我々は,最新のHumanML3DおよびKIT Motion-Languageデータセットのモデルと手法を評価し,動作検索の62.9%のリコール,テキスト検索の71.5\%のリコールを実現した。 私たちのコードはhttps://github.com/eanson023/rehamot.comで利用可能です。

Cross-modal retrieval has become a prominent research topic in computer vision and natural language processing with advances made in image-text and video-text retrieval technologies. However, cross-modal retrieval between human motion sequences and text has not garnered sufficient attention despite the extensive application value it holds, such as aiding virtual reality applications in better understanding users' actions and language. This task presents several challenges, including joint modeling of the two modalities, demanding the understanding of person-centered information from text, and learning behavior features from 3D human motion sequences. Previous work on motion data modeling mainly relied on autoregressive feature extractors that may forget previous information, while we propose an innovative model that includes simple yet powerful transformer-based motion and text encoders, which can learn representations from the two different modalities and capture long-term dependencies. Furthermore, the overlap of the same atomic actions of different human motions can cause semantic conflicts, leading us to explore a new triplet loss function, MildTriple Loss. it leverages the similarity between samples in intra-modal space to guide soft-hard negative sample mining in the joint embedding space to train the triplet loss and reduce the violation caused by false negative samples. We evaluated our model and method on the latest HumanML3D and KIT Motion-Language datasets, achieving a 62.9\% recall for motion retrieval and a 71.5\% recall for text retrieval (based on R@10) on the HumanML3D dataset. Our code is available at https://github.com/eanson023/rehamot.
翻訳日:2023-07-18 22:32:16 公開日:2023-07-17
# 半自動データサイエンスのためのLLM:コンテキスト対応機能エンジニアリングのためのCAAFEの導入

LLMs for Semi-Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering ( http://arxiv.org/abs/2305.03403v4 )

ライセンス: Link先を確認
Noah Hollmann, Samuel M\"uller and Frank Hutter(参考訳) 自動機械学習(AutoML)の分野が進むにつれて、これらのシステムにドメイン知識を統合することがますます重要になる。 本稿では,大規模言語モデル(LLM)のパワーを利用する手法を提案する。 具体的には,表型データセットのための機能エンジニアリング手法であるcaafe(context-aware automated feature engineering)を導入する。llmを利用して,表型データセットに対して,その記述に基づいて意味的に意味のある機能を反復生成する。 このメソッドは、新しい機能を作成するためのPythonコードと、生成された機能のユーティリティの説明の両方を生成する。 方法論的に単純であるにも関わらず、CAAFEは14データセット中11データセットのパフォーマンスを改善し、平均ROC AUCパフォーマンスを全データセットで0.798から0.822に向上させます。 さらに、CAAFEは、生成された各特徴についてテキストによる説明を提供することで解釈できる。 CAAFEは、データサイエンスタスクにおけるより広範な半自動化の道を開き、AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト対応ソリューションの重要性を強調している。 a $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAZ4MaB_alZvyARTMjhl6RZf0a}{demo}$と a $\href{https://pypi.org/project/caafe/}{python\ package}$をリリースした。

As the field of automated machine learning (AutoML) advances, it becomes increasingly important to incorporate domain knowledge into these systems. We present an approach for doing so by harnessing the power of large language models (LLMs). Specifically, we introduce Context-Aware Automated Feature Engineering (CAAFE), a feature engineering method for tabular datasets that utilizes an LLM to iteratively generate additional semantically meaningful features for tabular datasets based on the description of the dataset. The method produces both Python code for creating new features and explanations for the utility of the generated features. Despite being methodologically simple, CAAFE improves performance on 11 out of 14 datasets - boosting mean ROC AUC performance from 0.798 to 0.822 across all dataset - similar to the improvement achieved by using a random forest instead of logistic regression on our datasets. Furthermore, CAAFE is interpretable by providing a textual explanation for each generated feature. CAAFE paves the way for more extensive semi-automation in data science tasks and emphasizes the significance of context-aware solutions that can extend the scope of AutoML systems to semantic AutoML. We release our $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAJZ4MaB_alZvyARTMjhl6RZf0a}{demo}$ and a $\href{https://pypi.org/project/caafe/}{python\ package}$.
翻訳日:2023-07-18 22:31:46 公開日:2023-07-17
# マルチタスク多行動MAPエリート

Multi-Task Multi-Behavior MAP-Elites ( http://arxiv.org/abs/2305.01264v2 )

ライセンス: Link先を確認
Anne and Mouret(参考訳) 本稿では,MAP-Elitesの変種であるMulti-Task Multi-Behavior MAP-Elitesを提案する。 多様性探索のためのMAP-Elitesとタスク間の類似性を活用するためのマルチタスクMAP-Elitesを組み合わせる。 ヒューマノイドなフォールトリカバリタスクの3つ以上のベースラインを実行し、より多くのタスクを解決し、解決されたタスク毎に2倍のソリューションを見つける。

We propose Multi-Task Multi-Behavior MAP-Elites, a variant of MAP-Elites that finds a large number of high-quality solutions for a large set of tasks (optimization problems from a given family). It combines the original MAP-Elites for the search for diversity and Multi-Task MAP-Elites for leveraging similarity between tasks. It performs better than three baselines on a humanoid fault-recovery set of tasks, solving more tasks and finding twice as many solutions per solved task.
翻訳日:2023-07-18 22:29:49 公開日:2023-07-17
# 最適プレコンディショニングと釣り適応型ランゲヴィンサンプリング

Optimal Preconditioning and Fisher Adaptive Langevin Sampling ( http://arxiv.org/abs/2305.14442v2 )

ライセンス: Link先を確認
Michalis K. Titsias(参考訳) 我々は,期待される2乗跳躍距離を解析的に最適化することにより,ランゲヴィン拡散の最適条件を定義する。 これは逆フィッシャー情報共分散行列の最適前提条件となり、この共分散行列は目標の下で平均化されたログターゲット勾配の外積として計算される。 この結果をメトロポリス調整ランゲヴィンアルゴリズム(MALA)に適用し,アルゴリズムの実行時に発生する勾配履歴から事前条件を学習する,計算効率のよいMCMCスキームを導出する。 いくつかの実験において、提案アルゴリズムは高次元において非常に堅牢であり、標準適応MCMCによる事前条件学習と位置依存リーマン多様体MALAサンプリング器を含む、他の手法よりも大幅に優れていることを示す。

We define an optimal preconditioning for the Langevin diffusion by analytically optimizing the expected squared jumped distance. This yields as the optimal preconditioning an inverse Fisher information covariance matrix, where the covariance matrix is computed as the outer product of log target gradients averaged under the target. We apply this result to the Metropolis adjusted Langevin algorithm (MALA) and derive a computationally efficient adaptive MCMC scheme that learns the preconditioning from the history of gradients produced as the algorithm runs. We show in several experiments that the proposed algorithm is very robust in high dimensions and significantly outperforms other methods, including a closely related adaptive MALA scheme that learns the preconditioning with standard adaptive MCMC as well as the position-dependent Riemannian manifold MALA sampler.
翻訳日:2023-07-18 22:20:46 公開日:2023-07-17
# 継続的統合における機械学習の適用に関する体系的文献レビュー

Systematic Literature Review on Application of Machine Learning in Continuous Integration ( http://arxiv.org/abs/2305.12695v2 )

ライセンス: Link先を確認
Ali Kazemi Arani, Triet Huynh Minh Le, Mansooreh Zahedi and Muhammad Ali Babar(参考訳) 本研究では過去22年間の継続的統合(CI)の文脈における機械学習(ML)に基づく手法に関する文献の体系的レビューを行った。 この研究は、CIのためのMLベースのソリューションで使用されるテクニックを特定し、記述することを目的として、データエンジニアリング、機能エンジニアリング、ハイパーパラメータチューニング、MLモデル、評価方法、メトリクスなど、さまざまな側面を分析した。 本稿では,CIテストのフェーズ,それらの相互接続,およびMLメソッドフェーズのトレーニングにおける採用技術について述べる。 9種類のデータソースを提示し,選択したデータの準備に4つのステップを講じた。 また,選択した研究のテーマ分析により,4つの特徴タイプと9つのデータ特徴サブセットを同定した。 さらに、ハイパーパラメータの選択とチューニングの5つの方法を示す。 さらに,文献における評価手法を要約し,15種類の指標を同定した。 最も一般的な評価方法は精度、リコール、f1-scoreであり、訓練されたmlモデルの性能を評価するための5つの方法も特定した。 最後に、MLモデルタイプ、パフォーマンス測定、CIフェーズの関係について紹介した。 この研究は、CIにおけるMLベースの手法に興味を持つ研究者や実践者に貴重な洞察を与え、この分野におけるさらなる研究の必要性を強調している。

This research conducted a systematic review of the literature on machine learning (ML)-based methods in the context of Continuous Integration (CI) over the past 22 years. The study aimed to identify and describe the techniques used in ML-based solutions for CI and analyzed various aspects such as data engineering, feature engineering, hyper-parameter tuning, ML models, evaluation methods, and metrics. In this paper, we have depicted the phases of CI testing, the connection between them, and the employed techniques in training the ML method phases. We presented nine types of data sources and four taken steps in the selected studies for preparing the data. Also, we identified four feature types and nine subsets of data features through thematic analysis of the selected studies. Besides, five methods for selecting and tuning the hyper-parameters are shown. In addition, we summarised the evaluation methods used in the literature and identified fifteen different metrics. The most commonly used evaluation methods were found to be precision, recall, and F1-score, and we have also identified five methods for evaluating the performance of trained ML models. Finally, we have presented the relationship between ML model types, performance measurements, and CI phases. The study provides valuable insights for researchers and practitioners interested in ML-based methods in CI and emphasizes the need for further research in this area.
翻訳日:2023-07-18 22:19:34 公開日:2023-07-17
# ねじれた量子状態のユニタリ同値

Unitary equivalence of twisted quantum states ( http://arxiv.org/abs/2305.06293v3 )

ライセンス: Link先を確認
N. V. Filina and S. S. Baturin(参考訳) 我々は、ツイスト量子状態の時間ダイナミクスを示す。 我々は、よく知られた定常ランダウ状態と、ハミルトニアンが線形エネルギー散逸を考慮していても、進化するツイスト状態の間に明示的な関係を見出す。 このユニタリ接続を利用して非定常ランダウ状態を分析し,その性質を明らかにした。 提案した変換は、古典的エルマコフ方程式と定常ランダウ状態上で計算された行列要素の解に基づいて、進化したツイスト状態に対する異なる演算子平均値の簡易評価を可能にする。 提案された形式論は解析を著しく単純化し、ツイスト量子波パケットの散逸進化のさらなる理論的発展のための便利なツールとなるかもしれない。

We present the time dynamics of twisted quantum states. We find an explicit connection between the well-known stationary Landau state and an evolving twisted state, even when the Hamiltonian accounts for linear energy dissipation. Utilizing this unitary connection, we analyze nonstationary Landau states and unveil some of their properties. The proposed transformation enables simple evaluation of different operator mean values for the evolving twisted state based on the solution to the classical Ermakov equation and matrix elements calculated on the stationary Landau states. The suggested formalism may significantly simplify analysis and become a convenient tool for further theoretical development on the dissipative evolution of the twisted quantum wave packet.
翻訳日:2023-07-18 22:19:02 公開日:2023-07-17
# 涙のない高速な行列乗算:制約プログラミングアプローチ

Fast Matrix Multiplication Without Tears: A Constraint Programming Approach ( http://arxiv.org/abs/2306.01097v2 )

ライセンス: Link先を確認
Arnaud Deza, Chang Liu, Pashootan Vaezipoor, Elias B. Khalil(参考訳) $N \times M$行列と$M \times P$行列の乗算は、単純な$NMP$アプローチが示唆するよりも少ない乗算で行うことが知られている。 最も有名な例はストラッセンのアルゴリズムで、8つの乗法の代わりに 2$ 2$ の行列を 7 で乗算する。 これにより、高速行列乗法における制約満足度問題が発生し、出力行列上の正しさ制約を満たすために、$R < NMP$ 乗法項の集合を選択して組み合わせなければならない。 組み合わせ性が高いにもかかわらず、最近のAlphaTensorの深層強化学習アプローチのように、この問題は、その観点から徹底的に検討されていない。 本研究では, 高速行列乗算のための非可換アルゴリズムや, 非可換性を証明するための制約プログラミング手法を提案する。 本稿では, 対称性を破る制約と有効不等式を提案する。 実現可能な面では、スパース性に基づく問題分解と組み合わせた解法性能変動の活用により、高速行列乗算のより大きな(実現可能な)インスタンスの解を見つけることができる。 cpオプティマイザを用いた実験結果から,行列の高速行列乗算アルゴリズムを,短時間で3-\times 3$まで得ることができた。

It is known that the multiplication of an $N \times M$ matrix with an $M \times P$ matrix can be performed using fewer multiplications than what the naive $NMP$ approach suggests. The most famous instance of this is Strassen's algorithm for multiplying two $2\times 2$ matrices in 7 instead of 8 multiplications. This gives rise to the constraint satisfaction problem of fast matrix multiplication, where a set of $R < NMP$ multiplication terms must be chosen and combined such that they satisfy correctness constraints on the output matrix. Despite its highly combinatorial nature, this problem has not been exhaustively examined from that perspective, as evidenced for example by the recent deep reinforcement learning approach of AlphaTensor. In this work, we propose a simple yet novel Constraint Programming approach to find non-commutative algorithms for fast matrix multiplication or provide proof of infeasibility otherwise. We propose a set of symmetry-breaking constraints and valid inequalities that are particularly helpful in proving infeasibility. On the feasible side, we find that exploiting solver performance variability in conjunction with a sparsity-based problem decomposition enables finding solutions for larger (feasible) instances of fast matrix multiplication. Our experimental results using CP Optimizer demonstrate that we can find fast matrix multiplication algorithms for matrices up to $3\times 3$ in a short amount of time.
翻訳日:2023-07-18 22:14:14 公開日:2023-07-17
# 環境変化の公平なオンライン学習に向けて

Towards Fair Disentangled Online Learning for Changing Environments ( http://arxiv.org/abs/2306.01007v2 )

ライセンス: Link先を確認
Chen Zhao, Feng Mi, Xintao Wu, Kai Jiang, Latifur Khan, Christan Grant, Feng Chen(参考訳) 変化する環境に対するオンライン学習の問題では、データは順次順次受信され、分布の仮定は頻繁に変化する可能性がある。 既存の手法は、動的後悔または適応的後悔のどちらかに厳密な拘束を与えて学習アルゴリズムの有効性を示すが、そのほとんどは、異なるサブ人口(人種や性別など)の統計パリティとして定義されるモデルフェアネスによる学習を完全に無視している。 もうひとつの欠点は、オンライン学習者が新しい環境に適応する場合、モデルパラメータをグローバルな変更で更新する必要があることだ。 スパースメカニズムシフト仮説に触発されて、オンライン学習における環境変化は、学習パラメータの部分的変化によるものであり、その残りは環境変化に不変であると主張する。 そこで,本稿では,各時刻に収集したデータを,環境不変意味因子と環境固有の変動係数の2つの表現で分離できると仮定した新しいアルゴリズムを提案する。 この意味因子は、群フェアネス制約の下で公正な予測にさらに用いられる。 学習者によって生成されたモデルパラメータのシーケンスを評価するために、動的および静的な後悔指標の混合形式とフェアネスを意識した長期的制約を取り入れた新しい後悔を提案する。 この詳細な分析は、損失後悔と累積公正性制約違反の理論的保証を提供する。 実世界のデータセットに対する実証的な評価は,提案手法がモデル精度と公正性において,ベースライン法を逐次上回ることを示す。

In the problem of online learning for changing environments, data are sequentially received one after another over time, and their distribution assumptions may vary frequently. Although existing methods demonstrate the effectiveness of their learning algorithms by providing a tight bound on either dynamic regret or adaptive regret, most of them completely ignore learning with model fairness, defined as the statistical parity across different sub-population (e.g., race and gender). Another drawback is that when adapting to a new environment, an online learner needs to update model parameters with a global change, which is costly and inefficient. Inspired by the sparse mechanism shift hypothesis, we claim that changing environments in online learning can be attributed to partial changes in learned parameters that are specific to environments and the rest remain invariant to changing environments. To this end, in this paper, we propose a novel algorithm under the assumption that data collected at each time can be disentangled with two representations, an environment-invariant semantic factor and an environment-specific variation factor. The semantic factor is further used for fair prediction under a group fairness constraint. To evaluate the sequence of model parameters generated by the learner, a novel regret is proposed in which it takes a mixed form of dynamic and static regret metrics followed by a fairness-aware long-term constraint. The detailed analysis provides theoretical guarantees for loss regret and violation of cumulative fairness constraints. Empirical evaluations on real-world datasets demonstrate our proposed method sequentially outperforms baseline methods in model accuracy and fairness.
翻訳日:2023-07-18 22:13:29 公開日:2023-07-17
# 差分プライバシーを持つGboard言語モデルのフェデレーション学習

Federated Learning of Gboard Language Models with Differential Privacy ( http://arxiv.org/abs/2305.18465v2 )

ライセンス: Link先を確認
Zheng Xu, Yanxiang Zhang, Galen Andrew, Christopher A. Choquette-Choo, Peter Kairouz, H. Brendan McMahan, Jesse Rosenstock, Yuanbo Zhang(参考訳) 我々は,Google Keyboard (Gboard) において,フェデレートラーニング (FL) と差分プライバシ (DP) を用いて言語モデル (LM) を訓練する。 我々は,DP-Follow-the-Regularized-Leader (DP-FTRL)~\citep{kairouz21b} アルゴリズムを適用し,クライアントデバイスの一様サンプリングを必要とせずに有意義に形式的なDP保証を実現する。 適切なプライバシ利用のトレードオフを提供するため,新たなクライアント参加基準を導入し,大規模システムにおけるその構成の意義について考察する。 DP-FTRLと組み合わせることで、トレーニング中のクリップ基準を適応的に選択したり、トレーニングの準備のためにハイパーパラメータチューニングを減らしたりすることができることを示す。 公開データの事前トレーニングの助けを借りて、高いユーティリティと$\rho-$zcdpプライバシ保証を達成する20以上のgboard lmsを、$\rho \in (0.2, 2)$でトレーニングし、セキュアアグリゲーションでさらに2つのモデルをトレーニングします。 gboardの次のワード予測ニューラルネットワークlmsがdp保証を持つことを発表して、gboardニューラルネットワークlmsの今後のローンチにはdp保証が必要です。 筆者らの経験を要約し,DP研修に関する具体的な提案を行う。

We train language models (LMs) with federated learning (FL) and differential privacy (DP) in the Google Keyboard (Gboard). We apply the DP-Follow-the-Regularized-Leader (DP-FTRL)~\citep{kairouz21b} algorithm to achieve meaningfully formal DP guarantees without requiring uniform sampling of client devices. To provide favorable privacy-utility trade-offs, we introduce a new client participation criterion and discuss the implication of its configuration in large scale systems. We show how quantile-based clip estimation~\citep{andrew2019differentially} can be combined with DP-FTRL to adaptively choose the clip norm during training or reduce the hyperparameter tuning in preparation for training. With the help of pretraining on public data, we train and deploy more than twenty Gboard LMs that achieve high utility and $\rho-$zCDP privacy guarantees with $\rho \in (0.2, 2)$, with two models additionally trained with secure aggregation~\citep{bonawitz2017practical}. We are happy to announce that all the next word prediction neural network LMs in Gboard now have DP guarantees, and all future launches of Gboard neural network LMs will require DP guarantees. We summarize our experience and provide concrete suggestions on DP training for practitioners.
翻訳日:2023-07-18 22:11:08 公開日:2023-07-17
# 量子アニールの強結合極限における$U(N)$ゲージ理論

$U(N)$ gauge theory in the strong coupling limit on a quantum annealer ( http://arxiv.org/abs/2305.18179v3 )

ライセンス: Link先を確認
Jangho Kim and Thomas Luu and Wolfgang Unger(参考訳) 強結合系における格子 qcd は整数値を持つ双対変数で定式化することができる。 この方法では有限密度符号問題を回避し、ワームアルゴリズムによって、控えめな有限温度と有限密度を効率的にシミュレーションすることができる。 しかし、低温度の環境は対処に費用がかかる。 分割関数は整数の項でのみ表現されるので、量子アニール上で解くことができる組合せ最適化問題としてキャストすることができる。 まず、研究対象とするシステムのセットアップを説明し、その後、量子アニール、特にD-Waveに適合する改質を示す。 概念実証として、ゲージ群 $U(1)$ と $U(3)$ に対して D-Wave 上で得られた最初の結果を示し、ゲージ群 $SU(3)$ への次のステップを概説する。 また,ヒストグラムの重み付けにより,分析結果と比較して観察精度が大幅に向上することがわかった。

Lattice QCD in the strong coupling regime can be formulated in dual variables which are integer-valued. It can be efficiently simulated for modest finite temperatures and finite densities via the worm algorithm, circumventing the finite density sign problem in this regime. However, the low temperature regime is more expensive to address. As the partition function is solely expressed in terms of integers, it can be cast as a combinatorial optimization problem that can be solved on a quantum annealer. We will first explain the setup of the system we want to study, and then present its reformulation suitable for a quantum annealer, and in particular the D-Wave. As a proof of concept, we present first results obtained on D-Wave for gauge group $U(1)$ and $U(3)$, and outline the next steps towards gauge groups $SU(3)$. We find that in addition, histogram reweighting greatly improves the accuracy of our observables when compared to analytic results.
翻訳日:2023-07-18 22:10:39 公開日:2023-07-17
# グルーキングが長くなる前に予測:グルークしたモデルの損失景観を考察

Predicting Grokking Long Before it Happens: A look into the loss landscape of models which grok ( http://arxiv.org/abs/2306.13253v2 )

ライセンス: Link先を確認
Pascal Jr. Tikeng Notsawo and Hattie Zhou and Mohammad Pezeshki and Irina Rish and Guillaume Dumas(参考訳) 本稿では,ニューラルネットワークにおけるグロッキング発生の予測に焦点をあてて,過失や記憶の徴候が観測された後に,完全一般化が出現する現象について述べる。 グローキングは特定のハイパーパラメータでしか観測できないと報告されている。 これにより、グロッキングにつながるパラメータを特定することが重要になる。 しかし、グロッキングは多数のエポックの後に起こるため、それにつながるハイパーパラメータの探索は時間がかかる。 本稿では,多数のエポックを訓練することなくグロッキングを予測するための低コストな手法を提案する。 基本的には,最初の数回の時間軸の学習曲線を研究することによって,グロッキングが後に起こるかどうかを予測できることを示す。 具体的には、特定の振動が初期エポックで発生した場合、モデルがより長い時間トレーニングされた場合、グロッキングが起こると期待できる。 本研究では,フーリエ変換を適用した学習曲線のスペクトルシグネチャを用いて低周波成分の振幅を定量化し,その振動の存在を検出する。 また,これらの振動の原因を説明し,損失景観を特徴付ける実験も実施する。

This paper focuses on predicting the occurrence of grokking in neural networks, a phenomenon in which perfect generalization emerges long after signs of overfitting or memorization are observed. It has been reported that grokking can only be observed with certain hyper-parameters. This makes it critical to identify the parameters that lead to grokking. However, since grokking occurs after a large number of epochs, searching for the hyper-parameters that lead to it is time-consuming. In this paper, we propose a low-cost method to predict grokking without training for a large number of epochs. In essence, by studying the learning curve of the first few epochs, we show that one can predict whether grokking will occur later on. Specifically, if certain oscillations occur in the early epochs, one can expect grokking to occur if the model is trained for a much longer period of time. We propose using the spectral signature of a learning curve derived by applying the Fourier transform to quantify the amplitude of low-frequency components to detect the presence of such oscillations. We also present additional experiments aimed at explaining the cause of these oscillations and characterizing the loss landscape.
翻訳日:2023-07-18 21:52:34 公開日:2023-07-17
# 絡み合った二成分系に関するヤングの実験--基礎となる量子速度場の役割

Young's experiment with entangled bipartite systems: The role of underlying quantum velocity fields ( http://arxiv.org/abs/2306.10104v2 )

ライセンス: Link先を確認
A. S. Sanz(参考訳) ボヘミア力学から導かれた速度場の概念を考察し、ヤングの2分割実験における二分体実現における絡み合いの動的影響について考察する。 特に、分解可能な2スリット状態(位置表現におけるキャット型状態アナログ)と連続変数ベル型最大絡み合い状態が示すダイナミクスを比較することで、分離可能なシナリオにおける各粒子に関連する速度場は明確に定義され、各部分空間上で別々に作用するのに対し、絡み合った場合において、この挙動を妨げる総空間に強い変形があることが分かる。 結果として、各サブシステムの軌道は、もはや対応する部分空間内に閉じこもるように制限されない。 このようにして、各粒子に付随する部分空間(つまり、他のサブシステム上でトレースする場合)内では、干渉特性が洗い流されるだけでなく、いわゆるボヘミアン非交差規則(bohmian non-crossing rule\linebreak、すなわち、粒子軌道が同時に同じ点を通過することを許される)も行われる。

We consider the concept of velocity fields, taken from Bohmian mechanics, to investigate the dynamical effects of entanglement in bipartite realizations of Young's two-slit experiment. In particular, by comparing the behavior exhibited by factorizable two-slit states (cat-type state analogs in the position representation) with the dynamics exhibited by a continuous-variable Bell-type maximally entangled state, we find that, while the velocity fields associated with each particle in the separable scenario are well-defined and act separately on each subspace, in the entangled case there is a strong deformation in the total space that prevents this behavior. Consequently, the trajectories for each subsystem are not constrained any longer to remain confined within the corresponding subspace; rather, they exhibit seemingly wandering behavior across the total space. In this way, within the subspace associated with each particle (that is, when we trace over the other subsystem), not only interference features are washed out, but also the so-called Bohmian non-crossing rule\linebreak (i.e., particle trajectories are allowed to get across the same point at the same time).
翻訳日:2023-07-18 21:51:28 公開日:2023-07-17
# DoubleAdapt: ストックトレンド予測のためのインクリメンタルラーニングのためのメタラーニングアプローチ

DoubleAdapt: A Meta-learning Approach to Incremental Learning for Stock Trend Forecasting ( http://arxiv.org/abs/2306.09862v2 )

ライセンス: Link先を確認
Lifan Zhao, Shuming Kong, Yanyan Shen(参考訳) 株価トレンド予測は、価格トレンドの正確な予測が不可欠である量的投資の基本的な課題である。 オンラインサービスとして、ストックデータは時間とともにやってくる。 予測モデルを最新のデータで漸進的に更新することは実用的かつ効率的であり、将来の株式市場で繰り返される新たなパターンを明らかにする可能性がある。 しかし、株価トレンド予測の漸進的な学習は、分配シフト(つまり概念の漂流)の難しさにより、まだ未解明のままである。 株式市場が動的に進化するにつれて、将来のデータの分布はインクリメンタルなデータとわずかにあるいは著しく異なり、インクリメンタルな更新の効果を阻害する。 この課題に対処するために,2つのアダプタを備えたエンドツーエンドフレームワークであるdoubleadaptを提案する。 私たちのキーとなる洞察は、ストックデータをローカルな定常分布に自動的に適応させ、利益を上げる更新を優先する方法を学ぶことです。 データ適応によって補うことで、緩和分布シフトの下でモデルパラメータを確実に適応させることができる。 各インクリメンタルな学習タスクをメタ学習タスクとしてキャストし、望ましいデータ適応とパラメータ初期化のためのアダプタを自動的に最適化します。 実世界のストックデータセットの実験では、DoubleAdaptは最先端の予測性能を達成し、かなりの効率を示している。

Stock trend forecasting is a fundamental task of quantitative investment where precise predictions of price trends are indispensable. As an online service, stock data continuously arrive over time. It is practical and efficient to incrementally update the forecast model with the latest data which may reveal some new patterns recurring in the future stock market. However, incremental learning for stock trend forecasting still remains under-explored due to the challenge of distribution shifts (a.k.a. concept drifts). With the stock market dynamically evolving, the distribution of future data can slightly or significantly differ from incremental data, hindering the effectiveness of incremental updates. To address this challenge, we propose DoubleAdapt, an end-to-end framework with two adapters, which can effectively adapt the data and the model to mitigate the effects of distribution shifts. Our key insight is to automatically learn how to adapt stock data into a locally stationary distribution in favor of profitable updates. Complemented by data adaptation, we can confidently adapt the model parameters under mitigated distribution shifts. We cast each incremental learning task as a meta-learning task and automatically optimize the adapters for desirable data adaptation and parameter initialization. Experiments on real-world stock datasets demonstrate that DoubleAdapt achieves state-of-the-art predictive performance and shows considerable efficiency.
翻訳日:2023-07-18 21:51:00 公開日:2023-07-17
# 雑音中規模量子コンピュータ上のグリーディ勾配なし適応変分量子アルゴリズム

Greedy Gradient-free Adaptive Variational Quantum Algorithms on a Noisy Intermediate Scale Quantum Computer ( http://arxiv.org/abs/2306.17159v4 )

ライセンス: Link先を確認
C\'esar Feniou, Baptiste Claudon, Muhammad Hassan, Axel Courtat, Olivier Adjoua, Yvon Maday, Jean-Philip Piquemal(参考訳) ハイブリッド量子古典アルゴリズムは、量子多体系をシミュレートする古典的な計算方法よりも優れた可能性を持っている。 特に適応変分量子固有解器(VQE)は、コンパクトな量子回路を用いて高精度なアンザッツ波動関数を生成する能力を示した。 しかし、これらの手法の現在の量子処理ユニット(QPU)への実践的な実装は、高次元のノイズの多いコスト関数を最適化するために、演算子選択ステップ中に可観測物の多項式スケーリング数を計測する必要があるという大きな課題に直面している。 本研究では,これらの困難を克服する新しい手法を導入し,高速GPU加速量子シミュレータと組み合わされた25量子ビットの誤差緩和量子ハードウェア上でハイブリッド適応アルゴリズムを実行する。 物理応用として, キュービット数や演算子プールの大きさに関わらず, 繰り返し毎に5つの回路計測しか必要としない, グリーディ勾配のない適応型VQEを用いて25体アイシングモデルの基底状態を計算する。 化学応用として, 分子系の基底状態の近似のために, この欲張りで勾配のないアプローチとオーバーラップ適応vqeアルゴリズムを組み合わせる。 これらのハイブリッドQPU/シミュレータ計算の実装は、QPUへの適応型VQEの適用性を高め、量子コンピューティングの短期的優位性に関してさらなる楽観性を与える。

Hybrid quantum-classical algorithms hold the potential to outperform classical computing methods for simulating quantum many-body systems. Adaptive Variational Quantum Eigensolvers (VQE) in particular have demonstrated an ability to generate highly accurate ansatz wave-functions using compact quantum circuits. However, the practical implementation of these methods on current quantum processing units (QPUs) faces a significant challenge: the need to measure a polynomially scaling number of observables during the operator selection step so as to optimise a high-dimensional, noisy cost function. In this study, we introduce new techniques to overcome these difficulties and execute hybrid adaptive algorithms on a 25-qubit error-mitigated quantum hardware coupled to a high performance GPU-accelerated quantum simulator. As a physics application, we compute the ground state of a 25-body Ising model using a greedy gradient-free adaptive VQE that requires only five circuit measurements for each iteration, regardless of the number of qubits and the size of the operator pool. As a chemistry application, we combine this greedy, gradient-free approach with the Overlap-ADAPT-VQE algorithm to approximate the ground state of a molecular system. The successful implementation of these hybrid QPU/simulator computations enhances the applicability of adaptive VQEs on QPUs and instills further optimism regarding the near-term advantages of quantum computing.
翻訳日:2023-07-18 21:41:58 公開日:2023-07-17
# 量子情報測度に対する純度に基づく連続性境界

Purity based continuity bounds for quantum information measures ( http://arxiv.org/abs/2306.16631v2 )

ライセンス: Link先を確認
Komal Kumar and Nirman Ganguly(参考訳) 量子情報理論では、通信容量は主にエントロピー公式によって与えられる。 このようなエントロピー量の連続性は、量子状態の摂動に対する測度の均一性を保証するため重要である。 伝統的に、連続性境界はトレース距離の観点から提供され、これは量子状態の集合上のボナフィド計量である。 本研究では,関連する量子状態の純度差に基づく各種情報測度の連続性境界を導出する。 有限次元系において、系の純度距離と次元にのみ依存するフォン・ノイマンエントロピーの連続性境界を確立する。 次に条件付きフォン・ノイマンエントロピーに対して、条件付きサブシステムの次元を含まない純度距離の観点から一様連続性境界を求める。 さらに、相対エントロピー距離、量子相互情報、量子条件相互情報といった他のエントロピー量に対する一様連続性境界を導出する。 応用として, 純度に対する赤道絡みのばらつきについて検討する。 また、量子マルコフ連鎖に任意に近接する量子状態の量子条件相互情報に対する有界値を得る。

In quantum information theory, communication capacities are mostly given in terms of entropic formulas. Continuity of such entropic quantities are significant, as they ensure uniformity of measures against perturbations of quantum states. Traditionally, continuity bounds have been provided in terms of the trace distance, which is a bonafide metric on the set of quantum states. In the present contribution we derive continuity bounds for various information measures based on the difference in purity of the concerned quantum states. In a finite-dimensional system, we establish continuity bounds for von Neumann entropy which depend only on purity distance and dimension of the system. We then obtain uniform continuity bounds for conditional von Neumann entropy in terms of purity distance which is free of the dimension of the conditioning subsystem. Furthermore, we derive the uniform continuity bounds for other entropic quantities like relative entropy distance, quantum mutual information and quantum conditional mutual information. As an application, we investigate the variation in squashed entanglement with respect to purity. We also obtain a bound to the quantum conditional mutual information of a quantum state which is arbitrarily close to a quantum Markov chain.
翻訳日:2023-07-18 21:40:29 公開日:2023-07-17
# gpsを現実世界のデータに適用するためのフレームワーク、intuition

Beyond Intuition, a Framework for Applying GPs to Real-World Data ( http://arxiv.org/abs/2307.03093v2 )

ライセンス: Link先を確認
Kenza Tazi, Jihao Andreas Lin, Ross Viljoen, Alex Gardner, ST John, Hong Ge, Richard E. Turner(参考訳) Gaussian Processs (GP) は、小さな、構造化された、相関したデータセットに対する回帰の魅力的な方法を提供する。 しかし、それらの展開は計算コストと単純な低次元データセットを超えてGPを適用する方法に関する限られたガイドラインによって妨げられている。 本稿では,ある問題に対するGPの適合性を同定する枠組みと,頑健で明確なGPモデルの構築方法を提案する。 このガイドラインは、経験豊富なGP実践者の決定を定式化し、カーネル設計と計算スケーラビリティのオプションに重点を置いている。 この枠組みは氷河の標高変化のケーススタディに適用され、テスト時により正確な結果が得られる。

Gaussian Processes (GPs) offer an attractive method for regression over small, structured and correlated datasets. However, their deployment is hindered by computational costs and limited guidelines on how to apply GPs beyond simple low-dimensional datasets. We propose a framework to identify the suitability of GPs to a given problem and how to set up a robust and well-specified GP model. The guidelines formalise the decisions of experienced GP practitioners, with an emphasis on kernel design and options for computational scalability. The framework is then applied to a case study of glacier elevation change yielding more accurate results at test time.
翻訳日:2023-07-18 19:56:39 公開日:2023-07-17
# PIGNet2: 結合親和性検査と仮想スクリーニングのための深層学習に基づくタンパク質-リガンド相互作用予測モデル

PIGNet2: A Versatile Deep Learning-based Protein-Ligand Interaction Prediction Model for Binding Affinity Scoring and Virtual Screening ( http://arxiv.org/abs/2307.01066v2 )

ライセンス: Link先を確認
Seokhyun Moon, Sang-Yeon Hwang, Jaechang Lim, and Woo Youn Kim(参考訳) タンパク質-リガンド相互作用の予測(PLI)は、標的タンパク質に効果的に結合する分子の同定と最適化を導くため、薬物発見において重要な役割を果たす。 深層学習に基づくPLI予測の顕著な進歩にもかかわらず、結合親和性を正確に評価し、効率的な仮想スクリーニングを行う汎用モデルの開発は依然として課題である。 これを実現する上での大きな障害は、既存のモデルの一般化能力を制限する実験的な構造親和性データの不足にある。 本稿では,新しいデータ拡張戦略とグラフニューラルネットワークを組み合わせることで,この課題に対処するための有効な解決策を提案する。 このモデルは、スコアとスクリーニングの両方において大きな改善を示し、デリバティブベンチマークを含む様々なテストでタスク固有のディープラーニングモデルよりもパフォーマンスが向上し、特に、遠距離確率学習に基づく最先端のパフォーマンスに匹敵する結果を達成した。 これは薬物発見へのこのアプローチの可能性を示している。

Prediction of protein-ligand interactions (PLI) plays a crucial role in drug discovery as it guides the identification and optimization of molecules that effectively bind to target proteins. Despite remarkable advances in deep learning-based PLI prediction, the development of a versatile model capable of accurately scoring binding affinity and conducting efficient virtual screening remains a challenge. The main obstacle in achieving this lies in the scarcity of experimental structure-affinity data, which limits the generalization ability of existing models. Here, we propose a viable solution to address this challenge by introducing a novel data augmentation strategy combined with a physics-informed graph neural network. The model showed significant improvements in both scoring and screening, outperforming task-specific deep learning models in various tests including derivative benchmarks, and notably achieving results comparable to the state-of-the-art performance based on distance likelihood learning. This demonstrates the potential of this approach to drug discovery.
翻訳日:2023-07-18 19:55:26 公開日:2023-07-17
# 短期交通流予測のためのハイブリッド隠れマルコフLSTM

Hybrid hidden Markov LSTM for short-term traffic flow prediction ( http://arxiv.org/abs/2307.04954v2 )

ライセンス: Link先を確認
Agnimitra Sengupta, Adway Das, S. Ilgin Guler(参考訳) 深層学習(DL)法は,交通管理に不可欠な交通変数の短期的・短期的な予測において,過去の平均値,ARIMA,変種などのパラメトリックモデルよりも優れている。 具体的には、リカレントニューラルネットワーク(RNN)とその変種(例えば長期記憶)は、長期の時間的相関を維持するように設計されているため、モデリングシーケンスに適している。 しかし、マルチレジームモデルは、異なる特徴を持つ複数の状態(例えば、自由フロー、トラフィックの混雑)を通して交通システムを進化させると仮定し、それぞれの状態内の交通力学を特徴付けるために個別のモデルを訓練する。 例えば、構造同定のための隠れマルコフモデル(HMM)を用いたマルコフスイッチングモデルは、複雑な動的パターンと非定常性を捉えることができる。 興味深いことに、HMMとLSTMの両方は、潜伏状態変数の集合から観測シーケンスをモデル化するのに使うことができる。 LSTMでは、潜時変数は現在の観測値と以前の潜時変数から決定論的に計算されるが、HMMでは潜時変数の集合はマルコフ連鎖である。 自然言語処理の研究に触発されて,交通データに補完的な特徴を学習可能なハイブリッド隠れマルコフ-LSTMモデルが提案されている。 その結果,markov switching arima や lstm といった従来の手法と比較して,ハイブリッドアーキテクチャによる性能向上がみられた。

Deep learning (DL) methods have outperformed parametric models such as historical average, ARIMA and variants in predicting traffic variables into short and near-short future, that are critical for traffic management. Specifically, recurrent neural network (RNN) and its variants (e.g. long short-term memory) are designed to retain long-term temporal correlations and therefore are suitable for modeling sequences. However, multi-regime models assume the traffic system to evolve through multiple states (say, free-flow, congestion in traffic) with distinct characteristics, and hence, separate models are trained to characterize the traffic dynamics within each regime. For instance, Markov-switching models with a hidden Markov model (HMM) for regime identification is capable of capturing complex dynamic patterns and non-stationarity. Interestingly, both HMM and LSTM can be used for modeling an observation sequence from a set of latent or, hidden state variables. In LSTM, the latent variable is computed in a deterministic manner from the current observation and the previous latent variable, while, in HMM, the set of latent variables is a Markov chain. Inspired by research in natural language processing, a hybrid hidden Markov-LSTM model that is capable of learning complementary features in traffic data is proposed for traffic flow prediction. Results indicate significant performance gains in using hybrid architecture compared to conventional methods such as Markov switching ARIMA and LSTM.
翻訳日:2023-07-18 19:46:23 公開日:2023-07-17
# ECS - データ品質保証のためのインタラクティブツール

ECS -- an Interactive Tool for Data Quality Assurance ( http://arxiv.org/abs/2307.04368v2 )

ライセンス: Link先を確認
Christian Sieberichs, Simon Geerkens, Alexander Braun, Thomas Waschulzik(参考訳) 機械学習システムの能力の増大と安全性クリティカルなシステムでの潜在的利用により、高品質なデータを確保することがますます重要になっている。 本稿では,データ品質の保証のための新しいアプローチを提案する。 この目的のために、まず数学的基礎を議論し、そのアプローチを複数の例を用いて示す。 これにより、安全クリティカルシステムにおいて、潜在的に有害な性質を持つデータポイントが検出される。

With the increasing capabilities of machine learning systems and their potential use in safety-critical systems, ensuring high-quality data is becoming increasingly important. In this paper we present a novel approach for the assurance of data quality. For this purpose, the mathematical basics are first discussed and the approach is presented using multiple examples. This results in the detection of data points with potentially harmful properties for the use in safety-critical systems.
翻訳日:2023-07-18 19:45:34 公開日:2023-07-17
# 可視赤外ビデオパーソン再同定のための対向的自己攻撃防御と空間的時間的関係マイニング

Adversarial Self-Attack Defense and Spatial-Temporal Relation Mining for Visible-Infrared Video Person Re-Identification ( http://arxiv.org/abs/2307.03903v2 )

ライセンス: Link先を確認
Huafeng Li, Le Xu, Yafei Zhang, Dapeng Tao, Zhengtao Yu(参考訳) 可視赤外ビデオパーソナライゼーション(re-ID)では、複雑なシーン(モダリティ、カメラビュー、歩行者ポーズ、背景など)の変化の影響を受けない特徴を抽出し、移動情報をマイニングし活用することが、横断的歩行者識別マッチングの鍵となる。 そこで本研究では,新たな視点,すなわち対人自己攻撃防衛と時空間関係のマイニングの観点から,新しい可視赤外ビデオパーソンre-ID手法を提案する。 本研究では,視点,姿勢,背景,モーダルの不一致の変化が,人物のアイデンティティ特徴の摂動を引き起こす主な要因であると考えられる。 トレーニングサンプルに含まれるそのような干渉情報は、対向摂動として使用される。 トレーニング中にre-idモデルに対して敵対的な攻撃を行い、これらの不利な要因に対してモデルをより堅牢にする。 敵の摂動からの攻撃は、入力サンプルに含まれる干渉情報を敵のサンプルを発生させることなく活性化し、敵の自己攻撃(adversarial self-ack)と呼ばれる。 この設計により、敵の攻撃と防御を一つのフレームワークに統合できる。 本稿では,映像列における情報を利用する空間-時間情報案内特徴表現ネットワークを提案する。 ネットワークは、ビデオフレームシーケンスに含まれる情報を抽出するだけでなく、空間内のローカル情報の関係を利用してネットワークをガイドし、より堅牢な特徴を抽出する。 提案手法は,大規模なクロスモダリティビデオデータセットにおいて魅力的な性能を示す。 提案手法のソースコードはhttps://github.com/lhf12278/xxxで公開される。

In visible-infrared video person re-identification (re-ID), extracting features not affected by complex scenes (such as modality, camera views, pedestrian pose, background, etc.) changes, and mining and utilizing motion information are the keys to solving cross-modal pedestrian identity matching. To this end, the paper proposes a new visible-infrared video person re-ID method from a novel perspective, i.e., adversarial self-attack defense and spatial-temporal relation mining. In this work, the changes of views, posture, background and modal discrepancy are considered as the main factors that cause the perturbations of person identity features. Such interference information contained in the training samples is used as an adversarial perturbation. It performs adversarial attacks on the re-ID model during the training to make the model more robust to these unfavorable factors. The attack from the adversarial perturbation is introduced by activating the interference information contained in the input samples without generating adversarial samples, and it can be thus called adversarial self-attack. This design allows adversarial attack and defense to be integrated into one framework. This paper further proposes a spatial-temporal information-guided feature representation network to use the information in video sequences. The network cannot only extract the information contained in the video-frame sequences but also use the relation of the local information in space to guide the network to extract more robust features. The proposed method exhibits compelling performance on large-scale cross-modality video datasets. The source code of the proposed method will be released at https://github.com/lhf12278/xxx.
翻訳日:2023-07-18 19:43:53 公開日:2023-07-17
# 長いステップを通したより高速なグラディエント染料

Provably Faster Gradient Descent via Long Steps ( http://arxiv.org/abs/2307.06324v3 )

ライセンス: Link先を確認
Benjamin Grimmer(参考訳) 本研究は, コンピュータ支援解析手法により, 勾配降下の収束速度を向上させる。 本理論は、多くの反復の全体的な効果を、ほとんどの一階法分析で使われる典型的な単文帰納法ではなく、一度に分析することにより、頻繁な長いステップでポリシーを段階化することを可能にする。 短期的に客観的な価値を高めるための長いステップは、長期的には確実により早く収束することを示している。 勾配降下のより高速な$O(1/T\log T)$レートを証明するための予想も、単純な数値検証と共に動機付けられる。

This work establishes provably faster convergence rates for gradient descent via a computer-assisted analysis technique. Our theory allows nonconstant stepsize policies with frequent long steps potentially violating descent by analyzing the overall effect of many iterations at once rather than the typical one-iteration inductions used in most first-order method analyses. We show that long steps, which may increase the objective value in the short term, lead to provably faster convergence in the long term. A conjecture towards proving a faster $O(1/T\log T)$ rate for gradient descent is also motivated along with simple numerical validation.
翻訳日:2023-07-18 19:37:15 公開日:2023-07-17
# ニューウェル理論に基づく時空間交通予測のための特徴変換

Newell's theory based feature transformations for spatio-temporal traffic prediction ( http://arxiv.org/abs/2307.05949v2 )

ライセンス: Link先を確認
Agnimitra Sengupta, S. Ilgin Guler(参考訳) 時空間トラフィックフロー予測のための深層学習(DL)モデルは、畳み込みフィルタやグラフ畳み込みフィルタを用いて、トラフィックデータの空間的および時間的依存関係をキャプチャする。 これらのモデル、例えばCNN-LSTMは、近隣の検出器ステーションからのトラフィックフローを利用して、特定の場所でのフローを予測する。 しかしながら、これらのモデルは、主に検出器の構成と目標位置における交通特性に特有の特徴を学習するため、交通システムのより広範なダイナミクスを捉える能力に制限がある。 したがって、モデルトレーニングのために新しい場所でデータが利用できない場合、これらのモデルの異なる場所への転送が困難になる。 この制限に対処するため,時空間DLモデルのための交通流物理に基づく特徴変換を提案する。 この変換は、Newellの、ターゲットの場所でのトラフィックフローの非混雑状態推定器を組み込んで、モデルがシステムのより広範なダイナミクスを学習できるようにする。 提案手法は,2つの異なる場所からのトラヒックデータを用いて実証的に検証する。 その結果,提案した特徴変換は,より優れた適合性統計値によって示されるように,異なる予測地平線上での交通流予測におけるモデルの性能を向上させることを示した。 私たちのフレームワークの重要な利点は、データが利用できない新しい場所に転送できることです。 これは駅距離や様々な交通パラメータに基づいて空間依存度を適切に計算することで達成される。 対照的に、通常のDLモデルは入力が固定されているため容易に転送できない。 注意すべきは、データ制限のため、空間感度分析は行えず、シミュレーションデータを用いたさらなる研究が要求されたことである。

Deep learning (DL) models for spatio-temporal traffic flow forecasting employ convolutional or graph-convolutional filters along with recurrent neural networks to capture spatial and temporal dependencies in traffic data. These models, such as CNN-LSTM, utilize traffic flows from neighboring detector stations to predict flows at a specific location of interest. However, these models are limited in their ability to capture the broader dynamics of the traffic system, as they primarily learn features specific to the detector configuration and traffic characteristics at the target location. Hence, the transferability of these models to different locations becomes challenging, particularly when data is unavailable at the new location for model training. To address this limitation, we propose a traffic flow physics-based feature transformation for spatio-temporal DL models. This transformation incorporates Newell's uncongested and congested-state estimators of traffic flows at the target locations, enabling the models to learn broader dynamics of the system. Our methodology is empirically validated using traffic data from two different locations. The results demonstrate that the proposed feature transformation improves the models' performance in predicting traffic flows over different prediction horizons, as indicated by better goodness-of-fit statistics. An important advantage of our framework is its ability to be transferred to new locations where data is unavailable. This is achieved by appropriately accounting for spatial dependencies based on station distances and various traffic parameters. In contrast, regular DL models are not easily transferable as their inputs remain fixed. It should be noted that due to data limitations, we were unable to perform spatial sensitivity analysis, which calls for further research using simulated data.
翻訳日:2023-07-18 19:37:04 公開日:2023-07-17
# 9-bメモリセルを組み込んだ137.5TOPS/W SRAMコンピュートインメモリマクロとAIエッジ応用のための信号マージン向上技術

A 137.5 TOPS/W SRAM Compute-in-Memory Macro with 9-b Memory Cell-Embedded ADCs and Signal Margin Enhancement Techniques for AI Edge Applications ( http://arxiv.org/abs/2307.05944v2 )

ライセンス: Link先を確認
Xiaomeng Wang, Fengshi Tian, Xizi Chen, Jiakun Zheng, Xuejiao Liu, Fengbin Tu, Jie Yang, Mohamad Sawan, Kwang-Ting (Tim) Cheng, Chi-Ying Tsui(参考訳) 本稿では、4x4ビットMAC演算を行い、9ビット符号付き出力を出力できる高精度SRAMベースのCIMマクロを提案する。 SRAMセルの固有の放電枝を用いて、2ビット線キャパシタに時間変調MACおよび9ビットADC読み出し動作を適用する。 同じ原理がMACとA-to-Dの変換にも使われ、高い線形性を確保し、多くのアナログMAC蓄積をサポートする。 メモリセル埋め込みADCは、別々のADCの使用を排除し、エネルギーと面積効率を高める。 さらに,CIMの計算精度を向上させるために,MAC折り畳み方式とブーストクリッピング方式の2つの信号マージン向上手法を提案する。

In this paper, we propose a high-precision SRAM-based CIM macro that can perform 4x4-bit MAC operations and yield 9-bit signed output. The inherent discharge branches of SRAM cells are utilized to apply time-modulated MAC and 9-bit ADC readout operations on two bit-line capacitors. The same principle is used for both MAC and A-to-D conversion ensuring high linearity and thus supporting large number of analog MAC accumulations. The memory cell-embedded ADC eliminates the use of separate ADCs and enhances energy and area efficiency. Additionally, two signal margin enhancement techniques, namely the MAC-folding and boosted-clipping schemes, are proposed to further improve the CIM computation accuracy.
翻訳日:2023-07-18 19:36:37 公開日:2023-07-17
# Rad-ReStruct: 構造化ラジオロジーレポートのための新しいVQAベンチマークと方法

Rad-ReStruct: A Novel VQA Benchmark and Method for Structured Radiology Reporting ( http://arxiv.org/abs/2307.05766v3 )

ライセンス: Link先を確認
Chantal Pellegrini, Matthias Keicher, Ege \"Ozsoy, Nassir Navab(参考訳) 放射線医学の報告は、放射線医と他の医療専門家の間でのコミュニケーションにおいて重要な部分であるが、時間とエラーの危険性がある。 これを軽減する1つのアプローチは構造化レポートであり、これは時間を節約し、自由テキストレポートよりも正確な評価を可能にする。 しかし、構造化レポートの自動化に関する研究は限られており、異なる方法を評価し比較するための公開ベンチマークは提供されていない。 このギャップを埋めるために、X線画像の構造化レポートの形式で微細で階層的に順序付けられたアノテーションを提供する新しいベンチマークデータセットRad-ReStructを導入する。 本稿では,階層的視覚的質問応答 (VQA) として構造化された報告課題をモデル化し,従来質問されていた質問や回答の形式で事前の文脈を考察する手法であるhi-VQAを提案する。 実験の結果,Hu-VQAは,医用VQAベンチマークVQARADにおいて,ドメイン固有の視覚言語事前学習を伴わない手法の中で最高の性能を示し,Rad-Reructの強力なベースラインを提供する。 我々の研究は、構造化放射線学レポートの自動化に向けた重要な一歩であり、この分野における将来の研究のための貴重な第1のベンチマークを提供する。 アノテーションの生成、モデル評価、トレーニングのためのすべてのアノテーションとコードを、受け入れ次第公開します。 データセットとコードはhttps://github.com/ChantalMP/Rad-ReStruct.comから入手可能です。

Radiology reporting is a crucial part of the communication between radiologists and other medical professionals, but it can be time-consuming and error-prone. One approach to alleviate this is structured reporting, which saves time and enables a more accurate evaluation than free-text reports. However, there is limited research on automating structured reporting, and no public benchmark is available for evaluating and comparing different methods. To close this gap, we introduce Rad-ReStruct, a new benchmark dataset that provides fine-grained, hierarchically ordered annotations in the form of structured reports for X-Ray images. We model the structured reporting task as hierarchical visual question answering (VQA) and propose hi-VQA, a novel method that considers prior context in the form of previously asked questions and answers for populating a structured radiology report. Our experiments show that hi-VQA achieves competitive performance to the state-of-the-art on the medical VQA benchmark VQARad while performing best among methods without domain-specific vision-language pretraining and provides a strong baseline on Rad-ReStruct. Our work represents a significant step towards the automated population of structured radiology reports and provides a valuable first benchmark for future research in this area. We will make all annotations and our code for annotation generation, model evaluation, and training publicly available upon acceptance. Our dataset and code is available at https://github.com/ChantalMP/Rad-ReStruct.
翻訳日:2023-07-18 19:36:21 公開日:2023-07-17
# xAIによるAIループの人間と視覚検査のためのアクティブラーニング

Human in the AI loop via xAI and Active Learning for Visual Inspection ( http://arxiv.org/abs/2307.05508v2 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec and Elias Montini and Vincenzo Cutrona and Dimitrios Papamartzivanos and Timotej Klemen\v{c}i\v{c} and Bla\v{z} Fortuna and Dunja Mladeni\'c and Entso Veliou and Thanassis Giannetsos and Christos Emmanouilidis(参考訳) 産業革命は歴史的に製造業を混乱させてきた。 自動化の増大は、人間労働者の役割を再形作る。 ロボットと人工知能の進歩は、人間と機械のコラボレーションの新たなフロンティアを開く。 このようなコラボレーションは、アクティブラーニングと説明可能な人工知能の2つのサブフィールドを考慮して実現することができる。 active learningは、機械学習アルゴリズムをより良く学習できるデータを得るための戦略を考案することを目的としている。 一方、説明可能な人工知能は、機械学習モデルを人間にインテリジェントにすることを目指している。 本研究はまず,産業5.0,人間と機械のコラボレーション,品質検査に関する最先端技術について述べる。 そして、視覚検査において人間と機械のコラボレーションをどのように実現し、強化するかを概説する。 最後に、EU H2020 STARプロジェクトで得られた成果のいくつかは、人工知能、人間のデジタルツイン、サイバーセキュリティを考慮して共有されている。

Industrial revolutions have historically disrupted manufacturing by introducing automation into production. Increasing automation reshapes the role of the human worker. Advances in robotics and artificial intelligence open new frontiers of human-machine collaboration. Such collaboration can be realized considering two sub-fields of artificial intelligence: active learning and explainable artificial intelligence. Active learning aims to devise strategies that help obtain data that allows machine learning algorithms to learn better. On the other hand, explainable artificial intelligence aims to make the machine learning models intelligible to the human person. The present work first describes Industry 5.0, human-machine collaboration, and state-of-the-art regarding quality inspection, emphasizing visual inspection. Then it outlines how human-machine collaboration could be realized and enhanced in visual inspection. Finally, some of the results obtained in the EU H2020 STAR project regarding visual inspection are shared, considering artificial intelligence, human digital twins, and cybersecurity.
翻訳日:2023-07-18 19:35:53 公開日:2023-07-17
# RoPDA:ローソース名前付きエンティティ認識のためのロバストプロンプトに基づくデータ拡張

RoPDA: Robust Prompt-based Data Augmentation for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2307.07417v2 )

ライセンス: Link先を確認
Sihan Song, Furao Shen, Jian Zhao(参考訳) データ拡張は低リソースのNERタスクで広く使われ、データの分散性の問題に対処している。 しかしながら、以前のデータ拡張手法は、構文構造、トークンラベルミスマッチ、外部知識や手作業の要件を乱すという欠点がある。 これらの問題に対処するため、低リソースNERのためのRoPDA(Roust Prompt-based Data Augmentation)を提案する。 継続的なプロンプトを持つ事前学習言語モデル(PLM)に基づいて、RoPDAは5つの基本的な拡張操作を通じてエンティティ拡張とコンテキスト拡張を行い、ラベルフリップとラベル保存の例を生成する。 拡張サンプルの利用を最適化するために, 自己整合性フィルタとミックスアップという2つの手法を提案する。 前者は低品質サンプルを効果的に除去し、後者はラベルフライングサンプルの直接利用による性能低下を防止する。 異なる領域からの3つのベンチマークによる大規模な実験により、RoPDAは強いベースラインを著しく改善し、ラベルなしデータを含む場合、最先端の半教師付き学習手法よりも優れていることが示された。

Data augmentation has been widely used in low-resource NER tasks to tackle the problem of data sparsity. However, previous data augmentation methods have the disadvantages of disrupted syntactic structures, token-label mismatch, and requirement for external knowledge or manual effort. To address these issues, we propose Robust Prompt-based Data Augmentation (RoPDA) for low-resource NER. Based on pre-trained language models (PLMs) with continuous prompt, RoPDA performs entity augmentation and context augmentation through five fundamental augmentation operations to generate label-flipping and label-preserving examples. To optimize the utilization of the augmented samples, we present two techniques: Self-Consistency Filtering and mixup. The former effectively eliminates low-quality samples, while the latter prevents performance degradation arising from the direct utilization of label-flipping samples. Extensive experiments on three benchmarks from different domains demonstrate that RoPDA significantly improves upon strong baselines, and also outperforms state-of-the-art semi-supervised learning methods when unlabeled data is included.
翻訳日:2023-07-18 19:26:06 公開日:2023-07-17
# 混合整数計画のための文脈対応切削平面選択アルゴリズム

A Context-Aware Cutting Plane Selection Algorithm for Mixed-Integer Programming ( http://arxiv.org/abs/2307.07322v2 )

ライセンス: Link先を確認
Mark Turner, Timo Berthold, Mathieu Besan\c{c}on(参考訳) 混合整数型プログラムソルバで使われる現在のカット選択アルゴリズムは、その作成以来ほとんど変わっていない。 本稿では,MIPLIB 2017ベンチマークセットに対するSCIPの性能改善を図るため,新しいカット評価手法,カットフィルタリング手法,および停止基準のセットを提案し,現状のアルゴリズムを拡張した。

The current cut selection algorithm used in mixed-integer programming solvers has remained largely unchanged since its creation. In this paper, we propose a set of new cut scoring measures, cut filtering techniques, and stopping criteria, extending the current state-of-the-art algorithm and obtaining a 5\% performance improvement for SCIP over the MIPLIB 2017 benchmark set.
翻訳日:2023-07-18 19:25:45 公開日:2023-07-17
# 知識強化:医学的コントラストビジョン-言語前訓練の再考

Knowledge Boosting: Rethinking Medical Contrastive Vision-Language Pre-Training ( http://arxiv.org/abs/2307.07246v2 )

ライセンス: Link先を確認
Xiaofei Chen, Yuting He, Cheng Xue, Rongjun Ge, Shuo Li, Guanyu Yang(参考訳) 事前学習技術に基づく基礎モデルは、理論的から実用的な応用へと大幅に進歩した。 これらのモデルにより、コンピュータ支援診断が普及しやすくなっている。 人間のアノテーションを必要としない医用コントラスト言語事前学習は、診断報告における記述情報を用いた表現学習の指導に有効な手法である。 しかし,前訓練の有効性は,医療分野における意味の重なりや問題の変化によって制限される。 そこで本研究では, 臨床知識と視覚言語意味的一貫性の学習を融合した知識ブースティング・コントラスト・ビジョン言語事前学習フレームワーク(kobo)を提案する。 このフレームワークは、負のサンプルノイズを測定し、視覚言語間の相互情報と臨床知識の対応を補うために、バイアスのないオープンセットのサンプル知識表現を使用する。 広範な実験により,分類,セグメンテーション,検索,意味的関連性を含む8つのタスクに対するフレームワークの効果を検証し,ゼロショットあるいは少数ショット設定で同等あるいは優れたパフォーマンスを実現する。 私たちのコードはhttps://github.com/ChenXiaoFei-CS/KoBo.comで公開されています。

The foundation models based on pre-training technology have significantly advanced artificial intelligence from theoretical to practical applications. These models have facilitated the feasibility of computer-aided diagnosis for widespread use. Medical contrastive vision-language pre-training, which does not require human annotations, is an effective approach for guiding representation learning using description information in diagnostic reports. However, the effectiveness of pre-training is limited by the large-scale semantic overlap and shifting problems in medical field. To address these issues, we propose the Knowledge-Boosting Contrastive Vision-Language Pre-training framework (KoBo), which integrates clinical knowledge into the learning of vision-language semantic consistency. The framework uses an unbiased, open-set sample-wise knowledge representation to measure negative sample noise and supplement the correspondence between vision-language mutual information and clinical knowledge. Extensive experiments validate the effect of our framework on eight tasks including classification, segmentation, retrieval, and semantic relatedness, achieving comparable or better performance with the zero-shot or few-shot settings. Our code is open on https://github.com/ChenXiaoFei-CS/KoBo.
翻訳日:2023-07-18 19:25:39 公開日:2023-07-17
# CeRF:光モデリングの導出による新しいビュー合成のための畳み込みニューラルラジアンス場

CeRF: Convolutional Neural Radiance Fields for New View Synthesis with Derivatives of Ray Modeling ( http://arxiv.org/abs/2307.07125v2 )

ライセンス: Link先を確認
Xiaoyan Yang, Dingbo Lu, Yang Li, Chenhui Li, Changbo Wang(参考訳) 近年,高忠実度画像の生成において,新しいビュー合成が普及している。 新規なビューを合成するタスクにおいて優れた性能を示す一方で、これらの手法の大部分は、シーン埋め込みのための従来の多層パーセプトロンに基づいている。 さらに、光電界モデルでは画素レンダリング中に幾何的なぼやけが生じ、放射場に基づくボリュームレンダリング法は密度分布積分の特定のターゲットに対して複数の解を持つ。 これらの問題に対処するために、光線に沿った放射の微分をモデル化する畳み込みニューラルレイディアンス場を導入する。 提案手法は, 1次元畳み込み演算に基づいて, 構造化ニューラルネットワークアーキテクチャによる潜在的光線表現を効果的に抽出する。 さらに,提案するレイモデリングでは,完全なニューラルネットワークレンダリングプロセスにおける幾何学的曖昧さを解決するために,再帰的モジュールが用いられる。 既存の最先端手法と比較して,提案手法の有望な結果を示した。

In recent years, novel view synthesis has gained popularity in generating high-fidelity images. While demonstrating superior performance in the task of synthesizing novel views, the majority of these methods are still based on the conventional multi-layer perceptron for scene embedding. Furthermore, light field models suffer from geometric blurring during pixel rendering, while radiance field-based volume rendering methods have multiple solutions for a certain target of density distribution integration. To address these issues, we introduce the Convolutional Neural Radiance Fields to model the derivatives of radiance along rays. Based on 1D convolutional operations, our proposed method effectively extracts potential ray representations through a structured neural network architecture. Besides, with the proposed ray modeling, a proposed recurrent module is employed to solve geometric ambiguity in the fully neural rendering process. Extensive experiments demonstrate the promising results of our proposed model compared with existing state-of-the-art methods.
翻訳日:2023-07-18 19:25:18 公開日:2023-07-17
# DataAssist: データクリーニングと準備のための機械学習アプローチ

DataAssist: A Machine Learning Approach to Data Cleaning and Preparation ( http://arxiv.org/abs/2307.07119v2 )

ライセンス: Link先を確認
Kartikay Goyle, Quin Xie and Vakul Goyle(参考訳) 現在の自動機械学習(ML)ツールはモデル中心であり、モデル選択とパラメータ最適化に重点を置いている。 しかし、データ分析のほとんどの時間はデータのクリーニングとラングリングに費やされており、限られたツールが利用可能である。 ここでは、MLインフォームド手法を用いてデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームであるDataAssistを紹介する。 データAssistは、ユーザ選択変数の可視化生成、データアノテーションの統一、異常除去の提案、データの事前処理など、探索データ分析とデータのクリーニングのためのパイプラインを提供する。 エクスポートされたデータセットは、ダウンストリーム分析のために他のautomlツールやユーザ指定モデルと容易に統合できる。 データ中心のツールは、経済学、ビジネス、予測アプリケーションなど、さまざまな分野に適用できます。

Current automated machine learning (ML) tools are model-centric, focusing on model selection and parameter optimization. However, the majority of the time in data analysis is devoted to data cleaning and wrangling, for which limited tools are available. Here we present DataAssist, an automated data preparation and cleaning platform that enhances dataset quality using ML-informed methods. We show that DataAssist provides a pipeline for exploratory data analysis and data cleaning, including generating visualization for user-selected variables, unifying data annotation, suggesting anomaly removal, and preprocessing data. The exported dataset can be readily integrated with other autoML tools or user-specified model for downstream analysis. Our data-centric tool is applicable to a variety of fields, including economics, business, and forecasting applications saving over 50% time of the time spent on data cleansing and preparation.
翻訳日:2023-07-18 19:25:02 公開日:2023-07-17
# Parmesan:教育のための数学的概念抽出

Parmesan: mathematical concept extraction for education ( http://arxiv.org/abs/2307.06699v2 )

ライセンス: Link先を確認
Jacob Collard, Valeria de Paiva, Eswaran Subrahmanian(参考訳) 数学は高度に専門化された分野であり、自然言語処理の研究は限られている。 しかし、数学は様々な分野で使われ、多くの異なる分野における多分野の研究は、しばしば数学的概念の理解に依存している。 他分野の研究者を支援するために, カテゴリー理論の分野に着目し, 文脈における数学的概念の探索と定義を行うためのプロトタイプシステムを開発した。 このシステムは、概念抽出、関係抽出、定義抽出、エンティティリンクを含む自然言語処理コンポーネントに依存している。 本システムの開発において,既存の手法はカテゴリ理論の領域に直接適用できないことを示し,時間とともに進化していくことを期待しながら,うまく機能するハイブリッド手法を提案する。 また,それぞれの論文とウィキページをベースとしたプロトタイプシステムを利用した2つのクリーンな数学的コーパスも提供する。 コーパスには依存性ツリー、レムマ、音声タグが注釈付けされている。

Mathematics is a highly specialized domain with its own unique set of challenges that has seen limited study in natural language processing. However, mathematics is used in a wide variety of fields and multidisciplinary research in many different domains often relies on an understanding of mathematical concepts. To aid researchers coming from other fields, we develop a prototype system for searching for and defining mathematical concepts in context, focusing on the field of category theory. This system, Parmesan, depends on natural language processing components including concept extraction, relation extraction, definition extraction, and entity linking. In developing this system, we show that existing techniques cannot be applied directly to the category theory domain, and suggest hybrid techniques that do perform well, though we expect the system to evolve over time. We also provide two cleaned mathematical corpora that power the prototype system, which are based on journal articles and wiki pages, respectively. The corpora have been annotated with dependency trees, lemmas, and part-of-speech tags.
翻訳日:2023-07-18 19:24:27 公開日:2023-07-17
# 生成モデルによるゼロショット画像調和

Zero-Shot Image Harmonization with Generative Model Prior ( http://arxiv.org/abs/2307.08182v1 )

ライセンス: Link先を確認
Jianqi Chen, Zhengxia Zou, Yilan Zhang, Keyan Chen, Zhenwei Shi(参考訳) 最近の画像調和手法は有望な結果を示している。 しかし、多くの合成画像に依存するため、これらの作品は訓練段階で高価であり、しばしば目に見えない画像への一般化に失敗している。 本稿では,人間の行動からの教訓を抽出し,ゼロショット画像調和法を考案する。 具体的には、調和化過程において、人間は、主に、調和した画像に長期間の事前利用を行い、それに近い合成画像を作成する。 そこで本研究では,自然画像に先立って事前学習した生成モデルを用いる。 調和方向の指導のために,画像環境を適切に表現するために最適化された注意制約テキストを提案する。 前景のコンテンツ構造を保存するために、さらにいくつかの設計が導入された。 結果として生じる枠組みは、人間の行動と極めて整合性があり、負担のかかるトレーニングを伴わずに調和した結果が得られる。 広範な実験により,本手法の有効性が実証され,興味深い応用例も検討した。

Recent image harmonization methods have demonstrated promising results. However, due to their heavy reliance on a large number of composite images, these works are expensive in the training phase and often fail to generalize to unseen images. In this paper, we draw lessons from human behavior and come up with a zero-shot image harmonization method. Specifically, in the harmonization process, a human mainly utilizes his long-term prior on harmonious images and makes a composite image close to that prior. To imitate that, we resort to pretrained generative models for the prior of natural images. For the guidance of the harmonization direction, we propose an Attention-Constraint Text which is optimized to well illustrate the image environments. Some further designs are introduced for preserving the foreground content structure. The resulting framework, highly consistent with human behavior, can achieve harmonious results without burdensome training. Extensive experiments have demonstrated the effectiveness of our approach, and we have also explored some interesting applications.
翻訳日:2023-07-18 15:14:46 公開日:2023-07-17
# 大規模言語モデルを用いたIDE内情報提供

In-IDE Generation-based Information Support with a Large Language Model ( http://arxiv.org/abs/2307.08177v1 )

ライセンス: Link先を確認
Daye Nam and Andrew Macvean and Vincent Hellendoorn and Bogdan Vasilescu and Brad Myers(参考訳) 開発者はしばしば、高品質なソフトウェアシステムの構築とメンテナンスに不可欠であるコード理解の課題に直面します。 コードコメントとドキュメンテーションは、コードにいくつかのコンテキストを提供するが、しばしば不足または欠落する。 この課題は、大規模言語モデル(LLM)ベースのコード生成ツールの台頭によって、さらに深刻化している。 馴染みのないコードを理解するために、ほとんどのソフトウェア開発者は、様々なプログラミング情報リソースを検索するために汎用検索エンジンに依存している。 最近では、開発者は、よりカスタマイズされたレスポンスを提供するだけでなく、開発者がテキストインターフェイスを介してLLMにかなりの量のコンテキストを通信する必要があるため、よりオーバーヘッドを発生させるChatGPTのような、LLMを使ったオンラインチャットボットに切り替えている。 本研究では,IDE内のLLMベースの会話UIについて検討する。 我々は、開発者がクエリに答えるために自動的にプログラムコンテキストを活用するという点で、文脈的に認識されているLLMで動くツールの約束と障害を理解することを目的としている。 この目的のために我々は,OpenAI の GPT-3.5 や GPT-4 などのバックエンドに対して,強調されたコードセクションの説明,重要なドメイン固有の用語の説明,API の利用例の提供など,高レベルの要求をクエリ可能な IDE プラグインを開発した。 本研究は,32名を対象に探索的ユーザ調査を行い,その有用性と有効性,およびこのllmを活用した情報支援ツールの利用における個人の嗜好を理解する。 本研究は,本手法がWeb検索よりもコード理解の効率化に有効であることを確認したが,参加者の体験レベルによってメリットの程度が異なっていた。

Developers often face challenges in code understanding, which is crucial for building and maintaining high-quality software systems. Code comments and documentation can provide some context for the code, but are often scarce or missing. This challenge has become even more pressing with the rise of large language model (LLM) based code generation tools. To understand unfamiliar code, most software developers rely on general-purpose search engines to search through various programming information resources, which often requires multiple iterations of query rewriting and information foraging. More recently, developers have turned to online chatbots powered by LLMs, such as ChatGPT, which can provide more customized responses but also incur more overhead as developers need to communicate a significant amount of context to the LLM via a textual interface. In this study, we provide the investigation of an LLM-based conversational UI in the IDE. We aim to understand the promises and obstacles for tools powered by LLMs that are contextually aware, in that they automatically leverage the developer's programming context to answer queries. To this end, we develop an IDE Plugin that allows users to query back-ends such as OpenAI's GPT-3.5 and GPT-4 with high-level requests, like: explaining a highlighted section of code, explaining key domain-specific terms, or providing usage examples for an API. We conduct an exploratory user study with 32 participants to understand the usefulness and effectiveness, as well as individual preferences in the usage of, this LLM-powered information support tool. The study confirms that this approach can aid code understanding more effectively than web search, but the degree of the benefit differed by participants' experience levels.
翻訳日:2023-07-18 15:14:33 公開日:2023-07-17
# 表層教師付き機械学習モデルの性能と解釈性の多目的最適化

Multi-Objective Optimization of Performance and Interpretability of Tabular Supervised Machine Learning Models ( http://arxiv.org/abs/2307.08175v1 )

ライセンス: Link先を確認
Lennart Schneider, Bernd Bischl, Janek Thomas(参考訳) 本稿では,教師付き機械学習モデルの予測性能と解釈性を共同で最適化するモデル非依存フレームワークを提案する。 解釈性は、特徴スパース性、特徴の相互作用スパース性、非単調特徴効果のスパース性という3つの尺度によって定量化される。 機械学習アルゴリズムのハイパーパラメータ最適化を多目的最適化問題として扱うことにより,単一最適化実行で高い性能と解釈の容易さをトレードオフする多様なモデルを生成することができる。 超パラメータ探索空間に特徴選択、相互作用、単調性制約を組み込むことにより、学習アルゴリズムの探索空間の強化により効率的な最適化を実現する。 最適化問題は,最適単調性制約と学習アルゴリズム自体の最適ハイパーパラメータの発見とともに,モデル内での相互作用を許容する選択された特徴群のパレート最適集合の発見に有効であることを示す。 次に,この拡張探索空間上で効率的に動作可能な新しい進化アルゴリズムを提案する。 ベンチマーク実験において,我々のフレームワークは,性能と解釈可能性の両面において,最先端のXGBoostや説明可能なブースティングマシンモデルよりも優れた,高い競争力を持つ多様なモデルを見つけることができることを示した。

We present a model-agnostic framework for jointly optimizing the predictive performance and interpretability of supervised machine learning models for tabular data. Interpretability is quantified via three measures: feature sparsity, interaction sparsity of features, and sparsity of non-monotone feature effects. By treating hyperparameter optimization of a machine learning algorithm as a multi-objective optimization problem, our framework allows for generating diverse models that trade off high performance and ease of interpretability in a single optimization run. Efficient optimization is achieved via augmentation of the search space of the learning algorithm by incorporating feature selection, interaction and monotonicity constraints into the hyperparameter search space. We demonstrate that the optimization problem effectively translates to finding the Pareto optimal set of groups of selected features that are allowed to interact in a model, along with finding their optimal monotonicity constraints and optimal hyperparameters of the learning algorithm itself. We then introduce a novel evolutionary algorithm that can operate efficiently on this augmented search space. In benchmark experiments, we show that our framework is capable of finding diverse models that are highly competitive or outperform state-of-the-art XGBoost or Explainable Boosting Machine models, both with respect to performance and interpretability.
翻訳日:2023-07-18 15:14:04 公開日:2023-07-17
# 音声要素による音声認識に対するステルスバックドア攻撃に向けて

Towards Stealthy Backdoor Attacks against Speech Recognition via Elements of Sound ( http://arxiv.org/abs/2307.08208v1 )

ライセンス: Link先を確認
Hanbo Cai, Pengcheng Zhang, Hai Dong, Yan Xiao, Stefanos Koffas, Yiming Li(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、音声認識の様々な応用に広く採用され、導入されている。 最近、いくつかの研究がこれらのモデルがバックドア攻撃に弱いことを明らかにしており、敵はトレーニングプロセスに毒を加えて悪意ある予測行動を被害者モデルに埋め込むことができる。 本稿では,音声認識に対する毒素のみのバックドア攻撃を再検討する。 トリガーパターンは人間や機械検出に認識できるため,既存の手法はステルス性がないことが明らかとなった。 この制限は主に、トリガーパターンが単純なノイズまたは分離可能で独特なクリップであるためである。 これらの発見に動機づけられて、我々は音の要素(例えば、ピッチと音色)を利用してよりステルスで効果的な毒のみのバックドア攻撃を設計することを提案する。 具体的には、トリガーとして短時間の高ピッチ信号を挿入し、ステルスなピッチベーストリガーを設計するための「マスク」に残音声クリップのピッチを拡大する。 我々は、被害者音声の音色特性を操り、ステルス音色に基づく攻撃を設計し、マルチバックドア攻撃を容易にするための音声プリント選択モジュールを設計する。 我々の攻撃はより「自然」な毒のサンプルを生成できるため、よりステルス性が高い。 ベンチマークデータセットでは、さまざまな設定($、all-to-one、all-to-all、clean-label、 physical、multi-backdoorなど)における攻撃の有効性とステルス性を検証する、広範な実験が行われています。 主な実験を再現するコードは \url{https://github.com/hanbocai/badspeech_soe} で入手できる。

Deep neural networks (DNNs) have been widely and successfully adopted and deployed in various applications of speech recognition. Recently, a few works revealed that these models are vulnerable to backdoor attacks, where the adversaries can implant malicious prediction behaviors into victim models by poisoning their training process. In this paper, we revisit poison-only backdoor attacks against speech recognition. We reveal that existing methods are not stealthy since their trigger patterns are perceptible to humans or machine detection. This limitation is mostly because their trigger patterns are simple noises or separable and distinctive clips. Motivated by these findings, we propose to exploit elements of sound ($e.g.$, pitch and timbre) to design more stealthy yet effective poison-only backdoor attacks. Specifically, we insert a short-duration high-pitched signal as the trigger and increase the pitch of remaining audio clips to `mask' it for designing stealthy pitch-based triggers. We manipulate timbre features of victim audios to design the stealthy timbre-based attack and design a voiceprint selection module to facilitate the multi-backdoor attack. Our attacks can generate more `natural' poisoned samples and therefore are more stealthy. Extensive experiments are conducted on benchmark datasets, which verify the effectiveness of our attacks under different settings ($e.g.$, all-to-one, all-to-all, clean-label, physical, and multi-backdoor settings) and their stealthiness. The code for reproducing main experiments are available at \url{https://github.com/HanboCai/BadSpeech_SoE}.
翻訳日:2023-07-18 15:03:49 公開日:2023-07-17
# 2量子ビット射影計測による相関光子マター系の量子ディスコードダイナミクスの研究

Investigating the quantum discord dynamics in the correlated photon-matter system by using two-qubit projective measurement ( http://arxiv.org/abs/2307.08207v1 )

ライセンス: Link先を確認
Miao Hui-hui(参考訳) 本稿では,tavis-cummings-hubbardモデルから修正した複素相関光子マター系における量子ディスコードダイナミクスについて検討する。 従来より観測されたサブシステム上での2量子フォン・ノイマン射影計測が採用されている。 ターゲットモデルは2つの水素原子から構成される。 共有結合の形成と破断にはフォノンの生成と消滅が伴う。 この複雑な系の量子ディスコードダイナミクスの研究は、1つの2レベル原子からなる単純な量子システムにとってより困難である。 我々は、より複雑な量子系の将来の研究の基礎として量子相関の正則性を特定し、核トンネル効果、共有結合強度、光子とフォノンの消散強度が量子不協和性に与える影響について研究する。 クローズドシステムとオープンシステムの両方について研究を行った。

In this paper, we try to study the quantum discord dynamics in a complex correlated photon-matter system, which is modified from the Tavis-Cummings-Hubbard model. Compared with previous efforts, we adopt the two-qubit von Neumann projective measurement on the observed subsystem. The target model consists of two hydrogen atoms. The formation and breaking of covalent bond is accompanied by the creation and annihilation of phonon. Studying the quantum discord dynamics of this complicated system is more challenging than it was for the simple quantum system, which consisted of a single two-level atom. We are dedicated to identifying the regularity of quantum correlation as the basis for future research on more complex quantum systems, and researching the impacts of nuclei tunneling effect, covalent bond intensity, and dissipation strengths of photon and phonon on quantum discord. We have conducted research on both closed and open systems, respectively.
翻訳日:2023-07-18 15:03:21 公開日:2023-07-17
# 物体検出と分類のための量子畳み込みニューラルネットワークアプローチ

A Quantum Convolutional Neural Network Approach for Object Detection and Classification ( http://arxiv.org/abs/2307.08204v1 )

ライセンス: Link先を確認
Gowri Namratha Meedinti, Kandukuri Sai Srirekha and Radhakrishnan Delhibabu(参考訳) 本稿では,量子畳み込みニューラルネットワーク(qcnns)のポテンシャルを,古典畳み込みニューラルネットワーク(cnns)および人工/古典ニューラルネットワーク(ann)モデルと比較して包括的に評価する。 データ量の増加に伴い、cnnのような計算手法をリアルタイムに活用することが困難になっている。 qcnnsはこの課題を克服し、量子ビットを利用して量子環境でデータを表現し、cnn構造を量子コンピュータに適用する。 QCNNの時間と精度は、バッチサイズや入力サイズといった異なる条件下での古典的なCNNやANNモデルと比較される。 これらのパラメータの観点からQCNNが扱える最大複雑性レベルについても検討した。 この分析によると、QCNNは、特定のアプリケーションの正確性と効率の観点から、古典的なCNNとANNモデルの両方を上回り、機械学習分野における強力なツールとしての彼らの約束を証明している。

This paper presents a comprehensive evaluation of the potential of Quantum Convolutional Neural Networks (QCNNs) in comparison to classical Convolutional Neural Networks (CNNs) and Artificial / Classical Neural Network (ANN) models. With the increasing amount of data, utilizing computing methods like CNN in real-time has become challenging. QCNNs overcome this challenge by utilizing qubits to represent data in a quantum environment and applying CNN structures to quantum computers. The time and accuracy of QCNNs are compared with classical CNNs and ANN models under different conditions such as batch size and input size. The maximum complexity level that QCNNs can handle in terms of these parameters is also investigated. The analysis shows that QCNNs have the potential to outperform both classical CNNs and ANN models in terms of accuracy and efficiency for certain applications, demonstrating their promise as a powerful tool in the field of machine learning.
翻訳日:2023-07-18 15:03:06 公開日:2023-07-17
# 無バイアス画像生成のための拡散モデルにおけるマニフォールドガイドサンプリング

Manifold-Guided Sampling in Diffusion Models for Unbiased Image Generation ( http://arxiv.org/abs/2307.08199v1 )

ライセンス: Link先を確認
Xingzhe Su, Wenwen Qiang, Zeen Song, Hang Gao, Fengge Wu, Changwen Zheng(参考訳) 拡散モデルは高品質な画像を生成することができる強力な生成モデルのクラスであるが、それらはデータバイアスに悩まされる。 データバイアスは、トレーニングデータがデータドメインの真の分布を反映せず、歪んだパターンや不均衡なパターンを示すときに発生する。 例えば、CelebAデータセットは男性イメージよりも女性イメージが多いため、バイアスのある生成結果をもたらし、下流アプリケーションに影響を与える可能性がある。 本稿では,拡散モデルにおけるデータバイアスを軽減するための新しい手法を提案する。 我々のキーとなる考え方は、学習可能な情報理論アプローチを用いてトレーニングデータの多様体を推定し、拡散モデルのサンプリングプロセスを導くことである。 このようにして、モデルアーキテクチャを変更したり、ラベルや再トレーニングを必要とすることなく、生成されたイメージをデータ多様体上に均一に分散させるように促すことができる。 本手法は,標準拡散モデルと比較して画像生成の品質と不偏性を向上させることができることを示すための理論的解析と実証的証拠を提供する。

Diffusion models are a powerful class of generative models that can produce high-quality images, but they may suffer from data bias. Data bias occurs when the training data does not reflect the true distribution of the data domain, but rather exhibits some skewed or imbalanced patterns. For example, the CelebA dataset contains more female images than male images, which can lead to biased generation results and affect downstream applications. In this paper, we propose a novel method to mitigate data bias in diffusion models by applying manifold guidance. Our key idea is to estimate the manifold of the training data using a learnable information-theoretic approach, and then use it to guide the sampling process of diffusion models. In this way, we can encourage the generated images to be uniformly distributed on the data manifold, without changing the model architecture or requiring labels or retraining. We provide theoretical analysis and empirical evidence to show that our method can improve the quality and unbiasedness of image generation compared to standard diffusion models.
翻訳日:2023-07-18 15:02:49 公開日:2023-07-17
# 特徴アップサンプリングにおけるポイントアフィリエレーションについて

On Point Affiliation in Feature Upsampling ( http://arxiv.org/abs/2307.08198v1 )

ライセンス: Link先を確認
Wenze Liu, Hao Lu, Yuliang Liu, Zhiguo Cao(参考訳) 機能アップサンプリングにおいて,ポイントアフィリエーションの概念を導入する。 特徴マップを同一の意味のポイントによって形成されたオーバーラップしないセマンティッククラスタに抽象化することにより、特徴のアップサンプリングをポイントアフィリエイト(point affiliation)とみなすことができる。 カーネルベースの動的アップサンプリングの枠組みでは、アップサンプリングされたポイントは、その低レゾルデコーダ近傍と高レゾルエンコーダのエンコーダポイントを頼りにして、それらの相互の類似性を条件としてアフィリエーションを推論できることが示されている。 したがって、類似性を考慮したアップサンプリングカーネルを生成する汎用的な定式化を行い、そのようなカーネルが意味的滑らかさだけでなく境界のシャープネスも促進することを示す。 この定式化は、新しくて軽量で普遍的なアップサンプリングソリューションであるSimisity-Aware Point Affiliation (SAPA)を構成する。 ウィンドウ形状カーネルを用いた予備設計により,その動作機構を示す。 オブジェクト検出に関する設計の限界を検証した後、アップサンプリングのさらなる洞察を明らかにし、動的なカーネル形状を持つSAPAに導いた。 大規模な実験では、SAPAは事前のアップサンプラーよりも優れており、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、パノスコープセグメンテーション、画像マッチング、深度推定など、多くの密集した予測タスクにおいて一貫したパフォーマンス改善を招いている。 コードは、https://github.com/tiny-smart/sapaで入手できる。

We introduce the notion of point affiliation into feature upsampling. By abstracting a feature map into non-overlapped semantic clusters formed by points of identical semantic meaning, feature upsampling can be viewed as point affiliation -- designating a semantic cluster for each upsampled point. In the framework of kernel-based dynamic upsampling, we show that an upsampled point can resort to its low-res decoder neighbors and high-res encoder point to reason the affiliation, conditioned on the mutual similarity between them. We therefore present a generic formulation for generating similarity-aware upsampling kernels and prove that such kernels encourage not only semantic smoothness but also boundary sharpness. This formulation constitutes a novel, lightweight, and universal upsampling solution, Similarity-Aware Point Affiliation (SAPA). We show its working mechanism via our preliminary designs with window-shape kernel. After probing the limitations of the designs on object detection, we reveal additional insights for upsampling, leading to SAPA with the dynamic kernel shape. Extensive experiments demonstrate that SAPA outperforms prior upsamplers and invites consistent performance improvements on a number of dense prediction tasks, including semantic segmentation, object detection, instance segmentation, panoptic segmentation, image matting, and depth estimation. Code is made available at: https://github.com/tiny-smart/sapa
翻訳日:2023-07-18 15:02:31 公開日:2023-07-17
# ニューラル・デベロップメントプログラムによる自己組織化型ニューラルネットワーク

Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs ( http://arxiv.org/abs/2307.08197v1 )

ライセンス: Link先を確認
Elias Najarro, Shyam Sudhakaran, Sebastian Risi(参考訳) 生物学的神経系は、現在のニューラルネットワークとは根本的に異なる方法で作られる。 さまざまなドメインで印象的な結果が得られたにも関わらず、ディープラーニングは高いパフォーマンスのニューラルアーキテクチャを設計するのにかなりのエンジニアリングの労力を必要とすることが多い。 対照的に、生物学的神経系は動的自己組織化過程を通じて成長する。 本稿では,生物の胚発生の鍵となる特性を反映した発達過程を通じて成長するニューラルネットワークの初期段階について述べる。 成長プロセスは、NDP(Neural Developmental Program)と呼ばれる別のニューラルネットワークによってガイドされ、ローカル通信のみを介して実行される。 異なる機械学習ベンチマークと異なる最適化手法(進化的トレーニング、オンラインRL、オフラインRL、教師あり学習)における神経成長の役割について検討する。 さらに,ニューラルネットワークの成長を駆動する自己組織化を実現するための今後の研究の方向性と機会を強調した。

Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.
翻訳日:2023-07-18 15:02:03 公開日:2023-07-17
# HOPE:ブラックボックスニューラルネットワークの高次多項式展開

HOPE: High-order Polynomial Expansion of Black-box Neural Networks ( http://arxiv.org/abs/2307.08192v1 )

ライセンス: Link先を確認
Tingxiong Xiao, Weihang Zhang, Yuxiao Cheng, Jinli Suo(参考訳) その顕著な性能にもかかわらず、ディープニューラルネットワークはほとんど'ブラックボックス'のままであり、不正確性を示し、合理的な決定を必要とする分野における幅広い応用を妨げている。 本稿では,参照入力における高次テイラー多項式へのネットワーク拡張手法であるHOPE(High-order Polynomial Expansion)を紹介する。 具体的には、複合関数の高階微分規則を導出し、その規則をニューラルネットワークに拡張して高階微分を迅速かつ正確に得る。 これらの微分から、ニューラルネットワークのテイラー多項式を導出し、ネットワークの局所的な解釈を明示的に表現することができる。 数値解析により,提案手法の高精度化,計算複雑性の低さ,収束性が確認された。 さらに,関数発見,高速な推論,機能選択など,ディープラーニングを基盤とするhopeの広範なアプリケーションについても紹介する。 コードはhttps://github.com/HarryPotterXTX/HOPE.gitで公開されている。

Despite their remarkable performance, deep neural networks remain mostly ``black boxes'', suggesting inexplicability and hindering their wide applications in fields requiring making rational decisions. Here we introduce HOPE (High-order Polynomial Expansion), a method for expanding a network into a high-order Taylor polynomial on a reference input. Specifically, we derive the high-order derivative rule for composite functions and extend the rule to neural networks to obtain their high-order derivatives quickly and accurately. From these derivatives, we can then derive the Taylor polynomial of the neural network, which provides an explicit expression of the network's local interpretations. Numerical analysis confirms the high accuracy, low computational complexity, and good convergence of the proposed method. Moreover, we demonstrate HOPE's wide applications built on deep learning, including function discovery, fast inference, and feature selection. The code is available at https://github.com/HarryPotterXTX/HOPE.git.
翻訳日:2023-07-18 15:01:49 公開日:2023-07-17
# 量子コンピューティングにおけるllmの可能性を解き放つ:量子アーキテクチャ設計の研究

Unleashing the Potential of LLMs for Quantum Computing: A Study in Quantum Architecture Design ( http://arxiv.org/abs/2307.08191v1 )

ライセンス: Link先を確認
Zhiding Liang, Jinglei Cheng, Rui Yang, Hang Ren, Zhixin Song, Di Wu, Xuehai Qian, Tongyang Li, Yiyu Shi(参考訳) 大言語モデル(LLM)は会話型AIの開発に大きく貢献し、様々な分野の科学研究を支援する大きな可能性を持っている。 本稿では, 生成事前学習型変圧器(GPT)の現世代が, ノイズの多い中間規模量子(NISQ)技術の開発にどのような機会をもたらすか, という課題に対処する。 さらに、次世代のGPTは、フォールトトレラント量子コンピューティング(FTQC)の研究のフロンティアを推し進めるために、どのような可能性を持っているのだろうか? 本稿では,量子化学や量子ファイナンスタスクを含むアプリケーションベンチマークを用いて,有望なアンサッツアーキテクチャを迅速に提案し,評価するQGASモデルを実装した。 提案手法では,提案手法を適用すれば,最先端の量子アーキテクチャ探索手法で達成された比較結果が得られる高性能なansatzが得られることを示す。 本研究は、現在のGPTの限界を同時に強調しながら、量子コンピューティング研究を支援するためのGPTの機能の概要を提供する。 さらに,LLMの量子研究への応用についても論じる。

Large Language Models (LLMs) contribute significantly to the development of conversational AI and has great potentials to assist the scientific research in various areas. This paper attempts to address the following questions: What opportunities do the current generation of generative pre-trained transformers (GPTs) offer for the developments of noisy intermediate-scale quantum (NISQ) technologies? Additionally, what potentials does the forthcoming generation of GPTs possess to push the frontier of research in fault-tolerant quantum computing (FTQC)? In this paper, we implement a QGAS model, which can rapidly propose promising ansatz architectures and evaluate them with application benchmarks including quantum chemistry and quantum finance tasks. Our results demonstrate that after a limited number of prompt guidelines and iterations, we can obtain a high-performance ansatz which is able to produce comparable results that are achieved by state-of-the-art quantum architecture search methods. This study provides a simple overview of GPT's capabilities in supporting quantum computing research while highlighting the limitations of the current GPT at the same time. Additionally, we discuss futuristic applications for LLM in quantum research.
翻訳日:2023-07-18 15:01:33 公開日:2023-07-17
# Mini-Giants: "small"言語モデルとオープンソースWin-Win

Mini-Giants: "Small" Language Models and Open Source Win-Win ( http://arxiv.org/abs/2307.08189v1 )

ライセンス: Link先を確認
Zhengping Zhou, Lezhi Li, Xinxi Chen, Andy Li(参考訳) ChatGPTは驚くべきものです。 しかし、そのような巨大モデルの訓練・改良は違法に高価である。 幸運にも、小さな言語モデルは繁栄し、ますます有能になっている。 これを「ミニジェント」と呼ぶ。 kaggleやmini-giantsのようなオープンソースコミュニティは、技術的に、倫理的に、社会的に、多くの点で勝利するでしょう。 本稿では,小言語モデルを実現するための簡単な背景,小言語モデルの比較研究,評価方法に関する簡単な議論,実世界で最も小言語モデルが必要なアプリケーションシナリオの議論,議論と展望について述べる。

ChatGPT is phenomenal. However, it is prohibitively expensive to train and refine such giant models. Fortunately, small language models are flourishing and becoming more and more competent. We call them "mini-giants". We argue that open source community like Kaggle and mini-giants will win-win in many ways, technically, ethically and socially. In this article, we present a brief yet rich background, discuss how to attain small language models, present a comparative study of small language models and a brief discussion of evaluation methods, discuss the application scenarios where small language models are most needed in the real world, and conclude with discussion and outlook.
翻訳日:2023-07-18 15:01:14 公開日:2023-07-17
# 分散一般化と校正のための事前学習モデル選択に関する実験的検討

An Empirical Investigation of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration ( http://arxiv.org/abs/2307.08187v1 )

ライセンス: Link先を確認
Hiroki Naganuma, Ryuichiro Hataya(参考訳) 分配外一般化タスクの領域では、ファインチューニングが重要な戦略となっている。 学習アルゴリズムの最適化に最も焦点が当てられているが,本研究では,学習前モデル選択が分布外性能や推論の不確実性に与える影響を強調した。 1つのGPUのモデルサイズ制約のバランスをとることで、トレーニング済みのデータセットとモデルパラメータが精度やキャリブレーションエラーといったパフォーマンス指標に与える影響を検討した。 本研究は,事前学習モデル選択の有意な影響を明らかにし,アルゴリズム選択よりも顕著な性能向上を示した。 より大きなモデルは他のモデルよりも優れていたが、記憶と真の一般化のバランスはさらなる研究に値する。 究極的には,分散一般化を促進するために事前学習したモデル選択の重要性を強調する。

In the realm of out-of-distribution generalization tasks, finetuning has risen as a key strategy. While the most focus has been on optimizing learning algorithms, our research highlights the influence of pre-trained model selection in finetuning on out-of-distribution performance and inference uncertainty. Balancing model size constraints of a single GPU, we examined the impact of varying pre-trained datasets and model parameters on performance metrics like accuracy and expected calibration error. Our findings underscore the significant influence of pre-trained model selection, showing marked performance improvements over algorithm choice. Larger models outperformed others, though the balance between memorization and true generalization merits further investigation. Ultimately, our research emphasizes the importance of pre-trained model selection for enhancing out-of-distribution generalization.
翻訳日:2023-07-18 15:01:03 公開日:2023-07-17
# ROFusion:Hybrid Point-wise Radar-Optical Fusionを用いた効率的な物体検出

ROFusion: Efficient Object Detection using Hybrid Point-wise Radar-Optical Fusion ( http://arxiv.org/abs/2307.08233v1 )

ライセンス: Link先を確認
Liu Liu, Shuaifeng Zhi, Zhenhua Du, Li Liu, Xinyu Zhang, Kai Huo, and Weidong Jiang(参考訳) レーダーは、悪天候条件に対する頑丈さと物体の動きを測定する能力のために、自律運転や知的エージェントとして長年使われてきた。 しかし、レーダーベースの知覚は直感的なセンシングデータに苦しめられ、シーンの意味的、構造的な情報が欠落している。 この問題に対処するため,カメラとレーダセンサの融合は低コストで信頼性が高く,保守性も高いトレンド戦略として検討されている。 最近の研究でレーダーポイントの雲や画像の探索方法が研究されているが、レーダー観測における豊富な文脈情報は破棄されている。 本稿では,自律走行シナリオにおける物体検出のためのハイブリッドポイントワイドレーダ・オプティカル融合手法を提案する。 このフレームワークは、マルチモーダルな特徴表現を学習するために統合されたレンジドップラースペクトルと画像の両方からの密集したコンテキスト情報から恩恵を受ける。 さらに,オブジェクト中心座標における物体検出タスクに対処する新しい局所座標定式化を提案する。 その結果、光学画像から得られる情報により、最近の最先端のFFT-RadNet(82.86\%リコール)と比較して、物体検出(97.69\%リコール)における先行的な性能を達成することができた。 アブレーション研究は, 機械が生成する不完全な検出手法の鍵となる設計選択と実用性を検証する。 コードはhttps://github.com/LiuLiu-55/ROFusion.comから入手できる。

Radars, due to their robustness to adverse weather conditions and ability to measure object motions, have served in autonomous driving and intelligent agents for years. However, Radar-based perception suffers from its unintuitive sensing data, which lack of semantic and structural information of scenes. To tackle this problem, camera and Radar sensor fusion has been investigated as a trending strategy with low cost, high reliability and strong maintenance. While most recent works explore how to explore Radar point clouds and images, rich contextual information within Radar observation are discarded. In this paper, we propose a hybrid point-wise Radar-Optical fusion approach for object detection in autonomous driving scenarios. The framework benefits from dense contextual information from both the range-doppler spectrum and images which are integrated to learn a multi-modal feature representation. Furthermore, we propose a novel local coordinate formulation, tackling the object detection task in an object-centric coordinate. Extensive results show that with the information gained from optical images, we could achieve leading performance in object detection (97.69\% recall) compared to recent state-of-the-art methods FFT-RadNet (82.86\% recall). Ablation studies verify the key design choices and practicability of our approach given machine generated imperfect detections. The code will be available at https://github.com/LiuLiu-55/ROFusion.
翻訳日:2023-07-18 14:55:15 公開日:2023-07-17
# 観測データによる対物フェアネスの学習

Learning for Counterfactual Fairness from Observational Data ( http://arxiv.org/abs/2307.08232v1 )

ライセンス: Link先を確認
Jing Ma, Ruocheng Guo, Aidong Zhang, Jundong Li(参考訳) fairness-aware machine learningは、オンライン広告、パーソナライズドレコメンデーション、webアプリケーションにおけるソーシャルメディア分析など、多くのドメインで注目を集めている。 公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。 多くの既存の公正概念の中で、反事実公正は因果的観点から定義される一般的な概念である。 原世界の個々の個体の予測と、センシティブな属性の値が修正された対物世界の予測を比較することで、予測者の公正さを測定する。 カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。 しかし、現実のシナリオでは、根底にある因果モデルはしばしば不明であり、そのような人間の知識の獲得は非常に困難である。 これらのシナリオでは、誤った因果関係モデルが予測者にバイアスをもたらし、不当な予測をもたらすため、未知の信頼性を持つ情報ソースから得られた因果関係モデルや因果関係の発見方法を直接信頼することは危険である。 本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。 具体的には、特定の一般的な仮定の下で、CLAIREは、反実データ拡張と不変ペナルティに基づく表現学習フレームワークにより、センシティブな属性からのバイアスを効果的に軽減する。 合成および実世界の両方のデータセットで行った実験は、対実的公正性と予測性能の両方においてCLAIREの優位性を検証した。

Fairness-aware machine learning has attracted a surge of attention in many domains, such as online advertising, personalized recommendation, and social media analysis in web applications. Fairness-aware machine learning aims to eliminate biases of learning models against certain subgroups described by certain protected (sensitive) attributes such as race, gender, and age. Among many existing fairness notions, counterfactual fairness is a popular notion defined from a causal perspective. It measures the fairness of a predictor by comparing the prediction of each individual in the original world and that in the counterfactual worlds in which the value of the sensitive attribute is modified. A prerequisite for existing methods to achieve counterfactual fairness is the prior human knowledge of the causal model for the data. However, in real-world scenarios, the underlying causal model is often unknown, and acquiring such human knowledge could be very difficult. In these scenarios, it is risky to directly trust the causal models obtained from information sources with unknown reliability and even causal discovery methods, as incorrect causal models can consequently bring biases to the predictor and lead to unfair predictions. In this work, we address the problem of counterfactually fair prediction from observational data without given causal models by proposing a novel framework CLAIRE. Specifically, under certain general assumptions, CLAIRE effectively mitigates the biases from the sensitive attribute with a representation learning framework based on counterfactual data augmentation and an invariant penalty. Experiments conducted on both synthetic and real-world datasets validate the superiority of CLAIRE in both counterfactual fairness and prediction performance.
翻訳日:2023-07-18 14:54:49 公開日:2023-07-17
# ステレオイベントとインテンシティカメラを用いたビデオフレーム補間

Video Frame Interpolation with Stereo Event and Intensity Camera ( http://arxiv.org/abs/2307.08228v1 )

ライセンス: Link先を確認
Chao Ding, Mingyuan Lin, Haijian Zhang, Jianzhuang Liu, Lei Yu(参考訳) ステレオイベント強度カメラの設定は、正確な明るさとテクスチャ情報をキャプチャする低レイテンシと強度カメラを持つイベントカメラの両方の利点を活用するために広く適用されている。 しかし、このようなセットアップは、特に複雑な動きと深さの異なる現実世界のシーンにおいて、特にステレオ修正のみでは排除が困難で、既存のイベントベースのビデオフレーム補間(E-VFI)アプローチでアーティファクトや歪みを装うことが一般的である。 そこで本稿では,2つのキーフレームとイベントストリームからなる不整合入力から,高品質な中間フレームを生成するためのステレオイベントベースvfi(se-vfi)ネットワーク(sevfi-net)を提案する。 具体的には,視差を緩和し,特徴領域における空間的アライメントを実現する機能アグリゲーションモジュール(fam)を提案する。 次に, 正確な光学的流れと不均一性推定を達成し, フローベース, 合成ベースの手法により, より良い補間結果を得る。 また、イベントカメラとRGB-Dカメラを組み合わせたステレオ視覚取得システムを構築し、複雑な動きと様々な深さを持つ多様なシーンを含む新しいステレオイベントインテンシティデータセット(SEID)を収集する。 パブリックな実世界のステレオデータセット(DSECとMVSEC)とSEIDデータセットの実験は、提案したSEVFI-Netが最先端の手法よりも大きなマージンで優れていることを示す。

The stereo event-intensity camera setup is widely applied to leverage the advantages of both event cameras with low latency and intensity cameras that capture accurate brightness and texture information. However, such a setup commonly encounters cross-modality parallax that is difficult to be eliminated solely with stereo rectification especially for real-world scenes with complex motions and varying depths, posing artifacts and distortion for existing Event-based Video Frame Interpolation (E-VFI) approaches. To tackle this problem, we propose a novel Stereo Event-based VFI (SE-VFI) network (SEVFI-Net) to generate high-quality intermediate frames and corresponding disparities from misaligned inputs consisting of two consecutive keyframes and event streams emitted between them. Specifically, we propose a Feature Aggregation Module (FAM) to alleviate the parallax and achieve spatial alignment in the feature domain. We then exploit the fused features accomplishing accurate optical flow and disparity estimation, and achieving better interpolated results through flow-based and synthesis-based ways. We also build a stereo visual acquisition system composed of an event camera and an RGB-D camera to collect a new Stereo Event-Intensity Dataset (SEID) containing diverse scenes with complex motions and varying depths. Experiments on public real-world stereo datasets, i.e., DSEC and MVSEC, and our SEID dataset demonstrate that our proposed SEVFI-Net outperforms state-of-the-art methods by a large margin.
翻訳日:2023-07-18 14:54:27 公開日:2023-07-17
# ユークリッド対称性は強化学習と計画に活用できるのか?

Can Euclidean Symmetry be Leveraged in Reinforcement Learning and Planning? ( http://arxiv.org/abs/2307.08226v1 )

ライセンス: Link先を確認
Linfeng Zhao, Owen Howell, Jung Yeon Park, Xupeng Zhu, Robin Walters, and Lawson L.S. Wong(参考訳) ロボット作業において、参照フレームの変化は、通常、物理的法則の不変(invariance)として知られるシステムの基盤となる物理的性質に影響を与えない。 本研究では,ユークリッド群対称性を持つ強化学習と計画タスクのための改良学習アルゴリズムの設計について考察する。 強化学習,計画,最適制御における離散的および連続的対称性に関する先行研究を統一する理論を提唱した。 アルゴリズム側では、値ベースプランニングによる2次元経路計画をさらに連続的なMDPに拡張し、同変サンプリングベースプランニングアルゴリズムを構築するパイプラインを提案する。 我々の研究は経験的証拠で証明され、自然制御問題に取り組む際のユークリッド対称性に対する等分散の利点を説明する例を通して示される。

In robotic tasks, changes in reference frames typically do not influence the underlying physical properties of the system, which has been known as invariance of physical laws.These changes, which preserve distance, encompass isometric transformations such as translations, rotations, and reflections, collectively known as the Euclidean group. In this work, we delve into the design of improved learning algorithms for reinforcement learning and planning tasks that possess Euclidean group symmetry. We put forth a theory on that unify prior work on discrete and continuous symmetry in reinforcement learning, planning, and optimal control. Algorithm side, we further extend the 2D path planning with value-based planning to continuous MDPs and propose a pipeline for constructing equivariant sampling-based planning algorithms. Our work is substantiated with empirical evidence and illustrated through examples that explain the benefits of equivariance to Euclidean symmetry in tackling natural control problems.
翻訳日:2023-07-18 14:53:57 公開日:2023-07-17
# 大規模言語モデル管理のためのスケーラブルトランザクションストリーム処理のハーネス化 [Vision]

Harnessing Scalable Transactional Stream Processing for Managing Large Language Models [Vision] ( http://arxiv.org/abs/2307.08225v1 )

ライセンス: Link先を確認
Shuhao Zhang, Xianzhi Zeng, Yuhao Wu, Zhonghao Yang(参考訳) 大規模言語モデル(LLM)は、従来の言語処理タスクから時系列データのような構造化シーケンスの解釈に至るまで、幅広いアプリケーションで素晴らしいパフォーマンスを示している。 しかし、迅速なペースでオンライン意思決定環境におけるそれらの効果は、迅速で正確で並行的な応答を必要とする。 本稿では,トランザクションストリーム処理(TSP)とLLM管理を統合し,スケーラビリティと低レイテンシを実現する革命的フレームワークであるTStreamLLMを紹介する。 TSP固有のスケーラビリティ、一貫性、フォールトトレランスを活用することで、TStreamLLMは、継続的かつ並列的なLLM更新と使用を効率的に管理することを目指している。 リアルタイム患者モニタリングやインテリジェントな交通管理といった実用的なユースケースを通じてその可能性を示す。 TSPとLLM管理のシナジーの探索は、AIとデータベース研究における画期的な発展を刺激することができる。 本稿では,この新興分野における課題と機会の包括的概観を提供し,今後の研究開発に向けたロードマップを提示する。

Large Language Models (LLMs) have demonstrated extraordinary performance across a broad array of applications, from traditional language processing tasks to interpreting structured sequences like time-series data. Yet, their effectiveness in fast-paced, online decision-making environments requiring swift, accurate, and concurrent responses poses a significant challenge. This paper introduces TStreamLLM, a revolutionary framework integrating Transactional Stream Processing (TSP) with LLM management to achieve remarkable scalability and low latency. By harnessing the scalability, consistency, and fault tolerance inherent in TSP, TStreamLLM aims to manage continuous & concurrent LLM updates and usages efficiently. We showcase its potential through practical use cases like real-time patient monitoring and intelligent traffic management. The exploration of synergies between TSP and LLM management can stimulate groundbreaking developments in AI and database research. This paper provides a comprehensive overview of challenges and opportunities in this emerging field, setting forth a roadmap for future exploration and development.
翻訳日:2023-07-18 14:53:44 公開日:2023-07-17
# 高品質コード生成のための軽量フレームワーク

A Lightweight Framework for High-Quality Code Generation ( http://arxiv.org/abs/2307.08220v1 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Beatrice Casey, and Joanna C. S. Santos(参考訳) 近年,トランスフォーマーベースの生成モデルを用いた自動ソースコード生成の利用が拡大し,開発者の要求に応じて機能コードを生成することができるようになった。 しかし、最近の研究により、これらの自動生成ソースコードには脆弱性やその他の品質上の問題が含まれていることが判明した。 研究者や実践者がコード生成モデルを強化しようとする試みにもかかわらず、リトレーニングと微調整の大規模な言語モデルは時間とリソースを消費する。 そこで本稿では,transformer ベースのコード生成モデルから派生した,よりセキュアで高品質なソースコードを推奨する軽量フレームワーク franc について述べる。 FRANCには、生成したコードをヒューリスティックでコンパイル可能にする静的フィルタと、品質スコアに基づいてコードスニペットをソートする品質対応のローカが含まれている。 さらに、このフレームワークは、プロンプトエンジニアリングを使用して永続的な品質問題を解決する。 私たちはこのフレームワークを5つのpythonとjavaのコード生成モデルと6つのプロンプトデータセットで評価しました。 静的フィルタにより、9%から46%のjava提案と10%から43%のpython提案のコンパイル性が向上した。 ランキングシステムのNDCG@10スコアに対する平均的な改善は0.0763であり、修復技術は最も高い80%のプロンプトを修復する。 FRANCは平均でJavaで1.98秒、Pythonでは0.08秒である。

In recent years, the use of automated source code generation utilizing transformer-based generative models has expanded, and these models can generate functional code according to the requirements of the developers. However, recent research revealed that these automatically generated source codes can contain vulnerabilities and other quality issues. Despite researchers' and practitioners' attempts to enhance code generation models, retraining and fine-tuning large language models is time-consuming and resource-intensive. Thus, we describe FRANC, a lightweight framework for recommending more secure and high-quality source code derived from transformer-based code generation models. FRANC includes a static filter to make the generated code compilable with heuristics and a quality-aware ranker to sort the code snippets based on a quality score. Moreover, the framework uses prompt engineering to fix persistent quality issues. We evaluated the framework with five Python and Java code generation models and six prompt datasets, including a newly created one in this work (SOEval). The static filter improves 9% to 46% Java suggestions and 10% to 43% Python suggestions regarding compilability. The average improvement over the NDCG@10 score for the ranking system is 0.0763, and the repairing techniques repair the highest 80% of prompts. FRANC takes, on average, 1.98 seconds for Java; for Python, it takes 0.08 seconds.
翻訳日:2023-07-18 14:53:27 公開日:2023-07-17
# 非エルミート確率行列と開量子系の特異値統計

Singular-value statistics of non-Hermitian random matrices and open quantum systems ( http://arxiv.org/abs/2307.08218v1 )

ライセンス: Link先を確認
Kohei Kawabata, Zhenyu Xiao, Tomi Ohtsuki, Ryuichi Shindou(参考訳) 非エルミート確率行列のスペクトル統計は、開量子系におけるカオス的振る舞いの診断ツールとして重要である。 本稿では,非エルミート確率行列における特異値の統計的性質を,散逸的量子カオスを定量化する有効な尺度として検討する。 エルミティゼーションにより、複素固有値統計学と区別する特異値統計学の独特な特徴を明らかにし、非エルミティアン確率行列の38倍対称性クラスに対する特異値統計学の包括的分類を確立する。 また、wigner surmiseと同じスピリットの小さなランダム行列の特異値統計を解析的に導出し、これは大きなランダム行列の統計をよく記述する。 さらに、オープン量子多体系の特異値はランダム行列統計に従い、オープン量子系のカオスと非可積分性を同定することを示した。 我々の研究は、特異値統計が対称性の明確な指標となり、開放量子系の統計物理学の基礎となることを解明している。

The spectral statistics of non-Hermitian random matrices are of importance as a diagnostic tool for chaotic behavior in open quantum systems. Here, we investigate the statistical properties of singular values in non-Hermitian random matrices as an effective measure of quantifying dissipative quantum chaos. By means of Hermitization, we reveal the unique characteristics of the singular-value statistics that distinguish them from the complex-eigenvalue statistics, and establish the comprehensive classification of the singular-value statistics for all the 38-fold symmetry classes of non-Hermitian random matrices. We also analytically derive the singular-value statistics of small random matrices in the same spirit as the Wigner surmise, which well describe those of large random matrices. Furthermore, we demonstrate that singular values of open quantum many-body systems follow the random-matrix statistics, thereby identifying chaos and nonintegrability in open quantum systems. Our work elucidates that the singular-value statistics serve as a clear indicator of symmetry and lay a foundation for statistical physics of open quantum systems.
翻訳日:2023-07-18 14:53:06 公開日:2023-07-17
# BASS:音声要約のためのブロックワイズ適応

BASS: Block-wise Adaptation for Speech Summarization ( http://arxiv.org/abs/2307.08217v1 )

ライセンス: Link先を確認
Roshan Sharma, Kenneth Zheng, Siddhant Arora, Shinji Watanabe, Rita Singh, Bhiksha Raj(参考訳) エンドツーエンドの音声要約は、カスケードベースラインのパフォーマンスを改善することが示されている。 しかし、そのようなモデルは計算制限のため、非常に大きな入力(数分または数時間)で訓練することは困難であり、結果として切り詰められたモデル入力で訓練される。 トランケーションはより貧弱なモデルにつながり、この問題の解決策はブロックワイドなモデリング、すなわち入力フレームの一部を一度に処理することにある。 本稿では,非常に長い列の要約モデルを漸進的に学習する手法を提案する。 音声要約は、新たな音響情報に基づいて各ブロック毎に仮説要約を更新するストリーミングプロセスとして実現される。 ブロック間で意味的コンテキストを渡す戦略を考案し、テストします。 How2データセットの実験により、提案したブロックワイドトレーニング手法は、乱れた入力ベースライン上のROUGE-L上で絶対的に3ポイント向上することを示した。

End-to-end speech summarization has been shown to improve performance over cascade baselines. However, such models are difficult to train on very large inputs (dozens of minutes or hours) owing to compute restrictions and are hence trained with truncated model inputs. Truncation leads to poorer models, and a solution to this problem rests in block-wise modeling, i.e., processing a portion of the input frames at a time. In this paper, we develop a method that allows one to train summarization models on very long sequences in an incremental manner. Speech summarization is realized as a streaming process, where hypothesis summaries are updated every block based on new acoustic information. We devise and test strategies to pass semantic context across the blocks. Experiments on the How2 dataset demonstrate that the proposed block-wise training method improves by 3 points absolute on ROUGE-L over a truncated input baseline.
翻訳日:2023-07-18 14:52:49 公開日:2023-07-17
# forward laplacian:ニューラルネットワークに基づく変分モンテカルロの新しい計算フレームワーク

Forward Laplacian: A New Computational Framework for Neural Network-based Variational Monte Carlo ( http://arxiv.org/abs/2307.08214v1 )

ライセンス: Link先を確認
Ruichen Li, Haotian Ye, Du Jiang, Xuelan Wen, Chuwei Wang, Zhe Li, Xiang Li, Di He, Ji Chen, Weiluo Ren, Liwei Wang(参考訳) ニューラルネットワークに基づく変分モンテカルロ(NN-VMC)は、アブイニシアト量子化学の最先端技術として期待されている。 しかし、既存の手法の計算コストが高く、現実的な化学問題への応用を妨げる。 本稿では,NN-VMC の大規模システムへの適用性を大幅に拡張し,一桁以上の高速化を実現する新しい NN-VMC 手法の開発について報告する。 私たちの重要な設計は、nn-vmcのボトルネックであるニューラルネットワークに関連するラプラシアンを効率的な前方伝播プロセスを通じて計算する、forward laplacianという新しい計算フレームワークです。 次に,前方ラプラシアンは汎用性だけでなく,スパース微分行列の最適化や効率的なニューラルネットワーク設計など,様々な面での加速度法の発展を促進することを実証する。 実験的なアプローチにより、nn-vmcは初めて幅広い原子、分子、化学反応を調査し、他のab initio法への貴重な参照を提供することができる。 その結果,一般量子力学問題に対する深層学習法の適用において大きな可能性が示された。

Neural network-based variational Monte Carlo (NN-VMC) has emerged as a promising cutting-edge technique of ab initio quantum chemistry. However, the high computational cost of existing approaches hinders their applications in realistic chemistry problems. Here, we report the development of a new NN-VMC method that achieves a remarkable speed-up by more than one order of magnitude, thereby greatly extending the applicability of NN-VMC to larger systems. Our key design is a novel computational framework named Forward Laplacian, which computes the Laplacian associated with neural networks, the bottleneck of NN-VMC, through an efficient forward propagation process. We then demonstrate that Forward Laplacian is not only versatile but also facilitates more developments of acceleration methods across various aspects, including optimization for sparse derivative matrix and efficient neural network design. Empirically, our approach enables NN-VMC to investigate a broader range of atoms, molecules and chemical reactions for the first time, providing valuable references to other ab initio methods. The results demonstrate a great potential in applying deep learning methods to solve general quantum mechanical problems.
翻訳日:2023-07-18 14:52:35 公開日:2023-07-17
# Ada3D : 効率的な3Dオブジェクト検出のための適応推論による空間冗長性の爆発

Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detection ( http://arxiv.org/abs/2307.08209v1 )

ライセンス: Link先を確認
Tianchen Zhao, Xuefei Ning, Ke Hong, Zhongyuan Qiu, Pu Lu, Yali Zhao, Linfeng Zhang, Lipu Zhou, Guohao Dai, Huazhong Yang, Yu Wang(参考訳) ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を達成した。 しかし、その計算とメモリの大幅なコストは、資源に制約のある車両への適用に困難をもたらす。 この高い資源消費の理由の1つは、ライダー点雲に多数の冗長な背景点が存在することであり、3Dボクセルと密度の高いBEVマップ表現の両方に空間的冗長性をもたらす。 そこで本研究では,入力レベルの空間冗長性を利用した適応推論フレームワークAda3Dを提案する。 Ada3Dは、軽量な重要予測器とライダー点雲のユニークな特性によって導かれる冗長な入力を適応的にフィルタリングする。 さらに,バッチ正規化を保存するsparsityを導入することで,bevの特徴を生かしたsparsityを利用する。 Ada3Dでは、3Dボクセルの40%の削減を実現し、精度を犠牲にすることなく2D BEV特徴マップの密度を100%から20%に下げる。 Ada3Dはモデル計算とメモリコストを5倍に削減し、それぞれ3Dと2Dのバックボーンに対して1.52x/1.45xのGPUレイテンシと1.5x/4.5xのGPUピークメモリ最適化を実現する。

Voxel-based methods have achieved state-of-the-art performance for 3D object detection in autonomous driving. However, their significant computational and memory costs pose a challenge for their application to resource-constrained vehicles. One reason for this high resource consumption is the presence of a large number of redundant background points in Lidar point clouds, resulting in spatial redundancy in both 3D voxel and dense BEV map representations. To address this issue, we propose an adaptive inference framework called Ada3D, which focuses on exploiting the input-level spatial redundancy. Ada3D adaptively filters the redundant input, guided by a lightweight importance predictor and the unique properties of the Lidar point cloud. Additionally, we utilize the BEV features' intrinsic sparsity by introducing the Sparsity Preserving Batch Normalization. With Ada3D, we achieve 40% reduction for 3D voxels and decrease the density of 2D BEV feature maps from 100% to 20% without sacrificing accuracy. Ada3D reduces the model computational and memory cost by 5x, and achieves 1.52x/1.45x end-to-end GPU latency and 1.5x/4.5x GPU peak memory optimization for the 3D and 2D backbone respectively.
翻訳日:2023-07-18 14:52:16 公開日:2023-07-17
# 時間的摂動を伴う量子イジング鎖のkibble-zurekスケール

Kibble-Zurek scaling in the quantum Ising chain with a time-periodic perturbation ( http://arxiv.org/abs/2307.08253v1 )

ライセンス: Link先を確認
Takayuki Suzuki, Kaito Iwamura(参考訳) 時間-周期摂動を伴う時間依存横場イジングチェーンを考える。 摂動がなければ、このモデルは量子キブル・ズレック機構(QKZM)によって予測される断熱限界のスケーリングに従う有名なモデルの1つである。 しかし, システムに振動を加えると, 非摂動寄与が大きくなり, 摂動が小さい場合でもスケーリングが崩壊する可能性があることが知られている。 そこで, モデル内の欠陥密度を解析的に解析し, 発振がスケーリングに与える影響について検討する。 その結果、非摂動的寄与は断熱限界においてゼロにならないが、スケーリングはQKZMの予測から変化しない。 これはQKZMが摂動に対して堅牢であることを示している。

We consider the time-dependent transverse field Ising chain with time-periodic perturbations. Without perturbations, this model is one of the famous models that obeys the scaling in the adiabatic limit predicted by the quantum Kibble-Zurek mechanism (QKZM). However, it is known that when oscillations are added to the system, the non-perturbative contribution becomes larger and the scaling may break down even if the perturbation is small. Therefore, we analytically analyze the density of defects in the model and discuss how much the oscillations affect the scaling. As a result, although the non-perturbative contribution does not become zero in the adiabatic limit, the scaling does not change from the prediction of the QKZM. This indicates that the QKZM is robust to the perturbations.
翻訳日:2023-07-18 14:45:23 公開日:2023-07-17
# 魚眼カメラによる大規模人物検出と位置推定

Large-Scale Person Detection and Localization using Overhead Fisheye Cameras ( http://arxiv.org/abs/2307.08252v1 )

ライセンス: Link先を確認
Lu Yang, Liulei Li, Xueshi Xin, Yifan Sun, Qing Song, Wenguan Wang(参考訳) 位置決定は日常生活に広く応用される。 本稿では,遠近カメラが捉えた観光写真のローカライズに係わる既存の取り組みに代えて,頭上魚眼カメラを用いた人物位置決めソリューションの開発に焦点をあてる。 このようなソリューションは、大視野(fov)、低コスト、独占禁止、非攻撃的な作業モード(人がカメラを運ぶ必要なしに)において有利である。 しかし、データのポークシティのため、関連する研究は非常に少ない。 このエキサイティングな領域の研究を促進するために,人検出と位置推定のための最初の大規模頭上魚眼データセットであるLOAFを提案する。 LOAFは、多くの重要な機能を持つ。 一 シーン、人間のポーズ、密度及び位置の多様な多様性をカバーすること。 二 現在最大の注釈付歩行者数、即ち、457K箱の接地位置情報を含む。 三 ボディーボックスは、位置決め課題を完全に解決するために、半径整列としてラベル付けされる。 本研究では,魚眼人物検出ネットワークを構築し,魚眼の歪みを回転同値なトレーニング戦略で活用し,エンドツーエンドで半径方向のヒトボックスを予測する。 そして、魚眼モデルとカメラ高度データの数値解により、検出した人物の実際の位置を算出する。 魚眼検出装置w.r.t.の従来手法の優越性を検証し,全魚眼測位液が0.5mの精度でfov内の全人物を0.1秒以内で検出できることを示した。

Location determination finds wide applications in daily life. Instead of existing efforts devoted to localizing tourist photos captured by perspective cameras, in this article, we focus on devising person positioning solutions using overhead fisheye cameras. Such solutions are advantageous in large field of view (FOV), low cost, anti-occlusion, and unaggressive work mode (without the necessity of cameras carried by persons). However, related studies are quite scarce, due to the paucity of data. To stimulate research in this exciting area, we present LOAF, the first large-scale overhead fisheye dataset for person detection and localization. LOAF is built with many essential features, e.g., i) the data cover abundant diversities in scenes, human pose, density, and location; ii) it contains currently the largest number of annotated pedestrian, i.e., 457K bounding boxes with groundtruth location information; iii) the body-boxes are labeled as radius-aligned so as to fully address the positioning challenge. To approach localization, we build a fisheye person detection network, which exploits the fisheye distortions by a rotation-equivariant training strategy and predict radius-aligned human boxes end-to-end. Then, the actual locations of the detected persons are calculated by a numerical solution on the fisheye model and camera altitude data. Extensive experiments on LOAF validate the superiority of our fisheye detector w.r.t. previous methods, and show that our whole fisheye positioning solution is able to locate all persons in FOV with an accuracy of 0.5 m, within 0.1 s.
翻訳日:2023-07-18 14:45:09 公開日:2023-07-17
# ランダムボックスはオープンワールドのオブジェクト検出器

Random Boxes Are Open-world Object Detectors ( http://arxiv.org/abs/2307.08249v1 )

ライセンス: Link先を確認
Yanghao Wang, Zhongqi Yue, Xian-Sheng Hua, Hanwang Zhang(参考訳) ランダム領域の提案により訓練された分類器は最先端のopen-world object detection (owod) を実現する。既知のオブジェクト(w/training labels)の精度を維持するだけでなく、未知のオブジェクト(w/o training labels)のリコールを大幅に改善できる。 具体的には、RandBoxを提案する。RandBoxは、既存のFaster R-CNNとTransformerベースのOWODを上回るランダムな提案に基づいて訓練されたアーキテクチャである。 その効果は、ランダム性によって導入された2つの利点に由来する。 まず、ランダム化が制限された既知のオブジェクトの分布とは独立であるので、ランダムな提案は、既知のオブジェクトによってトレーニングが結合されることを防ぐインストゥルメンタル変数となる。 第2に,予測スコアが既知の対象と一致しないランダムな提案をペナルティ化しないマッチングスコアを用いることにより,非バイアストレーニングによる提案探索が促進される。 Pascal-VOC/MS-COCOとLVISの2つのベンチマークでは、RandBoxはすべてのメトリクスにおいて従来の最先端よりも大幅にパフォーマンスが向上している。 また、ランダム化と損失設計の省略についても詳述する。 コードはhttps://github.com/scuwyh2000/RandBoxで入手できる。

We show that classifiers trained with random region proposals achieve state-of-the-art Open-world Object Detection (OWOD): they can not only maintain the accuracy of the known objects (w/ training labels), but also considerably improve the recall of unknown ones (w/o training labels). Specifically, we propose RandBox, a Fast R-CNN based architecture trained on random proposals at each training iteration, surpassing existing Faster R-CNN and Transformer based OWOD. Its effectiveness stems from the following two benefits introduced by randomness. First, as the randomization is independent of the distribution of the limited known objects, the random proposals become the instrumental variable that prevents the training from being confounded by the known objects. Second, the unbiased training encourages more proposal explorations by using our proposed matching score that does not penalize the random proposals whose prediction scores do not match the known objects. On two benchmarks: Pascal-VOC/MS-COCO and LVIS, RandBox significantly outperforms the previous state-of-the-art in all metrics. We also detail the ablations on randomization and loss designs. Codes are available at https://github.com/scuwyh2000/RandBox.
翻訳日:2023-07-18 14:44:43 公開日:2023-07-17
# PAT:ベトナムにおける視覚質問応答のための並列注意変換器

PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese ( http://arxiv.org/abs/2307.08247v1 )

ライセンス: Link先を確認
Nghia Hieu Nguyen and Kiet Van Nguyen(参考訳) 本稿では,並列注意機構と呼ばれるマルチモーダル学習のための新しい手法を提案する。 さらに,ベトナム語における文法と文脈の利点を考慮し,LSTMネットワークを用いて言語特徴を抽出する代わりに,階層型言語特徴抽出器を提案する。 これら2つの新しいモジュールに基づき、ベンチマークvivqaデータセットおよびsaaaおよびmcanを含むsataメソッドのすべてのベースラインと比較して、最高の精度を達成する並列注意トランスフォーマー(pat)を導入する。

We present in this paper a novel scheme for multimodal learning named the Parallel Attention mechanism. In addition, to take into account the advantages of grammar and context in Vietnamese, we propose the Hierarchical Linguistic Features Extractor instead of using an LSTM network to extract linguistic features. Based on these two novel modules, we introduce the Parallel Attention Transformer (PAT), achieving the best accuracy compared to all baselines on the benchmark ViVQA dataset and other SOTA methods including SAAA and MCAN.
翻訳日:2023-07-18 14:44:20 公開日:2023-07-17
# 非スムース外目的関数を用いた凸二値最適化問題

Convex Bi-Level Optimization Problems with Non-smooth Outer Objective Function ( http://arxiv.org/abs/2307.08245v1 )

ライセンス: Link先を確認
Roey Merchav and Shoham Sabach(参考訳) 本稿では,古典的部分勾配法を凸二段階最適化問題に一般化したBi-Sub-Gradient (Bi-SG)法を提案する。 これは、内部最適化問題における近位勾配ステップに加えて、関連する近位マッピングの計算や、外部非スムート目的関数の下位勾配のみを必要とするという意味で、非常に容易に実装できる一階法である。 非常に軽度な仮定では、Bi-SGは二段階最適化問題に取り組み、内的および外的目的関数の両面において線形レートを達成する。 さらに、外向関数が余分に凸である場合(それでも非滑らかである可能性がある)、外向関数は線形速度に改善できる。 最後に、2レベル問題の最適解の集合への生成列の距離が0に収束することを証明した。

In this paper, we propose the Bi-Sub-Gradient (Bi-SG) method, which is a generalization of the classical sub-gradient method to the setting of convex bi-level optimization problems. This is a first-order method that is very easy to implement in the sense that it requires only a computation of the associated proximal mapping or a sub-gradient of the outer non-smooth objective function, in addition to a proximal gradient step on the inner optimization problem. We show, under very mild assumptions, that Bi-SG tackles bi-level optimization problems and achieves sub-linear rates both in terms of the inner and outer objective functions. Moreover, if the outer objective function is additionally strongly convex (still could be non-smooth), the outer rate can be improved to a linear rate. Last, we prove that the distance of the generated sequence to the set of optimal solutions of the bi-level problem converges to zero.
翻訳日:2023-07-18 14:44:10 公開日:2023-07-17
# エゴセントリック3次元ハンド軌道予測のための不確実性認識状態空間トランス

Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory Forecasting ( http://arxiv.org/abs/2307.08243v1 )

ライセンス: Link先を確認
Wentao Bao, Lele Chen, Libing Zeng, Zhong Li, Yi Xu, Junsong Yuan, Yu Kong(参考訳) 自我中心の視点から手の動きを予測することは、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。 しかし,既存の手法では実世界の3次元アプリケーションでは不十分な2次元画像空間でこの問題に対処している。 本稿では,早期に観察されたRGBビデオから3次元空間における手の動きを予測することを目的とした,エゴセントリックな3次元手指軌跡予測タスクを構築した。 この目的を達成するために,古典的状態空間モデルの枠組みにおける注意機構とアレエータ的不確かさの利点を活かした不確実性認識状態空間トランスフォーマ(usst)を提案する。 このモデルは、大きな視覚トランスフォーマーの速度制約と視覚プロンプトチューニング(vpt)によってさらに強化することができる。 さらに,高品質な3次元ハンドトラジェクトリを収集するためのアノテーションワークフローを開発する。 H2OとEgoPAT3Dデータセットの実験結果は、2次元および3次元軌跡予測におけるUSSTの優位性を示している。 コードとデータセットは、https://github.com/cogito2012/usst。

Hand trajectory forecasting from egocentric views is crucial for enabling a prompt understanding of human intentions when interacting with AR/VR systems. However, existing methods handle this problem in a 2D image space which is inadequate for 3D real-world applications. In this paper, we set up an egocentric 3D hand trajectory forecasting task that aims to predict hand trajectories in a 3D space from early observed RGB videos in a first-person view. To fulfill this goal, we propose an uncertainty-aware state space Transformer (USST) that takes the merits of the attention mechanism and aleatoric uncertainty within the framework of the classical state-space model. The model can be further enhanced by the velocity constraint and visual prompt tuning (VPT) on large vision transformers. Moreover, we develop an annotation workflow to collect 3D hand trajectories with high quality. Experimental results on H2O and EgoPAT3D datasets demonstrate the superiority of USST for both 2D and 3D trajectory forecasting. The code and datasets are publicly released: https://github.com/Cogito2012/USST.
翻訳日:2023-07-18 14:43:54 公開日:2023-07-17
# 遅延制約生成解を用いたリフテッドシーケンス計画

Lifted Sequential Planning with Lazy Constraint Generation Solvers ( http://arxiv.org/abs/2307.08242v1 )

ライセンス: Link先を確認
Anubhav Singh, Miquel Ramirez, Nir Lipovetzky, and Peter J. Stuckey(参考訳) 本稿では,遅延節生成 (lcg) に基づく制約プログラミング (cp) の手法を用いて,逐次的古典的計画に取り組む可能性について検討する。 本稿では,機能と動作スキーマの接地の選択が有効な計画の設計問題に不可欠な部分となるため,計画の満足度を必要としない,いわゆるリフト因果エンコーディングの独創的なアイデアに基づく新しいcpモデルを提案する。 この符号化はフレーム公理を符号化する必要がなく、計画ステップごとに状態が決定変数として明示的に表現されるわけではない。 また,LCGがCSP解決の計画において実現可能であると考えられる推論手法を拡大する可能性を示すプロパゲータ手法を提案する。 我々は古典的IPC上でエンコーディングとプロパゲータをテストし、最近、リフトドプランニングのベンチマークを提案し、計画手順を少なくする計画ケースについて、最適なシーケンシャルプランニングにおける最先端の手法と比較した。

This paper studies the possibilities made open by the use of Lazy Clause Generation (LCG) based approaches to Constraint Programming (CP) for tackling sequential classical planning. We propose a novel CP model based on seminal ideas on so-called lifted causal encodings for planning as satisfiability, that does not require grounding, as choosing groundings for functions and action schemas becomes an integral part of the problem of designing valid plans. This encoding does not require encoding frame axioms, and does not explicitly represent states as decision variables for every plan step. We also present a propagator procedure that illustrates the possibilities of LCG to widen the kind of inference methods considered to be feasible in planning as (iterated) CSP solving. We test encodings and propagators over classic IPC and recently proposed benchmarks for lifted planning, and report that for planning problem instances requiring fewer plan steps our methods compare very well with the state-of-the-art in optimal sequential planning.
翻訳日:2023-07-18 14:43:35 公開日:2023-07-17
# 統一オープンボキャブラリー密集視覚予測

Unified Open-Vocabulary Dense Visual Prediction ( http://arxiv.org/abs/2307.08238v1 )

ライセンス: Link先を確認
Hengcan Shi, Munawar Hayat, Jianfei Cai(参考訳) 近年、オープン語彙(OV)の高密度視覚予測(OVオブジェクトの検出、セマンティック、インスタンス、汎視的セグメンテーションなど)が研究の注目を集めている。 しかし、既存のアプローチのほとんどはタスク固有であり、個別に各タスクに取り組む。 本稿では,4つの共通密度予測課題に共同で対処する統一オープン語彙ネットワーク(UOVN)を提案する。 異なるモデルと比較して、統一されたネットワークは多様な産業用途に望ましい。 また、OV密度予測訓練データも比較的少ない。 個別のネットワークはタスク関連トレーニングデータしか利用できないが、統一されたアプローチでは多様なトレーニングデータを統合して個々のタスクを強化することができる。 統合型OV予測における2つの大きな課題に対処する。 第一に、固定セット予測の統一手法とは異なり、OVネットワークは通常マルチモーダルデータで訓練される。 そこで本稿では,マルチモーダルデータを活用するためのマルチモーダル,マルチスケール,マルチタスク(MMM)デコーディング機構を提案する。 第二に、UOVNは異なるタスクのデータをトレーニングに使っているため、大きなドメインとタスクのギャップがあります。 このようなギャップを減らすためのUOVNトレーニング機構を提案する。 4つのデータセットの実験では、UOVNの有効性が示されている。

In recent years, open-vocabulary (OV) dense visual prediction (such as OV object detection, semantic, instance and panoptic segmentations) has attracted increasing research attention. However, most of existing approaches are task-specific and individually tackle each task. In this paper, we propose a Unified Open-Vocabulary Network (UOVN) to jointly address four common dense prediction tasks. Compared with separate models, a unified network is more desirable for diverse industrial applications. Moreover, OV dense prediction training data is relatively less. Separate networks can only leverage task-relevant training data, while a unified approach can integrate diverse training data to boost individual tasks. We address two major challenges in unified OV prediction. Firstly, unlike unified methods for fixed-set predictions, OV networks are usually trained with multi-modal data. Therefore, we propose a multi-modal, multi-scale and multi-task (MMM) decoding mechanism to better leverage multi-modal data. Secondly, because UOVN uses data from different tasks for training, there are significant domain and task gaps. We present a UOVN training mechanism to reduce such gaps. Experiments on four datasets demonstrate the effectiveness of our UOVN.
翻訳日:2023-07-18 14:43:14 公開日:2023-07-17
# グラフの絡み合った治療における因果関係の検討 : MRSA感染に対する接触の影響について

A Look into Causal Effects under Entangled Treatment in Graphs: Investigating the Impact of Contact on MRSA Infection ( http://arxiv.org/abs/2307.08237v1 )

ライセンス: Link先を確認
Jing Ma, Chen Chen, Anil Vullikanti, Ritwick Mishra, Gregory Madden, Daniel Borrajo, Jundong Li(参考訳) メチシリン耐性黄色ブドウ球菌(Methicillin-resistant Staphylococcus aureus、MRSA)は、特定の抗生物質に耐性を持つ細菌の一種であり、MRSA感染の予防が困難である。 MRSAによる感染症の根絶に向けた数十年の努力の中で, MRSA感染(アウトカム)に対する近接接触(治療)の因果効果を観察データから推定する研究が数多く提案されている。 この問題において、治療割当機構は、因果効果推定の基本的な課題である反事実のパターンを決定する上で重要な役割を果たす。 因果効果学習のための既存の観察的研究のほとんどは、治療が各単位ごとに個別に割り当てられていると仮定している。 しかし、多くの場合、処理はグラフに連結された単位に対してペアで割り当てられ、すなわち異なる単位の処理が絡み合っている。 絡み合った治療法の無視は因果効果の推定を妨げうる。 本稿では,グラフに絡み合った治療による因果効果推定の問題について検討する。 絡み合った治療の探索はいくつかあるが,(1) 絡み合いが未知の治療課題のモデル化と活用に困難をもたらすこと,(2) 因果効果推定にバイアスを生じさせる隠れた共同設立者が存在すること,(3) 観測データが時相変化することがしばしばあること,などの課題により,この問題は依然として困難なままである。 これらの課題に取り組むため,我々は,グラフ構造を明示的に活用して治療割当機構をモデル化し,治療割当モデリングに基づく統合バイアスを緩和する新しい手法を提案する。 また,この手法を動的設定に拡張し,時間変動観測データを処理する。 合成データセットと実世界のMRSAデータセットの両方で実験を行い,提案手法の有効性を検証し,今後の応用に向けた洞察を提供する。

Methicillin-resistant Staphylococcus aureus (MRSA) is a type of bacteria resistant to certain antibiotics, making it difficult to prevent MRSA infections. Among decades of efforts to conquer infectious diseases caused by MRSA, many studies have been proposed to estimate the causal effects of close contact (treatment) on MRSA infection (outcome) from observational data. In this problem, the treatment assignment mechanism plays a key role as it determines the patterns of missing counterfactuals -- the fundamental challenge of causal effect estimation. Most existing observational studies for causal effect learning assume that the treatment is assigned individually for each unit. However, on many occasions, the treatments are pairwisely assigned for units that are connected in graphs, i.e., the treatments of different units are entangled. Neglecting the entangled treatments can impede the causal effect estimation. In this paper, we study the problem of causal effect estimation with treatment entangled in a graph. Despite a few explorations for entangled treatments, this problem still remains challenging due to the following challenges: (1) the entanglement brings difficulties in modeling and leveraging the unknown treatment assignment mechanism; (2) there may exist hidden confounders which lead to confounding biases in causal effect estimation; (3) the observational data is often time-varying. To tackle these challenges, we propose a novel method NEAT, which explicitly leverages the graph structure to model the treatment assignment mechanism, and mitigates confounding biases based on the treatment assignment modeling. We also extend our method into a dynamic setting to handle time-varying observational data. Experiments on both synthetic datasets and a real-world MRSA dataset validate the effectiveness of the proposed method, and provide insights for future applications.
翻訳日:2023-07-18 14:42:49 公開日:2023-07-17
# HeroLT: 異種長期学習のベンチマーク

HeroLT: Benchmarking Heterogeneous Long-Tailed Learning ( http://arxiv.org/abs/2307.08235v1 )

ライセンス: Link先を確認
Haohui Wang, Weijie Guan, Jianpeng Chen, Zi Wang, Dawei Zhou(参考訳) 長期データ配信は、金融、電子商取引、バイオメディカルサイエンス、サイバーセキュリティなど、さまざまな領域で普及している。 このようなシナリオでは、機械学習モデルのパフォーマンスはしばしばヘッドカテゴリによって支配されるが、テールカテゴリの学習は著しく不十分である。 本研究は, 課題を緩和するために実施された豊富な研究を踏まえ, (A1) データの長期性の特徴, (A2) データの複雑さ, (A3) 出現するタスクの不均一性の3点について, 長期学習の体系的視点を提供することを目的とする。 これを実現するために,HeroLTという,最も包括的な(私たちの知る限りの)長期学習ベンチマークを開発した。13の最先端アルゴリズムと6つの評価指標を,3つのドメインから4つのタスクにまたがる14の実世界のベンチマークデータセットに統合する。 新たなアングルと広範な実験(合計264回)を持つHeroLTは、研究者や実践者が、様々な種類のデータセットの既存のベースラインと比較して、新しく提案された手法を効果的かつ適切に評価することを可能にする。 最後に,長期学習の重要応用を強調し,将来有望ないくつかの方向を特定する。 アクセシビリティと再現性のために、私たちはHeroLTベンチマークと対応する結果をhttps://github.com/SSSKJ/HeroLTでオープンソース化しました。

Long-tailed data distributions are prevalent in a variety of domains, including finance, e-commerce, biomedical science, and cyber security. In such scenarios, the performance of machine learning models is often dominated by the head categories, while the learning of tail categories is significantly inadequate. Given abundant studies conducted to alleviate the issue, this work aims to provide a systematic view of long-tailed learning with regard to three pivotal angles: (A1) the characterization of data long-tailedness, (A2) the data complexity of various domains, and (A3) the heterogeneity of emerging tasks. To achieve this, we develop the most comprehensive (to the best of our knowledge) long-tailed learning benchmark named HeroLT, which integrates 13 state-of-the-art algorithms and 6 evaluation metrics on 14 real-world benchmark datasets across 4 tasks from 3 domains. HeroLT with novel angles and extensive experiments (264 in total) enables researchers and practitioners to effectively and fairly evaluate newly proposed methods compared with existing baselines on varying types of datasets. Finally, we conclude by highlighting the significant applications of long-tailed learning and identifying several promising future directions. For accessibility and reproducibility, we open-source our benchmark HeroLT and corresponding results at https://github.com/SSSKJ/HeroLT.
翻訳日:2023-07-18 14:41:53 公開日:2023-07-17
# 複雑性問題: 生成モデリングのための潜在空間の再考

Complexity Matters: Rethinking the Latent Space for Generative Modeling ( http://arxiv.org/abs/2307.08283v1 )

ライセンス: Link先を確認
Tianyang Hu, Fei Chen, Haonan Wang, Jiawei Li, Wenjia Wang, Jiacheng Sun, Zhenguo Li(参考訳) 生成的モデリングにおいて、多くの成功したアプローチは、エンコーダによって引き起こされる潜在空間の安定拡散モデルのような低次元の潜在空間を活用し、ペア化されたデコーダを介して画像を生成する。 潜在空間の選択は経験的中心的であるが、最適な選択とそれを特定する過程は不明確である。 本研究では,モデルの複雑さの観点から潜在空間を再考することで,この未熟な話題に光を当てる。 我々の調査は、古典的生成逆ネットワーク(GAN)から始まる。 GANトレーニングの目的に触発された本研究では,発電機の複雑さと最小化が一致する潜在データ分布とデータ分布との「距離」を新たに提案する。 この距離の最小化は、発電機の容量に最も効果的に乗じる最適なデータ依存潜在性として特徴づけられる。 次に,そのような潜在分布をエンコーダネットワークでパラメータ化することを検討し,デコーダが訓練中,第1段階でのみ補助デコーダで更新され,第2ステージで凍結されるdecoupled autoencoder(dae)と呼ばれる2段階のトレーニング戦略を提案する。 DAEは潜伏分布を改善し、その結果、生成性能を向上させることができる。 理論解析はvqganや拡散変圧器などの種々のモデルに対する包括的な実験により裏付けられ, モデル複雑性を低減した試料品質の大幅な改善が得られた。

In generative modeling, numerous successful approaches leverage a low-dimensional latent space, e.g., Stable Diffusion models the latent space induced by an encoder and generates images through a paired decoder. Although the selection of the latent space is empirically pivotal, determining the optimal choice and the process of identifying it remain unclear. In this study, we aim to shed light on this under-explored topic by rethinking the latent space from the perspective of model complexity. Our investigation starts with the classic generative adversarial networks (GANs). Inspired by the GAN training objective, we propose a novel "distance" between the latent and data distributions, whose minimization coincides with that of the generator complexity. The minimizer of this distance is characterized as the optimal data-dependent latent that most effectively capitalizes on the generator's capacity. Then, we consider parameterizing such a latent distribution by an encoder network and propose a two-stage training strategy called Decoupled Autoencoder (DAE), where the encoder is only updated in the first stage with an auxiliary decoder and then frozen in the second stage while the actual decoder is being trained. DAE can improve the latent distribution and as a result, improve the generative performance. Our theoretical analyses are corroborated by comprehensive experiments on various models such as VQGAN and Diffusion Transformer, where our modifications yield significant improvements in sample quality with decreased model complexity.
翻訳日:2023-07-18 14:35:55 公開日:2023-07-17
# CombinerとHyperCombiner Networks:前立腺癌局所化のための多モードMR画像の組み合わせ規則

Combiner and HyperCombiner Networks: Rules to Combine Multimodality MR Images for Prostate Cancer Localisation ( http://arxiv.org/abs/2307.08279v1 )

ライセンス: Link先を確認
Wen Yan, Bernard Chiu, Ziyi Shen, Qianye Yang, Tom Syer, Zhe Min, Shonit Punwani, Mark Emberton, David Atkinson, Dean C. Barratt, Yipeng Hu(参考訳) PI-RADS v2.1のような報告システムを用いて、放射線学者がマルチパラメトリックな前立腺MRIスキャンを読み取る際の特徴の1つは、個々の種類のMRモダリティ、T2重み付け、拡散重み付け、ダイナミックコントラストをスコアし、これらの画像モダリティ特異的スコアを標準化された決定規則を用いて組み合わせて臨床的に重要ながんの可能性を予測することである。 本研究の目的は, 線形混合モデルと非線形積み重ねモデルのいずれかが, 前立腺がんの局所化のためのPI-RADS決定ルールをモデル化するのに十分であることを示す。 第二に、これらの(一般化)線形モデルのパラメータをハイパーパラメータとして提案し、各画像のモダリティを独立に表現する複数のネットワークを、エンドツーエンドのモダリティアンサンブルとは対照的に重み付けする。 HyperCombinerネットワークは、推論中にこれらのハイパーパラメータに条件付け可能な単一のイメージセグメンテーションネットワークをトレーニングするために開発され、効率が大幅に向上する。 マルチパラメトリックMRのラベル付けを自動化した放射線科医を応用した850人の患者データに基づく実験結果から,提案したコンバインダネットワークと,他の一般的なエンドツーエンドネットワークとの比較を行った。 個々の画像モダリティに対する線形重みやオッズ比の観点から、モダリティ結合規則の獲得と解釈の付加的な利点を用いて、モダリティ可用性評価、重要度定量化、ルール発見を含む前立腺がんの分節化に3つの臨床応用が提示される。

One of the distinct characteristics in radiologists' reading of multiparametric prostate MR scans, using reporting systems such as PI-RADS v2.1, is to score individual types of MR modalities, T2-weighted, diffusion-weighted, and dynamic contrast-enhanced, and then combine these image-modality-specific scores using standardised decision rules to predict the likelihood of clinically significant cancer. This work aims to demonstrate that it is feasible for low-dimensional parametric models to model such decision rules in the proposed Combiner networks, without compromising the accuracy of predicting radiologic labels: First, it is shown that either a linear mixture model or a nonlinear stacking model is sufficient to model PI-RADS decision rules for localising prostate cancer. Second, parameters of these (generalised) linear models are proposed as hyperparameters, to weigh multiple networks that independently represent individual image modalities in the Combiner network training, as opposed to end-to-end modality ensemble. A HyperCombiner network is developed to train a single image segmentation network that can be conditioned on these hyperparameters during inference, for much improved efficiency. Experimental results based on data from 850 patients, for the application of automating radiologist labelling multi-parametric MR, compare the proposed combiner networks with other commonly-adopted end-to-end networks. Using the added advantages of obtaining and interpreting the modality combining rules, in terms of the linear weights or odds-ratios on individual image modalities, three clinical applications are presented for prostate cancer segmentation, including modality availability assessment, importance quantification and rule discovery.
翻訳日:2023-07-18 14:35:30 公開日:2023-07-17
# 交通標識認識における敵対的攻撃:調査

Adversarial Attacks on Traffic Sign Recognition: A Survey ( http://arxiv.org/abs/2307.08278v1 )

ライセンス: Link先を確認
Svetlana Pavlitska, Nico Lambing and J. Marius Z\"ollner(参考訳) トラヒックサイン認識(traffic sign recognition)は、自動運転車における認識の重要な要素であり、現在ほとんどがディープニューラルネットワーク(dnn)で行われている。 しかし、DNNは敵の攻撃に弱いことが知られている。 いくつかの先行研究は、交通標識認識モデルに対する敵攻撃の可能性を示している。 交通標識は、印刷された標識やステッカーを使った現実世界の攻撃が容易であることから、敵対的な攻撃研究に特に有望である。 本研究は,交通標識の検出と分類モデルに対するデジタルまたは実世界の攻撃を行う既存の作業について調査する。 我々は、最新の進歩の概要と、さらなる調査を必要とする既存の研究領域を強調する。

Traffic sign recognition is an essential component of perception in autonomous vehicles, which is currently performed almost exclusively with deep neural networks (DNNs). However, DNNs are known to be vulnerable to adversarial attacks. Several previous works have demonstrated the feasibility of adversarial attacks on traffic sign recognition models. Traffic signs are particularly promising for adversarial attack research due to the ease of performing real-world attacks using printed signs or stickers. In this work, we survey existing works performing either digital or real-world attacks on traffic sign detection and classification models. We provide an overview of the latest advancements and highlight the existing research areas that require further investigation.
翻訳日:2023-07-18 14:34:53 公開日:2023-07-17
# ChatGPTは良いが、Bing Chatはベトナムの学生にとってより良い

ChatGPT is Good but Bing Chat is Better for Vietnamese Students ( http://arxiv.org/abs/2307.08272v1 )

ライセンス: Link先を確認
Xuan-Quy Dao, Ngoc-Bich Le(参考訳) 本稿では,ベトナムの学生を対象とした2つの大規模言語モデル(LLM)であるChatGPTとMicrosoft Bing Chat(BingChat)の性能について検討する。 ChatGPTは様々な分野の能力を示しているが、Bing Chatは優れた選択肢として現れている。 数学,文学,英語,物理学,化学,生物学,歴史,地理,市民教育など,高校レベルの複数の科目でのパフォーマンスを比較した。 以上の結果から,BingChatはChatGPTよりも優れており,ChatGPTが優れる文献は例外である。 さらに、BingChatは、GPT-3.5に基づくChatGPTと比較して、より高度なGPT-4技術を活用し、創造的で情報的なテキストの理解と生成を促進する。 さらに、ベトナムにおけるBingChatの可用性と回答におけるハイパーリンクの導入により、その優位性はさらに固まる。 私たちは、ChatGPTは賞賛できるが、Bing Chatはベトナムの学生により包括的で高度なソリューションを提供すると結論付けている。

This paper investigates the performance of two large language models (LLMs), ChatGPT and Microsoft Bing Chat (BingChat), for Vietnamese students. While ChatGPT demonstrates competency in various subjects, Bing Chat emerges as the superior choice. We compare their performances across multiple subjects at high school level, including mathematics, literature, English, physics, chemistry, biology, history, geography, and civic education. Our findings indicate that BingChat surpasses ChatGPT in most subjects, except for literature where ChatGPT outperforms. Moreover, BingChat leverages the more advanced GPT-4 technology compared to ChatGPT based on GPT-3.5, leading to enhanced understanding and generation of creative and informative text. Furthermore, BingChat's availability in Vietnam and its incorporation of hyperlinks in answers further solidify its superiority. We conclude that while ChatGPT is commendable, Bing Chat offers a more comprehensive and advanced solution for Vietnamese students.
翻訳日:2023-07-18 14:34:43 公開日:2023-07-17
# Pixel-Lesion-Patient Network を用いた肝腫瘍検診と診断

Liver Tumor Screening and Diagnosis in CT with Pixel-Lesion-Patient Network ( http://arxiv.org/abs/2307.08268v1 )

ライセンス: Link先を確認
Ke Yan, Xiaoli Yin, Yingda Xia, Fakai Wang, Shu Wang, Yuan Gao, Jiawen Yao, Chunli Li, Xiaoyu Bai, Jingren Zhou, Ling Zhang, Le Lu, Yu Shi(参考訳) 肝腫瘍の分節化と分類はコンピュータ診断における重要な課題である。 非造影CT (non-contrast Computed tomography) における肝腫瘍検診と予備診断, ダイナミック造影CTにおける鑑別診断の3つの課題に対処することを目的とする。 Pixel-Lesion-pAtient Network (PLAN) と呼ばれる新しいフレームワークが提案されている。 マスクトランスフォーマーを使用して、アンカークエリの改善と前景のサンプリング損失による各病変の分割と分類を行う。 また、グローバル情報を効果的に集約し、患者レベルの診断を予測するイメージワイド分類器も備えている。 939人の腫瘍患者と810人の健常者を含む大規模多相データセットを収集する。 8種類の腫瘍例4010は広範囲に注釈が付されている。 非コントラスト腫瘍スクリーニングタスクでは、95%と96%の患者レベルの感度と特異性を達成する。 造影ctでは,病変レベルの検出精度,リコール,分類精度は92%,89%,86%であり,広く用いられているcnnおよびトランスフォーマよりも優れていた。 また,250症例のホールドアウトについて,読者調査を行った。 PLANは高齢者の放射線科医と同等であり,臨床的意義を示した。

Liver tumor segmentation and classification are important tasks in computer aided diagnosis. We aim to address three problems: liver tumor screening and preliminary diagnosis in non-contrast computed tomography (CT), and differential diagnosis in dynamic contrast-enhanced CT. A novel framework named Pixel-Lesion-pAtient Network (PLAN) is proposed. It uses a mask transformer to jointly segment and classify each lesion with improved anchor queries and a foreground-enhanced sampling loss. It also has an image-wise classifier to effectively aggregate global information and predict patient-level diagnosis. A large-scale multi-phase dataset is collected containing 939 tumor patients and 810 normal subjects. 4010 tumor instances of eight types are extensively annotated. On the non-contrast tumor screening task, PLAN achieves 95% and 96% in patient-level sensitivity and specificity. On contrast-enhanced CT, our lesion-level detection precision, recall, and classification accuracy are 92%, 89%, and 86%, outperforming widely used CNN and transformers for lesion segmentation. We also conduct a reader study on a holdout set of 250 cases. PLAN is on par with a senior human radiologist, showing the clinical significance of our results.
翻訳日:2023-07-18 14:34:25 公開日:2023-07-17
# 微調整VQGANモデルを用いた極端画像圧縮

Extreme Image Compression using Fine-tuned VQGAN Models ( http://arxiv.org/abs/2307.08265v1 )

ライセンス: Link先を確認
Qi Mao, Tinghan Yang, Yinuo Zhang, Shuyin Pan, Meng Wang, Shiqi Wang, Siwei Ma(参考訳) 近年の生成圧縮法の進歩は、特にビットレートの低いシナリオにおいて、圧縮データの知覚的品質の向上に顕著な進歩を示している。 それでも、極端な圧縮比(<0.1$ bpp)を達成するための有効性と適用性は依然として制限されている。 本稿では,ベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入することにより,単純かつ効果的な符号化フレームワークを提案する。 主な洞察は、vqganモデルによって学習されたコードブックは、強い表現能力をもたらし、再構築品質を維持しながら、潜在空間における連続情報の効率的な圧縮を促進する。 具体的には、最も近いコードワードを見つけることで、画像はvqインデックスとして表現でき、損失のない圧縮メソッドを使ってビットストリームにエンコードすることができる。 K-meansアルゴリズムを用いて,事前学習した大規模コードブックを小さなコードブックにクラスタリングする。 これにより、画像は様々な範囲のVQインデックスマップとして表現され、可変ビットレートと異なるレベルの再構成品質が得られる。 様々なデータセットに対する大規模定性的および定量的実験により、提案手法は、知覚的品質指向のメトリクスと極低ビットレート下での人間の知覚において、最先端のコーデックよりも優れていることを示した。

Recent advances in generative compression methods have demonstrated remarkable progress in enhancing the perceptual quality of compressed data, especially in scenarios with low bitrates. Nevertheless, their efficacy and applicability in achieving extreme compression ratios ($<0.1$ bpp) still remain constrained. In this work, we propose a simple yet effective coding framework by introducing vector quantization (VQ)-based generative models into the image compression domain. The main insight is that the codebook learned by the VQGAN model yields strong expressive capacity, facilitating efficient compression of continuous information in the latent space while maintaining reconstruction quality. Specifically, an image can be represented as VQ-indices by finding the nearest codeword, which can be encoded using lossless compression methods into bitstreams. We then propose clustering a pre-trained large-scale codebook into smaller codebooks using the K-means algorithm. This enables images to be represented as diverse ranges of VQ-indices maps, resulting in variable bitrates and different levels of reconstruction quality. Extensive qualitative and quantitative experiments on various datasets demonstrate that the proposed framework outperforms the state-of-the-art codecs in terms of perceptual quality-oriented metrics and human perception under extremely low bitrates.
翻訳日:2023-07-18 14:34:02 公開日:2023-07-17
# ビデオオブジェクト分割のための階層時空間変換器

Hierarchical Spatiotemporal Transformers for Video Object Segmentation ( http://arxiv.org/abs/2307.08263v1 )

ライセンス: Link先を確認
Jun-Sang Yoo, Hongjae Lee, Seung-Won Jung(参考訳) 本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのHSTと呼ばれる新しいフレームワークを提案する。 HSTは最新のSwin TransformerとVideo Swin Transformerを使って画像と映像の特徴を抽出し、時間的コヒーレントなVOSに不可欠な時空間的局所性に対する誘導バイアスを継承する。 画像とビデオの機能をフル活用するために、HSTは画像とビデオの機能をそれぞれクエリとメモリとしてキャストする。 複数のスケールで効率的なメモリ読み取り操作を適用することで、HSTはオブジェクトマスクの正確な再構築のための階層的特徴を生成する。 HSTは、乱雑な背景の下で、隠蔽された、素早く動くオブジェクトで困難なシナリオを扱う上で、有効性と堅牢性を示す。 特にHST-Bは、YouTube-VOS(85.0%)、DAVIS 2017(85.9%)、DAVIS 2016(94.0%)など、複数の人気ベンチマークで最先端の競合より優れている。

This paper presents a novel framework called HST for semi-supervised video object segmentation (VOS). HST extracts image and video features using the latest Swin Transformer and Video Swin Transformer to inherit their inductive bias for the spatiotemporal locality, which is essential for temporally coherent VOS. To take full advantage of the image and video features, HST casts image and video features as a query and memory, respectively. By applying efficient memory read operations at multiple scales, HST produces hierarchical features for the precise reconstruction of object masks. HST shows effectiveness and robustness in handling challenging scenarios with occluded and fast-moving objects under cluttered backgrounds. In particular, HST-B outperforms the state-of-the-art competitors on multiple popular benchmarks, i.e., YouTube-VOS (85.0%), DAVIS 2017 (85.9%), and DAVIS 2016 (94.0%).
翻訳日:2023-07-18 14:33:42 公開日:2023-07-17
# Team Badminseok at IJCAI CoachAI Badminton Challenge 2023: Multi-Layer Multi-Input Transformer Network (MuLMINet) with Weighted Loss

Team Badminseok at IJCAI CoachAI Badminton Challenge 2023: Multi-Layer Multi-Input Transformer Network (MuLMINet) with Weighted Loss ( http://arxiv.org/abs/2307.08262v1 )

ライセンス: Link先を確認
Minwoo Seong, Jeongseok Oh, SeungJun Kim(参考訳) バドミントンのようなターンベーススポーツにおける人工知能(AI)技術の利用の増加は、マッチビデオデータの分析を通じて戦略を評価することに大きな関心を喚起している。 過去のショットに基づいて将来のショットを予測することは、コーチングと戦略的計画において重要な役割を果たす。 本研究では,プロバドミントンプレーヤーのマッチングデータを利用して,将来的なショットタイプや領域座標を正確に予測するマルチ層マルチ入力トランスフォーマネットワーク(MuLMINet)を提案する。 我々のアプローチは、ijcai coachai badminton challenge 2023, track 2で準優勝(2位)を達成した。 さらなる研究を促進するため、我々は私たちのコードをオンラインで公開し、AI支援スポーツ分析の分野における研究コミュニティの知識と進歩に貢献した。

The increasing use of artificial intelligence (AI) technology in turn-based sports, such as badminton, has sparked significant interest in evaluating strategies through the analysis of match video data. Predicting future shots based on past ones plays a vital role in coaching and strategic planning. In this study, we present a Multi-Layer Multi-Input Transformer Network (MuLMINet) that leverages professional badminton player match data to accurately predict future shot types and area coordinates. Our approach resulted in achieving the runner-up (2nd place) in the IJCAI CoachAI Badminton Challenge 2023, Track 2. To facilitate further research, we have made our code publicly accessible online, contributing to the broader research community's knowledge and advancements in the field of AI-assisted sports analysis.
翻訳日:2023-07-18 14:33:24 公開日:2023-07-17
# ChatGPTのフロンティアを拡張する - コード生成とデバッグ

Extending the Frontier of ChatGPT: Code Generation and Debugging ( http://arxiv.org/abs/2307.08260v1 )

ライセンス: Link先を確認
Fardin Ahsan Sakib, Saadat Hasan Khan, A. H. M. Rezaul Karim(参考訳) 大規模言語モデル(LLM)は、質問応答と会話エージェントの領域における画期的なイノベーションとして登場した。 トランスフォーマーのような異なるディープラーニングアーキテクチャを活用するこれらのモデルは、与えられたクエリに基づいて文を予測するために広大なコーパスで訓練される。 これらのLLMのうち、OpenAIが開発したChatGPTは、エッセイや伝記の作成から複雑な数学的積分の解決まで、さまざまな問題領域に取り組むために人工知能(AI)を活用して新しい時代を築き上げた。 ChatGPTによって実現された汎用アプリケーションは、ユーザに大きな価値を提供します。 しかしながら、特にクエリが正確性に対する明確な客観的基準を欠いているシナリオにおいて、chatgptのアウトプットのパフォーマンスを評価することは課題となる。 例えば、生成したエッセイの品質評価は厳しいものとなり、数学的問題のような明確に定義された閉ざされた問題に対する解決策の評価とは対照的に、手作業に大きく依存する。 本研究は,プログラミング問題の解法におけるchatgptの有効性を考察し,その解の正確性と効率を時間とメモリの複雑さの観点から検討する。 この研究は、ChatGPTがLeetcodeにある全てのテストケースをうまく満たす正しいソリューションを提供することができた問題の割合を表わし、総成功率は71.875\%であることを示した。 構造化問題において強みを示し、その成功率と問題受容率の線形相関を示す。 しかし、フィードバックに基づいてソリューションを改善するのに苦労し、デバッグタスクの潜在的な欠点を指している。 これらの発見は、ChatGPTの能力と改善すべき領域について、コンパクトで洞察に富んだ視点を提供する。

Large-scale language models (LLMs) have emerged as a groundbreaking innovation in the realm of question-answering and conversational agents. These models, leveraging different deep learning architectures such as Transformers, are trained on vast corpora to predict sentences based on given queries. Among these LLMs, ChatGPT, developed by OpenAI, has ushered in a new era by utilizing artificial intelligence (AI) to tackle diverse problem domains, ranging from composing essays and biographies to solving intricate mathematical integrals. The versatile applications enabled by ChatGPT offer immense value to users. However, assessing the performance of ChatGPT's output poses a challenge, particularly in scenarios where queries lack clear objective criteria for correctness. For instance, evaluating the quality of generated essays becomes arduous and relies heavily on manual labor, in stark contrast to evaluating solutions to well-defined, closed-ended questions such as mathematical problems. This research paper delves into the efficacy of ChatGPT in solving programming problems, examining both the correctness and the efficiency of its solution in terms of time and memory complexity. The research reveals a commendable overall success rate of 71.875\%, denoting the proportion of problems for which ChatGPT was able to provide correct solutions that successfully satisfied all the test cases present in Leetcode. It exhibits strengths in structured problems and shows a linear correlation between its success rate and problem acceptance rates. However, it struggles to improve solutions based on feedback, pointing to potential shortcomings in debugging tasks. These findings provide a compact yet insightful glimpse into ChatGPT's capabilities and areas for improvement.
翻訳日:2023-07-18 14:33:07 公開日:2023-07-17
# 量子相対エントロピーに基づくマジックモノトーンの混合状態付加性

Mixed-state additivity properties of magic monotones based on quantum relative entropies for single-qubit states and beyond ( http://arxiv.org/abs/2307.08258v1 )

ライセンス: Link先を確認
Roberto Rubboli, Ryuji Takagi, and Marco Tomamichel(参考訳) 任意の数の単一量子ビット状態のテンソル積に対して安定化子忠実度が乗法であることが証明される。 また、魔法の相対エントロピーは、全ての単一量子状態が安定化器オクタヘドロンの対称性軸に属する場合、加法的であることを示す。 後者の結果は、マジックの相対エントロピーである$\alpha$-$z$ R\'enyi を含むように拡張する。 これにより、単量子状態に対する付加物である連続的なマジックモノトン集合を同定し、マジック状態蒸留のより厳密な上界を得ることができる。 さらに,既に知られている結果を復元し,量子相対エントロピーに基づく幅広いモノトンに対する単一量子ビット状態の加法特性の全体像を提供する。 また、魔法の安定化された忠実性と一般化されたロバスト性のために、すべてのシングルキュービット状態に対する閉形式表現も導出する。 最後に、上述した全ての単調は、非偏極雑音を受けるいくつかの標準2および3量子状態に対して加法的であることを示す。

We prove that the stabilizer fidelity is multiplicative for the tensor product of an arbitrary number of single-qubit states. We also show that the relative entropy of magic becomes additive if all the single-qubit states but one belong to a symmetry axis of the stabilizer octahedron. We extend the latter results to include all the $\alpha$-$z$ R\'enyi relative entropy of magic. This allows us to identify a continuous set of magic monotones which are additive for single-qubit states and obtain much tighter upper bounds for magic state distillation. Moreover, we recover some already-known results and provide a complete picture of the additivity properties for single-qubit states for a wide class of monotones based on quantum relative entropies. We also derive a closed-form expression for all single-qubit states for the stabilizer fidelity and the generalized robustness of magic. Finally, we show that all the monotones mentioned above are additive for several standard two and three-qubit states subject to depolarizing noise, for which we give closed-form expressions.
翻訳日:2023-07-18 14:32:39 公開日:2023-07-17
# 皮膚疾患の正確な鑑別診断のための皮膚科医用マルチタスクモデルの開発

A Novel Multi-Task Model Imitating Dermatologists for Accurate Differential Diagnosis of Skin Diseases in Clinical Images ( http://arxiv.org/abs/2307.08308v1 )

ライセンス: Link先を確認
Yan-Jie Zhou, Wei Liu, Yuan Gao, Jing Xu, Le Lu, Yuping Duan, Hao Cheng, Na Jin, Xiaoyong Man, Shuang Zhao, Yu Wang(参考訳) 皮膚疾患は最も一般的な健康上の問題であり、正確なコンピュータ支援診断法は皮膚科医と患者の両方にとって重要である。 しかし、既存の方法のほとんどは、皮膚疾患の診断に必要なドメイン知識を見落としている。 皮膚科医の診断手順と戦略を模倣して,このギャップを埋めるために,新しいマルチタスクモデルDermImitFormerを提案する。 マルチタスク学習を通じて、モデルは、疾患自体に加えて、身体の部分と病変特性を同時に予測し、診断精度を高め、診断の解釈性を向上させる。 設計した病変選択モジュールは皮膚科医のズームイン動作を模倣し、ノイズの多い背景から局所病変の特徴を効果的に強調する。 さらに、提示されたクロスアクションモジュールは、身体部分、病変特性、疾患の間の複雑な診断推論を明示的にモデル化する。 提案手法のより堅牢な評価方法として、既存のデータセットよりもはるかに多くの症例を有する皮膚疾患の大規模臨床画像データセットを提供する。 3つの異なるデータセットに関する広範な実験は、提案されたアプローチの最先端の認識性能を一貫して実証している。

Skin diseases are among the most prevalent health issues, and accurate computer-aided diagnosis methods are of importance for both dermatologists and patients. However, most of the existing methods overlook the essential domain knowledge required for skin disease diagnosis. A novel multi-task model, namely DermImitFormer, is proposed to fill this gap by imitating dermatologists' diagnostic procedures and strategies. Through multi-task learning, the model simultaneously predicts body parts and lesion attributes in addition to the disease itself, enhancing diagnosis accuracy and improving diagnosis interpretability. The designed lesion selection module mimics dermatologists' zoom-in action, effectively highlighting the local lesion features from noisy backgrounds. Additionally, the presented cross-interaction module explicitly models the complicated diagnostic reasoning between body parts, lesion attributes, and diseases. To provide a more robust evaluation of the proposed method, a large-scale clinical image dataset of skin diseases with significantly more cases than existing datasets has been established. Extensive experiments on three different datasets consistently demonstrate the state-of-the-art recognition performance of the proposed approach.
翻訳日:2023-07-18 14:25:07 公開日:2023-07-17
# リフシッツ型スカラー場理論におけるクリロフ複雑性

Krylov Complexity in Lifshitz-type Scalar Field Theories ( http://arxiv.org/abs/2307.08307v1 )

ライセンス: Link先を確認
M. J. Vasli, K. Babaei Velni, M. R. Mohammadi Mozaffar, A. Mollabashi, M. Alishahiha(参考訳) 有限温度における自由リフシッツスカラー理論におけるランチョス係数の様々な側面について検討した。 この非相対論的セットアップでは、Laczos係数の挙動に対する質量、有限紫外カットオフ、有限格子間隔の影響について検討する。 また, 動的指数がランツォ係数の漸近挙動に及ぼす影響について検討し, 普遍的なスケーリング挙動を示す。 我々は、これらの結果がクリロフ空間における様々な尺度にどのように影響するかを慎重に検討する。 また,本研究の結果は,従来の相対論的理論の文献と類似していることがわかった。

We investigate various aspects of the Lanczos coefficients in a family of free Lifshitz scalar theories, characterized by their integer dynamical exponent, at finite temperature. In this non-relativistic setup, we examine the effects of mass, finite ultraviolet cutoff, and finite lattice spacing on the behavior of the Lanczos coefficients. We also investigate the effect of the dynamical exponent on the asymptotic behavior of the Lanczos coefficients, which show a universal scaling behavior. We carefully examine how these results can affect different measures in Krylov space, including Krylov complexity and entropy. Remarkably, we find that our results are similar to those previously observed in the literature for relativistic theories.
翻訳日:2023-07-18 14:24:50 公開日:2023-07-17
# 反事実境界の効率的な計算

Efficient Computation of Counterfactual Bounds ( http://arxiv.org/abs/2307.08304v1 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci and Rafael Caba\~nas and David Huber and Dario Azzimonti(参考訳) 我々は、有向非巡回グラフ、すなわち構造因果モデルを誘導する離散変数に対する構造方程式と、その内部ノードに関するデータとを仮定する。 私たちが答えたい質問は、そのような入力から部分的に識別可能な偽のクエリの境界を計算する方法です。 まず、構造的なカジュアルモデルからクレダルネットワークへのマップを提供することから始めます。 これにより、構造因果モデルのサブクラスにおけるクレダルネットのアルゴリズムによって、正確な反ファクト境界を計算することができる。 因果推論がポリツリー上でもNPハードであることを考えると、厳密な計算は一般に非効率である。 次に、因果EMスキームを用いて近似境界を求める。 近似のクオリティについて信頼性の高い間隔を提供することで精度を評価するとともに、emスキームがかなりの数のランで正確な結果をもたらすことを合成ベンチマークで示す。 議論の過程では、反事実境界は構造方程式の知識なしに計算できるというトレンドのアイデアに対する無視された制限が指摘される。 また,我々のアルゴリズムが実用的用途にどのように利用できるかを示すために,緩和ケアに関する実際のケーススタディも提示する。

We assume to be given structural equations over discrete variables inducing a directed acyclic graph, namely, a structural causal model, together with data about its internal nodes. The question we want to answer is how we can compute bounds for partially identifiable counterfactual queries from such an input. We start by giving a map from structural casual models to credal networks. This allows us to compute exact counterfactual bounds via algorithms for credal nets on a subclass of structural causal models. Exact computation is going to be inefficient in general given that, as we show, causal inference is NP-hard even on polytrees. We target then approximate bounds via a causal EM scheme. We evaluate their accuracy by providing credible intervals on the quality of the approximation; we show through a synthetic benchmark that the EM scheme delivers accurate results in a fair number of runs. In the course of the discussion, we also point out what seems to be a neglected limitation to the trending idea that counterfactual bounds can be computed without knowledge of the structural equations. We also present a real case study on palliative care to show how our algorithms can readily be used for practical purposes.
翻訳日:2023-07-18 14:24:37 公開日:2023-07-17
# 大規模言語モデルを用いた深度検索のためのソフトプロンプトチューニング

Soft Prompt Tuning for Augmenting Dense Retrieval with Large Language Models ( http://arxiv.org/abs/2307.08303v1 )

ライセンス: Link先を確認
Zhiyuan Peng, Xuyang Wu, Yi Fang(参考訳) Dense Search (DR) はクエリとドキュメントを密埋め込みに変換し、ベクトル空間におけるクエリとドキュメント間の類似度を測定する。 DRの課題のひとつは、ドメイン固有のトレーニングデータがないことだ。 drモデルは、転送学習を通じてms marcoのような大規模な公開データセットから学べるが、すべてのdrモデルとドメインが等しく転送学習の恩恵を受けるわけではない。 近年、一部の研究者はゼロショットと少数ショットのDRモデルを改善するために大規模言語モデル(LLM)を活用している。 しかし、これらの作業で使われるハードプロンプトや人書きプロンプトは、生成された弱いクエリの質を保証できない。 タスク毎にソフトプロンプトチューニングを利用して、限られた基底真理データに対してタスク固有のソフトプロンプトを最適化し、llmに弱いクエリでラベルなしの文書にタグを付けるように促し、タスク固有の密集したレトリバーを訓練するのに十分な弱いドキュメントクエリペアを得る。 我々は,弱いタグ付きクエリの品質をさらに向上させるために,高品質な文書クエリペアを選択するフィルタを設計した。 私たちの知る限りでは、drモデルの強化にソフトプロンプトチューニングを利用する先行作業はありません。 この実験は、sptarが教師なしのベースラインbm25と最近提案された dr の llms ベースの拡張法よりも優れていることを示している。

Dense retrieval (DR) converts queries and documents into dense embeddings and measures the similarity between queries and documents in vector space. One of the challenges in DR is the lack of domain-specific training data. While DR models can learn from large-scale public datasets like MS MARCO through transfer learning, evidence shows that not all DR models and domains can benefit from transfer learning equally. Recently, some researchers have resorted to large language models (LLMs) to improve the zero-shot and few-shot DR models. However, the hard prompts or human-written prompts utilized in these works cannot guarantee the good quality of generated weak queries. To tackle this, we propose soft prompt tuning for augmenting DR (SPTAR): For each task, we leverage soft prompt-tuning to optimize a task-specific soft prompt on limited ground truth data and then prompt the LLMs to tag unlabeled documents with weak queries, yielding enough weak document-query pairs to train task-specific dense retrievers. We design a filter to select high-quality example document-query pairs in the prompt to further improve the quality of weak tagged queries. To the best of our knowledge, there is no prior work utilizing soft prompt tuning to augment DR models. The experiments demonstrate that SPTAR outperforms the unsupervised baselines BM25 and the recently proposed LLMs-based augmentation method for DR.
翻訳日:2023-07-18 14:24:20 公開日:2023-07-17
# GBT:非定常時系列予測のための2段階変圧器フレームワーク

GBT: Two-stage transformer framework for non-stationary time series forecasting ( http://arxiv.org/abs/2307.08302v1 )

ライセンス: Link先を確認
Li Shen, Yuning Wei, Yangzhu Wang(参考訳) 本稿では,非定常時系列を扱う場合など,未知のデコーダ入力の不適切な初期化法により,TSFT(Time Series forecasting Transformer)が過度に適合する問題に悩まされることを示す。 そこで本研究では,Good Startを用いた新しい2段階トランスフォーマフレームワークであるGBTを提案する。 TSFTの予測過程を, 自己回帰段階と自己回帰段階の2段階に分解し, 入力と予測シーケンスの異なる統計特性の問題に対処する。 また,GBTにおける自己回帰段階の予測能力を高めるために,誤りスコア修正モジュールを提案する。 7つのベンチマークデータセットにおいて、GBTがSOTA TSFT(FEDformer, Pyraformer, ETSformerなど)と他の予測モデル(SCINet, N-HiTSなど)より優れており、標準的注意と畳み込みのみであり、時間と空間の複雑さは少ない。 また、これらのモデルと組み合わせて予測能力を強化するのにも十分である。 ソースコードはhttps://github.com/origamisl/gbt

This paper shows that time series forecasting Transformer (TSFT) suffers from severe over-fitting problem caused by improper initialization method of unknown decoder inputs, esp. when handling non-stationary time series. Based on this observation, we propose GBT, a novel two-stage Transformer framework with Good Beginning. It decouples the prediction process of TSFT into two stages, including Auto-Regression stage and Self-Regression stage to tackle the problem of different statistical properties between input and prediction sequences.Prediction results of Auto-Regression stage serve as a Good Beginning, i.e., a better initialization for inputs of Self-Regression stage. We also propose Error Score Modification module to further enhance the forecasting capability of the Self-Regression stage in GBT. Extensive experiments on seven benchmark datasets demonstrate that GBT outperforms SOTA TSFTs (FEDformer, Pyraformer, ETSformer, etc.) and many other forecasting models (SCINet, N-HiTS, etc.) with only canonical attention and convolution while owning less time and space complexity. It is also general enough to couple with these models to strengthen their forecasting capability. The source code is available at: https://github.com/OrigamiSL/GBT
翻訳日:2023-07-18 14:23:52 公開日:2023-07-17
# ShiftNAS: 確率シフトによるワンショットNASの改善

ShiftNAS: Improving One-shot NAS via Probability Shift ( http://arxiv.org/abs/2307.08300v1 )

ライセンス: Link先を確認
Mingyang Zhang, Xinyi Yu, Haodong Zhao, Linlin Ou(参考訳) ワンショットニューラルアーキテクチャサーチ(ワンショットNAS)は、異なる複雑性ケース下で最適なサブネットアーキテクチャと重みを得るための時間効率のアプローチとして提案されている。 しかし、重み付けによって得られるサブネットの性能は再訓練による性能よりも劣ることが多い。 本稿では,超ネットトレーニングにおける一般的な手法である一様サンプリングの利用による性能ギャップについて検討する。 一様サンプリングは、高い確率でサンプリングされる中間計算リソースを持つサブネットにトレーニングリソースを集中させる。 しかし、異なる複雑性領域を持つサブネットは、最適な性能のために異なる最適なトレーニング戦略を必要とする。 そこで本研究では,一様サンプリング問題に対処するために,サブネットの複雑性に基づいてサンプリング確率を調整する方法であるshiftnasを提案する。 本研究では,異なる複雑さでサブネットの性能変化を評価し,その複雑さを正確にかつ効率的に提供するアーキテクチャジェネレータを設計する。 サンプリング確率とアーキテクチャジェネレータの両方を勾配に基づくエンドツーエンドで訓練することができる。 ShiftNASでは、与えられた計算複雑性に対して最適なモデルアーキテクチャとパラメータを直接取得できる。 我々は、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)を含む複数の視覚ネットワークモデルに対するアプローチを評価し、ShiftNASがモデルに依存しないことを示す。 ImageNetの実験結果によると、ShiftNASは追加消費なしでワンショットNASの性能を向上させることができる。 ソースコードはhttps://github.com/bestfleer/shiftnasで入手できる。

One-shot Neural architecture search (One-shot NAS) has been proposed as a time-efficient approach to obtain optimal subnet architectures and weights under different complexity cases by training only once. However, the subnet performance obtained by weight sharing is often inferior to the performance achieved by retraining. In this paper, we investigate the performance gap and attribute it to the use of uniform sampling, which is a common approach in supernet training. Uniform sampling concentrates training resources on subnets with intermediate computational resources, which are sampled with high probability. However, subnets with different complexity regions require different optimal training strategies for optimal performance. To address the problem of uniform sampling, we propose ShiftNAS, a method that can adjust the sampling probability based on the complexity of subnets. We achieve this by evaluating the performance variation of subnets with different complexity and designing an architecture generator that can accurately and efficiently provide subnets with the desired complexity. Both the sampling probability and the architecture generator can be trained end-to-end in a gradient-based manner. With ShiftNAS, we can directly obtain the optimal model architecture and parameters for a given computational complexity. We evaluate our approach on multiple visual network models, including convolutional neural networks (CNNs) and vision transformers (ViTs), and demonstrate that ShiftNAS is model-agnostic. Experimental results on ImageNet show that ShiftNAS can improve the performance of one-shot NAS without additional consumption. Source codes are available at https://github.com/bestfleer/ShiftNAS.
翻訳日:2023-07-18 14:23:25 公開日:2023-07-17
# 集団証人による絡み合い検出における感度と選択性

Sensitivity versus selectivity in entanglement detection via collective witnesses ( http://arxiv.org/abs/2307.08293v1 )

ライセンス: Link先を確認
Vojt\v{e}ch Tr\'avn\'i\v{c}ek, Jan Roik, Karol Bartkiewicz, Anton\'in \v{C}ernoch, Pawe{\l} Horodecki, Karel Lemr(参考訳) 本稿では,ニューラルネットワークを用いた教師付き学習手法を提案する。 機械設計の集団的絡み合い証人は、感度と選択性の連続的なチューニングを可能にする。 これらの証人は、エンタングルメント検出における感度と選択性のトレードオフを研究できる概念的に斬新な道具である。 選択されたアプローチは、その高い一般性、量子トモグラフィーと比較して要求される測定値の少ないこと、および他の種類の絡み合いの目撃者に対して優れた性能を示す可能性から好まれる。 複雑な量子システムにおけるより効率的で正確な絡み合い検出法の開発、特に現実的な実験的不完全性を考慮して、この発見は道を開くかもしれない。

In this paper, we present a supervised learning technique that utilizes artificial neural networks to design new collective entanglement witnesses for two-qubit and qubit-qutrit systems. Machine-designed collective entanglement witnesses allow for continuous tuning of their sensitivity and selectivity. These witnesses are, thus, a conceptually novel instrument allowing to study the sensitivity vs. selectivity trade-off in entanglement detection. The chosen approach is also favored due to its high generality, lower number of required measurements compared to quantum tomography, and potential for superior performance with regards to other types of entanglement witnesses. Our findings could pave the way for the development of more efficient and accurate entanglement detection methods in complex quantum systems, especially considering realistic experimental imperfections.
翻訳日:2023-07-18 14:23:00 公開日:2023-07-17
# CoAD: 症状と疾患の協調生成による自動診断

CoAD: Automatic Diagnosis through Symptom and Disease Collaborative Generation ( http://arxiv.org/abs/2307.08290v1 )

ライセンス: Link先を確認
Huimin Wang, Wai-Chung Kwan, Kam-Fai Wong, Yefeng Zheng(参考訳) 医療におけるaiの批判的応用である自動診断(automatic diagnosis, aad)は、正確な疾患診断のための患者の症状情報収集を支援するために、機械学習技術を使用している。 Transformer-based method は入力症状シーケンスを使用し、自己回帰を通じて自己予測を行い、最終症状の隠れ状態を利用して疾患を決定する。 その単純さと優れた性能にもかかわらず、疾患の診断精度は低下する。 1)訓練中に観察された症状と世代とのミスマッチ 2)症状の異なる順が疾患の予測に及ぼす影響。 上記の障害に対処するため,新たな疾患と症状の協調生成フレームワークであるCoADを導入し,ADを改善するためのいくつかの重要なイノベーションを取り入れた。 1) 訓練と発生のギャップを埋めるため,複数の症状調査ステップと文レベル疾患ラベルの整合化。 2 症状のサブシーケンスごとに症状ラベルを拡大し、アノテーションを強化し、症状順序の影響をなくす。 3) 拡張疾患や症状ラベルを効果的かつ効率的に学習するために, 繰り返し症状入力スキーマを開発する。 我々は,3つのパブリックと1つのプライベートを含む4つのデータセットを用いてCoADフレームワークを評価し,従来の最先端の診断結果よりも平均2.3%改善したことを示す。 再現性のために、私たちはコードとデータをhttps://github.com/kwanwaichung/coadでリリースします。

Automatic diagnosis (AD), a critical application of AI in healthcare, employs machine learning techniques to assist doctors in gathering patient symptom information for precise disease diagnosis. The Transformer-based method utilizes an input symptom sequence, predicts itself through auto-regression, and employs the hidden state of the final symptom to determine the disease. Despite its simplicity and superior performance demonstrated, a decline in disease diagnosis accuracy is observed caused by 1) a mismatch between symptoms observed during training and generation, and 2) the effect of different symptom orders on disease prediction. To address the above obstacles, we introduce the CoAD, a novel disease and symptom collaborative generation framework, which incorporates several key innovations to improve AD: 1) aligning sentence-level disease labels with multiple possible symptom inquiry steps to bridge the gap between training and generation; 2) expanding symptom labels for each sub-sequence of symptoms to enhance annotation and eliminate the effect of symptom order; 3) developing a repeated symptom input schema to effectively and efficiently learn the expanded disease and symptom labels. We evaluate the CoAD framework using four datasets, including three public and one private, and demonstrate that it achieves an average 2.3% improvement over previous state-of-the-art results in automatic disease diagnosis. For reproducibility, we release the code and data at https://github.com/KwanWaiChung/coad.
翻訳日:2023-07-18 14:22:46 公開日:2023-07-17
# KNNのデータポジショニングロバストネスの系統的評価

Systematic Testing of the Data-Poisoning Robustness of KNN ( http://arxiv.org/abs/2307.08288v1 )

ライセンス: Link先を確認
Yannan Li, Jingbo Wang, and Chao Wang(参考訳) データ中毒は、機械学習ベースのソフトウェアコンポーネントを汚染し、トレーニングセットを汚染し、テスト入力の予測結果を変更することを目的としている。 データポジショニングのロバスト性を決定する既存の方法は、精度が低いか、実行時間が長いかのいずれかであり、さらに重要なのは、真に損なわれたケースのいくつかを認定するだけでなく、認証が失敗しても決定的なままである。 言い換えれば、真に破壊的でないケースを偽造することはできない。 この制限を克服するために、k-nearest neighbors (KNN) と呼ばれる広く使われている教師あり学習技術に対して、データ汚染の堅牢性を証明し、ファルシフィケートできる体系的なテストベース手法を提案する。 本手法は,抽象領域における新しい過剰近似解析により探索空間を迅速に狭め,具体的な領域を体系的にテストし,実際の違反を見つけ出すため,ベースライン列挙法よりも高速かつ精度の高い手法である。 教師付き学習データセットを用いて,本手法の評価を行った。 その結果,本手法は最先端技術よりも優れており,ほとんどのテスト入力に対してKNN予測結果のロバスト性を決定することができることがわかった。

Data poisoning aims to compromise a machine learning based software component by contaminating its training set to change its prediction results for test inputs. Existing methods for deciding data-poisoning robustness have either poor accuracy or long running time and, more importantly, they can only certify some of the truly-robust cases, but remain inconclusive when certification fails. In other words, they cannot falsify the truly-non-robust cases. To overcome this limitation, we propose a systematic testing based method, which can falsify as well as certify data-poisoning robustness for a widely used supervised-learning technique named k-nearest neighbors (KNN). Our method is faster and more accurate than the baseline enumeration method, due to a novel over-approximate analysis in the abstract domain, to quickly narrow down the search space, and systematic testing in the concrete domain, to find the actual violations. We have evaluated our method on a set of supervised-learning datasets. Our results show that the method significantly outperforms state-of-the-art techniques, and can decide data-poisoning robustness of KNN prediction results for most of the test inputs.
翻訳日:2023-07-18 14:22:26 公開日:2023-07-17
# 線形モード接続性を超えて行く:階層的線形特徴接続性

Going Beyond Linear Mode Connectivity: The Layerwise Linear Feature Connectivity ( http://arxiv.org/abs/2307.08286v1 )

ライセンス: Link先を確認
Zhanpeng Zhou, Yongyi Yang, Xiaojiang Yang, Junchi Yan, Wei Hu(参考訳) 最近の研究は、十分に理解されておらず、非常に複雑な損失の風景とトレーニングのダイナミクスにもかかわらず、ニューラルネットワークトレーニングにおいて興味深い経験的現象を数多く明らかにしている。 これらの現象の1つであるリニアモード接続(lmc)は、パラメータ空間内の線形経路によって異なる解が接続できるという興味深い観察により、ほぼ安定なトレーニングとテスト損失を維持しながら、かなりの注目を集めている。 本研究では,異なるネットワーク内の各層の特徴マップが線形連結であることを示す,リニア接続のより強固な概念であるレイヤワイズリニア特徴接続(llfc)を導入する。 LLFCの総合的な実証的証拠として,2つの訓練されたネットワークがLCCを満たす場合(生成法と置換法のいずれか)に,LLFCをほぼすべての層で満たすことを示す。 さらに, LLFCに寄与する要因を深く掘り下げ, 発芽と置換のアプローチに関する新たな知見を明らかにした。 LLFCの超越についての研究は,特徴学習の視点を取り入れることでLCCの理解を深める。

Recent work has revealed many intriguing empirical phenomena in neural network training, despite the poorly understood and highly complex loss landscapes and training dynamics. One of these phenomena, Linear Mode Connectivity (LMC), has gained considerable attention due to the intriguing observation that different solutions can be connected by a linear path in the parameter space while maintaining near-constant training and test losses. In this work, we introduce a stronger notion of linear connectivity, Layerwise Linear Feature Connectivity (LLFC), which says that the feature maps of every layer in different trained networks are also linearly connected. We provide comprehensive empirical evidence for LLFC across a wide range of settings, demonstrating that whenever two trained networks satisfy LMC (via either spawning or permutation methods), they also satisfy LLFC in nearly all the layers. Furthermore, we delve deeper into the underlying factors contributing to LLFC, which reveal new insights into the spawning and permutation approaches. The study of LLFC transcends and advances our understanding of LMC by adopting a feature-learning perspective.
翻訳日:2023-07-18 14:22:04 公開日:2023-07-17
# 最小濃度を持つ局所安定集合

Locally stable sets with minimum cardinality ( http://arxiv.org/abs/2307.08330v1 )

ライセンス: Link先を確認
Hai-Qing Cao, Mao-Sheng Li, Hui-Juan Zuo(参考訳) この非局所集合は近年広く注目されている。 間もなく、Li と Wang arXiv:2202.09034 は局所安定集合の概念を提案した。 局所安定集合は局所的に区別できない集合よりも強い非局所性を示す。 本研究では,多部量子系における局所安定集合の構成に焦点をあてる。 まず、直交保存された局所的な測定が自明であることを証明するために、2つの補題が提案される。 次に、二部量子系$\mathbb{C}^{d}\otimes \mathbb{C}^{d}$$(d\geq 3)$および$\mathbb{C}^{d_{1}}\otimes \mathbb{C}^{d_{2}}$$(3\leq d_{1}\leq d_{2})$における最小濃度の局所安定集合の構成を示す。 さらに、多部量子系 $(\mathbb{C}^{d})^{\otimes n}$$(d\geq 2)$ と $\otimes^{n}_{i=1}\mathbb{C}^{d_{i}}$ $(3\leq d_{1}\leq d_{2}\leq\cdots\leq d_{n})$ に対して、それぞれ$d+1$ と $d_{n}+1$ の局所安定直交状態を得る。 幸いなことに、我々の構成は局所安定集合の濃度の上限に到達し、arxiv:2202.09034で提起された開問題に対する正の完全な解を与える。

The nonlocal set has received wide attention over recent years. Shortly before, Li and Wang arXiv:2202.09034 proposed the concept of a locally stable set: the only possible orthogonality preserving measurement on each subsystem is trivial. Locally stable sets present stronger nonlocality than those sets that are just locally indistinguishable. In this work, we focus on the constructions of locally stable sets in multipartite quantum systems. First, two lemmas are put forward to prove that an orthogonality-preserving local measurement must be trivial. Then we present the constructions of locally stable sets with minimum cardinality in bipartite quantum systems $\mathbb{C}^{d}\otimes \mathbb{C}^{d}$ $(d\geq 3)$ and $\mathbb{C}^{d_{1}}\otimes \mathbb{C}^{d_{2}}$ $(3\leq d_{1}\leq d_{2})$. Moreover, for the multipartite quantum systems $(\mathbb{C}^{d})^{\otimes n}$ $(d\geq 2)$ and $\otimes^{n}_{i=1}\mathbb{C}^{d_{i}}$ $(3\leq d_{1}\leq d_{2}\leq\cdots\leq d_{n})$, we also obtain $d+1$ and $d_{n}+1$ locally stable orthogonal states respectively. Fortunately, our constructions reach the lower bound of the cardinality on the locally stable sets, which provides a positive and complete answer to an open problem raised in arXiv:2202.09034 .
翻訳日:2023-07-18 14:16:24 公開日:2023-07-17
# 説明可能な機械学習における逆例の影響分析

Analyzing the Impact of Adversarial Examples on Explainable Machine Learning ( http://arxiv.org/abs/2307.08327v1 )

ライセンス: Link先を確認
Prathyusha Devabhakthini, Sasmita Parida, Raj Mani Shukla, Suvendu Chandan Nayak(参考訳) 敵対的攻撃は機械学習モデルに対する攻撃の一種であり、攻撃者は入力を意図的に修正し、モデルに誤った予測をさせる。 敵対的な攻撃は、特に自動運転車、医療診断、セキュリティシステムなどのアプリケーションにおいて深刻な結果をもたらす可能性がある。 ディープラーニングモデルの脆弱性から敵の攻撃への取り組みは、モデルが望まないことを予測させるサンプルを作るのは非常に簡単であることを示している。 本研究では,テキスト分類問題に対する敵意攻撃によるモデル解釈可能性の影響を分析する。 テキストデータのためのmlに基づく分類モデルを開発した。 次に,攻撃後の分類性能を理解するために,テキストデータの逆摂動について述べる。 その後、攻撃前後のモデルの説明可能性を分析し、解釈する。

Adversarial attacks are a type of attack on machine learning models where an attacker deliberately modifies the inputs to cause the model to make incorrect predictions. Adversarial attacks can have serious consequences, particularly in applications such as autonomous vehicles, medical diagnosis, and security systems. Work on the vulnerability of deep learning models to adversarial attacks has shown that it is very easy to make samples that make a model predict things that it doesn't want to. In this work, we analyze the impact of model interpretability due to adversarial attacks on text classification problems. We develop an ML-based classification model for text data. Then, we introduce the adversarial perturbations on the text data to understand the classification performance after the attack. Subsequently, we analyze and interpret the model's explainability before and after the attack
翻訳日:2023-07-18 14:15:43 公開日:2023-07-17
# 長期データに基づくフェデレーション学習のためのセキュアな集約

A Secure Aggregation for Federated Learning on Long-Tailed Data ( http://arxiv.org/abs/2307.08324v1 )

ライセンス: Link先を確認
Yanna Jiang, Baihe Ma, Xu Wang, Guangsheng Yu, Caijun Sun, Wei Ni, Ren Ping Liu(参考訳) 分散学習として、フェデレートラーニング(FL)は、参加者間のトレーニングデータの非バランス分布と、ビザンティンノードによるモデルアタックの2つの課題に直面している。 本稿では,flシナリオにおけるビザンチンノードの存在下でのロングテール分布について考察する。 悪質なモデルの拒絶と、テールクラスデータ情報を含む有意義なモデルの選択のために、新しい2層アグリゲーション法を提案する。 我々は,すべての参加者の知恵を活かすため,シンクタンクの概念を導入する。 予備実験は、シンクタンクがグローバルアグリゲーションに有効なモデル選択をすることができることを検証した。

As a distributed learning, Federated Learning (FL) faces two challenges: the unbalanced distribution of training data among participants, and the model attack by Byzantine nodes. In this paper, we consider the long-tailed distribution with the presence of Byzantine nodes in the FL scenario. A novel two-layer aggregation method is proposed for the rejection of malicious models and the advisable selection of valuable models containing tail class data information. We introduce the concept of think tank to leverage the wisdom of all participants. Preliminary experiments validate that the think tank can make effective model selections for global aggregation.
翻訳日:2023-07-18 14:15:33 公開日:2023-07-17
# 法的シロジズムの促進: 法的判断予測のための大規模言語モデル教育

Legal Syllogism Prompting: Teaching Large Language Models for Legal Judgment Prediction ( http://arxiv.org/abs/2307.08321v1 )

ライセンス: Link先を確認
Cong Jiang and Xiaolei Yang(参考訳) 法的シルロジズム(英: legal syllogism)は、法律専門家がケースを分析するのによく使う演法的推論の一形態である。 本稿では,大言語モデル(LLM)を法的な判断予測のために簡易に指導する法的なシロジズム促進法 (LoT) を提案する。 LoTは法的なシロジズムにおいて、主要な前提は法であり、小さな前提は事実であり、結論は判断である、とのみ教えている。 すると、モデルはケースのシロジズム推論を生成し、学習、微調整、例を使わずに判断を下すことができる。 中国の犯罪事例データセットCAIL2018において,GPT-3モデルを用いてゼロショット判定予測実験を行った。 その結果,多種多様な推論タスクに対する最先端のプロンプト手法である思考プロンプトのベースラインとチェーンよりも,llmの性能が向上した。 LoTは、モデルが判断に関連する重要な情報に集中し、他の方法と比較して、行為の法的意味を正しく理解することを可能にする。 本手法により,LLMは法則や正当化とともに判断を予測でき,モデルの説明可能性を大幅に向上させることができる。

Legal syllogism is a form of deductive reasoning commonly used by legal professionals to analyze cases. In this paper, we propose legal syllogism prompting (LoT), a simple prompting method to teach large language models (LLMs) for legal judgment prediction. LoT teaches only that in the legal syllogism the major premise is law, the minor premise is the fact, and the conclusion is judgment. Then the models can produce a syllogism reasoning of the case and give the judgment without any learning, fine-tuning, or examples. On CAIL2018, a Chinese criminal case dataset, we performed zero-shot judgment prediction experiments with GPT-3 models. Our results show that LLMs with LoT achieve better performance than the baseline and chain of thought prompting, the state-of-art prompting method on diverse reasoning tasks. LoT enables the model to concentrate on the key information relevant to the judgment and to correctly understand the legal meaning of acts, as compared to other methods. Our method enables LLMs to predict judgment along with law articles and justification, which significantly enhances the explainability of models.
翻訳日:2023-07-18 14:15:23 公開日:2023-07-17
# 雑音ラベルと未調整ラベルデータを用いた条件付きgan学習のためのソフトカリキュラム

Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data ( http://arxiv.org/abs/2307.08319v1 )

ライセンス: Link先を確認
Kai Katsumata, Duc Minh Vo, Tatsuya Harada, Hideki Nakayama(参考訳) 条件付き生成逆ネットワークの訓練において、クリーンなラベル付きデータの仮定を補うためにラベルノイズまたはキュレーションされていないデータが用いられるが、そのような拡張された仮定を満たすことは、時として困難または非現実的である。 誰でもアクセス可能な生成モデリングへのステップとして、トレーニング中にノイズラベル付き未修正データを受け入れる新しい条件付き画像生成フレームワークを導入する。 (i)ラベルデータ中のクローズドセット及びオープンセットラベルノイズ (ii)クローズドセットおよびオープンセット未ラベルデータ。 そこで本研究では,ラベル付きデータに新たなラベルを割り当て,ラベル付きデータに間違ったラベルを修正しながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。 トレーニングサンプルの選択にしきい値を用いる一般的なカリキュラム学習とは違い,ソフトカリキュラムは補助分類器によって予測される重みを用いて各トレーニングインスタンスの効果を制御し,有害なサンプルを無視しながら有用なサンプルを保存する。 実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。 特に、提案手法は、ラベル付きデータの半分未満であっても、(半)教師付きGANの性能と一致させることができる。

Label-noise or curated unlabeled data is used to compensate for the assumption of clean labeled data in training the conditional generative adversarial network; however, satisfying such an extended assumption is occasionally laborious or impractical. As a step towards generative modeling accessible to everyone, we introduce a novel conditional image generation framework that accepts noisy-labeled and uncurated unlabeled data during training: (i) closed-set and open-set label noise in labeled data and (ii) closed-set and open-set unlabeled data. To combat it, we propose soft curriculum learning, which assigns instance-wise weights for adversarial training while assigning new labels for unlabeled data and correcting wrong labels for labeled data. Unlike popular curriculum learning, which uses a threshold to pick the training samples, our soft curriculum controls the effect of each training instance by using the weights predicted by the auxiliary classifier, resulting in the preservation of useful samples while ignoring harmful ones. Our experiments show that our approach outperforms existing semi-supervised and label-noise robust methods in terms of both quantitative and qualitative performance. In particular, the proposed approach is able to match the performance of (semi-) supervised GANs even with less than half the labeled data.
翻訳日:2023-07-18 14:15:04 公開日:2023-07-17
# ビデオ気管支鏡における気道ラベル予測:解剖学的知識を用いた時間依存性の把握

Airway Label Prediction in Video Bronchoscopy: Capturing Temporal Dependencies Utilizing Anatomical Knowledge ( http://arxiv.org/abs/2307.08318v1 )

ライセンス: Link先を確認
Ron Keuth, Mattias Heinrich, Martin Eichenlaub and Marian Himstedt(参考訳) 目的: ビデオ気管支鏡を用いた多彩な肺介入は, ナビゲーション指導が重要な要件である。 現状の解決策は、電磁的追跡と術中画像登録による肺生検に焦点を当てている。 患者固有のCTスキャンの要件は、集中治療装置などの他の用途のナビゲーションガイダンスの利用を妨げている。 方法: bronchosopyビデオデータのみを組み込んだナビゲーションガイダンスについて述べる。 最先端のアプローチとは対照的に、電磁的追跡と患者固有のCTスキャンの使用を完全に省略する。 患者間気道モデルを用いたトポロジカル気管支鏡の局所化により誘導が可能となる。 特に,気道木が順次横切るという解剖学的制約を最大限に活用する。 これはcnnベースの気道確率のシーケンスを隠れマルコフモデルに組み込むことによって実現される。 結果: 本手法は肺ファントムモデル内の複数の実験に基づいて評価した。 時間的文脈を考慮し、解剖学的知識を正規化に利用することにより、個々のフレームに基づく分類において、0.81(重み付きF1:0.98)と比較して0.98まで精度を向上することができる。 結論:cnnに基づく気道セグメントの単一画像分類と解剖学的制約と時間hmmに基づく推論を初めて組み合わせた。 本手法は, 患者固有のctスキャンを必要とせず, 気管支鏡の介入に対して視覚のみの指導を行う。

Purpose: Navigation guidance is a key requirement for a multitude of lung interventions using video bronchoscopy. State-of-the-art solutions focus on lung biopsies using electromagnetic tracking and intraoperative image registration w.r.t. preoperative CT scans for guidance. The requirement of patient-specific CT scans hampers the utilisation of navigation guidance for other applications such as intensive care units. Methods: This paper addresses navigation guidance solely incorporating bronchosopy video data. In contrast to state-of-the-art approaches we entirely omit the use of electromagnetic tracking and patient-specific CT scans. Guidance is enabled by means of topological bronchoscope localization w.r.t. an interpatient airway model. Particularly, we take maximally advantage of anatomical constraints of airway trees being sequentially traversed. This is realized by incorporating sequences of CNN-based airway likelihoods into a Hidden Markov Model. Results: Our approach is evaluated based on multiple experiments inside a lung phantom model. With the consideration of temporal context and use of anatomical knowledge for regularization, we are able to improve the accuracy up to to 0.98 compared to 0.81 (weighted F1: 0.98 compared to 0.81) for a classification based on individual frames. Conclusion: We combine CNN-based single image classification of airway segments with anatomical constraints and temporal HMM-based inference for the first time. Our approach renders vision-only guidance for bronchoscopy interventions in the absence of electromagnetic tracking and patient-specific CT scans possible.
翻訳日:2023-07-18 14:14:41 公開日:2023-07-17
# より一般的なビデオ顔偽造検出のためのAltフリーズ

AltFreezing for More General Video Face Forgery Detection ( http://arxiv.org/abs/2307.08317v1 )

ライセンス: Link先を確認
Zhendong Wang, Jianmin Bao, Wengang Zhou, Weilun Wang, Houqiang Li(参考訳) 既存の顔偽造検出モデルは、空間的アーティファクト(例えば、生成アーティファクト、ブレンディング)または主に時間的アーティファクト(例えば、フリッカリング、不連続)を検出することによって、偽画像の識別を試みる。 ドメイン外アーティファクトに直面した場合、パフォーマンスが著しく低下する可能性がある。 本稿では,顔偽造検出のための一つのモデルにおいて,空間的および時間的アーティファクトをキャプチャする手法を提案する。 単純なアイデアは時空間モデル(3D ConvNet)を活用することである。 しかし、ある種類のアーティファクトに簡単に依存し、もう一方を無視している可能性がある。 この問題に対処するために,より一般的な顔偽造検出のためのAltFreezingと呼ばれる新しいトレーニング戦略を提案する。 AltFreezingは、空間的および時間的アーティファクトの両方を検出するモデルを促進することを目的としている。 時空間ネットワークの重みは空間的関係と時間的関係の2つのグループに分けられる。 次に、トレーニングプロセス中に2つの重みの群が交互に凍結され、モデルが空間的および時間的特徴を学習し、実または偽のビデオの区別を可能にする。 さらに, 偽造検出モデルの一般化能力を向上させるため, 様々な映像レベルのデータ拡張手法を導入する。 広範な実験によって、我々のフレームワークは、未発見の操作やデータセットへの一般化の観点から、既存のメソッドよりも優れています。 コードはhttps: //github.com/ZhendongWang6/AltFreezingで入手できる。

Existing face forgery detection models try to discriminate fake images by detecting only spatial artifacts (e.g., generative artifacts, blending) or mainly temporal artifacts (e.g., flickering, discontinuity). They may experience significant performance degradation when facing out-domain artifacts. In this paper, we propose to capture both spatial and temporal artifacts in one model for face forgery detection. A simple idea is to leverage a spatiotemporal model (3D ConvNet). However, we find that it may easily rely on one type of artifact and ignore the other. To address this issue, we present a novel training strategy called AltFreezing for more general face forgery detection. The AltFreezing aims to encourage the model to detect both spatial and temporal artifacts. It divides the weights of a spatiotemporal network into two groups: spatial-related and temporal-related. Then the two groups of weights are alternately frozen during the training process so that the model can learn spatial and temporal features to distinguish real or fake videos. Furthermore, we introduce various video-level data augmentation methods to improve the generalization capability of the forgery detection model. Extensive experiments show that our framework outperforms existing methods in terms of generalization to unseen manipulations and datasets. Code is available at https: //github.com/ZhendongWang6/AltFreezing.
翻訳日:2023-07-18 14:14:20 公開日:2023-07-17
# 可視赤外人物再同定のための多層クロスモダリティ関節アライメント

Bridging the Gap: Multi-Level Cross-Modality Joint Alignment for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2307.08316v1 )

ライセンス: Link先を確認
Tengfei Liang, Yi Jin, Wu Liu, Tao Wang, Songhe Feng, Yidong Li(参考訳) 可視赤外人物再同定(vi-reid)は、歩行者の画像を可視カメラと赤外線カメラでマッチングすることを目的とした、難解なクロスモダリティ画像検索タスクである。 モダリティギャップを解決するため、既存の主流手法では、画像検索タスクをクロスエントロピー損失と補助的メトリック学習損失を伴う画像分類タスクに変換する学習パラダイムを採用している。 これらの損失は, クラス内距離を減少させ, クラス間距離を増大させるため, 抽出した埋め込みの分布を調整する戦略に従う。 しかし、このような目的は検索タスクの最終テスト設定と正確には一致しないため、最適化レベルでの新たなギャップが生じる。 VI-ReIDのこれらのキーを再考することにより,モダリティと目的レベルのギャップを埋める,単純かつ効果的な手法であるMulti-level Cross-modality Joint Alignment (MCJA)を提案する。 前者に対しては、重み付きグレースケール、クロスチャネルカットミックス、スペクトルジッタ拡張の3つの新しい戦略からなるModality Alignment Augmentationを設計し、画像空間におけるモダリティの差を効果的に低減する。 後者では、新たなクロスモーダル検索損失を導入する。 テストステージの目標に合わせて、ランキングリストの観点から制約する最初の作業である。 さらに,グローバルな特徴のみに基づいて,提案手法は優れた性能を示し,VI-ReIDコミュニティの強力なベースライン手法として機能する。

Visible-Infrared person Re-IDentification (VI-ReID) is a challenging cross-modality image retrieval task that aims to match pedestrians' images across visible and infrared cameras. To solve the modality gap, existing mainstream methods adopt a learning paradigm converting the image retrieval task into an image classification task with cross-entropy loss and auxiliary metric learning losses. These losses follow the strategy of adjusting the distribution of extracted embeddings to reduce the intra-class distance and increase the inter-class distance. However, such objectives do not precisely correspond to the final test setting of the retrieval task, resulting in a new gap at the optimization level. By rethinking these keys of VI-ReID, we propose a simple and effective method, the Multi-level Cross-modality Joint Alignment (MCJA), bridging both modality and objective-level gap. For the former, we design the Modality Alignment Augmentation, which consists of three novel strategies, the weighted grayscale, cross-channel cutmix, and spectrum jitter augmentation, effectively reducing modality discrepancy in the image space. For the latter, we introduce a new Cross-Modality Retrieval loss. It is the first work to constrain from the perspective of the ranking list, aligning with the goal of the testing stage. Moreover, based on the global feature only, our method exhibits good performance and can serve as a strong baseline method for the VI-ReID community.
翻訳日:2023-07-18 14:13:55 公開日:2023-07-17
# IterLara: ビッグデータ、AI、科学計算、データベースのためのチューリング完全代数

IterLara: A Turing Complete Algebra for Big Data, AI, Scientific Computing, and Database ( http://arxiv.org/abs/2307.08315v1 )

ライセンス: Link先を確認
Hongxiao Li, Wanling Gao, Lei Wang, Jianfeng Zhan(参考訳) textsc{Lara} は、3種類の操作抽象化を持つ線形およびリレーショナル代数の統合を目的としたキー値代数である。 textsc{lara} の表現能力の研究によれば、関係代数やほとんどの線形代数演算を表すことができる。 しかし、行列反転や行列式などのいくつかの重要な計算は、textsc{Lara} では表現できない。 \textsc{lara} はグローバル計算や反復計算も表現できない。 本稿では, \textsc{iterlara} を反復演算子で拡張し,ビッグデータ,ai,科学計算,データベースといった汎用コンピューティングの操作を統合する代数モデルを提案する。 我々は, 集合関数を持つ \textsc{IterLara} と \textsc{IterLara} の表現能力について検討し, 行列反転, 行列式を表現することができることを示す。 さらに、関数ユーティリティの制限のない \textsc{IterLara} がチューリング完全であることを示す。 また,演算カウンタ(OP)をtextsc{IterLara} の計算量のメートル法として提案し,OP メトリックが既存の計算メトリクスに従っていることを保証する。

\textsc{Lara} is a key-value algebra that aims at unifying linear and relational algebra with three types of operation abstraction. The study of \textsc{Lara}'s expressive ability reports that it can represent relational algebra and most linear algebra operations. However, several essential computations, such as matrix inversion and determinant, cannot be expressed in \textsc{Lara}. \textsc{Lara} cannot represent global and iterative computation, either. This article proposes \textsc{IterLara}, extending \textsc{Lara} with iterative operators, to provide an algebraic model that unifies operations in general-purpose computing, like big data, AI, scientific computing, and database. We study the expressive ability of \textsc{Lara} and \textsc{IterLara} and prove that \textsc{IterLara} with aggregation functions can represent matrix inversion, determinant. Besides, we demonstrate that \textsc{IterLara} with no limitation of function utility is Turing complete. We also propose the Operation Count (OP) as a metric of computation amount for \textsc{IterLara} and ensure that the OP metric is in accordance with the existing computation metrics.
翻訳日:2023-07-18 14:13:27 公開日:2023-07-17
# LogPr\'ecis: 自動シェルログ分析のための言語モデル公開

LogPr\'ecis: Unleashing Language Models for Automated Shell Log Analysis ( http://arxiv.org/abs/2307.08309v1 )

ライセンス: Link先を確認
Matteo Boffa, Rodolfo Vieira Valentim, Luca Vassio, Danilo Giordano, Idilio Drago, Marco Mellia, Zied Ben Houidi(参考訳) セキュリティ関連のログの収集は、攻撃行動の理解と脆弱性の診断の鍵を握っている。 それでも、彼らの分析はいまだに困難な課題だ。 近年,自然言語やプログラミング言語の理解において,言語モデル (LM) が未適合の可能性を実証している。 この疑問は、lmsが本質的に混乱した情報と難読化情報を含んでいるため、セキュリティ専門家にも有用であるかどうか、そしてどのように役立つかについて生じている。 本稿では,テキストのようなUnixシェル攻撃ログを自動的に解析するために,LMの最先端技術によるメリットを体系的に研究する。 我々はlogpr\'ecisにつながる設計手法を徹底的に紹介する。 入力された生のシェルセッションとして受け取り、自動的に攻撃者の戦術をセッションの各部分、すなわち攻撃者の目標のシーケンスを明示し割り当てる。 約40,000のUnixシェル攻撃を含む2つの大きなデータセットの分析をサポートするLogPr\'ecis機能を示す。 LogPr\'ecisはそれらを約3,000の指紋に減らし、それぞれが同じ戦術でグループ化する。 この抽象化によって、アナリストは攻撃をよりよく理解し、指紋を識別し、新規性を検出し、類似した攻撃をリンクし、家族や突然変異を追跡する。 全体として、LogPr\'ecisはオープンソースとしてリリースされ、サイバー攻撃に対するより良い、よりレスポンシブな防御の道を開いた。

The collection of security-related logs holds the key to understanding attack behaviors and diagnosing vulnerabilities. Still, their analysis remains a daunting challenge. Recently, Language Models (LMs) have demonstrated unmatched potential in understanding natural and programming languages. The question arises whether and how LMs could be also useful for security experts since their logs contain intrinsically confused and obfuscated information. In this paper, we systematically study how to benefit from the state-of-the-art in LM to automatically analyze text-like Unix shell attack logs. We present a thorough design methodology that leads to LogPr\'ecis. It receives as input raw shell sessions and automatically identifies and assigns the attacker tactic to each portion of the session, i.e., unveiling the sequence of the attacker's goals. We demonstrate LogPr\'ecis capability to support the analysis of two large datasets containing about 400,000 unique Unix shell attacks. LogPr\'ecis reduces them into about 3,000 fingerprints, each grouping sessions with the same sequence of tactics. The abstraction it provides lets the analyst better understand attacks, identify fingerprints, detect novelty, link similar attacks, and track families and mutations. Overall, LogPr\'ecis, released as open source, paves the way for better and more responsive defense against cyberattacks.
翻訳日:2023-07-18 14:13:03 公開日:2023-07-17
# Box-DETR: 条件空間クエリの理解とボクシング

Box-DETR: Understanding and Boxing Conditional Spatial Queries ( http://arxiv.org/abs/2307.08353v1 )

ライセンス: Link先を確認
Wenze Liu, Hao Lu, Yuliang Liu, Zhiguo Cao(参考訳) 近年,コンバージェンスを高速化するために,条件付き空間クエリーをDetection TRansformer (DETR) に導入している。 DAB-DETRでは、これらのクエリはデコーダの各段階でいわゆる条件線形射影によって変調され、ボックスの4つの極限のような興味ある位置を探索する。 各デコーダステージはアンカーボックスオフセットを予測してボックスを段階的に更新し、クロスアテンションではボックスセンターのみを基準ポイントとして通知する。 しかし、ボックスセンターのみを使用することで、以前のボックスの幅と高さが現在のステージに不明となり、オフセットの正確な予測が妨げられる。 ボックス全体の情報を横断的関心事に明示的に利用することは重要であると論じる。 本研究では,ボックスを頭固有のエージェントポイントにコンデンスするためのBox Agentを提案する。 各ヘッドの基準点として、ボックスセンターをエージェントポイントに置き換えることで、条件付きクロスアテンションは、常に前のボックスセンターからではなく、前のボックスのスコープ全体を考慮して、より合理的なスタートポイントから位置を探索することができる。 これは条件付き線形射影の負担を大幅に軽減する。 実験結果から,ボックスエージェントはコンバージェンスを高速化するだけでなく,検出性能も向上することが明らかとなった。例えば,我々の単一スケールモデルでは,DAB-DETRに基づくResNet-50で44.2ドルAPを達成した。 我々のボックスエージェントは、コードにマイナーな修正を必要とし、計算ワークロードは無視できる。 コードはhttps://github.com/tiny-smart/box-detrで入手できる。

Conditional spatial queries are recently introduced into DEtection TRansformer (DETR) to accelerate convergence. In DAB-DETR, such queries are modulated by the so-called conditional linear projection at each decoder stage, aiming to search for positions of interest such as the four extremities of the box. Each decoder stage progressively updates the box by predicting the anchor box offsets, while in cross-attention only the box center is informed as the reference point. The use of only box center, however, leaves the width and height of the previous box unknown to the current stage, which hinders accurate prediction of offsets. We argue that the explicit use of the entire box information in cross-attention matters. In this work, we propose Box Agent to condense the box into head-specific agent points. By replacing the box center with the agent point as the reference point in each head, the conditional cross-attention can search for positions from a more reasonable starting point by considering the full scope of the previous box, rather than always from the previous box center. This significantly reduces the burden of the conditional linear projection. Experimental results show that the box agent leads to not only faster convergence but also improved detection performance, e.g., our single-scale model achieves $44.2$ AP with ResNet-50 based on DAB-DETR. Our Box Agent requires minor modifications to the code and has negligible computational workload. Code is available at https://github.com/tiny-smart/box-detr.
翻訳日:2023-07-18 14:04:59 公開日:2023-07-17
# ソフトマックス注意最適化のためのゼロ次アルゴリズム

Zero-th Order Algorithm for Softmax Attention Optimization ( http://arxiv.org/abs/2307.08352v1 )

ライセンス: Link先を確認
Yichuan Deng, Zhihang Li, Sridhar Mahadevan, Zhao Song(参考訳) 大きな言語モデル(LLM)は、人間の社会に大きな変革をもたらした。 LLMにおける重要な計算のうち、ソフトマックス単位は非常に重要である。 これは、一連の入力単語を考慮して、潜在的に後続する単語やフレーズの確率分布を生成するモデルに役立つ。 この分布を利用して、与えられた確率に基づいて最も確率の高い次の単語またはフレーズを選択する。 softmaxユニットは、ニューラルネットワークの重みとバイアスの調整を通じてデータからの学習を容易にするため、llmトレーニングにおいて重要な機能を仮定する。 LLMのサイズが大きくなるにつれて、勾配の計算は高価になる。 しかし、ゼロオーダー法は前方通過のみの勾配を計算することができる。 本稿では,ソフトマックス最適化に特化したゼロ次アルゴリズムを提案する。 我々は,アルゴリズムの収束性を実証し,大規模LLMの効率よく勾配を計算する上での有効性を強調した。 ゼロ次法を活用することで,複雑な言語モデルの文脈における最適化手法の進歩に寄与する。

Large language models (LLMs) have brought about significant transformations in human society. Among the crucial computations in LLMs, the softmax unit holds great importance. Its helps the model generating a probability distribution on potential subsequent words or phrases, considering a series of input words. By utilizing this distribution, the model selects the most probable next word or phrase, based on the assigned probabilities. The softmax unit assumes a vital function in LLM training as it facilitates learning from data through the adjustment of neural network weights and biases. With the development of the size of LLMs, computing the gradient becomes expensive. However, Zero-th Order method can approximately compute the gradient with only forward passes. In this paper, we present a Zero-th Order algorithm specifically tailored for Softmax optimization. We demonstrate the convergence of our algorithm, highlighting its effectiveness in efficiently computing gradients for large-scale LLMs. By leveraging the Zeroth-Order method, our work contributes to the advancement of optimization techniques in the context of complex language models.
翻訳日:2023-07-18 14:04:34 公開日:2023-07-17
# 条件付きコーンビームニューラルトモグラフィのための神経変調場

Neural Modulation Fields for Conditional Cone Beam Neural Tomography ( http://arxiv.org/abs/2307.08351v1 )

ライセンス: Link先を確認
Samuele Papa, David M. Knigge, Riccardo Valperga, Nikita Moriakov, Miltos Kofinas, Jan-Jakob Sonke, Efstratios Gavves(参考訳) 従来のCT法では、精度の高い密度再構成のために多数のノイズフリープロジェクションが必要であり、より複雑なコーンビーム幾何CT(CBCT)再構成に適用可能である。 近年,この制約を克服する深層学習法が提案されている。連続空間座標に基づくニューラルネットワークを用いて再構成された密度を近似することにより,ニューラルネットワーク(NF)に基づく手法は高い性能を示す。 このような手法の改善に重点を置いているが、新しいプロジェクションセットごとにNFをスクラッチからトレーニングする必要がある従来の作業とは異なり、プロジェクションのデータセット上で単一の条件NFをトレーニングすることで、異なるスキャン上で解剖学的コンストラクタンスを活用することを提案する。 神経変調野(nmf)を介して入力領域上のフィールドとして患者毎の局所変調をモデル化する新しい条件付け手法を提案する。 得られたコンディショナルコーンビームニューラルトモグラフィ(CondCBNT)は、ノイズフリーおよびノイズの多いデータに対して、高値および低値のプロジェクションの性能を向上させる。

Conventional Computed Tomography (CT) methods require large numbers of noise-free projections for accurate density reconstructions, limiting their applicability to the more complex class of Cone Beam Geometry CT (CBCT) reconstruction. Recently, deep learning methods have been proposed to overcome these limitations, with methods based on neural fields (NF) showing strong performance, by approximating the reconstructed density through a continuous-in-space coordinate based neural network. Our focus is on improving such methods, however, unlike previous work, which requires training an NF from scratch for each new set of projections, we instead propose to leverage anatomical consistencies over different scans by training a single conditional NF on a dataset of projections. We propose a novel conditioning method where local modulations are modeled per patient as a field over the input domain through a Neural Modulation Field (NMF). The resulting Conditional Cone Beam Neural Tomography (CondCBNT) shows improved performance for both high and low numbers of available projections on noise-free and noisy data.
翻訳日:2023-07-18 14:04:22 公開日:2023-07-17
# 形状完了のための適応局所基底関数

Adaptive Local Basis Functions for Shape Completion ( http://arxiv.org/abs/2307.08348v1 )

ライセンス: Link先を確認
Hui Ying, Tianjia Shao, He Wang, Yin Yang, Kun Zhou(参考訳) 本稿では,深部暗黙関数を用いた部分点雲からの3次元形状完了の課題に焦点を当てる。 既存の手法では、ボキセル化基底関数や特定の関数族(例えばガウス)の関数を使いたがっており、高い計算コストや限られた形状表現性をもたらす。 一方,本手法では,エンド・ツー・エンドで学習され,特定の形式に制限されない適応型局所基底関数を用いる。 これらの基礎関数に基づいて、局所的な形状完備化フレームワークを示す。 本アルゴリズムは,局所的な幾何学的詳細を保存しながら,少数の基底関数でスパースパラメータ化を学習する。 定量的および定性的な実験により,本手法は形状完備化,細部保存,未確認測地への一般化,計算コストにおいて,最先端の手法よりも優れていることが示された。 コードとデータはhttps://github.com/yinghdb/Adaptive-Local-Basis-Functionsにある。

In this paper, we focus on the task of 3D shape completion from partial point clouds using deep implicit functions. Existing methods seek to use voxelized basis functions or the ones from a certain family of functions (e.g., Gaussians), which leads to high computational costs or limited shape expressivity. On the contrary, our method employs adaptive local basis functions, which are learned end-to-end and not restricted in certain forms. Based on those basis functions, a local-to-local shape completion framework is presented. Our algorithm learns sparse parameterization with a small number of basis functions while preserving local geometric details during completion. Quantitative and qualitative experiments demonstrate that our method outperforms the state-of-the-art methods in shape completion, detail preservation, generalization to unseen geometries, and computational cost. Code and data are at https://github.com/yinghdb/Adaptive-Local-Basis-Functions.
翻訳日:2023-07-18 14:04:01 公開日:2023-07-17
# M-FLAG:凍結言語モデルと潜時空間幾何最適化による医用ビジョンランゲージ事前訓練

M-FLAG: Medical Vision-Language Pre-training with Frozen Language Models and Latent Space Geometry Optimization ( http://arxiv.org/abs/2307.08347v1 )

ライセンス: Link先を確認
Che Liu, Sibo Cheng, Chen Chen, Mengyun Qiao, Weitong Zhang, Anand Shah, Wenjia Bai, Rossella Arcucci(参考訳) 医用視覚言語モデルでは、医用画像と臨床用テキストのコラーニングと統合が可能である。 しかし、これらのモデルは訓練が簡単ではなく、潜在表現空間は複雑である。 本稿では,医療ビジョン言語モデルの事前学習と正規化のための新しい手法を提案する。 提案手法は, 凍結型言語モデルとラテントspAce Geometry Optimization (M-FLAG) を用いた医用視覚言語事前訓練と呼ばれ, 凍結型言語モデルを用いて安定性と効率を訓練し, 遅延空間幾何を調和させる新しい直交損失を導入した。 医用画像分類,セグメンテーション,物体検出の3つの下流タスクにおいて,事前学習モデルの可能性を示す。 5つの公開データセットにわたる大規模な実験により、M-FLAGは既存の医療ビジョン言語による事前学習アプローチを著しく上回り、パラメータの数を78\%削減することを示した。 特に、m-flag は rsna データセットの 1\% を使いながらセグメンテーションタスクにおいて、100\% のデータを使用して微調整された imagenet の事前トレーニングモデルよりも優れた性能を達成している。

Medical vision-language models enable co-learning and integrating features from medical imaging and clinical text. However, these models are not easy to train and the latent representation space can be complex. Here we propose a novel way for pre-training and regularising medical vision-language models. The proposed method, named Medical vision-language pre-training with Frozen language models and Latent spAce Geometry optimization (M-FLAG), leverages a frozen language model for training stability and efficiency and introduces a novel orthogonality loss to harmonize the latent space geometry. We demonstrate the potential of the pre-trained model on three downstream tasks: medical image classification, segmentation, and object detection. Extensive experiments across five public datasets demonstrate that M-FLAG significantly outperforms existing medical vision-language pre-training approaches and reduces the number of parameters by 78\%. Notably, M-FLAG achieves outstanding performance on the segmentation task while using only 1\% of the RSNA dataset, even outperforming ImageNet pre-trained models that have been fine-tuned using 100\% of the data.
翻訳日:2023-07-18 14:03:46 公開日:2023-07-17
# クーロン支援量子真空複屈折による軸索探索

Axion search via Coulomb-assisted quantum vacuum birefringence ( http://arxiv.org/abs/2307.08345v1 )

ライセンス: Link先を確認
Stefan Evans and Ralf Sch\"utzhold(参考訳) 超高強度光レーザーによって重畳された核のクーロン場におけるX線光子の複屈折(偏光変化)散乱に対する軸イオンや軸イオン様粒子の影響について検討した。 ヘルムホルツ国際極端場ビームライン(hibef)の仕様を適用すると、この設定はパラメータ空間の広い領域におけるpvlasのような以前の実験よりも感度が高いことが分かる。 さらに、ポンプやプローブレーザーの向きや周波数を変えることで、異なる軸質量をスキャンすることができる。

We study the impact of axions or axion-like particles on birefringent (i.e., polarization changing) scattering of x-ray photons at the Coulomb field of nuclei superimposed by optical lasers of ultra-high intensity. Applying the specifications of the Helmholtz International Beamline for Extreme Fields (HIBEF), we find that this set-up can be more sensitive than previous experiments such as PVLAS in a large domain of parameter space. Furthermore, by changing the pump and probe laser orientations and frequencies, one can scan different axion masses.
翻訳日:2023-07-18 14:03:23 公開日:2023-07-17
# 線形偏微分方程式に付随するベイズ逆問題に対するガウス過程

Gaussian processes for Bayesian inverse problems associated with linear partial differential equations ( http://arxiv.org/abs/2307.08343v1 )

ライセンス: Link先を確認
Tianming Bai, Aretha L. Teckentrup, Konstantinos C. Zygalakis(参考訳) この研究は、線型偏微分方程式に関連するベイズ逆問題に対するガウス代用モデルの使用に関するものである。 特に注目されているのは、少量のトレーニングデータしか利用できない体制だ。 この体制において、ガウス的事前使用のタイプは、ベイズ的逆転の観点で代理モデルがいかにうまく機能するかという点において重要である。 私たちはRaissiらのフレームワークを拡張します。 al. (2017) で PDE をインフォームドしたガウス事前の構成を行い、そこから異なる近似後続を構成する。 多くの異なる数値実験は、より伝統的な先行よりも PDE をインフォームドしたガウス以前の優位性を示している。

This work is concerned with the use of Gaussian surrogate models for Bayesian inverse problems associated with linear partial differential equations. A particular focus is on the regime where only a small amount of training data is available. In this regime the type of Gaussian prior used is of critical importance with respect to how well the surrogate model will perform in terms of Bayesian inversion. We extend the framework of Raissi et. al. (2017) to construct PDE-informed Gaussian priors that we then use to construct different approximate posteriors. A number of different numerical experiments illustrate the superiority of the PDE-informed Gaussian priors over more traditional priors.
翻訳日:2023-07-18 14:03:12 公開日:2023-07-17
# 2次元物体検出のためのマルチタスククロスモーダルアテンションフュージョン

Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection ( http://arxiv.org/abs/2307.08339v1 )

ライセンス: Link先を確認
Huawei Sun, Hao Feng, Georg Stettinger, Lorenzo Servadei, Robert Wille(参考訳) 正確で堅牢な物体検出は、自動運転に不可欠である。 画像ベースの検出器は、悪天候下での視認性が低いために困難に直面している。 したがって、レーダー・カメラ融合は特に興味深いが、不均一なデータソースを最適に融合させる際の課題が提示される。 そこで本研究では,レーダーデータとカメラデータの整合性を向上させるための2つの新しいレーダー前処理手法を提案する。 さらに,オブジェクト検出のためのMulti-Task Cross-Modality Attention-Fusion Network (MCAF-Net)を導入する。 これにより、機能マップからの情報をより包括的に活用することができる。 提案アルゴリズムはオブジェクトとセグメントの自由空間を共同で検出し、モデルがシーンのより関連性の高い部分、すなわち占有空間に集中するように誘導する。 提案手法は,現在最先端のレーダカメラ融合型オブジェクト検出器をnuScenesデータセットで上回り,悪天候や夜間シナリオにおいてより堅牢な結果が得られる。

Accurate and robust object detection is critical for autonomous driving. Image-based detectors face difficulties caused by low visibility in adverse weather conditions. Thus, radar-camera fusion is of particular interest but presents challenges in optimally fusing heterogeneous data sources. To approach this issue, we propose two new radar preprocessing techniques to better align radar and camera data. In addition, we introduce a Multi-Task Cross-Modality Attention-Fusion Network (MCAF-Net) for object detection, which includes two new fusion blocks. These allow for exploiting information from the feature maps more comprehensively. The proposed algorithm jointly detects objects and segments free space, which guides the model to focus on the more relevant part of the scene, namely, the occupied space. Our approach outperforms current state-of-the-art radar-camera fusion-based object detectors in the nuScenes dataset and achieves more robust results in adverse weather conditions and nighttime scenarios.
翻訳日:2023-07-18 14:03:01 公開日:2023-07-17
# rayen: ニューラルネットワークに対するハード凸制約の付与

RAYEN: Imposition of Hard Convex Constraints on Neural Networks ( http://arxiv.org/abs/2307.08336v1 )

ライセンス: Link先を確認
Jesus Tordesillas, Jonathan P. How, Marco Hutter(参考訳) 本稿では,ニューラルネットワークの出力変数や潜時変数に厳密な凸制約を課すフレームワークであるRAYENを提案する。 RAYENは、任意の入力やネットワークの重みに対して、常に制約を満たすことを保証します。 他のアプローチと比較して、RAYENは計算的に拡張可能な直交射影のステップを実行せず、(テスト時の制約の満足度を保証しない)ソフトな制約に依存せず、実行可能集合の保守的な近似を使用しず、制約を強制するために潜在的に遅い内傾勾配補正を行わない。 RAYENは線形、凸二次、二階錐(SOC)、線形行列不等式(LMI)制約の組み合わせをサポートし、制約のないネットワークに比べて計算オーバーヘッドが非常に小さい。 For example, it is able to impose 1K quadratic constraints on a 1K-dimensional variable with an overhead of less than 8 ms, and an LMI constraint with 300x300 dense matrices on a 10K-dimensional variable in less than 12 ms. When used in neural networks that approximate the solution of constrained optimization problems, RAYEN achieves computation times between 20 and 7468 times faster than state-of-the-art algorithms, while guaranteeing the satisfaction of the constraints at all times and obtaining a cost very close to the optimal one.

This paper presents RAYEN, a framework to impose hard convex constraints on the output or latent variable of a neural network. RAYEN guarantees that, for any input or any weights of the network, the constraints are satisfied at all times. Compared to other approaches, RAYEN does not perform a computationally-expensive orthogonal projection step onto the feasible set, does not rely on soft constraints (which do not guarantee the satisfaction of the constraints at test time), does not use conservative approximations of the feasible set, and does not perform a potentially slow inner gradient descent correction to enforce the constraints. RAYEN supports any combination of linear, convex quadratic, second-order cone (SOC), and linear matrix inequality (LMI) constraints, achieving a very small computational overhead compared to unconstrained networks. For example, it is able to impose 1K quadratic constraints on a 1K-dimensional variable with an overhead of less than 8 ms, and an LMI constraint with 300x300 dense matrices on a 10K-dimensional variable in less than 12 ms. When used in neural networks that approximate the solution of constrained optimization problems, RAYEN achieves computation times between 20 and 7468 times faster than state-of-the-art algorithms, while guaranteeing the satisfaction of the constraints at all times and obtaining a cost very close to the optimal one.
翻訳日:2023-07-18 14:02:45 公開日:2023-07-17
# 二次基底におけるコヒーレンスとインコヒーレンス

Coherence and incoherence in quadrature basis ( http://arxiv.org/abs/2307.08333v1 )

ライセンス: Link先を確認
Laura Ares and Alfredo Luis(参考訳) 連続変数の量子リソースとしてコヒーレンスを管理する方法はまだ未解決の問題である。 我々はこの状況に、二次的に不整合状態の定義から直面している。 我々は、光の物理的状態に対して、二次基底に対していくつかのコヒーレンスの測度を適用する。 ビーム分割やスクイーズなどのいくつかの変換のコヒーレンスに対する作用について検討する。

How to manage coherence as a continuous variable quantum resource is still an open question. We face this situation from the very definition of incoherent states in quadrature basis. We apply several measures of coherence for some physical states of light relative to a quadrature basis. We examine the action on the coherence of several transformations such as beam splittings and squeezing.
翻訳日:2023-07-18 14:02:21 公開日:2023-07-17
# 管状構造分割の位相幾何学的制約に基づく動的蛇畳み込み

Dynamic Snake Convolution based on Topological Geometric Constraints for Tubular Structure Segmentation ( http://arxiv.org/abs/2307.08388v1 )

ライセンス: Link先を確認
Yaolei Qi and Yuting He and Xiaoming Qi and Yuan Zhang and Guanyu Yang(参考訳) 血管や道路などのトポロジカルな管状構造の正確なセグメンテーションは様々な分野において重要であり、下流の作業において精度と効率を確保する。 しかし、細い局所構造や可変大域形態を含む多くの要因がこのタスクを複雑にしている。 本稿では、管状構造の特異性に注目し、この知識を用いてDSCNetを誘導し、特徴抽出、特徴融合、損失制約の3段階における認識を同時に増強する。 まず,細長い局所構造に適応的に焦点を合わせ,管状構造の特徴を正確に把握するダイナミックスネーク畳み込みを提案する。 次に,複数の視点から機能への注目を補完する多視点特徴融合戦略を提案し,異なるグローバル形態から重要な情報を保持できるようにする。 最後に、持続的ホモロジーに基づく連続性制約損失関数を提案し、セグメンテーションの位相的連続性をよりよく制約する。 2次元および3次元データセットを用いた実験により,dscnetは複数の手法と比較して管状構造分割タスクの精度と連続性が向上することを示した。 私たちのコードは公開されます。

Accurate segmentation of topological tubular structures, such as blood vessels and roads, is crucial in various fields, ensuring accuracy and efficiency in downstream tasks. However, many factors complicate the task, including thin local structures and variable global morphologies. In this work, we note the specificity of tubular structures and use this knowledge to guide our DSCNet to simultaneously enhance perception in three stages: feature extraction, feature fusion, and loss constraint. First, we propose a dynamic snake convolution to accurately capture the features of tubular structures by adaptively focusing on slender and tortuous local structures. Subsequently, we propose a multi-view feature fusion strategy to complement the attention to features from multiple perspectives during feature fusion, ensuring the retention of important information from different global morphologies. Finally, a continuity constraint loss function, based on persistent homology, is proposed to constrain the topological continuity of the segmentation better. Experiments on 2D and 3D datasets show that our DSCNet provides better accuracy and continuity on the tubular structure segmentation task compared with several methods. Our codes will be publicly available.
翻訳日:2023-07-18 13:57:18 公開日:2023-07-17
# ガスタービン排出予測のための表型機械学習手法

Tabular Machine Learning Methods for Predicting Gas Turbine Emissions ( http://arxiv.org/abs/2307.08386v1 )

ライセンス: Link先を確認
Rebecca Potts, Rick Hackney and Georgios Leontidis(参考訳) ガスタービンの排出予測は大気中に放出される有害な汚染物質を監視するために重要である。 本研究では,ガスタービンの排出ガス予測のための機械学習モデルの性能評価を行う。 そこで我々は,SAINTとXGBoostをベースに開発した2つの機械学習モデルと比較し,機械学習技術を用いた窒素酸化物(NOx)と一酸化炭素(CO)の予測性能の向上を実証した。 本分析では,siemens energy gas turbine test bed tabular datasetを用いて,機械学習モデルのトレーニングと検証を行う。 さらに、モデルの複雑さを高めるためにより多くの機能を組み込むことと、データセットに欠けている値が増加することの間のトレードオフについても検討する。

Predicting emissions for gas turbines is critical for monitoring harmful pollutants being released into the atmosphere. In this study, we evaluate the performance of machine learning models for predicting emissions for gas turbines. We compare an existing predictive emissions model, a first principles-based Chemical Kinetics model, against two machine learning models we developed based on SAINT and XGBoost, to demonstrate improved predictive performance of nitrogen oxides (NOx) and carbon monoxide (CO) using machine learning techniques. Our analysis utilises a Siemens Energy gas turbine test bed tabular dataset to train and validate the machine learning models. Additionally, we explore the trade-off between incorporating more features to enhance the model complexity, and the resulting presence of increased missing values in the dataset.
翻訳日:2023-07-18 13:56:56 公開日:2023-07-17
# ウォルシュ系列を用いた効率的な量子状態生成

Efficient Quantum State Preparation with Walsh Series ( http://arxiv.org/abs/2307.08384v1 )

ライセンス: Link先を確認
Julien Zylberman and Fabrice Debbasch(参考訳) このレターでは、Walsh Series Loader (WSL) と呼ばれる新しい近似量子状態準備法(QSP)が導入された。 WSLは、1つの実変数の実数値関数によって定義される量子状態に近似し、深さは数$n$の量子ビットとは独立である。 回路深さはo(1/\sqrt{\epsilon})$であり、ここでは$\epsilon$が近似の精度である。 サイズは$O(n+1/\sqrt{\epsilon})$で、1つのアンシラ量子ビットしか必要とせず、指数スケーリングのない全体的な効率的なアルゴリズムを与える。 このプロトコルは任意の複素数値多変量微分関数に一般化することができる。 ウォルシュ級数ローダは、量子ビット数に依存しない回路深さを持つ量子状態を作成する唯一の方法である。

In this Letter, a new approximate Quantum State Preparation (QSP) method is introduced, called the Walsh Series Loader (WSL). The WSL approximates quantum states defined by real-valued functions of single real variables with a depth independent of the number $n$ of qubits. The circuit depth is also $O(1/\sqrt{\epsilon})$, where $\epsilon$ is the precision of the approximation. The size is $O(n+1/\sqrt{\epsilon})$ and only one ancilla qubit is needed, giving an overall efficient algorithm with no exponential scaling. The protocol can be generalized to any complex-valued, multi-variate differentiable function. The Walsh Series Loader is so far the only method which prepares a quantum state with a circuit depth independent of the number of qubits.
翻訳日:2023-07-18 13:56:42 公開日:2023-07-17
# 超大規模データセットに対するブロックベーススパース行列圧縮による分散バンドル調整

Distributed bundle adjustment with block-based sparse matrix compression for super large scale datasets ( http://arxiv.org/abs/2307.08383v1 )

ライセンス: Link先を確認
Maoteng Zheng, Nengcheng Chen, Junfeng Zhu, Xiaoru Zeng, Huanbin Qiu, Yuyao Jiang, Xingyue Lu, Hao Qu(参考訳) 超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。 既存のメソッドのほとんどはグローバルマップを小さなマップに分割し、サブマップでバンドル調整を行います。 並列フレームワークに適合するために、彼らはlmアルゴリズムの代わりに近似解を用いる。 しかし、これらの手法はしばしば準最適結果を与える。 それらと異なり、我々は正確なLMアルゴリズムを用いて、縮小カメラシステム(RCS)の形成が実際に並列化され、分散的に実行されるグローバルバンドル調整を行う。 大規模RCSを格納するために、ブロックベースのスパース行列圧縮フォーマット(BSMC)で圧縮し、ブロック機能を完全に活用する。 BSMCフォーマットは、グローバルRCSの分散ストレージと更新を可能にする。 提案手法は合成データと実データの両方を用いて,最先端パイプラインと比較評価を行った。 予備的な結果は,提案手法のメモリ使用率と拡張性について,ベースラインと比較した。 本研究では,118万画像と1000万画像(最先端のLMベースBAの約500倍)の合成データセットを分散コンピューティングシステム上で実データセット上で,LMアルゴリズムを用いた並列バンドル調整を行った。

We propose a distributed bundle adjustment (DBA) method using the exact Levenberg-Marquardt (LM) algorithm for super large-scale datasets. Most of the existing methods partition the global map to small ones and conduct bundle adjustment in the submaps. In order to fit the parallel framework, they use approximate solutions instead of the LM algorithm. However, those methods often give sub-optimal results. Different from them, we utilize the exact LM algorithm to conduct global bundle adjustment where the formation of the reduced camera system (RCS) is actually parallelized and executed in a distributed way. To store the large RCS, we compress it with a block-based sparse matrix compression format (BSMC), which fully exploits its block feature. The BSMC format also enables the distributed storage and updating of the global RCS. The proposed method is extensively evaluated and compared with the state-of-the-art pipelines using both synthetic and real datasets. Preliminary results demonstrate the efficient memory usage and vast scalability of the proposed method compared with the baselines. For the first time, we conducted parallel bundle adjustment using LM algorithm on a real datasets with 1.18 million images and a synthetic dataset with 10 million images (about 500 times that of the state-of-the-art LM-based BA) on a distributed computing system.
翻訳日:2023-07-18 13:56:29 公開日:2023-07-17
# 老化データによる使用条件の変化による電池寿命予測

Predicting Battery Lifetime Under Varying Usage Conditions from Early Aging Data ( http://arxiv.org/abs/2307.08382v1 )

ライセンス: Link先を確認
Tingkai Li, Zihao Zhou, Adam Thelen, David Howey, Chao Hu(参考訳) 正確なバッテリー寿命予測は、予防メンテナンス、保証、電池設計および製造の改善に重要である。 しかし、製造のバラツキと使用に依存した劣化は寿命予測を困難にする。 そこで本稿では, 早期の容量電圧データから得られた新たな特徴を考察し, 充電速度, 放電速度, 放電深度で周期的に変化する細胞の寿命を予測する。 サイクリング中に定期的にスケジュールされた基準性能テスト(すなわち低レートフルサイクル)から特徴を抽出する。 初期の特徴は、細胞の健康状態とコンポーネントレベルの劣化モードの変化率を捉えており、その一部は細胞寿命と強く相関している。 225個のニッケル-マンガン-コバルト/グラファイトLiイオン細胞から生成した新しいデータセットを用いて、多くの細胞に対して15.1%の平均絶対パーセンテージ誤差を持つ分布内細胞の寿命を予測する。 階層ベイズ回帰モデルを用いたさらなるテストでは、アウトオブディストリビューションセルの絶対パーセンテージ誤差が21.8%に達した。 本手法は,リチウムイオン電池劣化モードのドメイン知識を機能工学に活用することの重要性を強調する。 さらに、我々はコミュニティに、評価容量の80%以上をセルが循環する、新しい利用可能なバッテリー老化データセットを提供する。

Accurate battery lifetime prediction is important for preventative maintenance, warranties, and improved cell design and manufacturing. However, manufacturing variability and usage-dependent degradation make life prediction challenging. Here, we investigate new features derived from capacity-voltage data in early life to predict the lifetime of cells cycled under widely varying charge rates, discharge rates, and depths of discharge. Features were extracted from regularly scheduled reference performance tests (i.e., low rate full cycles) during cycling. The early-life features capture a cell's state of health and the rate of change of component-level degradation modes, some of which correlate strongly with cell lifetime. Using a newly generated dataset from 225 nickel-manganese-cobalt/graphite Li-ion cells aged under a wide range of conditions, we demonstrate a lifetime prediction of in-distribution cells with 15.1% mean absolute percentage error using no more than the first 15% of data, for most cells. Further testing using a hierarchical Bayesian regression model shows improved performance on extrapolation, achieving 21.8% mean absolute percentage error for out-of-distribution cells. Our approach highlights the importance of using domain knowledge of lithium-ion battery degradation modes to inform feature engineering. Further, we provide the community with a new publicly available battery aging dataset with cells cycled beyond 80% of their rated capacity.
翻訳日:2023-07-18 13:56:07 公開日:2023-07-17
# スキルベースマッチングモデルを用いた労働市場のジェンダーモビリティ

Gender mobility in the labor market with skills-based matching models ( http://arxiv.org/abs/2307.08368v1 )

ライセンス: Link先を確認
Ajaya Adhikari, Steven Vethman, Daan Vos, Marc Lenz, Ioana Cocu, Ioannis Tolios, Cor J. Veenman(参考訳) スキルベースのマッチングは、労働市場の異なる部門と職業間の労働者の移動を約束する。 この場合、求職者は、まだ経験のない仕事を探すことができる。 現在、男女分布が歪んだ職業が複数存在する。 スキルベースのマッチングでは、職業間での性移動と呼ばれる性別の分布の変化が、どのように影響するかは不明だ。 スキルベースのマッチングアプローチは,計算言語モデルや教師付き学習手法など,データ駆動のアプローチが期待されている。 この研究は、まず、職業の言語モデルに基づくスキル表現における男女分離の存在を示す。 第2に、シミュレーションデータに基づく潜在的なアプリケーションにおけるこれらの表現の使用を評価し、様々なデータ駆動型スキルベースマッチングモデルにより性別分離が伝播していることを示し、これらのモデルは異なる言語表現(単語、ワード2vec、BERTのバッグ)と距離メトリクス(静的および機械学習ベース)に基づいている。 そこで本研究では, スキルベースのマッチングアプローチが, 男女の分別リスクだけでなく, パフォーマンスも比較できることを示す。 モデルの男女分離バイアスをより明確にすることは、これらのモデルの使用に対する健全な信頼を生み出すのに役立つ。

Skills-based matching promises mobility of workers between different sectors and occupations in the labor market. In this case, job seekers can look for jobs they do not yet have experience in, but for which they do have relevant skills. Currently, there are multiple occupations with a skewed gender distribution. For skills-based matching, it is unclear if and how a shift in the gender distribution, which we call gender mobility, between occupations will be effected. It is expected that the skills-based matching approach will likely be data-driven, including computational language models and supervised learning methods. This work, first, shows the presence of gender segregation in language model-based skills representation of occupations. Second, we assess the use of these representations in a potential application based on simulated data, and show that the gender segregation is propagated by various data-driven skills-based matching models.These models are based on different language representations (bag of words, word2vec, and BERT), and distance metrics (static and machine learning-based). Accordingly, we show how skills-based matching approaches can be evaluated and compared on matching performance as well as on the risk of gender segregation. Making the gender segregation bias of models more explicit can help in generating healthy trust in the use of these models in practice.
翻訳日:2023-07-18 13:55:41 公開日:2023-07-17
# 双方向連想記憶における残響による学習の統計力学

Statistical Mechanics of Learning via Reverberation in Bidirectional Associative Memories ( http://arxiv.org/abs/2307.08365v1 )

ライセンス: Link先を確認
Martino Salomone Centonze, Ido Kanter, Adriano Barra(参考訳) 本研究では,多種多様なランダムなアーチタイプのノイズに曝露された双方向連想ニューラルネットワークについて検討し,提供された情報が十分であれば後者(教師の有無に関わらず)を学習する。この設定では,学習は異種連想的であり,複数のパターンが絡み合っており,ネットワークの層を通じてサンプルから表現された情報をリバーバリングすることで達成される。 guerraの補間手法を応用することにより,解析的位相図,学習しきい値,モンテカルロシミュレーションおよび信号対雑音結果の平易な一致における基底状態の図を得るために,教師付きおよび教師なし学習プロセス(レプリカ対称記述レベルで)の完全な統計力学的図を提供する。 大規模なデータセット制限では、80年代にkurchan、peliti、saberが提供した統計的なメカニカルなイメージとともに、koskoストレージ処方が完全に回復される。 自然検定の場合、記憶よりも情報残響を扱う際の計算上の利点について論じる。 In particular, we show how this network admits an integral representation in terms of two coupled restricted Boltzmann machines, whose hidden layers are entirely built of by grand-mother neurons, to prove that by coupling solely these grand-mother neurons we can correlate the patterns they are related to: it is thus possible to recover Pavlov's Classical Conditioning by adding just one synapse among the correct grand-mother neurons (hence saving an extensive number of these links for further information storage w.r.t. the classical autoassociative setting).

We study bi-directional associative neural networks that, exposed to noisy examples of an extensive number of random archetypes, learn the latter (with or without the presence of a teacher) when the supplied information is enough: in this setting, learning is heteroassociative -- involving couples of patterns -- and it is achieved by reverberating the information depicted from the examples through the layers of the network. By adapting Guerra's interpolation technique, we provide a full statistical mechanical picture of supervised and unsupervised learning processes (at the replica symmetric level of description) obtaining analytically phase diagrams, thresholds for learning, a picture of the ground-state in plain agreement with Monte Carlo simulations and signal-to-noise outcomes. In the large dataset limit, the Kosko storage prescription as well as its statistical mechanical picture provided by Kurchan, Peliti, and Saber in the eighties is fully recovered. Computational advantages in dealing with information reverberation, rather than storage, are discussed for natural test cases. In particular, we show how this network admits an integral representation in terms of two coupled restricted Boltzmann machines, whose hidden layers are entirely built of by grand-mother neurons, to prove that by coupling solely these grand-mother neurons we can correlate the patterns they are related to: it is thus possible to recover Pavlov's Classical Conditioning by adding just one synapse among the correct grand-mother neurons (hence saving an extensive number of these links for further information storage w.r.t. the classical autoassociative setting).
翻訳日:2023-07-18 13:55:20 公開日:2023-07-17
# Q(D)O-ES: AutoMLにおけるポストホックアンサンブル選択のための人口ベース品質(多様性)最適化

Q(D)O-ES: Population-based Quality (Diversity) Optimisation for Post Hoc Ensemble Selection in AutoML ( http://arxiv.org/abs/2307.08364v1 )

ライセンス: Link先を確認
Lennart Purucker, Lennart Schneider, Marie Anastacio, Joeran Beel, Bernd Bischl, Holger Hoos(参考訳) 自動機械学習(automl)システムは、予測性能を改善するためにhocを後付けするモデルが一般的である。 しかし、GESは単純な決定論的欲求探索を行うため、常に最適であるとは限らない。 本研究では,2つの新しい集団型アンサンブル選択手法であるQO-ESとQDO-ESを紹介し,それらをGESと比較する。 qo-es は予測性能のみを最適化するが、qdo-es は集団内のアンサンブルの多様性も考慮し、品質の多様性の最適化のアイデアに基づいた最適化の間、様々な優れたアンサンブルを維持している。 これらの手法はAutoMLベンチマークから71の分類データセットを用いて評価され、QO-ESとQDO-ESがGESを上回っていることが示されている。 以上の結果より,ポスト・ホック・センスムリングにおいては多様性は有益であるが,過剰フィッティングのリスクも増大することが示唆された。

Automated machine learning (AutoML) systems commonly ensemble models post hoc to improve predictive performance, typically via greedy ensemble selection (GES). However, we believe that GES may not always be optimal, as it performs a simple deterministic greedy search. In this work, we introduce two novel population-based ensemble selection methods, QO-ES and QDO-ES, and compare them to GES. While QO-ES optimises solely for predictive performance, QDO-ES also considers the diversity of ensembles within the population, maintaining a diverse set of well-performing ensembles during optimisation based on ideas of quality diversity optimisation. The methods are evaluated using 71 classification datasets from the AutoML benchmark, demonstrating that QO-ES and QDO-ES often outrank GES, albeit only statistically significant on validation data. Our results further suggest that diversity can be beneficial for post hoc ensembling but also increases the risk of overfitting.
翻訳日:2023-07-18 13:54:55 公開日:2023-07-17
# 経時変化を伴うユニバーサルオンライン学習:多層オンラインアンサンブルアプローチ

Universal Online Learning with Gradual Variations: A Multi-layer Online Ensemble Approach ( http://arxiv.org/abs/2307.08360v1 )

ライセンス: Link先を確認
Yu-Hu Yan, Peng Zhao, Zhi-Hua Zhou(参考訳) 本稿では,2つの異なる適応レベルを有するオンライン凸最適化手法を提案する。 高レベルでは、本手法は損失関数の特定の型や曲率に依存しないが、低レベルでは環境の優美さを活用し、問題依存の保証を得ることができる。 具体的に言うと、$\mathcal{O}(\ln V_T)$, $\mathcal{O}(d \ln V_T)$ and $\hat{\mathcal{O}}(\sqrt{V_T})$ regret bounds for strong convex, exp-concave and convex loss function, where $d$ is the dimension, $V_T$は問題依存の勾配変動と$\hat{\mathcal{O}}(\cdot)$-notation omits logarithmic factor on $V_T$である。 我々の結果は幅広い意味と応用を見出す。 最悪のケースの保証を保護できるだけでなく、分析の小さな損失の範囲を直接含んでいる。 さらに、逆/確率凸最適化とゲーム理論との深い関係を描き、さらにその実用可能性を検証する。 提案手法は, 多様な機能種別を統一するための最適化や, アルゴリズム安定性のためのカスケード補正など, 新規成分を取り入れた多層オンラインアンサンブルに基づく。 注目すべきは、その多層構造にもかかわらず、我々のアルゴリズムはラウンド毎に1つの勾配クエリしか必要とせず、勾配評価が時間を要する場合に有利である。 これは、カスタマイズされた代理損失を備えた新規な後悔分解によって促進される。

In this paper, we propose an online convex optimization method with two different levels of adaptivity. On a higher level, our method is agnostic to the specific type and curvature of the loss functions, while at a lower level, it can exploit the niceness of the environments and attain problem-dependent guarantees. To be specific, we obtain $\mathcal{O}(\ln V_T)$, $\mathcal{O}(d \ln V_T)$ and $\hat{\mathcal{O}}(\sqrt{V_T})$ regret bounds for strongly convex, exp-concave and convex loss functions, respectively, where $d$ is the dimension, $V_T$ denotes problem-dependent gradient variations and $\hat{\mathcal{O}}(\cdot)$-notation omits logarithmic factors on $V_T$. Our result finds broad implications and applications. It not only safeguards the worst-case guarantees, but also implies the small-loss bounds in analysis directly. Besides, it draws deep connections with adversarial/stochastic convex optimization and game theory, further validating its practical potential. Our method is based on a multi-layer online ensemble incorporating novel ingredients, including carefully-designed optimism for unifying diverse function types and cascaded corrections for algorithmic stability. Remarkably, despite its multi-layer structure, our algorithm necessitates only one gradient query per round, making it favorable when the gradient evaluation is time-consuming. This is facilitated by a novel regret decomposition equipped with customized surrogate losses.
翻訳日:2023-07-18 13:54:32 公開日:2023-07-17
# 自己監督型単分子深度推定:天気について話そう

Self-supervised Monocular Depth Estimation: Let's Talk About The Weather ( http://arxiv.org/abs/2307.08357v1 )

ライセンス: Link先を確認
Kieran Saunders, George Vogiatzis and Luis Manso(参考訳) 現在の自己監督型深度推定アーキテクチャは、深層ニューラルネットワークをトレーニングするために、晴れた晴れた天気のシーンに依存している。 しかし、多くの場所では、この仮定は強すぎる。 例えばイギリス(2021年)では、149日が雨であった。 これらのアーキテクチャが現実世界の応用に有効であるためには、すべての気象条件、日時、画質を一般化できるモデルを作成しなければならない。 コンピュータグラフィックスと生成モデルを組み合わせて、悪天候効果をシミュレートする様々な方法で、既存の日当たり天気データを増強することができる。 このようなデータ拡張を自己監督的な深さに使用するのは魅力的だが、過去には、改善ではなくパフォーマンスの低下が示されていた。 本稿では,この問題を解決するために拡張を用いた手法を提案する。 未知データと拡張データとの対応を利用して、深度とポーズ推定の両方において擬似教師付き損失を導入する。 これにより、教師あり学習の利点を取り戻せるが、ラベルは必要としない。 また,単眼映像からの自己監督深度を天気関連で拡張するための信頼性が高く,効率的な枠組みを提供する,一連の実践的勧告も行った。 我々は,提案手法であるRobust-Depthを用いて,KITTIデータセット上でのSotA性能が,DrivingStereo, Foggy CityScape, NuScenes-Nightなどの困難で有害なデータに対して,SotAを大幅に上回っていることを示す。 プロジェクトのWebサイトは、https://kieran514.github.io/Robust-Depth-Project/にある。

Current, self-supervised depth estimation architectures rely on clear and sunny weather scenes to train deep neural networks. However, in many locations, this assumption is too strong. For example in the UK (2021), 149 days consisted of rain. For these architectures to be effective in real-world applications, we must create models that can generalise to all weather conditions, times of the day and image qualities. Using a combination of computer graphics and generative models, one can augment existing sunny-weather data in a variety of ways that simulate adverse weather effects. While it is tempting to use such data augmentations for self-supervised depth, in the past this was shown to degrade performance instead of improving it. In this paper, we put forward a method that uses augmentations to remedy this problem. By exploiting the correspondence between unaugmented and augmented data we introduce a pseudo-supervised loss for both depth and pose estimation. This brings back some of the benefits of supervised learning while still not requiring any labels. We also make a series of practical recommendations which collectively offer a reliable, efficient framework for weather-related augmentation of self-supervised depth from monocular video. We present extensive testing to show that our method, Robust-Depth, achieves SotA performance on the KITTI dataset while significantly surpassing SotA on challenging, adverse condition data such as DrivingStereo, Foggy CityScape and NuScenes-Night. The project website can be found here https://kieran514.github.io/Robust-Depth-Project/.
翻訳日:2023-07-18 13:53:54 公開日:2023-07-17
# 非冗長情報サンプリングによる物体検出のための能動学習

Active Learning for Object Detection with Non-Redundant Informative Sampling ( http://arxiv.org/abs/2307.08414v1 )

ライセンス: Link先を確認
Aral Hekimoglu, Adrian Brucker, Alper Kagan Kayali, Michael Schmidt, Alvaro Marcos-Ramiro(参考訳) 情報的および代表的データセットの算出は,2次元物体検出器の性能向上に不可欠である。 本稿では,選択のインフォメーション性と多様性を両立させる,新しいアクティブラーニングサンプリング戦略を提案する。 本手法は,選択したサンプルの集団情報スコアを計測することにより,不確実性と多様性に基づく選択原理を共同選択目標に統合する。 具体的には,提案するrinosアルゴリズムは,サンプルを用いたトレーニングが他の類似サンプルの情報量に与える影響を定量化する。 高い情報度を維持しつつ,他の高情報度サンプルから同時に遠ざかるサンプルを選択的に選択することにより,冗長性を効果的に回避できる。 さらに,画像中の検出された対象領域から抽出した特徴を利用して,対象特徴量を定義する。 これにより、さまざまなオブジェクトタイプ、形状、角度を含むデータセットを構築することができます。 オブジェクト検出および画像分類タスクに関する大規模な実験は、最先端のベースラインに対する我々の戦略の有効性を示す。 具体的には,PASCAL-VOCとKITTIのランダム選択と比較して,ラベリングコストの20%と30%の削減を実現している。

Curating an informative and representative dataset is essential for enhancing the performance of 2D object detectors. We present a novel active learning sampling strategy that addresses both the informativeness and diversity of the selections. Our strategy integrates uncertainty and diversity-based selection principles into a joint selection objective by measuring the collective information score of the selected samples. Specifically, our proposed NORIS algorithm quantifies the impact of training with a sample on the informativeness of other similar samples. By exclusively selecting samples that are simultaneously informative and distant from other highly informative samples, we effectively avoid redundancy while maintaining a high level of informativeness. Moreover, instead of utilizing whole image features to calculate distances between samples, we leverage features extracted from detected object regions within images to define object features. This allows us to construct a dataset encompassing diverse object types, shapes, and angles. Extensive experiments on object detection and image classification tasks demonstrate the effectiveness of our strategy over the state-of-the-art baselines. Specifically, our selection strategy achieves a 20% and 30% reduction in labeling costs compared to random selection for PASCAL-VOC and KITTI, respectively.
翻訳日:2023-07-18 13:45:33 公開日:2023-07-17
# バイオメディカル知識グラフに基づく推論のためのニューロシンボリックAI

Neurosymbolic AI for Reasoning on Biomedical Knowledge Graphs ( http://arxiv.org/abs/2307.08411v1 )

ライセンス: Link先を確認
Lauren Nicole DeLong, Ramon Fern\'andez Mir, Zonglin Ji, Fiona Niamh Coulter Smith, Jacques D. Fleuriot(参考訳) 生物医学データセットは、生物医学システムの多元的、異質的、動的性質を捉えるため、知識グラフ(kgs)としてモデル化されることが多い。 したがって、KG完了(KGC)は、研究者が薬物再配置などのタスクを予測するのに役立ちます。 従来のKGCのアプローチはルールベースあるいは埋め込みベースであったが、ニューロシンボリック人工知能に基づくハイブリッドアプローチが普及しつつある。 これらの手法の多くは、生物医学的な課題にさらに適する独特の特徴を持っている。 本稿では, バイオメディシンの実用性, 将来性を重視したアプローチについて検討する。

Biomedical datasets are often modeled as knowledge graphs (KGs) because they capture the multi-relational, heterogeneous, and dynamic natures of biomedical systems. KG completion (KGC), can, therefore, help researchers make predictions to inform tasks like drug repositioning. While previous approaches for KGC were either rule-based or embedding-based, hybrid approaches based on neurosymbolic artificial intelligence are becoming more popular. Many of these methods possess unique characteristics which make them even better suited toward biomedical challenges. Here, we survey such approaches with an emphasis on their utilities and prospective benefits for biomedicine.
翻訳日:2023-07-18 13:45:16 公開日:2023-07-17
# 量子機器のバリー中心分解

Barycentric decomposition for quantum instruments ( http://arxiv.org/abs/2307.08405v1 )

ライセンス: Link先を確認
Juha-Pekka Pellonp\"a\"a, Erkka Haapasalo, Roope Uola(参考訳) 出力空間が有限次元であり、入力空間が分離可能な量子機器に対して、偏心分解を行う。 特別な場合として、そのような空間間のチャネルと、分離可能なヒルベルト空間における正規化正値測度に対する準中心分解を得る。 これは、aliとchiribellaらによる量子測定の分解に関する既知の結果を拡張し、有限次元ヒルベルト空間の間のすべての計器が有限アウトカムの計器を使って表現できるという事実を定式化する。

We present a barycentric decomposition for quantum instruments whose output space is finite-dimensional and input space is separable. As a special case, we obtain a barycentric decomposition for channels between such spaces and for normalized positive-operator-valued measures in separable Hilbert spaces. This extends the known results by Ali and Chiribella et al. on decompositions of quantum measurements, and formalises the fact that every instrument between finite-dimensional Hilbert spaces can be represented using only finite-outcome instruments.
翻訳日:2023-07-18 13:45:06 公開日:2023-07-17
# 量子回路のロバスト性に及ぼすハミルトニアンの整流子特性の影響

Influence of the Commutator Properties of Hamiltonians on the Robustness of Quantum Circuits ( http://arxiv.org/abs/2307.08404v1 )

ライセンス: Link先を確認
Vladyslav Bivziuk, Vitalii Slynko(参考訳) 我々は、量子コンピューティングで使用される量子回路のコヒーレント制御誤差の新しい推定を証明した。 これらの推定は基本的にハミルトニアンの可換特性を考慮し、可換計算の式に基づいている。

We have proved new estimates for the coherent control errors of quantum circuits used in quantum computing. These estimates essentially take into account the commutator properties of the Hamiltonians and are based on the formulas of the commutator calculus.
翻訳日:2023-07-18 13:44:55 公開日:2023-07-17
# 話者匿名化におけるxベクトルアライメントによるボコーダドリフト補正

Vocoder drift compensation by x-vector alignment in speaker anonymisation ( http://arxiv.org/abs/2307.08403v1 )

ライセンス: Link先を確認
Michele Panariello, Massimiliano Todisco, Nicholas Evans(参考訳) 話者匿名化に対する最も一般的なxベクターベースのアプローチでは、匿名化の大部分は、元の話者xベクターを架空の擬似話者のものと置き換えるために使用されるコア匿名化関数ではなく、ボコーディングに由来する。 この現象は、x-ベクトル空間に対するきめ細かい制御が欠けているため、より良い匿名化システムの設計を妨げる可能性がある。 この論文で報告された研究は、いわゆるボコーダドリフトの起源を探求し、置換されたx-ベクトルと言語内容、イントネーション、韻律のオリジナル表現とのミスマッチが原因であることを示した。 また、ボコーダドリフト補償に対する元来のアプローチも報告されている。 匿名化性能は予想通りに低下するが、補償はvocoderのドリフトを大幅に削減し、x-vector空間の制御を改善し、将来より良い匿名化関数の設計の基礎となる。

For the most popular x-vector-based approaches to speaker anonymisation, the bulk of the anonymisation can stem from vocoding rather than from the core anonymisation function which is used to substitute an original speaker x-vector with that of a fictitious pseudo-speaker. This phenomenon can impede the design of better anonymisation systems since there is a lack of fine-grained control over the x-vector space. The work reported in this paper explores the origin of so-called vocoder drift and shows that it is due to the mismatch between the substituted x-vector and the original representations of the linguistic content, intonation and prosody. Also reported is an original approach to vocoder drift compensation. While anonymisation performance degrades as expected, compensation reduces vocoder drift substantially, offers improved control over the x-vector space and lays a foundation for the design of better anonymisation functions in the future.
翻訳日:2023-07-18 13:44:51 公開日:2023-07-17
# 新しいマルチエージェントフレキシビリティアグリゲーションフレームワーク

A Novel Multiagent Flexibility Aggregation Framework ( http://arxiv.org/abs/2307.08401v1 )

ライセンス: Link先を確認
Stavros Orfanoudakis, Georgios Chalkiadakis(参考訳) 新興のスマートグリッドにおける分散エネルギー資源(der)の増加は、これらの資産を効率的に活用できるインテリジェントなマルチエージェントフレームワークの必要性を差し迫っている。 本稿では、多エージェントアーキテクチャと、グリッド内のDERの効率的な管理と効率的な統合のための様々な種類のメカニズムを含む、新しいDER集約フレームワークを提案する。 このエージェントは、プライバシの懸念に対処することや、提供された要求応答サービスに関するder文の正確さを予測することなど、重大ないしリソース集約的な責任からアグリゲータをオフロードする上でキーとなるものです。 提案する枠組みは, 効率的なLFE協力体の構築を可能にする。 この目的のために,我々は,様々な協調メンバ選択機構を開発し,展開した。 (a)得点規則、及び (b)強化学習。 我々は、よく知られたPowerTACシミュレータのデータを用いて、我々のフレームワークを体系的に評価する。 実験では, 異種DERをグリッドに効率よく組み込むことの有効性を検証した。 特に,crpsスコアリングルールを選択機構としてよく知られた確率的予測精度を用いた場合,従来の商用アグリゲータと比較した場合,提案手法は参加者の平均支払額を増加させる。

The increasing number of Distributed Energy Resources (DERs) in the emerging Smart Grid, has created an imminent need for intelligent multiagent frameworks able to utilize these assets efficiently. In this paper, we propose a novel DER aggregation framework, encompassing a multiagent architecture and various types of mechanisms for the effective management and efficient integration of DERs in the Grid. One critical component of our architecture is the Local Flexibility Estimators (LFEs) agents, which are key for offloading the Aggregator from serious or resource-intensive responsibilities -- such as addressing privacy concerns and predicting the accuracy of DER statements regarding their offered demand response services. The proposed framework allows the formation of efficient LFE cooperatives. To this end, we developed and deployed a variety of cooperative member selection mechanisms, including (a) scoring rules, and (b) (deep) reinforcement learning. We use data from the well-known PowerTAC simulator to systematically evaluate our framework. Our experiments verify its effectiveness for incorporating heterogeneous DERs into the Grid in an efficient manner. In particular, when using the well-known probabilistic prediction accuracy-incentivizing CRPS scoring rule as a selection mechanism, our framework results in increased average payments for participants, when compared with traditional commercial aggregators.
翻訳日:2023-07-18 13:44:34 公開日:2023-07-17
# テキスト駆動実画像編集のためのクリップガイドスタイルガンインバージョン

CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing ( http://arxiv.org/abs/2307.08397v1 )

ライセンス: Link先を確認
Ahmet Canberk Baykal, Abdul Basit Annes, Duygu Ceylan, Erkut Erdem, Aykut Erdem, Deniz Yurt(参考訳) 研究者は最近、リアルな画像編集にStyleGANベースのモデルを使い始めた。 特に興味深いアプリケーションは、自然言語記述を使って編集プロセスをガイドすることです。 既存の言語を用いた画像編集のアプローチでは、インスタンスレベルの潜在コード最適化か、定義済みのテキストプロンプトを潜在空間の編集方向にマップする。 しかし、これらのアプローチには固有の制限がある。 前者は効率が良くないが、後者は多属性変更を効果的に扱うのに苦労することが多い。 そこで本研究では,複数の属性の変更を効率的に確実に行うことができるテキスト駆動画像編集手法であるclipinverterを提案する。 提案手法の中核は,ganインバージョンネットワークに統合された新しい軽量テキストコンディショニングアダプタ層の利用である。 対象記述のCLIP埋め込みの初期反転ステップを条件付けすることで、より良好な編集方向を得ることができることを示す。 さらに、CLIP誘導による修正ステップを使用して、結果として生じる遅延コードを修正することにより、テキストプロンプトとのアライメントをさらに改善する。 本手法は, 人間の顔, 猫, 鳥など様々な領域における操作精度とフォトリアリズムの点で, 質的, 定量的な結果から, 競合するアプローチよりも優れている。

Researchers have recently begun exploring the use of StyleGAN-based models for real image editing. One particularly interesting application is using natural language descriptions to guide the editing process. Existing approaches for editing images using language either resort to instance-level latent code optimization or map predefined text prompts to some editing directions in the latent space. However, these approaches have inherent limitations. The former is not very efficient, while the latter often struggles to effectively handle multi-attribute changes. To address these weaknesses, we present CLIPInverter, a new text-driven image editing approach that is able to efficiently and reliably perform multi-attribute changes. The core of our method is the use of novel, lightweight text-conditioned adapter layers integrated into pretrained GAN-inversion networks. We demonstrate that by conditioning the initial inversion step on the CLIP embedding of the target description, we are able to obtain more successful edit directions. Additionally, we use a CLIP-guided refinement step to make corrections in the resulting residual latent codes, which further improves the alignment with the text prompt. Our method outperforms competing approaches in terms of manipulation accuracy and photo-realism on various domains including human faces, cats, and birds, as shown by our qualitative and quantitative results.
翻訳日:2023-07-18 13:44:13 公開日:2023-07-17
# 絞られた光の成功物語

The success story of squeezed light ( http://arxiv.org/abs/2307.08394v1 )

ライセンス: Link先を確認
Roman Schnabel(参考訳) 光学場のスクイーズ状態は1970年代初頭に理論的に記述され、1980年代半ばに初めて観測された。 圧縮状態の測定光子数は、同じアンサンブルの他の全ての圧縮状態の測定光子数と相関し、ポアソニアン以下の統計を提供する。 今日ではすべての重力波観測所が、光パワーをさらに拡大するためのコスト効率の高い代替手段として、圧縮光を使用している。 この量子相関のユーザ応用は、2002年から2010年までの懸濁光の研究と開発を通じて実現された。

Squeezed states of the optical field were theoretically described in the early 1970s and first observed in the mid 1980s. The measured photon number of a squeezed state is correlated with the measured photon numbers of all other squeezed states of the same ensemble, providing sub-Poissonian statistics. Today all gravitational-wave observatories use squeezed light as the cost-efficient alternative to further scaling up the light power. This user application of quantum correlations was made possible through dedicated research and development of squeezed light between 2002 and 2010.
翻訳日:2023-07-18 13:43:51 公開日:2023-07-17
# 大規模言語モデルの言語教育・評価技術への応用について

On the application of Large Language Models for language teaching and assessment technology ( http://arxiv.org/abs/2307.08393v1 )

ライセンス: Link先を確認
Andrew Caines, Luca Benedetto, Shiva Taslimipoor, Christopher Davis, Yuan Gao, Oeistein Andersen, Zheng Yuan, Mark Elliott, Russell Moore, Christopher Bryant, Marek Rei, Helen Yannakoudakis, Andrew Mullooly, Diane Nicholls, Paula Buttery(参考訳) PaLM や GPT-4 のような最近の非常に大きな言語モデルのリリースは、大衆メディアや大衆の意識に前例のない影響を与え、その能力と潜在的な使用に関する興奮と恐怖の混合を引き起こし、これまであまり注目されていなかった自然言語処理の研究に光を当てている。 本稿では,aiを活用した言語教育・評価システムにおける大規模言語モデルの導入の可能性について考察する。 言語学習者のための教育技術における生成AIに関するリスクと倫理的考察についても検討する。 全体として、より大きな言語モデルはテキスト生成における以前のモデルよりも改善され、これまでは不可能だったコンテンツ生成へのルートが開かれる。 テキスト生成には、慎重に促さなければならないし、使用準備が整う前に出力を再形成する必要がある。 自動採点と文法的誤り訂正のために、よく知られたベンチマークで進捗をチェックするタスクについて、初期の調査は、標準評価メトリクスに従って、大言語モデル自体が最先端の結果を改善していないことを示している。 評価のためには、文学で確立された言語的特徴は、最高のパフォーマンスのためにも使われるべきであり、誤り訂正のためにモデルが既存の方法に敏感に測定されない代替フィードバックスタイルを提供することができるかもしれない。 いずれの場合も、言語学習者のための教育技術に大規模な言語モデルが組み込まれ、その能力や限界を適切に理解し報告し、誤情報や有害な偏見などの予測可能なリスクを緩和するためには、実験が必要である。

The recent release of very large language models such as PaLM and GPT-4 has made an unprecedented impact in the popular media and public consciousness, giving rise to a mixture of excitement and fear as to their capabilities and potential uses, and shining a light on natural language processing research which had not previously received so much attention. The developments offer great promise for education technology, and in this paper we look specifically at the potential for incorporating large language models in AI-driven language teaching and assessment systems. We consider several research areas and also discuss the risks and ethical considerations surrounding generative AI in education technology for language learners. Overall we find that larger language models offer improvements over previous models in text generation, opening up routes toward content generation which had not previously been plausible. For text generation they must be prompted carefully and their outputs may need to be reshaped before they are ready for use. For automated grading and grammatical error correction, tasks whose progress is checked on well-known benchmarks, early investigations indicate that large language models on their own do not improve on state-of-the-art results according to standard evaluation metrics. For grading it appears that linguistic features established in the literature should still be used for best performance, and for error correction it may be that the models can offer alternative feedback styles which are not measured sensitively with existing methods. In all cases, there is work to be done to experiment with the inclusion of large language models in education technology for language learners, in order to properly understand and report on their capacities and limitations, and to ensure that foreseeable risks such as misinformation and harmful bias are mitigated.
翻訳日:2023-07-18 13:43:40 公開日:2023-07-17
# 多変量時系列異常検出のための相関対応時空間グラフ学習

Correlation-aware Spatial-Temporal Graph Learning for Multivariate Time-series Anomaly Detection ( http://arxiv.org/abs/2307.08390v1 )

ライセンス: Link先を確認
Yu Zheng, Huan Yee Koh, Ming Jin, Lianhua Chi, Khoa T. Phan, Shirui Pan, Yi-Ping Phoebe Chen, Wei Xiang(参考訳) 多変量時系列異常検出は、小売、輸送、電力網、水処理プラントを含む多くのアプリケーションにおいて極めて重要である。 既存のアプローチでは、非線形関係をうまく捉えられない統計モデルと、変数間のペア関係を明示的に学習しない従来のディープラーニングモデル(例えば、CNNやLSTM)が主に採用されている。 これらの制約を克服するため,時系列異常検出のための相関対応時空間グラフ学習(CST-GL)を提案する。 CST-GLは、空間時間グラフニューラルネットワーク(STGNN)を開発するための多変量時系列相関学習モジュールを介して、ペアワイズ相関を明示的にキャプチャする。 そして、一対一の隣接情報を利用するグラフ畳み込みネットワークを利用することにより、stgnnコンポーネントは、変数間の複雑な対数依存性からリッチな空間情報をエンコードすることができる。 拡張畳み込み関数からなる時間モジュールにより、STGNNは時間とともに長距離依存をさらに捉えることができる。 新規な異常スコアリング成分をさらにCST-GLに統合し、純粋に教師なしの方法で異常度を推定する。 実験の結果、CST-GLは一般的な設定で異常を効果的に検出し、異なる遅延時間で早期に検出できることがわかった。

Multivariate time-series anomaly detection is critically important in many applications, including retail, transportation, power grid, and water treatment plants. Existing approaches for this problem mostly employ either statistical models which cannot capture the non-linear relations well or conventional deep learning models (e.g., CNN and LSTM) that do not explicitly learn the pairwise correlations among variables. To overcome these limitations, we propose a novel method, correlation-aware spatial-temporal graph learning (termed CST-GL), for time series anomaly detection. CST-GL explicitly captures the pairwise correlations via a multivariate time series correlation learning module based on which a spatial-temporal graph neural network (STGNN) can be developed. Then, by employing a graph convolution network that exploits one- and multi-hop neighbor information, our STGNN component can encode rich spatial information from complex pairwise dependencies between variables. With a temporal module that consists of dilated convolutional functions, the STGNN can further capture long-range dependence over time. A novel anomaly scoring component is further integrated into CST-GL to estimate the degree of an anomaly in a purely unsupervised manner. Experimental results demonstrate that CST-GL can detect anomalies effectively in general settings as well as enable early detection across different time delays.
翻訳日:2023-07-18 13:43:12 公開日:2023-07-17
# ランダムウォークからグラフスプリントへ:連続時間動的グラフ上の低遅延ノード埋め込みフレームワーク

From random-walks to graph-sprints: a low-latency node embedding framework on continuous-time dynamic graphs ( http://arxiv.org/abs/2307.08433v1 )

ライセンス: Link先を確認
Ahmad Naser Eddin, Jacopo Bono, David Apar\'icio, Hugo Ferreira, Jo\~ao Ascens\~ao, Pedro Ribeiro, Pedro Bizarro(参考訳) 多くの現実世界のデータセットは基盤となる動的グラフ構造を持ち、エンティティとその相互作用は時間とともに進化する。 機械学習モデルは、下流タスクにおける潜在能力を最大限活用するために、これらのダイナミクスを考慮すべきである。 グラフ表現学習における従来のアプローチは、幅優先探索のようなkホップ近傍のサンプリングや、深さ優先探索のようなランダムウォークに重点を置いていた。 しかし、これらの手法は計算コストが高く、動的グラフ上のリアルタイム低レイテンシ推論には適さない。 これらの制限を克服するため,我々は連続時間動的グラフ(CTDG)のための汎用的特徴抽出フレームワークとしてグラフプリントを提案し,レイテンシが低く,最先端の高レイテンシモデルと競合する。 これを実現するために,ランダムウォークに基づく特徴量に対する低レイテンシのストリーミング近似を提案する。 本フレームワークでは,マルチホップ情報を要約した時間認識ノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。 提案手法を3つのオープンソースデータセットと2つの社内データセットで評価し、3つの最先端アルゴリズム(TGN-attn,TGN-ID,Jodie)と比較した。 グラフプリント機能と機械学習分類器が組み合わさって、競合性能(ノード分類タスクのベースラインを5つのデータセットで上回る)を達成することを実証した。 同時に、グラフプリントは推論遅延を著しく減少させ、実験環境では桁違いのスピードアップを達成する。

Many real-world datasets have an underlying dynamic graph structure, where entities and their interactions evolve over time. Machine learning models should consider these dynamics in order to harness their full potential in downstream tasks. Previous approaches for graph representation learning have focused on either sampling k-hop neighborhoods, akin to breadth-first search, or random walks, akin to depth-first search. However, these methods are computationally expensive and unsuitable for real-time, low-latency inference on dynamic graphs. To overcome these limitations, we propose graph-sprints a general purpose feature extraction framework for continuous-time-dynamic-graphs (CTDGs) that has low latency and is competitive with state-of-the-art, higher latency models. To achieve this, a streaming, low latency approximation to the random-walk based features is proposed. In our framework, time-aware node embeddings summarizing multi-hop information are computed using only single-hop operations on the incoming edges. We evaluate our proposed approach on three open-source datasets and two in-house datasets, and compare with three state-of-the-art algorithms (TGN-attn, TGN-ID, Jodie). We demonstrate that our graph-sprints features, combined with a machine learning classifier, achieve competitive performance (outperforming all baselines for the node classification tasks in five datasets). Simultaneously, graph-sprints significantly reduce inference latencies, achieving close to an order of magnitude speed-up in our experimental setting.
翻訳日:2023-07-18 13:38:02 公開日:2023-07-17
# 異種情報ネットワークのための長距離依存型多層パーセプトロン

Long-range Dependency based Multi-Layer Perceptron for Heterogeneous Information Networks ( http://arxiv.org/abs/2307.08430v1 )

ライセンス: Link先を確認
Chao Li, Zijie Guo, Qiuting He, Hao Xu and Kun He(参考訳) 既存のヘテロジニアスグラフニューラルネットワーク(HGNN)は、ヘテロジニアス情報ネットワーク(HIN)におけるリッチセマンティック情報の利用において大きな成功を収めている。 しかし、多くの現実世界のHINが疎結合であるため、HINにおける長距離依存の利用について研究する研究はほとんどなく、各ノードは直接接続された隣人しか持たない。 いくつかのHGNNは、複数のレイヤを積み重ねたり、長いメタパスを利用することで、遠く離れた隣人を利用することができるが、受容領域におけるノードの数やメタパスの数の増加は、高い計算とメモリコストを引き起こす。 これらの問題に対処するために、異なるメタパスの重要性を調査し、長期依存型多層パーセプトロン(ldmlp)を提案する。 具体的には、長距離依存を利用した高コストな問題を解決するため、LDMLPは探索段階を採用し、効果的なメタパスを自動的に発見し、指数関数的に増加するメタパス数を一定に削減する。 特定のモジュールが検索結果に与える影響を避けるため,LDMLPは,検索段階における多層認識のみを備えたシンプルなアーキテクチャを用いて,検索されたメタパスの一般化を改善する。 その結果、検索されたメタパスは LDMLP でよく機能するだけでなく、HAN や SeHGNN などの他の HGNN でも性能が向上する。 8つのヘテロジニアスデータセットに対する大規模な実験により、LDMLPは高い効率と一般化を享受しながら、特にスパースHINにおいて最先端の性能を達成することが示された。

Existing heterogeneous graph neural networks (HGNNs) have achieved great success in utilizing the rich semantic information in heterogeneous information networks (HINs). However, few works have delved into the utilization of long-range dependencies in HINs, which is extremely valuable as many real-world HINs are sparse, and each node has only a few directly connected neighbors. Although some HGNNs can utilize distant neighbors by stacking multiple layers or leveraging long meta-paths, the exponentially increased number of nodes in the receptive field or the number of meta-paths incurs high computation and memory costs. To address these issues, we investigate the importance of different meta-paths and propose Long-range Dependency based Multi-Layer Perceptron (LDMLP). Specifically, to solve the high-cost problem of leveraging long-range dependencies, LDMLP adopts a search stage to discover effective meta-paths automatically, reducing the exponentially increased number of meta-paths to a constant. To avoid the influence of specific modules on search results, LDMLP utilizes a simple architecture with only multi-layer perceptions in the search stage, improving the generalization of searched meta-paths. As a result, the searched meta-paths not only perform well in LDMLP but also enable other HGNNs like HAN and SeHGNN to perform better. Extensive experiments on eight heterogeneous datasets demonstrate that LDMLP achieves state-of-the-art performance while enjoying high efficiency and generalization, especially on sparse HINs.
翻訳日:2023-07-18 13:37:31 公開日:2023-07-17
# 合成転写物を用いた模倣知識蒸留によるエンドツーエンド音声翻訳の改善

Improving End-to-End Speech Translation by Imitation-Based Knowledge Distillation with Synthetic Transcripts ( http://arxiv.org/abs/2307.08426v1 )

ライセンス: Link先を確認
Rebekka Hubert and Artem Sokolov and Stefan Riezler(参考訳) エンドツーエンドの自動音声翻訳(AST)は、音声入力とテキスト翻訳出力を組み合わせたデータに依存する。 これまでの研究では、知識蒸留(KD)装置で既存の大きな平行転写と翻訳のコーパスを使用して、ニューラルマシン翻訳(NMT)をAST学生モデルに蒸留した。 KDはより大きな事前トレーニングモデルを使用することができるが、以前のKDアプローチはデータパイプラインで手動のオーディオ書き起こしに依存しており、このフレームワークをASTに適用することは制限されている。 本稿では,教師のnmtシステムが,手書きの書き起こしに頼らずにast学生の誤りを訂正する模倣学習手法を提案する。 我々は,NMT教師が自動転写における誤りから回復し,AST学生の誤訳を訂正できることを示し,英語-ドイツ語のCoVoST-2データセットと MuST-C データセットの標準ベースラインよりも約4点のBLEUポイントの改善が得られた。 コードとデータは公開されている。 \footnote{\url{https://github.com/HubReb/imitkd_ast/releases/tag/v1.1}}

End-to-end automatic speech translation (AST) relies on data that combines audio inputs with text translation outputs. Previous work used existing large parallel corpora of transcriptions and translations in a knowledge distillation (KD) setup to distill a neural machine translation (NMT) into an AST student model. While KD allows using larger pretrained models, the reliance of previous KD approaches on manual audio transcripts in the data pipeline restricts the applicability of this framework to AST. We present an imitation learning approach where a teacher NMT system corrects the errors of an AST student without relying on manual transcripts. We show that the NMT teacher can recover from errors in automatic transcriptions and is able to correct erroneous translations of the AST student, leading to improvements of about 4 BLEU points over the standard AST end-to-end baseline on the English-German CoVoST-2 and MuST-C datasets, respectively. Code and data are publicly available.\footnote{\url{https://github.com/HubReb/imitkd_ast/releases/tag/v1.1}}
翻訳日:2023-07-18 13:37:03 公開日:2023-07-17
# indefensible attack:条件拡散モデルによるラベルのみモデルインバージョン

An Indefensible Attack: Label-Only Model Inversion via Conditional Diffusion Model ( http://arxiv.org/abs/2307.08424v1 )

ライセンス: Link先を確認
Rongke Liu(参考訳) モデル反転攻撃(MIA)は、ターゲットモデルのトレーニングセットからプライベートデータを復元することを目的としており、ディープラーニングモデルのプライバシを脅かす。 MIAは主に、攻撃者がターゲットモデルの構造とパラメータに完全にアクセスできるホワイトボックスシナリオに焦点を当てている。 しかし、実際の応用はブラックボックスであり、敵がモデル関連パラメータを得るのは容易ではなく、様々なモデルが予測ラベルを出力するのみである。 既存のブラックボックスMIAは主に最適化戦略の設計に重点を置いており、生成モデルはホワイトボックスMIAで使用されるGANからのみ移行されている。 当社の研究は,ラベルのみのブラックボックスシナリオにおける攻撃モデルの実現可能性に関する先駆的な研究である。 本稿では,条件付き拡散モデルを用いたMIAの新しい手法を開発し,目標モデルがラベルを出力する限り,追加の最適化なしにターゲットの正確なサンプルを復元する。 攻撃の実行には2つの主要なテクニックが導入された。 まず、対象モデルタスクに関連する補助データセットを選択し、対象モデルによって予測されたラベルをトレーニングプロセスを導くための条件として使用する。 次に、訓練条件拡散モデルに目標ラベルとランダム分布雑音を入力し、予め定義された誘導強度を有する目標サンプルを生成する。 そして、最も堅牢で代表的なサンプルをフィルターアウトします。 さらに,MIAの評価指標としてLearned Perceptual Image Patch similarity(LPIPS)を初めて用いて,攻撃精度,リアリズム,類似性の観点から,定量的かつ質的な評価を体系的に行うことを提案する。 実験結果から, ラベルのみのシナリオにおいて, 最適化を伴わずに類似かつ正確なデータを生成することができ, 従来の手法のジェネレータよりも優れていることがわかった。

Model inversion attacks (MIAs) are aimed at recovering private data from a target model's training set, which poses a threat to the privacy of deep learning models. MIAs primarily focus on the white-box scenario where the attacker has full access to the structure and parameters of the target model. However, practical applications are black-box, it is not easy for adversaries to obtain model-related parameters, and various models only output predicted labels. Existing black-box MIAs primarily focused on designing the optimization strategy, and the generative model is only migrated from the GAN used in white-box MIA. Our research is the pioneering study of feasible attack models in label-only black-box scenarios, to the best of our knowledge. In this paper, we develop a novel method of MIA using the conditional diffusion model to recover the precise sample of the target without any extra optimization, as long as the target model outputs the label. Two primary techniques are introduced to execute the attack. Firstly, select an auxiliary dataset that is relevant to the target model task, and the labels predicted by the target model are used as conditions to guide the training process. Secondly, target labels and random standard normally distributed noise are input into the trained conditional diffusion model, generating target samples with pre-defined guidance strength. We then filter out the most robust and representative samples. Furthermore, we propose for the first time to use Learned Perceptual Image Patch Similarity (LPIPS) as one of the evaluation metrics for MIA, with systematic quantitative and qualitative evaluation in terms of attack accuracy, realism, and similarity. Experimental results show that this method can generate similar and accurate data to the target without optimization and outperforms generators of previous approaches in the label-only scenario.
翻訳日:2023-07-18 13:36:43 公開日:2023-07-17
# 量子・原子・連続系における科学のための人工知能

Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems ( http://arxiv.org/abs/2307.08423v1 )

ライセンス: Link先を確認
Xuan Zhang, Limei Wang, Jacob Helwig, Youzhi Luo, Cong Fu, Yaochen Xie, Meng Liu, Yuchao Lin, Zhao Xu, Keqiang Yan, Keir Adams, Maurice Weiler, Xiner Li, Tianfan Fu, Yucheng Wang, Haiyang Yu, YuQing Xie, Xiang Fu, Alex Strasser, Shenglong Xu, Yi Liu, Yuanqi Du, Alexandra Saxton, Hongyi Ling, Hannah Lawrence, Hannes St\"ark, Shurui Gui, Carl Edwards, Nicholas Gao, Adriana Ladera, Tailin Wu, Elyssa F. Hofgard, Aria Mansouri Tehrani, Rui Wang, Ameya Daigavane, Montgomery Bohde, Jerry Kurtin, Qian Huang, Tuong Phung, Minkai Xu, Chaitanya K. Joshi, Simon V. Mathis, Kamyar Azizzadenesheli, Ada Fang, Al\'an Aspuru-Guzik, Erik Bekkers, Michael Bronstein, Marinka Zitnik, Anima Anandkumar, Stefano Ermon, Pietro Li\`o, Rose Yu, Stephan G\"unnemann, Jure Leskovec, Heng Ji, Jimeng Sun, Regina Barzilay, Tommi Jaakkola, Connor W. Coley, Xiaoning Qian, Xiaofeng Qian, Tess Smidt, Shuiwang Ji(参考訳) 人工知能(AI)の進歩は、自然科学における新たな発見のパラダイムを加速させている。 今日、aiは、幅広い空間的および時間的スケールで自然現象の理解を改善、加速、可能にし、自然科学を進歩させ始めており、ai for science(ai4science)と呼ばれる新しい研究領域を生み出している。 新たな研究パラダイムであるAI4Scienceは、巨大な学際的な領域であるという点でユニークなものである。 したがって、この分野の統一的で技術的な扱いは、まだ困難である。 本稿では、AI4Scienceのサブ領域、すなわち量子、原子、連続系のAIに関する技術的に完全な説明を提供することを目的とする。 これらの領域は、物理世界(波動関数と電子密度)、原子(分子、タンパク質、物質、相互作用)、マクロ(流体、気候、地下)まで理解し、AI4Scienceの重要なサブ領域を形成することを目的としている。 これらの領域にフォーカスするユニークな利点は、共通の課題の集合を共有し、統一的で基礎的な扱いを可能にすることである。 重要な共通課題は、深層学習法によって自然システムにおいて物理第一原理、特に対称性を捉える方法である。 対称性変換の同値性を達成するための手法について、深いが直感的な説明を提供する。 また,説明可能性,分散の一般化,基礎と大規模言語モデルによる知識伝達,不確実性定量化など,他の一般的な技術的課題についても論じる。 学習と教育を容易にするために,我々は有用なリソースのリストを分類した。 AI4Scienceをさらに進めるために、コミュニティの関心や努力がさらに高まることを期待しています。

Advances in artificial intelligence (AI) are fueling a new paradigm of discoveries in natural sciences. Today, AI has started to advance natural sciences by improving, accelerating, and enabling our understanding of natural phenomena at a wide range of spatial and temporal scales, giving rise to a new area of research known as AI for science (AI4Science). Being an emerging research paradigm, AI4Science is unique in that it is an enormous and highly interdisciplinary area. Thus, a unified and technical treatment of this field is needed yet challenging. This paper aims to provide a technically thorough account of a subarea of AI4Science; namely, AI for quantum, atomistic, and continuum systems. These areas aim at understanding the physical world from the subatomic (wavefunctions and electron density), atomic (molecules, proteins, materials, and interactions), to macro (fluids, climate, and subsurface) scales and form an important subarea of AI4Science. A unique advantage of focusing on these areas is that they largely share a common set of challenges, thereby allowing a unified and foundational treatment. A key common challenge is how to capture physics first principles, especially symmetries, in natural systems by deep learning methods. We provide an in-depth yet intuitive account of techniques to achieve equivariance to symmetry transformations. We also discuss other common technical challenges, including explainability, out-of-distribution generalization, knowledge transfer with foundation and large language models, and uncertainty quantification. To facilitate learning and education, we provide categorized lists of resources that we found to be useful. We strive to be thorough and unified and hope this initial effort may trigger more community interests and efforts to further advance AI4Science.
翻訳日:2023-07-18 13:36:12 公開日:2023-07-17
# 回路のない量子抽象機械:高次アルゴリズム表現性の必要性

Quantum abstract machines without circuits: the need for higher algorithmic expressiveness ( http://arxiv.org/abs/2307.08422v1 )

ライセンス: Link先を確認
Santiago N\'u\~nez-Corrales(参考訳) 既存の量子計算の抽象モデルでは、回路要素を参照している。 回路は、計算のモデルとして、問題と量子リソースの間のアルゴリズム表現とあいまいなハイレベルな接続を実質的に制限する。 ここで議論されているのは、コンポーザブルな手続き的抽象化を顕示する高レベルなアルゴリズム表現性を達成するには、新しいモデルが必要であり、高レベルプログラミング言語で一般的に理解される意味での命令の開発に繋がる。 そのためには、新しい量子アルゴリズムの発見や、量子リソースが有用なパターンに分解される方法のより深い理解、あるいは \emph{quantum motifs} が不可欠である。 これを達成するために、高代数、数理物理学、量子科学の交点へのより強い投資は、 \textit{very large quantum scale integration} によって引き起こされる今後の課題に対処するために必要である。

Existing abstract models of quantum computation make reference to circuit elements, much in contrast to their classical counterparts. Circuits, as a model of computation, substantially limit algorithmic expression and obscure high-level connections between problems and quantum resources. It is argued here that new models are needed to achieve high-level algorithmic expressiveness that allow composable procedural abstractions to manifest, leading to the development of instructions in the sense usually understood in high-level programming languages. Doing so appears essential to the discovery of new quantum algorithms, and deeper understanding of how quantum resources compose into useful patterns, or \emph{quantum motifs}. To achieve this, stronger investment in the intersection between higher-algebra, mathematical physics and quantum science is required to cope with future challenges brought forth by \textit{very large quantum scale integration}.
翻訳日:2023-07-18 13:35:42 公開日:2023-07-17
# ソフトウェアエージェントとデジタル双生児の体系的比較:産業生産における差異、類似性、シナジー

Systematic Comparison of Software Agents and Digital Twins: Differences, Similarities, and Synergies in Industrial Production ( http://arxiv.org/abs/2307.08421v1 )

ライセンス: Link先を確認
Lasse Matthias Reinpold and Lukas Peter Wagner and Felix Gehlhoff and Malte Ramonat and Maximilian Kilthau and Milapji Singh Gill and Jonathan Tobias Reif and Vincent Henkel and Lena Scholz and Alexander Fay(参考訳) 高度にアジャイルで柔軟な生産を実現するため、産業生産システムは徐々に分散化され、相互運用され、インテリジェントになると考えられる。 このビジョンでは、生産資産は互いに協力し合い、高い自律性を示す。 さらに、個々の生産資産に関する知識は、ライフサイクル全体を通して容易に利用できる。 このビジョンを実現するためには,情報技術の適切な活用が必要である。 この文脈で一般的に適用される2つのソフトウェアパラダイムは、ソフトウェアエージェント(エージェント)とデジタルツイン(dts)である。 本研究は,産業応用におけるエージェントとDTの系統的比較を示す。 この研究の目的は、2つのパラダイムの違い、類似性、潜在的なシナジーを決定することである。 この比較は、エージェントとDTが適用される目的、これらのソフトウェアパラダイムによって示される特性と能力、そして参照アーキテクチャモデル産業 4.0 内でどのように割り当てられるかに基づいています。 比較の結果、エージェントは一般的に生産プロセスの協調計画と実行に使われており、dtsは通常、生産リソースの監視や情報処理においてよりパッシブな役割を担っている。 これらの観察はエージェントとdtsの両方の能力と特性のセットを特徴付けるが、2つのパラダイムを明確に区別することはできない。 分析の結果,エージェントとDTの組み合わせによる生産資産は,高い知性,自律性,社会的可能性,忠実性を示すことが示された。 これを実現するには、特にDTの分野において、さらなる標準化が必要である。

To achieve a highly agile and flexible production, it is envisioned that industrial production systems gradually become more decentralized, interconnected, and intelligent. Within this vision, production assets collaborate with each other, exhibiting a high degree of autonomy. Furthermore, knowledge about individual production assets is readily available throughout their entire life-cycles. To realize this vision, adequate use of information technology is required. Two commonly applied software paradigms in this context are Software Agents (referred to as Agents) and Digital Twins (DTs). This work presents a systematic comparison of Agents and DTs in industrial applications. The goal of the study is to determine the differences, similarities, and potential synergies between the two paradigms. The comparison is based on the purposes for which Agents and DTs are applied, the properties and capabilities exhibited by these software paradigms, and how they can be allocated within the Reference Architecture Model Industry 4.0. The comparison reveals that Agents are commonly employed in the collaborative planning and execution of production processes, while DTs typically play a more passive role in monitoring production resources and processing information. Although these observations imply characteristic sets of capabilities and properties for both Agents and DTs, a clear and definitive distinction between the two paradigms cannot be made. Instead, the analysis indicates that production assets utilizing a combination of Agents and DTs would demonstrate high degrees of intelligence, autonomy, sociability, and fidelity. To achieve this, further standardization is required, particularly in the field of DTs.
翻訳日:2023-07-18 13:35:25 公開日:2023-07-17
# Divide&Classify: 都市側視覚位置認識のための細粒度分類

Divide&Classify: Fine-Grained Classification for City-Wide Visual Place Recognition ( http://arxiv.org/abs/2307.08417v1 )

ライセンス: Link先を確認
Gabriele Trivigno, Gabriele Berton, Carlo Masone, Juan Aragon, Barbara Caputo(参考訳) 視覚位置認識は画像検索問題として一般的に扱われる。 しかし, 都市全体の地図から密集した大規模なデータセットにスケールするには, その次元が推定時間に悪影響を及ぼすため, 検索手法は実用的ではない。 近接した近接探索による検索は、性能低下を犠牲にしてこの問題を軽減するのに役立つ。 本稿では,この課題を分類問題として効果的に扱うことができるか検討し,類似性探索の必要性を回避した。 細粒度と都市規模では,既存の粗粒度分布の分類手法が適していないことが判明した。 これは、データセットをクラスに分割する方法が主な原因であり、これらの手法は写真のスパース分布を扱うように設計されているため、密集したシナリオで自然に発生する近隣のクラスにまたがる視覚的エイリアス問題を考慮しないためである。 そこで本研究では,簡単な学習手順を保ちながら,高速かつ高精度な推論を可能にする分割方式と,角マージンロスによって学習したプロトタイプを用いた新しい分類器のアンサンブルに基づく新しい推論パイプラインを提案する。 提案手法であるd&c (d&c) は, 分類解の高速推定と, 細粒度, 都市全体における検索手法と競合する精度を享受する。 さらに,D&Cを既存の検索パイプラインと組み合わせることで,リコールを高速化しながら,20倍以上の高速化を実現できることを示す。

Visual Place recognition is commonly addressed as an image retrieval problem. However, retrieval methods are impractical to scale to large datasets, densely sampled from city-wide maps, since their dimension impact negatively on the inference time. Using approximate nearest neighbour search for retrieval helps to mitigate this issue, at the cost of a performance drop. In this paper we investigate whether we can effectively approach this task as a classification problem, thus bypassing the need for a similarity search. We find that existing classification methods for coarse, planet-wide localization are not suitable for the fine-grained and city-wide setting. This is largely due to how the dataset is split into classes, because these methods are designed to handle a sparse distribution of photos and as such do not consider the visual aliasing problem across neighbouring classes that naturally arises in dense scenarios. Thus, we propose a partitioning scheme that enables a fast and accurate inference, preserving a simple learning procedure, and a novel inference pipeline based on an ensemble of novel classifiers that uses the prototypes learned via an angular margin loss. Our method, Divide&Classify (D&C), enjoys the fast inference of classification solutions and an accuracy competitive with retrieval methods on the fine-grained, city-wide setting. Moreover, we show that D&C can be paired with existing retrieval pipelines to speed up computations by over 20 times while increasing their recall, leading to new state-of-the-art results.
翻訳日:2023-07-18 13:35:01 公開日:2023-07-17
# 神経機械翻訳訓練における対比マーキングによる教師付き学習の強化

Enhancing Supervised Learning with Contrastive Markings in Neural Machine Translation Training ( http://arxiv.org/abs/2307.08416v1 )

ライセンス: Link先を確認
Nathaniel Berger, Miriam Exel, Matthias Huck and Stefan Riezler(参考訳) ニューラルマシン翻訳(nmt:supervised learning in neural machine translation)は、通常、モデルの予測において、参照トークンが条件付きコンテキストを構成する教師強制パラダイムに従っている。 この翻訳空間における探索の欠如を緩和するために、対照マーキングの目的による標準最大度推定の簡単な拡張を提案する。 追加のトレーニング信号は、システム仮説と基準とを比較して参照翻訳から自動的に抽出され、アップ/ダウン重み付けの正誤トークンに使用される。 提案された新しいトレーニング手順では、1エポックあたりのトレーニングセットに1回追加の翻訳パスが必要となり、標準の推論設定は変更されない。 コントラストマーキングによるトレーニングは教師付き学習の上に改善をもたらすことを示し、コントラストマーキングが人間の誤り訂正を示すポストットから学習する際には特に有用である。 コードは公開されている。

Supervised learning in Neural Machine Translation (NMT) typically follows a teacher forcing paradigm where reference tokens constitute the conditioning context in the model's prediction, instead of its own previous predictions. In order to alleviate this lack of exploration in the space of translations, we present a simple extension of standard maximum likelihood estimation by a contrastive marking objective. The additional training signals are extracted automatically from reference translations by comparing the system hypothesis against the reference, and used for up/down-weighting correct/incorrect tokens. The proposed new training procedure requires one additional translation pass over the training set per epoch, and does not alter the standard inference setup. We show that training with contrastive markings yields improvements on top of supervised learning, and is especially useful when learning from postedits where contrastive markings indicate human error corrections to the original hypotheses. Code is publicly released.
翻訳日:2023-07-18 13:34:34 公開日:2023-07-17
# LiDAR誘導半教師型アクティブラーニングによる単眼3次元物体検出

Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active Learning ( http://arxiv.org/abs/2307.08415v1 )

ライセンス: Link先を確認
Aral Hekimoglu, Michael Schmidt, Alvaro Marcos-Ramiro(参考訳) そこで本研究では,LiDAR誘導(MonoLiG)を用いたモノクル3次元物体検出のための,新しい半教師付き能動学習フレームワークを提案する。 lidarを用いて,単眼3次元検出器のデータ選択とトレーニングを,推論フェーズでオーバーヘッドを発生させることなく指導する。 学習中に,半教師による学習から,ラベルなしデータからの情報を擬似ラベルとして蒸留する,単項学習クロスモーダルフレームワークであるlidarを活用した。 センサ特性の違いに対処するため,LiDARから単分子への伝搬雑音の影響を低減するために,データノイズに基づく重み付け機構を提案する。 モデル性能を向上させるためにラベル付けするサンプルを選択するために,学習目標と整合するセンサ一貫性に基づく選択スコアを提案する。 KITTIとWaymoデータセットの大規模な実験結果により,提案フレームワークの有効性が検証された。 特に、我々の選択戦略は、最先端のアクティブラーニングベースラインを一貫して上回り、ラベル付けコストの最大17%の節約率を得る。 トレーニング戦略は,BEV平均精度(AP)を2.02倍に向上させることで,KITTI 3Dと鳥眼視(BEV)単眼物体検出の公式ベンチマークでトップとなる。

We propose a novel semi-supervised active learning (SSAL) framework for monocular 3D object detection with LiDAR guidance (MonoLiG), which leverages all modalities of collected data during model development. We utilize LiDAR to guide the data selection and training of monocular 3D detectors without introducing any overhead in the inference phase. During training, we leverage the LiDAR teacher, monocular student cross-modal framework from semi-supervised learning to distill information from unlabeled data as pseudo-labels. To handle the differences in sensor characteristics, we propose a data noise-based weighting mechanism to reduce the effect of propagating noise from LiDAR modality to monocular. For selecting which samples to label to improve the model performance, we propose a sensor consistency-based selection score that is also coherent with the training objective. Extensive experimental results on KITTI and Waymo datasets verify the effectiveness of our proposed framework. In particular, our selection strategy consistently outperforms state-of-the-art active learning baselines, yielding up to 17% better saving rate in labeling costs. Our training strategy attains the top place in KITTI 3D and birds-eye-view (BEV) monocular object detection official benchmarks by improving the BEV Average Precision (AP) by 2.02.
翻訳日:2023-07-18 13:34:17 公開日:2023-07-17
# ランダム古典情報の局所的アクセス性 : 条件付き非局所性要求の絡み合い

Local Inaccessibility of Random Classical Information : Conditional Nonlocality demands Entanglement ( http://arxiv.org/abs/2307.08457v1 )

ライセンス: Link先を確認
Subhendu B. Ghosh, Snehasish Roy Chowdhury, Tathagata Gupta, Anandamay Das Bhowmik, Sutapa Saha, Some Sankar Bhattacharya, and Tamal Guha(参考訳) 局所的な演算と古典的通信(LOCC)の下での量子状態の識別は、古典的な情報の局所的な検索の文脈において興味深い問題である。 これまでに考慮された全ての局所量子状態判別の前提は、空間的に分離された復号装置が追加入力とは独立である基本的な通信セットを模倣している。 本稿では,局所的ランダム認証(lra)と呼ばれる,入力に依存した局所的量子状態識別のためのフレームワークを提案する。 非局所性(nonlocality)という用語は、しばしば、地域国家差別の不合理性を示すために用いられ、タスクLRAに関連する不合理性に対して条件付き非局所性( conditional nonlocality)という用語を造る。 本報告では, 条件付き非局所性は, アンサンブルにおける絡み合った状態の存在を必要とすることを報告する。 逆に、完全基底集合内の全ての状態が絡み合うことは条件付き非局所性を意味する。 しかし、LRAの不合理性は、より条件のない非局所性を示す。 完全かつ決定的な場合においても、LRAの可能性と多部量子状態の集合に対する局所状態判別の関係も確立されている。 その結果、ネットワーク内の情報のセキュリティとLOCCパラダイムによる量子絡み合いの相互作用の全く新しい側面が浮かび上がった。

Discrimination of quantum states under local operations and classical communication (LOCC) is an intriguing question in the context of local retrieval of classical information, encoded in the multipartite quantum systems. All the local quantum state discrimination premises, considered so far, mimic a basic communication set-up, where the spatially separated decoding devices are independent of any additional input. Here, exploring a generalized communication scenario we introduce a framework for input-dependent local quantum state discrimination, which we call local random authentication (LRA). Referring to the term nonlocality, often used to indicate the impossibility of local state discrimination, we coin the term conditional nonlocality for the impossibility associated with the task LRA. We report that conditional nonlocality necessitates the presence of entangled states in the ensemble, a feature absent from erstwhile nonlocality arguments based on local state discrimination. Conversely, all the states in a complete basis set being entangled implies conditional nonlocality. However, the impossibility of LRA also exhibits more conditional nonlocality with less entanglement. The relation between the possibility of LRA and local state discrimination for sets of multipartite quantum states, both in the perfect and conclusive cases, has also been established. The results highlight a completely new aspect of the interplay between the security of information in a network and quantum entanglement under the LOCC paradigm.
翻訳日:2023-07-18 13:27:19 公開日:2023-07-17
# FLAIR MRIにおける側室分節に対する銀標準マスクを用いた領域適応

Domain Adaptation using Silver Standard Masks for Lateral Ventricle Segmentation in FLAIR MRI ( http://arxiv.org/abs/2307.08456v1 )

ライセンス: Link先を確認
Owen Crystal, Pejman J. Maralani, Sandra Black, Alan R. Moody, April Khademi(参考訳) 側室容積 (LVV) は臨床検査において重要なバイオマーカーである。 流体減衰インバージョンリカバリ(FLAIR)MRIにおける第1回移動学習に基づくLVVセグメンテーション法を提案する。 ソースドメインとターゲットドメイン間の共変を緩和するために,3つのターゲットデータセットのパフォーマンスを最適化するドメイン適応手法を提案する。 新規な画像処理心室分離アルゴリズムを用いてターゲット領域から銀標準(SS)マスクを生成し,ソース領域であるCAIN(Canadian Atherosclerosis Imaging Network)からの金標準(GS)データを補うために使用した。 4つのデータセットのホールドアウトテストセットで4つのモデルがテストされた。 1)SS+GS:ターゲットSSマスクで訓練され、ソースGSマスクで微調整される。 2)GS+SS:ソースGSマスクで訓練され、ターゲットSSマスクで微調整される。 3)ソースGS(GS CAINのみ)およびトレーニング 4) ターゲットSSマスク(SSのみ)で訓練した。 SS+GSモデルは最高で一貫した性能(DSC = 0.89, CoV = 0.05)を持ち、3つのターゲット領域におけるGSのみのモデルと比較して、DSCよりも有意に高い(p < 0.05)。 対象領域からのノイズラベルによる事前トレーニングにより,モデルがデータセット固有の特性に適応し,頑健なパラメータ初期化を実現すると同時に,gsマスクによる微調整によって詳細な特徴の学習が可能になる。 この方法はラベル付きデータが少ない他の医療画像問題にも広く応用でき、データセット毎のキャリブレーション法として利用することで、広範に採用を加速することができる。

Lateral ventricular volume (LVV) is an important biomarker for clinical investigation. We present the first transfer learning-based LVV segmentation method for fluid-attenuated inversion recovery (FLAIR) MRI. To mitigate covariate shifts between source and target domains, this work proposes an domain adaptation method that optimizes performance on three target datasets. Silver standard (SS) masks were generated from the target domain using a novel conventional image processing ventricular segmentation algorithm and used to supplement the gold standard (GS) data from the source domain, Canadian Atherosclerosis Imaging Network (CAIN). Four models were tested on held-out test sets from four datasets: 1) SS+GS: trained on target SS masks and fine-tuned on source GS masks, 2) GS+SS: trained on source GS masks and fine-tuned on target SS masks, 3) trained on source GS (GS CAIN Only) and 4) trained on target SS masks (SS Only). The SS+GS model had the best and most consistent performance (mean DSC = 0.89, CoV = 0.05) and showed significantly (p < 0.05) higher DSC compared to the GS-only model on three target domains. Results suggest pre-training with noisy labels from the target domain allows the model to adapt to the dataset-specific characteristics and provides robust parameter initialization while fine-tuning with GS masks allows the model to learn detailed features. This method has wide application to other medical imaging problems where labeled data is scarce, and can be used as a per-dataset calibration method to accelerate wide-scale adoption.
翻訳日:2023-07-18 13:26:38 公開日:2023-07-17
# 完全かつ厳密なコヒーレント操作におけるコヒーレンス分解則

Coherence factorization law under fully and strictly incoherent operations ( http://arxiv.org/abs/2307.08454v1 )

ライセンス: Link先を確認
Xinzhi Zhao, Jianwei Shao, Yi Zheng, Chengjie Zhang(参考訳) コヒーレンス(Coherence)は、量子資源理論において重要な役割を果たす。 エンタングルメント因数分解法と同様に、完全かつ厳密な非コヒーレント演算(FSIO)チャネルを通して量子状態のコヒーレンス因数分解則を求める。 クーディ状態の完全コヒーレンスを定量化するために、GコヒーレンスのGコヒーレンスと凸屋根を定義し、Gコヒーレンスが強いコヒーレンスモノトンであり、Gコヒーレンスの凸屋根がそれぞれFSIOの下でコヒーレンス測度であることを証明する。 真の非コヒーレント演算(GIOs)の下での量子ビットおよび量子ビットのコヒーレンス分解則の実験的検証が [Photonics Research \textbf{10}, 2172 (2022)] に示されている。 実際、GIOはFSIOの特殊なケースである。 任意のqudit状態に対するすべての可能なfsioチャネルの下でコヒーレンス分解則を一般化できることを証明できる。

Coherence plays an important role in quantum resource theory, which is strongly related with entanglement. Similar to the entanglement factorization law, we find the coherence factorization law of quantum states through fully and strictly incoherent operation (FSIO) channels. In order to quantify the full coherence of qudit states, we define G-coherence and convex roof of G-coherence, and prove that the G-coherence is a strong coherence monotone and the convex roof of G-coherence is a coherence measure under FSIO, respectively. Experimental verification of the coherence factorization law for qubits and qutrits under genuinely incoherent operations (GIOs) has been shown in [Photonics Research \textbf{10}, 2172 (2022)]. Actually, GIO is a special case of FSIO. We prove that coherence factorization law can be generalized under all possible FSIO channels for arbitrary qudit states.
翻訳日:2023-07-18 13:26:00 公開日:2023-07-17
# SBMLtoODEjax:JAXにおけるODE SBMLモデルの効率的なシミュレーションと最適化

SBMLtoODEjax: efficient simulation and optimization of ODE SBML models in JAX ( http://arxiv.org/abs/2307.08452v1 )

ライセンス: Link先を確認
Mayalen Etcheverry, Michael Levin, Cl\'ement Moulin-Frier, Pierre-Yves Oudeyer(参考訳) タンパク質経路から複雑な細胞プロセスまで、生体システムの動的挙動を探索、予測、制御する手法の開発は、バイオエンジニアリングとバイオメディシンの研究において不可欠なフロンティアである。 このように、生物学的システムの計算推論と数学的モデリングに多大な努力が注がれている。 この取り組みにより、一般にオンラインプラットフォーム(BioModels Databaseなど)に格納・交換される公開モデルの大規模なコレクションが、生物学的システムの数学的モデルを表現するための標準フォーマットであるSystems Biology Markup Language (SBML)を使用して開発された。 SBMLtoODEjaxは軽量なライブラリで、SBMLモデルをJAXでエンドツーエンドに記述されたピソンモデルに自動解析および変換することができる。 SBMLtoODEjaxは、数行のコードだけで効率的な数値シミュレーションと最適化を行うために、SBML仕様の常微分方程式(ODE)モデルをピソンプロジェクトや機械学習パイプラインに組み込むことを目的とした研究者をターゲットにしている。 sbmltoodejaxはhttps://github.com/flowersteam/sbmltoodejaxで入手できる。

Developing methods to explore, predict and control the dynamic behavior of biological systems, from protein pathways to complex cellular processes, is an essential frontier of research for bioengineering and biomedicine. Thus, significant effort has gone in computational inference and mathematical modeling of biological systems. This effort has resulted in the development of large collections of publicly-available models, typically stored and exchanged on online platforms (such as the BioModels Database) using the Systems Biology Markup Language (SBML), a standard format for representing mathematical models of biological systems. SBMLtoODEjax is a lightweight library that allows to automatically parse and convert SBML models into python models written end-to-end in JAX, a high-performance numerical computing library with automatic differentiation capabilities. SBMLtoODEjax is targeted at researchers that aim to incorporate SBML-specified ordinary differential equation (ODE) models into their python projects and machine learning pipelines, in order to perform efficient numerical simulation and optimization with only a few lines of code. SBMLtoODEjax is available at https://github.com/flowersteam/sbmltoodejax.
翻訳日:2023-07-18 13:25:39 公開日:2023-07-17
# すべてのステップが等しく作られるわけではない:画像操作のための選択的拡散蒸留

Not All Steps are Created Equal: Selective Diffusion Distillation for Image Manipulation ( http://arxiv.org/abs/2307.08448v1 )

ライセンス: Link先を確認
Luozhou Wang, Shuai Yang, Shu Liu, Ying-cong Chen(参考訳) 条件付き拡散モデルは、画像操作タスクにおいて顕著な性能を示した。 一般的なパイプラインでは、画像にノイズを追加し、それをデノナイズする。 しかし、この手法は、ノイズの多さが画像の忠実度に影響を及ぼす一方で、編集性に悪影響を及ぼすというトレードオフ問題に直面している。 これにより実用性が大幅に制限される。 本稿では,画像の忠実度と編集性を両立させる新しいフレームワーク,Selective Diffusion Distillation (SDD)を提案する。 拡散モデルを用いて画像を直接編集する代わりに、拡散モデルの指導の下でフィードフォワード画像操作ネットワークを訓練する。 また,拡散モデルから正しい意味指導を得るために,意味関連時間ステップを選択する効果的な指標を提案する。 このアプローチは拡散過程によって引き起こされるジレンマをうまく回避する。 我々のフレームワークの利点を実証する大規模な実験を行った。 コードはhttps://github.com/AndysonYs/Selective-Diffusion-Distillationで公開されている。

Conditional diffusion models have demonstrated impressive performance in image manipulation tasks. The general pipeline involves adding noise to the image and then denoising it. However, this method faces a trade-off problem: adding too much noise affects the fidelity of the image while adding too little affects its editability. This largely limits their practical applicability. In this paper, we propose a novel framework, Selective Diffusion Distillation (SDD), that ensures both the fidelity and editability of images. Instead of directly editing images with a diffusion model, we train a feedforward image manipulation network under the guidance of the diffusion model. Besides, we propose an effective indicator to select the semantic-related timestep to obtain the correct semantic guidance from the diffusion model. This approach successfully avoids the dilemma caused by the diffusion process. Our extensive experiments demonstrate the advantages of our framework. Code is released at https://github.com/AndysonYs/Selective-Diffusion-Distillation.
翻訳日:2023-07-18 13:25:18 公開日:2023-07-17
# 量子回路オートエンコーダ

Quantum Circuit AutoEncoder ( http://arxiv.org/abs/2307.08446v1 )

ライセンス: Link先を確認
Jun Wu, Hao Fu, Mingzheng Zhu, Wei Xie and Xiang-Yang Li(参考訳) 本研究では,量子回路内の情報を圧縮してエンコードする量子回路オートエンコーダの概念を紹介する。 量子回路オートエンコーダは量子状態オートエンコーダの一般化としても機能する。 最初のステップでは、量子回路オートエンコーダのプロトコルを提示し、それを実装可能なQCAEという変分量子アルゴリズムを設計する。 次に,無損失圧縮に必要な条件を探索し,qcaeの回復忠実度を上限とした。 さらに,損失のない条件が損失関数の構築を可能にし,不毛高原問題を回避する方法を明らかにする。 古典的なオートエンコーダアプローチに従い、量子回路の次元減少と異常検出にqcaeを適用する。 最後に,提案する量子回路オートエンコーダの有効性を数値シミュレーションにより評価する。 その結果,QCAEは高忠実度で量子回路を効率よく圧縮・復元し,回路外周を正確に同定できることがわかった。

In this study, we introduce the concept of a quantum circuit autoencoder to compress and encode information within quantum circuits. Quantum circuit autoencoder also serves as a generalization of the quantum state autoencoder. Our first step involves presenting a protocol for the quantum circuit autoencoder and designing a variational quantum algorithm named QCAE that can implement it. We then explore the conditions necessary for lossless compression and establish an upper bound on the recovery fidelity of QCAE. Furthermore, we identify how the lossless condition enables us to construct a loss function and avoid the Barren Plateau problem. Following the classical autoencoder approach, we apply QCAE to dimension reduction and anomaly detection for quantum circuits. Finally, we evaluate the effectiveness of our proposed quantum circuit autoencoder through numerical simulations. Our results show that QCAE can efficiently compress and recover quantum circuits with high fidelity and identify circuit outliers precisely.
翻訳日:2023-07-18 13:25:03 公開日:2023-07-17
# 積分可能およびカオス量子系における相関子の時間変動

Temporal fluctuations of correlators in integrable and chaotic quantum systems ( http://arxiv.org/abs/2307.08440v1 )

ライセンス: Link先を確認
Tal\'ia L. M. Lezama, Yevgeny Bar Lev, and Lea F. Santos(参考訳) 我々は、エネルギーギャップの縮退を伴わない多体量子システムの非順序および時間順序コリケータの無限時間平均付近の時間的ゆらぎの境界を与える。 物理初期状態の場合、境界は系の大きさの関数として時間変動の指数的減衰を予測する。 我々は、この予測をカオス的かつ相互作用する可積分スピン-1/2鎖に対して数値的に検証する。 一方、ギャップ縮退を伴う非相互作用系であるXXモデルの場合、時間的変動は、フェルミオン表現に局所的な演算子のシステムサイズと多項式的に減衰し、非局所演算子のシステムサイズで指数関数的に減少することを示す。 その結果, 相関器の時間変動の減衰は, カオスやその欠如の信頼性指標として利用できないことがわかった。

We provide bounds on temporal fluctuations around the infinite-time average of out-of-time-ordered and time-ordered correlators of many-body quantum systems without energy gap degeneracies. For physical initial states, our bounds predict the exponential decay of the temporal fluctuations as a function of the system size. We numerically verify this prediction for chaotic and interacting integrable spin-1/2 chains, which satisfy the assumption of our bounds. On the other hand, we show analytically and numerically that for the XX model, which is a noninteracting system with gap degeneracies, the temporal fluctuations decay polynomially with system size for operators that are local in the fermion representation and decrease exponentially in the system size for non-local operators. Our results demonstrate that the decay of the temporal fluctuations of correlators cannot be used as a reliable metric of chaos or lack thereof.
翻訳日:2023-07-18 13:24:49 公開日:2023-07-17
# DOT: 蒸留指向型トレーナー

DOT: A Distillation-Oriented Trainer ( http://arxiv.org/abs/2307.08436v1 )

ライセンス: Link先を確認
Borui Zhao, Quan Cui, Renjie Song and Jiajun Liang(参考訳) 知識蒸留は、タスクと蒸留損失を通じて、大きなモデルから小さなモデルに知識を転送する。 本稿では,タスク損失と蒸留損失のトレードオフ,すなわち蒸留損失の導入がタスク損失の収束を制限することを観察する。 このトレードオフは蒸留損失の最適化が不十分であると信じている。 理由は,教師が生徒よりもタスクロスが低く,蒸留損失が低いと,生徒は教師によく似ており,より収束したタスクロスが得られるからである。 トレードオフを断ち切るために,蒸留指向トレーナー (DOT) を提案する。 DOTは、タスクと蒸留損失の勾配を別々に考慮し、その最適化を加速するために蒸留損失により大きな運動量を適用する。 我々は、DOTがトレードオフを破ること、すなわち損失が十分に最適化されていることを実証的に証明する。 大規模な実験はDOTの優越性を検証した。 特に、DOTはResNet50-MobileNetV1ペアのImageNet-1kに対して、2.59%の精度向上を実現している。 結論として、DOTは損失収束とモデル一般化の観点から、学生の最適化特性に大きな恩恵を与える。 コードは公開される予定だ。

Knowledge distillation transfers knowledge from a large model to a small one via task and distillation losses. In this paper, we observe a trade-off between task and distillation losses, i.e., introducing distillation loss limits the convergence of task loss. We believe that the trade-off results from the insufficient optimization of distillation loss. The reason is: The teacher has a lower task loss than the student, and a lower distillation loss drives the student more similar to the teacher, then a better-converged task loss could be obtained. To break the trade-off, we propose the Distillation-Oriented Trainer (DOT). DOT separately considers gradients of task and distillation losses, then applies a larger momentum to distillation loss to accelerate its optimization. We empirically prove that DOT breaks the trade-off, i.e., both losses are sufficiently optimized. Extensive experiments validate the superiority of DOT. Notably, DOT achieves a +2.59% accuracy improvement on ImageNet-1k for the ResNet50-MobileNetV1 pair. Conclusively, DOT greatly benefits the student's optimization properties in terms of loss convergence and model generalization. Code will be made publicly available.
翻訳日:2023-07-18 13:24:09 公開日:2023-07-17
# Few-ShotセグメンテーションのためのDense Affinity Matching

Dense Affinity Matching for Few-Shot Segmentation ( http://arxiv.org/abs/2307.08434v1 )

ライセンス: Link先を確認
Hao Chen and Yonghan Dong and Zheming Lu and Yunlong Yu and Yingming Li and Jungong Han and Zhongfei Zhang(参考訳) Few-Shot Segmentation (FSS)は、新しいクラスイメージを注釈付きサンプルで分割することを目的としている。 本稿では,両方向の3D畳み込みに対して,画素間・画素間関係と画素間関係を濃密に捉えることで,サポートクエリ間の相互作用を生かした密接な親和性マッチング(DAM)フレームワークを提案する。 サポート背景を除去した既存の方法と異なり、背景関連クエリ特徴をフィルタリングし、サポート背景により前景関連クエリ機能を保持するためのヒステリシス空間フィルタリングモジュール(hsfm)を設計し、クエリ背景における干渉オブジェクトの排除に有用である。 DAMをクロスカテゴリ、クロスデータセット、クロスドメインFSSタスクで10のベンチマークで総合的に評価する。 実験の結果、DAMは0.68万のパラメータしか持たない異なる条件下で、特にドメイン間FSSタスクにおいて非常に競争力があり、その有効性と効率が示されている。

Few-Shot Segmentation (FSS) aims to segment the novel class images with a few annotated samples. In this paper, we propose a dense affinity matching (DAM) framework to exploit the support-query interaction by densely capturing both the pixel-to-pixel and pixel-to-patch relations in each support-query pair with the bidirectional 3D convolutions. Different from the existing methods that remove the support background, we design a hysteretic spatial filtering module (HSFM) to filter the background-related query features and retain the foreground-related query features with the assistance of the support background, which is beneficial for eliminating interference objects in the query background. We comprehensively evaluate our DAM on ten benchmarks under cross-category, cross-dataset, and cross-domain FSS tasks. Experimental results demonstrate that DAM performs very competitively under different settings with only 0.68M parameters, especially under cross-domain FSS tasks, showing its effectiveness and efficiency.
翻訳日:2023-07-18 13:23:54 公開日:2023-07-17
# 決定可能存在規則集合の導出グラフに基づくキャラクタリゼーション

Derivation-Graph-Based Characterizations of Decidable Existential Rule Sets ( http://arxiv.org/abs/2307.08481v1 )

ライセンス: Link先を確認
Tim S. Lyon and Sebastian Rudolph(参考訳) 本稿では,決定可能な問合せを伴う存在規則集合の表現的クラスに対する代替的特徴付けについて述べる。 我々は、グリーディ有界木幅集合 (gbts) の顕著なクラスと、弱 gbts (wgbts) と呼ばれる新しい一般化された変種を考える。 導出グラフの概念を再検討して構築し、(弱)サイクル自由導出グラフ集合 ((w)cdgs) を定義し、gbts と cdgs が一致することを示すための精巧な証明理論の議論を wgbts と wcdgs と同様に求める。 これらの新しい特徴付けは,実存規則の分析的証明論的理解を前進させ,実際に有用である可能性が高い。

This paper establishes alternative characterizations of very expressive classes of existential rule sets with decidable query entailment. We consider the notable class of greedy bounded-treewidth sets (gbts) and a new, generalized variant, called weakly gbts (wgbts). Revisiting and building on the notion of derivation graphs, we define (weakly) cycle-free derivation graph sets ((w)cdgs) and employ elaborate proof-theoretic arguments to obtain that gbts and cdgs coincide, as do wgbts and wcdgs. These novel characterizations advance our analytic proof-theoretic understanding of existential rules and will likely be instrumental in practice.
翻訳日:2023-07-18 13:17:36 公開日:2023-07-17
# コヒーレントおよび非コヒーレント制御による時間依存デコヒーレンス率を持つオープン量子系のGRAPE最適化

GRAPE optimization for open quantum systems with time-dependent decoherence rates driven by coherent and incoherent controls ( http://arxiv.org/abs/2307.08479v1 )

ライセンス: Link先を確認
Vadim Petruhanov and Alexander Pechen(参考訳) グラディエントアセンセントパルス工学(GRAPE)法は量子制御の最適化に広く用いられている。 GRAPEは、制御対象の勾配の正確な式に基づく勾配探索法である。 これはコヒーレントに制御された閉かつオープンな量子系に適用されている。 本研究では、コヒーレント制御と非コヒーレント制御の両方によって駆動されるオープン量子系に対する目的関数を最適化するGRAPE法を採用する。 我々の場合、調整されたまたは設計された環境は、時間依存のデコヒーレンス率$\gamma_k(t)$または同値な環境のスペクトル密度$n_\omega(t)$を介してシステムに作用する。 この問題に対する GRAPE アプローチを開発するために, 一般の N レベルのオープン量子系に対する様々な目的の勾配を計算する。 単一量子ビットの場合を詳細に検討し、解析的に解決する。 この場合、進化と客観的勾配の明示的な解析式は、ブロッホ球の系のダイナミクスを決定する3\times 3$行列の対角化によって得られる。 対角化はカルダーノ法によって立方方程式を解いて得られる。 状態遷移問題に対する数値シミュレーションによりアルゴリズムの効率を実証し,その複雑さを推定する。

The GRadient Ascent Pulse Engineering (GRAPE) method is widely used for optimization in quantum control. GRAPE is gradient search method based on exact expressions for gradient of the control objective. It has been applied to coherently controlled closed and open quantum systems. In this work, we adopt GRAPE method for optimizing objective functionals for open quantum systems driven by both coherent and incoherent controls. In our case, the tailored or engineered environment acts on the system as control via it time-dependent decoherence rates $\gamma_k(t)$ or, equivalently, via it spectral density of the environment $n_\omega(t)$. To develop GRAPE approach for this problem, we compute gradient of various objectives for general N-level open quantum systems both for piecewise class of control. The case of a single qubit is considered in details and solved analytically. For this case, an explicit analytical expression for evolution and objective gradient is obtained via diagonalization of a $3\times 3$ matrix determining the system's dynamics in the Bloch ball. The diagonalization is obtained by solving a cubic equation via Cardano's method. The efficiency of the algorithm is demonstrated through numerical simulations for the state-to-state transition problem and its complexity is estimated.
翻訳日:2023-07-18 13:17:20 公開日:2023-07-17
# SkeletonMAE:スケルトン系列事前学習のためのグラフベースマスクオートエンコーダ

SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence Pre-training ( http://arxiv.org/abs/2307.08476v1 )

ライセンス: Link先を確認
Hong Yan, Yang Liu, Yushen Wei, Zhen Li, Guanbin Li, Liang Lin(参考訳) スケルトン配列表現学習は、人間の関節やトポロジーをモデル化する有望な能力のため、行動認識に大きな利点がある。 しかし、現在の手法は通常、計算コストの高いモデルを訓練するのに十分なラベル付きデータを必要とする。 さらに、これらの手法は、異なるデータセット間でうまく一般化できる効率的な骨格配列学習モデルを事前訓練するために、異なる骨格関節間のきめ細かい依存関係を利用する方法を無視している。 本稿では,Skeleton Sequence Learning (SSL) という,効率的なスケルトンシーケンス学習フレームワークを提案する。 人間のポーズを包括的に捉え、識別的な骨格配列表現を得るため、スケルトンメイと呼ばれる非対称グラフベースのエンコーダ・デコーダプリトレーニングアーキテクチャを構築し、グラフ畳み込みネットワーク(gcn)にスケルトン結合配列を埋め込み、以前の人間のトポロジ知識に基づいてマスク付き骨格関節とエッジを再構築する。 次に、事前訓練されたSkeletonMAEエンコーダをSpatial-Temporal Representation Learning (STRL)モジュールに統合してSSLフレームワークを構築する。 大規模な実験結果から,SSLはさまざまなデータセットにまたがって一般化され,FinGym, Diving48, NTU 60, NTU 120データセット上での最先端の自己教師型スケルトンに基づく行動認識手法よりも優れていた。 さらに,完全な教師付き手法と同等の性能が得られる。 コードはhttps://github.com/HongYan1123/SkeletonMAEで検証可能である。

Skeleton sequence representation learning has shown great advantages for action recognition due to its promising ability to model human joints and topology. However, the current methods usually require sufficient labeled data for training computationally expensive models, which is labor-intensive and time-consuming. Moreover, these methods ignore how to utilize the fine-grained dependencies among different skeleton joints to pre-train an efficient skeleton sequence learning model that can generalize well across different datasets. In this paper, we propose an efficient skeleton sequence learning framework, named Skeleton Sequence Learning (SSL). To comprehensively capture the human pose and obtain discriminative skeleton sequence representation, we build an asymmetric graph-based encoder-decoder pre-training architecture named SkeletonMAE, which embeds skeleton joint sequence into Graph Convolutional Network (GCN) and reconstructs the masked skeleton joints and edges based on the prior human topology knowledge. Then, the pre-trained SkeletonMAE encoder is integrated with the Spatial-Temporal Representation Learning (STRL) module to build the SSL framework. Extensive experimental results show that our SSL generalizes well across different datasets and outperforms the state-of-the-art self-supervised skeleton-based action recognition methods on FineGym, Diving48, NTU 60 and NTU 120 datasets. Additionally, we obtain comparable performance to some fully supervised methods. The code is avaliable at https://github.com/HongYan1123/SkeletonMAE.
翻訳日:2023-07-18 13:16:59 公開日:2023-07-17
# irs支援マルチアクセスエッジコンピューティングシステムのための高速タスクオフロード最適化フレームワーク

A Fast Task Offloading Optimization Framework for IRS-Assisted Multi-Access Edge Computing System ( http://arxiv.org/abs/2307.08474v1 )

ライセンス: Link先を確認
Jianqiu Wu, Zhongyi Yu, Jianxiong Guo, Zhiqing Tang, Tian Wang, Weijia Jia(参考訳) テラヘルツ通信網とインテリジェント反射面は、特に航空ベースのマルチアクセスエッジコンピューティングシステムの領域において、無線ネットワークを前進させる大きな可能性を示している。 これらの技術は、ユーザの電子機器から無人航空機やローカル実行への効率的な計算タスクのオフロードを可能にする。 高品質なタスクオフロードアロケーションの生成のために、従来の数値最適化手法は、制限されたチャネルコヒーレンス時間内の組合せ最適化問題を解くのにしばしば苦労し、システム状態の動的変化に素早く対応できない。 この課題に対処するため,我々は,反復順序保存ポリシー最適化(iopo)と呼ばれる,エネルギー効率の高いタスクオフロード決定をミリ秒以内に生成できる深層学習に基づく最適化フレームワークを提案する。 徹底的な探索法とは異なり、IOPOは徹底的な探索に頼らずにオフロード決定を継続的に更新し、特に広範な解空間を特徴とする複雑な問題を扱う場合、収束の加速と計算複雑性の低減をもたらす。 実験結果から,提案フレームワークは短時間でエネルギー効率の高いタスクオフロード決定を生成でき,他のベンチマーク手法よりも優れていることが示された。

Terahertz communication networks and intelligent reflecting surfaces exhibit significant potential in advancing wireless networks, particularly within the domain of aerial-based multi-access edge computing systems. These technologies enable efficient offloading of computational tasks from user electronic devices to Unmanned Aerial Vehicles or local execution. For the generation of high-quality task-offloading allocations, conventional numerical optimization methods often struggle to solve challenging combinatorial optimization problems within the limited channel coherence time, thereby failing to respond quickly to dynamic changes in system conditions. To address this challenge, we propose a deep learning-based optimization framework called Iterative Order-Preserving policy Optimization (IOPO), which enables the generation of energy-efficient task-offloading decisions within milliseconds. Unlike exhaustive search methods, IOPO provides continuous updates to the offloading decisions without resorting to exhaustive search, resulting in accelerated convergence and reduced computational complexity, particularly when dealing with complex problems characterized by extensive solution spaces. Experimental results demonstrate that the proposed framework can generate energy-efficient task-offloading decisions within a very short time period, outperforming other benchmark methods.
翻訳日:2023-07-18 13:16:31 公開日:2023-07-17
# EGE-UNet:皮膚病変セグメンテーションのための効率的なグループ拡張UNet

EGE-UNet: an Efficient Group Enhanced UNet for skin lesion segmentation ( http://arxiv.org/abs/2307.08473v1 )

ライセンス: Link先を確認
Jiacheng Ruan, Mingye Xie, Jingsheng Gao, Ting Liu, and Yuzhuo Fu(参考訳) Transformerとその変種は医療画像のセグメンテーションに広く使われている。 しかし、これらのモデルの多くのパラメータと計算負荷は、モバイルの健康アプリケーションには不向きである。 この問題に対処するために、より効率的なアプローチとして、EGE-UNet(Efficient Group Enhanced UNet)を提案する。 我々は,GHPA (Group multi-axis Hadamard Product Attention Module) とGAB (Group Aggregation Bridge Module) を軽量に組み込んだ。 GHPAは、様々な視点から病理情報を抽出するために、異なる軸にアダマール製品注意機構(HPA)を入力し、実行する。 GABは、各ステージでデコーダによって生成された低レベル特徴、高レベル特徴、マスクをグループ化することにより、マルチスケール情報を効果的に融合する。 ISIC2017とISIC2018データセットに関する包括的な実験は、EGE-UNetが既存の最先端の手法より優れていることを示した。 要するに、TransFuseと比較して、パラメータと計算コストをそれぞれ494xと160xに削減しながら、より優れたセグメンテーション性能を実現する。 さらに、私たちの知る限りでは、パラメータ数が50KBに制限された最初のモデルです。 私たちのコードはhttps://github.com/JCruan519/EGE-UNetで公開されています。

Transformer and its variants have been widely used for medical image segmentation. However, the large number of parameter and computational load of these models make them unsuitable for mobile health applications. To address this issue, we propose a more efficient approach, the Efficient Group Enhanced UNet (EGE-UNet). We incorporate a Group multi-axis Hadamard Product Attention module (GHPA) and a Group Aggregation Bridge module (GAB) in a lightweight manner. The GHPA groups input features and performs Hadamard Product Attention mechanism (HPA) on different axes to extract pathological information from diverse perspectives. The GAB effectively fuses multi-scale information by grouping low-level features, high-level features, and a mask generated by the decoder at each stage. Comprehensive experiments on the ISIC2017 and ISIC2018 datasets demonstrate that EGE-UNet outperforms existing state-of-the-art methods. In short, compared to the TransFuse, our model achieves superior segmentation performance while reducing parameter and computation costs by 494x and 160x, respectively. Moreover, to our best knowledge, this is the first model with a parameter count limited to just 50KB. Our code is available at https://github.com/JCruan519/EGE-UNet.
翻訳日:2023-07-18 13:16:09 公開日:2023-07-17
# 半完全または半空質問の明確化:マルチモーダルコンテナ分類

Clarifying the Half Full or Half Empty Question: Multimodal Container Classification ( http://arxiv.org/abs/2307.08471v1 )

ライセンス: Link先を確認
Josua Spisak, Matthias Kerzel, and Stefan Wermter(参考訳) マルチモーダル統合は、ロボットが世界を知覚する上で重要な要素である。 マルチモダリティには、データの統合や融合の方法など、考慮しなければならない複数の課題が伴う。 本稿では,視覚的,触覚的,固有受容的データを融合する様々な可能性について比較する。 データはNICOLロボットに直接記録され、ロボットはコンテナとそのコンテンツを分類する必要がある。 コンテナの性質が異なるため、モダリティの使用はクラスによって大きく異なる可能性がある。 本稿では,マルチモーダルソリューションの優位性を実証し,異なる時間ステップでデータを統合する3つの融合戦略を評価する。 最良核融合戦略の精度は1つの特異な意味だけで最良戦略よりも15%高いことがわかった。

Multimodal integration is a key component of allowing robots to perceive the world. Multimodality comes with multiple challenges that have to be considered, such as how to integrate and fuse the data. In this paper, we compare different possibilities of fusing visual, tactile and proprioceptive data. The data is directly recorded on the NICOL robot in an experimental setup in which the robot has to classify containers and their content. Due to the different nature of the containers, the use of the modalities can wildly differ between the classes. We demonstrate the superiority of multimodal solutions in this use case and evaluate three fusion strategies that integrate the data at different time steps. We find that the accuracy of the best fusion strategy is 15% higher than the best strategy using only one singular sense.
翻訳日:2023-07-18 13:15:47 公開日:2023-07-17
# riesz特徴表現:分類タスクのためのスケール同変散乱ネットワーク

Riesz feature representation: scale equivariant scattering network for classification tasks ( http://arxiv.org/abs/2307.08467v1 )

ライセンス: Link先を確認
Tin Barisin and Jesus Angulo and Katja Schladitz and Claudia Redenbach(参考訳) 散乱ネットワークは、長いトレーニングを必要とせず、非常に少ないトレーニングデータでうまく機能する、強力で堅牢な階層型画像記述子を生成する。 しかし、それらはスケール次元のサンプリングに依存している。 したがって、それらはスケールのバリエーションに敏感になり、目に見えないスケールに一般化できない。 本研究では,Riesz変換に基づく代替的特徴表現を定義する。 この表現の背後にある数学的基礎を詳述し分析する。 特に、それはリース変換からスケール等分散を継承し、スケール次元のサンプリングを完全に避けている。 さらに、表現における特徴の数は、散乱ネットワークと比較して係数4に減少する。 それにもかかわらず、我々の表現はテクスチャ分類において、興味深い追加:スケール同値性(scale equivariance)で比較的によく機能する。 本手法は,トレーニングデータセットでカバーされたもの以外のスケールを扱う場合,優れた性能が得られる。 等分散特性の有用性は,訓練対象の4倍の大きさのスケールであっても精度が安定な数値分類タスクにおいて実証された。 第2の例として,テクスチャの分類について考察する。

Scattering networks yield powerful and robust hierarchical image descriptors which do not require lengthy training and which work well with very few training data. However, they rely on sampling the scale dimension. Hence, they become sensitive to scale variations and are unable to generalize to unseen scales. In this work, we define an alternative feature representation based on the Riesz transform. We detail and analyze the mathematical foundations behind this representation. In particular, it inherits scale equivariance from the Riesz transform and completely avoids sampling of the scale dimension. Additionally, the number of features in the representation is reduced by a factor four compared to scattering networks. Nevertheless, our representation performs comparably well for texture classification with an interesting addition: scale equivariance. Our method yields superior performance when dealing with scales outside of those covered by the training dataset. The usefulness of the equivariance property is demonstrated on the digit classification task, where accuracy remains stable even for scales four times larger than the one chosen for training. As a second example, we consider classification of textures.
翻訳日:2023-07-18 13:15:37 公開日:2023-07-17
# ニューラルネットワークを用いたガス絶縁HVDC系のUHF部分放電信号の分類

Classification of UHF Partial Discharge Signals in Gas-Insulated HVDC Systems Using Neural Networks ( http://arxiv.org/abs/2307.08466v1 )

ライセンス: Link先を確認
Steffen Seitz and Thomas G\"otz and Christopher Lindenberg and Ronald Tetzlaff and Stephan Schlegel(参考訳) 非検出部分放電(PDs)は、高電圧(HV)ガス絶縁システム(GIS)の安全性に重要な問題である。 交流電圧下でのPDの診断は良好であるが、直流電圧下でのPDの解析は依然として活発な研究分野である。 これらの研究の重要な焦点は、その後の高度な分析を可能にするために異なるPDソースの分類である。 本稿では,HVDC GISの絶縁体上での金属突起や導電性粒子によるPD信号の分類をパルスシーケンス解析に頼らずにニューラルネットワークで行う手法を提案する。 従来の手法とは対照的に,提案モデルでは負の電位と正の電位で得られたPD信号を識別すると同時に,動作電圧の多重化を一般化する。 さらに、時間領域と周波数領域の入力信号の性能を比較し、異なる正規化方式の影響を調べ、センサと欠陥位置間の自由空間経路損失の影響を緩和する。

Undetected partial discharges (PDs) are a safety critical issue in high voltage (HV) gas insulated systems (GIS). While the diagnosis of PDs under AC voltage is well-established, the analysis of PDs under DC voltage remains an active research field. A key focus of these investigations is the classification of different PD sources to enable subsequent sophisticated analysis. In this paper, we propose and analyze a neural network-based approach for classifying PD signals caused by metallic protrusions and conductive particles on the insulator of HVDC GIS, without relying on pulse sequence analysis features. In contrast to previous approaches, our proposed model can discriminate the studied PD signals obtained at negative and positive potentials, while also generalizing to unseen operating voltage multiples. Additionally, we compare the performance of time- and frequency-domain input signals and explore the impact of different normalization schemes to mitigate the influence of free-space path loss between the sensor and defect location.
翻訳日:2023-07-18 13:15:22 公開日:2023-07-17
# 量子状態に対するコヒーレンス分解則の実験的検証

Experimental verification of a coherence factorization law for quantum states ( http://arxiv.org/abs/2307.08462v1 )

ライセンス: Link先を確認
Yi Zheng, Cheng-Jie Zhang, Zheng-Hao Liu, Jian-Wei Shao, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo(参考訳) 量子資源として、量子コヒーレンスは現代物理学において重要な役割を果たす。 多くのコヒーレンス測度とその絡み合いとの関係が提案され、絡み合いのダイナミクスが実験的に研究されている。 しかし、オープンシステムにおけるコヒーレンスダイナミクスの一般結果に関する知識は限られている。 本稿では,真に一貫性のない操作を特徴とする雑音チャネルを通過するコヒーレンスの進化を記述するコヒーレンス分解則を提案する。 我々は量子演算の実装に光子を使い、量子ビットやクトリットの法則を実験的に検証する。 我々の研究は、システムが環境と相互作用するときのコヒーレンスの進化を理解するための一歩であり、より一般的なコヒーレンスの法則の研究を促進する。

As a quantum resource, quantum coherence plays an important role in modern physics. Many coherence measures and their relations with entanglement have been proposed, and the dynamics of entanglement has been experimentally studied. However, the knowledge of general results for coherence dynamics in open systems is limited. Here we propose a coherence factorization law, which describes the evolution of coherence passing through any noisy channels characterized by genuinely incoherent operations. We use photons to implement the quantum operations and experimentally verify the law for qubits and qutrits. Our work is a step toward the understanding of the evolution of coherence when the system interacts with the environment, and will boost the study of more general laws of coherence.
翻訳日:2023-07-18 13:15:05 公開日:2023-07-17
# モビリティデータサイエンスのためのeXplainable AIを目指して

Towards eXplainable AI for Mobility Data Science ( http://arxiv.org/abs/2307.08461v1 )

ライセンス: Link先を確認
Anahid Jalali, Anita Graser, Clemens Heistracher(参考訳) 本稿では,xai for mobility data science 応用に向けて,時間グラフニューラルネットワーク (gnns) と偽物を用いた車両や船舶のgps 追跡などの高密度軌道データから学習可能な説明可能なモデルに着目した,現在進行中の研究について述べる。 我々は既存のGeoXAI研究をレビューし、人間中心のアプローチによる理解可能な説明の必要性を論じ、モビリティデータサイエンスのためのXAI研究の道筋を概説する。

This paper presents our ongoing work towards XAI for Mobility Data Science applications, focusing on explainable models that can learn from dense trajectory data, such as GPS tracks of vehicles and vessels using temporal graph neural networks (GNNs) and counterfactuals. We review the existing GeoXAI studies, argue the need for comprehensible explanations with human-centered approaches, and outline a research path toward XAI for Mobility Data Science.
翻訳日:2023-07-18 13:14:54 公開日:2023-07-17
# 視覚トランスフォーマーのための累積空間知識蒸留

Cumulative Spatial Knowledge Distillation for Vision Transformers ( http://arxiv.org/abs/2307.08500v1 )

ライセンス: Link先を確認
Borui Zhao, Renjie Song and Jiajun Liang(参考訳) 畳み込みニューラルネットワーク(CNN)からの知識を蒸留することは、視覚トランスフォーマー(ViT)のための二重刃の剣である。 画像に親しみやすいCNNの局所帰納バイアスは、ViTがより速くより良く学習するのに役立つが、(1)CNNとViTのネットワーク設計は完全に異なるため、中間機能のセマンティックレベルが異なり、空間的知識伝達法(例えば、機能模倣)を非効率にする、という2つの問題に繋がる。 (2) cnn からの知識の蒸留は,vit のグローバル情報統合能力が cnn の局所的インダクティブバイアス監督によって抑制されるため,後のトレーニング期間におけるネットワーク収束を制限する。 この目的のために,累積空間知識蒸留(CSKD)を提案する。 CSKDは、中間特徴を導入することなく、対応するCNNの空間応答からViTのパッチトークンすべてに空間的知識を蒸留する。 さらにCSKDは、CNNのグローバルな応答を導入し、トレーニング中の重要性をますます強調する累積知識融合(CKF)モジュールを利用している。 CKFの適用は、初期のトレーニング期間におけるCNNの局所的帰納バイアスを活用し、後期のViTのグローバルな能力を完全に発揮する。 ImageNet-1kおよび下流データセットの大規模な実験と分析は、CSKDの優位性を示している。 コードは公開されます。

Distilling knowledge from convolutional neural networks (CNNs) is a double-edged sword for vision transformers (ViTs). It boosts the performance since the image-friendly local-inductive bias of CNN helps ViT learn faster and better, but leading to two problems: (1) Network designs of CNN and ViT are completely different, which leads to different semantic levels of intermediate features, making spatial-wise knowledge transfer methods (e.g., feature mimicking) inefficient. (2) Distilling knowledge from CNN limits the network convergence in the later training period since ViT's capability of integrating global information is suppressed by CNN's local-inductive-bias supervision. To this end, we present Cumulative Spatial Knowledge Distillation (CSKD). CSKD distills spatial-wise knowledge to all patch tokens of ViT from the corresponding spatial responses of CNN, without introducing intermediate features. Furthermore, CSKD exploits a Cumulative Knowledge Fusion (CKF) module, which introduces the global response of CNN and increasingly emphasizes its importance during the training. Applying CKF leverages CNN's local inductive bias in the early training period and gives full play to ViT's global capability in the later one. Extensive experiments and analysis on ImageNet-1k and downstream datasets demonstrate the superiority of our CSKD. Code will be publicly available.
翻訳日:2023-07-18 13:07:32 公開日:2023-07-17
# レース予測は信頼できるか?

Can We Trust Race Prediction? ( http://arxiv.org/abs/2307.08496v1 )

ライセンス: Link先を確認
Cangyuan Li(参考訳) センシティブな人種と民族データがないと、研究者、規制当局、そして企業もプロキシーに目を向ける。 本稿では,50州すべてからの投票者登録データの新しいデータセットに基づいて,双方向長短期記憶(BiLSTM)モデルをトレーニングし,最大36.8%のサンプル(OOS)F1スコアを文献上で最高の機械学習モデルよりも高いスコアで達成するアンサンブルを作成する。 さらに,ベイジアン改良名称ジオコーディング (BISG) とベイジアン改良姓ジオコーディング (BIFSG) のカバレッジと精度を向上させるため,アメリカにおける姓と姓の分布の包括的データベースを構築した。 最後に、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供します。

In the absence of sensitive race and ethnicity data, researchers, regulators, and firms alike turn to proxies. In this paper, I train a Bidirectional Long Short-Term Memory (BiLSTM) model on a novel dataset of voter registration data from all 50 US states and create an ensemble that achieves up to 36.8% higher out of sample (OOS) F1 scores than the best performing machine learning models in the literature. Additionally, I construct the most comprehensive database of first and surname distributions in the US in order to improve the coverage and accuracy of Bayesian Improved Surname Geocoding (BISG) and Bayesian Improved Firstname Surname Geocoding (BIFSG). Finally, I provide the first high-quality benchmark dataset in order to fairly compare existing models and aid future model developers.
翻訳日:2023-07-18 13:07:05 公開日:2023-07-17
# SVDFormer: セルフビュー拡張と自己構造デュアルジェネレータによるポイントクラウドの補完

SVDFormer: Complementing Point Cloud via Self-view Augmentation and Self-structure Dual-generator ( http://arxiv.org/abs/2307.08492v1 )

ライセンス: Link先を確認
Zhe Zhu, Honghua Chen, Xing He, Weiming Wang, Jing Qin, Mingqiang Wei(参考訳) 本稿では,不完全点雲からの忠実なグローバルな形状の理解と高精度な局所構造の生成という,ポイントクラウド完成における2つの課題に対処する新しいネットワークSVDFormerを提案する。 現在の方法では、3次元座標のみを用いて形状パターンを知覚するか、不在部分の幾何推定を導くために、よく校正された固有パラメータで余分なイメージをインポートする。 しかし、これらのアプローチは必ずしも、正確で高品質なクラウド完備化のために利用可能なクロスモーダルな自己構造を完全に活用するとは限らない。 そこで我々はまず,複数視点深度画像情報を利用して不完全な自己形状を観察し,コンパクトな大域的な形状を生成するセルフビュー融合ネットワークを設計する。 高精細な構造を明らかにするために、我々は、学習された形状の事前と幾何学的自己相似性を組み込んで新しい点を作り出す自己構造双生成子と呼ばれる精細モジュールを導入する。 各点の不完全性を知覚することにより、二重パス設計は各点の構造型に規定された洗練戦略を歪曲する。 svdformerは自己構造に関する知恵を吸収し、カメラ固有のパラメータを精密に調整したカラー画像などの追加情報を避ける。 包括的実験により,本手法は広く使用されているベンチマークにおいて最先端の性能を実現することを示す。 コードはhttps://github.com/czvvd/svdformerで入手できる。

In this paper, we propose a novel network, SVDFormer, to tackle two specific challenges in point cloud completion: understanding faithful global shapes from incomplete point clouds and generating high-accuracy local structures. Current methods either perceive shape patterns using only 3D coordinates or import extra images with well-calibrated intrinsic parameters to guide the geometry estimation of the missing parts. However, these approaches do not always fully leverage the cross-modal self-structures available for accurate and high-quality point cloud completion. To this end, we first design a Self-view Fusion Network that leverages multiple-view depth image information to observe incomplete self-shape and generate a compact global shape. To reveal highly detailed structures, we then introduce a refinement module, called Self-structure Dual-generator, in which we incorporate learned shape priors and geometric self-similarities for producing new points. By perceiving the incompleteness of each point, the dual-path design disentangles refinement strategies conditioned on the structural type of each point. SVDFormer absorbs the wisdom of self-structures, avoiding any additional paired information such as color images with precisely calibrated camera intrinsic parameters. Comprehensive experiments indicate that our method achieves state-of-the-art performance on widely-used benchmarks. Code will be available at https://github.com/czvvd/SVDFormer.
翻訳日:2023-07-18 13:06:27 公開日:2023-07-17
# Latent Jailbreak: 大規模言語モデルのテキスト安全性と出力ロバスト性を評価するベンチマーク

Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models ( http://arxiv.org/abs/2307.08487v1 )

ライセンス: Link先を確認
Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan(参考訳) 研究者は、大規模な言語モデル(LLM)が人間の価値と整合することを保証するために、インストラクションチューニングや人間やAIフィードバックからの強化学習(RLHF/RLAIF)など、さまざまなトレーニング技術を使用して、テキストの安全性を保護している。 しかし、これらの防御は、いくつかのジェイルブレイク攻撃に対して信じられないほど脆弱であり、モデルが機密性の高いトピックに対して過度に防御されるか、有害なコンテンツを生成する可能性があるため、特にモデル性能は脆弱である。 そこで本研究では,テキスト安全性と出力堅牢性を包括的に研究するために,悪意のある命令埋め込みを含む潜伏ジェイルブレイクプロンプトデータセットを提案する。 具体的には、翻訳対象のテキストが悪意のある命令を含む翻訳などの通常のタスクを完了するようモデルに指示する。 安全性と堅牢性をさらに分析するため,階層型アノテーションフレームワークを設計する。 本稿では, 明示的正規命令の位置, 単語置換(明示的正規命令の動詞, 悪意的命令のターゲットグループ, 悪意的命令のキューワード), 命令置換(異なる明示的正規命令)について, LLMの安全性と堅牢性について, 系統的分析を行った。 以上の結果から,現在のLLMは特定の命令動詞を優先するだけでなく,明示的な正規命令で異なる命令動詞に対して異なるジェイルブレイク率を示すことが明らかとなった。 言い換えれば、モデルによって安全でないコンテンツを生成する確率は、明示的な正規命令の命令動詞によって異なる程度に強化される。 コードとデータはhttps://github.com/qiuhuachuan/latent-jailbreakで入手できる。

Researchers have invested considerable effort into ensuring that large language models (LLMs) align with human values, using various training techniques, such as instruction tuning and Reinforcement Learning from Human or AI Feedback (RLHF/RLAIF), to guard against text unsafety. However, these defenses remain incredibly vulnerable to some jailbreak attacks, which can cause the model to become overly defensive to sensitive topics or still generate harmful content, leaving the model performance particularly fragile. Therefore, to comprehensively study text safety and output robustness, we propose a latent jailbreak prompt dataset, each involving malicious instruction embedding. Specifically, we instruct the model to complete a regular task, such as translation, where the text to be translated contains malicious instructions. To further analyze the safety and robustness, we design a hierarchical annotation framework. We present a systematic analysis of the safety and robustness of LLMs concerning the position of explicit normal instructions, word replacement (verbs in explicit normal instructions, target groups in malicious instructions, cue words in malicious instructions), and instruction replacement (different explicit normal instructions). Our results show that current LLMs not only have a preference for certain instruction verbs, but also exhibit different jailbreak rates for different instruction verbs in explicit normal instructions. In other words, the probability of generating unsafe content by the model will be reinforced to varying degrees depending on the instruction verb in explicit normal instructions. Code and data are available at https://github.com/qiuhuachuan/latent-jailbreak.
翻訳日:2023-07-18 13:06:04 公開日:2023-07-17
# KIシステムにおける公正性

Fairness in KI-Systemen ( http://arxiv.org/abs/2307.08486v1 )

ライセンス: Link先を確認
Janine Strotherm and Alissa M\"uller and Barbara Hammer and Benjamin Paa{\ss}en(参考訳) AIが支援する決定が人々の生活に影響を及ぼすほど、そのような決定の公平性がより重要になる。 本章では,機械学習における公正性の研究について紹介する。 本稿では,具体例を用いて公平性を達成するための主なフェアネス定義と戦略を説明し,ヨーロッパ文脈におけるフェアネス研究の場について述べる。 我々の貢献は学際的な聴衆を対象としており、数学的定式化は避けるが、可視化と例を強調している。 Je mehr KI-gest\utzte Entscheidungen das Leben von Menschen betreffen, desto wichtiger is not die Fairness solcher Entscheidungen。 ルネンの「栄光」に就て フェアネス・ディフィニション・アンド・ストラテジエン・フォン・フェアネス・アンハンド・コンクリーター・ベイスピレ・アンド・オードネン・ディ・フェアネス・フォーチュン・イン・デン・ユーロp\"aischen Kontext ein. 視覚科学と視覚科学の融合をめざして : 視覚科学と視覚科学の融合をめざして

The more AI-assisted decisions affect people's lives, the more important the fairness of such decisions becomes. In this chapter, we provide an introduction to research on fairness in machine learning. We explain the main fairness definitions and strategies for achieving fairness using concrete examples and place fairness research in the European context. Our contribution is aimed at an interdisciplinary audience and therefore avoids mathematical formulation but emphasizes visualizations and examples. -- Je mehr KI-gest\"utzte Entscheidungen das Leben von Menschen betreffen, desto wichtiger ist die Fairness solcher Entscheidungen. In diesem Kapitel geben wir eine Einf\"uhrung in die Forschung zu Fairness im maschinellen Lernen. Wir erkl\"aren die wesentlichen Fairness-Definitionen und Strategien zur Erreichung von Fairness anhand konkreter Beispiele und ordnen die Fairness-Forschung in den europ\"aischen Kontext ein. Unser Beitrag richtet sich dabei an ein interdisziplin\"ares Publikum und verzichtet daher auf die mathematische Formulierung sondern betont Visualisierungen und Beispiele.
翻訳日:2023-07-18 13:05:32 公開日:2023-07-17
# スプリアスインタラクションと単一特徴優性説明可能なブースティングマシンを解消するクロスフィーチャー選択

Cross Feature Selection to Eliminate Spurious Interactions and Single Feature Dominance Explainable Boosting Machines ( http://arxiv.org/abs/2307.08485v1 )

ライセンス: Link先を確認
Shree Charran R and Sandipan Das Mahapatra(参考訳) 解釈性は、人間がこれらのモデルの意思決定プロセスを理解し、信頼できるようにする機械学習モデルの重要な側面である。 多くの実世界の応用において、モデルの解釈性は法的、倫理的、実践的な理由に不可欠である。 例えば、銀行の領域では、公正な融資法に従って、ローン申請の受理や拒絶の背景にある理由を理解することは、貸し手や借り手にとって非常に重要である。 しかし、特に複雑な高性能モデルでは、機械学習モデルで解釈性を達成することは困難である。 そのため、様々な予測タスクにおいて、解釈可能で高性能な性質を持つEBM(Explainable Boosting Machines)が人気を集めている。 しかし、これらのモデルは、冗長な機能とのスプリアスな相互作用や、すべてのインタラクションにおけるシングルフィーチャー支配といった問題に苦しめられ、モデルの予測の解釈可能性と信頼性に影響を及ぼす可能性がある。 本稿では,交互な機能選択,アンサンブル機能,モデル構成変更技術を用いて,これらの課題に対処する新しい手法を検討する。 提案手法では,候補特徴のセットを選択し,アンサンブル特徴を選択し,ebmモデルを用いてベンチマークを行う多段階特徴選択手法を提案する。 本手法を3つのベンチマークデータセットで評価し,バニラebm法より優れた解釈性と特徴選択安定性を提供しつつ,モデルの予測性能を向上させることを実証した。 さらに,本手法は意味のある相互作用を識別し,モデルの予測における単一特徴の優位性を低減し,より信頼性と解釈可能なモデルを実現する。 指標項-解釈可能性、EMM、アンサンブル、特徴選択。

Interpretability is a crucial aspect of machine learning models that enables humans to understand and trust the decision-making process of these models. In many real-world applications, the interpretability of models is essential for legal, ethical, and practical reasons. For instance, in the banking domain, interpretability is critical for lenders and borrowers to understand the reasoning behind the acceptance or rejection of loan applications as per fair lending laws. However, achieving interpretability in machine learning models is challenging, especially for complex high-performance models. Hence Explainable Boosting Machines (EBMs) have been gaining popularity due to their interpretable and high-performance nature in various prediction tasks. However, these models can suffer from issues such as spurious interactions with redundant features and single-feature dominance across all interactions, which can affect the interpretability and reliability of the model's predictions. In this paper, we explore novel approaches to address these issues by utilizing alternate Cross-feature selection, ensemble features and model configuration alteration techniques. Our approach involves a multi-step feature selection procedure that selects a set of candidate features, ensemble features and then benchmark the same using the EBM model. We evaluate our method on three benchmark datasets and show that the alternate techniques outperform vanilla EBM methods, while providing better interpretability and feature selection stability, and improving the model's predictive performance. Moreover, we show that our approach can identify meaningful interactions and reduce the dominance of single features in the model's predictions, leading to more reliable and interpretable models. Index Terms- Interpretability, EBM's, ensemble, feature selection.
翻訳日:2023-07-18 13:04:54 公開日:2023-07-17
# 公正化対策と貿易オフ

Navigating Fairness Measures and Trade-Offs ( http://arxiv.org/abs/2307.08484v1 )

ライセンス: Link先を確認
Stefan Buijsman(参考訳) AIシステムにおけるバイアスの監視と防止には、幅広い(統計的)公正度対策が使用できます。 しかし、これらすべての測度を同時に最適化することは数学的に不可能である。 また、公正度を最適化することでシステムの精度が大幅に低下することがしばしばある(Kozodoi et al, 2022)。 結果として、これらの決定の仕方と理由を私たちに知らせる、従属的理論が必要です。 私は、Rawlsの正義を公正とすることで、公正性対策と正確性トレードオフをナビゲートするための基盤を作ることができることを示す。 特に、この選択は、最も脆弱なグループと、そのグループに最も大きな影響を与える公平度尺度のタイプの両方に焦点を当てる原則的な選択に繋がる。 これはまた、分配的正義の哲学的説明と観察された公正文学(Kuppler et al, 2021)のギャップを埋め、公正の価値を運用することにも役立つ。

In order to monitor and prevent bias in AI systems we can use a wide range of (statistical) fairness measures. However, it is mathematically impossible to optimize for all of these measures at the same time. In addition, optimizing a fairness measure often greatly reduces the accuracy of the system (Kozodoi et al, 2022). As a result, we need a substantive theory that informs us how to make these decisions and for what reasons. I show that by using Rawls' notion of justice as fairness, we can create a basis for navigating fairness measures and the accuracy trade-off. In particular, this leads to a principled choice focusing on both the most vulnerable groups and the type of fairness measure that has the biggest impact on that group. This also helps to close part of the gap between philosophical accounts of distributive justice and the fairness literature that has been observed (Kuppler et al, 2021) and to operationalise the value of fairness.
翻訳日:2023-07-18 13:04:28 公開日:2023-07-17
# 異種輸送プルーニング

Differentiable Transportation Pruning ( http://arxiv.org/abs/2307.08483v1 )

ライセンス: Link先を確認
Yunqiang Li, Jan C. van Gemert, Torsten Hoefler, Bert Moons, Evangelos Eleftheriou, Bram-Ernst Verhoef(参考訳) ディープラーニングアルゴリズムは、エッジでますます採用されている。 しかし、エッジデバイスはリソースに制約があり、ディープニューラルネットワークの効率的な展開が必要である。 プルーニングメソッドは、ストレージ、計算、メモリ帯域幅、エネルギー使用量を改善するため、エッジデプロイメントのキーとなるツールである。 本稿では,出力ネットワークサイズを高精度に制御可能な高精度プルーニング手法を提案する。 本手法では,エンド・ツー・エンドの微分を可能とし,アルゴリズムの探索・探索挙動を自動的に調整し,正確なスパースサブネットワークを求める効率的な最適輸送方式を用いる。 提案手法は,従来の3つの異なるデータセットにおけるプルーニング法と比較して,幅広いプルーニング比で5つの異なるモデルを用いて,2種類のスパルシティ予算とプルーニング粒度を用いて,最先端の性能を実現する。

Deep learning algorithms are increasingly employed at the edge. However, edge devices are resource constrained and thus require efficient deployment of deep neural networks. Pruning methods are a key tool for edge deployment as they can improve storage, compute, memory bandwidth, and energy usage. In this paper we propose a novel accurate pruning technique that allows precise control over the output network size. Our method uses an efficient optimal transportation scheme which we make end-to-end differentiable and which automatically tunes the exploration-exploitation behavior of the algorithm to find accurate sparse sub-networks. We show that our method achieves state-of-the-art performance compared to previous pruning methods on 3 different datasets, using 5 different models, across a wide range of pruning ratios, and with two types of sparsity budgets and pruning granularities.
翻訳日:2023-07-18 13:04:10 公開日:2023-07-17
# 不可能」の排除:量子場論における局所測定理論の最近の進歩

Eliminating the "impossible": Recent progress on local measurement theory for quantum field theory ( http://arxiv.org/abs/2307.08524v1 )

ライセンス: Link先を確認
Maria Papageorgiou, Doreen Fraser(参考訳) Sorkin arXiv:gr-qc/9302018 と Borsten, Jubb, and Kells arXiv:1912.06141 の主張は、非相対論的量子力学から相対論的量子論への量子測定理論の自然な拡張は、空間的分離領域において非選択的測定が行われる領域によってある領域における期待値が受け入れられない結果をもたらすことを証明している。 ソーキンはそのようなシナリオを「不可能な測定」とラベル付けしている。 量子場論(QFT)において、これらの議論は実数論の論理形式を伴って無数の結果として明示的に提示し、測定結果について検討する。 ソーキン型の不可能な測定シナリオは、L\udersの法則を用いる相対論的量子論において、マイクロ因果性はそれ自体が超光信号の排除に十分でないというモラルを明らかに示している。我々は、QFTの測定基準を定式化し、その「不可能な測定」問題に対する応答を分析するための3つの異なるアプローチを概観する。 2つのアプローチは、Polo-G\'omez、Garay、Mart\'in-Mart\'inez arXiv:2108.02793で提案された検出器モデルに基づく測定理論と、FewsterとVerch arXiv:1810.06512で提案された代数QFTのための測定フレームワークである。 特にQFTの基礎に対する関心は、QFTにおける測定の方法に関する一般的なモラルを保持する共通の特徴を共有することである。 これらのモラルは、ダイナミクスが「不可能な測定」を排除し、局所代数の操作的解釈をある領域で実行可能な操作として放棄し、状態更新規則の解釈に果たす役割に関するものである。 最後に, ヒストリーに基づくアプローチの「実証不可能な測定」問題がもたらす形態について検討し, 残る課題について考察する。

Arguments by Sorkin arXiv:gr-qc/9302018 and Borsten, Jubb, and Kells arXiv:1912.06141 establish that a natural extension of quantum measurement theory from non-relativistic quantum mechanics to relativistic quantum theory leads to the unacceptable consequence that expectation values in one region depend on which non-selective measurement is performed in a spacelike separated region. Sorkin labels such scenarios "impossible measurements". We explicitly present these arguments as a no-go result with the logical form of a reductio argument and investigate the consequences for measurement in quantum field theory (QFT). Sorkin-type impossible measurement scenarios clearly illustrate the moral that Microcausality is not by itself sufficient to rule out superluminal signalling in relativistic quantum theories that use L\"uders' rule. We review three different approaches to formulating an account of measurement for QFT and analyze their responses to the "impossible measurements" problem. Two of the approaches are: a measurement theory based on detector models proposed in Polo-G\'omez, Garay, and Mart\'in-Mart\'Inez arXiv:2108.02793 and a measurement framework for algebraic QFT proposed in Fewster and Verch arXiv:1810.06512. Of particular interest for foundations of QFT is that they share common features that may hold general morals about how to represent measurement in QFT. These morals are about the role that dynamics plays in eliminating "impossible measurements", the abandonment of the operational interpretation of local algebras as representing possible operations carried out in a region, and the interpretation of state update rules. Finally, we examine the form that the "impossible measurements" problem takes in histories-based approaches and we discuss the remaining challenges.
翻訳日:2023-07-18 12:58:22 公開日:2023-07-17
# 対物的不変性に関する結果

Results on Counterfactual Invariance ( http://arxiv.org/abs/2307.08519v1 )

ライセンス: Link先を確認
Jake Fawkes, Robin J. Evans(参考訳) 本稿では,反実的不変性の理論的解析を行う。 我々は既存の様々な定義を提示し、それらの相互関係とそれらのグラフィカルな意味について研究する。 次に、カウンターファクトの不変性に関する現在の主要な疑問に目を向けます。 反事実的不変性は条件的独立を意味するが、条件的独立性は反事実的不変性を満たす度合いや可能性について何の意味も示さない。 さらに, 離散因果モデルにおいては, 反事実的不変関数は, 特定の変数や定数の関数に制約されることがしばしばある。

In this paper we provide a theoretical analysis of counterfactual invariance. We present a variety of existing definitions, study how they relate to each other and what their graphical implications are. We then turn to the current major question surrounding counterfactual invariance, how does it relate to conditional independence? We show that whilst counterfactual invariance implies conditional independence, conditional independence does not give any implications about the degree or likelihood of satisfying counterfactual invariance. Furthermore, we show that for discrete causal models counterfactually invariant functions are often constrained to be functions of particular variables, or even constant.
翻訳日:2023-07-18 12:57:37 公開日:2023-07-17
# 多成分ボソニック系の記述における正準アンサンブル対大正準アンサンブル

Canonical Ensemble vs. Grand Canonical Ensemble in the Description of Multicomponent Bosonic Systems ( http://arxiv.org/abs/2307.08518v1 )

ライセンス: Link先を確認
D. Anchishkin, V. Gnatovskyy, D. Zhuravel, V. Karpenko, I. Mishustin, and H. Stoecker(参考訳) ボース・アインシュタイン凝縮体の存在下でのボゾン粒子と反粒子の相互作用系の熱力学は、スカイムのような平均場モデルの枠組みで研究されている。 全電荷密度(アイソスピン密度)は全温度で保存されていると仮定される。 2つのケースが明確に考慮されている: 系のゼロと非ゼロのアイソスピン電荷。 カノニカル・アンサンブルとグランド・カノニカル・アンサンブルを用いて比較分析を行う。 大正準アンサンブルは凝縮物の存在下で粒子と反粒子のボソニック系を記述するのに適していないことが示されている。

The thermodynamics of a system of interacting bosonic particles and antiparticles in the presence of the Bose-Einstein condensate is studied in the framework of the Skyrme-like mean-field model. It is assumed that the total charge density (isospin density) is conserved at all temperatures. Two cases are explicitly considered: zero and nonzero isospin charge of the system. A comparative analysis is carried out using Canonical Ensemble and Grand Canonical Ensemble. It is shown that the Grand Canonical Ensemble is not suitable for describing bosonic systems of particles and antiparticles in the presence of condensate.
翻訳日:2023-07-18 12:57:27 公開日:2023-07-17
# マルコフ設計による非パラメトリック回帰の共変量シフト

Covariate shift in nonparametric regression with Markovian design ( http://arxiv.org/abs/2307.08517v1 )

ライセンス: Link先を確認
Lukas Trottner(参考訳) 回帰問題における共変量シフトと、トレーニングとテストデータの分布ミスマッチは、機械学習でよく見られる現象である。 本稿では,マルコフ依存構造への非パラメトリック収束率に関する最近の結果を拡張する。 回帰関数に対するh\"older smoothnessの仮定の下では、nadaraya-watson核推定器の一般化リスクの収束率は、ソースとターゲットマルコフ連鎖に関連する不変分布の類似性によって決定される。 この類似性は、Pathak, Ma and Wainwright [ICML, 2022]で最近導入された帯域幅依存の類似性尺度で明確に捉えられている。 正確な収束速度は、有限マルコフ連鎖とスペクトルギャップマルコフ連鎖の特定の場合において導出され、その不変分布間の類似度は帯域幅の減少とともに多項式的に増加する。 後者については、kpotufe と martinet [ann. stat., 49(6), 2021] から一様エルゴードマルコフ鎖の核伝達指数へ分布伝達指数の概念を拡張して、共変量シフト問題の収束保証を定式化するマルコフ核対のリッチクラスを生成する。

Covariate shift in regression problems and the associated distribution mismatch between training and test data is a commonly encountered phenomenon in machine learning. In this paper, we extend recent results on nonparametric convergence rates for i.i.d. data to Markovian dependence structures. We demonstrate that under H\"older smoothness assumptions on the regression function, convergence rates for the generalization risk of a Nadaraya-Watson kernel estimator are determined by the similarity between the invariant distributions associated to source and target Markov chains. The similarity is explicitly captured in terms of a bandwidth-dependent similarity measure recently introduced in Pathak, Ma and Wainwright [ICML, 2022]. Precise convergence rates are derived for the particular cases of finite Markov chains and spectral gap Markov chains for which the similarity measure between their invariant distributions grows polynomially with decreasing bandwidth. For the latter, we extend the notion of a distribution transfer exponent from Kpotufe and Martinet [Ann. Stat., 49(6), 2021] to kernel transfer exponents of uniformly ergodic Markov chains in order to generate a rich class of Markov kernel pairs for which convergence guarantees for the covariate shift problem can be formulated.
翻訳日:2023-07-18 12:57:17 公開日:2023-07-17
# 姿勢摂動のシミュレーション

Simulation of Stance Perturbations ( http://arxiv.org/abs/2307.08511v1 )

ライセンス: Link先を確認
Peter Carragher, Lynnette Hui Xian Ng, Kathleen M. Carley(参考訳) 本研究では,社会的影響操作が成功するであろう状況を分析した。 これらの状況には、意図的な摂動を実行するための南軍のエージェントの選択と摂動戦略の選択が含まれる。 我々はエージェントベースモデリング(ABM)をシミュレーション手法として使用し、意図的な姿勢摂動がスケールフリーネットワークに与える影響を観察する。 共進化的社会的影響モデルを開発し,これらの変数が相同性を通じて関連付けられた場合,摂動姿勢と影響維持とのトレードオフを問う。 我々の実験では、ネットワーク内の姿勢が十分なシミュレーション時間ステップに収束し、影響力のあるエージェントが最良の南軍であり、最適な摂動戦略はローカルなegoネットワークのカスケードを伴う。 最後に、我々の実験結果はチップングポイントの理論を支持し、コンセンサスの変化が達成される前にエージェントの20-25%が南軍である必要があるという実証的な結果と一致している。

In this work, we analyze the circumstances under which social influence operations are likely to succeed. These circumstances include the selection of Confederate agents to execute intentional perturbations and the selection of Perturbation strategies. We use Agent-Based Modelling (ABM) as a simulation technique to observe the effect of intentional stance perturbations on scale-free networks. We develop a co-evolutionary social influence model to interrogate the tradeoff between perturbing stance and maintaining influence when these variables are linked through homophily. In our experiments, we observe that stances in a network will converge in sufficient simulation timesteps, influential agents are the best Confederates and the optimal Perturbation strategy involves the cascade of local ego networks. Finally, our experimental results support the theory of tipping points and are in line with empirical findings suggesting that 20-25% of agents need to be Confederates before a change in consensus can be achieved.
翻訳日:2023-07-18 12:56:51 公開日:2023-07-17
# 1軸ねじれに基づくエコープロトコルを用いたラムゼー干渉法

Optimal Ramsey interferometry with echo protocols based on one-axis twisting ( http://arxiv.org/abs/2307.08510v1 )

ライセンス: Link先を確認
Maja S. Scharnagl, Timm Kielinski, Klemens Hammerer(参考訳) 本稿では,2つの1軸回転(OAT)演算を組み込んだ一般化ラムゼープロトコルの変分クラスについて検討する。 本枠組みでは,信号インプリントの軸とOAT相互作用,および最終射影測定の方向を最適化する。 我々は、測定相上のスピン投影信号の対称的あるいは反対称的依存関係を示すプロトコルを区別する。 以上の結果から, 1軸幅入力状態の感度の限界を設定する量子フィッシャー情報は, 初期ねじれ強度のほとんどすべてにおいて, 変動プロトコルクラス内で最大化できることがわかった。 文献に記録されている多数のプロトコルを包含することにより,OAT状態と測定を含むRamseyエコープロトコルの統一フレームワークを確立する。

We examine a variational class of generalized Ramsey protocols incorporating two one-axis-twisting (OAT) operations, with one performed prior to the phase imprint and the other following it. Within this framework, we optimize the axes of the signal imprint and the OAT interactions, as well as the direction of the final projective measurement. We differentiate between protocols that exhibit symmetric or anti-symmetric dependencies of the spin projection signal on the measured phase. Our findings reveal that the quantum Fisher information, which sets the bounds for sensitivity achievable with a given one-axis-twisted input state, can be maximized within our variational protocol class for almost all initial twisting strengths. By encompassing numerous protocols previously documented in the literature, our approach establishes a unified framework for Ramsey echo protocols involving OAT states and measurements.
翻訳日:2023-07-18 12:56:35 公開日:2023-07-17
# シングルセル差分解析のためのカーネルベーステスト

Kernel-Based Testing for Single-Cell Differential Analysis ( http://arxiv.org/abs/2307.08509v1 )

ライセンス: Link先を確認
Anthony Ozier-Lafontaine and Camille Fourneaux and Ghislain Durif and C\'eline Vallot and Olivier Gandrillon and Sandrine Giraud and Bertrand Michel and Franck Picard(参考訳) 単細胞技術は、遺伝子発現やエピジェノミック修飾のような分子の特徴の分布に関する貴重な洞察を与えてきた。 しかし、これらの複雑な分布を制御的かつ強力な方法で比較することは方法論的な課題をもたらす。 本稿では, 分子の複雑な分布を, カーネルの埋め込みに基づく非線形な方法で比較するカーネルテストフレームワークの利点を提案する。 本フレームワークでは,機能解析だけでなく,複雑な依存関係を考慮したトランスクリプトームやエピジェノムの国際比較も可能である。 分類器を用いて組込みの多様性に基づいて細胞を識別することにより, 検出されない細胞集団の多様性を明らかにする。 カーネルテストは単一セル専用の差分解析手法の限界を克服することを示した。 核試験は分化細胞の反転過程を調査し、再生段階と分化段階の移行過程における細胞同定に成功している。 さらに,単細胞チップ-seqデータを解析し,持続細胞に似たエピゲノミクスプロファイルを示す未処理乳癌細胞のサブポピュレーションを同定した。

Single-cell technologies have provided valuable insights into the distribution of molecular features, such as gene expression and epigenomic modifications. However, comparing these complex distributions in a controlled and powerful manner poses methodological challenges. Here we propose to benefit from the kernel-testing framework to compare the complex cell-wise distributions of molecular features in a non-linear manner based on their kernel embedding. Our framework not only allows for feature-wise analyses but also enables global comparisons of transcriptomes or epigenomes, considering their intricate dependencies. By using a classifier to discriminate cells based on the variability of their embedding, our method uncovers heterogeneities in cell populations that would otherwise go undetected. We show that kernel testing overcomes the limitations of differential analysis methods dedicated to single-cell. Kernel testing is applied to investigate the reversion process of differentiating cells, successfully identifying cells in transition between reversion and differentiation stages. Additionally, we analyze single-cell ChIP-Seq data and identify a subpopulation of untreated breast cancer cells that exhibit an epigenomic profile similar to persister cells.
翻訳日:2023-07-18 12:56:20 公開日:2023-07-17
# 鏡の輝きと共役勾配による効率的な高精度輸送

Efficient and Accurate Optimal Transport with Mirror Descent and Conjugate Gradients ( http://arxiv.org/abs/2307.08507v1 )

ライセンス: Link先を確認
Mete Kemertas, Allan D. Jepson, Amir-massoud Farahmand(参考訳) 我々は,エントロピー最適輸送,ミラー降下,共役勾配の文献から,最適輸送のための新しいアルゴリズムを設計する。 本アルゴリズムは, 数値安定性問題に遭遇することなく, 任意の精度で最適な輸送コストを計算できる。 このアルゴリズムはGPU上で効率的に実装され、Sinkhornのアルゴリズムのような従来のアルゴリズムよりも、多くのケースにおいてイテレーション数とウォールクロック時間の両方で高速に収束するように実証的に示される。 我々は、限界分布のエントロピーに特に注意を払って、高いエントロピーの限界が、アルゴリズムが適合するより難しい最適輸送問題の原因となることを示した。 我々は,アルゴリズムと問題パラメータに関して慎重にアブレーション分析を行い,MNISTデータセット上でベンチマークを行う。 その結果,本アルゴリズムは最適なトランスポートツールキットに有用であることが示唆された。 私たちのコードはhttps://github.com/adaptive-agents-lab/mdot-pncgでオープンソースです。

We design a novel algorithm for optimal transport by drawing from the entropic optimal transport, mirror descent and conjugate gradients literatures. Our algorithm is able to compute optimal transport costs with arbitrary accuracy without running into numerical stability issues. The algorithm is implemented efficiently on GPUs and is shown empirically to converge more quickly than traditional algorithms such as Sinkhorn's Algorithm both in terms of number of iterations and wall-clock time in many cases. We pay particular attention to the entropy of marginal distributions and show that high entropy marginals make for harder optimal transport problems, for which our algorithm is a good fit. We provide a careful ablation analysis with respect to algorithm and problem parameters, and present benchmarking over the MNIST dataset. The results suggest that our algorithm can be a useful addition to the practitioner's optimal transport toolkit. Our code is open-sourced at https://github.com/adaptive-agents-lab/MDOT-PNCG .
翻訳日:2023-07-18 12:56:04 公開日:2023-07-17
# 視覚前訓練はエンドツーエンド推論に役立つか?

Does Visual Pretraining Help End-to-End Reasoning? ( http://arxiv.org/abs/2307.08506v1 )

ライセンス: Link先を確認
Chen Sun, Calvin Luo, Xingyi Zhou, Anurag Arnab, Cordelia Schmid(参考訳) 我々は,視覚前訓練の助けを借りて,汎用ニューラルネットワークを用いて視覚推論のエンドツーエンド学習を実現することができるかを検討することを目的とする。 肯定的な結果は、明示的な視覚的抽象化(オブジェクト検出など)が視覚的推論の合成一般化に不可欠であるという共通の信念を否定し、視覚的認識と推論タスクを解決するニューラルネットワーク「ジェネラリスト」の可能性を確認する。 本稿では,各ビデオフレームをトランスフォーマーネットワークで小さなトークン集合に圧縮し,圧縮された時間文脈に基づいて残りのフレームを再構成する,シンプルで汎用的な自己教師型フレームワークを提案する。 再構成損失を最小限に抑えるため、ネットワークは各画像のコンパクトな表現を学習し、時間的文脈から時間的ダイナミクスとオブジェクト永続性を捉える必要がある。 視覚的推論のベンチマークであるCATERとACREで評価を行った。 終末視覚推論のための合成一般化を実現するためには,事前学習が不可欠である。 提案するフレームワークは,画像分類や明示的な物体検出を含む従来の教師付き事前学習を大きなマージンで上回っている。

We aim to investigate whether end-to-end learning of visual reasoning can be achieved with general-purpose neural networks, with the help of visual pretraining. A positive result would refute the common belief that explicit visual abstraction (e.g. object detection) is essential for compositional generalization on visual reasoning, and confirm the feasibility of a neural network "generalist" to solve visual recognition and reasoning tasks. We propose a simple and general self-supervised framework which "compresses" each video frame into a small set of tokens with a transformer network, and reconstructs the remaining frames based on the compressed temporal context. To minimize the reconstruction loss, the network must learn a compact representation for each image, as well as capture temporal dynamics and object permanence from temporal context. We perform evaluation on two visual reasoning benchmarks, CATER and ACRE. We observe that pretraining is essential to achieve compositional generalization for end-to-end visual reasoning. Our proposed framework outperforms traditional supervised pretraining, including image classification and explicit object detection, by large margins.
翻訳日:2023-07-18 12:55:46 公開日:2023-07-17
# BUS:ボトムアップパッチ要約による視覚言語事前学習の効率化

BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization ( http://arxiv.org/abs/2307.08504v1 )

ライセンス: Link先を確認
Chaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Songfang Huang(参考訳) Vision Transformer (ViT) ベースのVision-Language Pre-Training (VLP) モデルは、様々なタスクで顕著なパフォーマンスを示している。 しかし、ViTに供給される長い視覚トークン配列は、トレーニングの非効率性と非効率性をもたらす。 既存の取り組みでは、vitバックボーンのボトムレベルパッチ抽出と、トレーニング効率と有効性のバランスをとるのではなく、外部のトップレベルパッチ抽象化のどちらでも課題に対処している。 自然言語処理におけるテキスト要約に着想を得て,ボトムアップ・パッチ・サマリゼーション手法BUSを提案し,ボトムアップ・パッチ・サマリゼーションとボトムレベル抽出のコーディネートを行い,視覚的トークン列の簡潔な要約を効率的に学習する。 具体的には,vitバックボーンにtsps(text-semantics-aware patch selector)を組み込んで粗粒度のビジュアルトークン抽出を行い,上位レベルのビジュアル抽象化のためのバックボーンにフレキシブルトランスフォーマベースのパッチ抽象化デコーダ(pad)をアタッチする。 このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり改善したりすることができます。 様々な視覚言語理解・生成タスクに対するアプローチを評価し, 学習効率を50%向上させながら, 競争力の高い下流タスク性能を示す。 さらに,入力画像の解像度を向上し,ベースラインの計算コストを増大させることなく,多くのダウンストリームタスクにおける最先端性能を実現する。

Vision Transformer (ViT) based Vision-Language Pre-training (VLP) models have demonstrated impressive performance in various tasks. However, the lengthy visual token sequences fed into ViT can lead to training inefficiency and ineffectiveness. Existing efforts address the challenge by either bottom-level patch extraction in the ViT backbone or top-level patch abstraction outside, not balancing training efficiency and effectiveness well. Inspired by text summarization in natural language processing, we propose a Bottom-Up Patch Summarization approach named BUS, coordinating bottom-level extraction and top-level abstraction to learn a concise summary of lengthy visual token sequences efficiently. Specifically, We incorporate a Text-Semantics-Aware Patch Selector (TSPS) into the ViT backbone to perform a coarse-grained visual token extraction and then attach a flexible Transformer-based Patch Abstraction Decoder (PAD) upon the backbone for top-level visual abstraction. This bottom-up collaboration enables our BUS to yield high training efficiency while maintaining or even improving effectiveness. We evaluate our approach on various visual-language understanding and generation tasks and show competitive downstream task performance while boosting the training efficiency by 50\%. Additionally, our model achieves state-of-the-art performance on many downstream tasks by increasing input image resolution without increasing computational costs over baselines.
翻訳日:2023-07-18 12:55:25 公開日:2023-07-17
# 超微細パスチェンバックレジームにおける電磁誘導透過性と光励起

Electromagnetically Induced Transparency and Optical Pumping in the Hyperfine Paschen-Back Regime ( http://arxiv.org/abs/2307.08545v1 )

ライセンス: Link先を確認
Roberto Mottola, Gianni Buser, Philipp Treutlein(参考訳) 電磁誘導透過(eit)および光ポンピング条件下での高磁場中におけるルビジウム蒸気の分光実験について報告する。 1.1tの静磁場は核と電子のスピンを分離し、ゼーマン効果を介して各磁気状態をシフトさせ、ドップラー幅の広い媒体でd$_2$線の個々の光学遷移を解消する。 スペクトル分離されたラムダシステムの片脚を駆動する制御レーザーパワーを変化させることで、EIT系からオートラー・タウンズ線分割(ATS)の条件に蒸気を調整できる。 得られたスペクトルは、エネルギー構造を効果的に単純化した単純な3レベルモデルに適合する。 さらに、核スピン-forbidden遷移における光ポンピングによる状態形成の可否を定量化する。 このシステムの ‘cleanliness' は、熱蒸気における量子制御の能力を大幅に向上させ、光に対する原子量子メモリのような刺激的な光-物質相互作用プロセスに悩まされる幅広い量子アプリケーションに利点をもたらすと結論付けている。

We report spectroscopy experiments of rubidium vapor in a high magnetic field under conditions of electromagnetically induced transparency (EIT) and optical pumping. The 1.1 T static magnetic field decouples nuclear and electronic spins and shifts each magnetic state via the Zeeman effect, allowing us to resolve individual optical transitions of the D$_2$ line in a Doppler-broadened medium. By varying the control laser power driving one leg of a spectrally isolated lambda system we tune the vapor from the EIT regime to conditions of Autler-Townes line splitting (ATS). The resulting spectra conform to simple three-level models demonstrating the effective simplification of the energetic structure. Further, we quantify the viability of state preparation via optical pumping on nuclear spin-forbidden transitions. We conclude that the ``cleanliness'' of this system greatly enhances the capabilities of quantum control in hot vapor, offering advantages in a broad variety of quantum applications plagued by spurious light-matter interaction processes, such as atomic quantum memories for light.
翻訳日:2023-07-18 12:47:37 公開日:2023-07-17
# 画像超解像のための再構成畳み込みモジュールによるルックアップテーブル

Reconstructed Convolution Module Based Look-Up Tables for Efficient Image Super-Resolution ( http://arxiv.org/abs/2307.08544v1 )

ライセンス: Link先を確認
Guandu Liu, Yukang Ding, Mading Li, Ming Sun, Xing Wen and Bin Wang(参考訳) ルックアップテーブル(LUT)に基づく手法は、単一画像超解像(SR)タスクにおいて大きな効果を示した。 しかし、従来の手法では、バニラ畳み込みにおける空間的特徴とチャネル的特徴の相互作用に起因するLUTにおける制限受容野(RF)サイズの本質的な理由を無視していた。 RFはLUTサイズを直線的に増加させるコストでしか増加できない。 RFをLUTサイズで拡大するために、チャネルワイドと空間計算を分離する新しい再構成畳み込み(RC)モジュールを提案する。 これは$n^2$ 1D LUTsとして定式化して$n\times n$ receptive fieldを維持できるが、これは明らかに以前に定式化された$n\times n$D LUTより小さい。 RCモジュールが生成したLUTは,SR-LUTベースラインに比べて1/10000ストレージ以下である。 RCLUTと呼ばれるReconstructed Convolutionモジュールに基づくLUT法は、最先端のLUTベースのSR法よりもRFサイズを9倍に拡大し、5つの人気のあるベンチマークデータセットで優れた性能を実現する。 さらに、効率的で堅牢なRCモジュールは、他のLUTベースのSRメソッドを改善するプラグインとして使用できる。 コードはhttps://github.com/liuguandu/rc-lutで入手できる。

Look-up table(LUT)-based methods have shown the great efficacy in single image super-resolution (SR) task. However, previous methods ignore the essential reason of restricted receptive field (RF) size in LUT, which is caused by the interaction of space and channel features in vanilla convolution. They can only increase the RF at the cost of linearly increasing LUT size. To enlarge RF with contained LUT sizes, we propose a novel Reconstructed Convolution(RC) module, which decouples channel-wise and spatial calculation. It can be formulated as $n^2$ 1D LUTs to maintain $n\times n$ receptive field, which is obviously smaller than $n\times n$D LUT formulated before. The LUT generated by our RC module reaches less than 1/10000 storage compared with SR-LUT baseline. The proposed Reconstructed Convolution module based LUT method, termed as RCLUT, can enlarge the RF size by 9 times than the state-of-the-art LUT-based SR method and achieve superior performance on five popular benchmark dataset. Moreover, the efficient and robust RC module can be used as a plugin to improve other LUT-based SR methods. The code is available at https://github.com/liuguandu/RC-LUT.
翻訳日:2023-07-18 12:47:19 公開日:2023-07-17
# オンライン討論における物語の集団的変化の発見

Discovering collective narratives shifts in online discussions ( http://arxiv.org/abs/2307.08541v1 )

ライセンス: Link先を確認
Wanying Zhao, Fiona Guo, Kristina Lerman, and Yong-Yeol Ahn(参考訳) 物語は人間の認知と意思決定の基盤である。 物語は、社会的な言説や誤報の拡散において重要な役割を担い、ソーシャルメディアの普及により、ソーシャルメディアにおける物語のダイナミクスは、大きな社会的影響をもたらす可能性がある。 しかし、オンライン物語の体系的および計算的理解は、スケールとダイナミクスの重要な課題に直面している。 物語はどのように現れ、広がり、そして死ぬのか? 本稿では,変化点検出,意味的役割ラベリング(SRL),物語の断片を物語ネットワークに自動集約することで,このギャップを埋める体系的な物語発見フレームワークを提案する。 私たちは、covid-19と2017年のフランス大統領選挙に関する2つのtwitterコーポラを合成および実証データで評価します。 以上の結果から,本手法は主要な出来事に対応する大きな物語シフトを回復できることが示された。

Narrative is a foundation of human cognition and decision making. Because narratives play a crucial role in societal discourses and spread of misinformation and because of the pervasive use of social media, the narrative dynamics on social media can have profound societal impact. Yet, systematic and computational understanding of online narratives faces critical challenge of the scale and dynamics; how can we reliably and automatically extract narratives from massive amount of texts? How do narratives emerge, spread, and die? Here, we propose a systematic narrative discovery framework that fill this gap by combining change point detection, semantic role labeling (SRL), and automatic aggregation of narrative fragments into narrative networks. We evaluate our model with synthetic and empirical data two-Twitter corpora about COVID-19 and 2017 French Election. Results demonstrate that our approach can recover major narrative shifts that correspond to the major events.
翻訳日:2023-07-18 12:46:57 公開日:2023-07-17
# マイクロファブリック化ルビジウム蒸気セルの量子記憶

Quantum Memory in a Microfabricated Rubidium Vapor Cell ( http://arxiv.org/abs/2307.08538v1 )

ライセンス: Link先を確認
Roberto Mottola, Gianni Buser, Philipp Treutlein(参考訳) スケーラビリティは、マイクロファブリケーション技術によって対処できる現在の量子ネットワーク実装のコンポーネントにとって、中心的なプラットフォーム課題である。 ウェハスケール製造に適合するMEMS蒸気セルにおいて, 高温アルカリ原子アンサンブル中の高帯域量子メモリの原理的実現を実証する。 外部のテラオーダー磁場を適用することで、ドップラー拡散媒体で個々の光遷移を処理できる超微細パスチェンバック系において、新しい基底状態記憶方式を探索する。 決定論的量子ドット単一光子源が利用できる$^{87}$Rb D$_2$ラインで作業し、そのようなソースを念頭に置いて100MHzの広帯域光パルスで帯域幅マッチングを実演する。 80 ns のストレージ時間に対して、$\eta_{e2e}^{\text{80ns}} = 3.12(17)\%$、$\eta_{\text{int}}^{\text{0ns}} = 24(3)\%$ という内部効率に対応して、$\eta_{e2e}^{\text{80ns}} = 3.12(17)\%$$、$\text{snr} = 7.9(8)$ の信号対雑音比を単一光子レベルのコヒーレントパルスで達成する。

Scalability presents a central platform challenge for the components of current quantum network implementations that can be addressed by microfabrication techniques. We demonstrate a proof-of-principle realization of a high-bandwidth quantum memory in a warm alkali atom ensemble in a MEMS vapor cell compatible with wafer-scale fabrication. By applying an external tesla-order magnetic field, we explore a novel ground-state memory scheme in the hyperfine Paschen-Back regime, where individual optical transitions can be addressed in a Doppler-broadened medium. Working on the $^{87}$Rb D$_2$ line, where deterministic quantum dot single-photon sources are available, we demonstrate bandwidth-matching with 100s of MHz broad light pulses keeping such sources in mind. For a storage time of 80 ns we measure an end-to-end efficiency of $\eta_{e2e}^{\text{80ns}} = 3.12(17)\%$, corresponding to an internal efficiency of $\eta_{\text{int}}^{\text{0ns}} = 24(3)\%$, while achieving a signal-to-noise ratio of $\text{SNR} = 7.9(8)$ with coherent pulses at the single-photon level.
翻訳日:2023-07-18 12:46:42 公開日:2023-07-17
# RGB-Tセマンティックセグメンテーションのための変分確率核融合ネットワーク

Variational Probabilistic Fusion Network for RGB-T Semantic Segmentation ( http://arxiv.org/abs/2307.08536v1 )

ライセンス: Link先を確認
Baihong Lin, Zengrong Lin, Yulan Guo, Yulan Zhang, Jianxiao Zou, Shicai Fan(参考訳) RGB-Tセマンティックセグメンテーションは、RGBと熱画像の異なるモジュラリティ特徴を融合することにより、照明条件の悪いハードシーンを扱うために広く採用されている。 既存の手法では、セグメンテーションのための最適な融合特徴を見つけようとしており、モダリティノイズ、クラス不均衡、モダリティバイアスに対する感度をもたらす。 そこで本研究では, 拡散特性をランダムな変数とみなし, 融合特性の複数のサンプルに基づいて, セグメンテーションの結果を平均化することにより, 堅牢なセグメンテーションを実現する新しい変動確率核融合ネットワーク(VPFNet)を提案する。 VPFNetにおける融合特徴のランダムサンプル生成は、変動注意に基づく新しい変分特徴融合モジュール(VFFM)によって実現される。 さらに,クラス不均衡やモダリティバイアスを回避するために,重み付きクロスエントロピー損失を採用し,提案するvffmを制御するために照明やカテゴリの事前情報を導入する。 MFNetとPST900データセットの実験結果は、提案したVPFNetが最先端のセグメンテーション性能を実現できることを示した。

RGB-T semantic segmentation has been widely adopted to handle hard scenes with poor lighting conditions by fusing different modality features of RGB and thermal images. Existing methods try to find an optimal fusion feature for segmentation, resulting in sensitivity to modality noise, class-imbalance, and modality bias. To overcome the problems, this paper proposes a novel Variational Probabilistic Fusion Network (VPFNet), which regards fusion features as random variables and obtains robust segmentation by averaging segmentation results under multiple samples of fusion features. The random samples generation of fusion features in VPFNet is realized by a novel Variational Feature Fusion Module (VFFM) designed based on variation attention. To further avoid class-imbalance and modality bias, we employ the weighted cross-entropy loss and introduce prior information of illumination and category to control the proposed VFFM. Experimental results on MFNet and PST900 datasets demonstrate that the proposed VPFNet can achieve state-of-the-art segmentation performance.
翻訳日:2023-07-18 12:46:14 公開日:2023-07-17
# 磁気共鳴画像を用いた3次元心臓解剖再構成のためのマルチクラスポイントクラウド補完ネットワーク

Multi-class point cloud completion networks for 3D cardiac anatomy reconstruction from cine magnetic resonance images ( http://arxiv.org/abs/2307.08535v1 )

ライセンス: Link先を確認
Marcel Beetz, Abhirup Banerjee, Julius Ossenberg-Engels, Vicente Grau(参考訳) 心臓の解剖と機能を評価するための現在の金の基準は、シン磁気共鳴イメージング(MRI)である。 しかし、通常は心臓の三次元(3d)解剖学の2次元(2d)スライスのセットのみを取得し、健康的および病理学的な心臓形態と生理学の理解と分析を制限している。 本稿では, 原位置MRIによるマルチクラス心筋解剖学的メッシュの再構築が可能な, 完全自動表面再構成パイプラインを提案する。 その鍵となるコンポーネントは、統一されたモデルで3D再構成タスクの疎度と不整合の問題を修正できるマルチクラスポイントクラウド補完ネットワーク(PCCN)である。 両心室解剖の大規模合成データセットを用いてPCCNをまず評価し, 複数レベルのスライスミスアライメントに対する画像分解能と類似した下層および金標準解剖とのチャムファー距離を観察した。 さらに, ベンチマーク3d u-netと比較して, ハウスドルフ距離と平均表面距離において, 再構成誤差が32%, 24%減少した。 次に, 英国バイオバンク研究から得られた1000名の被験者に対して, pccnを自動再建パイプラインの一部として適用し, 従来の文献に匹敵する臨床指標を用いて, 正確に, 位相的に有望な両室型心臓メッシュを再構築する能力を示す。 最後に,提案手法のロバスト性を調査し,複数の共通異常条件をうまく処理する能力を観察した。

Cine magnetic resonance imaging (MRI) is the current gold standard for the assessment of cardiac anatomy and function. However, it typically only acquires a set of two-dimensional (2D) slices of the underlying three-dimensional (3D) anatomy of the heart, thus limiting the understanding and analysis of both healthy and pathological cardiac morphology and physiology. In this paper, we propose a novel fully automatic surface reconstruction pipeline capable of reconstructing multi-class 3D cardiac anatomy meshes from raw cine MRI acquisitions. Its key component is a multi-class point cloud completion network (PCCN) capable of correcting both the sparsity and misalignment issues of the 3D reconstruction task in a unified model. We first evaluate the PCCN on a large synthetic dataset of biventricular anatomies and observe Chamfer distances between reconstructed and gold standard anatomies below or similar to the underlying image resolution for multiple levels of slice misalignment. Furthermore, we find a reduction in reconstruction error compared to a benchmark 3D U-Net by 32% and 24% in terms of Hausdorff distance and mean surface distance, respectively. We then apply the PCCN as part of our automated reconstruction pipeline to 1000 subjects from the UK Biobank study in a cross-domain transfer setting and demonstrate its ability to reconstruct accurate and topologically plausible biventricular heart meshes with clinical metrics comparable to the previous literature. Finally, we investigate the robustness of our proposed approach and observe its capacity to successfully handle multiple common outlier conditions.
翻訳日:2023-07-18 12:45:51 公開日:2023-07-17
# リニア光学による非線形処理

Nonlinear Processing with Linear Optics ( http://arxiv.org/abs/2307.08533v1 )

ライセンス: Link先を確認
Mustafa Yildirim, Niyazi Ulas Dinc, Ilker Oguz, Demetri Psaltis and Christophe Moser(参考訳) ディープニューラルネットワークは、巨大な電子コンピューティングのコストにもかかわらず、複数のデータ処理層を利用して隠れた表現を抽出することで、目覚ましいブレークスルーを達成した。 エネルギー効率と速度を向上させるため、ニューラルネットワークの光実装は、光帯域と光配線のエネルギー効率の利点を活用することを目的としている。 低出力光非線形性がない場合、多層光ネットワークの実装における課題は、電子部品に頼らずに複数の光層を実現することである。 本研究では,データで表される散乱ポテンシャルと散乱場との非線形関係を利用して,プログラム可能な線形および非線形変換を低光出力で同時に合成することのできる,多重散乱を用いた新しいフレームワークを提案する。 理論的および実験的研究により、多重散乱によるデータの繰り返しは、低出力連続波光における非線形光学計算を可能にすることが示されている。

Deep neural networks have achieved remarkable breakthroughs by leveraging multiple layers of data processing to extract hidden representations, albeit at the cost of large electronic computing power. To enhance energy efficiency and speed, the optical implementation of neural networks aims to harness the advantages of optical bandwidth and the energy efficiency of optical interconnections. In the absence of low-power optical nonlinearities, the challenge in the implementation of multilayer optical networks lies in realizing multiple optical layers without resorting to electronic components. In this study, we present a novel framework that uses multiple scattering that is capable of synthesizing programmable linear and nonlinear transformations concurrently at low optical power by leveraging the nonlinear relationship between the scattering potential, represented by data, and the scattered field. Theoretical and experimental investigations show that repeating the data by multiple scattering enables non-linear optical computing at low power continuous wave light.
翻訳日:2023-07-18 12:45:23 公開日:2023-07-17
# LuckyMera: ハイブリッドなNetHackエージェントを構築するためのモジュール型AIフレームワーク

LuckyMera: a Modular AI Framework for Building Hybrid NetHack Agents ( http://arxiv.org/abs/2307.08532v1 )

ライセンス: Link先を確認
Luigi Quarantiello, Simone Marzeddu, Antonio Guzzi, Vincenzo Lomonaco(参考訳) 過去数十年間、私たちはさまざまなテストベッドが利用可能になり、主にシミュレーション環境とビデオゲームをベースにした人工知能(ai)の発展を目の当たりにしてきた。 中でもローグライクなゲームは、環境の複雑さと計算コストの点で非常に優れたトレードオフを提供しており、AIエージェントの一般化能力をテストするのに完全に適している。 本稿では,NetHackを中心に構築された,フレキシブルでモジュール化された,拡張可能な,構成可能なAIフレームワークであるLuckyMeraを紹介する。 このライブラリは、ゲームをうまくプレイできるAIエージェントの開発を簡素化し、高速化することを目的としており、ゲーム戦略を設計するためのハイレベルなインターフェースを提供する。 luckymeraには、市販のシンボリックおよびニューラルモジュール("スキル"と呼ばれる)が付属している。 これらのモジュールは、ハードコードされた振る舞いか、ニューラルネットワーク強化学習アプローチのいずれかになり、合成ハイブリッドソリューションを作成することができる。 さらにLuckyMeraには、さらなる分析のためのトラジェクトリという形でエクスペリエンスを保存し、NetHack Learning EnvironmentとMiniHackへの直接的なインターフェースを備えた、ニューラルモジュールのトレーニングにデータセットとして使用するためのユーティリティ機能が付属している。 実験的な評価により,我々は,NetHackゲームにおける最先端のパフォーマンスに到達できる強力なベースラインエージェントを提案する。 LuckyMeraはオープンソースでhttps://github.com/Pervasive-AI-Lab/LuckyMeraで公開されている。

In the last few decades we have witnessed a significant development in Artificial Intelligence (AI) thanks to the availability of a variety of testbeds, mostly based on simulated environments and video games. Among those, roguelike games offer a very good trade-off in terms of complexity of the environment and computational costs, which makes them perfectly suited to test AI agents generalization capabilities. In this work, we present LuckyMera, a flexible, modular, extensible and configurable AI framework built around NetHack, a popular terminal-based, single-player roguelike video game. This library is aimed at simplifying and speeding up the development of AI agents capable of successfully playing the game and offering a high-level interface for designing game strategies. LuckyMera comes with a set of off-the-shelf symbolic and neural modules (called "skills"): these modules can be either hard-coded behaviors, or neural Reinforcement Learning approaches, with the possibility of creating compositional hybrid solutions. Additionally, LuckyMera comes with a set of utility features to save its experiences in the form of trajectories for further analysis and to use them as datasets to train neural modules, with a direct interface to the NetHack Learning Environment and MiniHack. Through an empirical evaluation we validate our skills implementation and propose a strong baseline agent that can reach state-of-the-art performances in the complete NetHack game. LuckyMera is open-source and available at https://github.com/Pervasive-AI-Lab/LuckyMera.
翻訳日:2023-07-18 12:45:08 公開日:2023-07-17
# 変調アダプタを用いたマルチドメイン学習

Multi-Domain Learning with Modulation Adapters ( http://arxiv.org/abs/2307.08528v1 )

ライセンス: Link先を確認
Ekaterina Iakovleva, Karteek Alahari, Jakob Verbeek(参考訳) 深層畳み込みネットワークは、様々な領域の様々なタスクにまたがる優れた性能のため、コンピュータビジョンにおいてユビキタスである。 しかし、モデルはしばしば各タスクを分離して訓練され、低データ環境でより一般化するよりコンパクトなモデルを学ぶために、タスクとドメインの間の関連性を活用できない。 マルチドメイン学習は、複数のドメインにわたる画像分類などの関連タスクを同時に扱うことを目的としている。 この問題に関する以前の研究は、学習可能なより小さなドメイン固有適応モジュールと組み合わせて、事前訓練された固定されたドメイン非依存のベースネットワークの使用を探求した。 本稿では,各タスクに対して,モデルの畳み込みフィルタ重みを乗算的に更新するModulation Adaptersを提案する。 これらの適応重みを因子的にパラメータ化することで、タスク毎のパラメータ数を柔軟な方法でスケールし、異なるパラメータ精度トレードオフを打つことができる。 我々は、異なる領域にわたる10の画像分類タスクからなるVisual Decathlonチャレンジと、6つの画像分類タスクからなるImageNet-to-Sketchベンチマークに対するアプローチを評価する。 我々のアプローチは、既存の最先端アプローチと同等かそれ以上の精度で、優れた結果をもたらす。

Deep convolutional networks are ubiquitous in computer vision, due to their excellent performance across different tasks for various domains. Models are, however, often trained in isolation for each task, failing to exploit relatedness between tasks and domains to learn more compact models that generalise better in low-data regimes. Multi-domain learning aims to handle related tasks, such as image classification across multiple domains, simultaneously. Previous work on this problem explored the use of a pre-trained and fixed domain-agnostic base network, in combination with smaller learnable domain-specific adaptation modules. In this paper, we introduce Modulation Adapters, which update the convolutional filter weights of the model in a multiplicative manner for each task. Parameterising these adaptation weights in a factored manner allows us to scale the number of per-task parameters in a flexible manner, and to strike different parameter-accuracy trade-offs. We evaluate our approach on the Visual Decathlon challenge, composed of ten image classification tasks across different domains, and on the ImageNet-to-Sketch benchmark, which consists of six image classification tasks. Our approach yields excellent results, with accuracies that are comparable to or better than those of existing state-of-the-art approaches.
翻訳日:2023-07-18 12:44:40 公開日:2023-07-17
# 画像キャプションはテキストから画像へのモデルの自然なプロンプトである

Image Captions are Natural Prompts for Text-to-Image Models ( http://arxiv.org/abs/2307.08526v1 )

ライセンス: Link先を確認
Shiye Lei, Hao Chen, Sen Zhang, Bo Zhao and Dacheng Tao(参考訳) aigc(artificial intelligence generated content)の急速な発展により、多くの学習タスクにおいて、データカーシティとプライバシリークの問題により、合成データにおける大規模モデルを訓練または微調整することが一般的になっている。 実画像に伝達される多種多様な情報により、無制限なデータ生成を約束する一方で、手作りのプロンプトで情報伝達訓練データを合成するテキスト・ツー・イメージ生成モデルは困難であり、通常、下流モデルのトレーニングでは一般化性能が劣る。 本稿では,合成データの学習効果とプロンプトによる合成データ分布との関係を理論的に解析する。 次に,テキストから画像への生成モデルを用いて,より有益で多様なトレーニングデータを合成する簡易かつ効果的な手法を提案する。 具体的には、各実画像に高度なキャプションモデルでキャプションを行い、クラス関連情報を抽出し、クラス名の多義性を明らかにする情報的かつ忠実なプロンプトを得る。 画像キャプションとクラス名は連結され、画像合成を訓練するための生成モデルが促される。 ImageNette, ImageNet-100, ImageNet-1Kの広範囲な実験により, 合成トレーニングデータに基づくモデルの学習精度が, 平均で10%向上することを確認した。

With the rapid development of Artificial Intelligence Generated Content (AIGC), it has become common practice in many learning tasks to train or fine-tune large models on synthetic data due to the data-scarcity and privacy leakage problems. Albeit promising with unlimited data generation, owing to massive and diverse information conveyed in real images, it is challenging for text-to-image generative models to synthesize informative training data with hand-crafted prompts, which usually leads to inferior generalization performance when training downstream models. In this paper, we theoretically analyze the relationship between the training effect of synthetic data and the synthetic data distribution induced by prompts. Then we correspondingly propose a simple yet effective method that prompts text-to-image generative models to synthesize more informative and diverse training data. Specifically, we caption each real image with the advanced captioning model to obtain informative and faithful prompts that extract class-relevant information and clarify the polysemy of class names. The image captions and class names are concatenated to prompt generative models for training image synthesis. Extensive experiments on ImageNette, ImageNet-100, and ImageNet-1K verify that our method significantly improves the performance of models trained on synthetic training data, i.e., 10% classification accuracy improvements on average.
翻訳日:2023-07-18 12:44:20 公開日:2023-07-17
# Resume Paradox: より優れた言語差とより小さな支払いギャップ

The Resume Paradox: Greater Language Differences, Smaller Pay Gaps ( http://arxiv.org/abs/2307.08580v1 )

ライセンス: Link先を確認
Joshua R. Minot, Marc Maier, Bradford Demarest, Nicholas Cheney, Christopher M. Danforth, Peter Sheridan Dodds, and Morgan R. Frank(参考訳) 過去10年間、男女の賃金格差は着実に推移しており、女性は男性の平均の1ドル当たり84セントを稼いでいる。 多くの研究は、雇用主の求職によって表される労働市場の需要側バイアスを通じてこのギャップを説明する。 しかし、労働者供給側からの潜在的なバイアスを分析する研究はほとんどない。 本稿では、数百万人の米国労働者の履歴書の言語を分析し、性別による労働者の自己表現の違いと利益の差を比較した。 米国の職業全体において、男女間の言語の違いは男女の賃金格差の11%に相当する。 これは、男性の履歴書と意味的に類似している女性の履歴書の方が賃金格差が大きいことを示唆している。 しかし驚くべきことに、男女の履歴書の言語差が大きい職業は、男女の賃金格差が小さい。 女性と男性の言語の違いを2倍にすると、平均的な女性労働者の年間賃金は2,797ドル上昇する。 この結果は、履歴文のジェンダー・ビアーゼの制御を伴い、単語毎の偏差が賃金格差のばらつきをあまり記述しないことが判明した。 その結果,テキストデータと自己表現は,労働者表現の改善と雇用不平等の理解に有用であることが示唆された。

Over the past decade, the gender pay gap has remained steady with women earning 84 cents for every dollar earned by men on average. Many studies explain this gap through demand-side bias in the labor market represented through employers' job postings. However, few studies analyze potential bias from the worker supply-side. Here, we analyze the language in millions of US workers' resumes to investigate how differences in workers' self-representation by gender compare to differences in earnings. Across US occupations, language differences between male and female resumes correspond to 11% of the variation in gender pay gap. This suggests that females' resumes that are semantically similar to males' resumes may have greater wage parity. However, surprisingly, occupations with greater language differences between male and female resumes have lower gender pay gaps. A doubling of the language difference between female and male resumes results in an annual wage increase of $2,797 for the average female worker. This result holds with controls for gender-biases of resume text and we find that per-word bias poorly describes the variance in wage gap. The results demonstrate that textual data and self-representation are valuable factors for improving worker representations and understanding employment inequities.
翻訳日:2023-07-18 12:39:38 公開日:2023-07-17
# スケール・アウェア Modulation Meet Transformer

Scale-Aware Modulation Meet Transformer ( http://arxiv.org/abs/2307.08579v1 )

ライセンス: Link先を確認
Weifeng Lin, Ziheng Wu, Jiayu Chen, Jun Huang, Lianwen Jin(参考訳) 本稿では,畳み込みネットワークと視覚トランスを組み合わせることで,様々な下流タスクを効率的に処理できる新しいビジョントランスであるスケールアウェア変調トランス(smt)を提案する。 SMT で提案されているスケール・アウェア・変調 (SAM) には2つの新しい設計が含まれている。 まず,マルチヘッド混合畳み込み(mhmc)モジュールについて紹介する。 次に,SAAモジュールを提案する。SAAモジュールは軽量だが有効であり,異なる頭部をまたいだ情報融合を可能にする。 これら2つのモジュールを活用することで、畳み込み変調はさらに強化される。 さらに,全段階にわたって変調を利用して注意を払わないネットワークを構築する先行研究とは対照的に,ネットワークの深化に伴って局所的依存からグローバル的依存へのシフトを効果的にシミュレートできる進化的ハイブリッドネットワーク(ehn)を提案する。 大規模な実験により、SMTは様々な視覚的タスクにおいて既存の最先端モデルよりも大幅に優れていることが示された。 具体的には、11.5M / 2.4GFLOPs と 32M / 7.7GFLOPs の SMT は ImageNet-1K の 82.2% と 84.3% のトップ-1 の精度が得られる。 imagenet-22kを224^2解像度で事前トレーニングした後、解像度224^2と384^2で微調整すると、87.1%と88.1%のtop-1精度が得られる。 Mask R-CNNによる物体検出では、1xと3xのスケジュールで訓練されたSMTベースがCOCOのSwin Transformerの4.2と1.3mAPを上回っている。 UPerNetとのセマンティックセグメンテーションでは、シングルスケールとマルチスケールのSMTベーステストがADE20Kでそれぞれ2.0mIoUと1.1mIoUを上回っている。

This paper presents a new vision Transformer, Scale-Aware Modulation Transformer (SMT), that can handle various downstream tasks efficiently by combining the convolutional network and vision Transformer. The proposed Scale-Aware Modulation (SAM) in the SMT includes two primary novel designs. Firstly, we introduce the Multi-Head Mixed Convolution (MHMC) module, which can capture multi-scale features and expand the receptive field. Secondly, we propose the Scale-Aware Aggregation (SAA) module, which is lightweight but effective, enabling information fusion across different heads. By leveraging these two modules, convolutional modulation is further enhanced. Furthermore, in contrast to prior works that utilized modulations throughout all stages to build an attention-free network, we propose an Evolutionary Hybrid Network (EHN), which can effectively simulate the shift from capturing local to global dependencies as the network becomes deeper, resulting in superior performance. Extensive experiments demonstrate that SMT significantly outperforms existing state-of-the-art models across a wide range of visual tasks. Specifically, SMT with 11.5M / 2.4GFLOPs and 32M / 7.7GFLOPs can achieve 82.2% and 84.3% top-1 accuracy on ImageNet-1K, respectively. After pretrained on ImageNet-22K in 224^2 resolution, it attains 87.1% and 88.1% top-1 accuracy when finetuned with resolution 224^2 and 384^2, respectively. For object detection with Mask R-CNN, the SMT base trained with 1x and 3x schedule outperforms the Swin Transformer counterpart by 4.2 and 1.3 mAP on COCO, respectively. For semantic segmentation with UPerNet, the SMT base test at single- and multi-scale surpasses Swin by 2.0 and 1.1 mIoU respectively on the ADE20K.
翻訳日:2023-07-18 12:39:22 公開日:2023-07-17
# 標準抑うつ症状尺度による抑うつ者のシミュレーションにおける生成前訓練変圧器(gpt)の性能に関する研究

A Study on the Performance of Generative Pre-trained Transformer (GPT) in Simulating Depressed Individuals on the Standardized Depressive Symptom Scale ( http://arxiv.org/abs/2307.08576v1 )

ライセンス: Link先を確認
Sijin Cai, Nanfeng Zhang, Jiaying Zhu, Yanjie Liu, Yongjin Zhou(参考訳) 背景:うつ病は社会的、経済的負担を伴う一般的な精神障害である。 現在の診断は、信頼性の問題のある自己報告と評価尺度に依存している。 うつ病の診断には客観的アプローチが必要である。 目的:うつ病の診断におけるGPT技術の可能性を評価する。 うつ病の個人をシミュレートし、うつ病の尺度の影響を調べる能力を評価する。 方法:3つのうつ関連評価ツール(HAMD-17, SDS, GDS-15)を用いた。 2つの実験は、正常な人やうつ病患者に対するGPT反応をシミュレートした。 GPTの反応を予測結果と比較し、うつ症状の理解と、異なる条件下でのパフォーマンスの違いを評価する。 結果: 抑うつ評価におけるgptの性能を評価した。 これはうつ病患者と正常者の両方のスコア基準と一致した。 うつ病の重症度に基づく性能差が認められた。 GPTは感度の高いスケールで改善した。 結論: GPTはうつ病関連評価において、うつ病と正常な個人を正確にシミュレートする。 偏差は、異なるうつ病の程度をシミュレートすることで起こり、軽度および中程度の症例の理解を制限する。 GPTは、より高感度のスケールでより良い性能を示し、より効果的なうつ病尺度の開発の可能性を示している。 GPTはうつ病評価において重要な可能性があり、臨床医や患者を支援する。

Background: Depression is a common mental disorder with societal and economic burden. Current diagnosis relies on self-reports and assessment scales, which have reliability issues. Objective approaches are needed for diagnosing depression. Objective: Evaluate the potential of GPT technology in diagnosing depression. Assess its ability to simulate individuals with depression and investigate the influence of depression scales. Methods: Three depression-related assessment tools (HAMD-17, SDS, GDS-15) were used. Two experiments simulated GPT responses to normal individuals and individuals with depression. Compare GPT's responses with expected results, assess its understanding of depressive symptoms, and performance differences under different conditions. Results: GPT's performance in depression assessment was evaluated. It aligned with scoring criteria for both individuals with depression and normal individuals. Some performance differences were observed based on depression severity. GPT performed better on scales with higher sensitivity. Conclusion: GPT accurately simulates individuals with depression and normal individuals during depression-related assessments. Deviations occur when simulating different degrees of depression, limiting understanding of mild and moderate cases. GPT performs better on scales with higher sensitivity, indicating potential for developing more effective depression scales. GPT has important potential in depression assessment, supporting clinicians and patients.
翻訳日:2023-07-18 12:38:25 公開日:2023-07-17
# FedCME:フェデレートラーニングにおけるデータ不均一性を扱うクライアントマッチングと分類器

FedCME: Client Matching and Classifier Exchanging to Handle Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2307.08574v1 )

ライセンス: Link先を確認
Jun Nie, Danyang Xiao, Lei Yang and Weigang Wu(参考訳) クライアント間のデータの均一性は、フェデレートラーニング(FL)における重要な課題の1つであり、グローバルモデル収束を遅くし、グローバルモデルのパフォーマンスを弱める可能性がある。 既存のアプローチの多くは、サーバが提供するグローバル情報を参照してローカルモデルのアップデートを制限することで、異質性に対処している。 これにより、集約されたグローバルモデルの性能劣化を軽減することができる。 既存の手法とは違って,クライアント間の情報交換に着目し,ローカルトレーニングの有効性を高め,高性能なグローバルモデルを生成する。 具体的には、クライアントマッチングと分類器交換によるFedCMEという新しいFLフレームワークを提案する。 FedCMEでは、データ分散に大きな違いがあるクライアントはペアで一致し、対応するクライアントのペアは、中間のタイミングでローカルトレーニングの段階で分類器を交換します。 ローカルデータがローカルモデルのトレーニング方向を決定するので,分類器の更新方向を補正し,ローカル更新の発散を効果的に緩和することができる。 さらに,特徴抽出器のトレーニングを強化するための特徴アライメントを提案する。 実験の結果,fedexmeはfmnistやcifar10などの一般的なfederated learningベンチマークにおいて,データに異質な場合においてfedavg,fedprox,moon,federよりも優れた性能を示す。

Data heterogeneity across clients is one of the key challenges in Federated Learning (FL), which may slow down the global model convergence and even weaken global model performance. Most existing approaches tackle the heterogeneity by constraining local model updates through reference to global information provided by the server. This can alleviate the performance degradation on the aggregated global model. Different from existing methods, we focus the information exchange between clients, which could also enhance the effectiveness of local training and lead to generate a high-performance global model. Concretely, we propose a novel FL framework named FedCME by client matching and classifier exchanging. In FedCME, clients with large differences in data distribution will be matched in pairs, and then the corresponding pair of clients will exchange their classifiers at the stage of local training in an intermediate moment. Since the local data determines the local model training direction, our method can correct update direction of classifiers and effectively alleviate local update divergence. Besides, we propose feature alignment to enhance the training of the feature extractor. Experimental results demonstrate that FedCME performs better than FedAvg, FedProx, MOON and FedRS on popular federated learning benchmarks including FMNIST and CIFAR10, in the case where data are heterogeneous.
翻訳日:2023-07-18 12:38:09 公開日:2023-07-17
# 最小誤差エントロピー基準のロバスト性を再考する:転帰学習事例の検討

Revisiting the Robustness of the Minimum Error Entropy Criterion: A Transfer Learning Case Study ( http://arxiv.org/abs/2307.08572v1 )

ライセンス: Link先を確認
Luis Pedro Silvestrin, Shujian Yu, Mark Hoogendoorn(参考訳) 分散シフトに対処することは、実際のタスクでうまく機能するために、転送学習手法の重要な部分である。 しかし、この分野の既存のアプローチのほとんどは、データがノイズを含まない理想的なシナリオに焦点を当てたり、複雑なトレーニングパラダイムやモデル設計を使って分散シフトに対処する。 本稿では,非ガウス雑音に対処する統計信号処理の目的である最小誤差エントロピー(MEE)基準の頑健性を再検討し,分散シフトが一般的である実生活伝達学習回帰タスクにおけるその実現可能性と有用性について検討する。 具体的には,共変量シフトに対するMEEの堅牢性を示す新たな理論的結果を示した。 また, 最小二乗誤差(MSE)損失を, 微調整や線形探索などの基礎的伝達学習アルゴリズムでMEEに置き換えることによって, 最先端の伝達学習アルゴリズムに対する競合性能を実現できることを示す。 合成データと実世界の時系列データの両方に関する議論を正当化する。

Coping with distributional shifts is an important part of transfer learning methods in order to perform well in real-life tasks. However, most of the existing approaches in this area either focus on an ideal scenario in which the data does not contain noises or employ a complicated training paradigm or model design to deal with distributional shifts. In this paper, we revisit the robustness of the minimum error entropy (MEE) criterion, a widely used objective in statistical signal processing to deal with non-Gaussian noises, and investigate its feasibility and usefulness in real-life transfer learning regression tasks, where distributional shifts are common. Specifically, we put forward a new theoretical result showing the robustness of MEE against covariate shift. We also show that by simply replacing the mean squared error (MSE) loss with the MEE on basic transfer learning algorithms such as fine-tuning and linear probing, we can achieve competitive performance with respect to state-of-the-art transfer learning algorithms. We justify our arguments on both synthetic data and 5 real-world time-series data.
翻訳日:2023-07-18 12:37:28 公開日:2023-07-17
# ラベル補間とモンテカルロクロッピングによるプラントカバー予測のためのデータ効率の向上

Improving Data Efficiency for Plant Cover Prediction with Label Interpolation and Monte-Carlo Cropping ( http://arxiv.org/abs/2307.08559v1 )

ライセンス: Link先を確認
Matthias K\"orschens, Solveig Franziska Bucher, Christine R\"omermann, Joachim Denzler(参考訳) 植物群落の組成は、環境変化の不可欠な指標であり、そのため、通常、植物被覆という観点から生態学的研究において分析される。 この種のデータの手作業による取得は、時間と労力がかかり、ヒューマンエラーを起こしやすい。 自動カメラシステムは、調査した植生図の高解像度画像を高頻度で収集することができる。 その後のアルゴリズム分析と組み合わせることで、植物群落の組成に関する情報を迅速かつ少ない労力で客観的に抽出することができる。 自動カメラシステムは、ディープラーニングシステムの学習に必要な大量の画像データを容易に収集し、自動解析を行う。 しかし,植物被覆データによる植生画像のアノテートに必要な作業量から,ラベル付きサンプルは少ない。 自動カメラシステムはラベル無しで多数の画像を集めることができるため、収集された植生プロット時系列のスパースラベルを中間密度画像とラベルなし画像まで補間し、トレーニングデータセットを元の7倍まで人工的に拡大する手法を導入する。 さらに,モンテカルロ・クロッピングと呼ばれる新しい手法を導入する。 このアプローチは、トレーニング画像の切り抜き部分の集合を訓練し、高解像度画像を効率的に処理し、トレーニング画像を暗黙的に強化し、トレーニングを高速化する。 草本植物群落の画像を含む植物被覆データセットの両アプローチを評価した結果,本手法が本種,群落,分節化の指標の改善につながることがわかった。

The plant community composition is an essential indicator of environmental changes and is, for this reason, usually analyzed in ecological field studies in terms of the so-called plant cover. The manual acquisition of this kind of data is time-consuming, laborious, and prone to human error. Automated camera systems can collect high-resolution images of the surveyed vegetation plots at a high frequency. In combination with subsequent algorithmic analysis, it is possible to objectively extract information on plant community composition quickly and with little human effort. An automated camera system can easily collect the large amounts of image data necessary to train a Deep Learning system for automatic analysis. However, due to the amount of work required to annotate vegetation images with plant cover data, only few labeled samples are available. As automated camera systems can collect many pictures without labels, we introduce an approach to interpolate the sparse labels in the collected vegetation plot time series down to the intermediate dense and unlabeled images to artificially increase our training dataset to seven times its original size. Moreover, we introduce a new method we call Monte-Carlo Cropping. This approach trains on a collection of cropped parts of the training images to deal with high-resolution images efficiently, implicitly augment the training images, and speed up training. We evaluate both approaches on a plant cover dataset containing images of herbaceous plant communities and find that our methods lead to improvements in the species, community, and segmentation metrics investigated.
翻訳日:2023-07-18 12:36:52 公開日:2023-07-17
# 受動非線形マッピングを用いた深層学習

Deep Learning with Passive Optical Nonlinear Mapping ( http://arxiv.org/abs/2307.08558v1 )

ライセンス: Link先を確認
Fei Xia, Kyungduk Kim, Yaniv Eliezer, Liam Shaughnessy, Sylvain Gigan, Hui Cao(参考訳) ディープラーニングは人工知能を根本的に変えてきたが、ディープラーニングモデルの複雑さはますます高まっている。 光加速器は、性能、スケーラビリティ、エネルギー効率が向上する可能性がある。 しかし、ニューラルネットワークの重要な構成要素である非線形マッピングの実現は、光学的に困難なままである。 本稿では, 残響キャビティ内の多重散乱を利用して, レーザーパワーを増すことなく, 受動的に非線形ランダムマッピングを誘導する設計を提案する。 我々の研究から生じる重要な利点は、キャビティ内の多重散乱によって促進される光データ圧縮を行い、データ次元を減少させながら、重要な情報を効率よく圧縮・保持できることである。 これにより、高速光情報処理と高非線形特徴の低次元混合を生成することができる。 これらはエッジコンピューティングデバイスのような高速解析や応答を必要とするアプリケーションに特に有用である。 高速な光情報処理機能を利用することで、我々の光学プラットフォームはより効率的でリアルタイムな処理ソリューションを幅広い用途に提供できる可能性がある。 ディジタルデコーダを併用した光データ圧縮により, 分類, 画像再構成, キーポイント検出, オブジェクト検出など, タスク全体の計算性能を向上させるための設計の有効性を実証した。 特に, リアルタイム歩行者検出において, 極めて高い圧縮率で高い性能を観察した。 我々の発見は、光コンピューティングのための新しいアルゴリズムとアーキテクチャ設計の道を開いた。

Deep learning has fundamentally transformed artificial intelligence, but the ever-increasing complexity in deep learning models calls for specialized hardware accelerators. Optical accelerators can potentially offer enhanced performance, scalability, and energy efficiency. However, achieving nonlinear mapping, a critical component of neural networks, remains challenging optically. Here, we introduce a design that leverages multiple scattering in a reverberating cavity to passively induce optical nonlinear random mapping, without the need for additional laser power. A key advantage emerging from our work is that we show we can perform optical data compression, facilitated by multiple scattering in the cavity, to efficiently compress and retain vital information while also decreasing data dimensionality. This allows rapid optical information processing and generation of low dimensional mixtures of highly nonlinear features. These are particularly useful for applications demanding high-speed analysis and responses such as in edge computing devices. Utilizing rapid optical information processing capabilities, our optical platforms could potentially offer more efficient and real-time processing solutions for a broad range of applications. We demonstrate the efficacy of our design in improving computational performance across tasks, including classification, image reconstruction, key-point detection, and object detection, all achieved through optical data compression combined with a digital decoder. Notably, we observed high performance, at an extreme compression ratio, for real-time pedestrian detection. Our findings pave the way for novel algorithms and architectural designs for optical computing.
翻訳日:2023-07-18 12:36:04 公開日:2023-07-17
# 音響分解能光音響顕微鏡による大腸組織分類

Machine-Learning-based Colorectal Tissue Classification via Acoustic Resolution Photoacoustic Microscopy ( http://arxiv.org/abs/2307.08556v1 )

ライセンス: Link先を確認
Shangqing Tong, Peng Ge, Yanan Jiao, Zhaofu Ma, Ziye Li, Longhai Liu, Feng Gao, Xiaohui Du, Fei Gao(参考訳) 大腸癌は近年急速に流行している致命的な疾患である。 早期発見は命を救うのに不可欠であるが、大腸内視鏡や生検などの従来の診断方法には限界がある。 大腸内視鏡検査では、がんによって影響を受ける組織の内部で詳細な情報を提供することはできないが、生検では組織を除去する。 診断効率の向上と患者の苦痛を軽減するために,音響分解能光音響顕微鏡(arpam)を用いた大腸組織分類の機械学習によるアプローチを検討した。 このツールを使用して,複数の機械学習手法を用いて良性組織と悪性組織を分類することができた。 提案手法の有効性を評価するため, 定量的および定性的に解析を行った。

Colorectal cancer is a deadly disease that has become increasingly prevalent in recent years. Early detection is crucial for saving lives, but traditional diagnostic methods such as colonoscopy and biopsy have limitations. Colonoscopy cannot provide detailed information within the tissues affected by cancer, while biopsy involves tissue removal, which can be painful and invasive. In order to improve diagnostic efficiency and reduce patient suffering, we studied machine-learningbased approach for colorectal tissue classification that uses acoustic resolution photoacoustic microscopy (ARPAM). With this tool, we were able to classify benign and malignant tissue using multiple machine learning methods. Our results were analyzed both quantitatively and qualitatively to evaluate the effectiveness of our approach.
翻訳日:2023-07-18 12:35:43 公開日:2023-07-17
# リスク回避領域一般化のためのフライニューラルスタイル平滑化について

On the Fly Neural Style Smoothing for Risk-Averse Domain Generalization ( http://arxiv.org/abs/2307.08551v1 )

ライセンス: Link先を確認
Akshay Mehra, Yunbei Zhang, Bhavya Kailkhura, and Jihun Hamm(参考訳) トレーニング中に見えない領域のデータに対する高い精度を達成することは、ドメインの一般化(DG)における根本的な課題である。 最先端のDG分類器は様々なタスクで顕著な性能を示してきたが、画像内容などのドメイン不変情報よりも、画像スタイルなどのドメイン依存情報に偏っている。 このバイアスは、誤分類が破滅的な結果をもたらす可能性がある自律運転のような、リスクに敏感なシナリオへの展開に信頼性を欠く。 dg分類器からのリスク回避予測を可能にするために,テスト時の予測にdg分類器の「スタイルスムース化」バージョンを用いる新しい推論手順であるtest-time neural style smoothing (tt-nss)を提案する。 具体的には、スタイル平滑な分類器は、テスト画像のランダムな再スティル化に基づいて、DG分類器が予測する最も確率の高いクラスとしてテスト画像を分類する。 TT-NSSは、ニューラルスタイルの転送モジュールを使用して、テストイメージをオンザフライでスタイリングし、DG分類器へのブラックボックスアクセスのみを必要とする。 さらに,既存のDG手法とシームレスに統合可能なニューラルネットワークスムースティング(NSS)ベースのトレーニング手順を提案する。 この手法により予測一貫性が向上し、非持続サンプルにおけるTT-NSSの性能が向上する。 実験の結果,様々なベンチマークデータセット上でSOTAトレーニング手法を用いて訓練したDG分類器を用いて,未確認領域に対するTT-NSSとNSSの有効性を実証した。

Achieving high accuracy on data from domains unseen during training is a fundamental challenge in domain generalization (DG). While state-of-the-art DG classifiers have demonstrated impressive performance across various tasks, they have shown a bias towards domain-dependent information, such as image styles, rather than domain-invariant information, such as image content. This bias renders them unreliable for deployment in risk-sensitive scenarios such as autonomous driving where a misclassification could lead to catastrophic consequences. To enable risk-averse predictions from a DG classifier, we propose a novel inference procedure, Test-Time Neural Style Smoothing (TT-NSS), that uses a "style-smoothed" version of the DG classifier for prediction at test time. Specifically, the style-smoothed classifier classifies a test image as the most probable class predicted by the DG classifier on random re-stylizations of the test image. TT-NSS uses a neural style transfer module to stylize a test image on the fly, requires only black-box access to the DG classifier, and crucially, abstains when predictions of the DG classifier on the stylized test images lack consensus. Additionally, we propose a neural style smoothing (NSS) based training procedure that can be seamlessly integrated with existing DG methods. This procedure enhances prediction consistency, improving the performance of TT-NSS on non-abstained samples. Our empirical results demonstrate the effectiveness of TT-NSS and NSS at producing and improving risk-averse predictions on unseen domains from DG classifiers trained with SOTA training methods on various benchmark datasets and their variations.
翻訳日:2023-07-18 12:35:31 公開日:2023-07-17
# グラマー筋肉:なぜ体を持つことが体現化の意味ではないのか

Glamour muscles: why having a body is not what it means to be embodied ( http://arxiv.org/abs/2307.08598v1 )

ライセンス: Link先を確認
Shawn L. Beaulieu and Sam Kriegman(参考訳) エンボディメントは最近、スマートマシンの能力を強化する手段として再検討されている。 物理空間における運動の最適化は、物理空間における問題を解くためのニッチな能力の獲得以上のことを示唆していると考えられる。 しかし、物理的空間における行動選択の問題と、言語のようなより抽象的な空間における行動選択の問題とを区別すべき原則は存在しない。 むしろ、インテリジェンス向上のための手段としてエンボディメントを説得しているのは、特定の身体(生物の知性)とそれに関連する活動のパターンをキャプチャーするが、実際に認識しないことだ。 消滅に対する積極的な抵抗や、世界の知性を高めるプロセスに対する再検討可能な制約が含まれる。 理論上または実際上、ニッチツールの創造を超えて有用であるためには、「身体」は身体の自明な事実でもなく、空間を通した運動でもないが、その身体の機能、設計、整合性に関する永遠の交渉は、その身体の$\unicode{x2013}$、つまり、それが$\textit{constitute}$ある身体に対して意味するものに参加することである。 物理的な空間を厳密に移動できないコンピュータプログラムは、適切な条件下では、歩きながら話すロボットよりも体現される可能性がある。

Embodiment has recently enjoyed renewed consideration as a means to amplify the faculties of smart machines. Proponents of embodiment seem to imply that optimizing for movement in physical space promotes something more than the acquisition of niche capabilities for solving problems in physical space. However, there is nothing in principle which should so distinguish the problem of action selection in physical space from the problem of action selection in more abstract spaces, like that of language. Rather, what makes embodiment persuasive as a means toward higher intelligence is that it promises to capture, but does not actually realize, contingent facts about certain bodies (living intelligence) and the patterns of activity associated with them. These include an active resistance to annihilation and revisable constraints on the processes that make the world intelligible. To be theoretically or practically useful beyond the creation of niche tools, we argue that "embodiment" cannot be the trivial fact of a body, nor its movement through space, but the perpetual negotiation of the function, design, and integrity of that body$\unicode{x2013}$that is, to participate in what it means to $\textit{constitute}$ a given body. It follows that computer programs which are strictly incapable of traversing physical space might, under the right conditions, be more embodied than a walking, talking robot.
翻訳日:2023-07-18 12:27:49 公開日:2023-07-17
# 操作命令からのオブジェクト分割のためのマルチモーダル拡散セグメンテーションモデル

Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions ( http://arxiv.org/abs/2307.08597v1 )

ライセンス: Link先を確認
Yui Iioka, Yu Yoshida, Yuiga Wada, Shumpei Hatanaka and Komei Sugiura(参考訳) 本研究では,自然言語教育(例えば「居室へ行き,最寄りの枕を壁のラジオアートに届ける」など)を理解するモデルを開発し,対象の日常的対象に対してセグメンテーションマスクを作成することを目的とする。 この課題は,(1)指示中の複数の対象に対する参照表現の理解,(2)複数の句間の文の目標句の予測,(3)バウンディングボックスではなくピクセル単位のセグメンテーションマスクの生成を必要とするため,課題である。 言語に基づくセグメンテーション手法に関する研究は行われているが、複雑な文に対して無関係な領域を隠蔽することもある。 本稿では,第1段階でマスクを生成し,第2段階で精錬するマルチモーダル拡散セグメンテーションモデル(mdsm)を提案する。 クロスモーダル特徴抽出機構を導入し,拡散確率モデルを拡張してクロスモーダル特徴を扱う。 モデルを検証するために、よく知られているmatterport3dとreverieデータセットに基づいた新しいデータセットを構築しました。 このデータセットは、画素ワイドセグメンテーションマスクに加えて、様々な対象物を含む屋内の実際の環境画像を伴う複雑な参照表現を含む命令からなる。 mdsmの性能は、ベースライン法に比べて+10.13平均iouを大きく上回った。

In this study, we aim to develop a model that comprehends a natural language instruction (e.g., "Go to the living room and get the nearest pillow to the radio art on the wall") and generates a segmentation mask for the target everyday object. The task is challenging because it requires (1) the understanding of the referring expressions for multiple objects in the instruction, (2) the prediction of the target phrase of the sentence among the multiple phrases, and (3) the generation of pixel-wise segmentation masks rather than bounding boxes. Studies have been conducted on languagebased segmentation methods; however, they sometimes mask irrelevant regions for complex sentences. In this paper, we propose the Multimodal Diffusion Segmentation Model (MDSM), which generates a mask in the first stage and refines it in the second stage. We introduce a crossmodal parallel feature extraction mechanism and extend diffusion probabilistic models to handle crossmodal features. To validate our model, we built a new dataset based on the well-known Matterport3D and REVERIE datasets. This dataset consists of instructions with complex referring expressions accompanied by real indoor environmental images that feature various target objects, in addition to pixel-wise segmentation masks. The performance of MDSM surpassed that of the baseline method by a large margin of +10.13 mean IoU.
翻訳日:2023-07-18 12:27:23 公開日:2023-07-17
# 電子イオン衝突装置(AI4EIC)のための人工知能

Artificial Intelligence for the Electron Ion Collider (AI4EIC) ( http://arxiv.org/abs/2307.08593v1 )

ライセンス: Link先を確認
C. Allaire, R. Ammendola, E.-C. Aschenauer, M. Balandat, M. Battaglieri, J. Bernauer, M. Bond\`i, N. Branson, T. Britton, A. Butter, I. Chahrour, P. Chatagnon, E. Cisbani, E. W. Cline, S. Dash, C. Dean, W. Deconinck, A. Deshpande, M. Diefenthaler, R. Ent, C. Fanelli, M. Finger, M. Finger, Jr., E. Fol, S. Furletov, Y. Gao, J. Giroux, N. C. Gunawardhana Waduge, R. Harish, O. Hassan, P. L. Hegde, R. J. Hern\'andez-Pinto, A. Hiller Blin, T. Horn, J. Huang, D. Jayakodige, B. Joo, M. Junaid, P. Karande, B. Kriesten, R. Kunnawalkam Elayavalli, M. Lin, F. Liu, S. Liuti, G. Matousek, M. McEneaney, D. McSpadden, T. Menzo, T. Miceli, V. Mikuni, R. Montgomery, B. Nachman, R. R. Nair, J. Niestroy, S. A. Ochoa Oregon, J. Oleniacz, J. D. Osborn, C. Paudel, C. Pecar, C. Peng, G. N. Perdue, W. Phelps, M. L. Purschke, K. Rajput, Y. Ren, D. F. Renteria-Estrada, D. Richford, B. J. Roy, D. Roy, N. Sato, T. Satogata, G. Sborlini, M. Schram, D. Shih, J. Singh, R. Singh, A. Siodmok, P. Stone, J. Stevens, L. Suarez, K. Suresh, A.-N. Tawfik, F. Torales Acosta, N. Tran, R. Trotta, F. J. Twagirayezu, R. Tyson, S. Volkova, A. Vossen, E. Walter, D. Whiteson, M. Williams, S. Wu, N. Zachariou, P. Zurita(参考訳) 強い力を研究するための最先端の施設であるElectron-Ion Collider(EIC)は、2028年に最初の実験を開始する予定だ。 これはai(artificial intelligence, 人工知能)が、この施設の開始から実験に至るあらゆる段階まで含められる絶好の時間である。 最近開催されたAI4EICワーキンググループによって組織された第2回年次ワークショップは、EICのためのAIの現在および将来的な適用領域を調査することに焦点を当てている。 このワークショップは、EICにとって有益なだけでなく、新たに設立されたEICのePICコラボレーションにも貴重な洞察を提供する。 本稿では、ワークショップのセッションでカバーされるさまざまな活動と研究開発プロジェクトを要約し、EICコミュニティにおけるAI/MLに関する目標、アプローチ、戦略の概要と、他の実験で現在研究されている最先端技術について述べる。

The Electron-Ion Collider (EIC), a state-of-the-art facility for studying the strong force, is expected to begin commissioning its first experiments in 2028. This is an opportune time for artificial intelligence (AI) to be included from the start at this facility and in all phases that lead up to the experiments. The second annual workshop organized by the AI4EIC working group, which recently took place, centered on exploring all current and prospective application areas of AI for the EIC. This workshop is not only beneficial for the EIC, but also provides valuable insights for the newly established ePIC collaboration at EIC. This paper summarizes the different activities and R&D projects covered across the sessions of the workshop and provides an overview of the goals, approaches and strategies regarding AI/ML in the EIC community, as well as cutting-edge techniques currently studied in other experiments.
翻訳日:2023-07-18 12:26:41 公開日:2023-07-17
# Snapshot Spectral Clustering - ディープクラスタリングアンサンブル生成のためのコストレスアプローチ

Snapshot Spectral Clustering -- a costless approach to deep clustering ensembles generation ( http://arxiv.org/abs/2307.08591v1 )

ライセンス: Link先を確認
Adam Pir\'og, Halina Kwa\'snicka(参考訳) 人工知能の進歩にもかかわらず、教師なしの方法で大量のデータから学ぶことは大きな課題である。 古典的なクラスタリングアルゴリズムは、大きなデータセット、特にスパースで高次元の空間における複雑な依存関係を見つけることができない。 しかし、大量のデータを扱う場合、深層学習技術は成功し、基礎となる情報の追跡を失うことなく、その次元を効率的に減らした。 ディープラーニングとクラスタリングを組み合わせるために、すでにいくつかの興味深い進歩がなされている。 それでも、ディープニューラルネットワークによって生成されたデータの複数のビューを組み合わせることでクラスタリング結果を強化するというアイデアはまだ十分に検討されていないようだ。 本稿では,この方向を解明し,深層ニューラルネットワーク,クラスタリング技術,アンサンブル学習手法のギャップを埋めることを目的とする。 この目的を達成するために,複数のデータビューの組み合わせによる利得を最大化し,アンサンブル作成の計算コストを最小化する,新しい深層クラスタリング手法であるsnapshot spectral clusteringを提案する。 本論文で記述された比較分析と実験は,提案する概念を実証する一方で,実施したハイパーパラメータ研究は,適切な値を選択する際に従う価値のある直観を与える。

Despite tremendous advancements in Artificial Intelligence, learning from large sets of data in an unsupervised manner remains a significant challenge. Classical clustering algorithms often fail to discover complex dependencies in large datasets, especially considering sparse, high-dimensional spaces. However, deep learning techniques proved to be successful when dealing with large quantities of data, efficiently reducing their dimensionality without losing track of underlying information. Several interesting advancements have already been made to combine deep learning and clustering. Still, the idea of enhancing the clustering results by combining multiple views of the data generated by deep neural networks appears to be insufficiently explored yet. This paper aims to investigate this direction and bridge the gap between deep neural networks, clustering techniques and ensemble learning methods. To achieve this goal, we propose a novel deep clustering ensemble method - Snapshot Spectral Clustering, designed to maximize the gain from combining multiple data views while minimizing the computational costs of creating the ensemble. Comparative analysis and experiments described in this paper prove the proposed concept, while the conducted hyperparameter study provides a valuable intuition to follow when selecting proper values.
翻訳日:2023-07-18 12:26:26 公開日:2023-07-17
# 構文対応複合価値ニューラルマシン翻訳

Syntax-Aware Complex-Valued Neural Machine Translation ( http://arxiv.org/abs/2307.08586v1 )

ライセンス: Link先を確認
Yang Liu and Yuexian Hou(参考訳) シンタクスは神経機械翻訳(NMT)において極めて効果的であることが証明されている。 従来のモデルは構文解析ツールから構文情報を取得し、翻訳性能を向上させるためにNMTモデルに統合された。 本研究では,構文情報を複雑なエンコーダ・デコーダアーキテクチャに組み込む手法を提案する。 提案モデルは,単語レベルと構文レベルのアテンションスコアを,アテンション機構を用いてソース側からターゲット側へ共同学習する。 重要なのは、特定のネットワークアーキテクチャに依存しておらず、既存のsequence-to-sequence(seq2seq)フレームワークに直接統合することができることだ。 実験により,提案手法は2つのデータセット上でのBLEUスコアを大幅に改善できることを示した。 特に,提案手法は,構文的差異の大きい言語対を含む翻訳タスクにおいて,BLEUスコアをより向上させる。

Syntax has been proven to be remarkably effective in neural machine translation (NMT). Previous models obtained syntax information from syntactic parsing tools and integrated it into NMT models to improve translation performance. In this work, we propose a method to incorporate syntax information into a complex-valued Encoder-Decoder architecture. The proposed model jointly learns word-level and syntax-level attention scores from the source side to the target side using an attention mechanism. Importantly, it is not dependent on specific network architectures and can be directly integrated into any existing sequence-to-sequence (Seq2Seq) framework. The experimental results demonstrate that the proposed method can bring significant improvements in BLEU scores on two datasets. In particular, the proposed method achieves a greater improvement in BLEU scores in translation tasks involving language pairs with significant syntactic differences.
翻訳日:2023-07-18 12:26:06 公開日:2023-07-17
# 潜在拡散モデルによる顔画像のアイデンティティ保存エイジング

Identity-Preserving Aging of Face Images via Latent Diffusion Models ( http://arxiv.org/abs/2307.08585v1 )

ライセンス: Link先を確認
Sudipta Banerjee, Govind Mittal, Ameya Joshi, Chinmay Hegde, Nasir Memon(参考訳) 自動顔認識システムの性能は、必然的に顔の老化過程に影響される。 しかし、数年にわたって収集された個人の高品質なデータセットは通常、規模が小さい。 本研究では,顔画像の老化とデエイジングにおける潜在テキストから画像への拡散モデルの利用を提案,訓練し,検証する。 我々のモデルは、数発の訓練で成功し、直感的なテキストプロンプトによって制御できることのメリットが加わった。 画像中の高次視覚リアリズムを観測し, 一般的な測定値で測定した生体適合性を維持した。 提案手法を2つのベンチマークデータセット(CelebA, AgeDB)で評価し, False Non-Match Rate において既存の最先端のベースラインと比較して有意な低下(約44%)を観測した。

The performance of automated face recognition systems is inevitably impacted by the facial aging process. However, high quality datasets of individuals collected over several years are typically small in scale. In this work, we propose, train, and validate the use of latent text-to-image diffusion models for synthetically aging and de-aging face images. Our models succeed with few-shot training, and have the added benefit of being controllable via intuitive textual prompting. We observe high degrees of visual realism in the generated images while maintaining biometric fidelity measured by commonly used metrics. We evaluate our method on two benchmark datasets (CelebA and AgeDB) and observe significant reduction (~44%) in the False Non-Match Rate compared to existing state-of the-art baselines.
翻訳日:2023-07-18 12:25:53 公開日:2023-07-17
# 周波数絡み合いqudits作成のための空間スペクトルマッピング

Spatial-spectral mapping to prepare the frequency entangled qudits ( http://arxiv.org/abs/2307.08583v1 )

ライセンス: Link先を確認
Zi-Xiang Yang, Zi-Qi Zeng, Ying Tian, Shun Wang, Ryosuke Shimizu, Hao-Yu Wu, Shilong Liu, Rui-Bo Jin(参考訳) 高次元の絡み合った状態である絡み合ったクディッツは、量子情報の研究において重要な役割を果たす。 エンタングルドキューディットを効率的に操作しやすくする方法は、量子技術の課題である。 本稿では,周波数絡み合いquditを自発的パラメトリックダウンコンバージョンプロセスで設計する手法を示す。 非線形結晶における角度依存位相整合条件を採用し、空間(ポンプ)とスペクトル(バイフォトニクス)の自由度の間の古典量子マッピングを形成する。 特に、ポンププロファイルは空間領域内の複数のビンに分離され、ダウンコンバージョンされた双光子を結合スペクトル空間内の離散周波数モードに形成する。 本手法は,高次元の周波数絡み合い状態を生成するための実現可能かつ効率的な手法である。 実験では,自家製の可変スリットマスクを用いて3次元の絡み合った状態を生成する。

Entangled qudits, the high-dimensional entangled states, play an important role in the study of quantum information. How to prepare entangled qudits in an efficient and easy-to-operate manner is still a challenge in quantum technology. Here, we demonstrate a method to engineer frequency entangled qudits in a spontaneous parametric downconversion process. The proposal employs an angle-dependent phase-matching condition in a nonlinear crystal, which forms a classical-quantum mapping between the spatial (pump) and spectral (biphotons) degrees of freedom. In particular, the pump profile is separated into several bins in the spatial domain, and thus shapes the down-converted biphotons into discrete frequency modes in the joint spectral space. Our approach provides a feasible and efficient method to prepare a high-dimensional frequency entangled state. As an experimental demonstration, we generate a three-dimensional entangled state by using a homemade variable slit mask.
翻訳日:2023-07-18 12:25:41 公開日:2023-07-17
# BuboGPT:マルチモードLDMにおける視覚的グラウンドの実現

BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs ( http://arxiv.org/abs/2307.08581v1 )

ライセンス: Link先を確認
Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang(参考訳) LLMは言語を通して人間と対話する際、特に命令追従データの使用において顕著な能力を示した。 MiniGPT-4、LLaVA、X-LLMなどのLLMの最近の進歩は、画像、ビデオ、音声などのマルチモーダル入力を組み込むことで、その能力をさらに拡張している。 与えられたモダリティ信号の正確かつ詳細な言語理解を生成する効果にもかかわらず、これらのLLMは入力の特定の部分を接地する能力を与え、粗い粒度のマッピングのみを構築する。 しかし,テキストと他のモダリティ間の明示的かつ情報的対応は,ユーザエクスペリエンスの向上だけでなく,マルチモーダルLLMの応用シナリオの拡大にも寄与する。 そこで本稿では,視覚,音声,言語間の相互モーダルインタラクションを可能とし,視覚オブジェクトと他の与えられたモダリティを詳細に理解するマルチモーダルllmであるbubogptを提案する。 結果として、bubogptは、そのオブジェクトに対する応答や記述を生成する際に、画像内のオブジェクトの特定の位置を指摘することができる。 私たちの貢献は2つあります。 1)文中のエンティティを抽出し,画像中の対応するマスクを見つけるSAMに基づく,市販のビジュアルグラウンドモジュール。 2)テキスト-画像-音声統合理解を付与する2段階学習方式と指導データセット。 実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。 任意のモダリティの組み合わせ(整列あるいは整列しない)によって提供される場合、一貫してうまく動作する。 私たちのコード、モデル、データセットはhttps://bubo-gpt.github.ioで利用可能です。

LLMs have demonstrated remarkable abilities at interacting with humans through language, especially with the usage of instruction-following data. Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further enlarge their abilities by incorporating multi-modal inputs, including image, video, and speech. Despite their effectiveness at generating precise and detailed language understanding of the given modality signal, these LLMs give up the ability to ground specific parts of inputs, thus only constructing a coarse-grained mapping. However, explicit and informative correspondence between text and other modalities will not only improve the user experience but also help to expand the application scenario of multi-modal LLMs. Therefore, we propose BuboGPT, a multi-modal LLM with visual grounding that can perform cross-modal interaction between vision, audio and language, providing fine-grained understanding of visual objects and other given modalities. As a result, BuboGPT is able to point out the specific location of an object in the image, when it is generating response or description for that object. Our contributions are two-fold: 1) An off-the-shelf visual grounding module based on SAM that extracts entities in a sentence and find corresponding masks in the image. 2) A two-stage training scheme and instruction dataset to endow joint text-image-audio understanding. Our experiments show that BuboGPT achieves impressive multi-modality understanding and visual grounding abilities during the interaction with human. It performs consistently well when provided by arbitrary modality combinations (either aligned or unaligned). Our code, model and dataset are available at https://bubo-gpt.github.io .
翻訳日:2023-07-18 12:25:03 公開日:2023-07-17
# Retentive Network: 大規模言語モデルのためのトランスフォーマーの継承者

Retentive Network: A Successor to Transformer for Large Language Models ( http://arxiv.org/abs/2307.08621v1 )

ライセンス: Link先を確認
Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei(参考訳) 本研究では,大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論上は再発と注意の関係を導出する。 次に,並列,リカレント,チャンク回りリカレントという3つの計算パラダイムをサポートするシーケンスモデリングのための保持機構を提案する。 具体的には、並列表現は並列性を訓練することができる。 リカレント表現は、低コストの$O(1)$推論を可能にし、パフォーマンスを犠牲にすることなく、デコードスループット、レイテンシ、GPUメモリを改善する。 チャンクワイズ・リカレント表現は、各チャンクを並列に符号化し、チャンクを反復的に要約する、線形複雑性を伴う効率的なロングシーケンスモデリングを容易にする。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストデプロイメント、効率的な推論を実現している。 RetNetは大きな言語モデルのためのTransformerの強力な後継となる。 コードはhttps://aka.ms/retnet.comから入手できる。

In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurrent, and chunkwise recurrent. Specifically, the parallel representation allows for training parallelism. The recurrent representation enables low-cost $O(1)$ inference, which improves decoding throughput, latency, and GPU memory without sacrificing performance. The chunkwise recurrent representation facilitates efficient long-sequence modeling with linear complexity, where each chunk is encoded parallelly while recurrently summarizing the chunks. Experimental results on language modeling show that RetNet achieves favorable scaling results, parallel training, low-cost deployment, and efficient inference. The intriguing properties make RetNet a strong successor to Transformer for large language models. Code will be available at https://aka.ms/retnet.
翻訳日:2023-07-18 12:18:38 公開日:2023-07-17
# ダイヤモンド量子メモリを用いた通信ネットワーク

Telecom networking with a diamond quantum memory ( http://arxiv.org/abs/2307.08619v1 )

ライセンス: Link先を確認
Eric Bersin, Madison Sutula, Yan Qi Huan, Aziza Suleymanzade, Daniel R. Assumpcao, Yan-Cheng Wei, Pieter-Jan Stas, Can M. Knaut, Erik N. Knall, Carsten Langrock, Neil Sinclair, Ryan Murphy, Ralf Riedinger, Matthew Yeh, C. J. Xin, Saumil Bandyopadhyay, Denis D. Sukachev, Bartholomeus Machielse, David S. Levonian, Mihir K. Bhaskar, Scott Hamilton, Hongkun Park, Marko Lon\v{c}ar, Martin M. Fejer, P. Benjamin Dixon, Dirk R. Englund, and Mikhail D. Lukin(参考訳) 実践的な量子ネットワークでは、通信帯域で動作する既存のチャネルやシステムと量子メモリを相互接続する必要がある。 ここでは、固体量子メモリが通信バンドシステムと直接接続できる低雑音双方向量子周波数変換を示す。 特に、ダイヤモンド中のシリコン空孔(SiV)中心から放出される可視光子を、低雑音(g^2(0)<0.1$)と高可視光子(V=89\pm8\%$)を維持して、通信Oバンドに変換する。 さらに,通信帯域のタイムビンパルスを50kmの分散ファイバリンクから可視帯域に変換し,その量子状態のダイアモンド量子メモリへのマッピングにより,量子ネットワークにおけるこのシステムの有用性を実証する。 これらの結果は、スケーラブルな量子ネットワークアプリケーションのための通信バンドシステムと統合されたSiV量子メモリの実現可能性を示している。

Practical quantum networks require interfacing quantum memories with existing channels and systems that operate in the telecom band. Here we demonstrate low-noise, bidirectional quantum frequency conversion that enables a solid-state quantum memory to directly interface with telecom-band systems. In particular, we demonstrate conversion of visible-band single photons emitted from a silicon-vacancy (SiV) center in diamond to the telecom O-band, maintaining low noise ($g^2(0)<0.1$) and high indistinguishability ($V=89\pm8\%$). We further demonstrate the utility of this system for quantum networking by converting telecom-band time-bin pulses, sent across a lossy and noisy 50 km deployed fiber link, to the visible band and mapping their quantum states onto a diamond quantum memory with fidelity $\mathcal{F}=87\pm 2.5 \% $. These results demonstrate the viability of SiV quantum memories integrated with telecom-band systems for scalable quantum networking applications.
翻訳日:2023-07-18 12:18:20 公開日:2023-07-17
# 気候変動の文脈における作物多様化の影響の理解--機械学習によるアプローチ

Understanding the impacts of crop diversification in the context of climate change: a machine learning approach ( http://arxiv.org/abs/2307.08617v1 )

ライセンス: Link先を確認
Georgios Giannarakis, Ilias Tsoumas, Stelios Neophytides, Christiana Papoutsa, Charalampos Kontoes, Diofantos Hadjimitsis(参考訳) 農業における持続可能な強化という概念は、生産性を損なうことなく持続可能性に優先順位をつける経営慣行の実施を必要とする。 しかし、こうした慣行の効果は環境条件に依存することが知られており、気候の変化による変化が期待されている。 気候変動における作物の多様化が生産性に及ぼす影響について考察した。 我々は、異種地球観測データを活用し、因果機械学習に基づくデータ駆動型アプローチで、将来、作物の多様化の影響がどのように変化するかを理解する。 この手法をキプロスに4年間にわたって適用した。 平均して、作物の多様化は作物の一次生産性を著しく向上させ、2.8%増加させた。 この効果は, 最大温度と土壌水分の低下と相乗効果が良好であった。 温暖で干ばつしやすい気候下では,作物の多様化は適応可能性が高く,現在と将来の農業生産性に関して賢明な政策選択であると結論づける。

The concept of sustainable intensification in agriculture necessitates the implementation of management practices that prioritize sustainability without compromising productivity. However, the effects of such practices are known to depend on environmental conditions, and are therefore expected to change as a result of a changing climate. We study the impact of crop diversification on productivity in the context of climate change. We leverage heterogeneous Earth Observation data and contribute a data-driven approach based on causal machine learning for understanding how crop diversification impacts may change in the future. We apply this method to the country of Cyprus throughout a 4-year period. We find that, on average, crop diversification significantly benefited the net primary productivity of crops, increasing it by 2.8%. The effect generally synergized well with higher maximum temperatures and lower soil moistures. In a warmer and more drought-prone climate, we conclude that crop diversification exhibits promising adaptation potential and is thus a sensible policy choice with regards to agricultural productivity for present and future.
翻訳日:2023-07-18 12:18:00 公開日:2023-07-17
# Bitcoinブロックチェーンにおける実経済活動の時間的・地理的分析

Temporal and Geographical Analysis of Real Economic Activities in the Bitcoin Blockchain ( http://arxiv.org/abs/2307.08616v1 )

ライセンス: Link先を確認
Rafael Ramos Tubino, Remy Cazabet, Natkamon Tovanich, and Celine Robardet(参考訳) 我々は、マーケットプレース、取引所、その他のサービス間の取引ではなく、小売ユーザー間の取引を伴うbitcoinブロックチェーンにおける実際の経済活動について調査する。 まず、Bitcoinプレーヤーを周波数受信器(FR)、近隣のFR、その他の3つのカテゴリに分類するヒューリスティックな方法を紹介します。 実際の取引のほとんどは、ブロックチェーンによって交換された総価値のごく一部をFrequent Receiversが占めているが、すべての支払いのかなりの部分を占めており、Bitcoinエコシステムの中央集権化に関する懸念が高まっている。 また、毎週の行動パターン分析を行い、Bitcoinユーザーの地理的位置に関する洞察を提供し、アクター識別のためのよく知られたデータセットのバイアスを定量化できるようにします。

We study the real economic activity in the Bitcoin blockchain that involves transactions from/to retail users rather than between organizations such as marketplaces, exchanges, or other services. We first introduce a heuristic method to classify Bitcoin players into three main categories: Frequent Receivers (FR), Neighbors of FR, and Others. We show that most real transactions involve Frequent Receivers, representing a small fraction of the total value exchanged according to the blockchain, but a significant fraction of all payments, raising concerns about the centralization of the Bitcoin ecosystem. We also conduct a weekly pattern analysis of activity, providing insights into the geographical location of Bitcoin users and allowing us to quantify the bias of a well-known dataset for actor identification.
翻訳日:2023-07-18 12:17:44 公開日:2023-07-17
# 異なる埋め込みサイズとセンサタイプにわたる固定長指紋表現のベンチマーク

Benchmarking fixed-length Fingerprint Representations across different Embedding Sizes and Sensor Types ( http://arxiv.org/abs/2307.08615v1 )

ライセンス: Link先を確認
Tim Rohwedder, Daile Osorio-Roig, Christian Rathgeb, Christoph Busch(参考訳) 伝統的なminutiaeベースの指紋表現は、可変長のminutiaeからなる。 これは1対1の比較において高い計算コストの欠点を引き起こすより複雑な比較を必要とする。 近年,指紋から固定長埋め込みを抽出するディープニューラルネットワークが提案されている。 本稿では,このような埋め込みに含まれる指紋テクスチャ情報が,生体計測性能を維持しつつ,寸法的にどの程度低減できるかを検討する。 これは、比較で発生する操作の数を減らすことができるため、特に興味深い。 また,2種類のセンサ,すなわち光と静電容量に対する指紋テクスチャ情報の認識性能への影響についても検討した。 さらに,指紋画像の回転と変換が指紋埋め込みの抽出に与える影響を解析した。 公開データベース上で行った実験により,固定長指紋表現のテクスチャに基づく埋め込み部において,512特徴要素の最適な埋め込みサイズが明らかになった。 また,センサの種類による性能の違いも認識できる。

Traditional minutiae-based fingerprint representations consist of a variable-length set of minutiae. This necessitates a more complex comparison causing the drawback of high computational cost in one-to-many comparison. Recently, deep neural networks have been proposed to extract fixed-length embeddings from fingerprints. In this paper, we explore to what extent fingerprint texture information contained in such embeddings can be reduced in terms of dimension while preserving high biometric performance. This is of particular interest since it would allow to reduce the number of operations incurred at comparisons. We also study the impact in terms of recognition performance of the fingerprint textural information for two sensor types, i.e. optical and capacitive. Furthermore, the impact of rotation and translation of fingerprint images on the extraction of fingerprint embeddings is analysed. Experimental results conducted on a publicly available database reveal an optimal embedding size of 512 feature elements for the texture-based embedding part of fixed-length fingerprint representations. In addition, differences in performance between sensor types can be perceived.
翻訳日:2023-07-18 12:17:31 公開日:2023-07-17
# 時系列から構築した統計関数の重なり合うバッチ信頼区間:量子化,最適化,推定への応用

Overlapping Batch Confidence Intervals on Statistical Functionals Constructed from Time Series: Application to Quantiles, Optimization, and Estimation ( http://arxiv.org/abs/2307.08609v1 )

ライセンス: Link先を確認
Ziwei Su, Raghu Pasupathy, Yingchieh Yeh, Peter W. Glynn(参考訳) 定常時系列データを用いて構築した統計関数に対する汎用信頼区間手順(CIP)を提案する。 提案手法は, 統計関数的文脈に対する$\chi^2$と学生の$t$の確率変数の導出分布のないアナログに基づいており, より伝統的な統計的状況とは別に, 量子的推定, 勾配推定, M-推定, CVAR推定, 到着過程の速度推定など, 様々な状況に適用できる。 サブサンプリング法と同様に、重なり合う時系列データのバッチを用いて分散パラメータを推定するが、サブサンプリングやブートストラップとは異なり、統計的汎関数の含意点推定子は中央極限定理(clt)に従い、バッチ化された統計の弱漸近性(ob-x極限、x=i,ii,iii)を特定するのに役立つと仮定する。 OB-x制限は、バッチのサイズと重複の程度によってパラメータ化されたウィーナー過程の特定の機能であり、依存を特徴づける必須の機械を形成し、その結果、提案されたCIPの正しさを形成する。 大規模な数値実験から得られたメッセージは、ポイント推定器上の関数的CLTが有効である場合、OB-x臨界値と共に \emph{large overlapping batches} を用いることで、サブサンプリングやブートストラップのようなより一般的なメソッドから得られるものよりもはるかに高い品質の信頼区間が得られるというものである。 CVaR推定、ARMAパラメータ推定、NHPPレート推定の例を用いて、OB-x臨界値に対するRおよびMATLABコードは、~\texttt{web.ics.purdue.edu/~pasupath/}で利用可能である。

We propose a general purpose confidence interval procedure (CIP) for statistical functionals constructed using data from a stationary time series. The procedures we propose are based on derived distribution-free analogues of the $\chi^2$ and Student's $t$ random variables for the statistical functional context, and hence apply in a wide variety of settings including quantile estimation, gradient estimation, M-estimation, CVAR-estimation, and arrival process rate estimation, apart from more traditional statistical settings. Like the method of subsampling, we use overlapping batches of time series data to estimate the underlying variance parameter; unlike subsampling and the bootstrap, however, we assume that the implied point estimator of the statistical functional obeys a central limit theorem (CLT) to help identify the weak asymptotics (called OB-x limits, x=I,II,III) of batched Studentized statistics. The OB-x limits, certain functionals of the Wiener process parameterized by the size of the batches and the extent of their overlap, form the essential machinery for characterizing dependence, and consequently the correctness of the proposed CIPs. The message from extensive numerical experimentation is that in settings where a functional CLT on the point estimator is in effect, using \emph{large overlapping batches} alongside OB-x critical values yields confidence intervals that are often of significantly higher quality than those obtained from more generic methods like subsampling or the bootstrap. We illustrate using examples from CVaR estimation, ARMA parameter estimation, and NHPP rate estimation; R and MATLAB code for OB-x critical values is available at~\texttt{web.ics.purdue.edu/~pasupath/}.
翻訳日:2023-07-18 12:17:04 公開日:2023-07-17
# 外部時間スケール調整によるハイパーパラメータ依存性の低減

Reducing hyperparameter dependence by external timescale tailoring ( http://arxiv.org/abs/2307.08603v1 )

ライセンス: Link先を確認
Lina C. Jaurigue and Kathy L\"udge(参考訳) 貯水池コンピューティングにおけるタスク特化ハイパーパラメータチューニングはオープンな問題であり、特にハードウェア実装型貯水池との関連性が高い。 本研究では,外部制御可能なタスク特定時間スケールが貯留層計算手法の性能とハイパーパラメータ感度に与える影響について検討する。 その結果,リザーバの時間スケールが特定のタスクに合わせて調整された場合,ハイパーパラメータの最適化の必要性を低減できることがわかった。 この結果は主に過去の入力の記憶を必要とする時間的タスクに関係している。 貯水池計算手法にタスク固有の時間スケールを含める様々な方法を検討し、時間多重・空間多重の貯水池計算の両面から、メッセージの普遍性を実証する。

Task specific hyperparameter tuning in reservoir computing is an open issue, and is of particular relevance for hardware implemented reservoirs. We investigate the influence of directly including externally controllable task specific timescales on the performance and hyperparameter sensitivity of reservoir computing approaches. We show that the need for hyperparameter optimisation can be reduced if timescales of the reservoir are tailored to the specific task. Our results are mainly relevant for temporal tasks requiring memory of past inputs, for example chaotic timeseries prediciton. We consider various methods of including task specific timescales in the reservoir computing approach and demonstrate the universality of our message by looking at both time-multiplexed and spatially multiplexed reservoir computing.
翻訳日:2023-07-18 12:16:24 公開日:2023-07-17
# 様々なクエンチダイナミクス:キブル・ズレーク、飽和、および前飽和状態

Varying quench dynamics: the Kibble-Zurek, saturated, and pre-saturated regimes ( http://arxiv.org/abs/2307.08599v1 )

ライセンス: Link先を確認
Han-Chuan Kou and Peng Li(参考訳) kibble-zurek機構によれば、臨界点を通過する遅い線形クエンチ中の欠陥密度とクエンチ速度の間には普遍的なパワーロー関係が存在する。 一般に、高速なクエンチは、キブルズレークのスケーリング法則から逸脱し、欠陥密度の飽和台地を形成することが受け入れられている。 緩やかな限界から非常に速い限界まで、クエンチ速度が変化するため、クエンチダイナミクスの遷移にフォーカスしています。 横型イジング鎖の詳細な解析により,飽和状態とキブル・ズレーク状態の中間に位置する前飽和状態が同定された。 飽和状態から飽和前の状態への遷移点に近づくと、スケーリング則の変化に気付き、初期横磁場の増加とともに飽和状態が消滅するまで縮小する。 キブル・ズールクから前飽和状態への別の遷移では、デフォーカス効果の減衰と、ガウス崩壊から指数的崩壊へのキンクキンク相関関数の挙動の変化が観察される。

According to the Kibble-Zurek mechanism, there is a universal power-law relationship between the defect density and the quench rate during a slow linear quench through a critical point. It is generally accepted that a fast quench results in a deviation from the Kibble-Zurek scaling law and leads to the formation of a saturated plateau in the defect density. Our focus is on the transitions of quench dynamics as quench rates vary from slow to very fast limits. Through an in-depth analysis of the transverse Ising chain, we have identified a pre-saturated regime that lies between the saturated and Kibble-Zurek regimes. As we approach the transition point from the saturated to pre-saturated regimes, we notice a change in scaling laws and, with an increase in the initial transverse field, a shrinking of the saturated regime until it disappears. During another transition from the Kibble-Zurek to pre-saturated regimes, we observe an attenuation of the dephasing effect and a change in the behavior of the kink-kink correlation function from a Gaussian decay to an exponential decay.
翻訳日:2023-07-18 12:15:50 公開日:2023-07-17
# 複数のターゲット言語への多言語音声合成

Multilingual Speech-to-Speech Translation into Multiple Target Languages ( http://arxiv.org/abs/2307.08655v1 )

ライセンス: Link先を確認
Hongyu Gong, Ning Dong, Sravya Popuri, Vedanuj Goswami, Ann Lee, Juan Pino(参考訳) 音声音声翻訳(S2ST)は、異なる言語で話す人々間の音声通信を可能にする。 マルチ言語S2STに関するいくつかの研究にもかかわらず、その焦点はソース側の多言語性、すなわち複数のソース言語からひとつのターゲット言語への翻訳である。 複数のターゲット言語をサポートする多言語S2STの最初の研究について述べる。 音声対単位とボコーダによる直接S2STの最近の進歩を利用して、これらのキーコンポーネントに多言語機能を持たせる。 S2MU(Scope-to-masked-unit)は、S2Uの多言語拡張であり、与えられたターゲット言語に属さない単位に対してマスキングを適用し、言語干渉を減らす。 また,言語埋め込みと言語識別の補助的損失を訓練した多言語ボコーダを提案する。 ベンチマーク翻訳テストセットでは,提案する多言語モデルが英語から目標言語への翻訳において,多言語モデルよりも優れた性能を示す。

Speech-to-speech translation (S2ST) enables spoken communication between people talking in different languages. Despite a few studies on multilingual S2ST, their focus is the multilinguality on the source side, i.e., the translation from multiple source languages to one target language. We present the first work on multilingual S2ST supporting multiple target languages. Leveraging recent advance in direct S2ST with speech-to-unit and vocoder, we equip these key components with multilingual capability. Speech-to-masked-unit (S2MU) is the multilingual extension of S2U, which applies masking to units which don't belong to the given target language to reduce the language interference. We also propose multilingual vocoder which is trained with language embedding and the auxiliary loss of language identification. On benchmark translation testsets, our proposed multilingual model shows superior performance than bilingual models in the translation from English into $16$ target languages.
翻訳日:2023-07-18 12:08:17 公開日:2023-07-17
# 雑音の存在下でのメロジカル量子情報の圧縮

Compression of metrological quantum information in the presence of noise ( http://arxiv.org/abs/2307.08648v1 )

ライセンス: Link先を確認
Flavio Salvati, Wilfred Salmon, Crispin H.W. Barnes, David R.M. Arvidsson-Shukur(参考訳) 量子力学において、未知のパラメータ $\mathbf{\theta} = (\theta_1,\ldots,\theta_M)$ に関する情報は、測定プローブ状態 $\hat{\rho}_{\mathbf{\theta}}$ によってアクセスされる。 実験環境では、$\hat{\rho}_{\mathbf{\theta}}$ のコピーを迅速に生成することができる(例えば、光学系において)。 これらのレジームでは、$\hat{\rho}_{\mathbf{\theta}} \, ^{\otimes n}$ で符号化された情報をポスト選択状態の $m<n$ に圧縮することが望ましい: ${\hat{\rho}_{\mathbf{\theta}}^{\text{ps}}} \,^{\otimes m}$。 注目すべきは、最近の研究で、ノイズがなければ圧縮は損失がなく、$m/n$は任意に小さいということである。 ここでは、ロスレス圧縮を可能にするフィルタのファミリを完全に特徴づける。 さらに,ノイズが量子力学情報増幅に与える影響について検討する。 実験に動機づけられ,qubitプローブに最適であることを示すフィルタ群について検討した。 さらに, 本ファミリーの最適フィルタでは, ノイズがフィルタの後に作用した場合, 圧縮はいまだに損失がないことを示す。 しかし, フィルタ前の非分極ノイズの存在下では, 圧縮が損なわれる。 いずれの場合も、強いノイズが存在する場合でも、状態の一定割合を捨てるよりも、情報抽出の方がはるかに優れた実装が可能である。

In quantum metrology, information about unknown parameters $\mathbf{\theta} = (\theta_1,\ldots,\theta_M)$ is accessed by measuring probe states $\hat{\rho}_{\mathbf{\theta}}$. In experimental settings where copies of $\hat{\rho}_{\mathbf{\theta}}$ can be produced rapidly (e.g., in optics), the information-extraction bottleneck can stem from high post-processing costs or detector saturation. In these regimes, it is desirable to compress the information encoded in $\hat{\rho}_{\mathbf{\theta}} \, ^{\otimes n}$ into $m<n$ copies of a postselected state: ${\hat{\rho}_{\mathbf{\theta}}^{\text{ps}}} \,^{\otimes m}$. Remarkably, recent works have shown that, in the absence of noise, compression can be lossless, for $m/n$ arbitrarily small. Here, we fully characterize the family of filters that enable lossless compression. Further, we study the effect of noise on quantum-metrological information amplification. Motivated by experiments, we consider a popular family of filters, which we show is optimal for qubit probes. Further, we show that, for the optimal filter in this family, compression is still lossless if noise acts after the filter. However, in the presence of depolarizing noise before filtering, compression is lossy. In both cases, information-extraction can be implemented significantly better than simply discarding a constant fraction of the states, even in the presence of strong noise.
翻訳日:2023-07-18 12:08:02 公開日:2023-07-17
# 破壊下での学習のための一般的な枠組み:ラベルノイズ、属性ノイズなど

A General Framework for Learning under Corruption: Label Noise, Attribute Noise, and Beyond ( http://arxiv.org/abs/2307.08643v1 )

ライセンス: Link先を確認
Laura Iacovissi and Nan Lu and Robert C. Williamson(参考訳) 腐敗は収集されたデータでしばしば観察され、異なる腐敗モデルの下で機械学習で広範囲に研究されている。 それにもかかわらず、これらのモデルがどのように関連するかについての理解は限られており、腐敗と学習に対する影響の統一的な見解はまだ欠けている。 本研究では,Markovカーネルをベースとした汎用的,網羅的なフレームワークを用いて,分布レベルでの汚職モデルの解析を行う。 既存の研究ではほとんど触れられていないラベルと属性の両方に複雑なジョイントと依存的腐敗が存在することを強調する。 さらに,ベイズリスクの変化を解析することにより,これらの腐敗が標準教師付き学習にどのように影響するかを示す。 本研究は,学習問題に対する「より複雑な」腐敗の結果に対する質的洞察を提供し,今後の定量的比較の基礎を提供する。 このフレームワークの応用例としては、腐敗訂正学習があるが、そのサブケースは、異なる腐敗インスタンスに対する損失補正を理論的に分析することで研究している。

Corruption is frequently observed in collected data and has been extensively studied in machine learning under different corruption models. Despite this, there remains a limited understanding of how these models relate such that a unified view of corruptions and their consequences on learning is still lacking. In this work, we formally analyze corruption models at the distribution level through a general, exhaustive framework based on Markov kernels. We highlight the existence of intricate joint and dependent corruptions on both labels and attributes, which are rarely touched by existing research. Further, we show how these corruptions affect standard supervised learning by analyzing the resulting changes in Bayes Risk. Our findings offer qualitative insights into the consequences of "more complex" corruptions on the learning problem, and provide a foundation for future quantitative comparisons. Applications of the framework include corruption-corrected learning, a subcase of which we study in this paper by theoretically analyzing loss correction with respect to different corruption instances.
翻訳日:2023-07-18 12:07:09 公開日:2023-07-17
# 新しい量子機械学習アルゴリズム:量子条件マスター方程式に触発された分割隠れ量子マルコフモデル

A new quantum machine learning algorithm: split hidden quantum Markov model inspired by quantum conditional master equation ( http://arxiv.org/abs/2307.08640v1 )

ライセンス: Link先を確認
Xiao-Yu Li, Qin-Sheng Zhu, Yong Hu, Hao Wu, Guo-Wu Yang, Lian-Hui Yu, Geng Chen(参考訳) 隠れ量子マルコフモデル(HQMM)は、古典的な隠れマルコフモデルと比較して高い精度と効率のため、時系列データを解析し、量子世界の確率過程を研究する大きな可能性を示している。 本稿では, 量子系の内部状態間の関係をよりよく反映した, 微調整条件を含む条件付きマスター方程式を用いて, 隠れ量子マルコフ過程を実現するプロジェクトを提案した。 実験結果から,従来の時系列データモデルよりも優れた性能と頑健性が得られた。 最も重要なことは、量子輸送システムを例として、量子条件マスター方程式とHQMMの関係を確立し、HQMMにおけるパラメータ解決を決定するための新しい学習アルゴリズムを提案することである。 本研究は,量子輸送システムがHQMMの物理的具体化とみなすことができることを示す。

The Hidden Quantum Markov Model(HQMM) shows tremendous potential for analyzing time-series data and studying stochastic processes in the quantum world due to its high accuracy and better efficiency compared to the classical hidden Markov model. Here, we proposed the project to realize the hidden quantum Markov process using the conditional master equation, which includes a fine balance condition and better reflects the relationships among the inner states of quantum system. The experimental results indicate that our model has better performance and robust than previous models for time-series data. Most importantly, by taking the quantum transport system as an example, we establish the relations between the quantum conditional master equation and the HQMM, and propose a new learning algorithm to determine the parameter-solving in HQMM. Our findings provide obvious evidence that the quantum transport system can be deemed a physical embodiment of HQMM.
翻訳日:2023-07-18 12:06:54 公開日:2023-07-17
# 学習補助サンプルソートとしてのLearledSort:分析と並列化

LearnedSort as a learning-augmented SampleSort: Analysis and Parallelization ( http://arxiv.org/abs/2307.08637v1 )

ライセンス: Link先を確認
Ivan Carvalho and Ramon Lawrence(参考訳) 本研究は、累積分布関数に基づく機械学習モデルを用いてソートする新しいアルゴリズムであるlearnedsortの解析と並列化を行う。 LearnedSortは予測付きアルゴリズムのレンズで分析され、LearnedSortは学習増強されたSampleSortであると主張している。 LearnedSortと最先端のSampleSort実装であるIPS4oを組み合わせた並列LeartedSortアルゴリズムを開発した。 合成および実世界のデータセットのベンチマークでは、IPS4oや他のソートアルゴリズムと比較して、LeartedSortの並列性能が改善された。

This work analyzes and parallelizes LearnedSort, the novel algorithm that sorts using machine learning models based on the cumulative distribution function. LearnedSort is analyzed under the lens of algorithms with predictions, and it is argued that LearnedSort is a learning-augmented SampleSort. A parallel LearnedSort algorithm is developed combining LearnedSort with the state-of-the-art SampleSort implementation, IPS4o. Benchmarks on synthetic and real-world datasets demonstrate improved parallel performance for parallel LearnedSort compared to IPS4o and other sorting algorithms.
翻訳日:2023-07-18 12:06:38 公開日:2023-07-17
# PolyGNN: 点雲からの3次元建物再構築のためのポリヘドロングラフニューラルネットワーク

PolyGNN: Polyhedron-based Graph Neural Network for 3D Building Reconstruction from Point Clouds ( http://arxiv.org/abs/2307.08636v1 )

ライセンス: Link先を確認
Zhaiyu Chen, Yilei Shi, Liangliang Nan, Zhitong Xiong, Xiao Xiang Zhu(参考訳) 点雲からの3次元再構築のための多面体グラフニューラルネットワークPolyGNNを提案する。 PolyGNNは、グラフノードの分類によって得られたプリミティブを組み立てることを学び、水密でコンパクトで、セマンティックな再構築を実現する。 ニューラルネットワークにおける任意の形状のポリヘドラを効果的に表現するために,代表点を多面体ワイドクエリとして選択する3つの異なるサンプリング手法を提案する。 さらに、グラフノードの分類を強化するために、多面体間の隣接性も取り入れる。 また、既存の都市構築モデルが基盤となるインスタンスの抽象化であることも観察しています。 この抽象化のギャップを解消し,提案手法を公平に評価するために,多面体クラスラベルの基底真理を定義できる500k以上の建物をカバーする大規模合成データセットを用いた手法を開発した。 我々はさらに,都市間および実世界のポイントクラウド上での転送可能性解析を行う。 定性的かつ定量的な結果は,本手法の有効性,特に大規模再建における有効性を示すものである。 私たちの仕事のソースコードとデータは、https://github.com/chenzhaiyu/polygnnで入手できます。

We present PolyGNN, a polyhedron-based graph neural network for 3D building reconstruction from point clouds. PolyGNN learns to assemble primitives obtained by polyhedral decomposition via graph node classification, achieving a watertight, compact, and weakly semantic reconstruction. To effectively represent arbitrary-shaped polyhedra in the neural network, we propose three different sampling strategies to select representative points as polyhedron-wise queries, enabling efficient occupancy inference. Furthermore, we incorporate the inter-polyhedron adjacency to enhance the classification of the graph nodes. We also observe that existing city-building models are abstractions of the underlying instances. To address this abstraction gap and provide a fair evaluation of the proposed method, we develop our method on a large-scale synthetic dataset covering 500k+ buildings with well-defined ground truths of polyhedral class labels. We further conduct a transferability analysis across cities and on real-world point clouds. Both qualitative and quantitative results demonstrate the effectiveness of our method, particularly its efficiency for large-scale reconstructions. The source code and data of our work are available at https://github.com/chenzhaiyu/polygnn.
翻訳日:2023-07-18 12:06:28 公開日:2023-07-17
# ビデオインペインティング用欠陥認識マスク変圧器

Deficiency-Aware Masked Transformer for Video Inpainting ( http://arxiv.org/abs/2307.08629v1 )

ライセンス: Link先を確認
Yongsheng Yu, Heng Fan, Libo Zhang(参考訳) 近年の映像のインペイント手法は,光フローなどの明示的なガイダンスを利用して,クロスフレーム画素の普及に成功している。 しかし、マスク付きビデオのクロスフレーム再生が不可能な場合もあり、結果として欠落する。 このような状況では、他のフレームからピクセルを借りる代わりに、モデルの焦点は逆問題への対処へとシフトする。 本稿では,2つの長所を提供するDeficiency-aware Masked Transformer (DMT) という,両モード互換な塗装フレームワークを提案する。 まず,DMT_imgはビデオモデルのDMT_vidを蒸留する前駆体として,画像塗布モデルDMT_imgを事前訓練する。 第2に、自己アテンションモジュールは、推論を加速しノイズ信号を除去するために時空間トークンを選択的に組み込む。 第三に、単純で効果的な受容場コンテキスト化器がDMTに統合され、パフォーマンスがさらに向上する。 YouTube-VOSとDAVISデータセットで実施された大規模な実験は、DMT_vidが従来のソリューションよりも大幅に優れていることを示した。 コードとビデオのデモはgithub.com/yeates/DMTで見ることができる。

Recent video inpainting methods have made remarkable progress by utilizing explicit guidance, such as optical flow, to propagate cross-frame pixels. However, there are cases where cross-frame recurrence of the masked video is not available, resulting in a deficiency. In such situation, instead of borrowing pixels from other frames, the focus of the model shifts towards addressing the inverse problem. In this paper, we introduce a dual-modality-compatible inpainting framework called Deficiency-aware Masked Transformer (DMT), which offers three key advantages. Firstly, we pretrain a image inpainting model DMT_img serve as a prior for distilling the video model DMT_vid, thereby benefiting the hallucination of deficiency cases. Secondly, the self-attention module selectively incorporates spatiotemporal tokens to accelerate inference and remove noise signals. Thirdly, a simple yet effective Receptive Field Contextualizer is integrated into DMT, further improving performance. Extensive experiments conducted on YouTube-VOS and DAVIS datasets demonstrate that DMT_vid significantly outperforms previous solutions. The code and video demonstrations can be found at github.com/yeates/DMT.
翻訳日:2023-07-18 12:06:09 公開日:2023-07-17
# 因果効果のパラメトリック推定のためのRパッケージ

An R package for parametric estimation of causal effects ( http://arxiv.org/abs/2307.08686v1 )

ライセンス: Link先を確認
Joshua Wolff Anderson and Cyril Rakovsk(参考訳) この記事では、Comprehensive R Archive Networkで公開されているRパッケージCausalModelsの使用について説明する。 因果効果を十分に推定するためにパッケージが利用できるが、hern\'an and robins (2020) によって開発された従来の統計アプローチを用いた構造モデルの集合を提供するパッケージが欠けている。 CausalModelsは、詳細な統計知識を必要とせず、観測データのバイアスを考慮に入れた手法のツールを提供することで、因果推論に関するRのソフトウェア不足に対処する。 これらのメソッドは無視すべきではなく、特定の問題を解決するのに適切または効率的である。 これらの統計モデルの実装はいくつかの因果パッケージに分散しているが、CausalModelsは単一Rパッケージにおける因果効果を推定する様々な統計手法の中で、一貫したモデリングパイプラインのためのシンプルでアクセスしやすいフレームワークを導入している。 標準化、IP重み付け、G推定、結果回帰、インストゥルメンタル変数、確率マッチングを含む一般的な方法で構成されている。

This article explains the usage of R package CausalModels, which is publicly available on the Comprehensive R Archive Network. While packages are available for sufficiently estimating causal effects, there lacks a package that provides a collection of structural models using the conventional statistical approach developed by Hern\'an and Robins (2020). CausalModels addresses this deficiency of software in R concerning causal inference by offering tools for methods that account for biases in observational data without requiring extensive statistical knowledge. These methods should not be ignored and may be more appropriate or efficient in solving particular problems. While implementations of these statistical models are distributed among a number of causal packages, CausalModels introduces a simple and accessible framework for a consistent modeling pipeline among a variety of statistical methods for estimating causal effects in a single R package. It consists of common methods including standardization, IP weighting, G-estimation, outcome regression, instrumental variables and propensity matching.
翻訳日:2023-07-18 11:58:49 公開日:2023-07-17
# ルビックキューブのクリフォード合成へのアプローチ

A Rubik's Cube inspired approach to Clifford synthesis ( http://arxiv.org/abs/2307.08684v1 )

ライセンス: Link先を確認
Ning Bao and Gavin S. Hartnett(参考訳) 任意のクリフォード要素をクリフォードゲートの列に分解する問題はクリフォード合成として知られている。 これと有名なルービックキューブ問題との類似性から着想を得て,同一視までの距離の近似を学習し,クリフォード合成のための機械学習手法を開発した。 このアプローチは確率的かつ計算集約的です。 しかし、分解が成功すると、しばしば既存の合成アルゴリズムよりもゲートが少なくなる。 さらに、任意のゲートセット、デバイストポロジー、ゲートフィディティを組み込むことができるため、アプローチを特定のデバイスに合わせることができるという、既存のアルゴリズムよりもはるかに柔軟なアプローチです。

The problem of decomposing an arbitrary Clifford element into a sequence of Clifford gates is known as Clifford synthesis. Drawing inspiration from similarities between this and the famous Rubik's Cube problem, we develop a machine learning approach for Clifford synthesis based on learning an approximation to the distance to the identity. This approach is probabilistic and computationally intensive. However, when a decomposition is successfully found, it often involves fewer gates than existing synthesis algorithms. Additionally, our approach is much more flexible than existing algorithms in that arbitrary gate sets, device topologies, and gate fidelities may incorporated, thus allowing for the approach to be tailored to a specific device.
翻訳日:2023-07-18 11:58:31 公開日:2023-07-17
# 量子共分散スカラー積、熱相関およびマックスエント射影の効率的な推定

Quantum Covariance Scalar Products, Thermal Correlations and Efficient Estimation of Max-Ent projections ( http://arxiv.org/abs/2307.08683v1 )

ライセンス: Link先を確認
F.T.B. P\'erez, J. M. Matera(参考訳) 最大エントロピー原理(Max-Ent)は統計力学や量子情報理論において有用かつ広く用いられる道具である。 測定可能な量に関連するパラメータの縮小セットを利用してシステムの状態を推定する方法を提供する。 しかしながら、量子多体系のシミュレーションにmax-entプロジェクションを用いる計算コストは、主にこれらのプロジェクションを評価する計算コストのために大きな欠点となる。 本稿では,max-ent射影を推定する新しい手法を提案する。 このアプローチでは、KMB(Kubo-Mori-Bogoliubov)スカラー積で表される高価なMax-Ent誘導局所幾何学を、より計算力の低い幾何学に置き換える。 具体的には、新しい局所幾何学は古典確率変数に対する共分散スカラー積の量子アナログとして定義される。 二つの生成物の誘導距離と射影の関係を考察した。 標準変分法および動的平均場法との接続について論じる。 アプローチの有効性は XX Heisenberg spin-$\frac{1}{2}$ chain model における励起の力学への応用によって校正され、図示される。

The maximum-entropy principle (Max-Ent) is a valuable and extensively used tool in statistical mechanics and quantum information theory. It provides a method for inferring the state of a system by utilizing a reduced set of parameters associated with measurable quantities. However, the computational cost of employing Max-Ent projections in simulations of quantum many-body systems is a significant drawback, primarily due to the computational cost of evaluating these projections. In this work, a novel approach for estimating Max-Ent projections is proposed. The approach involves replacing the expensive Max-Ent induced local geometry, represented by the Kubo-Mori-Bogoliubov (KMB) scalar product, with a less computationally demanding geometry. Specifically, a new local geometry is defined in terms of the quantum analog of the covariance scalar product for classical random variables. Relations between induced distances and projections for both products are explored. Connections with standard variational and dynamical Mean-Field approaches are discussed. The effectiveness of the approach is calibrated and illustrated by its application to the dynamic of excitations in a XX Heisenberg spin-$\frac{1}{2}$ chain model.
翻訳日:2023-07-18 11:58:18 公開日:2023-07-17
# SoCFPGAにおける検出分割ネットワークを用いた自動運転車の認識システムの実装

Implementation of a perception system for autonomous vehicles using a detection-segmentation network in SoC FPGA ( http://arxiv.org/abs/2307.08682v1 )

ライセンス: Link先を確認
Maciej Baczmanski, Mateusz Wasala, Tomasz Kryjak(参考訳) 自動運転車の認識と制御システムは、科学・産業研究の活発な領域である。 これらのソリューションは、異なる道路条件における障害物やその他の環境要素を認識する際の高い効率、リアルタイム能力、エネルギー効率によって特徴づけられるべきである。 このような機能を実現するには、適切なアルゴリズムと適切なコンピューティングプラットフォームが必要です。 本稿では,MultiTaskV3検出セグメンテーションネットワークを,単一アーキテクチャ内で両方の機能を実現する知覚システムの基礎として利用した。 適切に訓練され、定量化され、amd xilinx kria kv260 vision ai embedded platformに実装された。 この装置を使用することで、計算の並列化と高速化が可能となった。 さらに、システム全体では、cpuベースの実装(最低55ワットの弱いcpuと比較して平均5ワット)に比べて消費電力が少なく、プラットフォームの小さなサイズ(119mm x 140mm x 36mm)では、利用可能なスペースが限られているデバイスで使用することが可能である。 また、オブジェクト検出のmAP(平均精度)の97%以上、画像分割のmIoU(平均結合)の90%以上を達成している。 この記事では、提案されたソリューションを模擬都市でテストするために使用されたMecanum wheel vehicleの設計について詳述する。

Perception and control systems for autonomous vehicles are an active area of scientific and industrial research. These solutions should be characterised by high efficiency in recognising obstacles and other environmental elements in different road conditions, real-time capability, and energy efficiency. Achieving such functionality requires an appropriate algorithm and a suitable computing platform. In this paper, we have used the MultiTaskV3 detection-segmentation network as the basis for a perception system that can perform both functionalities within a single architecture. It was appropriately trained, quantised, and implemented on the AMD Xilinx Kria KV260 Vision AI embedded platform. By using this device, it was possible to parallelise and accelerate the computations. Furthermore, the whole system consumes relatively little power compared to a CPU-based implementation (an average of 5 watts, compared to the minimum of 55 watts for weaker CPUs, and the small size (119mm x 140mm x 36mm) of the platform allows it to be used in devices where the amount of space available is limited. It also achieves an accuracy higher than 97% of the mAP (mean average precision) for object detection and above 90% of the mIoU (mean intersection over union) for image segmentation. The article also details the design of the Mecanum wheel vehicle, which was used to test the proposed solution in a mock-up city.
翻訳日:2023-07-18 11:58:00 公開日:2023-07-17
# モデルは自身を説明するか? 自然言語説明の非現実的シミュラビリティ

Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations ( http://arxiv.org/abs/2307.08678v1 )

ライセンス: Link先を確認
Yanda Chen, Ruiqi Zhong, Narutatsu Ri, Chen Zhao, He He, Jacob Steinhardt, Zhou Yu, Kathleen McKeown(参考訳) 大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。 しかし、LLMは自己を説明するだろうか? LLMがさまざまな入力を処理する方法のメンタルモデル構築を支援することができるだろうか? これらの質問に答えるために、自然言語説明の$\textbf{counterfactual simulatability}$を評価することを提案する。 例えば、モデルが入力された質問 "Can eagles fly?" に対して "yes" と答えると、「すべての鳥は飛ぶことができる」という説明で、人間はそれが反現実的な「Can penguins fly? 説明が正確であれば、モデルの答えは人間の期待と一致すべきである。 反事実的同化可能性に基づく2つの指標(精度と一般化)を実装した。 LLMを使って多種多様なカウンターファクトを自動生成する。 次に、これらの指標を用いて、マルチホップ事実推論と報酬モデリングの2つのタスクにおいて、最先端のLCM(例えば、GPT-4)を評価する。 LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。 したがって、ヒトの承認(例えばRLHF)を自然に最適化することは十分ではない。

Large language models (LLMs) are trained to imitate humans to explain human decisions. However, do LLMs explain themselves? Can they help humans build mental models of how LLMs process different inputs? To answer these questions, we propose to evaluate $\textbf{counterfactual simulatability}$ of natural language explanations: whether an explanation can enable humans to precisely infer the model's outputs on diverse counterfactuals of the explained input. For example, if a model answers "yes" to the input question "Can eagles fly?" with the explanation "all birds can fly", then humans would infer from the explanation that it would also answer "yes" to the counterfactual input "Can penguins fly?". If the explanation is precise, then the model's answer should match humans' expectations. We implemented two metrics based on counterfactual simulatability: precision and generality. We generated diverse counterfactuals automatically using LLMs. We then used these metrics to evaluate state-of-the-art LLMs (e.g., GPT-4) on two tasks: multi-hop factual reasoning and reward modeling. We found that LLM's explanations have low precision and that precision does not correlate with plausibility. Therefore, naively optimizing human approvals (e.g., RLHF) may not be a sufficient solution.
翻訳日:2023-07-18 11:57:40 公開日:2023-07-17
# TableGPT:テーブル,自然言語,コマンドをひとつのGPTに統合する

TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT ( http://arxiv.org/abs/2307.08674v1 )

ライセンス: Link先を確認
Liangyu Zha, Junlin Zhou, Liyao Li, Rui Wang, Qingyi Huang, Saisai Yang, Jing Yuan, Changbao Su, Xiang Li, Aofeng Su, Tao Zhang, Chen Zhou, Kaizhe Shou, Miao Wang, Wufang Zhu, Guoshan Lu, Chao Ye, Yali Ye, Wentao Ye, Yiming Zhang, Xinglong Deng, Jie Xu, Haobo Wang, Gang Chen, Junbo Zhao(参考訳) テーブルは現実世界のデータベースで広く使われており、人間が分析し操作するのにかなりの時間と労力を要する。 大規模言語モデル(llm)の進歩により、自然言語入力を使用してテーブルとの対話が可能になり、この機能を現実に近いものにした。 本稿では,外部関数コマンドを用いたテーブル上でのLLMの理解と操作を可能にする,統合された微調整フレームワークTableGPTを提案する。 テーブルとシームレスに対話する機能を導入し、質問応答、データ操作(例えば、挿入、削除、クエリ、操作の変更)、データの可視化、分析レポート生成、自動予測など、幅広い機能を実現する。 TableGPTは、ユーザに対して、テーブルデータを活用することによって、利便性とアクセシビリティを提供することを目指している。 TableGPTの中核には、グローバルな表表表現という新しい概念があり、これはLLMがメタ情報以外のテーブル全体を包括的に理解できるようにするものである。 表とテキストの両モードでLLMを共同で訓練することで、テーブルGPTは表データの深い理解とテーブル上の複雑な操作を、チェーン・オブ・コマンドで行うことができる。 重要なのは、TableGPTは外部APIインターフェースに頼るのではなく、自己完結型のシステムという利点を提供します。 さらに、効率的なデータプロセスフロー、クエリ拒否(適切な場合)、プライベートデプロイメントをサポートし、ドメインデータの微調整とデータのプライバシの確保を可能にし、フレームワークの特定のユースケースへの適応性を高める。

Tables are prevalent in real-world databases, requiring significant time and effort for humans to analyze and manipulate. The advancements in large language models (LLMs) have made it possible to interact with tables using natural language input, bringing this capability closer to reality. In this paper, we present TableGPT, a unified fine-tuned framework that enables LLMs to understand and operate on tables using external functional commands. It introduces the capability to seamlessly interact with tables, enabling a wide range of functionalities such as question answering, data manipulation (e.g., insert, delete, query, and modify operations), data visualization, analysis report generation, and automated prediction. TableGPT aims to provide convenience and accessibility to users by empowering them to effortlessly leverage tabular data. At the core of TableGPT lies the novel concept of global tabular representations, which empowers LLMs to gain a comprehensive understanding of the entire table beyond meta-information. By jointly training LLMs on both table and text modalities, TableGPT achieves a deep understanding of tabular data and the ability to perform complex operations on tables through chain-of-command instructions. Importantly, TableGPT offers the advantage of being a self-contained system rather than relying on external API interfaces. Moreover, it supports efficient data process flow, query rejection (when appropriate) and private deployment, enabling faster domain data fine-tuning and ensuring data privacy, which enhances the framework's adaptability to specific use cases.
翻訳日:2023-07-18 11:57:20 公開日:2023-07-17
# cohortfinder: ロバストな機械学習モデルを実現するための、バイオメディカルイメージコホートのデータ駆動パーティショニングのためのオープンソースツール

CohortFinder: an open-source tool for data-driven partitioning of biomedical image cohorts to yield robust machine learning models ( http://arxiv.org/abs/2307.08673v1 )

ライセンス: Link先を確認
Fan Fan, Georgia Martinez, Thomas Desilvio, John Shin, Yijiang Chen, Bangchen Wang, Takaya Ozeki, Maxime W. Lafarge, Viktor H. Koelzer, Laura Barisoni, Anant Madabhushi, Satish E. Viswanath, Andrew Janowczyk(参考訳) バッチエフェクト(BE)とは、機械学習(ML)モデルの一般化性に悪影響を及ぼすことを示す生物学的変異に関連のない、データ収集における系統的な技術的差異を指す。 ここでは、データ駆動のコホートパーティショニングによるBEの緩和を目的としたオープンソースのツールであるCohortFinderをリリースする。 我々は、下流の医療画像処理タスクにおいて、CohortFinderがMLモデルの性能を向上させることを示す。 CohortFinderはCohortfinder.comで無料でダウンロードできる。

Batch effects (BEs) refer to systematic technical differences in data collection unrelated to biological variations whose noise is shown to negatively impact machine learning (ML) model generalizability. Here we release CohortFinder, an open-source tool aimed at mitigating BEs via data-driven cohort partitioning. We demonstrate CohortFinder improves ML model performance in downstream medical image processing tasks. CohortFinder is freely available for download at cohortfinder.com.
翻訳日:2023-07-18 11:56:55 公開日:2023-07-17
# ピアプロダクションプラットフォームにおけるコンテンツギャップ低減のためのレコメンダシステムの利用

Leveraging Recommender Systems to Reduce Content Gaps on Peer Production Platforms ( http://arxiv.org/abs/2307.08669v1 )

ライセンス: Link先を確認
Mo Houtti, Isaac Johnson, Loren Terveen(参考訳) wikipediaのようなピアプロダクションプラットフォームは、コンテンツのギャップに苦しむことが多い。 以前の研究によると、レコメンダシステムは、エディターを過度なトピックへと導くことで、この問題を解決するのに役立ちます。 しかし、このアプローチがより関連性の低いレコメンデーションをもたらすかどうかは不明であり、推奨項目への全体的な関与が減少する。 そこで我々はまず,WikipediaのタスクルーティングレコメンデーションシステムであるSuggestBotのオフライン分析(Study 1)を行い,その後3ヶ月の制御実験を行った(Study2)。 以上の結果から,記事のレコメンデーション率を著しく低下させることなく,その記事に対する作業の割合を増加させることができた。 論文発見プロセスの無視がいかに人為的に推奨を狭めるかなど、結果の意味について論じる。 この現象と 'filter bubbles'' の共通問題との間には,レコメンダシステムを利用するプラットフォームがどのように影響を受けやすいかを示すための類似点がある。

Peer production platforms like Wikipedia commonly suffer from content gaps. Prior research suggests recommender systems can help solve this problem, by guiding editors towards underrepresented topics. However, it remains unclear whether this approach would result in less relevant recommendations, leading to reduced overall engagement with recommended items. To answer this question, we first conducted offline analyses (Study 1) on SuggestBot, a task-routing recommender system for Wikipedia, then did a three-month controlled experiment (Study 2). Our results show that presenting users with articles from underrepresented topics increased the proportion of work done on those articles without significantly reducing overall recommendation uptake. We discuss the implications of our results, including how ignoring the article discovery process can artificially narrow recommendations. We draw parallels between this phenomenon and the common issue of ``filter bubbles'' to show how any platform that employs recommender systems is susceptible to it.
翻訳日:2023-07-18 11:56:46 公開日:2023-07-17
# 第四次畳み込みニューラルネットワークの現状と今後の方向性

Quaternion Convolutional Neural Networks: Current Advances and Future Directions ( http://arxiv.org/abs/2307.08663v1 )

ライセンス: Link先を確認
Gerardo Altamirano-Gomez and Carlos Gershenson(参考訳) 最初の応用以来、畳み込みニューラルネットワーク(CNN)はいくつかの領域で最先端の課題を解決してきた。 CNNは実数を用いて情報を表現する。 理論解析により、超複素数のような表現は実数よりも豊かな表現能力を得ることができ、ハミルトン積は内在的な相互関係を捉えることができる。 さらに,近年,第4次価値CNN(Quternion-Valued CNNs,QCNNs)が実値よりも少ないパラメータで同様の性能を達成できることが実験的に示されている。 本稿は,qcnnsの初期からの開発に携わる研究を凝縮する。 そこで本研究では,QCNNモデルの設計に使用されるビルディングブロックについて,現在のトレンドの概念的整理と分析を行う。 この概念体系に基づき,今後の研究の方向性を提案する。

Since their first applications, Convolutional Neural Networks (CNNs) have solved problems that have advanced the state-of-the-art in several domains. CNNs represent information using real numbers. Despite encouraging results, theoretical analysis shows that representations such as hyper-complex numbers can achieve richer representational capacities than real numbers, and that Hamilton products can capture intrinsic interchannel relationships. Moreover, in the last few years, experimental research has shown that Quaternion-Valued CNNs (QCNNs) can achieve similar performance with fewer parameters than their real-valued counterparts. This paper condenses research in the development of QCNNs from its very beginnings. We propose a conceptual organization of current trends and analyze the main building blocks used in the design of QCNN models. Based on this conceptual organization, we propose future directions of research.
翻訳日:2023-07-18 11:56:26 公開日:2023-07-17
# ニューラル画像圧縮:一般化、ロバスト性、スペクトルバイアス

Neural Image Compression: Generalization, Robustness, and Spectral Biases ( http://arxiv.org/abs/2307.08657v1 )

ライセンス: Link先を確認
Kelsey Lieberman, James Diffenderfer, Charles Godfrey, and Bhavya Kailkhura(参考訳) 近年のニューラルイメージ圧縮(NIC)の進歩は、従来のコーデックを上回り始めているモデルを生み出している。 このことが、現実世界のアプリケーションでNICを使うことに対する興奮の高まりにつながったが、どんな機械学習システムでも成功するためには、デプロイ時に見つからない分散シフトを一般化(かつ堅牢)する必要がある。 残念ながら、現在の研究では、実際の環境でNICのパフォーマンスを評価し、理解するための包括的なデータセットと情報ツールが欠けている。 この重要なギャップを埋めるために,まず,画像圧縮法の性能を評価するための総合ベンチマークスイートを提案する。 具体的には、人気のあるCLICとKodakベンチマークに15の汚職を導入することで、CLIC-CとKodak-Cを提供します。 次に,画像圧縮手法による誤差とOOD性能についてより深い知見を得るためのスペクトル刺激検査ツールを提案する。 次に、古典的コーデックといくつかのNICの変種との詳細な性能比較を行い、NICの強みと限界に対する現在の理解に挑戦する興味深い発見を明らかにする。 最後に、実験結果と理論解析を相関させ、NICのOOD性能とそのデータスペクトル特性への依存性を詳細に把握する。 我々のベンチマーク、スペクトル検査ツール、そして調査結果は、NICの現実的な採用にとって重要な橋渡しとなる。 私たちは、堅牢で一般化可能なNICメソッドの設計における今後の取り組みを推進したいと考えています。 コードとデータはhttps://github.com/klieberman/ood_nicで入手できる。

Recent neural image compression (NIC) advances have produced models which are starting to outperform traditional codecs. While this has led to growing excitement about using NIC in real-world applications, the successful adoption of any machine learning system in the wild requires it to generalize (and be robust) to unseen distribution shifts at deployment. Unfortunately, current research lacks comprehensive datasets and informative tools to evaluate and understand NIC performance in real-world settings. To bridge this crucial gap, first, this paper presents a comprehensive benchmark suite to evaluate the out-of-distribution (OOD) performance of image compression methods. Specifically, we provide CLIC-C and Kodak-C by introducing 15 corruptions to popular CLIC and Kodak benchmarks. Next, we propose spectrally inspired inspection tools to gain deeper insight into errors introduced by image compression methods as well as their OOD performance. We then carry out a detailed performance comparison of a classical codec with several NIC variants, revealing intriguing findings that challenge our current understanding of the strengths and limitations of NIC. Finally, we corroborate our empirical findings with theoretical analysis, providing an in-depth view of the OOD performance of NIC and its dependence on the spectral properties of the data. Our benchmarks, spectral inspection tools, and findings provide a crucial bridge to the real-world adoption of NIC. We hope that our work will propel future efforts in designing robust and generalizable NIC methods. Code and data will be made available at https://github.com/klieberman/ood_nic.
翻訳日:2023-07-18 11:56:15 公開日:2023-07-17
# 画像分類における拡散モデルビートgans

Diffusion Models Beat GANs on Image Classification ( http://arxiv.org/abs/2307.08702v1 )

ライセンス: Link先を確認
Soumik Mukhopadhyay, Matthew Gwilliam, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Srinidhi Hegde, Tianyi Zhou, Abhinav Shrivastava(参考訳) 多くの教師なし学習モデルは、生成的または識別的のいずれかのタスクの1つのファミリーに焦点を当てているが、同時に両方のタスクのファミリーに対応するために単一の事前学習段階を使用するモデルである統一表現学習者の可能性を探る。 拡散モデルを素数候補として同定する。 拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。 このようなモデルは、U-Netをトレーニングして、ノイズを反復的に予測し、除去し、結果として得られるモデルは、高忠実で多様な、新しい画像を合成することができる。 u-netアーキテクチャは畳み込みベースのアーキテクチャであり、中間的特徴マップの形で様々な特徴表現を生成する。 本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。 本稿では,イメージネット分類タスクにおいて,これらの埋め込みを最適に抽出し,使用するための手法を検討する。 注意深い特徴選択とプーリングにより、拡散モデルは分類タスクにおけるBigBiGANのような生成的識別手法よりも優れることがわかった。 伝達学習システムにおける拡散モデルについて検討し,いくつかの微粒な視覚分類データセット上での性能について検討した。 これらの組込みと競合するアーキテクチャによって生成された組込みと、分類タスクの事前トレーニングを比較した。

While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which uses a single pre-training stage to address both families of tasks simultaneously. We identify diffusion models as a prime candidate. Diffusion models have risen to prominence as a state-of-the-art method for image generation, denoising, inpainting, super-resolution, manipulation, etc. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high fidelity, diverse, novel images. The U-Net architecture, as a convolution-based architecture, generates a diverse set of feature representations in the form of intermediate feature maps. We present our findings that these embeddings are useful beyond the noise prediction task, as they contain discriminative information and can also be leveraged for classification. We explore optimal methods for extracting and using these embeddings for classification tasks, demonstrating promising results on the ImageNet classification task. We find that with careful feature selection and pooling, diffusion models outperform comparable generative-discriminative methods such as BigBiGAN for classification tasks. We investigate diffusion models in the transfer learning regime, examining their performance on several fine-grained visual classification datasets. We compare these embeddings to those generated by competing architectures and pre-trainings for classification tasks.
翻訳日:2023-07-18 11:49:34 公開日:2023-07-17
# AlpaGasus: 少ないデータでより良いAlpacaをトレーニングする

AlpaGasus: Training A Better Alpaca with Fewer Data ( http://arxiv.org/abs/2307.08701v1 )

ライセンス: Link先を確認
Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin(参考訳) 大きな言語モデル~(llms)は教師付き命令/応答データに対する命令細分化(ift)を通じて命令追従能力を得る。 しかし、広く使われているIFTデータセット(例えば、アルパカの52kデータ)は驚くほど多くの低品質なインスタンスを含み、不正確または無関係な応答はIFTに誤解を与え、有害である。 本稿では,強力なLCM(ChatGPT)を用いた低品質データの自動識別と削除を行う,シンプルで効果的なデータ選択戦略を提案する。 この目的のために,52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを導入する。 AlpaGasus は、複数のテストセットで GPT-4 で評価されたオリジナルの Alpaca を著しく上回り、その 13B 変種は、テストタスクにおいてその教師 LLM (すなわち Text-Davinci-003) のパフォーマンスに 90 %$ で一致する。 さらに5.7倍高速なトレーニングも提供し、7Bの変種を80分(Alpacaの場合)から14分(Alpaca(7Bと同じ数のエポックに対してIFTを適用するが、4$\times$NVIDIA A100 (80GB) GPUを使用し、オリジナルのAlpaca設定とハイパーパラメータに従ってデータが少ない。 }. 全体として、AlpaGasusは命令チューニングデータに適用可能な新しいデータ中心のIFTパラダイムを実証し、より高速なトレーニングとより良い命令追従モデルをもたらす。 私たちのプロジェクトページは以下の通りである。

Large language models~(LLMs) obtain instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many low-quality instances with incorrect or irrelevant responses, which are misleading and detrimental to IFT. In this paper, we propose a simple and effective data selection strategy that automatically identifies and removes low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered from the 52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as evaluated by GPT-4 on multiple test sets and its 13B variant matches $>90\%$ performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also provides 5.7x faster training, reducing the training time for a 7B variant from 80 minutes (for Alpaca) to 14 minutes \footnote{We apply IFT for the same number of epochs as Alpaca(7B) but on fewer data, using 4$\times$NVIDIA A100 (80GB) GPUs and following the original Alpaca setting and hyperparameters.}. Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be generally applied to instruction-tuning data, leading to faster training and better instruction-following models. Our project page is available at: \url{https://lichang-chen.github.io/AlpaGasus/}.
翻訳日:2023-07-18 11:49:12 公開日:2023-07-17
# 衛星の高速モデル推論とトレーニング

Fast model inference and training on-board of Satellites ( http://arxiv.org/abs/2307.08700v1 )

ライセンス: Link先を確認
V\'it R\r{u}\v{z}i\v{c}ka, Gonzalo Mateo-Garc\'ia, Chris Bridges, Chris Brunskill, Cormac Purcell, Nicolas Long\'ep\'e, Andrew Markham(参考訳) 衛星に搭載された人工知能は、データ伝送の要求を減らし、星座内のリアルタイムな意思決定と協調を可能にする可能性がある。 本研究は、D-OrbitのION SCV004衛星上に、RaVAEnと呼ばれる軽量の基礎モデルを展開する。 RaVAEnは、小さな画像タイルから圧縮された潜在ベクトルを生成する変分自動エンコーダ(VAE)である。 本研究では,衛星上でのravaenの信頼性を実証し,4.8x4.8 km$^2$領域のタイルに対して0.110sの符号化時間を達成する。 さらに,データの潜在表現を用いて,衛星上での高速少数ショットトレーニングも紹介する。 オンボードCPUと利用可能なマイリアッドビジョン処理ユニット(VPU)アクセラレータ上でのモデル配置を比較した。 私たちの知る限り、この研究はCubeSat上でマルチタスクモデルをデプロイし、機械学習モデルのオンボードトレーニングを初めて示したものです。

Artificial intelligence onboard satellites has the potential to reduce data transmission requirements, enable real-time decision-making and collaboration within constellations. This study deploys a lightweight foundational model called RaVAEn on D-Orbit's ION SCV004 satellite. RaVAEn is a variational auto-encoder (VAE) that generates compressed latent vectors from small image tiles, enabling several downstream tasks. In this work we demonstrate the reliable use of RaVAEn onboard a satellite, achieving an encoding time of 0.110s for tiles of a 4.8x4.8 km$^2$ area. In addition, we showcase fast few-shot training onboard a satellite using the latent representation of data. We compare the deployment of the model on the on-board CPU and on the available Myriad vision processing unit (VPU) accelerator. To our knowledge, this work shows for the first time the deployment of a multi-task model on-board a CubeSat and the on-board training of a machine learning model.
翻訳日:2023-07-18 11:48:41 公開日:2023-07-17
# pair then relation: pair-net for panoptic scene graph generation

Pair then Relation: Pair-Net for Panoptic Scene Graph Generation ( http://arxiv.org/abs/2307.08699v1 )

ライセンス: Link先を確認
Jinghao Wang, Zhengyu Wen, Xiangtai Li, Zujin Guo, Jingkang Yang, Ziwei Liu(参考訳) Panoptic Scene Graph(PSG)は、SGG(Scene Graph Generation)において、ボックスの代わりにパノスコープセグメンテーションを使用してより包括的なシーングラフ表現を作成することを目的とした課題である。 しかし、現在のPSG手法は性能が限られており、下流でのタスク開発を妨げかねない。 psg法を改善するために,現在のpsgモデルのボトルネックを深く分析し,従来のpsg法では無視されていたオブジェクト間リコールが重要な要因であることを確認した。 Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。 また、オブジェクトペアのスパース性も観察し、この知見を用いてPPN内の軽量マトリックスラーナを設計した。 広範なアブレーションと分析を通じて,本手法は強力なセグメンタベースラインを活用することで大幅に改善する。 特に,PSGのベンチマークでは,PSGFormerと比較して10%以上の絶対ゲインが得られた。 この記事のコードはhttps://github.com/king159/Pair-Net.comで公開されている。

Panoptic Scene Graph (PSG) is a challenging task in Scene Graph Generation (SGG) that aims to create a more comprehensive scene graph representation using panoptic segmentation instead of boxes. However, current PSG methods have limited performance, which can hinder downstream task development. To improve PSG methods, we conducted an in-depth analysis to identify the bottleneck of the current PSG models, finding that inter-object pair-wise recall is a crucial factor which was ignored by previous PSG methods. Based on this, we present a novel framework: Pair then Relation (Pair-Net), which uses a Pair Proposal Network (PPN) to learn and filter sparse pair-wise relationships between subjects and objects. We also observed the sparse nature of object pairs and used this insight to design a lightweight Matrix Learner within the PPN. Through extensive ablation and analysis, our approach significantly improves upon leveraging the strong segmenter baseline. Notably, our approach achieves new state-of-the-art results on the PSG benchmark, with over 10% absolute gains compared to PSGFormer. The code of this paper is publicly available at https://github.com/king159/Pair-Net.
翻訳日:2023-07-18 11:48:05 公開日:2023-07-17
# 潜在空間における流れマッチング

Flow Matching in Latent Space ( http://arxiv.org/abs/2307.08698v1 )

ライセンス: Link先を確認
Quan Dao, Hao Phung, Binh Nguyen, Anh Tran(参考訳) フローマッチングは、拡散モデルと比較して比較的訓練が容易でありながら、印象的な経験的性能を示す生成モデルを訓練する最近のフレームワークである。 その利点にもかかわらず、先行手法は高価な計算の課題に直面し、画素空間におけるオフザシェルフソルバの多くの機能評価を行う。 さらに, 近年, 潜伏型生成法は大きな成功を収めているが, このモデルタイプはいまだ発見されていない。 本研究では,事前訓練されたオートエンコーダの潜時空間にフローマッチングを適用し,高分解能画像合成のための計算効率とスケーラビリティを向上させることを提案する。 これにより、品質と柔軟性を維持しながら、制約のある計算リソースでのフローマッチングトレーニングが可能になる。 さらに,我々の研究は,ラベル条件付き画像生成,画像インパインティング,セマンティック・ツー・イメージ生成など条件付き生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。 大規模な実験を通じて,CelebA-HQ,FFHQ,LSUN Church & Bedroom,ImageNetなど,さまざまなデータセットにおける定量的および定性的な結果の有効性を示す。 また,再建した潜流分布と真のデータ分布とのワッサースタイン2距離を理論的に制御し,潜流マッチングの目的によって上界となることを示す。 私たちのコードはhttps://github.com/VinAIResearch/LFM.gitで公開されます。

Flow matching is a recent framework to train generative models that exhibits impressive empirical performance while being relatively easier to train compared with diffusion-based models. Despite its advantageous properties, prior methods still face the challenges of expensive computing and a large number of function evaluations of off-the-shelf solvers in the pixel space. Furthermore, although latent-based generative methods have shown great success in recent years, this particular model type remains underexplored in this area. In this work, we propose to apply flow matching in the latent spaces of pretrained autoencoders, which offers improved computational efficiency and scalability for high-resolution image synthesis. This enables flow-matching training on constrained computational resources while maintaining their quality and flexibility. Additionally, our work stands as a pioneering contribution in the integration of various conditions into flow matching for conditional generation tasks, including label-conditioned image generation, image inpainting, and semantic-to-image generation. Through extensive experiments, our approach demonstrates its effectiveness in both quantitative and qualitative results on various datasets, such as CelebA-HQ, FFHQ, LSUN Church & Bedroom, and ImageNet. We also provide a theoretical control of the Wasserstein-2 distance between the reconstructed latent flow distribution and true data distribution, showing it is upper-bounded by the latent flow matching objective. Our code will be available at https://github.com/VinAIResearch/LFM.git.
翻訳日:2023-07-18 11:47:30 公開日:2023-07-17
# ニューラルビデオ深度安定化装置

Neural Video Depth Stabilizer ( http://arxiv.org/abs/2307.08695v1 )

ライセンス: Link先を確認
Yiran Wang, Min Shi, Jiaqi Li, Zihao Huang, Zhiguo Cao, Jianming Zhang, Ke Xian, Guosheng Lin(参考訳) ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。 幾何的制約と再射影制約を用いて、単像深度モデルを微調整することで、時間的一貫性を実現する方法もある。 もうひとつのアプローチは、データから時間的一貫性を強制する方法を学ぶことだが、十分に設計されたモデルと十分なビデオ深度データが必要である。 これらの課題に対処するため,NVDS(Neural Video Depth Stabilizer)と呼ばれるプラグイン・アンド・プレイ・フレームワークを提案する。 また,200万フレーム以上のビデオ14,203本からなる大規模データセットであるvideo depth in the wild (vdw)を導入することで,我々の知識の中で最大の自然シーンビデオ深度データセットとなる。 提案手法をVDWデータセットと2つの公開ベンチマークで評価し,従来の手法と比較して,一貫性,精度,効率性を著しく向上したことを示す。 私たちの研究は、堅固なベースラインとして機能し、学習ベースのビデオ深度モデルのためのデータ基盤を提供します。 今後の研究のためにデータセットとコードをリリースします。

Video depth estimation aims to infer temporally consistent depth. Some methods achieve temporal consistency by finetuning a single-image depth model during test time using geometry and re-projection constraints, which is inefficient and not robust. An alternative approach is to learn how to enforce temporal consistency from data, but this requires well-designed models and sufficient video depth data. To address these challenges, we propose a plug-and-play framework called Neural Video Depth Stabilizer (NVDS) that stabilizes inconsistent depth estimations and can be applied to different single-image depth models without extra effort. We also introduce a large-scale dataset, Video Depth in the Wild (VDW), which consists of 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset to our knowledge. We evaluate our method on the VDW dataset as well as two public benchmarks and demonstrate significant improvements in consistency, accuracy, and efficiency compared to previous approaches. Our work serves as a solid baseline and provides a data foundation for learning-based video depth models. We will release our dataset and code for future research.
翻訳日:2023-07-18 11:47:06 公開日:2023-07-17
# SEMI-DiffusionInst:半導体欠陥分類とセグメンテーションのための拡散モデルに基づくアプローチ

SEMI-DiffusionInst: A Diffusion Model Based Approach for Semiconductor Defect Classification and Segmentation ( http://arxiv.org/abs/2307.08693v1 )

ライセンス: Link先を確認
Vic De Ridder, Bappaditya Dey, Sandip Halder, Bartel Van Waeyenberge(参考訳) ムーアの法則の継続的進行に伴い、集積回路(IC)デバイスの複雑さも増大している。 走査型電子顕微鏡(sem)画像ベースの広範な欠陥検査と正確な計測抽出は、先進ノード(2nm以上)技術における2つの大きな課題である。 ディープラーニング(DL)アルゴリズムに基づくコンピュータビジョンアプローチは、ここ数年で半導体欠陥検査で人気を博した。 本研究では,新しい半導体欠陥検査フレームワークであるsemi-diffusioninstについて検討し,従来のフレームワークと比較した。 著者の知る限り、この研究は拡散モデルを用いて半導体欠陥パターンを正確に検出し、正確にセグメント化する最初の実証である。 バックボーンとしての異なる特徴抽出ネットワークとデータサンプリング戦略を,精度と計算効率のバランスの取れたトレードオフを達成するために検討した。 提案手法は,mAP全体の従来の成果よりも優れており,ほぼすべての欠陥クラス(クラスAP)に対して比較的良好あるいは同等に動作する。 SEMI-DiffusionInstモデルのバウンディングボックスとセグメンテーションmAPは3.83%と2.10%改善されている。 個々の欠陥タイプのうち, 両欠陥タイプの検出タスクにおいて, 線崩壊精度と薄橋欠陥を約15%改善した。 また, 推定ハイパーパラメータをチューニングすることにより, モデル精度を損なうことなく, 推定時間を大幅に改善できることが示されている。 最後に,これらを克服するための一定の限界と今後の作業戦略について論じる。

With continuous progression of Moore's Law, integrated circuit (IC) device complexity is also increasing. Scanning Electron Microscope (SEM) image based extensive defect inspection and accurate metrology extraction are two main challenges in advanced node (2 nm and beyond) technology. Deep learning (DL) algorithm based computer vision approaches gained popularity in semiconductor defect inspection over last few years. In this research work, a new semiconductor defect inspection framework "SEMI-DiffusionInst" is investigated and compared to previous frameworks. To the best of the authors' knowledge, this work is the first demonstration to accurately detect and precisely segment semiconductor defect patterns by using a diffusion model. Different feature extractor networks as backbones and data sampling strategies are investigated towards achieving a balanced trade-off between precision and computing efficiency. Our proposed approach outperforms previous work on overall mAP and performs comparatively better or as per for almost all defect classes (per class APs). The bounding box and segmentation mAPs achieved by the proposed SEMI-DiffusionInst model are improved by 3.83% and 2.10%,respectively. Among individual defect types, precision on line collapse and thin bridge defects are improved approximately 15% on detection task for both defect types. It has also been shown that by tuning inference hyperparameters, inference time can be improved significantly without compromising model precision. Finally, certain limitations and future work strategy to overcome them are discussed.
翻訳日:2023-07-18 11:46:46 公開日:2023-07-17
# マイクログリッドエネルギー管理のための多目的強化学習フレームワーク

A Multiobjective Reinforcement Learning Framework for Microgrid Energy Management ( http://arxiv.org/abs/2307.08692v1 )

ライセンス: Link先を確認
M. Vivienne Liu, Patrick M. Reed, David Gold, Garret Quist, and C. Lindsay Anderson(参考訳) マイクログリッド(MG)の出現は、気候変動による課題を緩和し、電力グリッドの脱炭と分散化のための有望な解決策となった。 しかし、MGオペレーションは、しばしば異なる利害関係者の利益を表す複数の目的を考慮し、潜在的に複雑な衝突を引き起こす。 本稿では,高次元目標空間を探索し,矛盾する目標間のトレードオフを明らかにする多目的強化学習フレームワークを提案する。 このフレームワークは外因性情報を利用し、強化学習のデータ駆動型の性質を活かし、長期的な予測や基礎となる不確実性分布の知識を必要とせずにパラメトリックポリシーのトレーニングを可能にする。 トレーニングされたポリシーは、多様で適応的で協調的な行動を示し、情報利用のダイナミクスに関する解釈可能な洞察を提供するという追加の利益を提供する。 この枠組みはコーネル大学MG(CU-MG)に導入し,その有効性を評価する。 その結果、現状の運用と比較して考慮されるすべての目的においてパフォーマンスが向上し、複雑な運用上のトレードオフをナビゲートする柔軟性が向上した。

The emergence of microgrids (MGs) has provided a promising solution for decarbonizing and decentralizing the power grid, mitigating the challenges posed by climate change. However, MG operations often involve considering multiple objectives that represent the interests of different stakeholders, leading to potentially complex conflicts. To tackle this issue, we propose a novel multi-objective reinforcement learning framework that explores the high-dimensional objective space and uncovers the tradeoffs between conflicting objectives. This framework leverages exogenous information and capitalizes on the data-driven nature of reinforcement learning, enabling the training of a parametric policy without the need for long-term forecasts or knowledge of the underlying uncertainty distribution. The trained policies exhibit diverse, adaptive, and coordinative behaviors with the added benefit of providing interpretable insights on the dynamics of their information use. We employ this framework on the Cornell University MG (CU-MG), which is a combined heat and power MG, to evaluate its effectiveness. The results demonstrate performance improvements in all objectives considered compared to the status quo operations and offer more flexibility in navigating complex operational tradeoffs.
翻訳日:2023-07-18 11:46:24 公開日:2023-07-17
# FlashAttention-2: 並列処理と作業分割を高速化する

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning ( http://arxiv.org/abs/2307.08691v1 )

ライセンス: Link先を確認
Tri Dao(参考訳) トランスフォーマーを長いシーケンス長にスケールすることは、ここ数年で大きな問題であり、言語モデリングと高解像度画像理解のパフォーマンス向上と、コード、オーディオ、ビデオ生成における新しいアプリケーションのアンロックを約束している。 注意層は、実行時とメモリがシーケンス長で2次的に増加するため、長いシーケンスへのスケーリングにおける主要なボトルネックである。 FlashAttentionは非対称のGPUメモリ階層を利用して、最適化されたベースラインと比較してメモリの大幅な節約(2-4$\times$)と実行時の高速化を実現している。 しかし、FlashAttentionはGEMM(Optimized matrix-multiply)操作ほど高速ではないため、理論上の最大FLOP/sの25~40倍にしか達しない。 この非効率性は、異なるスレッドブロックとGPU上のワープ間の最適な作業分割によるものであり、低占有率または不必要な共有メモリの読み取り/書き込みを引き起こす。 これらの問題に対処するために、より優れた作業分割を備えたFlashAttention-2を提案する。 特に,(1)非マルチFLOPの数を減少させるためにアルゴリズムを微調整し,(2)単一ヘッドでも注目計算を並列化して,異なるスレッドブロックにまたがって占有率を増大させ,(3)各スレッドブロック内でワープ間の作業を分散し,共有メモリによる通信を減らす。 これらはFlashAttentionと比較して約2$\times$スピードアップし、A100上の理論最大FLOP/sの50-73\%に達し、GEMM操作の効率に近づいた。 GPTスタイルのモデルをエンドツーエンドでトレーニングする場合、FlashAttention-2はA100 GPU当たり最大225 TFLOP/s(モデルFLOPs利用率72\%)のトレーニング速度に達することを実証的に検証した。

Scaling Transformers to longer sequence lengths has been a major problem in the last several years, promising to improve performance in language modeling and high-resolution image understanding, as well as to unlock new applications in code, audio, and video generation. The attention layer is the main bottleneck in scaling to longer sequences, as its runtime and memory increase quadratically in the sequence length. FlashAttention exploits the asymmetric GPU memory hierarchy to bring significant memory saving (linear instead of quadratic) and runtime speedup (2-4$\times$ compared to optimized baselines), with no approximation. However, FlashAttention is still not nearly as fast as optimized matrix-multiply (GEMM) operations, reaching only 25-40\% of the theoretical maximum FLOPs/s. We observe that the inefficiency is due to suboptimal work partitioning between different thread blocks and warps on the GPU, causing either low-occupancy or unnecessary shared memory reads/writes. We propose FlashAttention-2, with better work partitioning to address these issues. In particular, we (1) tweak the algorithm to reduce the number of non-matmul FLOPs (2) parallelize the attention computation, even for a single head, across different thread blocks to increase occupancy, and (3) within each thread block, distribute the work between warps to reduce communication through shared memory. These yield around 2$\times$ speedup compared to FlashAttention, reaching 50-73\% of the theoretical maximum FLOPs/s on A100 and getting close to the efficiency of GEMM operations. We empirically validate that when used end-to-end to train GPT-style models, FlashAttention-2 reaches training speed of up to 225 TFLOPs/s per A100 GPU (72\% model FLOPs utilization).
翻訳日:2023-07-18 11:46:03 公開日:2023-07-17
# COLLIE:制約付きテキスト生成タスクの体系的構築

COLLIE: Systematic Construction of Constrained Text Generation Tasks ( http://arxiv.org/abs/2307.08689v1 )

ライセンス: Link先を確認
Shunyu Yao, Howard Chen, Austin W. Hanjie, Runzhe Yang, Karthik Narasimhan(参考訳) 制約下でのテキスト生成は自然言語処理への関心が高まり、特に大規模言語モデルの能力が急速に向上した。 しかしながら、制約付き生成のための既存のベンチマークは、gpt-4のような最先端モデルでは容易であることが証明された固定制約型(例えば、特定の単語を含む文の生成)に焦点を当てている。 多様な世代レベル(単語、文、段落、節)とモデリングの課題(例えば、言語理解、論理的推論、計数、意味計画)を持つ、リッチで構成的な制約の仕様を可能にする文法ベースのフレームワークであるcolieを提案する。 また,制約構造と生テキストコーパスを付与したタスクインスタンスの自動抽出ツールを開発した。 COLLIEを用いて、13の制約構造からなる2080のインスタンスでCOLLIE-v1データセットをコンパイルする。 最新の5つの言語モデルで系統的な実験を行い,その性能を分析し,欠点を明らかにする。 COLLIEは拡張可能で軽量なように設計されており、コミュニティが将来より複雑な制約や評価を開発するのに役立つことを願っています。

Text generation under constraints have seen increasing interests in natural language processing, especially with the rapidly improving capabilities of large language models. However, existing benchmarks for constrained generation usually focus on fixed constraint types (e.g.,generate a sentence containing certain words) that have proved to be easy for state-of-the-art models like GPT-4. We present COLLIE, a grammar-based framework that allows the specification of rich, compositional constraints with diverse generation levels (word, sentence, paragraph, passage) and modeling challenges (e.g.,language understanding, logical reasoning, counting, semantic planning). We also develop tools for automatic extraction of task instances given a constraint structure and a raw text corpus. Using COLLIE, we compile the COLLIE-v1 dataset with 2080 instances comprising 13 constraint structures. We perform systematic experiments across five state-of-the-art instruction-tuned language models and analyze their performances to reveal shortcomings. COLLIE is designed to be extensible and lightweight, and we hope the community finds it useful to develop more complex constraints and evaluations in the future.
翻訳日:2023-07-18 11:45:25 公開日:2023-07-17