このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230622となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子機械学習フレームワークにおけるバグの実証的研究 An Empirical Study of Bugs in Quantum Machine Learning Frameworks ( http://arxiv.org/abs/2306.06369v3 ) ライセンス: Link先を確認 | Pengzhan Zhao, Xiongfei Wu, Junjie Luo, Zhuo Li, Jianjun Zhao | (参考訳) 量子コンピューティングは機械学習(ML)分野の有望な領域として登場し、古典的な分野よりも大きな計算上の優位性を提供している。
量子機械学習(QML)への関心が高まっているため、このようなQMLプログラムを開発するためのソフトウェアプラットフォームの正確性と堅牢性を保証することが重要である。
このようなプラットフォームの信頼性を確保するための必要なステップは、彼らが通常抱えるバグを理解することです。
このニーズに対処するため,本論文はqmlフレームワークにおけるバグに関する最初の包括的な研究を行う。
9つの人気のあるQMLフレームワークの22のオープンソースリポジトリから収集された391の実際のバグを調査した。
私たちはそれを見つけ
1) バグの28%は,不正なユニタリ行列の実装,検出と防止のための専用アプローチの要求など,量子固有である。
2)QMLプラットフォームにおける5つの症状と9つの根本原因の分類を手作業で抽出した。
3) QMLフレームワーク開発者には,4つの重要な課題を要約した。
その結果、研究者はQMLフレームワークの品質を保証するための洞察を与え、QMLフレームワーク開発者がコード品質を改善するための実用的な提案をいくつか提示した。 Quantum computing has emerged as a promising domain for the machine learning (ML) area, offering significant computational advantages over classical counterparts. With the growing interest in quantum machine learning (QML), ensuring the correctness and robustness of software platforms to develop such QML programs is critical. A necessary step for ensuring the reliability of such platforms is to understand the bugs they typically suffer from. To address this need, this paper presents the first comprehensive study of bugs in QML frameworks. We inspect 391 real-world bugs collected from 22 open-source repositories of nine popular QML frameworks. We find that 1) 28% of the bugs are quantum-specific, such as erroneous unitary matrix implementation, calling for dedicated approaches to find and prevent them; 2) We manually distilled a taxonomy of five symptoms and nine root cause of bugs in QML platforms; 3) We summarized four critical challenges for QML framework developers. The study results provide researchers with insights into how to ensure QML framework quality and present several actionable suggestions for QML framework developers to improve their code quality. | 翻訳日:2023-10-24 03:55:15 公開日:2023-06-22 |
# 運用技術環境における安全・安全テストのためのモデルベースフレームワーク A Model Based Framework for Testing Safety and Security in Operational Technology Environments ( http://arxiv.org/abs/2306.13115v1 ) ライセンス: Link先を確認 | Mukund Bhole, Wolfgang Kastner, Thilo Sauter | (参考訳) 今日の産業制御システムは、敵が情報技術側からセキュリティ攻撃面を悪用できるように密結合されたコンポーネントで構成されており、そのため、運用技術レベルの自動化デバイスにアクセスして安全機能を損なうことができる。
これらの懸念を明らかにするため,テスト対象のシステムの安全性と安全性を解析し,そのコンポーネントを保護し,システム全体の品質と効率を向上させるための有望な手法として,モデルベースのテスト手法を提案する。
基盤となるフレームワークの構造は、運用技術環境のテストにおいて重要な要素に従って、4つの部分に分けられる。
最初のステップとして、本論文では、想定されるフレームワークの構成要素について述べる。
システムモデルは攻撃面を概観できるが、テストの基礎と緩和戦略の推奨は、既存の脆弱性データベースの組み合わせによるプロセス固有の安全性とセキュリティ標準手順に基づいている。 Todays industrial control systems consist of tightly coupled components allowing adversaries to exploit security attack surfaces from the information technology side, and, thus, also get access to automation devices residing at the operational technology level to compromise their safety functions. To identify these concerns, we propose a model-based testing approach which we consider a promising way to analyze the safety and security behavior of a system under test providing means to protect its components and to increase the quality and efficiency of the overall system. The structure of the underlying framework is divided into four parts, according to the critical factors in testing of operational technology environments. As a first step, this paper describes the ingredients of the envisioned framework. A system model allows to overview possible attack surfaces, while the foundations of testing and the recommendation of mitigation strategies will be based on process-specific safety and security standard procedures with the combination of existing vulnerability databases. | 翻訳日:2023-10-23 19:06:58 公開日:2023-06-22 |
# DAT: データ駆動アプリケーションのためのデータアーキテクチャモデリングツール DAT: Data Architecture Modeling Tool for Data-Driven Applications ( http://arxiv.org/abs/2306.12182v2 ) ライセンス: Link先を確認 | Moamin Abughazala, Henry Muccini, Mohammad Sharaf | (参考訳) データ駆動組織にとって、データは成功の鍵であり、それを管理することが最も難しい課題だと考えられている。
データアーキテクチャ(da)は、ビジネスニーズを満たすデータの記述、収集、保存、処理、分析に焦点を当てます。
このツールのデモペーパーでは、データアーキテクト、データエンジニア、その他の利害関係者がシステムを通してデータがどのように流れるかを記述するためのモデル駆動エンジニアリングツールdatを紹介し、iotアプリケーションのためのデータアーキテクチャに関する時間と労力を節約するデータ管理のための青写真を提供する。
5つのケーススタディをモデル化し,表現力と使いやすさのフィードバックを2社,6人以上の研究者,ソフトウェアアーキテクチャコースの18人の大学生から受け取り,評価した。 Data is the key to success for any Data-Driven Organization, and managing it is considered the most challenging task. Data Architecture (DA) focuses on describing, collecting, storing, processing, and analyzing the data to meet business needs. In this tool demo paper, we present the DAT, a model-driven engineering tool enabling data architects, data engineers, and other stakeholders to describe how data flows through the system and provides a blueprint for managing data that saves time and effort dedicated to Data Architectures for IoT applications. We evaluated this work by modeling five case studies, receiving expressiveness and ease of use feedback from two companies, more than six researchers, and eighteen undergraduate students from the software architecture course | 翻訳日:2023-10-23 19:05:52 公開日:2023-06-22 |
# データ透かしを用いた集合メンバ推論攻撃 Set-Membership Inference Attacks using Data Watermarking ( http://arxiv.org/abs/2307.15067v1 ) ライセンス: Link先を確認 | Mike Laszkiewicz, Denis Lukovnikov, Johannes Lederer, Asja Fischer | (参考訳) 本研究では,深部画像透かしを用いた生成モデルに対する集合メンバ推論攻撃を提案する。
特に,生成モデルからの条件付サンプリングは,訓練データの一部に注入された透かしを明らかにすることができることを示す。
提案手法は,生成モデルの学習における画像データの非コンセンサス利用を検出するための原則的手法であることを示す。 In this work, we propose a set-membership inference attack for generative models using deep image watermarking techniques. In particular, we demonstrate how conditional sampling from a generative model can reveal the watermark that was injected into parts of the training data. Our empirical results demonstrate that the proposed watermarking technique is a principled approach for detecting the non-consensual use of image data in training generative models. | 翻訳日:2023-10-23 16:11:36 公開日:2023-06-22 |
# \nu-Flows:条件ニュートリノ回帰 \nu-Flows: Conditional Neutrino Regression ( http://arxiv.org/abs/2207.00664v7 ) ライセンス: Link先を確認 | Matthew Leigh, John Andrew Raine, Knut Zoch, Tobias Golling | (参考訳) 我々は,高エネルギーコライダー実験におけるニュートリノキネマティクスの可能性を制限する新しい手法である$\nu$-Flowsを,条件付き正規化フローとディープ・インバーチブルニューラルネットワークを用いて提案する。
この方法は、通常自由パラメータとして残されるフルニュートリノ運動量の回復を可能にし、与えられた事象の観測条件下でニュートリノ値のサンプリングを可能にする。
シミュレーションされた半レプトニックな$t\bar{t}$イベントに適用することで,$\nu$-flowsの成功を実証し,特に縦方向座標において,より正確な運動量再構成につながることを示した。
また, ジェットアソシエーションの下流タスクでは, 従来の手法と比較して最大1.41倍の改善が期待できることを示した。 We present $\nu$-Flows, a novel method for restricting the likelihood space of neutrino kinematics in high energy collider experiments using conditional normalizing flows and deep invertible neural networks. This method allows the recovery of the full neutrino momentum which is usually left as a free parameter and permits one to sample neutrino values under a learned conditional likelihood given event observations. We demonstrate the success of $\nu$-Flows in a case study by applying it to simulated semileptonic $t\bar{t}$ events and show that it can lead to more accurate momentum reconstruction, particularly of the longitudinal coordinate. We also show that this has direct benefits in a downstream task of jet association, leading to an improvement of up to a factor of 1.41 compared to conventional methods. | 翻訳日:2023-07-23 12:35:35 公開日:2023-06-22 |
# Noor-Ghateh:ハディスドメインにおけるアラビア語単語セグメンタ評価のためのベンチマークデータセット Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain ( http://arxiv.org/abs/2307.09630v1 ) ライセンス: Link先を確認 | Huda AlShuhayeb, Behrouz Minaei-Bidgoli, Mohammad E. Shenassa, Sayyed-Ali Hossayni | (参考訳) アラビア語には多くの複雑で豊かな形態的微妙な特徴があり、伝統的なアラビア語のテキスト、特に歴史的・宗教的文脈を分析し、テキストの意味を理解するのに非常に有用である。
語彙分離とは、単語を根や接尾辞などの別の部分に分けることを意味する。
形態的データセットでは、ラベルの多様性とデータサンプルの数によって、形態学的手法を評価するのに役立つ。
本稿では、専門家がラベル付けした『シャリア・アリラム書』から約223,690語を含むアラビア語単語を分離する手法を評価するためのベンチマークデータセットを提案する。
単語の量や種類について言えば、このデータセットは他の既存のデータセットよりも優れており、我々が知る限り、アラビア語のhadithドメインのテキストは存在しない。
データセットを評価するため,Farasa,Camel,Madamira,ALPなどの異なる手法をデータセットに適用し,アノテーションの品質を4つの評価手法で報告した。 There are many complex and rich morphological subtleties in the Arabic language, which are very useful when analyzing traditional Arabic texts, especially in the historical and religious contexts, and help in understanding the meaning of the texts. Vocabulary separation means separating the word into different parts such as root and affix. In the morphological datasets, the variety of labels and the number of data samples helps to evaluate the morphological methods. In this paper, we present a benchmark data set for evaluating the methods of separating Arabic words which include about 223,690 words from the book of Sharia alIslam, which have been labeled by experts. In terms of the volume and variety of words, this dataset is superior to other existing data sets, and as far as we know, there are no Arabic Hadith Domain texts. To evaluate the dataset, we applied different methods such as Farasa, Camel, Madamira, and ALP to the dataset and we reported the annotation quality through four evaluation methods. | 翻訳日:2023-07-23 11:47:24 公開日:2023-06-22 |
# ヒト三色視におけるシュワルツ測度の役割 The Role of Schwartz Measures in Human Tri-Color Vision ( http://arxiv.org/abs/2307.05377v1 ) ライセンス: Link先を確認 | M. L. Sloan | (参考訳) The human tri-color vision process may be characterized as follows: 1. A requirement of three scalar quantities to fully define a color (for example, intensity, hue, and purity), with 2. These scalar measures linear in the intensity of the incident light, allowing in general any specific color to be duplicated by an additive mixture of light from three standardized (basis) colors, 3. The exception being that the spectral colors are unique, in that they cannot be duplicated by any positive mixture of other colors.
これらの特徴は、人間の色覚が色データ処理にシュワルツ測度を利用することを強く示唆している。
この仮説は検証される。
本論文では,この仮説の結果が測定データとよく一致していることを示す。 The human tri-color vision process may be characterized as follows: 1. A requirement of three scalar quantities to fully define a color (for example, intensity, hue, and purity), with 2. These scalar measures linear in the intensity of the incident light, allowing in general any specific color to be duplicated by an additive mixture of light from three standardized (basis) colors, 3. The exception being that the spectral colors are unique, in that they cannot be duplicated by any positive mixture of other colors. These characteristics strongly suggest that human color vision makes use of Schwartz measures in processing color data. This hypothesis is subject to test. In this brief paper, the results of this hypothesis are shown to be in good agreement with measured data. | 翻訳日:2023-07-16 03:42:48 公開日:2023-06-22 |
# フェデレーションmm波ネットワークの信頼性向上 -レーダ支援動的ブロック認識を用いた実用的なスケーラブルな解法- Enhancing Reliability in Federated mmWave Networks: A Practical and Scalable Solution using Radar-Aided Dynamic Blockage Recognition ( http://arxiv.org/abs/2307.06834v1 ) ライセンス: Link先を確認 | Mohammad Al-Quraan, Ahmed Zoha, Anthony Centeno, Haythem Bany Salameh, Sami Muhaidat, Muhammad Ali Imran, Lina Mohjazi | (参考訳) 本稿では,動的屋外環境におけるミリ波(mmwave)とテラヘルツ(thz)ネットワークサービスの信頼性を向上させる新しい手法を提案する。
これらの設定では、人間や車両のような動く障害物によって、視線(los)接続が簡単に中断される。
提案手法はradar(radar-assisted dynamic blockage recognition)と呼ばれ、レーダー計測と連合学習(fl)を利用して、ブロック状態と時間を同時に予測できる2重出力ニューラルネットワーク(nn)モデルを訓練する。
これにより、プロアクティブハンドオーバ(PHO)やビームスイッチングの最適点を決定することができ、5Gの新しい無線プロシージャによる遅延を低減し、高い品質のエクスペリエンス(QoE)を確保することができる。
このフレームワークはレーダーセンサーを使用して物体の動きを監視し追跡し、シーン分析や予測に有用なレンジ角とレンジ速度マップを生成する。
さらにflは、プライバシ保護、スケーラビリティ、知識共有といった追加のメリットも提供する。
このフレームワークはmmwaveチャンネル情報とレーダーデータを含む広範囲な実世界データセットを用いて評価される。
評価の結果,RaDaRはネットワーク信頼性を著しく向上し,PHOに対する平均成功率は94%であった。
さらに、RaDaRは高いスループットレベルを確保し、PHOレイテンシを最小限にすることで、優れたQoEを維持している。 This article introduces a new method to improve the dependability of millimeter-wave (mmWave) and terahertz (THz) network services in dynamic outdoor environments. In these settings, line-of-sight (LoS) connections are easily interrupted by moving obstacles like humans and vehicles. The proposed approach, coined as Radar-aided Dynamic blockage Recognition (RaDaR), leverages radar measurements and federated learning (FL) to train a dual-output neural network (NN) model capable of simultaneously predicting blockage status and time. This enables determining the optimal point for proactive handover (PHO) or beam switching, thereby reducing the latency introduced by 5G new radio procedures and ensuring high quality of experience (QoE). The framework employs radar sensors to monitor and track objects movement, generating range-angle and range-velocity maps that are useful for scene analysis and predictions. Moreover, FL provides additional benefits such as privacy protection, scalability, and knowledge sharing. The framework is assessed using an extensive real-world dataset comprising mmWave channel information and radar data. The evaluation results show that RaDaR substantially enhances network reliability, achieving an average success rate of 94% for PHO compared to existing reactive HO procedures that lack proactive blockage prediction. Additionally, RaDaR maintains a superior QoE by ensuring sustained high throughput levels and minimising PHO latency. | 翻訳日:2023-07-16 03:16:02 公開日:2023-06-22 |
# ディープラーニングによる慣性ナビゲーションの現状と今後の方向性 Inertial Navigation Meets Deep Learning: A Survey of Current Trends and Future Directions ( http://arxiv.org/abs/2307.00014v1 ) ライセンス: Link先を確認 | Nadav Cohen and Itzik Klein | (参考訳) 慣性センシングは、スマートフォンのような日々のデバイスから、自動運転車のような非常に複雑なデバイスまで、多くのアプリケーションやプラットフォームで使われている。
近年,慣性センシングの分野では,機械学習やディープラーニング技術の開発が著しく増加している。
これは、効率的なコンピューティングハードウェアの開発と、公開されているセンサデータのアクセシビリティが原因である。
これらのデータ駆動アプローチは、モデルベースのナビゲーションとセンサー融合アルゴリズムを強化するために使用される。
本稿では,これらの深層学習手法を詳細に検討する。
陸上,大気,海を含む各車両操作領域を別々に検討する。
各ドメインは、フィルタパラメータ学習に基づいて、純粋な慣性進歩と改善に分割される。
さらに,慣性センサの校正・復調のための深層学習手法についても検討した。
本稿では,これらの傾向と今後の方向性について論じる。
また,慣性航法と融合に埋め込まれた深層学習の効率化とさらなる研究を促進するために,よく用いられる手法の統計も提供する。 Inertial sensing is used in many applications and platforms, ranging from day-to-day devices such as smartphones to very complex ones such as autonomous vehicles. In recent years, the development of machine learning and deep learning techniques has increased significantly in the field of inertial sensing. This is due to the development of efficient computing hardware and the accessibility of publicly available sensor data. These data-driven approaches are used to empower model-based navigation and sensor fusion algorithms. This paper provides an in-depth review of those deep learning methods. We examine separately, each vehicle operation domain including land, air, and sea. Each domain is divided into pure inertial advances and improvements based on filter parameters learning. In addition, we review deep learning approaches for calibrating and denoising inertial sensors. Throughout the paper, we discuss these trends and future directions. We also provide statistics on the commonly used approaches to illustrate their efficiency and stimulate further research in deep learning embedded in inertial navigation and fusion. | 翻訳日:2023-07-09 14:03:25 公開日:2023-06-22 |
# Predictive Patentomics: ChatGPTによるイノベーションの成功と評価の予測 Predictive Patentomics: Forecasting Innovation Success and Valuation with ChatGPT ( http://arxiv.org/abs/2307.01202v1 ) ライセンス: Link先を確認 | Stephen Yang | (参考訳) イノベーションの分析は、広範で構造的な変数に対する従来のアプローチによって根本的に制限されてきた。
本稿では,特許分析におけるllmのアプローチを,画期的なchatgpt技術を用いて推進する。
OpenAIの最先端のテキスト埋め込みは、各発明の品質と影響に関する複雑な情報にアクセスして、ディープラーニング予測モデルをパワーアップする。
このニュアンスド埋め込みは、特許価値を予測するR-squaredを24%改善し、最悪のアプリケーションと最高のアプリケーションを明確に分離する。
これらのモデルにより、現代のコガン、パパニコラウ、セル、ストフマン(2017年)の特許評価を1.5倍の偏差で修正することができ、制度上の予測の可能性を考慮に入れている。
さらに、市場はアプリケーションに関するタイムリーな情報を取り入れておらず、予測された受入率に基づく長期ポートフォリオは年間3.3%という大きな異常リターンを達成している。
これらのモデルは、スタートアップと小規模の企業ポリシーに革命をもたらす機会を提供する。 Analysis of innovation has been fundamentally limited by conventional approaches to broad, structural variables. This paper pushes the boundaries, taking an LLM approach to patent analysis with the groundbreaking ChatGPT technology. OpenAI's state-of-the-art textual embedding accesses complex information about the quality and impact of each invention to power deep learning predictive models. The nuanced embedding drives a 24% incremental improvement in R-squared predicting patent value and clearly isolates the worst and best applications. These models enable a revision of the contemporary Kogan, Papanikolaou, Seru, and Stoffman (2017) valuation of patents by a median deviation of 1.5 times, accounting for potential institutional predictions. Furthermore, the market fails to incorporate timely information about applications; a long-short portfolio based on predicted acceptance rates achieves significant abnormal returns of 3.3% annually. The models provide an opportunity to revolutionize startup and small-firm corporate policy vis-a-vis patenting. | 翻訳日:2023-07-09 13:51:35 公開日:2023-06-22 |
# 単一光子源の品質を迅速に決定する課題 The Challenge of Quickly Determining the Quality of a Single-Photon Source ( http://arxiv.org/abs/2306.15683v1 ) ライセンス: Link先を確認 | David Jacob Kedziora and Anna Musia{\l} and Wojciech Rudno-Rudzi\'nski and Bogdan Gabrys | (参考訳) 量子ドットのような単一光子源(SPS)の品質を迅速に推定する新しい手法は、強度干渉法による実験検証の高価で時間を要する性質に対処するために近年普及している。
しかしながら、不確実性に関する議論や再現可能な詳細の頻繁な欠如は、信頼性に関する懸念を引き起こす。
本研究では、InGaAs/GaAsエピタキシャル量子ドットから得られる8つのデータセットについて、80MHzレーザーによって励起される1.3 {\displaystyle {\mu}mのそのような提案について検討した。
本研究では,機械学習手法であるdata augmentationを用いて実験データをブートストラップしたサンプルで補完する新たな貢献について紹介する。
合成試料の効率的なヒストグラムフィッティングから導かれる多光子放出現象の確率であるSPS品質測定値の解析は、検出率を記述したポアソン過程における確率的変動に起因する重要な不確実性を明らかにする。
このエラーの原因を無視することは、早期品質評価と最先端のSPSデバイスのクレームの両方において、重大な過信リスクを負う。
さらに本研究は, 標準最小二乗法が研究対象のカウンタープロポサールに匹敵するものであることを見出し, 拡張平均は早期推定にいくつかの期待を示し, 背景数の減少は適合精度を向上させるが, ポアソン過程の変動性には対処しないことを示した。
究極的には、データ拡張は物理実験を補完する価値を示しており、その利点は、SPS品質の慎重な評価の必要性を強調することである。 Novel methods for rapidly estimating single-photon source (SPS) quality, e.g. of quantum dots, have been promoted in recent literature to address the expensive and time-consuming nature of experimental validation via intensity interferometry. However, the frequent lack of uncertainty discussions and reproducible details raises concerns about their reliability. This study investigates one such proposal on eight datasets obtained from an InGaAs/GaAs epitaxial quantum dot that emits at 1.3 {\mu}m and is excited by an 80 MHz laser. The study introduces a novel contribution by employing data augmentation, a machine learning technique, to supplement experimental data with bootstrapped samples. Analysis of the SPS quality metric, i.e. the probability of multi-photon emission events, as derived from efficient histogram fitting of the synthetic samples, reveals significant uncertainty contributed by stochastic variability in the Poisson processes that describe detection rates. Ignoring this source of error risks severe overconfidence in both early quality estimates and claims for state-of-the-art SPS devices. Additionally, this study finds that standard least-squares fitting is comparable to the studied counter-proposal, expanding averages show some promise for early estimation, and reducing background counts improves fitting accuracy but does not address the Poisson-process variability. Ultimately, data augmentation demonstrates its value in supplementing physical experiments; its benefit here is to emphasise the need for a cautious assessment of SPS quality. | 翻訳日:2023-07-02 13:17:26 公開日:2023-06-22 |
# 分子幾何学的深層学習 Molecular geometric deep learning ( http://arxiv.org/abs/2306.15065v1 ) ライセンス: Link先を確認 | Cong Shen, Jiawei Luo, and Kelin Xia | (参考訳) 幾何学的深層学習(GDL)は、分子データ解析において大きな力と大きなポテンシャルを示している。
しかし、高効率な分子表現には依然として大きな課題が残っている。
現在、共有結合型分子グラフは原子レベルで分子トポロジーを表現するためのデファクトスタンダードである。
ここでは,非共有結合のみから構築した分子グラフが,分子特性予測における共有結合モデルと同等あるいはそれ以上の結果が得られることを初めて示す。
これは、共有結合型分子グラフのデファクト標準を超える新しい分子表現の可能性を示す。
そこで本研究では分子幾何学的深層学習(Mol-GDL)を提案する。
基本的な考え方は、より一般的な分子表現をGDLモデルに組み込むことである。
我々のモル-GDLでは、分子トポロジーは一連の分子グラフとしてモデル化され、それぞれ異なるスケールの原子間相互作用に焦点を当てている。
このように、共有結合相互作用と非共有結合相互作用の両方が等しい足場上の分子表現に組み込まれる。
我々は14のベンチマークデータセットでmol-gdlを体系的にテストした。
その結果,Mol-GDLは最先端(SOTA)法よりも優れた性能が得られることがわかった。
ソースコードとデータはhttps://github.com/CS-BIO/Mol-GDLで入手できる。 Geometric deep learning (GDL) has demonstrated huge power and enormous potential in molecular data analysis. However, a great challenge still remains for highly efficient molecular representations. Currently, covalent-bond-based molecular graphs are the de facto standard for representing molecular topology at the atomic level. Here we demonstrate, for the first time, that molecular graphs constructed only from non-covalent bonds can achieve similar or even better results than covalent-bond-based models in molecular property prediction. This demonstrates the great potential of novel molecular representations beyond the de facto standard of covalent-bond-based molecular graphs. Based on the finding, we propose molecular geometric deep learning (Mol-GDL). The essential idea is to incorporate a more general molecular representation into GDL models. In our Mol-GDL, molecular topology is modeled as a series of molecular graphs, each focusing on a different scale of atomic interactions. In this way, both covalent interactions and non-covalent interactions are incorporated into the molecular representation on an equal footing. We systematically test Mol-GDL on fourteen commonly-used benchmark datasets. The results show that our Mol-GDL can achieve a better performance than state-of-the-art (SOTA) methods. Source code and data are available at https://github.com/CS-BIO/Mol-GDL. | 翻訳日:2023-07-02 13:14:30 公開日:2023-06-22 |
# 化学言語を超えて:分子特性予測のマルチモーダルアプローチ Beyond Chemical Language: A Multimodal Approach to Enhance Molecular Property Prediction ( http://arxiv.org/abs/2306.14919v1 ) ライセンス: Link先を確認 | Eduardo Soares, Emilio Vital Brazil, Karen Fiorela Aquino Gutierrez, Renato Cerqueira, Dan Sanders, Kristin Schmidt, Dmitry Zubarev | (参考訳) 本稿では,化学言語表現と物理化学的特徴を組み合わせた分子特性予測のための新しい多モーダル言語モデルを提案する。
提案手法であるMultiMODAL-MOLFORMERは,特定の標的特性に対する直接因果効果に基づいて物理化学的特徴を同定する因果多段階特徴選択法を用いる。
これらの因果的特徴は、MOLFORMERの分子埋め込みによって生成されるベクトル空間と統合される。
特に,モルドレッドディスクリプタを物理化学的特徴として用いて,理論的に最も関連性の高い特徴を含むターゲット特性のマルコフブランケットを同定する。
提案手法は, 生分解性やPFAS毒性推定などの複雑なタスクの予測において, 化学言語ベースのMOLFORMERやグラフニューラルネットワークなど, 既存の最先端アルゴリズムと比較して優れた性能を示す。
さらに, モデルの性能を維持し, 改善しつつ, モードレッド特徴空間の次元性を低減するための特徴選択手法の有効性を示す。
提案手法は, 化学言語と物理化学的特徴の相乗的ポテンシャルを活かし, 将来的な分子特性予測研究への有望な道を開き, この分野の性能向上と進歩に繋がる。 We present a novel multimodal language model approach for predicting molecular properties by combining chemical language representation with physicochemical features. Our approach, MULTIMODAL-MOLFORMER, utilizes a causal multistage feature selection method that identifies physicochemical features based on their direct causal effect on a specific target property. These causal features are then integrated with the vector space generated by molecular embeddings from MOLFORMER. In particular, we employ Mordred descriptors as physicochemical features and identify the Markov blanket of the target property, which theoretically contains the most relevant features for accurate prediction. Our results demonstrate a superior performance of our proposed approach compared to existing state-of-the-art algorithms, including the chemical language-based MOLFORMER and graph neural networks, in predicting complex tasks such as biodegradability and PFAS toxicity estimation. Moreover, we demonstrate the effectiveness of our feature selection method in reducing the dimensionality of the Mordred feature space while maintaining or improving the model's performance. Our approach opens up promising avenues for future research in molecular property prediction by harnessing the synergistic potential of both chemical language and physicochemical features, leading to enhanced performance and advancements in the field. | 翻訳日:2023-07-02 13:14:14 公開日:2023-06-22 |
# 反マネーロンダリングモデルのためのリアルな合成金融取引 Realistic Synthetic Financial Transactions for Anti-Money Laundering Models ( http://arxiv.org/abs/2306.16424v1 ) ライセンス: Link先を確認 | Erik Altman, B\'eni Egressy, Jovan Blanu\v{s}a, Kubilay Atasu | (参考訳) 金融のデジタル化や暗号通貨の普及に伴い、サイバー犯罪者が考案した詐欺スキームの高度化が進んでいる。
マネーロンダリング(資金洗浄)は銀行と国の境界を越えて複雑な取引パターンを生み出す可能性がある。
国連の推計では、世界のGDPの2-5\%、すなわち0.8ドル=2.0兆ドルが毎年洗浄されている。
残念なことに、洗浄を検出するために機械学習モデルをトレーニングする実際のデータは一般的には利用できない。
現実的で標準化された公開可能なベンチマークは、モデルの比較と領域の進歩のために必要である。
そこで本研究では,合成金融トランザクションデータセット生成と合成生成されたAML(Anti-Money Laundering)データセットのセットについて述べる。
このエージェントベースのジェネレータをキャリブレーションして、実際のトランザクションを可能な限り密に一致させ、データセットを公開しました。
生成元を詳細に記述し、生成したデータセットが、AML能力の観点から異なるグラフニューラルネットワークを比較するのにどう役立つかを実証する。
重要な方法では、これらの比較で合成データを使用することは、実際のデータを使用するよりもさらによい。 With the widespread digitization of finance and the increasing popularity of cryptocurrencies, the sophistication of fraud schemes devised by cybercriminals is growing. Money laundering -- the movement of illicit funds to conceal their origins -- can cross bank and national boundaries, producing complex transaction patterns. The UN estimates 2-5\% of global GDP or \$0.8 - \$2.0 trillion dollars are laundered globally each year. Unfortunately, real data to train machine learning models to detect laundering is generally not available, and previous synthetic data generators have had significant shortcomings. A realistic, standardized, publicly-available benchmark is needed for comparing models and for the advancement of the area. To this end, this paper contributes a synthetic financial transaction dataset generator and a set of synthetically generated AML (Anti-Money Laundering) datasets. We have calibrated this agent-based generator to match real transactions as closely as possible and made the datasets public. We describe the generator in detail and demonstrate how the datasets generated can help compare different Graph Neural Networks in terms of their AML abilities. In a key way, using synthetic data in these comparisons can be even better than using real data: the ground truth labels are complete, whilst many laundering transactions in real data are never detected. | 翻訳日:2023-07-02 13:06:11 公開日:2023-06-22 |
# 多段階意思決定支援のためのモデル家族:COVID-19のケーススタディ Model Families for Multi-Criteria Decision Support: A COVID-19 Case Study ( http://arxiv.org/abs/2306.13683v1 ) ライセンス: Link先を確認 | Martin Bicher, Claire Rippinger, Christoph Urach, Dominik Brunmeir, Melanie Zechmeister, Niki Popper | (参考訳) 継続的なモデルベースの意思決定サポートは、特に長期プロジェクトでは、特定の課題と関連付けられます。
定期的に変化する質問と、基礎となるシステムの理解が頻繁に変化するため、使用するモデルは、モデリングの目的やシステムの境界、マッピングされた因果関係の変更に関して、定期的に再評価され、モデル化され、実装されなければならない。
通常、これは複雑さとボリュームが継続的に増加するモデルにつながる。
本研究は,1990年代までさかのぼるモデルファミリーの考え方を再評価し,大規模研究プロジェクトにおける意思決定支援フレームワーク構築の考え方として活用することを目的としている。
一般に、単一のスタンドアロンモデルを開発し、拡張するのではなく、研究タスクを研究課題に特化して対応するより小さなモデルに分割する。
この戦略には多くの利点があり、covid-19危機とそれに対応するサクセスストーリーにおける意思決定支援のための一連のモデルの例を使って説明します。
個々のモデルを説明し、家族内での役割を説明し、それらがどのように使われているかを説明します。 Continued model-based decision support is associated with particular challenges, especially in long-term projects. Due to the regularly changing questions and the often changing understanding of the underlying system, the models used must be regularly re-evaluated, -modelled and -implemented with respect to changing modelling purpose, system boundaries and mapped causalities. Usually, this leads to models with continuously growing complexity and volume. In this work we aim to reevaluate the idea of the model family, dating back to the 1990s, and use it to promote this as a mindset in the creation of decision support frameworks in large research projects. The idea is to generally not develop and enhance a single standalone model, but to divide the research tasks into interacting smaller models which specifically correspond to the research question. This strategy comes with many advantages, which we explain using the example of a family of models for decision support in the COVID-19 crisis and corresponding success stories. We describe the individual models, explain their role within the family, and how they are used - individually and with each other. | 翻訳日:2023-06-27 19:59:50 公開日:2023-06-22 |
# 適応型リカレントグラフニューラルネットワークによる氷深層厚の予測 Prediction of Deep Ice Layer Thickness Using Adaptive Recurrent Graph Neural Networks ( http://arxiv.org/abs/2306.13690v1 ) ライセンス: Link先を確認 | Benjamin Zalatan, Maryam Rahnemoonfar | (参考訳) 気候変動の影響と地球の大気温度の上昇に対処するにつれ、極氷床内の氷層の正確な追跡と予測の重要性が高まっている。
これらの氷層を研究すると、気候の傾向、降雪の経年変化、将来の気候と降雨の軌跡が明らかになる。
本稿では,近年の降雪量が空中レーダデータによって蓄積されている場合,深層氷の厚さによって過去の積雪量を予測するため,適応的かつ反復的なグラフ畳み込みネットワークを用いた機械学習モデルを提案する。
我々は,従来のモデルと同等の非時間的,非幾何学的,非適応的モデルよりも,より優れた一貫性を持つモデルを見出した。 As we deal with the effects of climate change and the increase of global atmospheric temperatures, the accurate tracking and prediction of ice layers within polar ice sheets grows in importance. Studying these ice layers reveals climate trends, how snowfall has changed over time, and the trajectory of future climate and precipitation. In this paper, we propose a machine learning model that uses adaptive, recurrent graph convolutional networks to, when given the amount of snow accumulation in recent years gathered through airborne radar data, predict historic snow accumulation by way of the thickness of deep ice layers. We found that our model performs better and with greater consistency than our previous model as well as equivalent non-temporal, non-geometric, and non-adaptive models. | 翻訳日:2023-06-27 19:46:56 公開日:2023-06-22 |
# 持続可能なAIの展望を広げる:AIシステムの総合的持続可能性基準と指標 Broadening the perspective for sustainable AI: Comprehensive sustainability criteria and indicators for AI systems ( http://arxiv.org/abs/2306.13686v1 ) ライセンス: Link先を確認 | Friederike Rohde, Josephin Wagner, Andreas Meyer, Philipp Reinhard, Marcus Voss, Ulrich Petschow | (参考訳) AIシステムの利用の増加は、多面的な社会、環境、経済的影響と関連している。
これには、透明でない意思決定プロセス、差別、不平等の増大、AIモデルの開発と応用におけるエネルギー消費と温室効果ガス排出量の増加、経済力の集中の増大が含まれる。
本稿では,サステナビリティの多次元性を考慮することで,持続可能なAIに対する包括的視点の要求を実証する。
SCAIS Framework(Sustainability Criteria and Indicators for Artificial Intelligence Systems)は、持続可能なAIのための19の持続可能性基準と、批判的なレビューと専門家ワークショップの結果に基づく67の指標を含んでいる。
この学際的アプローチは、持続可能なaiに関する談話の促進と構造化のために、ユニークな全体論的視点をもたらす。
さらに、aiシステムの意識的な開発と応用をサポートする標準とツールを開発するための基盤となる具体的なフレームワークを提供する。 The increased use of AI systems is associated with multi-faceted societal, environmental, and economic consequences. These include non-transparent decision-making processes, discrimination, increasing inequalities, rising energy consumption and greenhouse gas emissions in AI model development and application, and an increasing concentration of economic power. By considering the multi-dimensionality of sustainability, this paper takes steps towards substantiating the call for an overarching perspective on "sustainable AI". It presents the SCAIS Framework (Sustainability Criteria and Indicators for Artificial Intelligence Systems) which contains a set 19 sustainability criteria for sustainable AI and 67 indicators that is based on the results of a critical review and expert workshops. This interdisciplinary approach contributes a unique holistic perspective to facilitate and structure the discourse on sustainable AI. Further, it provides a concrete framework that lays the foundation for developing standards and tools to support the conscious development and application of AI systems. | 翻訳日:2023-06-27 19:46:41 公開日:2023-06-22 |
# 数学的なパターンや構造を実践するためのゲームベースの学習アプリケーション A Game-Based Learning Application to Help Learners to Practice Mathematical Patterns and Structures ( http://arxiv.org/abs/2306.13685v1 ) ライセンス: Link先を確認 | Adrian S. Lozano, Reister Justine B. Canlas, Kimberly M. Coronel, Justin M. Canlas, Jerico G. Duya, Regina C. Macapagal, Ericson M. Dungca, John Paul P. Miranda | (参考訳) 目的 - 本研究の目的は,学習者が数学的パターンや構造を実践するのを支援するゲームベースのモバイルアプリケーションを開発することである。
方法 - この研究は、モバイルアプリケーション開発における研究の指針となる、混合メソッドの研究設計とプロトタイピング手法に従っている。
この研究のための評価ツールとして,オクタリシスの枠組みに基づく楽器を開発した。
結果 - この研究はOctalysisフレームワークに基づくモバイルアプリケーションを開発した。
アプリケーションは、学生やIT専門家が提供した評価に基づいて、意図した機能をすべて達成しました。
結論 - 数学的パターンと構造に対するモバイル学習アプリケーションの開発に成功した。
GBLの原則とOctalysisフレームワークを取り入れることで、アプリは意図した機能を実現し、学生やIT専門家から肯定的な評価を受けた。
これは、数学的学習を促進するアプリの可能性を強調している。
推奨 - この研究は、アプリケーションが他のトピックを含むようにさらに拡張されることを推奨します。
時間付き質問や難易度レベルといった、他のゲームベースの原則やアプローチも追求する価値がある。
アプリケーションの有効性を検証するには、エンドユーザの実際のテストも必要です。
実践的含意 - 数学的パターンや構造を練習するためのゲームベースのモバイルアプリの開発が成功し、学習者を引き合いに出し、経験を向上させることで教育技術を変えることができる。
この研究は、将来の研究者が同様のアプリケーションを開発する上で貴重な洞察を与え、従来のアプローチに革命をもたらす可能性を強調し、数学的能力を向上させるためのインタラクティブな学習環境を構築する。 Purpose - The purpose of this study is to develop a game-based mobile application to help learners practice mathematical patterns and structures. Method - The study followed a mixed-method research design and prototyping methodology to guide the study in developing the mobile application. An instrument based on the Octalysis framework was developed as an evaluation tool for the study. Results - The study developed a mobile application based on the Octalysis framework. The application has fully achieved all its intended features based on the rating provided by the students and IT experts. Conclusion - The study successfully developed a mobile learning application for mathematical patterns and structures. By incorporating GBL principles and the Octalysis framework, the app achieved its intended features and received positive evaluations from students and IT experts. This highlights the potential of the app in promoting mathematical learning. Recommendations - This study recommends that the application be further enhanced to include other topics. Incorporating other game-based principles and approaches like timed questions and the difficulty level is also worth pursuing. Actual testing for end-users is also needed to verify the application's effectiveness. Practical Implications - Successful development of a game-based mobile app for practicing mathematical patterns and structures can transform education technology by engaging learners and enhancing their experience. This study provides valuable insights for future researchers developing similar applications, highlighting the potential to revolutionize traditional approaches and create an interactive learning environment for improving mathematical abilities. | 翻訳日:2023-06-27 19:46:23 公開日:2023-06-22 |
# 100)ダイヤモンド表面スピンのemph{Ab initio}研究 \emph{Ab initio} study of (100) diamond surface spins ( http://arxiv.org/abs/2110.07893v2 ) ライセンス: Link先を確認 | Jyh-Pin Chou, P\'eter Udvarhelyi, Nathalie P. de Leon, and Adam Gali | (参考訳) ダイヤモンド表面の未対電子スピンはユビキタスであり、過剰な磁気ノイズを引き起こす。
これまでいくつかの研究で観察されてきたが、正確な化学的性質は不明である。
密度汎関数理論を用いて, (100) ダイヤモンド表面上の$sp^3$ダングリング結合に関連する表面スピンの存在と化学安定性を説明するための簡単なモデルを提案する。
結晶ダイヤモンド表面(100)のステップエッジで自然に生成される(111)ファセットは、スピン状欠陥を立体的に保護することができる。
本研究では,最近の実験結果と一致した焼鈍時の表面スピン消滅機構を明らかにする。
また、超微細結合におけるフェルミ接触項は、表面スピンと周囲の核スピンの間に無視できないため、表面スピンがレポータースピンとして作用し、表面の核スピンを感知するセンシングプロトコルを考案するために、 \textit{ab initio}シミュレーションを用いることができる。 Unpaired electronic spins at diamond surfaces are ubiquitous and can lead to excess magnetic noise. They have been observed in several studies to date, but their exact chemical nature is still unknown. We propose a simple model to explain the existence and chemical stability of surface spins associated with the $sp^3$ dangling bond on the (100) diamond surface using density functional theory. We find that the (111) facet, which is naturally generated at a step edge of (100) crystalline diamond surface, can sterically protect a spinful defect. Our study reveals a mechanism for annihilation of these surface spins upon annealing, consistent with recent experimental results. We also demonstrate that the Fermi-contact term in the hyperfine coupling is not negligible between the surface spins and the surrounding nuclear spins, and thus \textit{ab initio} simulation can be used to devise a sensing protocol where the surface spins act as reporter spins to sense nuclear spins on the surface. | 翻訳日:2023-06-26 18:04:47 公開日:2023-06-22 |
# 逐次ランダム化実験のための弱信号漸近 Weak Signal Asymptotics for Sequentially Randomized Experiments ( http://arxiv.org/abs/2101.09855v7 ) ライセンス: Link先を確認 | Xu Kuang and Stefan Wager | (参考訳) 弱信号漸近のレンズを用いて,複数腕のバンディット問題を解決する際に発生するものを含む,逐次ランダム化実験のクラスを研究する。
n$の時間ステップを持つ実験では、アクション間の平均報酬ギャップを1/\sqrt{n}$にすることで、n$が増加するにつれて学習タスクの難易度を保ちます。
この方法では、逐次ランダム化実験(このスケーリング方式に適合し、状態によって連続的に変化するアーム選択確率を持つ)のサンプルパスが、確率微分方程式の解として与えられた拡散限界に弱収束することを示す。
拡散限界は、確率力学の洗練された例特有な特徴を導出し、トンプソンサンプリングを含む一連の実験の後悔と信念の進化に関するいくつかの洞察を得ることを可能にする(ただし、UCBは我々の連続性仮定を満たさない)。
ランダム化確率が観測データに連続的に依存する全ての連続実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔性能に悩まされることを示す。
逆に,asymptoticly uninformative prior varianceによるトンプソンサンプリングは,報奨ギャップが大きいことを含め,最適に近いインスタンス固有の後悔のスケーリングを実現するが,これらの優れた後悔特性は,極めて不安定な後方信念の犠牲になる。 We use the lens of weak signal asymptotics to study a class of sequentially randomized experiments, including those that arise in solving multi-armed bandit problems. In an experiment with $n$ time steps, we let the mean reward gaps between actions scale to the order $1/\sqrt{n}$ so as to preserve the difficulty of the learning task as $n$ grows. In this regime, we show that the sample paths of a class of sequentially randomized experiments -- adapted to this scaling regime and with arm selection probabilities that vary continuously with state -- converge weakly to a diffusion limit, given as the solution to a stochastic differential equation. The diffusion limit enables us to derive refined, instance-specific characterization of stochastic dynamics, and to obtain several insights on the regret and belief evolution of a number of sequential experiments including Thompson sampling (but not UCB, which does not satisfy our continuity assumption). We show that all sequential experiments whose randomization probabilities have a Lipschitz-continuous dependence on the observed data suffer from sub-optimal regret performance when the reward gaps are relatively large. Conversely, we find that a version of Thompson sampling with an asymptotically uninformative prior variance achieves near-optimal instance-specific regret scaling, including with large reward gaps, but these good regret properties come at the cost of highly unstable posterior beliefs. | 翻訳日:2023-06-26 18:02:57 公開日:2023-06-22 |
# ターゲットネットワークで致命的なトライアドを壊す Breaking the Deadly Triad with a Target Network ( http://arxiv.org/abs/2101.08862v9 ) ライセンス: Link先を確認 | Shangtong Zhang, Hengshuai Yao, Shimon Whiteson | (参考訳) 致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
本稿では,ターゲットネットワークがトレーニングを安定させるという従来の知見を理論的に支持し,ターゲットネットワークを致命的なトライアドを破るツールとして検討する。
まず、一般的なPolyak-averagingスタイルの更新を2つのプロジェクションで拡張する新しいターゲットネットワーク更新ルールを提案し、分析する。
次に、ターゲットネットワークとリッジの正規化を複数の分岐アルゴリズムに適用し、正規化されたTD固定点への収束を示す。
これらのアルゴリズムは、リニア関数近似とブートストラップによるオフポリシーであり、ポリシー評価と制御の両方にまたがる。
特に,二段階最適化を必要とせず,非制限的かつ変化する行動ポリシーの下で,最初の収束線形q$学習アルゴリズムを提供する。 The deadly triad refers to the instability of a reinforcement learning algorithm when it employs off-policy learning, function approximation, and bootstrapping simultaneously. In this paper, we investigate the target network as a tool for breaking the deadly triad, providing theoretical support for the conventional wisdom that a target network stabilizes training. We first propose and analyze a novel target network update rule which augments the commonly used Polyak-averaging style update with two projections. We then apply the target network and ridge regularization in several divergent algorithms and show their convergence to regularized TD fixed points. Those algorithms are off-policy with linear function approximation and bootstrapping, spanning both policy evaluation and control, as well as both discounted and average-reward settings. In particular, we provide the first convergent linear $Q$-learning algorithms under nonrestrictive and changing behavior policies without bi-level optimization. | 翻訳日:2023-06-26 18:02:31 公開日:2023-06-22 |
# 確率的時間的ランキングを用いたロボット超音波スキャンの学習報酬 Learning rewards for robotic ultrasound scanning using probabilistic temporal ranking ( http://arxiv.org/abs/2002.01240v3 ) ライセンス: Link先を確認 | Michael Burke, Katie Lu, Daniel Angelov, Art\=uras Strai\v{z}ys, Craig Innes, Kartic Subr, Subramanian Ramamoorthy | (参考訳) インフォーマティブパスプランニングは、ロボット工学における視覚サービスとアクティブな視点選択の確立したアプローチであるが、一般的には適切なコスト関数や目標状態が知られていると仮定する。
本研究は,課題の目的が不明な逆問題と,実証者が提供する探索的例示から報酬関数を推定し,下流の情報経路計画政策に利用する必要があることを考察する。
残念なことに、既存の報酬推論戦略の多くは、デモの探索的な性質のため、このタイプの問題には適していない。
本稿では,この下位最適探索型実験を行う場合の課題の類型に対処するための代替手法を提案する。
発見を必要とするタスクでは、任意のデモンストレーションの連続した状態が徐々に高い報酬に関連付けられる可能性が高くなり、この仮説を用いて時間ベースの二項比較結果を生成し、確率論的生成モデルの下でこれらのランクをサポートする報酬関数を推測する。
我々は,この「emph{probabilistic temporal ranking}(確率的時間ランク付け)」アプローチを定式化し,医療画像における実演からの学習の新たな応用である自律型超音波スキャンに対する報酬推論の既存手法を改良し,また,実演タスクから幅広い目標志向の学習に価値をもたらすことを示す。
\keywords{visual servoing \and reward inference \ and probabilistic temporal ranking Informative path-planning is a well established approach to visual-servoing and active viewpoint selection in robotics, but typically assumes that a suitable cost function or goal state is known. This work considers the inverse problem, where the goal of the task is unknown, and a reward function needs to be inferred from exploratory example demonstrations provided by a demonstrator, for use in a downstream informative path-planning policy. Unfortunately, many existing reward inference strategies are unsuited to this class of problems, due to the exploratory nature of the demonstrations. In this paper, we propose an alternative approach to cope with the class of problems where these sub-optimal, exploratory demonstrations occur. We hypothesise that, in tasks which require discovery, successive states of any demonstration are progressively more likely to be associated with a higher reward, and use this hypothesis to generate time-based binary comparison outcomes and infer reward functions that support these ranks, under a probabilistic generative model. We formalise this \emph{probabilistic temporal ranking} approach and show that it improves upon existing approaches to perform reward inference for autonomous ultrasound scanning, a novel application of learning from demonstration in medical imaging while also being of value across a broad range of goal-oriented learning from demonstration tasks. \keywords{Visual servoing \and reward inference \and probabilistic temporal ranking | 翻訳日:2023-06-26 18:02:07 公開日:2023-06-22 |
# INSCIT:混合開始対話による情報探索会話 INSCIT: Information-Seeking Conversations with Mixed-Initiative Interactions ( http://arxiv.org/abs/2207.00746v2 ) ライセンス: Link先を確認 | Zeqiu Wu, Ryu Parish, Hao Cheng, Sewon Min, Prithviraj Ammanabrolu, Mari Ostendorf, Hannaneh Hajishirzi | (参考訳) 情報検索会話では、ユーザーは未特定または未解決の質問をすることができる。
理想的なエージェントは、利用可能な知識ソースに従って異なる応答タイプを起動することで相互作用する。
しかし、現在のほとんどの研究は、そのようなエージェント側のイニシアチブを失敗または人工的に取り入れていない。
本研究は,情報参照対話のためのデータセットであるinscitを提案する。
エージェントがウィキペディアを検索し、直接答えるか、明確化を求めるか、ユーザークエリに対処するための関連情報を提供する805人の人間と人間の会話から4.7Kのユーザーエージェントのターンを含む。
データは2つのサブタスク、エビデンスパスの識別と応答生成、モデル性能を評価するための人間評価プロトコルをサポートする。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
どちらのシステムも人間を著しく弱めており、将来の研究で改善の余地が十分にあることを示唆している。 In an information-seeking conversation, a user may ask questions that are under-specified or unanswerable. An ideal agent would interact by initiating different response types according to the available knowledge sources. However, most current studies either fail to or artificially incorporate such agent-side initiative. This work presents InSCIt, a dataset for Information-Seeking Conversations with mixed-initiative Interactions. It contains 4.7K user-agent turns from 805 human-human conversations where the agent searches over Wikipedia and either directly answers, asks for clarification, or provides relevant information to address user queries. The data supports two subtasks, evidence passage identification and response generation, as well as a human evaluation protocol to assess model performance. We report results of two systems based on state-of-the-art models of conversational knowledge identification and open-domain question answering. Both systems significantly underperform humans, suggesting ample room for improvement in future studies. | 翻訳日:2023-06-26 17:55:36 公開日:2023-06-22 |
# レンズレスホログラフィーとディープラーニングによるウイルスプラークの迅速・無染色定量化 Rapid and stain-free quantification of viral plaque via lens-free holography and deep learning ( http://arxiv.org/abs/2207.00089v2 ) ライセンス: Link先を確認 | Tairan Liu, Yuzhu Li, Hatice Ceylan Koydemir, Yijie Zhang, Ethan Yang, Merve Eryilmaz, Hongda Wang, Jingxi Li, Bijie Bai, Guangdong Ma, Aydogan Ozcan | (参考訳) レンズレスホログラフィーとディープラーニングを用いた迅速で無臭な定量的ウイルスプラークアッセイを行った。
このコスト効率が高くコンパクトで自動化された装置は、従来のプラークアッセイに必要なインキュベーション時間を著しく短縮し、他のウイルス定量法よりもその利点を保っている。
この装置は、テストあたりのオブジェクトの0.32ギガピクセル/時間位相情報を取り込み、ラベル無しで30x30mm^2の範囲をカバーし、完全に染色を除去する。
精巣性皮膚炎ウイルス (VSV) , 単純ヘルペスウイルス (HSV-1) および脳筋炎ウイルス (EMCV) を用いたこの計算法の有効性を実証した。
ニューラルネットワークを用いて、VSVウイルスの複製による最初の細胞除去イベントをインキュベーションから5時間以内に自動的に検出し、20時間以内で100%特異的なVSVプラーク形成ユニット(PFU)の検出率を90%以上達成し、48時間以上かかる従来のプラークアッセイと比較して、大幅な時間節約を実現した。
同様に、無染色装置は、必要なインキュベーション時間をHSV-1で約48時間、EMCVで約20時間短縮し、100%特異性で90%以上の検出率を達成した。
また、このデータ駆動型プラークアッセイは、細胞単層の感染領域を定量化し、標準のウイルスプラークアッセイよりも10倍大きなウイルス濃度のダイナミックレンジで、pfuおよびウイルス感染領域の自動計測および定量を行う能力を有することを実証した。
このコンパクトで低コストで自動化されたPFU定量化装置は、ウイルス研究、ワクチン開発、臨床応用に広く利用することができる。 We present a rapid and stain-free quantitative viral plaque assay using lensfree holographic imaging and deep learning. This cost-effective, compact, and automated device significantly reduces the incubation time needed for traditional plaque assays while preserving their advantages over other virus quantification methods. This device captures ~0.32 Giga-pixel/hour phase information of the objects per test well, covering an area of ~30x30 mm^2, in a label-free manner, eliminating staining entirely. We demonstrated the success of this computational method using vesicular stomatitis virus (VSV), herpes simplex virus (HSV-1) and encephalomyocarditis virus (EMCV). Using a neural network, this stain-free device automatically detected the first cell lysing events due to the VSV viral replication as early as 5 hours after the incubation, and achieved >90% detection rate for the VSV plaque-forming units (PFUs) with 100% specificity in <20 hours, providing major time savings compared to the traditional plaque assays that take at least 48 hours. Similarly, this stain-free device reduced the needed incubation time by ~48 hours for HSV-1 and ~20 hours for EMCV, achieving >90% detection rate with 100% specificity. We also demonstrated that this data-driven plaque assay offers the capability of quantifying the infected area of the cell monolayer, performing automated counting and quantification of PFUs and virus-infected areas over a 10-fold larger dynamic range of virus concentration than standard viral plaque assays. This compact, low-cost, automated PFU quantification device can be broadly used in virology research, vaccine development, and clinical applications. | 翻訳日:2023-06-26 17:55:21 公開日:2023-06-22 |
# 水平不確実性下におけるオンライン資源配分 Online Resource Allocation under Horizon Uncertainty ( http://arxiv.org/abs/2206.13606v3 ) ライセンス: Link先を確認 | Santiago Balseiro, Christian Kroer, Rachitesh Kumar | (参考訳) 意思決定者は、報酬を最大化するために、確率的に生成される逐次的な要求に限られたリソースを割り当てる必要がある。
各ステップで、要求は意思決定者にとって未知の分布から独立して引き出される。
オンラインリソース割り当てとその特別事例は過去に広く研究されてきたが、事前の結果は、事前の意思決定者に対して、要求の総数(地平線)が知られているという強い仮定に依存している。
収益管理やオンライン広告といった多くのアプリケーションでは、需要の変動やユーザートラフィックの強度のためにリクエスト数が大きく変化する可能性がある。
本研究では,地平線不確実性に頑健なオンラインアルゴリズムを開発する。
既知の水平配置とは対照的に、地平線の不確実性に依存しない漸近競合比さえ達成できないアルゴリズムは存在しない。
本稿では, 意思決定者が時間変動目標消費率のスケジュールを指定でき, 対応する性能保証を証明できる, デュアルミラー降下の新たな一般化を提案する。
続いて、未知のホライゾン設定において、目標消費率のスケジュールを高速に計算し、ほぼ最適性能をもたらすアルゴリズムを提案する。
特に、地平線の不確実性が大きくなるにつれて、我々の競争比は最適な成長速度(対数的要因まで)を達成する。
最後に、既知の地平線設定と未知の地平線設定を補間する水平線に関する機械学習予測を組み込む方法も提供する。 We study stochastic online resource allocation: a decision maker needs to allocate limited resources to stochastically-generated sequentially-arriving requests in order to maximize reward. At each time step, requests are drawn independently from a distribution that is unknown to the decision maker. Online resource allocation and its special cases have been studied extensively in the past, but prior results crucially and universally rely on the strong assumption that the total number of requests (the horizon) is known to the decision maker in advance. In many applications, such as revenue management and online advertising, the number of requests can vary widely because of fluctuations in demand or user traffic intensity. In this work, we develop online algorithms that are robust to horizon uncertainty. In sharp contrast to the known-horizon setting, no algorithm can achieve even a constant asymptotic competitive ratio that is independent of the horizon uncertainty. We introduce a novel generalization of dual mirror descent which allows the decision maker to specify a schedule of time-varying target consumption rates, and prove corresponding performance guarantees. We go on to give a fast algorithm for computing a schedule of target consumption rates that leads to near-optimal performance in the unknown-horizon setting. In particular, our competitive ratio attains the optimal rate of growth (up to logarithmic factors) as the horizon uncertainty grows large. Finally, we also provide a way to incorporate machine-learned predictions about the horizon which interpolates between the known and unknown horizon settings. | 翻訳日:2023-06-26 17:54:49 公開日:2023-06-22 |
# アドバイザによるシングルレグ収益管理 Single-Leg Revenue Management with Advice ( http://arxiv.org/abs/2202.10939v3 ) ライセンス: Link先を確認 | Santiago Balseiro, Christian Kroer, Rachitesh Kumar | (参考訳) シングルレグ収益管理は、航空会社やホテル業界で特に影響を受けてきた収入管理の基本的な問題である:例えば、フライトシートや、運賃で区分けされた順次購入する顧客のストリームなど、リソースを割り当てるための最適なオンラインポリシーは何か。
予測が利用可能で、予測の不正確さに対して堅牢ではないアルゴリズムや、最悪のパフォーマンス保証を備えたオンラインアルゴリズムの設計に重点を置いていた。
本研究は,機械学習手法の予測精度の向上に寄与し,将来に関するアドバイスをオンラインアルゴリズムに最適に取り入れることを目的として,アルゴリズムとアドバイザフレームワークのレンズによる単一レグ収益管理問題を考察する。
特に、すべてのアドバイスに対する一貫性(アドバイスが正確であればパフォーマンス)と競争性(アドバイスが不正確であればパフォーマンス)のトレードオフを捉えたParetoフロンティアを特徴づけます。
さらに,このParetoフロンティアの性能を常に達成するオンラインアルゴリズムを提供する。
また、単一レグ収益管理において最も広く展開されている技術である保護レベルポリシーのクラスについても検討し、一貫性と競争性を最適にトレードオフする保護レベルにアドバイスを組み込むアルゴリズムを提供する。
さらに,これらのアルゴリズムの合成データに対する性能を実験的に評価した。
保護レベルポリシーのアルゴリズムは,理論上はパレートフロンティアにあることが保証されていなくても,ほとんどのケースにおいて極めてよく機能することがわかった。
この結果は、ディスプレイ広告や複数秘書問題といった他の単価オンラインアロケーション問題や、オンラインクナップサック問題のようなより一般的な変動コスト問題にも及んでいる。 Single-leg revenue management is a foundational problem of revenue management that has been particularly impactful in the airline and hotel industry: Given $n$ units of a resource, e.g. flight seats, and a stream of sequentially-arriving customers segmented by fares, what is the optimal online policy for allocating the resource. Previous work focused on designing algorithms when forecasts are available, which are not robust to inaccuracies in the forecast, or online algorithms with worst-case performance guarantees, which can be too conservative in practice. In this work, we look at the single-leg revenue management problem through the lens of the algorithms-with-advice framework, which attempts to harness the increasing prediction accuracy of machine learning methods by optimally incorporating advice about the future into online algorithms. In particular, we characterize the Pareto frontier that captures the tradeoff between consistency (performance when advice is accurate) and competitiveness (performance when advice is inaccurate) for every advice. Moreover, we provide an online algorithm that always achieves performance on this Pareto frontier. We also study the class of protection level policies, which is the most widely-deployed technique for single-leg revenue management: we provide an algorithm to incorporate advice into protection levels that optimally trades off consistency and competitiveness. Moreover, we empirically evaluate the performance of these algorithms on synthetic data. We find that our algorithm for protection level policies performs remarkably well on most instances, even if it is not guaranteed to be on the Pareto frontier in theory. Our results extend to other unit-cost online allocations problems such as the display advertising and the multiple secretary problem together with more general variable-cost problems such as the online knapsack problem. | 翻訳日:2023-06-26 17:53:39 公開日:2023-06-22 |
# 一定の目標関数に対するReLUアクティベーションを用いた深部ニューラルネットワークのトレーニングにおける確率勾配降下の収束証明 Convergence proof for stochastic gradient descent in the training of deep neural networks with ReLU activation for constant target functions ( http://arxiv.org/abs/2112.07369v2 ) ライセンス: Link先を確認 | Martin Hutzenthaler, Arnulf Jentzen, Katharina Pohl, Adrian Riekert, Luca Scarpa | (参考訳) 多くの数値シミュレーションにおいて、確率的勾配降下(sgd)型最適化手法は深層ニューラルネットワーク(dnn)の訓練において非常に効果的であるが、今日までdnnの訓練におけるsgd型最適化手法の成功を厳密に説明する数学的収束解析を提供するための研究のオープンな課題である。
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
まず,これらのDNNのトレーニングに現れるリスク関数とその一般化された勾配関数の一般正規性特性を確立し,その後,対象関数が一定関数であることを前提として,これらのDNNのトレーニングにおけるプレーンバニラSGD最適化法を検討する。
具体的には、学習率(sgd最適化方法のステップサイズ)が十分に小さいが、$l^1$-summableでないことを仮定し、sgdプロセスのリスクの期待が、sgdステップの数が無限に増加するにつれて、そのようなdnnのトレーニングにおいて収束する一定の関数であると仮定して証明する。 In many numerical simulations stochastic gradient descent (SGD) type optimization methods perform very effectively in the training of deep neural networks (DNNs) but till this day it remains an open problem of research to provide a mathematical convergence analysis which rigorously explains the success of SGD type optimization methods in the training of DNNs. In this work we study SGD type optimization methods in the training of fully-connected feedforward DNNs with rectified linear unit (ReLU) activation. We first establish general regularity properties for the risk functions and their generalized gradient functions appearing in the training of such DNNs and, thereafter, we investigate the plain vanilla SGD optimization method in the training of such DNNs under the assumption that the target function under consideration is a constant function. Specifically, we prove under the assumption that the learning rates (the step sizes of the SGD optimization method) are sufficiently small but not $L^1$-summable and under the assumption that the target function is a constant function that the expectation of the riskof the considered SGD process converges in the training of such DNNs to zero as the number of SGD steps increases to infinity. | 翻訳日:2023-06-26 17:52:31 公開日:2023-06-22 |
# パワーロー減衰相互作用を有する系におけるガッピング基底状態の局所性 Locality of gapped ground states in systems with power-law decaying interactions ( http://arxiv.org/abs/2208.13057v2 ) ライセンス: Link先を確認 | Zhiyuan Wang and Kaden R. A. Hazzard | (参考訳) 局所相互作用量子系のギャップのある基底状態において、局所摂動の効果が指数関数的に距離で崩壊することが証明されている。
しかし、パワーロー(1/r^\alpha$)の崩壊相互作用を持つシステムでは、類似の主張は示されておらず、既存の手法で証明する上で深刻な数学的障害がある。
本稿では,空間次元が$D$を超える場合,局所摂動が局所特性に与える影響を$r$離れた場合,差分基底状態において1/r^{\alpha_1}$の電力法により上界となることを証明し,摂動がスペクトルギャップを閉じないことを示した。
パワーロー指数の$\alpha_1$は、$\alpha>2D$と相互作用が2体であればきつい。
この証明は、準断熱連続体の使用を回避し、複素解析の技法を取り入れる手法によって実現される。
この方法はまた、短距離相互作用系においても基底状態相関減衰の境界を改善する。
本研究は,局所摂動がパワーロー相互作用系に局所的影響を及ぼすという基本的な概念を一般化し,数値シミュレーションや実験に広く影響する。 It has been proved that in gapped ground states of locally-interacting quantum systems, the effect of local perturbations decays exponentially with distance. However, in systems with power-law ($1/r^\alpha$) decaying interactions, no analogous statement has been shown, and there are serious mathematical obstacles to proving it with existing methods. In this paper we prove that when $\alpha$ exceeds the spatial dimension $D$, the effect of local perturbations on local properties a distance $r$ away is upper bounded by a power law $1/r^{\alpha_1}$ in gapped ground states, provided that the perturbations do not close the spectral gap. The power-law exponent $\alpha_1$ is tight if $\alpha>2D$ and interactions are two-body, where we have $\alpha_1=\alpha$. The proof is enabled by a method that avoids the use of quasiadiabatic continuation and incorporates techniques of complex analysis. This method also improves bounds on ground state correlation decay, even in short-range interacting systems. Our work generalizes the fundamental notion that local perturbations have local effects to power-law interacting systems, with broad implications for numerical simulations and experiments. | 翻訳日:2023-06-26 17:43:06 公開日:2023-06-22 |
# 超高速ハイブリッドフェルミオン-量子マッピング Ultrafast Hybrid Fermion-to-Qubit mapping ( http://arxiv.org/abs/2211.16389v2 ) ライセンス: Link先を確認 | Oliver O'Brien, Sergii Strelchuk | (参考訳) フェルミオン-量子ビットマッピングは、量子コンピュータ上のフェルミオン相互作用を表現する上で重要な役割を果たす。
効率的な写像はシステムのフェルミオンモードを、少数の補助資源を使用しながら高い局所性を持つクビット相互作用に変換する。
我々は、現在知られている全ての既存のスキームよりも少ない補助量子ビットを必要とする、局所保存されたフェルミオンから量子ビットへのマッピングのファミリーを提案する。
1つの例は、Y による最もよく知られた局所性保存写像の 1.25 と比較して、1フェルミオン当たり 1.016 キュービットしか必要としない。
-A。
ChenとY.Xu [PRX Quantum 4, 010326 (2023)]
我々の写像の族(整数$n$で表される)は補助量子ビットの数($\frac{1}{n^2}$)と回路長($O(\log n)$)の直接的なトレードオフを確立する。
さらに、jordan-wignerマッピングとbravyi-kitaevマッピングの長所を組み合わせることで、jordan-wignerマッピングよりも98\%短い回路を与える非局所的な変種を提案する。
これは、異なるスケールで相容れないマッピングを適用することで実現され、それぞれの強みが互いに補うことができる。 Fermion-to-qubit mappings play a crucial role in representing fermionic interactions on a quantum computer. Efficient mappings translate fermionic modes of a system to qubit interactions with a high degree of locality while using few auxiliary resources. We present a family of locality-preserving fermion-to-qubit mappings that require fewer auxiliary qubits than all existing schemes known to date. One instance requires only 1.016 qubits-per-fermion compared to 1.25 for the best-known locality-preserving mapping by Y.-A. Chen and Y. Xu [PRX Quantum 4, 010326 (2023)]. Our family of mappings (parameterised by integer $n$) establishes a direct trade-off between the number of auxiliary qubits ($\frac{1}{n^2}$) and the circuit length ($O(\log n)$). Furthermore, we present a non-local variant that combines the strengths of the Jordan-Wigner and Bravyi-Kitaev mappings to give 98\% shorter circuits than the Jordan-Wigner mapping. This is achieved by applying seemly incompatible mappings at different scales, making it possible for their respective strengths to complement each other. | 翻訳日:2023-06-26 17:33:05 公開日:2023-06-22 |
# InstaGraM: ベクトル化HDマップ学習のためのインスタンスレベルのグラフモデリング InstaGraM: Instance-level Graph Modeling for Vectorized HD Map Learning ( http://arxiv.org/abs/2301.04470v2 ) ライセンス: Link先を確認 | Juyeb Shin, Francois Rameau, Hyeonjun Jeong, Dongsuk Kum | (参考訳) 車線情報などの交通オブジェクトを推定することは、自動運転の展開において最重要となる。
従来のアプローチでは,GPS位置推定によるHDマップのオフライン構築に重点を置いていた。
これらの問題を緩和するために,搭載センサ観測からHDマップ要素を検出するオンラインHDマップ学習フレームワークを提案する。
マップ要素をグラフとして表現し,hdマップのインスタンスレベルのグラフモデリングを提案する。
グラフモデリング戦略とともに,統合されたBEV特徴抽出,マップグラフ成分の検出,グラフニューラルネットワークによる関連付けという3段階からなるエンドツーエンドニューラルネットワークを提案する。
公開オープンデータセットにおける包括的実験により,提案するネットワークは,計算時間の最大33.8倍の速度で,最大13.7マップの先行モデルを上回ることがわかった。 Inferring traffic object such as lane information is of foremost importance for deployment of autonomous driving. Previous approaches focus on offline construction of HD map inferred with GPS localization, which is insufficient for globally scalable autonomous driving. To alleviate these issues, we propose online HD map learning framework that detects HD map elements from onboard sensor observations. We represent the map elements as a graph; we propose InstaGraM, instance-level graph modeling of HD map that brings accurate and fast end-to-end vectorized HD map learning. Along with the graph modeling strategy, we propose end-to-end neural network composed of three stages: a unified BEV feature extraction, map graph component detection, and association via graph neural networks. Comprehensive experiments on public open dataset show that our proposed network outperforms previous models by up to 13.7 mAP with up to 33.8X faster computation time. | 翻訳日:2023-06-26 17:24:42 公開日:2023-06-22 |
# デュアルRL:強化と模倣学習のための統一と新しい方法 Dual RL: Unification and New Methods for Reinforcement and Imitation Learning ( http://arxiv.org/abs/2302.08560v2 ) ライセンス: Link先を確認 | Harshit Sikchi, Qinqing Zheng, Amy Zhang, Scott Niekum | (参考訳) 強化学習(RL)の目的は、期待される累積回帰を最大化することである。
この目的を線形制約下での状態行動訪問分布の最適化問題として表現できることが示されている。
この定式化の二重問題は、双対 RL と呼ばれ、制約がなく、最適化が容易である。
我々は,オンラインとオフラインの両方,rlと模倣学習 (il) の設定下で,いくつかの最先端のオフポリシー深層強化学習 (rl) アルゴリズムを統一フレームワークにおける二重rlアプローチと見なすことができることを示す。
この統合は、これらの手法の成功に寄与するコンポーネントを研究・特定するための共通基盤を提供し、また、改善のための新たな洞察を持つメソッド間の共通の欠点を明らかにします。
分析の結果,事前の非政治模倣学習手法は非現実的なカバレッジの仮定に基づいており,学習方針の訪問分布と専門家政策のf分割を最小化していることがわかった。
本稿では, 任意のオフポリシーデータを用いた実演模倣学習を, 判別器を学習することなく, ほぼ専門的な性能を得ることのできる, 二重RLフレームワークの簡単な修正手法を提案する。
さらに、最近のSOTAオフラインRLメソッドXQLをデュアルRLフレームワークでフレーミングすることにより、Gumbel回帰損失を代替する代替選択肢を提案し、パフォーマンスを改善し、XQLのトレーニング不安定性問題を解決する。
プロジェクトコードと詳細は、このhttps://hari-sikchi.github.io/dual-rlで確認できる。 The goal of reinforcement learning (RL) is to maximize the expected cumulative return. It has been shown that this objective can be represented by an optimization problem of the state-action visitation distribution under linear constraints. The dual problem of this formulation, which we refer to as dual RL, is unconstrained and easier to optimize. We show that several state-of-the-art off-policy deep reinforcement learning (RL) algorithms, under both online and offline, RL and imitation learning (IL) settings, can be viewed as dual RL approaches in a unified framework. This unification provides a common ground to study and identify the components that contribute to the success of these methods and also reveals the common shortcomings across methods with new insights for improvement. Our analysis shows that prior off-policy imitation learning methods are based on an unrealistic coverage assumption and are minimizing a particular f-divergence between the visitation distributions of the learned policy and the expert policy. We propose a new method using a simple modification to the dual RL framework that allows for performant imitation learning with arbitrary off-policy data to obtain near-expert performance, without learning a discriminator. Further, by framing a recent SOTA offline RL method XQL in the dual RL framework, we propose alternative choices to replace the Gumbel regression loss, which achieve improved performance and resolve the training instability issue of XQL. Project code and details can be found at this https://hari-sikchi.github.io/dual-rl. | 翻訳日:2023-06-26 17:15:31 公開日:2023-06-22 |
# 空中レーダによる積雪の時空間予測のための繰り返しグラフ畳み込みネットワーク Recurrent Graph Convolutional Networks for Spatiotemporal Prediction of Snow Accumulation Using Airborne Radar ( http://arxiv.org/abs/2302.00817v2 ) ライセンス: Link先を確認 | Benjamin Zalatan, Maryam Rahnemoonfar | (参考訳) 気候変動の影響と地球温暖化の増加に対処するため,年間降雪量の正確な予測と推定が重要になっている。
スノーレーダのような空中レーダーセンサーは、大規模な堆積率パターンを測定し、進行中の気候変動がグリーンランドの降水と流出に与える影響を監視することができる。
Snow Radarは超広帯域で、内部の氷層を捉えるのに役立つ垂直解像度を実現している。
本稿では,レーダーデータを用いて,過去数年間の積雪の蓄積量を考慮し,繰り返しグラフ畳み込みネットワークに基づく機械学習モデルを提案する。
その結果,同値な非幾何学的モデルや非時間的モデルよりも精度が高く,一貫性が高いことがわかった。 The accurate prediction and estimation of annual snow accumulation has grown in importance as we deal with the effects of climate change and the increase of global atmospheric temperatures. Airborne radar sensors, such as the Snow Radar, are able to measure accumulation rate patterns at a large-scale and monitor the effects of ongoing climate change on Greenland's precipitation and run-off. The Snow Radar's use of an ultra-wide bandwidth enables a fine vertical resolution that helps in capturing internal ice layers. Given the amount of snow accumulation in previous years using the radar data, in this paper, we propose a machine learning model based on recurrent graph convolutional networks to predict the snow accumulation in recent consecutive years at a certain location. We found that the model performs better and with more consistency than equivalent nongeometric and nontemporal models. | 翻訳日:2023-06-26 17:13:55 公開日:2023-06-22 |
# 直接反復によるインバージョン:画像復元における拡散の代替 Inversion by Direct Iteration: An Alternative to Denoising Diffusion for Image Restoration ( http://arxiv.org/abs/2303.11435v3 ) ライセンス: Link先を確認 | Mauricio Delbracio and Peyman Milanfar | (参考訳) inversion by direct iteration (indi) は、いわゆる ‘regression to the mean' 効果を回避し、既存の回帰ベースの方法よりもリアルで詳細な画像を生成する、教師あり画像復元の新しい定式化である。
これは、生成的ノイズ拡散モデルと同様に、小さなステップで画像品質を徐々に改善することで実現している。
画像復元は、複数の高品質画像が与えられた低品質入力を再現できるような不適切な問題である。
したがって、単一の段階回帰モデルの結果は、通常、全ての可能な説明の集まりであり、したがって詳細と現実主義を欠いている。
InDIの主な利点は、単一のステップでクリーンなターゲット画像を予測するのではなく、小さなステップで徐々に画像を改善し、知覚的品質を向上させることである。
生成的減数化拡散モデルも小さなステップで作用するが、この定式化は分解過程の分析形式に関する知識を必要としないという点で異なる。
代わりに、低品質で高品質なペアリング例から反復的な復元プロセスを直接学習します。
InDIは、ペアのトレーニングデータから、事実上どんな画像劣化にも適用できる。
条件付き復調拡散画像復元において、劣化した入力に基づいて条件付き純雑音の初期画像を繰り返し復調して復調した画像を生成する。
条件付きデノージングの定式化とは対照的に、indiは入力された低品質の画像を反復的に復元し、動きや焦点外デブローリング、超解像、圧縮アーティファクト除去、デノージングなど様々な画像復元タスクで高品質な結果を生成することで直接進行する。 Inversion by Direct Iteration (InDI) is a new formulation for supervised image restoration that avoids the so-called ``regression to the mean'' effect and produces more realistic and detailed images than existing regression-based methods. It does this by gradually improving image quality in small steps, similar to generative denoising diffusion models. Image restoration is an ill-posed problem where multiple high-quality images are plausible reconstructions of a given low-quality input. Therefore, the outcome of a single step regression model is typically an aggregate of all possible explanations, therefore lacking details and realism. The main advantage of InDI is that it does not try to predict the clean target image in a single step but instead gradually improves the image in small steps, resulting in better perceptual quality. While generative denoising diffusion models also work in small steps, our formulation is distinct in that it does not require knowledge of any analytic form of the degradation process. Instead, we directly learn an iterative restoration process from low-quality and high-quality paired examples. InDI can be applied to virtually any image degradation, given paired training data. In conditional denoising diffusion image restoration the denoising network generates the restored image by repeatedly denoising an initial image of pure noise, conditioned on the degraded input. Contrary to conditional denoising formulations, InDI directly proceeds by iteratively restoring the input low-quality image, producing high-quality results on a variety of image restoration tasks, including motion and out-of-focus deblurring, super-resolution, compression artifact removal, and denoising. | 翻訳日:2023-06-26 17:06:18 公開日:2023-06-22 |
# 連続測定による量子ドット型単一光子源の改良 Improving quantum dot based single-photon source with continuous measurements ( http://arxiv.org/abs/2306.05676v2 ) ライセンス: Link先を確認 | Anirudh Lanka and Todd Brun | (参考訳) そこで本研究では,光マイクロキャビティにおける電子励起量子ドットを用いた単一光子放出の確率向上のための手法を提案する。
目標は、2つ以上の光子の確率を制限しながら単光子放出の確率を高めることである。
我々は,計測後の演算を含む確率的マスタ方程式によってシステムをモデル化する。
理想的には、フィードバックは連続的な測定記録全体に基づいて行われるべきだが、実際にそのような処理をリアルタイムで行うのは難しいかもしれない。
測定値を用いた単純なしきい値に基づくフィードバック方式であっても,決定論的(オープンループ)ポンピングよりも性能が向上することを示す。
この技術は、電気ポンプの場合と同様に、ポンプの速度が低い強いドットキャビティカップリングに特に有用である。
また、多数の量子軌道を平均化するのではなく、単一のマスター方程式でアンサンブル平均化を行うことができるため、数値的にも抽出可能である。 We propose a technique to improve the probability of single-photon emission with an electrically pumped quantum dot in an optical microcavity, by continuously monitoring the energy state of the dot and using feedback to control when to stop pumping. The goal is to boost the probability of single-photon emission while bounding the probability of two or more photons. We model the system by a stochastic master equation that includes post-measurement operations. Ideally, feedback should be based on the entire continuous measurement record, but in practice, it may be difficult to do such processing in real-time. We show that even a simple threshold-based feedback scheme using measurements at a single time can improve performance over deterministic (open-loop) pumping. This technique is particularly useful for strong dot-cavity coupling with lower rates of pumping, as can be the case for electrical pumping. It is also numerically tractable since we can perform ensemble averaging with a single master equation rather than averaging over a large number of quantum trajectories. | 翻訳日:2023-06-26 16:55:35 公開日:2023-06-22 |
# 視覚言語モデルは自然映像からドライバーの注意をそらす行動を識別する Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos ( http://arxiv.org/abs/2306.10159v2 ) ライセンス: Link先を確認 | Md Zahid Hasan, Jiajing Chen, Jiyang Wang, Mohammed Shaiqur Rahman, Ameya Joshi, Senem Velipasalar, Chinmay Hegde, Anuj Sharma, Soumik Sarkar | (参考訳) 現実の運転シナリオにおける行動を認識し、注意をそらすことは、道路上のドライバーと歩行者の両方の安全と信頼性を確保するために重要である。
従来のコンピュータビジョン技術は通常、データ集約的であり、様々な注意をそらす運転行動を検出し分類するために大量の注釈付きトレーニングデータを必要とするため、その効率とスケーラビリティは制限される。
我々は,限定的あるいは無注釈のトレーニングデータにアクセスして,堅牢なパフォーマンスを示す汎用フレームワークの開発を目指している。
近年,視覚言語モデルでは,運転行動認識などのタスク固有の学習に適応可能な大規模視覚テキスト事前学習が提供されている。
CLIPのような視覚言語事前学習モデルは、自然言語による視覚表現の学習において大きな可能性を示している。
本稿では,自然主義的な運転映像と映像からドライバの注意をそらすクリップベースの運転行動認識手法を提案する。
CLIPのビジョン埋め込みはゼロショット転送とタスクベースの微調整を提供する。
その結果,このフレームワークは,ゼロショット転送における最先端のパフォーマンスと,2つの公開データセット上でのドライバの状態を予測するビデオベースのクリップを提供する。
本稿では,CLIPの視覚表現をベースとしたフレームベースとビデオベースの両方のフレームワークを提案する。 Recognizing the activities, causing distraction, in real-world driving scenarios is critical for ensuring the safety and reliability of both drivers and pedestrians on the roadways. Conventional computer vision techniques are typically data-intensive and require a large volume of annotated training data to detect and classify various distracted driving behaviors, thereby limiting their efficiency and scalability. We aim to develop a generalized framework that showcases robust performance with access to limited or no annotated training data. Recently, vision-language models have offered large-scale visual-textual pretraining that can be adapted to task-specific learning like distracted driving activity recognition. Vision-language pretraining models, such as CLIP, have shown significant promise in learning natural language-guided visual representations. This paper proposes a CLIP-based driver activity recognition approach that identifies driver distraction from naturalistic driving images and videos. CLIP's vision embedding offers zero-shot transfer and task-based finetuning, which can classify distracted activities from driving video data. Our results show that this framework offers state-of-the-art performance on zero-shot transfer and video-based CLIP for predicting the driver's state on two public datasets. We propose both frame-based and video-based frameworks developed on top of the CLIP's visual representation for distracted driving detection and classification task and report the results. | 翻訳日:2023-06-26 16:45:10 公開日:2023-06-22 |
# 半自己回帰型エネルギーフローの探索 : 正規化フローの自由なトレーニング Semi-Autoregressive Energy Flows: Exploring Likelihood-Free Training of Normalizing Flows ( http://arxiv.org/abs/2206.06672v2 ) ライセンス: Link先を確認 | Phillip Si, Zeyi Chen, Subham Sekhar Sahoo, Yair Schiff, Volodymyr Kuleshov | (参考訳) 計算コストの高いヤコビ行列式を計算する必要があるため、フロー生成モデルの正規化のトレーニングは困難である。
本稿では,フローの確率フリーなトレーニングについて検討し,適切なスコアリングルールに基づく代替サンプルベース損失のエネルギー目標を提案する。
エネルギー目的は非決定的であり、半自己回帰的エネルギーフローや完全自己回帰的モデルと非自己回帰的モデルの間を補間する新しいモデルファミリを含む、最大可能性トレーニングと容易に互換性のないフレキシブルモデルアーキテクチャをサポートする。
エネルギーフローは、競合的なサンプル品質、後続推定、そして確率に基づくフローに対する生成速度を特徴としており、この性能は概して非常に貧弱なログライクメント推定の品質とは関係がない。
本研究は,最大可能性の使用を目的や計量として疑問視し,生成的モデリングにおけるその役割に関する科学的研究に寄与する。 Training normalizing flow generative models can be challenging due to the need to calculate computationally expensive determinants of Jacobians. This paper studies the likelihood-free training of flows and proposes the energy objective, an alternative sample-based loss based on proper scoring rules. The energy objective is determinant-free and supports flexible model architectures that are not easily compatible with maximum likelihood training, including semi-autoregressive energy flows, a novel model family that interpolates between fully autoregressive and non-autoregressive models. Energy flows feature competitive sample quality, posterior inference, and generation speed relative to likelihood-based flows; this performance is decorrelated from the quality of log-likelihood estimates, which are generally very poor. Our findings question the use of maximum likelihood as an objective or a metric, and contribute to a scientific study of its role in generative modeling. | 翻訳日:2023-06-26 15:02:03 公開日:2023-06-22 |
# 人工物の設計--一般知能の生物学的根源から学ぶ Design of the Artificial: lessons from the biological roots of general intelligence ( http://arxiv.org/abs/1703.02245v3 ) ライセンス: Link先を確認 | Nima Dehghani | (参考訳) 知的な機械に対する私たちの興味は、アリストテレスの機械思考のモード(シルロジズム)とアレクサンドリアの機械機械のヘロンという神話のオートマトン・タロスによって、古代にさかのぼる。
しかし、ai(artificial general intelligence, agi)の探求は繰り返し失敗に苦しめられている。
近年,バイオインスパイアされたソフトウェアやハードウェアへのシフトが進んでいるが,その特異な設計の焦点は,AGIの達成に非効率である。
AGIの設計においてどの要件を満たす必要があるか?
人工物の設計の限界は何か?
生物学的システムにおける計算の精査は、階層的アーキテクチャによって実現された情報の文脈的処理の進化的ティンカー化がAGI構築の鍵であることを示唆している。 Our fascination with intelligent machines goes back to ancient times with the mythical automaton Talos, Aristotle's mode of mechanical thought (syllogism) and Heron of Alexandria's mechanical machines. However, the quest for Artificial General Intelligence (AGI) has been troubled with repeated failures. Recently, there has been a shift towards bio-inspired software and hardware, but their singular design focus makes them inefficient in achieving AGI. Which set of requirements have to be met in the design of AGI? What are the limits in the design of the artificial? A careful examination of computation in biological systems suggests that evolutionary tinkering of contextual processing of information enabled by a hierarchical architecture is key to building AGI. | 翻訳日:2023-06-26 15:00:44 公開日:2023-06-22 |
# 確率帯域における最高の腕識別:$\beta-$optimalityを超える Best Arm Identification in Stochastic Bandits: Beyond $\beta-$optimality ( http://arxiv.org/abs/2301.03785v2 ) ライセンス: Link先を確認 | Arpan Mukherjee and Ali Tajer | (参考訳) 本稿では,固定信頼度設定における確率的マルチアームバンディットにおけるベストアーム識別(BAI)の非適応的側面について検討する。
帯域幅アルゴリズムを評価する2つの重要な指標は、計算効率と性能最適性(例:サンプル複雑性)である。
確率的bai文学では最適性能を達成するアルゴリズムの設計が進歩してきたが、一般に計算コストが高い(最適化に基づく手法など)。
高い計算効率を持つアプローチもあるが、最適性能(例えば、上位2つの手法における$\beta$-Optimalアプローチ)には証明可能なギャップがある。
本稿では,計算効率の高い決定規則群を用いて最適な性能を実現するためのフレームワークとアルゴリズムを提案する。
これを促進する中心的なプロセスは、最適な割り当てを十分な忠実度まで逐次推定するルーチンである。
特に、これらの推定は最適なアームを識別するのに十分正確であるが、過剰な計算の複雑さを生じさせる不要な範囲に過度に正確ではない。
さらに、既存の関連文献は指数分布の族に焦点をあてている。
本稿では, 平均値によってパラメータ化された任意の分布列のより一般的な設定について考察する。
最適性は解析的に確立され、解析保証を評価し、既存のものと性能を比較する数値評価が行われる。 This paper investigates a hitherto unaddressed aspect of best arm identification (BAI) in stochastic multi-armed bandits in the fixed-confidence setting. Two key metrics for assessing bandit algorithms are computational efficiency and performance optimality (e.g., in sample complexity). In stochastic BAI literature, there have been advances in designing algorithms to achieve optimal performance, but they are generally computationally expensive to implement (e.g., optimization-based methods). There also exist approaches with high computational efficiency, but they have provable gaps to the optimal performance (e.g., the $\beta$-optimal approaches in top-two methods). This paper introduces a framework and an algorithm for BAI that achieves optimal performance with a computationally efficient set of decision rules. The central process that facilitates this is a routine for sequentially estimating the optimal allocations up to sufficient fidelity. Specifically, these estimates are accurate enough for identifying the best arm (hence, achieving optimality) but not overly accurate to an unnecessary extent that creates excessive computational complexity (hence, maintaining efficiency). Furthermore, the existing relevant literature focuses on the family of exponential distributions. This paper considers a more general setting of any arbitrary family of distributions parameterized by their mean values (under mild regularity conditions). The optimality is established analytically, and numerical evaluations are provided to assess the analytical guarantees and compare the performance with those of the existing ones. | 翻訳日:2023-06-26 14:56:51 公開日:2023-06-22 |
# htrモデルトレーニングの課題:project donner le gout de l'archive a l'ere numeriqueからのフィードバック The Challenges of HTR Model Training: Feedback from the Project Donner le gout de l'archive a l'ere numerique ( http://arxiv.org/abs/2212.11146v3 ) ライセンス: Link先を確認 | Couture Beatrice, Verret Farah, Gohier Maxime, Deslandres Dominique | (参考訳) 手書き認識技術の登場は、遺産研究に新たな可能性をもたらす。
しかし現在では,研究チームが開発した経験や実践を振り返る必要がある。
2018年以来、transkribusプラットフォームを使用することで、17世紀のフランスの手書き文字を書写するために作られた手書きテキスト認識(htr)モデルのパフォーマンスを向上させる最も重要な方法を探すことができました。
そこで本稿では,トランスクリプションプロトコルの作成,言語モデルの利用,htrモデルの性能向上のためにベースモデルを使用する最善の方法を決定することの影響について報告する。
これらの要素をすべて組み合わせることで、1つのモデルの性能を20%以上向上させることができる(キャラクタエラー率を5%以下にする)。
本稿では、TranskribusのようなHTRプラットフォームの協調的な性質や、手書きテキスト認識モデルの作成やトレーニングの過程で生成されたデータを研究者が共有する方法についても論じる。 The arrival of handwriting recognition technologies offers new possibilities for research in heritage studies. However, it is now necessary to reflect on the experiences and the practices developed by research teams. Our use of the Transkribus platform since 2018 has led us to search for the most significant ways to improve the performance of our handwritten text recognition (HTR) models which are made to transcribe French handwriting dating from the 17th century. This article therefore reports on the impacts of creating transcribing protocols, using the language model at full scale and determining the best way to use base models in order to help increase the performance of HTR models. Combining all of these elements can indeed increase the performance of a single model by more than 20% (reaching a Character Error Rate below 5%). This article also discusses some challenges regarding the collaborative nature of HTR platforms such as Transkribus and the way researchers can share their data generated in the process of creating or training handwritten text recognition models. | 翻訳日:2023-06-26 14:56:27 公開日:2023-06-22 |
# 音声・マルチモーダルデータを用いた抑うつの頑健で偏見のない予測のためのベイズネットワークとその症状 Bayesian Networks for the robust and unbiased prediction of depression and its symptoms utilizing speech and multimodal data ( http://arxiv.org/abs/2211.04924v2 ) ライセンス: Link先を確認 | Salvatore Fara, Orlaith Hickey, Alexandra Georgescu, Stefano Goria, Emilia Molimpakis, Nicholas Cummins | (参考訳) 行動的および認知的信号を用いた大うつ病性障害(mdd)の存在の予測は非常に非自明な作業である。
MDDの異種臨床プロファイルは、任意の音声、表情、および/または観察された認知パターンが、うつ症状のユニークな組み合わせと関連していることを意味する。
従来の判別機械学習モデルは、この異質性を堅牢にモデル化する複雑さを欠いている可能性がある。
しかし、ベイジアンネットワークはそのようなシナリオに適しているかもしれない。
これらのネットワークは確率的グラフィカルモデルであり、条件依存を明示的に捉えることにより、確率変数の集合上の合同確率分布を効率的に記述する。
このフレームワークは、モデルのグラフィカルな構造に専門家の意見を組み込む可能性を提供し、説明可能なモデル予測を生成し、予測の不確実性について通知し、欠落したデータを自然に処理することで、標準的な差別的モデリングよりもさらなる利点を提供する。
本研究では,抑うつ,抑うつ症状,胸腺で収集された発話,表情,認知ゲームデータから得られた特徴との関係を捉えるために,ベイズ的枠組みを適用した。 Predicting the presence of major depressive disorder (MDD) using behavioural and cognitive signals is a highly non-trivial task. The heterogeneous clinical profile of MDD means that any given speech, facial expression and/or observed cognitive pattern may be associated with a unique combination of depressive symptoms. Conventional discriminative machine learning models potentially lack the complexity to robustly model this heterogeneity. Bayesian networks, however, may instead be well-suited to such a scenario. These networks are probabilistic graphical models that efficiently describe the joint probability distribution over a set of random variables by explicitly capturing their conditional dependencies. This framework provides further advantages over standard discriminative modelling by offering the possibility to incorporate expert opinion in the graphical structure of the models, generating explainable model predictions, informing about the uncertainty of predictions, and naturally handling missing data. In this study, we apply a Bayesian framework to capture the relationships between depression, depression symptoms, and features derived from speech, facial expression and cognitive game data collected at thymia. | 翻訳日:2023-06-26 14:55:41 公開日:2023-06-22 |
# 監督信号のインフォメーション性について On the Informativeness of Supervision Signals ( http://arxiv.org/abs/2211.01407v2 ) ライセンス: Link先を確認 | Ilia Sucholutsky and Ruairidh M. Battleday and Katherine M. Collins and Raja Marjieh and Joshua C. Peterson and Pulkit Singh and Umang Bhatt and Nori Jacoby and Adrian Weller and Thomas L. Griffiths | (参考訳) 教師付き学習は通常、人間が注釈を付けたトレーニング例から転送可能な表現を学ぶことに焦点を当てる。
リッチアノテーション(ソフトラベルなど)は(ハードラベルのような)スパースアノテーションよりも多くの情報を持っているが、収集するコストも高い。
例えば、ハードラベルは、オブジェクトが属する最も近いクラスに関する情報のみを提供する(例:「犬である」)が、ソフトラベルは、オブジェクトと複数のクラスとの関係に関する情報を提供する(例:「これは犬である可能性が高いが、オオカミやコヨーテでもある」)。
我々は情報理論を用いて、多くの一般的な監視信号が表現学習のパフォーマンスにどのように寄与するか、また、ラベル数、クラス数、寸法数、ノイズなどの要因によってその能力がどのように影響を受けるかを比較する。
当社のフレームワークは,ビッグデータ環境においてハードラベルを使用するための理論的正当化を提供するが,少ない学習と分散一般化のためのよりリッチな監督信号を提供する。
我々は,100万以上のクラウドソース画像アノテーションを用いた一連の実験において,これらの結果を実証的に検証し,コスト便益分析を行い,ユーザが自身のデータセットで表現学習を監督するコストを最適化できるトレードオフ曲線を確立する。 Supervised learning typically focuses on learning transferable representations from training examples annotated by humans. While rich annotations (like soft labels) carry more information than sparse annotations (like hard labels), they are also more expensive to collect. For example, while hard labels only provide information about the closest class an object belongs to (e.g., "this is a dog"), soft labels provide information about the object's relationship with multiple classes (e.g., "this is most likely a dog, but it could also be a wolf or a coyote"). We use information theory to compare how a number of commonly-used supervision signals contribute to representation-learning performance, as well as how their capacity is affected by factors such as the number of labels, classes, dimensions, and noise. Our framework provides theoretical justification for using hard labels in the big-data regime, but richer supervision signals for few-shot learning and out-of-distribution generalization. We validate these results empirically in a series of experiments with over 1 million crowdsourced image annotations and conduct a cost-benefit analysis to establish a tradeoff curve that enables users to optimize the cost of supervising representation learning on their own datasets. | 翻訳日:2023-06-26 14:55:21 公開日:2023-06-22 |
# GAN生成試料の多様性を選択的に増大させる Selectively increasing the diversity of GAN-generated samples ( http://arxiv.org/abs/2207.01561v3 ) ライセンス: Link先を確認 | Jan Dubi\'nski, Kamil Deja, Sandro Wenzel, Przemys{\l}aw Rokita, Tomasz Trzci\'nski | (参考訳) generative adversarial network (gans) は、実データ分布によく似たデータサンプルを合成できる強力なモデルであるが、gansで観測されるモード崩壊現象によって生成されたサンプルの多様性は限られている。
特にモード崩壊の傾向は条件付きGANであり、入力ノイズベクトルを無視して条件情報に集中する傾向がある。
この制限を緩和する最近の手法は、生成したサンプルの多様性を高めるが、サンプルの類似性が必要な場合、モデルの性能を低下させる。
そこで本研究では,GAN生成サンプルの多様性を選択的に向上する手法を提案する。
トレーニング損失関数にシンプルで効果的な正規化を加えることで、生成元は多様な出力に関連する入力の新しいデータモードを発見し、残りのデータに対して一貫性のあるサンプルを生成することを推奨します。
より正確には、与えられた条件付き入力に対するサンプルの多様性に応じて効果をスケールする入力潜在ベクトルと生成画像間の距離の比率を最大化する。
LHC,CERNにおけるALICE実験のZero Degree Calorimeterから得られたデータをシミュレーションする実生活シナリオとともに,本手法の優位性を示す。 Generative Adversarial Networks (GANs) are powerful models able to synthesize data samples closely resembling the distribution of real data, yet the diversity of those generated samples is limited due to the so-called mode collapse phenomenon observed in GANs. Especially prone to mode collapse are conditional GANs, which tend to ignore the input noise vector and focus on the conditional information. Recent methods proposed to mitigate this limitation increase the diversity of generated samples, yet they reduce the performance of the models when similarity of samples is required. To address this shortcoming, we propose a novel method to selectively increase the diversity of GAN-generated samples. By adding a simple, yet effective regularization to the training loss function we encourage the generator to discover new data modes for inputs related to diverse outputs while generating consistent samples for the remaining ones. More precisely, we maximise the ratio of distances between generated images and input latent vectors scaling the effect according to the diversity of samples for a given conditional input. We show the superiority of our method in a synthetic benchmark as well as a real-life scenario of simulating data from the Zero Degree Calorimeter of ALICE experiment in LHC, CERN. | 翻訳日:2023-06-26 14:54:41 公開日:2023-06-22 |
# TRECVID 2022における評価映像検索タスクの概要 An overview on the evaluated video retrieval tasks at TRECVID 2022 ( http://arxiv.org/abs/2306.13118v1 ) ライセンス: Link先を確認 | George Awad, Keith Curtis, Asad Butt, Jonathan Fiscus, Afzal Godil, Yooyoung Lee, Andrew Delgado, Eliot Godard, Lukas Diduch, Jeffrey Liu, Yvette Graham, Georges Quenot | (参考訳) trec video search evaluation (trecvid) はtrecスタイルのビデオ解析および検索評価であり、metrologyが支援するタスクベースのオープン評価によるデジタルビデオからのコンテンツベースの搾取および検索の研究開発の進展を促進することを目的としている。
過去21年間でこの取り組みは、システムがそのような処理を効果的に達成し、パフォーマンスを確実にベンチマークする方法をよりよく理解した。
TRECVIDはNIST(National Institute of Standards and Technology)や他の米国政府機関から資金提供を受けている。
加えて、世界中の多くの組織や個人が多大な時間と労力を費やしている。
TRECVID 2022は、アドホックなビデオ検索、テキストキャプションへのビデオ、災害現場の説明と索引付け、拡張ビデオでのアクティビティ、深いビデオ理解、映画要約の6つのタスクを計画した。
全世界のさまざまな研究機関の35チームが参加し、今年の評価キャンペーンに参加した。
本稿では,タスク,データセット,評価フレームワーク,メトリクス,高レベルな結果の概要を紹介する。 The TREC Video Retrieval Evaluation (TRECVID) is a TREC-style video analysis and retrieval evaluation with the goal of promoting progress in research and development of content-based exploitation and retrieval of information from digital video via open, tasks-based evaluation supported by metrology. Over the last twenty-one years this effort has yielded a better understanding of how systems can effectively accomplish such processing and how one can reliably benchmark their performance. TRECVID has been funded by NIST (National Institute of Standards and Technology) and other US government agencies. In addition, many organizations and individuals worldwide contribute significant time and effort. TRECVID 2022 planned for the following six tasks: Ad-hoc video search, Video to text captioning, Disaster scene description and indexing, Activity in extended videos, deep video understanding, and movie summarization. In total, 35 teams from various research organizations worldwide signed up to join the evaluation campaign this year. This paper introduces the tasks, datasets used, evaluation frameworks and metrics, as well as a high-level results overview. | 翻訳日:2023-06-26 14:46:35 公開日:2023-06-22 |
# 水素脆化のための機械学習圧力エミュレータ A Machine Learning Pressure Emulator for Hydrogen Embrittlement ( http://arxiv.org/abs/2306.13116v1 ) ライセンス: Link先を確認 | Minh Triet Chau and Jo\~ao Lucas de Sousa Almeida and Elie Alhajjar and Alberto Costa Nogueira Junior | (参考訳) 天然ガスと混合した水素輸送の最近の代替手段は、天然ガスパイプラインに混入している。
しかし、水素の脆化は、科学者やガスインスタレーションの設計者がプロセスの故障を避ける上で大きな関心事である。
本稿では,管内壁のガス圧を予測する物理インフォームド機械学習モデルを提案する。
高忠実な結果にもかかわらず、現在のPDEベースのシミュレータは時間と計算に要求される。
シミュレーションデータを用いて,パイプライン内壁の圧力を予測するためのmlモデルをトレーニングする。
その結果, 物理法は純粋にデータ駆動法より優れ, ガス流系の物理的制約を満たすことがわかった。 A recent alternative for hydrogen transportation as a mixture with natural gas is blending it into natural gas pipelines. However, hydrogen embrittlement of material is a major concern for scientists and gas installation designers to avoid process failures. In this paper, we propose a physics-informed machine learning model to predict the gas pressure on the pipes' inner wall. Despite its high-fidelity results, the current PDE-based simulators are time- and computationally-demanding. Using simulation data, we train an ML model to predict the pressure on the pipelines' inner walls, which is a first step for pipeline system surveillance. We found that the physics-based method outperformed the purely data-driven method and satisfy the physical constraints of the gas flow system. | 翻訳日:2023-06-26 14:46:16 公開日:2023-06-22 |
# 自動プロンプティングを再考する: 私たちは本当に良くなるのか? Revisiting Automated Prompting: Are We Actually Doing Better? ( http://arxiv.org/abs/2304.03609v2 ) ライセンス: Link先を確認 | Yulin Zhou, Yiren Zhao, Ilia Shumailov, Robert Mullins, Yarin Gal | (参考訳) 現在の文献では、大規模言語モデル(llm)は優れた少数ショット学習者であり、少数ショット学習環境では、ダウンストリームタスクのパフォーマンスを大幅に向上させる。
人間の主導によるプロンプトを自動化する試みが続き、いくつかの進歩が達成された。
特に、その後の研究は、特定のKショット学習シナリオにおいて、自動化が微調整よりも優れていることを示した。
本稿では,6つの異なるダウンストリームタスクとより広い範囲のkショット学習設定を自動プロンプトする手法を再検討する。
自動プロンプトは単純な手動プロンプトを一貫して上回るものではない。
我々の研究は、微調整に加えて、手動のプロンプトをこの研究のベースラインとして使うべきであることを示唆している。 Current literature demonstrates that Large Language Models (LLMs) are great few-shot learners, and prompting significantly increases their performance on a range of downstream tasks in a few-shot learning setting. An attempt to automate human-led prompting followed, with some progress achieved. In particular, subsequent work demonstrates automation can outperform fine-tuning in certain K-shot learning scenarios. In this paper, we revisit techniques for automated prompting on six different downstream tasks and a larger range of K-shot learning settings. We find that automated prompting does not consistently outperform simple manual prompts. Our work suggests that, in addition to fine-tuning, manual prompts should be used as a baseline in this line of research. | 翻訳日:2023-06-26 14:44:10 公開日:2023-06-22 |
# 分割注意:文脈分離スロットによる教師なし多目的発見 Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots ( http://arxiv.org/abs/2304.01430v2 ) ライセンス: Link先を確認 | Dong Lao, Zhengyang Hu, Francesco Locatello, Yanchao Yang, Stefano Soatto | (参考訳) 本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
スロットアテンションに基づく逆条件エンコーダ-デコーダアーキテクチャで構成され、イメージ自体を再構築せずに光学フローをデコードするためのコンテキストとしてイメージを使用するように変更された。
結果として得られるマルチモーダル表現では、1つのモダリティ(フロー)がエンコーダに別々の潜在コード(スロット)を生成させ、もう1つのモダリティ(イメージ)はデコーダにスロットから最初の(フロー)を生成するように条件づける。
この設計により、シーンの照明特性や反射特性などにより、画像中の複雑なニュアンス変動を符号化する必要がなくなる。
再構成誤差の最小化に基づく慣習的自動符号化は,フロー全体が単一スロットに符号化されるのを妨げないため,コンテキスト情報分離に基づく対向的基準の変更を行う。
その結果、min-max最適化により、オブジェクトの分離と異なるアテンションスロットへの割り当てが促進され、Divided Attention(DivA)につながる。
DivAは、最新の教師なしマルチオブジェクト動作セグメンテーション手法よりも優れており、実行時の速度は104FPSまで向上し、教師付き手法から12%以下のパフォーマンスギャップを減らしている。
DivAは、トレーニングやテスト時に異なるオブジェクトの数と異なるイメージサイズを処理でき、オブジェクトラベルの置換に不変であり、明示的な正規化を必要としない。 We introduce a method to segment the visual field into independently moving regions, trained with no ground truth or supervision. It consists of an adversarial conditional encoder-decoder architecture based on Slot Attention, modified to use the image as context to decode optical flow without attempting to reconstruct the image itself. In the resulting multi-modal representation, one modality (flow) feeds the encoder to produce separate latent codes (slots), whereas the other modality (image) conditions the decoder to generate the first (flow) from the slots. This design frees the representation from having to encode complex nuisance variability in the image due to, for instance, illumination and reflectance properties of the scene. Since customary autoencoding based on minimizing the reconstruction error does not preclude the entire flow from being encoded into a single slot, we modify the loss to an adversarial criterion based on Contextual Information Separation. The resulting min-max optimization fosters the separation of objects and their assignment to different attention slots, leading to Divided Attention, or DivA. DivA outperforms recent unsupervised multi-object motion segmentation methods while tripling run-time speed up to 104FPS and reducing the performance gap from supervised methods to 12% or less. DivA can handle different numbers of objects and different image sizes at training and test time, is invariant to permutation of object labels, and does not require explicit regularization. | 翻訳日:2023-06-26 14:43:58 公開日:2023-06-22 |
# 任意の次元における可解BCS-Hubbard Lindbladians Solvable BCS-Hubbard Lindbladians in arbitrary dimensions ( http://arxiv.org/abs/2306.13148v1 ) ライセンス: Link先を確認 | Xu-Dong Dai, Fei Song, Zhong Wang | (参考訳) 本稿では,任意の次元の可解リンドブラッドモデルの構成について述べる。リンドブラッドモデルは虚数相互作用を特徴とするbcs-ハバードモデルにマッピングできる。
システムのヒルベルト空間は複数のセクタに分割され、それぞれがオンサイト不変な構成で特徴づけられる。
このモデルは全ての空間次元において双安定な定常状態を示し、フェルミオン数パリティによって保証される。
特に、リウヴィリアの隙間はゼノ転移を示し、その下にあるリウヴィリアの隙間は散逸に関して線型である。
1次元では、ギャップはスペクトル交差を持つ複数のセクタから始まり、より高い次元では1つのセクタがギャップを決定する。 We present the construction of a solvable Lindblad model in arbitrary dimensions, wherein the Lindbladian can be mapped to a BCS-Hubbard model featuring an imaginary interaction. The Hilbert space of the system can be divided into multiple sectors, each characterized by an onsite invariant configuration. The model exhibits bistable steady states in all spatial dimensions, which is guaranteed by the fermion-number parity. Notably, the Liouvillian gap exhibits a Zeno transition, below which the Liouvillian gap is linear with respect to the dissipation. We also uncover a generic dimension-dependent gap behavior: In one dimension, the gap originates from multiple sectors with spectral crossing; in higher dimensions, a single sector determines the gap. | 翻訳日:2023-06-26 14:38:28 公開日:2023-06-22 |
# ディック状態のエントロピー円錐と絡み合い進化 Entropy Cones and Entanglement Evolution for Dicke States ( http://arxiv.org/abs/2306.13146v1 ) ライセンス: Link先を確認 | William Munizzi, Howard J. Schnitzer | (参考訳) N$-qubit Dicke state $|D^N_k\rangle$, of Hamming-weight $k$は量子アルゴリズムの最適化において重要な役割を果たす絡み合った状態のクラスである。
ディッケ状態における絡み合いエントロピーの一般計算を行い, |d^n_k\rangle$エントロピー円錐を記述する。
我々は、すべての$|D^N_k\rangle$エントロピーベクトルが対称化されることを示し、これを用いて、$|D^N_k\rangle$エントロピーベクトルを実現するスターグラフ上のmin-cutプロトコルを定義する。
すべての$|D^N_k\rangle$に対する安定化群を、$N$-qubit Pauli群と2-qubit Clifford群の作用の下で同定し、$|D^N_k\rangle$リーチビリティグラフを構成する。
これらの到達可能性グラフを用いて、クリフォード回路における$|d^n_k\rangle$エントロピーベクトルの進化を解析・束縛する。 The $N$-qubit Dicke states $|D^N_k\rangle$, of Hamming-weight $k$, are a class of entangled states which play an important role in quantum algorithm optimization. We present a general calculation of entanglement entropy in Dicke states, which we use to describe the $|D^N_k\rangle$ entropy cone. We demonstrate that all $|D^N_k\rangle$ entropy vectors emerge symmetrized, and use this to define a min-cut protocol on star graphs which realizes $|D^N_k\rangle$ entropy vectors. We identify the stabilizer group for all $|D^N_k\rangle$, under the action of the $N$-qubit Pauli group and two-qubit Clifford group, which we use to construct $|D^N_k\rangle$ reachability graphs. We use these reachability graphs to analyze and bound the evolution of $|D^N_k\rangle$ entropy vectors in Clifford circuits. | 翻訳日:2023-06-26 14:38:15 公開日:2023-06-22 |
# データスワップのヘイトスケーリング法則について On Hate Scaling Laws For Data-Swamps ( http://arxiv.org/abs/2306.13141v1 ) ライセンス: Link先を確認 | Abeba Birhane, Vinay Prabhu, Sang Han, Vishnu Naresh Boddeti | (参考訳) 「モデルをスケールし、データをスケールし、GPUファームをスケール」は、今日の生成AIの世界における支配的な感情である。
モデルスケーリングは広く研究されているが、データスケーリングとその下流への影響はまだ検討中である。
これは、主要なソースがWorld Wide Webであり、CommonCrawlダンプとしてまとめてパッケージ化されている視覚言語データセットのコンテキストにおいて、特に重要である。
この大規模データダンプは、多くの欠点があることが知られているが、繰り返し採掘され、大規模生成モデルのデータメーザーロデとして機能する。
本稿では,
1)4億試料と20億試料を含むlaion-400mとlaion-2b-enの比較監査による憎悪コンテンツに対するデータセットのスケーリングの効果の検討
2)シカゴ・フェイス・データセット(CFD)を用いてトレーニングしたモデルの人種的偏りを測定することにより,これらのデータセット変種に基づいて訓練された視覚言語モデルに対するスケールのダウンストリームの影響を評価する。
私たちの結果は
1)データセットにおける憎悪コンテンツの存在は,pysentimiento hate-detection natural language processing (nlp)モデルの推論に基づくヘイトコンテンツ率 (hcr) 測定値を用いて測定すると,約12-%$で増加した。
2) 社会バイアスと負のステレオタイプは, 評価したモデルに対するスケールとともに悪化した。
スケールが大きくなるにつれて、人間の顔の画像と「人間」のクラスを関連付けるモデルが、他の7つの攻撃クラスを半分に減らす傾向が見られた。
さらに、黒人女性のカテゴリーでは、モデルが「犯罪」クラスと顔を関連付ける傾向が2倍になり、黒人男性の顔のクインツップリングは2倍になった。
我々は,モデル監査結果の質的・歴史的分析を行い,我々の発見とそのデータセットのキュレーション実践への影響を反映するとともに,この領域で実施すべき知見と今後の課題について概説する。 `Scale the model, scale the data, scale the GPU-farms' is the reigning sentiment in the world of generative AI today. While model scaling has been extensively studied, data scaling and its downstream impacts remain under explored. This is especially of critical importance in the context of visio-linguistic datasets whose main source is the World Wide Web, condensed and packaged as the CommonCrawl dump. This large scale data-dump, which is known to have numerous drawbacks, is repeatedly mined and serves as the data-motherlode for large generative models. In this paper, we: 1) investigate the effect of scaling datasets on hateful content through a comparative audit of the LAION-400M and LAION-2B-en, containing 400 million and 2 billion samples respectively, and 2) evaluate the downstream impact of scale on visio-linguistic models trained on these dataset variants by measuring racial bias of the models trained on them using the Chicago Face Dataset (CFD) as a probe. Our results show that 1) the presence of hateful content in datasets, when measured with a Hate Content Rate (HCR) metric on the inferences of the Pysentimiento hate-detection Natural Language Processing (NLP) model, increased by nearly $12\%$ and 2) societal biases and negative stereotypes were also exacerbated with scale on the models we evaluated. As scale increased, the tendency of the model to associate images of human faces with the `human being' class over 7 other offensive classes reduced by half. Furthermore, for the Black female category, the tendency of the model to associate their faces with the `criminal' class doubled, while quintupling for Black male faces. We present a qualitative and historical analysis of the model audit results, reflect on our findings and its implications for dataset curation practice, and close with a summary of our findings and potential future work to be done in this area. | 翻訳日:2023-06-26 14:37:52 公開日:2023-06-22 |
# 絡み合い膜からのページ曲線 The Page curve from the entanglement membrane ( http://arxiv.org/abs/2306.13140v1 ) ライセンス: Link先を確認 | Mike Blake and Anthony P. Thompson | (参考訳) カオス多体量子系から構築されたブラックホール情報の玩具モデルにおけるエンタングルメントダイナミクスについて,'エンタングルメント膜'と呼ばれるシステムにおけるエンタングルメントダイナミクスの粗粒度記述を用いて検討した。
これらのモデルにおいて、ホーキング放射のエントロピーに関連するページ曲線は、半古典的重力下でページ曲線に繋がる量子極端曲面の変化と類似した方法で、ページ時間周りのエンタングルメント膜における遷移から生じる。
また,hayden-preskillプロトコルの研究には,エンタングルメント膜処方薬を用い,ブラックホールにエンコードされた情報がどのようにしてページタイム前後の放射線に急速に伝達されるかを実証した。
この結果は,近年のブラックホール情報とカオス多体量子系の絡み合い力学の一般的な特徴に関連している。 We study entanglement dynamics in toy models of black hole information built out of chaotic many-body quantum systems, by utilising a coarse-grained description of entanglement dynamics in such systems known as the `entanglement membrane'. We show that in these models the Page curve associated to the entropy of Hawking radiation arises from a transition in the entanglement membrane around the Page time, in an analogous manner to the change in quantum extremal surfaces that leads to the Page curve in semi-classical gravity. We also use the entanglement membrane prescription to study the Hayden-Preskill protocol, and demonstrate how information initially encoded in the black hole is rapidly transferred to the radiation around the Page time. Our results relate recent developments in black hole information to generic features of entanglement dynamics in chaotic many-body quantum systems. | 翻訳日:2023-06-26 14:37:18 公開日:2023-06-22 |
# 非エルミートポンピングによるキンク線形応答 Kinked linear response from non-Hermitian pumping ( http://arxiv.org/abs/2306.13139v1 ) ライセンス: Link先を確認 | Fang Qin, Ruizhe Shen, Linhu Li, Ching Hua Lee | (参考訳) 非エルミティック性は、適切に修正された位相不変量を通じて位相境界モードの存在を予測する、修正された位相的バルク境界対応を引き起こすことが知られている。
しかし、非ヘルミティシティが波束全体のスペクトルフローを超える正確な線形応答にどのように影響するかは、現時点ではほとんど知られていない。
本研究では, 量子気体の半古典的波束軌道において, 突発的な物理的衝動が無くとも, 非ヘルミティクス性が突発的かつ顕著な近縁を生じることを発見した。
物理的には、全ての物理的カップリングが局所的であっても、非エルミート的ポンピングから受け継がれた内在的非局所性は、不連続なバンド形状とベリー曲率をもたらすバンド構造における謎めいた特異点をもたらす。
実測実験のために,レーザー誘起損失を伴う2次元光学格子における超低温原子配置を提案し,物理原子雲力学の微調整をせずに応答キンクを観察する。
以上の結果から,非エルミチアン励起による非エルミチアン励起による特異な非単調な挙動が示され,超低温原子プラットフォームにおける非エルミチアン動力学研究の新たな道筋が示唆された。 Non-Hermiticity is known to give rise to modified topological bulk-boundary correspondences, which predict the presence of topological boundary modes through appropriately modified topological invariants. Yet, little is currently known about how non-Hermiticity affects the precise linear response of wavepackets beyond their overall spectral flow. In this work, we discover that generically, non-Hermiticity gives rise to abrupt and prominent kinks in the semi-classical wavepacket trajectories of quantum gases, despite the absence of sudden physical impulses. This physically stems from a hitherto under-appreciated intrinsic non-locality from non-Hermitian pumping, even if all physical couplings are local, thereby resulting in enigmatic singularities in the band structure that lead to discontinuous band geometry and Berry curvature. For concrete experimental demonstration, we propose an ultracold atomic setup in a two-dimensional optical lattice with laser-induced loss, such that response kinks can be observed without fine-tuning in the physical atomic cloud dynamics. Our results showcases unique non-monotonic behavior from non-Hermitian pumping beyond the non-Hermitian skin effect, and suggests new avenues for investigating non-Hermitian dynamics in ultracold atomic platforms. | 翻訳日:2023-06-26 14:37:03 公開日:2023-06-22 |
# 量子断熱最適化のハードインスタンスに対する超指数ランタイムの回避 Circumventing superexponential runtimes for hard instances of quantum adiabatic optimization ( http://arxiv.org/abs/2306.13131v1 ) ライセンス: Link先を確認 | Benjamin F. Schiffer, Dominik S. Wild, Nishad Maskara, Madelyn Cain, Mikhail D. Lukin, Rhine Samajdar | (参考訳) 古典的な最適化問題は、問題を符号化する量子ハミルトニアンの基礎状態を作成することで解決することができる。
このアプローチのパフォーマンスは、進化中に遭遇した最小のギャップによって決定される。
ここでは、リドベルク原子配列を記述するハミルトニアンで効率的に符号化できる最大独立集合問題を考察する。
本稿では,最小ギャップがシステムサイズに超指数的に減衰する問題の例を概説し,断熱的進化による解への超指数的に大きな時間を示唆する。
この小さなギャップは、システムを最初に進化させ、ハミング距離の点で解から遠く離れた構成へと局所化する局所的な選択から生じる。
我々はこの問題に対する治療について調査する。
具体的には、これらのモデルの量子クエンチが量子多体傷のシグネチャを示し、それが超指数ギャップを回避できることを示す。
準最適構成からクエンチすることで、より大きな基底状態のオーバーラップ状態が作成でき、量子クエンチをアルゴリズムツールとして利用することができる。 Classical optimization problems can be solved by adiabatically preparing the ground state of a quantum Hamiltonian that encodes the problem. The performance of this approach is determined by the smallest gap encountered during the evolution. Here, we consider the maximum independent set problem, which can be efficiently encoded in the Hamiltonian describing a Rydberg atom array. We present a general construction of instances of the problem for which the minimum gap decays superexponentially with system size, implying a superexponentially large time to solution via adiabatic evolution. The small gap arises from locally independent choices, which cause the system to initially evolve and localize into a configuration far from the solution in terms of Hamming distance. We investigate remedies to this problem. Specifically, we show that quantum quenches in these models can exhibit signatures of quantum many-body scars, which in turn, can circumvent the superexponential gaps. By quenching from a suboptimal configuration, states with a larger ground state overlap can be prepared, illustrating the utility of quantum quenches as an algorithmic tool. | 翻訳日:2023-06-26 14:36:38 公開日:2023-06-22 |
# NISQデバイス上で非アーベル異性体を示すための提案 A proposal to demonstrate non-abelian anyons on a NISQ device ( http://arxiv.org/abs/2306.13129v1 ) ライセンス: Link先を確認 | Jovan Jovanovi\'c, Carolin Wille, Daan Timmers and Steven H. Simon | (参考訳) 本研究では,非アベリア異性体をNISQデバイス上で実現するための提案を提案する。
特に、量子二重モデル$D(D_4)$の実装の可能性を検討する。
我々は,エノンの操作と測定を劇的に単純化する手法を提案する。
現実的なノイズモデルを用いた数値シミュレーションでは、現在のNISQ技術は、非アベリア異性体のシグネチャを、ブレイドの非可換性のような要素的性質を超えて探すことができることが示唆されている。
特に、モデルの全モジュラーデータを実験的に測定することは可能であると結論づける。 In this work we present a proposal for realising non-Abelian anyons on a NISQ device. In particular we explore the feasibility of implementing the quantum double model $D(D_4)$. We propose techniques to drastically simplify the circuits for the manipulation and measurements of anyons. Numerical simulations with realistic noise models suggest that current NISQ technology is capable of probing signatures of non-Abelian anyons far beyond elemental properties such as the non-commutativity of braids. In particular, we conclude that experimentally measuring the full modular data of the model is feasible. | 翻訳日:2023-06-26 14:36:19 公開日:2023-06-22 |
# HamLib: 量子アルゴリズムとハードウェアのベンチマークのためのハミルトンのライブラリ HamLib: A library of Hamiltonians for benchmarking quantum algorithms and hardware ( http://arxiv.org/abs/2306.13126v1 ) ライセンス: Link先を確認 | Nicolas PD Sawaya, Daniel Marti-Dafcik, Yang Ho, Daniel P Tabor, David Bernal, Alicia B Magann, Shavindra Premaratne, Pradeep Dubey, Anne Matsuura, Nathan Bishop, Wibe A de Jong, Simon Benjamin, Ojas D Parekh, Norm Tubman, Katherine Klymko, Daan Camps | (参考訳) 計算ハードウェア、ソフトウェア、アルゴリズムを特徴付け、ベンチマークするためには、多くの問題インスタンスを手元に持つことが不可欠である。
これは量子計算に当てはまるものではなく、実世界の問題インスタンスの集合がベンチマーク研究を可能にし、アルゴリズムとハードウェアの設計の両方を改善するのに役立つ。
そこで本稿では,量子ハミルトニアンの大規模データセットを提案する。
HamLib(ハミルトン図書館)と呼ばれるこのデータセットは、オンラインで無料で利用可能であり、2から1000キュービットまでの問題サイズを含んでいる。
HamLibには、Heisenbergモデル、Fermi-Hubbardモデル、Bose-Hubbardモデル、分子電子構造、分子振動構造、MaxCut、Max-k-SAT、Max-k-Cut、QMaxCut、旅行セールスパーソンの問題が含まれている。
この努力の目標は
(a)問題インスタンスを作成してqubit表現にマップする必要をなくし、研究者の時間を節約する。
(b)新しいアルゴリズムやハードウェアのより徹底的なテストを可能にすること、及び
(c) 研究における再現性と標準化を可能にすること。 In order to characterize and benchmark computational hardware, software, and algorithms, it is essential to have many problem instances on-hand. This is no less true for quantum computation, where a large collection of real-world problem instances would allow for benchmarking studies that in turn help to improve both algorithms and hardware designs. To this end, here we present a large dataset of qubit-based quantum Hamiltonians. The dataset, called HamLib (for Hamiltonian Library), is freely available online and contains problem sizes ranging from 2 to 1000 qubits. HamLib includes problem instances of the Heisenberg model, Fermi-Hubbard model, Bose-Hubbard model, molecular electronic structure, molecular vibrational structure, MaxCut, Max-k-SAT, Max-k-Cut, QMaxCut, and the traveling salesperson problem. The goals of this effort are (a) to save researchers time by eliminating the need to prepare problem instances and map them to qubit representations, (b) to allow for more thorough tests of new algorithms and hardware, and (c) to allow for reproducibility and standardization across research studies. | 翻訳日:2023-06-26 14:36:02 公開日:2023-06-22 |
# フラットエネルギーランドスケープを用いた組合せ最適化のための量子スピードアップ Quantum speedup for combinatorial optimization with flat energy landscapes ( http://arxiv.org/abs/2306.13123v1 ) ライセンス: Link先を確認 | Madelyn Cain, Sambuddha Chattopadhyay, Jin-Guo Liu, Rhine Samajdar, Hannes Pichler, Mikhail D. Lukin | (参考訳) 古典的アナログを高速化して量子アルゴリズムを設計することは、量子情報科学における中心的な課題である。
超線形量子スピードアップの最近の実験的観測により、特定の単位円グラフインスタンス [ebadi et al., science 376,6598 (2022)] 上の最大独立集合問題を解くことに動機づけられ、最適化された量子断熱アルゴリズムと古典マルコフ連鎖モンテカルロアルゴリズムの相対的性能を解析するための理論的枠組みを開発した。
量子断熱アルゴリズムの条件を概説し、平坦な低エネルギーランドスケープを特徴とするハード問題インスタンスの2次高速化を実現し、量子スピードアップとスローダウンのいずれかのインスタンスを例示する。
次に、最適化された断熱アルゴリズムに符号問題のない局所ハミルトニアンを導入し、これらの難解な問題を解くために、古典的アニーリング、並列テンパリング、量子モンテカルロアルゴリズムの幅広いクラスで二次的なスピードアップを達成する。
最後に,この枠組みを用いて実験観測を行った。 Designing quantum algorithms with a speedup over their classical analogs is a central challenge in quantum information science. Motivated by recent experimental observations of a superlinear quantum speedup in solving the Maximum Independent Set problem on certain unit-disk graph instances [Ebadi et al., Science 376, 6598 (2022)], we develop a theoretical framework to analyze the relative performance of the optimized quantum adiabatic algorithm and a broad class of classical Markov chain Monte Carlo algorithms. We outline conditions for the quantum adiabatic algorithm to achieve a quadratic speedup on hard problem instances featuring flat low-energy landscapes and provide example instances with either a quantum speedup or slowdown. We then introduce an additional local Hamiltonian with no sign problem to the optimized adiabatic algorithm to achieve a quadratic speedup over a wide class of classical simulated annealing, parallel tempering, and quantum Monte Carlo algorithms in solving these hard problem instances. Finally, we use this framework to analyze the experimental observations. | 翻訳日:2023-06-26 14:35:31 公開日:2023-06-22 |
# 回避による系列予測における逆レジリエンス Adversarial Resilience in Sequential Prediction via Abstention ( http://arxiv.org/abs/2306.13119v1 ) ライセンス: Link先を確認 | Surbhi Goel, Steve Hanneke, Shay Moran, Abhishek Shetty | (参考訳) 確率的設定における逐次予測の問題を,クリーンラベル逆(あるいは分散外)の例を挿入できる敵と検討する。
純粋に確率的なデータを扱うように設計されたアルゴリズムは、そのような逆例の存在下で失敗する傾向にあり、しばしば誤った予測につながる。
これは、医学的な勧告のような多くの高度な応用では望ましくないが、敵の例による予測を棄却することは、誤分類よりも好ましい。
一方、完全に敵対的なデータを仮定すると、実際にはしばしば空白となる非常に悲観的な境界につながる。
このモチベーションを捉えるために,学習者が対向的な例を犠牲にすることなく予測することを禁じることにより,純粋に確率的かつ完全な対向的な設定の間に位置するシーケンシャルな予測モデルを提案する。
非敵対的な例の限界分布へのアクセスを仮定し、完全に敵対的な設定を特徴付けるリトルストーン次元とは対照的に、仮説クラスのvc次元(確率的設定を模倣する)に誤差がスケールする学習者を設計する。
さらに,vc次元~1クラスの学習者の設計を行い,限界分布へのアクセスがなくても動作するようにした。
私たちの重要な技術的貢献は、VCクラスを学ぶための不確実性を定量化する新しい手段です。 We study the problem of sequential prediction in the stochastic setting with an adversary that is allowed to inject clean-label adversarial (or out-of-distribution) examples. Algorithms designed to handle purely stochastic data tend to fail in the presence of such adversarial examples, often leading to erroneous predictions. This is undesirable in many high-stakes applications such as medical recommendations, where abstaining from predictions on adversarial examples is preferable to misclassification. On the other hand, assuming fully adversarial data leads to very pessimistic bounds that are often vacuous in practice. To capture this motivation, we propose a new model of sequential prediction that sits between the purely stochastic and fully adversarial settings by allowing the learner to abstain from making a prediction at no cost on adversarial examples. Assuming access to the marginal distribution on the non-adversarial examples, we design a learner whose error scales with the VC dimension (mirroring the stochastic setting) of the hypothesis class, as opposed to the Littlestone dimension which characterizes the fully adversarial setting. Furthermore, we design a learner for VC dimension~1 classes, which works even in the absence of access to the marginal distribution. Our key technical contribution is a novel measure for quantifying uncertainty for learning VC classes, which may be of independent interest. | 翻訳日:2023-06-26 14:34:55 公開日:2023-06-22 |
# 解釈可能な特徴可視化を作成するターゲット背景除去 Targeted Background Removal Creates Interpretable Feature Visualizations ( http://arxiv.org/abs/2306.13178v1 ) ライセンス: Link先を確認 | Ian E. Nielsen, Erik Grundeland, Joseph Snedeker, Ghulam Rasool, Ravi P. Ramachandran | (参考訳) 機能視覚化は、ブラックボックス機械学習モデルの学習した機能を視覚化するために使用される。
本手法では,可視化の解釈可能性を改善するために,学習プロセスの変更を検討する。
我々は、背景除去技術を堅牢なトレーニングの形式として用いることで、ネットワークはより人間の認識可能な特徴、すなわち背景から注意をそらすことなく関心の対象に焦点を当てることを学ぶことを余儀なくされると主張している。
この仮説を検証するために4つの異なる訓練方法が用いられた。
初回は無修正写真。
2つ目は黒の背景だった。
3つ目はガウスノイズを背景として用いた。
第4のアプローチでは、背景除去画像と未修正画像が混在していた。
特徴視覚化の結果,背景除去画像はベースラインモデルよりも大幅に改善されていることがわかった。
これらの新しい結果は、修正されていないデータで訓練されたモデルとは異なり、各クラスから容易に認識可能な特徴を示した。 Feature visualization is used to visualize learned features for black box machine learning models. Our approach explores an altered training process to improve interpretability of the visualizations. We argue that by using background removal techniques as a form of robust training, a network is forced to learn more human recognizable features, namely, by focusing on the main object of interest without any distractions from the background. Four different training methods were used to verify this hypothesis. The first used unmodified pictures. The second used a black background. The third utilized Gaussian noise as the background. The fourth approach employed a mix of background removed images and unmodified images. The feature visualization results show that the background removed images reveal a significant improvement over the baseline model. These new results displayed easily recognizable features from their respective classes, unlike the model trained on unmodified data. | 翻訳日:2023-06-26 14:26:41 公開日:2023-06-22 |
# アモルファス要塞:マルチエージェントfsmにおける創発的挙動の観測 Amorphous Fortress: Observing Emergent Behavior in Multi-Agent FSMs ( http://arxiv.org/abs/2306.13169v1 ) ライセンス: Link先を確認 | M Charity, Dipika Rajesh, Sam Earle, and Julian Togelius | (参考訳) 我々は,アモルファス・フォートメントと呼ばれる抽象的かつ空間的かつオープンな人工生命シミュレーションシステムを紹介する。
この環境では、エージェントは制約された空間内でマルチエージェント相互作用を可能にする有限状態機械(fsms)として表現される。
これらのエージェントは、fsmをランダムに生成し、進化させ、事前定義された状態と遷移からサンプリングすることで生成される。
この環境は、ドワーフ・フォートレスやザ・シムズのようなシミュレーションゲームで暗黙的に見つかった創発的なAI行動を調べるために設計された。
この環境にヒルクライバーの進化的探索アルゴリズムを適用し、生成したFSMの様々なレベルの深さと相互作用を探索する。 We introduce a system called Amorphous Fortress -- an abstract, yet spatial, open-ended artificial life simulation. In this environment, the agents are represented as finite-state machines (FSMs) which allow for multi-agent interaction within a constrained space. These agents are created by randomly generating and evolving the FSMs; sampling from pre-defined states and transitions. This environment was designed to explore the emergent AI behaviors found implicitly in simulation games such as Dwarf Fortress or The Sims. We apply the hill-climber evolutionary search algorithm to this environment to explore the various levels of depth and interaction from the generated FSMs. | 翻訳日:2023-06-26 14:26:06 公開日:2023-06-22 |
# 効率的なスペクトル画像分割のためのスパースグラフ定式化 A Sparse Graph Formulation for Efficient Spectral Image Segmentation ( http://arxiv.org/abs/2306.13166v1 ) ライセンス: Link先を確認 | Rahul Palnitkar and Jeova Farias Sales Rocha Neto | (参考訳) スペクトルクラスタリングは、セグメンテーション問題を解決する最も伝統的な方法の1つである。
正規化カットに基づいて、グラフで定義された目的関数を使って画像を分割する。
数学的魅力にもかかわらず、スペクトルアプローチは実践的な問題や性能不足のために伝統的に科学界によって無視されている。
本稿では,単純なグリッドグラフへの余分なノードの包含に基づくスパースグラフ定式化を採用する。
グリッドはピクセルの空間配置をエンコードするが、余分なノードはピクセルの色データを説明する。
元の正規化カットアルゴリズムをこのグラフに適用すると、解釈可能な解を持つスペクトル画像分割の単純でスケーラブルな方法が導かれる。
また,提案手法が従来のスペクトルアルゴリズムのセグメンテーションを上回ることも実証した。 Spectral Clustering is one of the most traditional methods to solve segmentation problems. Based on Normalized Cuts, it aims at partitioning an image using an objective function defined by a graph. Despite their mathematical attractiveness, spectral approaches are traditionally neglected by the scientific community due to their practical issues and underperformance. In this paper, we adopt a sparse graph formulation based on the inclusion of extra nodes to a simple grid graph. While the grid encodes the pixel spatial disposition, the extra nodes account for the pixel color data. Applying the original Normalized Cuts algorithm to this graph leads to a simple and scalable method for spectral image segmentation, with an interpretable solution. Our experiments also demonstrate that our proposed methodology over performs traditional spectral algorithms for segmentation. | 翻訳日:2023-06-26 14:25:51 公開日:2023-06-22 |
# 乱れた量子電池の局在効果 Localization effects in disordered quantum batteries ( http://arxiv.org/abs/2306.13164v1 ) ライセンス: Link先を確認 | Mohammad B. Arjmandi, Hamidreza Mohammadi, Andreia Saguia, Marcelo S. Sarandy, Alan C. Santos | (参考訳) 乱れたスピン系をモデルとした量子電池(QB)の局所電荷に及ぼす局在の影響について検討する。
逆場ランダムイジングモデルに基づく2つの異なるスキームが検討され、イジング結合はキメラグラフ上で定義され、隣り合う隣り合わせの相互作用を持つ線形鎖上で定義される。
局所場のみによって駆動される低エネルギー要求帯電プロセスを採用することで、単元過程(エルゴトロピー)による最大抽出可能エネルギーは多体局在(mbl)シナリオと比較してエルゴド相において高度に向上する。
イジングチェーンの次から次への隣同士の相互作用をオフにすると、アンダーソン局在化フェーズが始まる。
その結果,アンダーソン相は大きなエルゴトロピーと小さなエルゴトロピーの間を交互に補間するハイブリッド行動を示すことが示された。
また,全エルゴトロピーのコヒーレントかつ非コヒーレントな貢献への分割も検討する。
この非コヒーレントな部分は、デファスメントに対して完全にロバストな残留エルゴトロピーを暗示しており、これは実際のセットアップでバッテリの自己放出につながる典型的なプロセスである。
この結果は超伝導集積回路のようなスケーラブルなシステムで実験的に実現可能である。 We investigate the effect of localization on the local charging of quantum batteries (QBs) modeled by disordered spin systems. Two distinct schemes based on the transverse-field random Ising model are considered, with Ising couplings defined on a Chimera graph and on a linear chain with up to next-to-nearest neighbor interactions. By adopting a low-energy demanding charging process driven by local fields only, we obtain that the maximum extractable energy by unitary processes (ergotropy) is highly enhanced in the ergodic phase in comparison with the many-body localization (MBL) scenario. As we turn off the next-to-nearest neighbor interactions in the Ising chain, we have the onset of the Anderson localization phase. We then show that the Anderson phase exhibits a hybrid behavior, interpolating between large and small ergotropy as the disorder strength is increased. We also consider the splitting of total ergotropy into its coherent and incoherent contributions. This incoherent part implies in a residual ergotropy that is fully robust against dephasing, which is a typical process leading to the self-discharging of the battery in a real setup. Our results are experimentally feasible in scalable systems, such as in superconducting integrated circuits. | 翻訳日:2023-06-26 14:25:40 公開日:2023-06-22 |
# ソレノイドによる渦電子の透過 Transmission of vortex electrons through a solenoid ( http://arxiv.org/abs/2306.13161v1 ) ライセンス: Link先を確認 | G.K. Sizykh, A.D. Chaikovskaia, D.V. Grosman, I.I. Pavlov, and D.V. Karlovets | (参考訳) 我々は、ソレノイドと真空の間のハードエッジ境界と磁場の内部で、軌道角運動量を持つ電子を適切に記述するランダウ状態ではなく、一般的に非定常ラゲール・ガウス状態(nslg)であると主張する。
NSLG状態のr.m.s.半径は時間的に振動し、その周期平均値がランダウ状態のr.m.s.半径をはるかに上回ることが示されている。
NSLG状態によって記述された渦電子を用いた実験シナリオにおいて,ソレノイド内部の量子力学の非伝統的な特徴について検討する。
走査電子顕微鏡および透過電子顕微鏡のプロセスおよび相対論的ビームを持つ粒子加速器の妥当性が強調される。 We argue that it is generally nonstationary Laguerre-Gaussian states (NSLG) rather than the Landau ones that appropriately describe electrons with orbital angular momentum both in their dynamics at a hard-edge boundary between a solenoid and vacuum and inside the magnetic field. It is shown that the r.m.s. radius of the NSLG state oscillates in time and its period-averaged value can significantly exceed the r.m.s. radius of the Landau state, even far from the boundary. We propose to study the unconventional features of quantum dynamics inside a solenoid in several experimental scenarios with vortex electrons described by the NSLG states. Relevance for processes in scanning and transmission electron microscopes, as well as for particle accelerators with relativistic beams is emphasized. | 翻訳日:2023-06-26 14:25:17 公開日:2023-06-22 |
# Solovay-Kitaevアルゴリズムの立方体障壁を破る Breaking the cubic barrier in the Solovay-Kitaev algorithm ( http://arxiv.org/abs/2306.13158v1 ) ライセンス: Link先を確認 | Greg Kuperberg (UC Davis) | (参考訳) 我々は、quditに作用する一般有限逆閉生成集合に対するsolovay-kitaevの定理とアルゴリズムを改善する。
アルゴリズムの前のバージョンでは、$O((\log 1/\epsilon)^{3+\delta})$の単語を効率的に見つけることができ、任意のターゲットゲートを$\epsilon$に近似することができる。
それぞれが指数を別々に減らす2つの新しいアイデアを用いて、世界の長さの新たな境界は$o((\log 1/\epsilon)^{1.44042\ldots+\delta})$である。
この結果はより一般に、連結で半単純な任意の実リー群を密に生成し、非コンパクトの場合の余長項が単位元から遠く離れた群の元に到達するような有限集合に対して成立する。 We improve the Solovay-Kitaev theorem and algorithm for a general finite, inverse-closed generating set acting on a qudit. Prior versions of the algorithm can efficiently find a word of length $O((\log 1/\epsilon)^{3+\delta})$ to approximate an arbitrary target gate to within $\epsilon$. Using two new ideas, each of which reduces the exponent separately, our new bound on the world length is $O((\log 1/\epsilon)^{1.44042\ldots+\delta})$. Our result holds more generally for any finite set that densely generates any connected, semisimple real Lie group, with an extra length term in the non-compact case to reach group elements far away from the identity. | 翻訳日:2023-06-26 14:25:03 公開日:2023-06-22 |
# オープンワールドにおける予測的思考課題--リスクマネジメント Anticipatory Thinking Challenges in Open Worlds: Risk Management ( http://arxiv.org/abs/2306.13157v1 ) ライセンス: Link先を確認 | Adam Amos-Binks, Dustin Dannenhauer, Leilani H. Gilpin | (参考訳) 予想的思考は、日々の生活の中でリスク - 識別と緩和 - を管理する能力を、自動車保険の購入に雨が降りそうなときに傘を持ってくるように促します。
AIシステムが日々の生活の一部になるにつれ、彼らもリスクを管理し始めています。
自動運転車は数百万マイルをログアウトし、starcraftとgoエージェントは人間と同じような能力を持ち、敵のリスクを暗黙的に管理する。
これらのタスクのパフォーマンスをさらに向上させるために、アウト・オブ・ディストリビューション評価はモデルのバイアスを特徴づけることができる。
しかし、低周波で高インパクトリスクを識別し緩和する学習は、機械学習モデルをトレーニングするために必要な観察バイアスと矛盾する。
starcraftとgoは、リスクが既知のクローズドワールドドメインであり、繰り返しを通じて学ぶのに理想的な緩和策が十分に文書化されている。
逆フィルタリングデータセットは難しい例を提供しているが、キュレーションや静的な処理には苦労している。
敵対的ロバスト性は、悪意のある意図を持つ敵が存在するという仮定の下でのモデル中毒に焦点をあてる。
これらの手法はすべてリスク管理を改善するための重要なステップですが、オープンワールドを考慮せずに実現します。
オープンワールドのリスク管理の課題を2つのコントリビューションで統一します。
ひとつは、影響が大きい環境に対する不完全な認識を持つエージェントのための、私たちの知覚課題です。
第2の貢献は認知の課題であり、新たなリスクを特定して新たな緩和を学ぶ際に、リスク露光を動的に調整する必要があるエージェントのために設計されています。
これらの課題に対する私たちのゴールは、オープンワールドと最終的に現実世界のリスクを管理するためにAIエージェントが必要とする予測思考を評価し改善するソリューションの研究を促進することです。 Anticipatory thinking drives our ability to manage risk - identification and mitigation - in everyday life, from bringing an umbrella when it might rain to buying car insurance. As AI systems become part of everyday life, they too have begun to manage risk. Autonomous vehicles log millions of miles, StarCraft and Go agents have similar capabilities to humans, implicitly managing risks presented by their opponents. To further increase performance in these tasks, out-of-distribution evaluation can characterize a model's bias, what we view as a type of risk management. However, learning to identify and mitigate low-frequency, high-impact risks is at odds with the observational bias required to train machine learning models. StarCraft and Go are closed-world domains whose risks are known and mitigations well documented, ideal for learning through repetition. Adversarial filtering datasets provide difficult examples but are laborious to curate and static, both barriers to real-world risk management. Adversarial robustness focuses on model poisoning under the assumption there is an adversary with malicious intent, without considering naturally occurring adversarial examples. These methods are all important steps towards improving risk management but do so without considering open-worlds. We unify these open-world risk management challenges with two contributions. The first is our perception challenges, designed for agents with imperfect perceptions of their environment whose consequences have a high impact. Our second contribution are cognition challenges, designed for agents that must dynamically adjust their risk exposure as they identify new risks and learn new mitigations. Our goal with these challenges is to spur research into solutions that assess and improve the anticipatory thinking required by AI agents to manage risk in open-worlds and ultimately the real-world. | 翻訳日:2023-06-26 14:24:49 公開日:2023-06-22 |
# 物理記号系仮説の再検討 Rethinking the Physical Symbol Systems Hypothesis ( http://arxiv.org/abs/2306.13150v1 ) ライセンス: Link先を確認 | Paul S. Rosenbloom | (参考訳) 物理記号系仮説 (PSSH) が経験的仮説として初めて記述されてから半世紀以上になる。
ニューラルネットワークや認知アーキテクチャの研究による近年の証拠は、それを弱めているが、満足のいく方法では置き換えられていない。
原子やプレースホルダとしての計算記号の性質を再考し、それらが参加するシステムについても考え直し、これらの課題に対応すると同時にシンボリックアプローチとニューラルアプローチのギャップを埋めるのに役立つハイブリッドアプローチが導入された。 It is now more than a half-century since the Physical Symbol Systems Hypothesis (PSSH) was first articulated as an empirical hypothesis. More recent evidence from work with neural networks and cognitive architectures has weakened it, but it has not yet been replaced in any satisfactory manner. Based on a rethinking of the nature of computational symbols -- as atoms or placeholders -- and thus also of the systems in which they participate, a hybrid approach is introduced that responds to these challenges while also helping to bridge the gap between symbolic and neural approaches, resulting in two new hypotheses, one that is to replace the PSSH and other focused more directly on cognitive architectures. | 翻訳日:2023-06-26 14:24:20 公開日:2023-06-22 |
# amicron:粒状マイクロアクティビティを用いたヒューマンアクティビティ認識のためのアノテーション生成フレームワーク AmicroN: A Framework for Generating Annotations for Human Activity Recognition with Granular Micro-Activities ( http://arxiv.org/abs/2306.13149v1 ) ライセンス: Link先を確認 | Soumyajit Chatterjee, Bivas Mitra and Sandip Chakraborty | (参考訳) センサデータを用いた効率的なヒューマンアクティビティ認識(har)には,大量の注釈データが必要である。
ラベルなしのセンサデータの増加は、ループ内の人的アプローチでharアノテーションを収集する従来の慣行に挑戦し、より浅いアノテーションの収集に繋がることが多い。
これらの浅いアノテーションは、日常生活(ADL)の複雑な活動を構成する微細な微小活性を無視する。
これを理解するために,本論文では,まず,利用可能な注釈付きデータセットの粒度の欠如を分析し,実際の矛盾を理解するとともに,アノテーションを取り巻く人間の認識を詳細に調査する。
次に, 機関車のシグネチャと粗粒マクロ活性ラベルを用いて, マイクロアクティビティアノテーションを自動生成するフレームワークAmicroNを開発した。
バックエンドでは、AmicroNは変更点検出に続いてアクティビティ埋め込みを伴うゼロショット学習を適用し、教師なしの方法で未確認のマイクロアクティビティを識別する。
公開されているデータセットの厳密な評価は、AmicroNが0.75の中央値F1スコアのマイクロアクティビティアノテーションを正確に生成できることを示している。
さらに,AmicroNはLarge Language Models (LLMs) とプラグイン・アンド・プレイ方式でマイクロアクティブなラベルを得ることができ,現実的なアプリケーションではより実用的であることを示す。 Efficient human activity recognition (HAR) using sensor data needs a significant volume of annotated data. The growing volume of unlabelled sensor data has challenged conventional practices for gathering HAR annotations with human-in-the-loop approaches, often leading to the collection of shallower annotations. These shallower annotations ignore the fine-grained micro-activities that constitute any complex activities of daily living (ADL). Understanding this, we, in this paper, first analyze this lack of granular annotations from available pre-annotated datasets to understand the practical inconsistencies and also perform a detailed survey to look into the human perception surrounding annotations. Drawing motivations from these, we next develop the framework AmicroN that can automatically generate micro-activity annotations using locomotive signatures and the available coarse-grain macro-activity labels. In the backend, AmicroN applies change-point detection followed by zero-shot learning with activity embeddings to identify the unseen micro-activities in an unsupervised manner. Rigorous evaluation on publicly available datasets shows that AmicroN can accurately generate micro-activity annotations with a median F1-score of >0.75. Additionally, we also show that AmicroN can be used in a plug-and-play manner with Large Language Models (LLMs) to obtain the micro-activity labels, thus making it more practical for realistic applications. | 翻訳日:2023-06-26 14:24:07 公開日:2023-06-22 |
# リアルタイムポリープ分割のためのニューラルネットワークプルーニング Neural Network Pruning for Real-time Polyp Segmentation ( http://arxiv.org/abs/2306.13203v1 ) ライセンス: Link先を確認 | Suman Sapkota, Pranav Poudel, Sudarshan Regmi, Bibek Panthi, Binod Bhattarai | (参考訳) 深層学習モデルの有効性のため、コンピュータ支援治療が医療画像の有効な応用として現れてきた。
医療従事者を支援するために、リアルタイムな推論速度が重要な要件である。
一般的には、パフォーマンスとモデルサイズの間にトレードオフが存在するが、モデルサイズを妥協することで、ネイティブに近いパフォーマンスを維持するための素晴らしい努力がなされている。
ニューラルネットワークのプルーニングは、余分なパラメータを排除して推論を高速化することを目的としたエキサイティングな領域として登場した。
本研究では,ポリプセグメンテーションにおけるニューラルネットワークプルーニングの応用について述べる。
畳み込みフィルタの重要スコアを計算し、最小スコアを持つフィルタを除去する。
重要度スコアを計算するために,taylorfo (taylorfo first order) を用いて,フィルタ除去のためのネットワーク出力の変化を近似する。
具体的には,重要度スコアの計算に勾配正規化バックプロパゲーションを用いる。
ポリプデータセットの実験により,本手法がパラメータ数とFLOPを著しく低減し,同様の性能を維持できることを確認した。 Computer-assisted treatment has emerged as a viable application of medical imaging, owing to the efficacy of deep learning models. Real-time inference speed remains a key requirement for such applications to help medical personnel. Even though there generally exists a trade-off between performance and model size, impressive efforts have been made to retain near-original performance by compromising model size. Neural network pruning has emerged as an exciting area that aims to eliminate redundant parameters to make the inference faster. In this study, we show an application of neural network pruning in polyp segmentation. We compute the importance score of convolutional filters and remove the filters having the least scores, which to some value of pruning does not degrade the performance. For computing the importance score, we use the Taylor First Order (TaylorFO) approximation of the change in network output for the removal of certain filters. Specifically, we employ a gradient-normalized backpropagation for the computation of the importance score. Through experiments in the polyp datasets, we validate that our approach can significantly reduce the parameter count and FLOPs retaining similar performance. | 翻訳日:2023-06-26 14:17:11 公開日:2023-06-22 |
# sar画像における粗さ情報のログ累積推定の改善 Improving Log-Cumulant Based Estimation of Roughness Information in SAR imagery ( http://arxiv.org/abs/2306.13200v1 ) ライセンス: Link先を確認 | Jeova Farias Sales Rocha Neto, and Francisco Alixandre Avila Rodrigues | (参考訳) SAR(Synthetic Aperture Radar)画像理解はリモートセンシングアプリケーションにおいて重要であるが、本質的なノイズ汚染によって妨げられている。
分布の$\mathcal{G}^0$のような高度化統計モデルは、SARデータに採用され、これらのモデルから情報を取り出すことにより、この画像の処理における現在の進歩の多くが達成されている。
本稿では,Log-Cumulants法を用いて,$\mathcal{G}^0$分布におけるパラメータ推定の改善を提案する。
まずベイズモデルを用いて, $\mathcal{G}^0_A$ と $\mathcal{G}^0_I$ の両方のモデルの下で,信頼できる粗さ推定を定期的に生成する。
第二に、Trigamma関数の近似を用いて、推定された粗さを一定時間で計算し、既存の手法よりもかなり高速に処理する。
最後に,この手法を用いて粗さ情報に基づく高速で信頼性の高いsar画像理解を実現する方法を示す。 Synthetic Aperture Radar (SAR) image understanding is crucial in remote sensing applications, but it is hindered by its intrinsic noise contamination, called speckle. Sophisticated statistical models, such as the $\mathcal{G}^0$ family of distributions, have been employed to SAR data and many of the current advancements in processing this imagery have been accomplished through extracting information from these models. In this paper, we propose improvements to parameter estimation in $\mathcal{G}^0$ distributions using the Method of Log-Cumulants. First, using Bayesian modeling, we construct that regularly produce reliable roughness estimates under both $\mathcal{G}^0_A$ and $\mathcal{G}^0_I$ models. Second, we make use of an approximation of the Trigamma function to compute the estimated roughness in constant time, making it considerably faster than the existing method for this task. Finally, we show how we can use this method to achieve fast and reliable SAR image understanding based on roughness information. | 翻訳日:2023-06-26 14:16:54 公開日:2023-06-22 |
# ダイヤモンド中のスズ空洞量子ビットのマイクロ波スピン制御 Microwave Spin Control of a Tin-Vacancy Qubit in Diamond ( http://arxiv.org/abs/2306.13199v1 ) ライセンス: Link先を確認 | Eric I. Rosenthal, Christopher P. Anderson, Hannah C. Kleidermacher, Abigail J. Stein, Hope Lee, Jakob Grzesik, Giovanni Scuri, Alison E. Rugar, Daniel Riedel, Shahriar Aghaeimeibodi, Geun Ho Ahn, Kasper Van Gasse, and Jelena Vuckovic | (参考訳) ダイヤモンド中の負電荷のスズ空孔(SnV-)中心は、高い量子効率、強いゼロフォノン放出、電気ノイズに対する感度の低下による量子ネットワークへの応用において有望な固体量子ビットである。
snv-は大きなスピン軌道結合を持ち、高温での長いスピン寿命を可能にするが、残念ながら量子制御に必要な磁気双極子遷移を抑制する。
ここでは、自然に歪んだ中心を用いて、この制限を克服し、高忠実度マイクロ波スピン制御を実現する。
我々は,T2echo = 170.0+/-2.8マイクロ秒のHhn-echoコヒーレンス時間と99.51+/0.03%のpiパルス忠実度を示す。
この性能は光学安定性を損なうことなく実現され、1.7ケルビンでは駆動誘導加熱を緩和するために十分な冷却電力が利用できる。
これらの結果は、将来の量子技術のビルディングブロックとしてsnvスピンを使用する道を開く。 The negatively charged tin-vacancy (SnV-) center in diamond is a promising solid-state qubit for applications in quantum networking due to its high quantum efficiency, strong zero phonon emission, and reduced sensitivity to electrical noise. The SnV- has a large spin-orbit coupling, which allows for long spin lifetimes at elevated temperatures, but unfortunately suppresses the magnetic dipole transitions desired for quantum control. Here, by use of a naturally strained center, we overcome this limitation and achieve high-fidelity microwave spin control. We demonstrate a pi-pulse fidelity of up to 99.51+/0.03%$ and a Hahn-echo coherence time of T2echo = 170.0+/-2.8 microseconds, both the highest yet reported for SnV- platform. This performance comes without compromise to optical stability, and is demonstrated at 1.7 Kelvin where ample cooling power is available to mitigate drive induced heating. These results pave the way for SnV- spins to be used as a building block for future quantum technologies. | 翻訳日:2023-06-26 14:16:32 公開日:2023-06-22 |
# グラデーションベースアトリビューションのpreまたはpost-softmaxスコアは、何がベストか? Pre or Post-Softmax Scores in Gradient-based Attribution Methods, What is Best? ( http://arxiv.org/abs/2306.13197v1 ) ライセンス: Link先を確認 | Miguel Lerma and Mirtha Lucas | (参考訳) 分類器として働くニューラルネットワークに対する勾配に基づく帰属法は、ネットワークスコアの勾配を用いる。
本稿では,事前ソフトマックススコアの勾配とポストソフトマックススコアとの実用的差異と,それらの長所と短所について論じる。 Gradient based attribution methods for neural networks working as classifiers use gradients of network scores. Here we discuss the practical differences between using gradients of pre-softmax scores versus post-softmax scores, and their respective advantages and disadvantages. | 翻訳日:2023-06-26 14:16:10 公開日:2023-06-22 |
# DiMSam:部分観測可能性下における作業計画用サンプリング器としての拡散モデル DiMSam: Diffusion Models as Samplers for Task and Motion Planning under Partial Observability ( http://arxiv.org/abs/2306.13196v1 ) ライセンス: Link先を確認 | Xiaolin Fang, Caelan Reed Garrett, Clemens Eppner, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling, Dieter Fox | (参考訳) タスク・アンド・モーション・プランニング(TAMP)アプローチは、長距離自律ロボット操作の計画に有効である。
しかし、それらは計画モデルを必要とするため、環境とその力学が完全には分かっていない領域に適用することは困難である。
本稿では,これらの制約を,特に拡散モデル(拡散モデル)の深層生成モデルを活用することで克服することを提案する。
これらの学習されたサンプルは、計画に沿った制約を満たすアクションパラメータ値を見つけるために、TAMPソルバ内で構成・結合される。
環境中における未知の物体の予測を的確に行うため, 物体状態変化の低次元学習潜伏埋め込み上にこれらのサンプルを定式化する。
このアプローチをarticulated object manipulation domainで評価し,古典的タンプ,生成的学習,潜在的埋め込みの組み合わせによって,長期ホリゾン制約に基づく推論が可能かを示す。 Task and Motion Planning (TAMP) approaches are effective at planning long-horizon autonomous robot manipulation. However, because they require a planning model, it can be difficult to apply them to domains where the environment and its dynamics are not fully known. We propose to overcome these limitations by leveraging deep generative modeling, specifically diffusion models, to learn constraints and samplers that capture these difficult-to-engineer aspects of the planning model. These learned samplers are composed and combined within a TAMP solver in order to find action parameter values jointly that satisfy the constraints along a plan. To tractably make predictions for unseen objects in the environment, we define these samplers on low-dimensional learned latent embeddings of changing object state. We evaluate our approach in an articulated object manipulation domain and show how the combination of classical TAMP, generative learning, and latent embeddings enables long-horizon constraint-based reasoning. | 翻訳日:2023-06-26 14:16:04 公開日:2023-06-22 |
# gpt-3: ユーモア生成のためのステップバイステップ思考指導 Prompt to GPT-3: Step-by-Step Thinking Instructions for Humor Generation ( http://arxiv.org/abs/2306.13195v1 ) ライセンス: Link先を確認 | Yuetian Chen, Bowen Shi and Mei Si | (参考訳) 人工知能は自然言語処理において大きな進歩を遂げており、GPT-3のようなモデルには印象的な能力がある。
しかしながら、これらのモデルには、人間のコメディ執筆戦略を習得するなど、ユーザの理解を必要とする複雑なタスクに関して、制限がある。
本稿では,人間のコメディ執筆理論をモデル化し,ステップバイステップの思考指導を利用するGPT-3を用いたユーモア生成について検討する。
さらに,ユーモアの創造における認知距離の役割について考察する。 Artificial intelligence has made significant progress in natural language processing, with models like GPT-3 demonstrating impressive capabilities. However, these models still have limitations when it comes to complex tasks that require an understanding of the user, such as mastering human comedy writing strategies. This paper explores humor generation using GPT-3 by modeling human comedy writing theory and leveraging step-by-step thinking instructions. In addition, we explore the role of cognitive distance in creating humor. | 翻訳日:2023-06-26 14:15:49 公開日:2023-06-22 |
# 正方根リプシッツ損失を伴う一様収束 Uniform Convergence with Square-Root Lipschitz Loss ( http://arxiv.org/abs/2306.13188v1 ) ライセンス: Link先を確認 | Lijia Zhou, Zhen Dai, Frederic Koehler, Nathan Srebro | (参考訳) 我々は、仮説クラスのラデマッハ複雑性とスカラー損失関数の平方根のリプシッツ定数の観点から、ガウスデータに対する一般一様収束保証を確立する。
これらの保証がスムーズ性(微分のLipschitz定数)に基づいて過去の結果を大幅に一般化し、位相探索やReLU回帰の学習に適した非滑らかな損失関数を含む平方根-Lipschitz損失のより広いクラスを扱えるかを示し、また「最適率」や補間学習の保証をよりよく理解する。 We establish generic uniform convergence guarantees for Gaussian data in terms of the Rademacher complexity of the hypothesis class and the Lipschitz constant of the square root of the scalar loss function. We show how these guarantees substantially generalize previous results based on smoothness (Lipschitz constant of the derivative), and allow us to handle the broader class of square-root-Lipschitz losses, which includes also non-smooth loss functions appropriate for studying phase retrieval and ReLU regression, as well as rederive and better understand "optimistic rate" and interpolation learning guarantees. | 翻訳日:2023-06-26 14:15:41 公開日:2023-06-22 |
# カーネル)リッジ回帰におけるオーバーフィッティングコストの非依存的考察 An Agnostic View on the Cost of Overfitting in (Kernel) Ridge Regression ( http://arxiv.org/abs/2306.13185v1 ) ライセンス: Link先を確認 | Lijia Zhou, James B. Simon, Gal Vardi, Nathan Srebro | (参考訳) 本研究では, 補間リッジレスモデルの試験誤差と最適調整モデルの試験誤差との比として定義した, ノイズ型カーネルリッジ回帰 (krr) におけるオーバーフィッティングのコストについて検討した。
対象関数のサンプルサイズが一貫性に十分でない場合やターゲットがrkhsの外部にある場合であっても、コストは任意の対象関数のサンプルサイズ関数であると考えます。
タスク固有構造の観点から最近導出された(厳密でない)リスク推定値を用いて,ガウス普遍性アンサッツの下で過適合のコストを分析する。
本分析は,良性,温帯,破滅的な過剰フィッティング(qv mallinar et al. 2022)のより洗練された特性を提供する。 We study the cost of overfitting in noisy kernel ridge regression (KRR), which we define as the ratio between the test error of the interpolating ridgeless model and the test error of the optimally-tuned model. We take an "agnostic" view in the following sense: we consider the cost as a function of sample size for any target function, even if the sample size is not large enough for consistency or the target is outside the RKHS. We analyze the cost of overfitting under a Gaussian universality ansatz using recently derived (non-rigorous) risk estimates in terms of the task eigenstructure. Our analysis provides a more refined characterization of benign, tempered and catastrophic overfitting (qv Mallinar et al. 2022). | 翻訳日:2023-06-26 14:15:27 公開日:2023-06-22 |
# 漸近等方性サブプランク位相空間感度に対するスーパーポーシングコンパス状態 Superposing compass states for asymptotic isotropic sub-Planck phase-space sensitivity ( http://arxiv.org/abs/2306.13182v1 ) ライセンス: Link先を確認 | Atharva Shukla, Barry C. Sanders | (参考訳) コンパス状態は、位相空間の変位に対する感度が真空状態の任意の方向に分散する感度よりも優れているという意味でサブプランク位相空間構造をもたらすが、この感度は異方性である。
ここでは、約$n$ のコンパス状態の重ね合わせとして一般化されたコンパス状態を導入し、それぞれが前者に対して$\nicefrac\pi{2n}$ で向き付けられた。
具体的には、これら一般化されたコンパス状態のウィグナー関数と、一般化されたコンパス状態とそれらの置換されたコンパス状態との重なりに対する近似閉形式表現を導出する。
さらに、一般化されたコンパス状態は、任意の方向における位相空間の変位に対する等方性感度を示す。 Compass states deliver sub-Planck phase-space structure in the sense that sensitivity to phase-space displacement is superior to the sensitivity of displacing the vacuum state in any direction, but this sensitivity is anisotropic: better sensitivity for some directions of phase-space displacement vs others. Here we introduce generalised compass states as superpositions of~$n$ compass states, with each oriented by $\nicefrac\pi{2n}$ with respect to its predecessor. Specifically, we derive Wigner functions for these generalised compass states and approximate closed-form expressions for overlaps between generalised compass states and their displaced counterparts. Furthermore, we show that generalised compass states, in the limit $n\to\infty$, display isotropic sensitivity to phase-space displacement in any direction. | 翻訳日:2023-06-26 14:15:14 公開日:2023-06-22 |
# リカレントグラフ畳み込み法による年間積雪量の予測 Prediction of Annual Snow Accumulation Using a Recurrent Graph Convolutional Approach ( http://arxiv.org/abs/2306.13181v1 ) ライセンス: Link先を確認 | Benjamin Zalatan, Maryam Rahnemoonfar | (参考訳) 極氷層の正確な追跡と予測は、積雪の歴史的傾向を明らかにすることができる。
近年、スノーレーダのような空中レーダーセンサーは、これらの内部氷層を細かな垂直分解能で大きな領域にわたって測定できることが示されている。
過去の研究では,深層氷層厚の時間グラフが与えられた場合,時間グラフ畳み込みネットワークは将来の積雪予測に適当に機能することがわかった。
本研究では,グラフアテンションネットワークに基づくモデルを用いて,より大規模なデータセット上での入力データポイントの少ない年次積雪データポイントの予測を行った。
これらの大きな変更がパフォーマンスにわずかに悪影響を及ぼすことがわかりました。 The precise tracking and prediction of polar ice layers can unveil historic trends in snow accumulation. In recent years, airborne radar sensors, such as the Snow Radar, have been shown to be able to measure these internal ice layers over large areas with a fine vertical resolution. In our previous work, we found that temporal graph convolutional networks perform reasonably well in predicting future snow accumulation when given temporal graphs containing deep ice layer thickness. In this work, we experiment with a graph attention network-based model and used it to predict more annual snow accumulation data points with fewer input data points on a larger dataset. We found that these large changes only very slightly negatively impacted performance. | 翻訳日:2023-06-26 14:14:55 公開日:2023-06-22 |
# 深い行列分解のための平坦度正規化の誘導バイアス The Inductive Bias of Flatness Regularization for Deep Matrix Factorization ( http://arxiv.org/abs/2306.13239v1 ) ライセンス: Link先を確認 | Khashayar Gatmiry, Zhiyuan Li, Ching-Yao Chuang, Sashank Reddi, Tengyu Ma, Stefanie Jegelka | (参考訳) 近年の超パラメータニューラルネットワークの研究により、オプティマイザの確率性はゼロロス解に対する損失関数(特にヘッセンの痕跡)のシャープさを最小化する暗黙の正規化効果を持つことが示されている。
より明示的な平坦性正規化形式は、一般化性能を実証的に改善する。
しかし、なぜ、いつ平坦性正規化がより良い一般化をもたらすのかは不明である。
この研究は、ヘッセン解の最小トレースの帰納的バイアスを理解するための第一歩として、線形測度から深い線形ネットワークを学習する('emph{deep matrix factorization} としても知られる)。
一以上の深さでは、標準の制限等尺性(RIP)により、ヘッセンのトレースを最小化することは、対応する終端行列パラメータ(すなわち、すべての層行列の積)のシャッテン1ノルムを最小化するのとほぼ同値であり、結果としてより一般化されることを示す。
合成データセットに関する理論的知見を実証的に検証した。 Recent works on over-parameterized neural networks have shown that the stochasticity in optimizers has the implicit regularization effect of minimizing the sharpness of the loss function (in particular, the trace of its Hessian) over the family zero-loss solutions. More explicit forms of flatness regularization also empirically improve the generalization performance. However, it remains unclear why and when flatness regularization leads to better generalization. This work takes the first step toward understanding the inductive bias of the minimum trace of the Hessian solutions in an important setting: learning deep linear networks from linear measurements, also known as \emph{deep matrix factorization}. We show that for all depth greater than one, with the standard Restricted Isometry Property (RIP) on the measurements, minimizing the trace of Hessian is approximately equivalent to minimizing the Schatten 1-norm of the corresponding end-to-end matrix parameters (i.e., the product of all layer matrices), which in turn leads to better generalization. We empirically verify our theoretical findings on synthetic datasets. | 翻訳日:2023-06-26 14:07:54 公開日:2023-06-22 |
# ドメインの汎用性向上のためのプルーニング Pruning for Better Domain Generalizability ( http://arxiv.org/abs/2306.13237v1 ) ライセンス: Link先を確認 | Xinglong Sun | (参考訳) 本稿では,モデルの一般化能力を向上するために,プルーニングを信頼性の高い手法として利用できるかどうかを検討する。
L2のような既存のプルーニング手法は、既にターゲットドメインの性能をわずかに改善できることがわかった。
さらに, DSSと呼ばれる新しいプルーニングスコアリング手法を提案し, ソース精度を典型的なプルーニング作業として維持するのではなく, モデルの堅牢性を直接的に向上させる。
本手法の有効性を検証するための実証実験を行い,MIRO(Cha et al., 2022)のような最先端の一般化作業と組み合わせることで,さらなる性能向上が期待できることを示す。
MNISTからMNIST-Mでは,60%のチャネル間隔をモデルに導入することにより,ベースライン性能を5ポイント以上向上することができた。
DomainBedベンチマークと最先端MIROでは、モデルに10%の間隔を導入するだけで、パフォーマンスをさらに1ポイント向上できます。
コードは、https://github.com/AlexSunNik/Pruning-for-Better-Domain-Generalizabilityで見ることができる。 In this paper, we investigate whether we could use pruning as a reliable method to boost the generalization ability of the model. We found that existing pruning method like L2 can already offer small improvement on the target domain performance. We further propose a novel pruning scoring method, called DSS, designed not to maintain source accuracy as typical pruning work, but to directly enhance the robustness of the model. We conduct empirical experiments to validate our method and demonstrate that it can be even combined with state-of-the-art generalization work like MIRO(Cha et al., 2022) to further boost the performance. On MNIST to MNIST-M, we could improve the baseline performance by over 5 points by introducing 60% channel sparsity into the model. On DomainBed benchmark and state-of-the-art MIRO, we can further boost its performance by 1 point only by introducing 10% sparsity into the model. Code can be found at: https://github.com/AlexSunNik/Pruning-for-Better-Domain-Generalizability | 翻訳日:2023-06-26 14:07:16 公開日:2023-06-22 |
# 予算対応ブラックボックス近似による文書画像のクリーニング Document Image Cleaning using Budget-Aware Black-Box Approximation ( http://arxiv.org/abs/2306.13236v1 ) ライセンス: Link先を確認 | Ganesh Tata, Katyani Singh, Eric Van Oeveren, Nilanjan Ray | (参考訳) 近年の研究では、ニューラルネットワークを用いた非微分可能なブラックボックス関数の挙動を近似することで、ブラックボックスをエンドツーエンドトレーニングのために微分可能なトレーニングパイプラインに統合できることが示されている。
この手法を 'differentiable bypass,' と呼び、この手法を成功させるためには、ブラックボックスのOCRエンジンの性能を改善するために文書プリプロセッサを訓練する必要がある。
しかし、OCRエンジンを適切に近似するには、トレーニングプロセス全体を通して全てのサンプルに対してクエリする必要がある。
いくつかのゼロ階最適化(ZO)アルゴリズムがブラックボックス攻撃の文献で提案されており、その勾配をクエリ効率よく計算することでブラックボックスモデルの逆例を見つけることができる。
しかし、そのようなアルゴリズムのクエリの複雑さと収束率により、我々の問題では実現不可能である。
本研究では,OCRエンジンクエリの10%未満でOCRプリプロセッサをトレーニングする2つのサンプル選択アルゴリズムを提案する。
また,商用ocrエンジンの単語レベルの精度が4%向上し,総クエリの2.5%,通貨コストが32倍削減された。
さらに,システムの性能に影響を与えることなく,トレーニングデータセットから文書画像の30%を抽出する簡単なランキング手法を提案する。 Recent work has shown that by approximating the behaviour of a non-differentiable black-box function using a neural network, the black-box can be integrated into a differentiable training pipeline for end-to-end training. This methodology is termed "differentiable bypass,'' and a successful application of this method involves training a document preprocessor to improve the performance of a black-box OCR engine. However, a good approximation of an OCR engine requires querying it for all samples throughout the training process, which can be computationally and financially expensive. Several zeroth-order optimization (ZO) algorithms have been proposed in black-box attack literature to find adversarial examples for a black-box model by computing its gradient in a query-efficient manner. However, the query complexity and convergence rate of such algorithms makes them infeasible for our problem. In this work, we propose two sample selection algorithms to train an OCR preprocessor with less than 10% of the original system's OCR engine queries, resulting in more than 60% reduction of the total training time without significant loss of accuracy. We also show an improvement of 4% in the word-level accuracy of a commercial OCR engine with only 2.5% of the total queries and a 32x reduction in monetary cost. Further, we propose a simple ranking technique to prune 30% of the document images from the training dataset without affecting the system's performance. | 翻訳日:2023-06-26 14:06:52 公開日:2023-06-22 |
# 雑音帯域フィードバックを持つ逆数に対する行列ゲームに対する対数レグレット Logarithmic Regret for Matrix Games against an Adversary with Noisy Bandit Feedback ( http://arxiv.org/abs/2306.13233v1 ) ライセンス: Link先を確認 | Arnab Maiti, Kevin Jamieson, Lillian J. Ratliff | (参考訳) 本稿では,列プレイヤーが行$i$を選択し,列プレイヤーが列$j$を選択し,列プレイヤーが平均$a_{i,j}$で騒がしい報酬を受け取る,ゼロサムマトリクスゲームの一変型について考察する。
行プレイヤーの目的は、敵列プレイヤーに対してさえ、できるだけ多くの報酬を蓄積することである。
もし行プレーヤが任意の報酬列に対して$\sqrt{T}$後悔を得るアルゴリズムであるEXP3戦略を使用すると、このゲーム設定におけるナッシュ平衡に対して$\sqrt{T}$後悔も達成される。
しかしながら、EXP3戦略がゲームの構造のミオピックであるという事実から、O'Donoghue et al. (2021) はゲーム構造を活用する UCB スタイルのアルゴリズムを提案し、このアルゴリズムがEXP3を経験的に大きく上回ることを示した。
彼らは、このucbスタイルのアルゴリズムが$\sqrt{t}$ regretを達成したことを示したが、本論文では、任意の敵に対して$\text{polylog}(t)$ regretを確実に達成するアルゴリズムが存在するかどうかを問う。
単純な2 \times 2$設定を肯定する形で、この質問に答える新しいアルゴリズムを提案し、後悔の設定におけるゲームに対する最初のインスタンス依存保証を提供する。
我々のアルゴリズムは2つの大きなハードルを克服します
1)nash平衡は1/\sqrt{t}$レートでしか推定できないが、対数的後悔を得る。
2) 敵がナッシュ均衡に関する情報を提供するか、または行プレイヤーが負の後悔をもたらすかを保証する行プレイヤー戦略を設計する。
さらに、全情報の場合、最初のハードルがまだ関係している一般的な$n \times m$ケースに対処する。
最後に、EXP3 と UCB ベースのアルゴリズムは、必ずしも $\sqrt{T}$ 以上の性能を発揮できないことを示す。 This paper considers a variant of zero-sum matrix games where at each timestep the row player chooses row $i$, the column player chooses column $j$, and the row player receives a noisy reward with mean $A_{i,j}$. The objective of the row player is to accumulate as much reward as possible, even against an adversarial column player. If the row player uses the EXP3 strategy, an algorithm known for obtaining $\sqrt{T}$ regret against an arbitrary sequence of rewards, it is immediate that the row player also achieves $\sqrt{T}$ regret relative to the Nash equilibrium in this game setting. However, partly motivated by the fact that the EXP3 strategy is myopic to the structure of the game, O'Donoghue et al. (2021) proposed a UCB-style algorithm that leverages the game structure and demonstrated that this algorithm greatly outperforms EXP3 empirically. While they showed that this UCB-style algorithm achieved $\sqrt{T}$ regret, in this paper we ask if there exists an algorithm that provably achieves $\text{polylog}(T)$ regret against any adversary, analogous to results from stochastic bandits. We propose a novel algorithm that answers this question in the affirmative for the simple $2 \times 2$ setting, providing the first instance-dependent guarantees for games in the regret setting. Our algorithm overcomes two major hurdles: 1) obtaining logarithmic regret even though the Nash equilibrium is estimable only at a $1/\sqrt{T}$ rate, and 2) designing row-player strategies that guarantee that either the adversary provides information about the Nash equilibrium, or the row player incurs negative regret. Moreover, in the full information case we address the general $n \times m$ case where the first hurdle is still relevant. Finally, we show that EXP3 and the UCB-based algorithm necessarily cannot perform better than $\sqrt{T}$. | 翻訳日:2023-06-26 14:06:30 公開日:2023-06-22 |
# DiversiGATE: 信頼性の高い大規模言語モデルのための総合的なフレームワーク DiversiGATE: A Comprehensive Framework for Reliable Large Language Models ( http://arxiv.org/abs/2306.13230v1 ) ライセンス: Link先を確認 | Shima Imani, Ali Beyram, Harsh Shrivastava | (参考訳) 本稿では,LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを紹介する。
提案フレームワークは,自己整合性,Math Prompter,WebGPTなど,既存の検証アプローチの全体像を提供する多様化と集約の2つの主要コンポーネントから構成される。
さらに,独自のアウトプットから学習し,時間とともにその性能を洗練し,精度を向上させるために,ダイバーシゲートフレームワークに準拠した新たな ‘selflearner' モデルを提案する。
自己学習の有効性を評価するために,合成データやgsm8kなどの一般的な算術推論ベンチマークなど,厳密な実験を行った。
提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。 In this paper, we introduce DiversiGATE, a unified framework that consolidates diverse methodologies for LLM verification. The proposed framework comprises two main components: Diversification and Aggregation which provide a holistic perspective on existing verification approaches, such as Self-Consistency, Math Prompter and WebGPT. Furthermore, we propose a novel `SelfLearner' model that conforms to the DiversiGATE framework which can learn from its own outputs and refine its performance over time, leading to improved accuracy. To evaluate the effectiveness of SelfLearner, we conducted a rigorous series of experiments, including tests on synthetic data as well as on popular arithmetic reasoning benchmarks such as GSM8K. Our results demonstrate that our approach outperforms traditional LLMs, achieving a considerable 54.8% -> 61.8% improvement on the GSM8K benchmark. | 翻訳日:2023-06-26 14:05:55 公開日:2023-06-22 |
# TACO:視覚強化学習のための時間遅延行動駆動型コントラスト損失 TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning ( http://arxiv.org/abs/2306.13229v1 ) ライセンス: Link先を確認 | Ruijie Zheng, Xiyao Wang, Yanchao Sun, Shuang Ma, Jieyu Zhao, Huazhe Xu, Hal Daum\'e III, and Furong Huang | (参考訳) 近年, 原画素データからの強化学習(RL)の進歩にもかかわらず, 試料の非効率性はかなりの障害を呈し続けている。
以前の研究は、将来の状態予測のためにエージェントの学習した表現を制御関連情報と共に強化することを目的として、自己監督の補助タスクを作成することで、この問題に対処しようとした。
しかし、これらの目的はしばしば最適なポリシーや値関数を表現できる表現を学ぶのに不十分であり、小さな抽象的な行動空間を持つタスクをよく考慮し、連続的な制御における行動表現学習の重要性を見落としている。
本稿では,エージェントの潜伏状態と行動表現の同時獲得を容易にする,シンプルながら強力な時間的コントラスト学習手法であるTACOを紹介する。
TACOは、動作シーケンスと組み合わせた現在の状態の表現と、対応する将来の状態の表現との相互情報を最適化することにより、状態と行動表現を同時に学習する。
理論的には、TACOは制御に十分な情報を含む状態と行動表現を学習し、サンプル効率を向上させることができる。
オンラインRLでは、Deepmind Control Suiteの9つの挑戦的な視覚的連続制御タスクに対して、平均100万の環境インタラクションステップを経て、TACOは40%のパフォーマンス向上を達成した。
さらに,既存のオフライン visual rl メソッドにプラグイン・アンド・プレイモジュールを追加して,オフライン visual rl のオフラインパフォーマンスを,品質の異なるオフラインデータセット間で確立することも可能だ。 Despite recent progress in reinforcement learning (RL) from raw pixel data, sample inefficiency continues to present a substantial obstacle. Prior works have attempted to address this challenge by creating self-supervised auxiliary tasks, aiming to enrich the agent's learned representations with control-relevant information for future state prediction. However, these objectives are often insufficient to learn representations that can represent the optimal policy or value function, and they often consider tasks with small, abstract discrete action spaces and thus overlook the importance of action representation learning in continuous control. In this paper, we introduce TACO: Temporal Action-driven Contrastive Learning, a simple yet powerful temporal contrastive learning approach that facilitates the concurrent acquisition of latent state and action representations for agents. TACO simultaneously learns a state and an action representation by optimizing the mutual information between representations of current states paired with action sequences and representations of the corresponding future states. Theoretically, TACO can be shown to learn state and action representations that encompass sufficient information for control, thereby improving sample efficiency. For online RL, TACO achieves 40% performance boost after one million environment interaction steps on average across nine challenging visual continuous control tasks from Deepmind Control Suite. In addition, we show that TACO can also serve as a plug-and-play module adding to existing offline visual RL methods to establish the new state-of-the-art performance for offline visual RL across offline datasets with varying quality. | 翻訳日:2023-06-26 14:05:39 公開日:2023-06-22 |
# 複数の時間的タスクを用いた最適コスト・プリファレンストレードオフ計画 Optimal Cost-Preference Trade-off Planning with Multiple Temporal Tasks ( http://arxiv.org/abs/2306.13222v1 ) ライセンス: Link先を確認 | Peter Amorese and Morteza Lahijanian | (参考訳) 自律ロボットは、複数の複雑なタスクを持つ現実的なシナリオでますます活用されている。
これらのシナリオでは、与えられたタスクをすべて完了する方法が好まれるかもしれないが、しばしば最適な実行と矛盾する。
しかし、近年の研究では、ロボットの行動に対する嗜好の概念を各タスクに対して拡張していない。
本稿では,個々のタスクに対する嗜好を表現し,その関係性を表現するためのフレームワークとして,新しい選好概念を導入する。
次に,ユーザの嗜好に準拠した行動と資源最適行動との間に最適なトレードオフ(pareto)分析を行う。
a*検索を拡張してユーザの好みに応じてパレートオプティマイズプランを生成する効率的なプランニングフレームワークを提案する。
さらに,多目的a*アルゴリズムの適応により,パレートフロント全体(すべての最適トレードオフの集合)を計算する方法を示す。
また,スケーラビリティを実現するために,問題に依存しない検索ヒューリスティックを提案する。
移動ロボットとマニピュレータの両方におけるフレームワークのパワーについて説明する。
我々のベンチマークでは、最大2桁のスピードアップによるヒューリスティックの有効性を示している。 Autonomous robots are increasingly utilized in realistic scenarios with multiple complex tasks. In these scenarios, there may be a preferred way of completing all of the given tasks, but it is often in conflict with optimal execution. Recent work studies preference-based planning, however, they have yet to extend the notion of preference to the behavior of the robot with respect to each task. In this work, we introduce a novel notion of preference that provides a generalized framework to express preferences over individual tasks as well as their relations. Then, we perform an optimal trade-off (Pareto) analysis between behaviors that adhere to the user's preference and the ones that are resource optimal. We introduce an efficient planning framework that generates Pareto-optimal plans given user's preference by extending A* search. Further, we show a method of computing the entire Pareto front (the set of all optimal trade-offs) via an adaptation of a multi-objective A* algorithm. We also present a problem-agnostic search heuristic to enable scalability. We illustrate the power of the framework on both mobile robots and manipulators. Our benchmarks show the effectiveness of the heuristic with up to 2-orders of magnitude speedup. | 翻訳日:2023-06-26 14:05:14 公開日:2023-06-22 |
# Visual Adversarial Examples Jailbreak Large Language Models Visual Adversarial Examples Jailbreak Large Language Models ( http://arxiv.org/abs/2306.13213v1 ) ライセンス: Link先を確認 | Xiangyu Qi, Kaixuan Huang, Ashwinee Panda, Mengdi Wang, Prateek Mittal | (参考訳) 近年、大規模言語モデル(llm)にビジョンを導入することへの関心が高まっている。
Flamingo、BLIP-2、GPT-4のような大規模なビジュアル言語モデル(VLM)の普及は、視覚基盤モデルと言語基盤モデルの両方における進歩のエキサイティングな収束を意味している。
しかし、この統合的アプローチに関連するリスクは、ほとんど見当たらない。
本稿では,この傾向の安全性と安全性について概説する。
まず,視覚入力空間の連続的かつ高次元的性質が,本質的に敵の攻撃の場となることを強調する。
これはLLMの攻撃面を必然的に拡大する。
第二に、LLMの幅広い機能はまた、達成可能な敵の目的の広い視覚的攻撃者を示し、単なる誤分類以上のセキュリティ障害の影響を拡大する。
これらのリスクを解明するために,VLMの視覚入力空間における逆例について検討した。
具体的には,有害な指示を拒否する安全機構を組み込んだminigpt-4に対して,安全機構を回避し,モデルの有害な行動を引き起こすような視覚敵例を示す。
顕著なことに、特定の社会的グループに対して手作業で調整された排他的コーパスに最適化された敵例が、モデルの安全メカニズムを普遍的にジェイルブレイクすることを発見した。
そのような敵対的な一つの例は、一般にMiniGPT-4の安全性を損なう可能性があり、様々な有害な命令を処理し、最適化に使用される推論コーパスを単に模倣する以上の有害なコンテンツを生成できる。
これらのリスクを解消し、包括的リスク評価、堅牢な防衛戦略、VLMの安全かつ安全な利用のための責任ある実践の実施に対する緊急の要求を強調する。 Recently, there has been a surge of interest in introducing vision into Large Language Models (LLMs). The proliferation of large Visual Language Models (VLMs), such as Flamingo, BLIP-2, and GPT-4, signifies an exciting convergence of advancements in both visual and language foundation models. Yet, the risks associated with this integrative approach are largely unexamined. In this paper, we shed light on the security and safety implications of this trend. First, we underscore that the continuous and high-dimensional nature of the additional visual input space intrinsically makes it a fertile ground for adversarial attacks. This unavoidably expands the attack surfaces of LLMs. Second, we highlight that the broad functionality of LLMs also presents visual attackers with a wider array of achievable adversarial objectives, extending the implications of security failures beyond mere misclassification. To elucidate these risks, we study adversarial examples in the visual input space of a VLM. Specifically, against MiniGPT-4, which incorporates safety mechanisms that can refuse harmful instructions, we present visual adversarial examples that can circumvent the safety mechanisms and provoke harmful behaviors of the model. Remarkably, we discover that adversarial examples, even if optimized on a narrow, manually curated derogatory corpus against specific social groups, can universally jailbreak the model's safety mechanisms. A single such adversarial example can generally undermine MiniGPT-4's safety, enabling it to heed a wide range of harmful instructions and produce harmful content far beyond simply imitating the derogatory corpus used in optimization. Unveiling these risks, we accentuate the urgent need for comprehensive risk assessments, robust defense strategies, and the implementation of responsible practices for the secure and safe utilization of VLMs. | 翻訳日:2023-06-26 14:04:57 公開日:2023-06-22 |
# グラフ表現学習のための方向拡散モデル Directional diffusion models for graph representation learning ( http://arxiv.org/abs/2306.13210v1 ) ライセンス: Link先を確認 | Run Yang, Yuling Yang, Fan Zhou, Qiang Sun | (参考訳) 近年、拡散モデルは画像合成、超解像、および3d分子生成といった様々な分野の人工知能において顕著な成功を収めている。
しかし,グラフ学習における拡散モデルの適用はあまり注目されていない。
本稿では,教師なしグラフ表現学習における拡散モデルの適用について検討し,このギャップに対処する。
まず,グラフの異方性構造を同定し,異方性構造学習におけるバニラ前方拡散過程の重要な限界を明らかにする。
このプロセスは、データに等方性ガウスノイズを連続的に付加することに依存しており、異方性信号があまりにも早くノイズに変換される可能性がある。
この急速な変換は、ニューラルネットのノイズ化のトレーニングを阻害し、リバースプロセスにおける意味論的表現の獲得を妨げる。
この課題に対処するため、我々は {\it方向拡散モデルと呼ばれる新しいモデルのクラスを提案する。
これらのモデルは前方拡散過程にデータ依存、異方性、指向性ノイズを含む。
提案モデルの有効性を評価するため,2つの異なるグラフ表現学習タスクに着目し,12個の公開データセットに対して広範な実験を行った。
実験の結果,最先端のベースラインよりもモデルの優位性が示され,有意義なグラフ表現をキャプチャする上での有効性が示された。
我々の研究は拡散モデルの前進過程に関する貴重な知見を提供するだけでなく、これらのモデルの様々なグラフ関連タスクに対する広範なポテンシャルも強調する。 In recent years, diffusion models have achieved remarkable success in various domains of artificial intelligence, such as image synthesis, super-resolution, and 3D molecule generation. However, the application of diffusion models in graph learning has received relatively little attention. In this paper, we address this gap by investigating the use of diffusion models for unsupervised graph representation learning. We begin by identifying the anisotropic structures of graphs and a crucial limitation of the vanilla forward diffusion process in learning anisotropic structures. This process relies on continuously adding an isotropic Gaussian noise to the data, which may convert the anisotropic signals to noise too quickly. This rapid conversion hampers the training of denoising neural networks and impedes the acquisition of semantically meaningful representations in the reverse process. To address this challenge, we propose a new class of models called {\it directional diffusion models}. These models incorporate data-dependent, anisotropic, and directional noises in the forward diffusion process. To assess the efficacy of our proposed models, we conduct extensive experiments on 12 publicly available datasets, focusing on two distinct graph representation learning tasks. The experimental results demonstrate the superiority of our models over state-of-the-art baselines, indicating their effectiveness in capturing meaningful graph representations. Our studies not only provide valuable insights into the forward process of diffusion models but also highlight the wide-ranging potential of these models for various graph-related tasks. | 翻訳日:2023-06-26 14:04:27 公開日:2023-06-22 |
# 複合パルス列による量子系の任意極小励起の決定論的生成 Deterministic generation of arbitrary ultrasmall excitation of quantum systems by composite pulse sequences ( http://arxiv.org/abs/2306.13209v1 ) ライセンス: Link先を確認 | Hayk L. Gevorgyan and Nikolay V. Vitanov | (参考訳) 量子制御の応用によっては、量子系の非常に弱い励起を生成する必要がある。
このような例は、コールド原子アンサンブルやドープ固体における単一光子生成の概念によって示され、例えば、DLCZプロトコルによって、単一の励起が数千、数百万の原子またはイオン間で共有される。
別の例として、1つまたは数つの励起を共有するn$ qubitsという巨大なディッケ状態を作ることができる。
他の例としては、高忠実度量子ゲートのチューニングに小さな回転を用いるか、高忠実度量子プロセストモグラフィプロトコルをテストするためにこれらの小さな回転を用いる。
量子遷移の極小励起は、非常に弱いまたは極小の駆動場によって生成される。
しかし、これらの2つのアプローチは実験パラメータの変化に敏感であり、例えば、遷移確率はパルス領域の正方形によって変化する。
ここでは,合成パルス列を用いて,事前選択された非常に小さな遷移確率を10^{-2}$から10^{-8}$という順序で生成する方法を提案する。
この方法はパルス領域とパルス持続時間の変化に対して高い忠実性と堅牢性を特徴とする。 In some applications of quantum control, it is necessary to produce very weak excitation of a quantum system. Such an example is presented by the concept of single-photon generation in cold atomic ensembles or doped solids, e.g. by the DLCZ protocol, for which a single excitation is shared among thousands and millions atoms or ions. Another example is the possibility to create huge Dicke state of $N$ qubits sharing a single or a few excitations. Other examples are using tiny rotations to tune high-fidelity quantum gates or using these tiny rotations for testing high-fidelity quantum process tomography protocols. Ultrasmall excitation of a quantum transition can be generated by either a very weak or far-detuned driving field. However, these two approaches are sensitive to variations in the experimental parameters, e.g. the transition probability varies with the square of the pulse area. Here we propose a different method for generating a well-defined pre-selected very small transition probability -- of the order of $10^{-2}$ to $10^{-8}$ -- by using composite pulse sequences. The method features high fidelity and robustness to variations in the pulse area and the pulse duration. | 翻訳日:2023-06-26 14:04:07 公開日:2023-06-22 |
# tmvo$_4$におけるスピンエコーと量子対古典臨界揺らぎ Spin-echo and quantum versus classical critical fluctuations in TmVO$_4$ ( http://arxiv.org/abs/2306.13244v1 ) ライセンス: Link先を確認 | Y-H. Nian, I. Vinograd, T. Green, C. Chaffey, P. Massat, R. R. P. Singh, M. P. Zic, I. R. Fisher, and N. J. Curro | (参考訳) 逆場イジング系TmVO$_4$モデルにおけるスピンエコー核磁気共鳴を用いて、量子臨界点における低周波量子ゆらぎは、古典的な低周波ノイズや有限温度臨界点で発生するゆらぎよりも、$^{51}$V核スピンに対して非常に異なる効果を示す。
スピンエコーは、量子揺らぎではなく、低周波の古典ノイズをフィルターする。
これにより、量子臨界ファンを直接視覚化し、有限温度古典相転移に対して透過的な実験において、TmVO$_4$の臨界カップリング強度における量子ゆらぎの持続性を高温に示すことができる。
これらの結果は、量子ビットの古典的ノイズを除去するのに動的デカップリングスキームは有効であるが、量子臨界環境は急速な絡み合いとデコヒーレンスをもたらす可能性があることを示している。 Using spin-echo Nuclear Magnetic Resonance in the model Transverse-Field Ising system TmVO$_4$, we show that low frequency quantum fluctuations at the quantum critical point have a very different effect on $^{51}$V nuclear-spins than classical low-frequency noise or fluctuations that arise at a finite temperature critical point. Spin-echos filter out the low frequency classical noise but not the quantum fluctuations. This allows us to directly visualize the quantum critical fan and demonstrate the persistence of quantum fluctuations at the critical coupling strength in TmVO$_4$ to high temperatures in an experiment that remains transparent to finite temperature classical phase transitions. These results show that while dynamical decoupling schemes can be quite effective in eliminating classical noise in a qubit, a quantum critical environment may lead to rapid entanglement and decoherence. | 翻訳日:2023-06-26 13:55:39 公開日:2023-06-22 |
# 弱結合下での近似因果効果同定 Approximate Causal Effect Identification under Weak Confounding ( http://arxiv.org/abs/2306.13242v1 ) ライセンス: Link先を確認 | Ziwei Jiang, Lai Wei and Murat Kocaoglu | (参考訳) 因果効果の推定は、観測データのみが得られる場合に多くの研究者によって研究されている。
同定可能な因果クエリのポイントワイズ推定のための音響および完全アルゴリズムを開発した。
非識別因果クエリでは、研究者は因果効果の厳密な境界を推定する多項式プログラムを開発した。
しかし、サポートサイズが大きい変数の最適化は計算上困難である。
本稿では,因果的エスティムマンドに対する"weak confounding"の効果を分析する。
より具体的には、クエリを非識別的にレンダリングする未観測の共創者は、エントロピーが小さいという仮定の下で、因果効果の上下境界を導出する効率的な線形プログラムを提案する。
我々の境界は、観察されていない共同設立者のエントロピーがゼロになるにつれて、上界と下界の間のギャップがなくなるという意味で一貫している。
最後に、このようなエントロピー制約を組み込むことができない既存の研究によって得られた境界と、我々の境界が弱い共同設立者による設定よりも厳密であることを示すために、合成および実データシミュレーションを実施している。 Causal effect estimation has been studied by many researchers when only observational data is available. Sound and complete algorithms have been developed for pointwise estimation of identifiable causal queries. For non-identifiable causal queries, researchers developed polynomial programs to estimate tight bounds on causal effect. However, these are computationally difficult to optimize for variables with large support sizes. In this paper, we analyze the effect of "weak confounding" on causal estimands. More specifically, under the assumption that the unobserved confounders that render a query non-identifiable have small entropy, we propose an efficient linear program to derive the upper and lower bounds of the causal effect. We show that our bounds are consistent in the sense that as the entropy of unobserved confounders goes to zero, the gap between the upper and lower bound vanishes. Finally, we conduct synthetic and real data simulations to compare our bounds with the bounds obtained by the existing work that cannot incorporate such entropy constraints and show that our bounds are tighter for the setting with weak confounders. | 翻訳日:2023-06-26 13:55:22 公開日:2023-06-22 |
# 魚眼カメラとライダーの連続オンラインextrinsic calibration Continuous Online Extrinsic Calibration of Fisheye Camera and LiDAR ( http://arxiv.org/abs/2306.13240v1 ) ライセンス: Link先を確認 | Jack Borer, Jeremy Tschirner, Florian \"Olsner, Stefan Milz | (参考訳) 自動駆動システムはマルチモーダルセンサースイートを使用して、カメラやLiDARなどの動作領域の信頼性、冗長性、堅牢性を保証する。
高レベルの知覚機能を必要とする共通空間参照フレームにカメラとLiDARデータを融合するために、正確な外部キャリブレーションが必要である。
車両の寿命を通じて、外因性キャリブレーションの値は物理的障害によって変化し、高いレベルの知覚関数に誤差をもたらす。
そのため、センサデータのみを使用して、車両の寿命中にカメラ-LiDARキャリブレーションの値を自動更新するオンライン外部キャリブレーションアルゴリズムが必要である。
本稿では,一般的な単眼深度推定ネットワークによって提供されるカメラ画像の深度推定と,外部校正の最適化指標としてLiDAR点雲の幾何距離との相互情報を用いた。
本手法では,キャリブレーション対象が不要で,真理学習データも不要で,オフライン最適化に費用がかかる。
KITTI-360データセット上で,アルゴリズムの精度,精度,速度,自己診断能力を示す。 Automated driving systems use multi-modal sensor suites to ensure the reliable, redundant and robust perception of the operating domain, for example camera and LiDAR. An accurate extrinsic calibration is required to fuse the camera and LiDAR data into a common spatial reference frame required by high-level perception functions. Over the life of the vehicle the value of the extrinsic calibration can change due physical disturbances, introducing an error into the high-level perception functions. Therefore there is a need for continuous online extrinsic calibration algorithms which can automatically update the value of the camera-LiDAR calibration during the life of the vehicle using only sensor data. We propose using mutual information between the camera image's depth estimate, provided by commonly available monocular depth estimation networks, and the LiDAR pointcloud's geometric distance as a optimization metric for extrinsic calibration. Our method requires no calibration target, no ground truth training data and no expensive offline optimization. We demonstrate our algorithm's accuracy, precision, speed and self-diagnosis capability on the KITTI-360 data set. | 翻訳日:2023-06-26 13:55:05 公開日:2023-06-22 |
# 結晶特性予測のための完全原子間ポテンシャルの効率的な近似 Efficient Approximations of Complete Interatomic Potentials for Crystal Property Prediction ( http://arxiv.org/abs/2306.10045v3 ) ライセンス: Link先を確認 | Yuchao Lin, Keqiang Yan, Youzhi Luo, Yi Liu, Xiaoning Qian, Shuiwang Ji | (参考訳) 結晶材料の特性予測について検討する。
結晶構造は、無限に3d空間で繰り返される最小単位セルからなる。
このような繰り返し構造を機械学習モデルで正確に表現する方法はまだ未解決である。
現在の手法では、近傍のノード間でのみエッジを確立し、無限の繰り返しパターンや遠方の原子間相互作用を忠実に捉えることができないグラフを構築する。
本研究では,これらの限界を克服するためのいくつかのイノベーションを提案する。
まず,物理学を基本とした原子間ポテンシャルを直接モデル化することを提案する。
これらのポテンシャルにはクーロンポテンシャル、ロンドン分散ポテンシャル、パウリ反発ポテンシャルが含まれる。
第二に、既存の方法のように近くの原子間だけではなく、すべての原子間の完全なポテンシャルの集合をモデル化する。
これは証明可能な誤差境界を持つ無限ポテンシャル和の近似によって実現される。
近似を計算するための効率的なアルゴリズムを更に開発する。
最後に、完全な原子間ポテンシャルの計算をメッセージパッシングニューラルネットワークに組み込んで表現学習を提案する。
評価のためのJARVISおよびMaterial Projectベンチマーク実験を行った。
その結果、原子間ポテンシャルと完全な原子間ポテンシャルを用いることで、合理的な計算コストで一貫した性能向上が期待できる。
私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet)の一部として公開されています。 We study property prediction for crystal materials. A crystal structure consists of a minimal unit cell that is repeated infinitely in 3D space. How to accurately represent such repetitive structures in machine learning models remains unresolved. Current methods construct graphs by establishing edges only between nearby nodes, thereby failing to faithfully capture infinite repeating patterns and distant interatomic interactions. In this work, we propose several innovations to overcome these limitations. First, we propose to model physics-principled interatomic potentials directly instead of only using distances as in many existing methods. These potentials include the Coulomb potential, London dispersion potential, and Pauli repulsion potential. Second, we model the complete set of potentials among all atoms, instead of only between nearby atoms as in existing methods. This is enabled by our approximations of infinite potential summations with provable error bounds. We further develop efficient algorithms to compute the approximations. Finally, we propose to incorporate our computations of complete interatomic potentials into message passing neural networks for representation learning. We perform experiments on the JARVIS and Materials Project benchmarks for evaluation. Results show that the use of interatomic potentials and complete interatomic potentials leads to consistent performance improvements with reasonable computational costs. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet). | 翻訳日:2023-06-26 10:15:54 公開日:2023-06-22 |
# 浅い量子回路による化学精度向上に向けて:クリフォードに基づくハミルトン工学的アプローチ Towards chemical accuracy with shallow quantum circuits: A Clifford-based Hamiltonian engineering approach ( http://arxiv.org/abs/2306.12053v2 ) ライセンス: Link先を確認 | Jiace Sun, Lixue Cheng, Weitang Li | (参考訳) 浅い量子回路で化学的精度を得ることは、量子化学、特に短期量子デバイスにおいて重要な課題である。
本研究では,回路深さと精度のトレードオフに対処するクリフォードに基づくハミルトン工学アルゴリズム,すなわちCHEMを提案する。
変動量子固有解法とハードウェア効率のアンサッツに基づいて,(1)ハートリー-フォックエネルギーに対応する初期回路パラメータのセットを確実に生成し,(2)回路パラメータに対する初期エネルギー勾配を効果的に最大化し,(3)古典的な処理に無視可能なオーバーヘッドを課し,追加の量子資源を必要としない,クリフォードベースのハミルトン変換を設計した。
量子ハードウェアエミュレータを用いたアプローチの有効性を実証し,30量子ゲート未満の12量子ビットのシステムに対して化学的精度を実現する。
我々のクリフォード拠点のハミルトン工学的アプローチは、短期量子デバイス上での実用的な量子計算化学のための有望な道を提供する。 Achieving chemical accuracy with shallow quantum circuits is a significant challenge in quantum computational chemistry, particularly for near-term quantum devices. In this work, we present a Clifford-based Hamiltonian engineering algorithm, namely CHEM, that addresses the trade-off between circuit depth and accuracy. Based on variational quantum eigensolver and hardware-efficient ansatz, our method designs Clifford-based Hamiltonian transformation that (1) ensures a set of initial circuit parameters corresponding to the Hartree--Fock energy can be generated, (2) effectively maximizes the initial energy gradient with respect to circuit parameters, and (3) imposes negligible overhead for classical processing and does not require additional quantum resources. We demonstrate the efficacy of our approach using a quantum hardware emulator, achieving chemical accuracy for systems as large as 12 qubits with fewer than 30 two-qubit gates. Our Clifford-based Hamiltonian engineering approach offers a promising avenue for practical quantum computational chemistry on near-term quantum devices. | 翻訳日:2023-06-26 10:11:43 公開日:2023-06-22 |
# 4ビット整数による変圧器の訓練 Training Transformers with 4-bit Integers ( http://arxiv.org/abs/2306.11987v2 ) ライセンス: Link先を確認 | Haocheng Xi, Changhao Li, Jianfei Chen, and Jun Zhu | (参考訳) 4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークトレーニングの加速を約束する。
しかし、既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。
本稿では, int4演算で実装された行列乗算を全て含む変圧器の学習法を提案する。
超低いINT4精度でのトレーニングは難しい。
これを実現するために、変換器のアクティベーションと勾配の特定の構造を慎重に分析し、専用の量子化器を提案する。
前進伝搬のために, オフレイラの課題を特定し, オフレイラの抑制を目的としたアダマール量化器を提案する。
バックプロパゲーションのために,ビット分割を提案することで勾配の構造スパーシティを活用し,スコアサンプリング技術を用いて勾配を正確に定量化する。
本アルゴリズムは,自然言語理解,機械翻訳,画像分類など,幅広いタスクにおいて,競合精度を実現する。
従来の4ビットトレーニング手法とは異なり、我々のアルゴリズムは現在の世代のGPUで実装できる。
原型線形演算子の実装はFP16よりも最大2.2倍高速で、トレーニングを最大35.1%高速化する。 Quantizing the activation, weight, and gradient to 4-bit is promising to accelerate neural network training. However, existing 4-bit training methods require custom numerical formats which are not supported by contemporary hardware. In this work, we propose a training method for transformers with all matrix multiplications implemented with the INT4 arithmetic. Training with an ultra-low INT4 precision is challenging. To achieve this, we carefully analyze the specific structures of activation and gradients in transformers to propose dedicated quantizers for them. For forward propagation, we identify the challenge of outliers and propose a Hadamard quantizer to suppress the outliers. For backpropagation, we leverage the structural sparsity of gradients by proposing bit splitting and leverage score sampling techniques to quantize gradients accurately. Our algorithm achieves competitive accuracy on a wide range of tasks including natural language understanding, machine translation, and image classification. Unlike previous 4-bit training methods, our algorithm can be implemented on the current generation of GPUs. Our prototypical linear operator implementation is up to 2.2 times faster than the FP16 counterparts and speeds up the training by up to 35.1%. | 翻訳日:2023-06-26 10:11:23 公開日:2023-06-22 |
# VMLOC:学習型マルチモーダルカメラローカライゼーションのための変分融合 VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization ( http://arxiv.org/abs/2003.07289v5 ) ライセンス: Link先を確認 | Kaichen Zhou, Changhao Chen, Bing Wang, Muhamad Risqi U. Saputra, Niki Trigoni, Andrew Markham | (参考訳) 近年の学習に基づくアプローチは、シングルショットカメラのローカライゼーションの分野で大きな成果を上げている。
しかし、複数のモダリティ(画像や深度など)を融合し、劣化した入力や不足した入力に対処する最善の方法は、あまり研究されていない。
特に、ディープフュージョンに対する従来のアプローチは、単一のモダリティを用いたモデルよりも大幅に改善されないことに留意する。
これは、各モダリティの異なる強さを考慮に入れない和や連結による特徴空間の融合に対するナイーブなアプローチによるものであると推測する。
そこで本稿では,様々なセンサ入力を,poe(variational product-of-experts)と注意に基づく融合によって共通の潜在空間に融合する,vmlocと呼ばれるエンドツーエンドフレームワークを提案する。
従来のマルチモーダル変分法ではバニラ変分オートエンコーダの目的関数を直接適応させるのと異なり,重要重み付けに基づく偏りのない対象関数を用いてカメラの定位を正確に推定できることを示す。
提案モデルはRGB-Dデータセット上で広範囲に評価され,本モデルの有効性が証明された。
ソースコードはhttps://github.com/kaichen-z/vmlocで入手できる。 Recent learning-based approaches have achieved impressive results in the field of single-shot camera localization. However, how best to fuse multiple modalities (e.g., image and depth) and to deal with degraded or missing input are less well studied. In particular, we note that previous approaches towards deep fusion do not perform significantly better than models employing a single modality. We conjecture that this is because of the naive approaches to feature space fusion through summation or concatenation which do not take into account the different strengths of each modality. To address this, we propose an end-to-end framework, termed VMLoc, to fuse different sensor inputs into a common latent space through a variational Product-of-Experts (PoE) followed by attention-based fusion. Unlike previous multimodal variational works directly adapting the objective function of vanilla variational auto-encoder, we show how camera localization can be accurately estimated through an unbiased objective function based on importance weighting. Our model is extensively evaluated on RGB-D datasets and the results prove the efficacy of our model. The source code is available at https://github.com/kaichen-z/VMLoc. | 翻訳日:2023-06-23 18:35:08 公開日:2023-06-22 |
# サプレッサー変数を用いた線形地中データを用いたxaiの精査 Scrutinizing XAI using linear ground-truth data with suppressor variables ( http://arxiv.org/abs/2111.07473v2 ) ライセンス: Link先を確認 | Rick Wilming, C\'eline Budding, Klaus-Robert M\"uller, Stefan Haufe | (参考訳) 機械学習(ML)は、高い意思決定を伝えるために使われることが多い。
複雑なMLモデル(例えば、ディープニューラルネットワーク)はブラックボックスと見なされることが多いため、内部の動作や予測の方法に光を当てるための豊富な手順が開発され、"説明可能なAI"(XAI)の分野を定義している。
衛生手法は「重要」の指標によって入力特徴をランク付けする。
このような手法は、機能の重要性の正式な定義が欠如しているため、検証が難しい。
予測対象(圧力変数)と統計的に無関係な特徴を強調できるサリエンシ法が存在することが実証されている。
このような振る舞いによる誤解を避けるために,このような関連の存在を必要条件として,特徴量に対する客観的な予備定義として提案する。
我々は、全ての統計依存が十分に定義され線形である基底データセットを慎重に作成し、抑圧変数の問題を研究するためのベンチマークとして機能した。
目的の定義に関して, lrp, dtd, patternnet, patternattribution, lime, anchors, shap, and permutation-based methodsなどの一般的な説明法を評価した。
これらの手法のほとんどは,この設定において重要な特徴と抑制要因を区別できないことを示す。 Machine learning (ML) is increasingly often used to inform high-stakes decisions. As complex ML models (e.g., deep neural networks) are often considered black boxes, a wealth of procedures has been developed to shed light on their inner workings and the ways in which their predictions come about, defining the field of 'explainable AI' (XAI). Saliency methods rank input features according to some measure of 'importance'. Such methods are difficult to validate since a formal definition of feature importance is, thus far, lacking. It has been demonstrated that some saliency methods can highlight features that have no statistical association with the prediction target (suppressor variables). To avoid misinterpretations due to such behavior, we propose the actual presence of such an association as a necessary condition and objective preliminary definition for feature importance. We carefully crafted a ground-truth dataset in which all statistical dependencies are well-defined and linear, serving as a benchmark to study the problem of suppressor variables. We evaluate common explanation methods including LRP, DTD, PatternNet, PatternAttribution, LIME, Anchors, SHAP, and permutation-based methods with respect to our objective definition. We show that most of these methods are unable to distinguish important features from suppressors in this setting. | 翻訳日:2023-06-23 18:33:10 公開日:2023-06-22 |
# 平面伝導境界近傍における光子ガス中の電気双極子の異方運動 Anisotropic motion of an electric dipole in a photon gas near a flat conducting boundary ( http://arxiv.org/abs/2110.12955v2 ) ライセンス: Link先を確認 | G. H. S. Camargo, V. A. De Lorenci, A. L. Ferreira Junior, and C. C. H. Ribeiro | (参考訳) 光子ガス中に置かれた非ゼロ電気双極子モーメントを持つ単一中性粒子の一定の温度で導電性壁に近い量子ブラウン運動について検討した。
光子場と粒子の相互作用は、その線形および角モータの量子分散をもたらし、その大きさは温度、壁までの距離、そして双極子モーメント特性にも依存する。
典型的な実験パラメータでは、双極子回転によって保持されるエネルギー量は、質量変換の中心に関連するエネルギーよりも表現的に大きいことが示されている。
さらに, 熱浴の存在下での粒子運動エネルギーは, 粒子からエネルギーを抽出する新しい量子冷却効果として, システムに壁を追加すると低下する可能性がある。
最後に、観測可能な結果が議論される。 The quantum Brownian motion of a single neutral particle with nonzero electric dipole moment placed in a photon gas at fixed temperature and close to a conducting wall is here examined. The interaction of the particle with the photon field leads to quantum dispersions of its linear and angular momenta, whose magnitudes depend on the temperature, distance to the wall, and also on the dipole moment characteristics. It is shown that for typical experimental parameters the amount of energy held by the dipole rotation is expressively larger than the one related to the center of mass translation. Furthermore, the particle kinetic energy in presence of a thermal bath can decrease if the wall is added to the system, representing a novel quantum cooling effect where the work done by the quantum vacuum extracts energy from the particle. Finally, possible observable consequences are discussed. | 翻訳日:2023-06-23 18:32:07 公開日:2023-06-22 |
# CounterNet: 予測のためのエンド・ツー・エンドトレーニング CounterNet: End-to-End Training of Prediction Aware Counterfactual Explanations ( http://arxiv.org/abs/2109.07557v3 ) ライセンス: Link先を確認 | Hangzhi Guo, Thanh Hong Nguyen, Amulya Yadav | (参考訳) この研究は、機械学習(ML)モデルトレーニングとそれに対応する対実的(CF)説明を単一のエンドツーエンドパイプラインに統合する、新しいエンドツーエンド学習フレームワークであるCounterNetを提示する。
対実的な説明は対照的なケース、すなわち、そのインスタンス上のMLモデルの予測を事前定義された出力に変更するインスタンスの特徴値に対する最小限の変更を見つけようとするものである。
CF説明を生成する先行技術には2つの大きな制限がある。
(i)いずれもプロプライエタリなMLモデルで使用するように設計されたポストホックメソッドである -- その結果、CF説明を生成する手順は、MLモデルのトレーニングによって変更されず、モデル予測と説明の不一致につながる。
(ii)各入力データポイント(ランタイムに悪影響を及ぼす)のcf説明を見つけるために、それらのほとんどが別々の時間集約最適化の問題を解決することに依存している。
この研究は、予測モデルトレーニングとカウンターファクト(cf)説明を1つのパイプラインに統合したエンドツーエンド学習フレームワークである counternet を提示することで、一般的なポストホックパラダイム(cf説明を生成すること)から新たな脱却をもたらす。
ポストホック法とは異なり、CounterNetは予測モデルと合わせてCF説明生成の最適化を可能にする。
我々は、CounterNetのネットワークを効果的に訓練するのに役立つブロックワイド座標降下手順を採用する。
複数の実世界のデータセットに対する広範な実験により、CounterNetは高品質な予測を生成し、新しい入力インスタンスに対して100%CFの妥当性と低い近接スコアを一貫して達成し、既存の最先端ベースラインよりも3倍高速に動作します。 This work presents CounterNet, a novel end-to-end learning framework which integrates Machine Learning (ML) model training and the generation of corresponding counterfactual (CF) explanations into a single end-to-end pipeline. Counterfactual explanations offer a contrastive case, i.e., they attempt to find the smallest modification to the feature values of an instance that changes the prediction of the ML model on that instance to a predefined output. Prior techniques for generating CF explanations suffer from two major limitations: (i) all of them are post-hoc methods designed for use with proprietary ML models -- as a result, their procedure for generating CF explanations is uninformed by the training of the ML model, which leads to misalignment between model predictions and explanations; and (ii) most of them rely on solving separate time-intensive optimization problems to find CF explanations for each input data point (which negatively impacts their runtime). This work makes a novel departure from the prevalent post-hoc paradigm (of generating CF explanations) by presenting CounterNet, an end-to-end learning framework which integrates predictive model training and the generation of counterfactual (CF) explanations into a single pipeline. Unlike post-hoc methods, CounterNet enables the optimization of the CF explanation generation only once together with the predictive model. We adopt a block-wise coordinate descent procedure which helps in effectively training CounterNet's network. Our extensive experiments on multiple real-world datasets show that CounterNet generates high-quality predictions, and consistently achieves 100% CF validity and low proximity scores (thereby achieving a well-balanced cost-invalidity trade-off) for any new input instance, and runs 3X faster than existing state-of-the-art baselines. | 翻訳日:2023-06-23 18:31:34 公開日:2023-06-22 |
# 重力場と量子参照フレームの重ね合わせに対するアインシュタインの等価原理 Einstein's Equivalence principle for superpositions of gravitational fields and quantum reference frames ( http://arxiv.org/abs/2012.13754v4 ) ライセンス: Link先を確認 | Flaminia Giacomini, \v{C}aslav Brukner | (参考訳) アインシュタイン同値原理(Einstein Equivalence Principle,EEP)は、任意の局所的な慣性(古典的)参照フレームにおいて、物理学のすべての法則が特殊相対論的形式を取ることを述べ、一般相対性理論の核にある。
基本状態のため、この原理は重力効果と量子効果の両方が関係する系で物理法則を定式化する上で非常に強力な指針となるかもしれない。
EEPの定式化は、物質系と重力の両方が古典的であるときにのみ成り立ち、量子系を非古典的重力場として考えるとき、それを捨てるか、修正すべきかはわからない。
そこで本研究では,eepが量子系に関連する幅広い参照フレーム,すなわち量子参照フレーム(qrfs)に対して有効であることを提案する。
重力場の非古典性に一定の制限を加えることにより、そのような重力場に対するEEPの拡張を定式化できる枠組みを開発する。
これは、重力場が量子重畳状態にあるものを含め、EEPが現在適用されているものよりもはるかに広い物理的状況において有効であることを意味する。 The Einstein Equivalence Principle (EEP), stating that all laws of physics take their special-relativistic form in any local inertial (classical) reference frame, lies at the core of general relativity. Because of its fundamental status, this principle could be a very powerful guide in formulating physical laws at regimes where both gravitational and quantum effects are relevant. The formulation of the EEP only holds when both matter systems and gravity are classical, and we do not know whether we should abandon or modify it when we consider quantum systems in a-possibly nonclassical-gravitational field. Here, we propose that the EEP is valid for a broader class of reference frames, namely Quantum Reference Frames (QRFs) associated to quantum systems. By imposing certain restrictions on the type of nonclassicality of the gravitational field, we develop a framework that enables us to formulate an extension of the EEP for such gravitational fields. This means that the EEP is valid in a much wider set of physical situations than what it is currently applied to, including those in which the gravitational field is in a quantum superposition state. | 翻訳日:2023-06-23 18:31:06 公開日:2023-06-22 |
# less learn shortcut: 散発的特徴ラベル相関の学習の分析と緩和 Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious Feature-Label Correlation ( http://arxiv.org/abs/2205.12593v2 ) ライセンス: Link先を確認 | Yanrui Du, Jing Yan, Yan Chen, Jing Liu, Sendong Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang, Bing Qin | (参考訳) 近年の研究では、深層ニューラルネットワークは、タスクを理解するよりも、意思決定の近道としてデータセットバイアスを取ることが多く、現実のアプリケーションでは障害が発生する。
本研究では,学習データのバイアスデータ分布からモデルが学習する単語の特徴とラベルとの素早い相関に着目した。
特に、特定のラベルと高度に共起する単語をバイアス付き単語と定義し、バイアス付き単語をバイアス付き例と定義する。
分析の結果,偏りのある例はモデルにとって学習しやすいが,バイアスのある単語はモデルの予測に著しく寄与する傾向にあり,予測されたラベルは単語とラベルの間のスプリアスな相関に基づいて過剰に割り当てられる傾向がみられた。
モデルがショートカットに過度に依存することを緩和するため(即ち急激な相関)、我々はLear-Learn-Shortcut (LLS) を訓練戦略として提案する。
質問マッチング,自然言語推論,感性分析タスクの実験結果から,LSSはタスクに依存しない戦略であり,ドメイン内データの良好な性能を維持しつつ,敵データに対するモデル性能を向上させることができることが示された。 Recent research has revealed that deep neural networks often take dataset biases as a shortcut to make decisions rather than understand tasks, leading to failures in real-world applications. In this study, we focus on the spurious correlation between word features and labels that models learn from the biased data distribution of training data. In particular, we define the word highly co-occurring with a specific label as biased word, and the example containing biased word as biased example. Our analysis shows that biased examples are easier for models to learn, while at the time of prediction, biased words make a significantly higher contribution to the models' predictions, and models tend to assign predicted labels over-relying on the spurious correlation between words and labels. To mitigate models' over-reliance on the shortcut (i.e. spurious correlation), we propose a training strategy Less-Learn-Shortcut (LLS): our strategy quantifies the biased degree of the biased examples and down-weights them accordingly. Experimental results on Question Matching, Natural Language Inference and Sentiment Analysis tasks show that LLS is a task-agnostic strategy and can improve the model performance on adversarial data while maintaining good performance on in-domain data. | 翻訳日:2023-06-23 18:22:55 公開日:2023-06-22 |
# 部分閉塞が歩行者検出性に及ぼす影響 The Impact of Partial Occlusion on Pedestrian Detectability ( http://arxiv.org/abs/2205.04812v5 ) ライセンス: Link先を確認 | Shane Gilroy, Darragh Mullins, Edward Jones, Ashkan Parsi and Martin Glavin | (参考訳) 脆弱な道路利用者のロバスト検出は、自動運転車を異種交通に配備するための安全上重要な要件である。
最も複雑な課題の1つは、対象の物体が、他の前景の物体の障害物によって、センサーに部分的にしか利用できない部分閉塞である。
多くの主要な歩行者検出ベンチマークは部分閉塞に対するアノテーションを提供しているが、それぞれのベンチマークは閉塞の発生と重症度の定義で大きく異なる。
近年の研究では、これらの症例では高い主観性が咬合レベルを分類するために用いられており、咬合は部分的および重閉塞などの2~3つの広いカテゴリに分類される。
これにより、どのベンチマークが使われているかによって、歩行者検出モデルのパフォーマンスが不正確または矛盾していることを報告できる。
本研究は, 歩行者検出モデルの客観的評価を容易にするため, 部分閉塞歩行者検出のための新しい客観的ベンチマークを提案する。
提案手法の有効性と解析能力の向上を実証するため,0~99%の閉塞レベルに対する7つの一般的な歩行者検出モデルを用いて評価を行った。
その結果, 歩行者検出性能は低下し, 歩行者咬合レベルが上昇するにつれて偽陰性検出数が増加することがわかった。
人気の高い歩行者検出ルーチン7つのうち、CenterNetは、SSDliteに続いて、全体的なパフォーマンスが最も高い。
RetinaNetの全体的な検出性能は、オクルージョンレベルの範囲で最低である。 Robust detection of vulnerable road users is a safety critical requirement for the deployment of autonomous vehicles in heterogeneous traffic. One of the most complex outstanding challenges is that of partial occlusion where a target object is only partially available to the sensor due to obstruction by another foreground object. A number of leading pedestrian detection benchmarks provide annotation for partial occlusion, however each benchmark varies greatly in their definition of the occurrence and severity of occlusion. Recent research demonstrates that a high degree of subjectivity is used to classify occlusion level in these cases and occlusion is typically categorized into 2 to 3 broad categories such as partially and heavily occluded. This can lead to inaccurate or inconsistent reporting of pedestrian detection model performance depending on which benchmark is used. This research introduces a novel, objective benchmark for partially occluded pedestrian detection to facilitate the objective characterization of pedestrian detection models. Characterization is carried out on seven popular pedestrian detection models for a range of occlusion levels from 0-99%, in order to demonstrate the efficacy and increased analysis capabilities of the proposed characterization method. Results demonstrate that pedestrian detection performance degrades, and the number of false negative detections increase as pedestrian occlusion level increases. Of the seven popular pedestrian detection routines characterized, CenterNet has the greatest overall performance, followed by SSDlite. RetinaNet has the lowest overall detection performance across the range of occlusion levels. | 翻訳日:2023-06-23 18:22:31 公開日:2023-06-22 |
# グラフニューラルネットワークのためのグラフプーリング:進歩、挑戦、機会 Graph Pooling for Graph Neural Networks: Progress, Challenges, and Opportunities ( http://arxiv.org/abs/2204.07321v2 ) ライセンス: Link先を確認 | Chuang Liu, Yibing Zhan, Jia Wu, Chang Li, Bo Du, Wenbin Hu, Tongliang Liu, Dacheng Tao | (参考訳) グラフニューラルネットワークは、グラフ分類やグラフ生成など、多くのグラフレベルのタスクの主要なアーキテクチャとして登場した。
アーキテクチャの不可欠な構成要素として、グラフプーリングはグラフ全体の全体的グラフレベル表現を得るのに不可欠である。
この有望で急速に発展する研究分野において、様々な方法が提案されているが、我々の知る限りでは、これらの作品を体系的にまとめる努力はほとんど行われていない。
本稿では,このギャップを埋めるために,近年のグラフプーリングの手法を幅広く検討することによって,今後の研究の舞台を整える。
具体的には
1)まず,各カテゴリの数学的要約を用いた既存のグラフプーリング法の分類法を提案する。
2) グラフプーリングに関連するライブラリの概要を概観し,一般的なデータセット,ダウンストリームタスクのためのモデルアーキテクチャ,オープンソース実装などについて述べる。
3) 次に,様々な領域におけるグラフプーリングの考え方を取り入れたアプリケーションについて概説する。
4) 最後に, 現在研究が直面しているいくつかの重要な課題について考察し, グラフプーリングの改善研究の今後の方向性について考察する。 Graph neural networks have emerged as a leading architecture for many graph-level tasks, such as graph classification and graph generation. As an essential component of the architecture, graph pooling is indispensable for obtaining a holistic graph-level representation of the whole graph. Although a great variety of methods have been proposed in this promising and fast-developing research field, to the best of our knowledge, little effort has been made to systematically summarize these works. To set the stage for the development of future works, in this paper, we attempt to fill this gap by providing a broad review of recent methods for graph pooling. Specifically, 1) we first propose a taxonomy of existing graph pooling methods with a mathematical summary for each category; 2) then, we provide an overview of the libraries related to graph pooling, including the commonly used datasets, model architectures for downstream tasks, and open-source implementations; 3) next, we further outline the applications that incorporate the idea of graph pooling in a variety of domains; 4) finally, we discuss certain critical challenges facing current studies and share our insights on future potential directions for research on the improvement of graph pooling. | 翻訳日:2023-06-23 18:22:04 公開日:2023-06-22 |
# 「私も私も、もしそうなら、何人?」...差別的プライバシーを守れるようにリスクコミュニケーションフォーマットを使って "Am I Private and If So, how Many?" -- Using Risk Communication Formats for Making Differential Privacy Understandable ( http://arxiv.org/abs/2204.04061v4 ) ライセンス: Link先を確認 | Daniel Franzen (1), Saskia Nu\~nez von Voigt (2), Peter S\"orries (1), Florian Tschorsch (2), Claudia M\"uller-Birn (1) ((1) Freie Universit\"at Berlin, (2) Technische Universit\"at Berlin) | (参考訳) 都市やコミュニティにとって、モビリティデータは必要な改善のための地域を特定するために不可欠である。
モビリティプロバイダが収集したデータは、必要なすべての情報を含んでいるが、個人のプライバシーは保存する必要がある。
differential privacy (dp)は、データ共有中にプライバシーの特定の制限が保持されることを保証する数学的特性を定義するが、その機能とプライバシ保護は素人に対して説明が難しい。
本稿では,DPのプライバシリスクのモデルと合わせて,リスクコミュニケーション形式を適応させる。
その結果、DPの機能ではなく、DPを使用する際の個人のプライバシーに対するリスクを説明するプライバシー通知が得られた。
我々はこれらの新しいプライバシーコミュニケーションフォーマットをクラウドソーシング研究で評価する。
客観的理解の観点からは,現在使用されているDP通信の最高性能とよく似ているが,参加者にその理解に自信を持たせることは出来なかった。
また,dunning-kruger効果に類似した,プライバシ通信形式や現在使用されているdp通信形式の有効性に関する統計数値の影響も見いだした。
これらの結果は, リスクビジュアライゼーションの活用によるフォーマットの理解性向上や, リスクコミュニケーションを読者の特性に合わせて調整するユーザインタフェースの活用など, 複数方向の仮説を生成する。 Mobility data is essential for cities and communities to identify areas for necessary improvement. Data collected by mobility providers already contains all the information necessary, but privacy of the individuals needs to be preserved. Differential privacy (DP) defines a mathematical property which guarantees that certain limits of privacy are preserved while sharing such data, but its functionality and privacy protection are difficult to explain to laypeople. In this paper, we adapt risk communication formats in conjunction with a model for the privacy risks of DP. The result are privacy notifications which explain the risk to an individual's privacy when using DP, rather than DP's functionality. We evaluate these novel privacy communication formats in a crowdsourced study. We find that they perform similarly to the best performing DP communications used currently in terms of objective understanding, but did not make our participants as confident in their understanding. We also discovered an influence, similar to the Dunning-Kruger effect, of the statistical numeracy on the effectiveness of some of our privacy communication formats and the DP communication format used currently. These results generate hypotheses in multiple directions, for example, toward the use of risk visualization to improve the understandability of our formats or toward adaptive user interfaces which tailor the risk communication to the characteristics of the reader. | 翻訳日:2023-06-23 18:21:27 公開日:2023-06-22 |
# 粗い3次元CNNによる変形可能な畳み込みに基づくビデオフレーム補間 Enhancing Deformable Convolution based Video Frame Interpolation with Coarse-to-fine 3D CNN ( http://arxiv.org/abs/2202.07731v2 ) ライセンス: Link先を確認 | Duolikun Danier, Fan Zhang and David Bull | (参考訳) 本稿では,粗く微細な3次元cnnを用いて,変形可能な畳み込み型ビデオフレーム補間(vfi)法を提案する。
このモデルはまず3次元CNNを用いて複数スケールの時空間的特徴を抽出し,これらの特徴を粗い方法で推定する。
次に、推定されたマルチフローを用いて、元の入力フレームとコンテキストマップをワープし、ワープした結果を合成ネットワークで融合して最終的な出力を生成する。
このVFIアプローチは、一般的に使用されている3つのテストデータベース上の12の最先端VFI手法に対して完全に評価されている。
その結果,PSNRは0.19dBまで向上し,他の手法よりも高い補間性能を実現する手法の有効性が明らかとなった。 This paper presents a new deformable convolution-based video frame interpolation (VFI) method, using a coarse to fine 3D CNN to enhance the multi-flow prediction. This model first extracts spatio-temporal features at multiple scales using a 3D CNN, and estimates multi-flows using these features in a coarse-to-fine manner. The estimated multi-flows are then used to warp the original input frames as well as context maps, and the warped results are fused by a synthesis network to produce the final output. This VFI approach has been fully evaluated against 12 state-of-the-art VFI methods on three commonly used test databases. The results evidently show the effectiveness of the proposed method, which offers superior interpolation performance over other state of the art algorithms, with PSNR gains up to 0.19dB. | 翻訳日:2023-06-23 18:20:44 公開日:2023-06-22 |
# 映像フレーム補間における主観的品質調査 A Subjective Quality Study for Video Frame Interpolation ( http://arxiv.org/abs/2202.07727v2 ) ライセンス: Link先を確認 | Duolikun Danier, Fan Zhang and David Bull | (参考訳) ビデオフレーム補間(VFI)は,ビデオ処理における基礎研究の1つであり,新しい補間アルゴリズムや拡張補間アルゴリズムの研究が盛んである。
補間されたコンテンツの品質評価にも同じことが当てはまらない。
本稿では,新たに開発されたビデオデータベースBVI-VFIに基づくVFIの主観的品質調査について述べる。
BVI-VFIは、3つの異なるフレームレートで36の参照シーケンスと、5つの従来の学習ベースのVFIアルゴリズムを用いて生成された180の歪みビデオを含んでいる。
主観的評価スコアは60人の被験者から収集され、PSNR、SSIM、LPIPSを含む8つの一般的な品質指標の評価に使用される。
その結果、これらの指標は補間コンテンツの品質と許容できる相関性を持たず、最も優れた指標であるlpipsは0.6未満のsrocc値を示した。
以上の結果から,VFIの知覚品質測定基準の確立が急務であることが示唆された。
BVI-VFIデータセットは公開されており、https://danier97.github.io/BVI-VFI/でアクセスできる。 Video frame interpolation (VFI) is one of the fundamental research areas in video processing and there has been extensive research on novel and enhanced interpolation algorithms. The same is not true for quality assessment of the interpolated content. In this paper, we describe a subjective quality study for VFI based on a newly developed video database, BVI-VFI. BVI-VFI contains 36 reference sequences at three different frame rates and 180 distorted videos generated using five conventional and learning based VFI algorithms. Subjective opinion scores have been collected from 60 human participants, and then employed to evaluate eight popular quality metrics, including PSNR, SSIM and LPIPS which are all commonly used for assessing VFI methods. The results indicate that none of these metrics provide acceptable correlation with the perceived quality on interpolated content, with the best-performing metric, LPIPS, offering a SROCC value below 0.6. Our findings show that there is an urgent need to develop a bespoke perceptual quality metric for VFI. The BVI-VFI dataset is publicly available and can be accessed at https://danier97.github.io/BVI-VFI/. | 翻訳日:2023-06-23 18:20:31 公開日:2023-06-22 |
# 暗号通貨の評価 - 説明可能なAIアプローチ Cryptocurrency Valuation: An Explainable AI Approach ( http://arxiv.org/abs/2201.12893v7 ) ライセンス: Link先を確認 | Yulin Liu and Luyao Zhang | (参考訳) 現在、暗号通貨資産の基礎に関する説得力のあるプロキシは存在しない。
本稿では、独自のブロックチェーン会計手法を用いて、新しい市場間投資比率(PU比)を提案する。
その後、Bitcoinの履歴データによって、さまざまな基本的な市場比をプロキシし、短期的なbitcoinリターンの予測力はほとんどない。
しかし、pu比率は、他の方法よりも長期bitcoinリターンを効果的に予測する。
さらに,機械学習を用いてPU比の説明可能性を検証する。
最後に、PU比によって推奨される自動取引戦略を提示する。
第1に、私たちの市場と資金の比率は、古典的な金融理論と、アドホックではなくBitcoin会計のユニークなUTXOモデルに基づくものであり、第2に、この比率の買い得と売り上げ高の影響を実証する実証的証拠であり、最後に、将来の研究において例外となるPython Package Indexを介して、オープンソースソフトウェアとしてトレーディングアルゴリズムを配布する。 Currently, there are no convincing proxies for the fundamentals of cryptocurrency assets. We propose a new market-to-fundamental ratio, the price-to-utility (PU) ratio, utilizing unique blockchain accounting methods. We then proxy various existing fundamental-to-market ratios by Bitcoin historical data and find they have little predictive power for short-term bitcoin returns. However, PU ratio effectively predicts long-term bitcoin returns than alternative methods. Furthermore, we verify the explainability of PU ratio using machine learning. Finally, we present an automated trading strategy advised by the PU ratio that outperforms the conventional buy-and-hold and market-timing strategies. Our research contributes to explainable AI in finance from three facets: First, our market-to-fundamental ratio is based on classic monetary theory and the unique UTXO model of Bitcoin accounting rather than ad hoc; Second, the empirical evidence testifies the buy-low and sell-high implications of the ratio; Finally, we distribute the trading algorithms as open-source software via Python Package Index for future research, which is exceptional in finance research. | 翻訳日:2023-06-23 18:20:12 公開日:2023-06-22 |
# 量子状態の確率変換可能性に関する厳密な制約 Tight constraints on probabilistic convertibility of quantum states ( http://arxiv.org/abs/2112.11321v4 ) ライセンス: Link先を確認 | Bartosz Regula | (参考訳) 量子資源理論の限界に制約された確率的プロトコルを用いて、量子状態の操作を特徴付けるための2つの一般的なアプローチを開発する。
まず、ヒルベルト射影計量に基づく最近導入された資源単調を用いて得られた量子状態間の物理的変換が存在するための一般的な必要条件を与える。
すべてのアフィン量子資源理論(例えばコヒーレンス、非対称性、イマジナリティ)や絡み合い蒸留では、モノトーンがリソース非生成操作下でのワンショット資源変換性に必要十分十分条件を与え、したがってすべての確率的プロトコルに対するより良い制限は不可能であることを示す。
モノトーンを用いて,one-shot および many-copy の確率的資源蒸留プロトコルの性能限界の改善を行った。
このアプローチを補完し,資源非生成写像の下での資源変換における達成可能な確率を凸最適化問題群を通じて有界化する方法を提案する。
我々は,多種多様な資源理論において,単発確率蒸留を厳格に特徴付け,最大資源状態の蒸留における確率と誤差のトレードオフを正確に解析できることを示す。
量子エンタングルメント蒸留の研究における2つのアプローチの有用性を実証する。 We develop two general approaches to characterising the manipulation of quantum states by means of probabilistic protocols constrained by the limitations of some quantum resource theory. First, we give a general necessary condition for the existence of a physical transformation between quantum states, obtained using a recently introduced resource monotone based on the Hilbert projective metric. In all affine quantum resource theories (e.g. coherence, asymmetry, imaginarity) as well as in entanglement distillation, we show that the monotone provides a necessary and sufficient condition for one-shot resource convertibility under resource-non-generating operations, and hence no better restrictions on all probabilistic protocols are possible. We use the monotone to establish improved bounds on the performance of both one-shot and many-copy probabilistic resource distillation protocols. Complementing this approach, we introduce a general method for bounding achievable probabilities in resource transformations under resource-non-generating maps through a family of convex optimisation problems. We show it to tightly characterise single-shot probabilistic distillation in broad types of resource theories, allowing an exact analysis of the trade-offs between the probabilities and errors in distilling maximally resourceful states. We demonstrate the usefulness of both of our approaches in the study of quantum entanglement distillation. | 翻訳日:2023-06-23 18:19:52 公開日:2023-06-22 |
# ソース局在脳波の特徴選択による肥満の神経シグナルの探索 Finding neural signatures for obesity through feature selection on source-localized EEG ( http://arxiv.org/abs/2208.14007v3 ) ライセンス: Link先を確認 | Yuan Yue, Dirk De Ridder, Patrick Manning, Samantha Ross, Jeremiah D. Deng | (参考訳) 肥満は現代社会において深刻な問題であり、生活の質を著しく低下させることがしばしばある。
脳波(EEG)データを用いた肥満関連神経学的証拠の探索は,従来のアプローチに限られている。
本研究では,脳波データから得られるアルファバンド機能接続機能を用いて,肥満女性の脳ネットワークを同定する機械学習モデルを開発した。
全体の分類精度は0.937である。
以上の結果から, 肥満脳の特徴は, 自己参照情報や環境情報を処理する領域が障害となる機能不全ネットワークであることが示唆された。 Obesity is a serious issue in the modern society and is often associated to significantly reduced quality of life. Current research conducted to explore obesity-related neurological evidences using electroencephalography (EEG) data are limited to traditional approaches. In this study, we developed a novel machine learning model to identify brain networks of obese females using alpha band functional connectivity features derived from EEG data. An overall classification accuracy of 0.937 is achieved. Our finding suggests that the obese brain is characterized by a dysfunctional network in which the areas that responsible for processing self-referential information and environmental context information are impaired. | 翻訳日:2023-06-23 18:13:52 公開日:2023-06-22 |
# Frouros: 機械学習システムにおけるドリフト検出のためのPythonライブラリ Frouros: A Python library for drift detection in machine learning systems ( http://arxiv.org/abs/2208.06868v2 ) ライセンス: Link先を確認 | Jaime C\'espedes-Sisniega and \'Alvaro L\'opez-Garc\'ia | (参考訳) FrourosはオープンソースのPythonライブラリで、機械学習システムのドリフトを検出することができる。
ドリフト検出のための古典的なアルゴリズムとより最近のアルゴリズムの組み合わせを提供する:概念とデータドリフトの両方である。
私たちは、あらゆる機械学習フレームワークと互換性を持たせ、現実世界のユースケースに容易に適応できるように設計しました。
このライブラリは、メンテナンスの容易さと拡張性を確保するために、最良の開発と継続的インテグレーションのプラクティスに従って開発されている。
ソースコードはhttps://github.com/ifca/frouros.com/で入手できる。 Frouros is an open-source Python library capable of detecting drift in machine learning systems. It provides a combination of classical and more recent algorithms for drift detection: both concept and data drift. We have designed it with the objective of making it compatible with any machine learning framework and easily adaptable to real-world use cases. The library is developed following a set of best development and continuous integration practices to ensure ease of maintenance and extensibility. The source code is available at https://github.com/IFCA/frouros. | 翻訳日:2023-06-23 18:13:20 公開日:2023-06-22 |
# ランダムコンパイルによる雑音-弾性位相推定 Noise-resilient phase estimation with randomized compiling ( http://arxiv.org/abs/2208.04100v2 ) ライセンス: Link先を確認 | Yanwu Gu, Yunheng Ma, Nicolo Forcellini, Dong E. Liu | (参考訳) 制御フリー位相推定のための誤差緩和法を開発した。
一階補正の下では、エルミートクラウス作用素のみを持つノイズチャネルがユニタリ作用素の位相を変化させないという定理を証明し、位相推定のための良質なノイズタイプを同定する。
ランダム化コンパイルプロトコルを用いることで、位相推定回路の一般的なノイズを確率的ポーリノイズに変換することができ、この定理の条件を満たす。
したがって、量子リソースのオーバーヘッドを伴わないノイズ耐性位相推定を実現する。
シミュレーション実験の結果,本手法は位相推定誤差を最大2桁低減できることがわかった。
本手法は,フォールトトレラント量子コンピュータの出現前における量子位相推定の活用方法である。 We develop an error mitigation method for the control-free phase estimation. We prove a theorem that under the first-order correction, the noise channels with only Hermitian Kraus operators do not change the phases of a unitary operator, and therefore, the benign types of noise for phase estimation are identified. By using the randomized compiling protocol, we can convert the generic noise in the phase estimation circuits into stochastic Pauli noise, which satisfies the condition of our theorem. Thus we achieve a noise-resilient phase estimation without any quantum resource overhead. The simulated experiments show that our method can significantly reduce the estimation error of the phases by up to two orders of magnitude. Our method paves the way for the utilization of quantum phase estimation before the advent of fault-tolerant quantum computers. | 翻訳日:2023-06-23 18:13:08 公開日:2023-06-22 |
# flolpips:フレームインターポレーションのためのビデオ品質指標 FloLPIPS: A Bespoke Video Quality Metric for Frame Interpoation ( http://arxiv.org/abs/2207.08119v2 ) ライセンス: Link先を確認 | Duolikun Danier, Fan Zhang, David Bull | (参考訳) ビデオフレーム補間(VFI)は多くのビデオ処理アプリケーションにおいて有用なツールである。
近年,従来のビデオコーデックや学習ベース圧縮アーキテクチャの強化のために,ビデオ圧縮領域にも適用されている。
近年、拡張フレーム補間アルゴリズムの開発に焦点が当てられているが、補間されたコンテンツの知覚的品質評価は研究のオープンフィールドのままである。
本稿では,一般的な知覚画像品質指標であるLPIPSに基づいて,抽出された画像特徴空間の知覚的劣化をキャプチャする,VFI用フルレファレンスビデオ品質指標FloLPIPSを提案する。
補間コンテンツ評価のためのLPIPSの性能向上を目的として,時間的歪み(光流との比較による)を用いて特徴差マップの重み付けを行い,空間的特徴集約ステップを再設計した。
様々なフレーム補間アーチファクトを持つ180の試験シーケンスを含むBVI-VFIデータベースを用いて評価し、FloLPIPSは、12のポピュラーな品質評価器よりも主観的根拠真理と(統計的に有意な)優れた相関性能を示す。
VFI品質評価のさらなる研究を促進するため、我々のコードはhttps://danier97.github.io/FloLPIPSで公開されている。 Video frame interpolation (VFI) serves as a useful tool for many video processing applications. Recently, it has also been applied in the video compression domain for enhancing both conventional video codecs and learning-based compression architectures. While there has been an increased focus on the development of enhanced frame interpolation algorithms in recent years, the perceptual quality assessment of interpolated content remains an open field of research. In this paper, we present a bespoke full reference video quality metric for VFI, FloLPIPS, that builds on the popular perceptual image quality metric, LPIPS, which captures the perceptual degradation in extracted image feature space. In order to enhance the performance of LPIPS for evaluating interpolated content, we re-designed its spatial feature aggregation step by using the temporal distortion (through comparing optical flows) to weight the feature difference maps. Evaluated on the BVI-VFI database, which contains 180 test sequences with various frame interpolation artefacts, FloLPIPS shows superior correlation performance (with statistical significance) with subjective ground truth over 12 popular quality assessors. To facilitate further research in VFI quality assessment, our code is publicly available at https://danier97.github.io/FloLPIPS. | 翻訳日:2023-06-23 18:12:30 公開日:2023-06-22 |
# VL-CheckList: 対象,属性,関係を考慮した事前学習型視覚言語モデルの評価 VL-CheckList: Evaluating Pre-trained Vision-Language Models with Objects, Attributes and Relations ( http://arxiv.org/abs/2207.00221v2 ) ライセンス: Link先を確認 | Tiancheng Zhao, Tianqi Zhang, Mingwei Zhu, Haozhan Shen, Kyusong Lee, Xiaopeng Lu, Jianwei Yin | (参考訳) vision-language pretraining(vlp)モデルは、最近多くのクロスモーダルダウンストリームタスクをうまく促進しました。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
しかしながら、平均ダウンストリームタスク精度だけが、それぞれのVLPメソッドの長所と短所についてはほとんど情報を提供していない。
自然言語処理をテストするためにCheckListに触発された我々は、VLPモデルの能力を理解するための新しいフレームワークであるVL-CheckListを利用する。
提案手法は,VLPモデルの画像テキスト化能力をオブジェクト,属性,関係の3つのカテゴリに分割し,これら3つの側面をさらに分解するために新しい分類法を用いる。
提案手法を用いて,最近普及している7つのVLPモデルの解析を行う。
提案手法の有効性は,下流のタスクのみの評価では見えなかった比較モデル間でのきめ細かい相違を明らかにすることで検証した。
さらなる結果は、より良いVLPモデルを構築するための有望な研究方向を示す。
私たちのデータとコードは、https://github.com/om-ai-lab/VL-CheckList.comで利用可能です。 Vision-Language Pretraining (VLP) models have recently successfully facilitated many cross-modal downstream tasks. Most existing works evaluated their systems by comparing the fine-tuned downstream task performance. However, only average downstream task accuracy provides little information about the pros and cons of each VLP method, let alone provides insights on how the community can improve the systems in the future. Inspired by the CheckList for testing natural language processing, we exploit VL-CheckList, a novel framework to understand the capabilities of VLP models. The proposed method divides the image-texting ability of a VLP model into three categories: objects, attributes, and relations, and uses a novel taxonomy to further break down these three aspects. We conduct comprehensive studies to analyze seven recently popular VLP models via the proposed framework. Results confirm the effectiveness of the proposed method by revealing fine-grained differences among the compared models that were not visible from downstream task-only evaluation. Further results show promising research direction in building better VLP models. Our data and code are available at: https://github.com/om-ai-lab/VL-CheckList. | 翻訳日:2023-06-23 18:12:07 公開日:2023-06-22 |
# 再帰的変分級法に基づく分子・物質特性計算のための短期量子アルゴリズム A Near-Term Quantum Algorithm for Computing Molecular and Materials Properties based on Recursive Variational Series Methods ( http://arxiv.org/abs/2206.09881v2 ) ライセンス: Link先を確認 | Phillip W. K. Jensen, Peter D. Johnson, and Alexander A. Kunitsa | (参考訳) 分子と物質の物性の決定は量子コンピューティングの第一の応用の一つである。
この分野の大きな疑問は: 実用的価値の問題を解決するために、不完全な短期量子コンピュータをどのように使うのか?
近距離量子デバイスを用いて分子の特性を推定する量子アルゴリズムを提案する。
この方法は帰納的変分級数推定法であり、チェビシェフ多項式の項で興味のある作用素を拡張し、変分量子アルゴリズムを用いて展開の各項を評価する。
エネルギー領域における一粒子グリーン関数と時間領域における自己相関関数を計算し,本手法を検証した。 Determining properties of molecules and materials is one of the premier applications of quantum computing. A major question in the field is: how might we use imperfect near-term quantum computers to solve problems of practical value? We propose a quantum algorithm to estimate properties of molecules using near-term quantum devices. The method is a recursive variational series estimation method, where we expand an operator of interest in terms of Chebyshev polynomials, and evaluate each term in the expansion using a variational quantum algorithm. We test our method by computing the one-particle Green's function in energy domain and the autocorrelation function in time domain. | 翻訳日:2023-06-23 18:11:48 公開日:2023-06-22 |
# 高齢者・変形性音声認識におけるクロスドメインおよびクロスリンガル超音波舌画像の特徴 Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition ( http://arxiv.org/abs/2206.07327v3 ) ライセンス: Link先を確認 | Shujie Hu, Xurong Xie, Mengzhe Geng, Mingyu Cui, Jiajun Deng, Guinan Li, Tianzi Wang, Xunying Liu, Helen Meng | (参考訳) 調音機能は本質的に音響信号の歪みに不変であり、正常音声用に設計された自動音声認識(ASR)システムにうまく組み込まれている。
言語にまたがる高齢者や無秩序な発話などの非定型課題領域への実践的応用は、ターゲット話者からそのような専門的データを収集することの難しさによって制限されることが多い。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用して,2つの言語にまたがる3つのデータセットに事前学習を行い,これら3つの言語に適応する言語間変換手法を提案する: 英語のDementiaBank PittとCandonese JCCOCC MoCA 音声コーパス,および英語のTORGO 音声データ。
データ拡張、話者適応、クロスシステム多パス復号化の後に、統計的に有意な単語や文字誤り率を4.75%、2.59%、2.07%(14.69%、10.64%、22.72%)まで減少させることで、音響特性を用いて構築したベースラインTDNNとコンフォーマーASRシステムにおいて、生成した調音機能を一貫して向上させる実験を行った。 Articulatory features are inherently invariant to acoustic signal distortion and have been successfully incorporated into automatic speech recognition (ASR) systems designed for normal speech. Their practical application to atypical task domains such as elderly and disordered speech across languages is often limited by the difficulty in collecting such specialist data from target speakers. This paper presents a cross-domain and cross-lingual A2A inversion approach that utilizes the parallel audio and ultrasound tongue imaging (UTI) data of the 24-hour TaL corpus in A2A model pre-training before being cross-domain and cross-lingual adapted to three datasets across two languages: the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech corpora; and the English TORGO dysarthric speech data, to produce UTI based articulatory features. Experiments conducted on three tasks suggested incorporating the generated articulatory features consistently outperformed the baseline TDNN and Conformer ASR systems constructed using acoustic features only by statistically significant word or character error rate reductions up to 4.75%, 2.59% and 2.07% absolute (14.69%, 10.64% and 22.72% relative) after data augmentation, speaker adaptation and cross system multi-pass decoding were applied. | 翻訳日:2023-06-23 18:11:36 公開日:2023-06-22 |
# 1-リプシッツニューラルネットワークの解法特性について : 最適輸送の観点から On the explainable properties of 1-Lipschitz Neural Networks: An Optimal Transport Perspective ( http://arxiv.org/abs/2206.06854v2 ) ライセンス: Link先を確認 | Mathieu Serrurier (IRIT, UT), Franck Mamalet (UT), Thomas Fel (UT), Louis B\'ethune (UT3, UT, IRIT), Thibaut Boissin (UT) | (参考訳) 入力勾配は、モデルロバスト性を評価するための敵攻撃アルゴリズム、Saliency Mapsを生成するための説明可能なAI技術、および反実的説明など、さまざまなアプリケーションにおいて重要な役割を持つ。
しかし、従来のニューラルネットワークによって生成されたSaliency Mapsは、しばしばノイズが多く、洞察が限られている。
本稿では,1-LipschitzニューラルネットのSaliency Mapsが最適輸送問題の二重損失から学習し,望ましいXAI特性を示すことを実証する。
また、これらの地図は、ImageNet上の人間の説明と前例のないほどよく一致していることを示す。
このようなモデルに対する塩分マップの特に有益な性質を説明するために、この勾配は輸送計画の方向と最も近い対向攻撃への方向の両方を符号化していることを証明している。
決定境界への勾配に従うことは、もはや敵攻撃ではなく、あるクラスから別のクラスへの入力を明示的に輸送する反実的な説明である。
このようにして、このような損失を伴う学習は、分類目標と勾配、すなわち、サリエンシマップの輸送計画方向へのアライメントを共同で最適化する。
これらのネットワークは従来,設計上頑健であることが知られており,大規模問題やモデルに対して拡張性が高く,高速で分かりやすい手法による説明性にも適していた。 Input gradients have a pivotal role in a variety of applications, including adversarial attack algorithms for evaluating model robustness, explainable AI techniques for generating Saliency Maps, and counterfactual explanations. However, Saliency Maps generated by traditional neural networks are often noisy and provide limited insights. In this paper, we demonstrate that, on the contrary, the Saliency Maps of 1-Lipschitz neural networks, learnt with the dual loss of an optimal transportation problem, exhibit desirable XAI properties: They are highly concentrated on the essential parts of the image with low noise, significantly outperforming state-of-the-art explanation approaches across various models and metrics. We also prove that these maps align unprecedentedly well with human explanations on ImageNet. To explain the particularly beneficial properties of the Saliency Map for such models, we prove this gradient encodes both the direction of the transportation plan and the direction towards the nearest adversarial attack. Following the gradient down to the decision boundary is no longer considered an adversarial attack, but rather a counterfactual explanation that explicitly transports the input from one class to another. Thus, Learning with such a loss jointly optimizes the classification objective and the alignment of the gradient , i.e. the Saliency Map, to the transportation plan direction. These networks were previously known to be certifiably robust by design, and we demonstrate that they scale well for large problems and models, and are tailored for explainability using a fast and straightforward method. | 翻訳日:2023-06-23 18:10:50 公開日:2023-06-22 |
# ウェーブレット変換によるリモートセンシングデータのバックドア攻撃 Backdoor Attacks for Remote Sensing Data with Wavelet Transform ( http://arxiv.org/abs/2211.08044v2 ) ライセンス: Link先を確認 | Nikolaus Dr\"ager, Yonghao Xu, Pedram Ghamisi | (参考訳) 近年では、ジオサイエンスとリモートセンシングの分野でディープラーニングアルゴリズムが大きな成功を収めている。
それでも、安全クリティカルなリモートセンシングタスクに対処する場合には、ディープラーニングモデルのセキュリティと堅牢性が特に注目に値する。
本稿では,シーン分類とセマンティックセグメンテーションの両方を考慮したリモートセンシングデータに対するバックドア攻撃の系統的解析を行う。
既存のバックドアアタックアルゴリズムの多くは、よく設計されたパターンを持つ正方形パッチのような目に見えるトリガーに依存しているが、低周波領域の有毒画像にトリガーイメージを注入することで、目に見えないアタックを実現する新しいウェーブレット変換ベースアタック(WABA)手法を提案する。
このようにして、トリガー画像内の高周波情報を攻撃時にフィルタリングすることができ、ステルスデータ中毒を引き起こす。
その単純さにもかかわらず、提案手法は攻撃成功率の高い最先端のディープラーニングモデルをかなり騙すことができる。
さらに,ウェーブレット変換におけるトリガ画像とハイパーパラメータの違いが,提案手法の性能に与える影響を解析した。
4つのベンチマークリモートセンシングデータセットに関する広範な実験は、シーン分類とセマンティクスセグメンテーションタスクの両方における提案手法の有効性を示し、リモートセンシングシナリオにおけるこの脅威に対処するための高度なバックドア防御アルゴリズムの設計の重要性を強調している。
コードは \url{https://github.com/ndraeger/waba} で入手できる。 Recent years have witnessed the great success of deep learning algorithms in the geoscience and remote sensing realm. Nevertheless, the security and robustness of deep learning models deserve special attention when addressing safety-critical remote sensing tasks. In this paper, we provide a systematic analysis of backdoor attacks for remote sensing data, where both scene classification and semantic segmentation tasks are considered. While most of the existing backdoor attack algorithms rely on visible triggers like squared patches with well-designed patterns, we propose a novel wavelet transform-based attack (WABA) method, which can achieve invisible attacks by injecting the trigger image into the poisoned image in the low-frequency domain. In this way, the high-frequency information in the trigger image can be filtered out in the attack, resulting in stealthy data poisoning. Despite its simplicity, the proposed method can significantly cheat the current state-of-the-art deep learning models with a high attack success rate. We further analyze how different trigger images and the hyper-parameters in the wavelet transform would influence the performance of the proposed method. Extensive experiments on four benchmark remote sensing datasets demonstrate the effectiveness of the proposed method for both scene classification and semantic segmentation tasks and thus highlight the importance of designing advanced backdoor defense algorithms to address this threat in remote sensing scenarios. The code will be available online at \url{https://github.com/ndraeger/waba}. | 翻訳日:2023-06-23 18:02:35 公開日:2023-06-22 |
# visClust:直交射影に基づく視覚的クラスタリングアルゴリズム visClust: A visual clustering algorithm based on orthogonal projections ( http://arxiv.org/abs/2211.03894v2 ) ライセンス: Link先を確認 | Anna Breger, Clemens Karner, Martin Ehler | (参考訳) 本稿では,低次元データ表現と視覚的解釈に基づく新しいクラスタリングアルゴリズムであるvisclustを提案する。
そこで我々は、データをバイナリ整数配列で表現できる変換をデザインし、画像処理手法のさらなる利用による分割の選択を可能にする。
定性的かつ定量的な分析により、アルゴリズムは高い精度(調整された一方的なRand-Indexで測定)を獲得し、低ランタイムとRAMを必要とすることが示された。
その結果を最先端アルゴリズム6種と比較し,ほとんどの実験で有意な結果を得た。
さらに、アルゴリズムは、オプションパラメータによる最適化を可能にしながら、義務入力パラメータを1つだけ要求する。
コードはGitHubで公開されている。 We present a novel clustering algorithm, visClust, that is based on lower dimensional data representations and visual interpretation. Thereto, we design a transformation that allows the data to be represented by a binary integer array enabling the further use of image processing methods to select a partition. Qualitative and quantitative analyses show that the algorithm obtains high accuracy (measured with an adjusted one-sided Rand-Index) and requires low runtime and RAM. We compare the results to 6 state-of-the-art algorithms, confirming the quality of visClust by outperforming in most experiments. Moreover, the algorithm asks for just one obligatory input parameter while allowing optimization via optional parameters. The code is made available on GitHub. | 翻訳日:2023-06-23 18:02:10 公開日:2023-06-22 |
# scikit-fda: 関数データ解析のためのpythonパッケージ scikit-fda: A Python Package for Functional Data Analysis ( http://arxiv.org/abs/2211.02566v2 ) ライセンス: Link先を確認 | Carlos Ramos-Carre\~no, Jos\'e Luis Torrecilla, Miguel Carbajo-Berrocal, Pablo Marcos, Alberto Su\'arez | (参考訳) scikit-fdaライブラリは、関数データ分析(FDA)用のPythonパッケージである。
機能データの表現、前処理、探索分析のための包括的なツールセットを提供する。
このライブラリはPythonの科学エコシステム上に構築され、統合されている。
特に、scikit-learnアプリケーションプログラミングインターフェースに準拠しており、パイプライン、モデル選択、ハイパーパラメータチューニングなど、このパッケージが提供する機械学習の機能を活用している。
scikit-fdaパッケージは3つのClause BSDライセンスの下でフリーでオープンソースソフトウェアとしてリリースされており、FDAコミュニティからのコントリビューションも受け付けている。
ライブラリの広範なドキュメントには、ステップバイステップのチュートリアルと詳細な使用例が含まれている。 The library scikit-fda is a Python package for Functional Data Analysis (FDA). It provides a comprehensive set of tools for representation, preprocessing, and exploratory analysis of functional data. The library is built upon and integrated in Python's scientific ecosystem. In particular, it conforms to the scikit-learn application programming interface so as to take advantage of the functionality for machine learning provided by this package: pipelines, model selection, and hyperparameter tuning, among others. The scikit-fda package has been released as free and open-source software under a 3-Clause BSD license and is open to contributions from the FDA community. The library's extensive documentation includes step-by-step tutorials and detailed examples of use. | 翻訳日:2023-06-23 18:01:57 公開日:2023-06-22 |
# 大規模グラフ上の依存対象分布を持つmcmc最適スケーリングのためのディリクレ形式の収束 Convergence of Dirichlet Forms for MCMC Optimal Scaling with Dependent Target Distributions on Large Graphs ( http://arxiv.org/abs/2210.17042v2 ) ライセンス: Link先を確認 | Ning Ning | (参考訳) マルコフ連鎖モンテカルロ (MCMC) アルゴリズムは統計学、物理学、機械学習などにおいて重要な役割を担い、高次元問題に対する唯一の一般的かつ効率的なアプローチである。
最も古典的なMCMCアルゴリズムであるランダムウォーク・メトロポリス(RWM)アルゴリズムは、科学と工学の発展と実践に大きな影響を与えた。
高次元問題におけるRWMアルゴリズムの挙動は、拡散過程の弱い収束結果を通して研究される。
本稿では,マルコフ特性を満たす任意の確率測度を含むgibbs測度を対象分布とする大規模グラフ上でのrwmアルゴリズムの解析において,ディリクレ形式のmosco収束を利用する。
ディリクレ形式(英語版)の抽象的かつ強力な理論は、無限次元空間に直接自然に作用することができ、モスコ収束の概念は、RWM鎖に付随するディリクレ形式がヒルベルト空間の変化に成り立つことを許す。
最適スケーリング問題を通じて,標準拡散アプローチに対するディリクレ形式アプローチの印象的な強みを示す。 Markov chain Monte Carlo (MCMC) algorithms have played a significant role in statistics, physics, machine learning and others, and they are the only known general and efficient approach for some high-dimensional problems. The random walk Metropolis (RWM) algorithm as the most classical MCMC algorithm, has had a great influence on the development and practice of science and engineering. The behavior of the RWM algorithm in high-dimensional problems is typically investigated through a weak convergence result of diffusion processes. In this paper, we utilize the Mosco convergence of Dirichlet forms in analyzing the RWM algorithm on large graphs, whose target distribution is the Gibbs measure that includes any probability measure satisfying a Markov property. The abstract and powerful theory of Dirichlet forms allows us to work directly and naturally on the infinite-dimensional space, and our notion of Mosco convergence allows Dirichlet forms associated with the RWM chains to lie on changing Hilbert spaces. Through the optimal scaling problem, we demonstrate the impressive strengths of the Dirichlet form approach over the standard diffusion approach. | 翻訳日:2023-06-23 18:01:46 公開日:2023-06-22 |
# アクションフリートラジェクタを用いた半教師付きオフライン強化学習 Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories ( http://arxiv.org/abs/2210.06518v3 ) ライセンス: Link先を確認 | Qinqing Zheng, Mikael Henaff, Brandon Amos, Aditya Grover | (参考訳) 自然エージェントは、サイズ、品質、測定の種類が異なる複数のデータソースから効果的に学習することができる。
我々は,この不均一性をオフライン強化学習(rl)の文脈で検討する。
ここでエージェントは、状態と報酬情報のみを含むラベル付きトラジェクタリーとともに、各タイムステップで状態、行動、報酬トリプレットを含むラベル付きトラジェクタリーの2セットにアクセスできる。
本研究では,ラベル付きデータの逆ダイナミクスモデルを学習し,ラベル付きデータのプロキシラベルを得るシンプルなメタアルゴリズムパイプラインを開発し,その上で,trueおよびproxyラベル付きトラジェクタ上でオフラインrlアルゴリズムを用いた。
いくつかのd4rlベンチマーク --\cite{fu2020d4rl} では、特定のオフラインrlアルゴリズムは、非常に最適化された10\%のトラジェクタしかラベル付けしていない場合でも、完全なラベル付きデータセットでトレーニングされた変種のパフォーマンスにマッチする。
我々は,ラベル付きデータセットとラベル付きデータセットのデータ中心特性の相互作用を調査し,アルゴリズム設計の選択(逆ダイナミクスの選択,オフラインrlアルゴリズムなど)を用いて,半教師付きオフラインデータセット上でrlエージェントをトレーニングするための一般的な傾向とベストプラクティスを特定する。 Natural agents can effectively learn from multiple data sources that differ in size, quality, and types of measurements. We study this heterogeneity in the context of offline reinforcement learning (RL) by introducing a new, practically motivated semi-supervised setting. Here, an agent has access to two sets of trajectories: labelled trajectories containing state, action and reward triplets at every timestep, along with unlabelled trajectories that contain only state and reward information. For this setting, we develop and study a simple meta-algorithmic pipeline that learns an inverse dynamics model on the labelled data to obtain proxy-labels for the unlabelled data, followed by the use of any offline RL algorithm on the true and proxy-labelled trajectories. Empirically, we find this simple pipeline to be highly successful -- on several D4RL benchmarks~\cite{fu2020d4rl}, certain offline RL algorithms can match the performance of variants trained on a fully labelled dataset even when we label only 10\% of trajectories which are highly suboptimal. To strengthen our understanding, we perform a large-scale controlled empirical study investigating the interplay of data-centric properties of the labelled and unlabelled datasets, with algorithmic design choices (e.g., choice of inverse dynamics, offline RL algorithm) to identify general trends and best practices for training RL agents on semi-supervised offline datasets. | 翻訳日:2023-06-23 18:01:28 公開日:2023-06-22 |
# 多様な環境軌道生成装置の事前発見によるロコモーションスキルの効率的な学習 Efficient Learning of Locomotion Skills through the Discovery of Diverse Environmental Trajectory Generator Priors ( http://arxiv.org/abs/2210.04819v2 ) ライセンス: Link先を確認 | Shikha Surana, Bryan Lim, Antoine Cully | (参考訳) データ駆動学習に基づく手法は最近、様々な非構造化地形に対するロコモーションコントローラの学習に特に成功している。
従来の研究は、軌道生成器(TG)の形で良好な移動先を組み込むことが、複雑な移動スキルを効率的に学習する上で有効であることが示されている。
しかしながら、タスク/環境がますます複雑になるにつれて、良いシングルtgを定義することは、広範なチューニングと、以前の効果を低下させるリスクを必要とするため、依然として困難な問題である。
本稿では,tgアーキテクチャを変調するポリシー内で単一のポリシーを維持しつつ,品質多様性アルゴリズムを用いて多様な特定ロコモーション前処理を学習する手法である環境軌道生成器(eetg)について述べる。
以上の結果から,4足歩行ロボットは斜面,階段,荒地,平均台などの広い範囲の環境を乗り越えることができることがわかった。
実験の結果,多種多様なTG事前学習は,幅広い環境を扱う場合において,単一の固定された事前学習よりも有意に(5倍)効率が高いことがわかった。 Data-driven learning based methods have recently been particularly successful at learning robust locomotion controllers for a variety of unstructured terrains. Prior work has shown that incorporating good locomotion priors in the form of trajectory generators (TGs) is effective at efficiently learning complex locomotion skills. However, defining a good, single TG as tasks/environments become increasingly more complex remains a challenging problem as it requires extensive tuning and risks reducing the effectiveness of the prior. In this paper, we present Evolved Environmental Trajectory Generators (EETG), a method that learns a diverse set of specialised locomotion priors using Quality-Diversity algorithms while maintaining a single policy within the Policies Modulating TG (PMTG) architecture. The results demonstrate that EETG enables a quadruped robot to successfully traverse a wide range of environments, such as slopes, stairs, rough terrain, and balance beams. Our experiments show that learning a diverse set of specialized TG priors is significantly (5 times) more efficient than using a single, fixed prior when dealing with a wide range of environments. | 翻訳日:2023-06-23 18:00:59 公開日:2023-06-22 |
# 公正信用スコア決定のためのアルゴリズム的意思決定法 Algorithmic decision making methods for fair credit scoring ( http://arxiv.org/abs/2209.07912v3 ) ライセンス: Link先を確認 | Darie Moldovan | (参考訳) ローン申請者の信用力評価における機械学習の有効性は長年に渡り実証されてきた。
しかし、自動意思決定プロセスの使用がグループや個人の不平等な扱いを招き、差別的な結果をもたらす可能性があるという懸念がある。
本稿では,5つの異なる公平度指標における12個の主バイアス緩和手法の有効性を評価し,その正確性と金融機関の収益性を評価することにより,この問題に対処しようとする。
分析を通じて,正確性と収益性を維持しながら公平性を達成する上での課題を特定し,最も成功した方法と最も成功した方法の両方を強調した。
最終的には、実験的な機械学習と金融業界における実践的応用とのギャップを埋めるのに役立ちます。 The effectiveness of machine learning in evaluating the creditworthiness of loan applicants has been demonstrated for a long time. However, there is concern that the use of automated decision-making processes may result in unequal treatment of groups or individuals, potentially leading to discriminatory outcomes. This paper seeks to address this issue by evaluating the effectiveness of 12 leading bias mitigation methods across 5 different fairness metrics, as well as assessing their accuracy and potential profitability for financial institutions. Through our analysis, we have identified the challenges associated with achieving fairness while maintaining accuracy and profitabiliy, and have highlighted both the most successful and least successful mitigation methods. Ultimately, our research serves to bridge the gap between experimental machine learning and its practical applications in the finance industry. | 翻訳日:2023-06-23 18:00:39 公開日:2023-06-22 |
# ビデオ対応のための時空間自己監督学習 Spatial-then-Temporal Self-Supervised Learning for Video Correspondence ( http://arxiv.org/abs/2209.07778v5 ) ライセンス: Link先を確認 | Rui Li, Dong Liu | (参考訳) 低レベルビデオ解析では,映像フレーム間の対応を導出するために効果的な表現が重要である。
これらの表現は、最近のいくつかの研究で注意深く設計された前文タスクを使用して、ラベルのない画像やビデオから自己教師付きで学習されている。
しかし、従来の研究は、空間的識別的特徴または時間的反復的特徴に焦点を合わせ、空間的・時間的手がかりの相乗効果にはほとんど注意を払わない。
この問題に対処するために,時空間型自己教師型学習手法を提案する。
具体的には,無ラベル画像からコントラスト学習により空間的特徴を抽出し,復元的学習により無ラベル映像の時間的手がかりを活用し,その特徴を増強する。
第2段階では,学習者が空間的手がかりを忘れないように大域的相関蒸留損失と局所的相関蒸留損失をデザインし,再構築に影響を及ぼす時間的不連続に対処する。
提案手法は,対応型映像解析タスクにおける実験結果によって確立された,最先端の自己教師あり手法を上回っている。
また, 2段階設計の有効性と蒸留損失を検証するため, アブレーション実験を行った。 In low-level video analyses, effective representations are important to derive the correspondences between video frames. These representations have been learned in a self-supervised fashion from unlabeled images or videos, using carefully designed pretext tasks in some recent studies. However, the previous work concentrates on either spatial-discriminative features or temporal-repetitive features, with little attention to the synergy between spatial and temporal cues. To address this issue, we propose a spatial-then-temporal self-supervised learning method. Specifically, we firstly extract spatial features from unlabeled images via contrastive learning, and secondly enhance the features by exploiting the temporal cues in unlabeled videos via reconstructive learning. In the second step, we design a global correlation distillation loss to ensure the learning not to forget the spatial cues, and a local correlation distillation loss to combat the temporal discontinuity that harms the reconstruction. The proposed method outperforms the state-of-the-art self-supervised methods, as established by the experimental results on a series of correspondence-based video analysis tasks. Also, we performed ablation studies to verify the effectiveness of the two-step design as well as the distillation losses. | 翻訳日:2023-06-23 18:00:26 公開日:2023-06-22 |
# 非ユニタリフロッケ系におけるロバスト振動とエッジモード Robust Oscillations and Edge Modes in Nonunitary Floquet Systems ( http://arxiv.org/abs/2209.06945v2 ) ライセンス: Link先を確認 | Vikram Ravindranath, Xiao Chen | (参考訳) 周期的に駆動されるスピン鎖の族において振動挙動を探究し,弱い測定を行い,その後にポスト選択を行う。
測定の強度が大きくなるにつれて振動相への遷移が発見された。
これらのスピン鎖を自由フェルミオンモデルにマッピングすることにより、この遷移が虚数方向のギャップの開口に反映されることが分かる。
興味深いことに、振動位相において堅牢で純粋にリアルなエッジ$\pi$-modeが見つかる。
複素バルクスペクトルとこれらのエッジモードの対応性を確立する。
これらの振動は相互作用や障害に対して安定である。 We explore oscillatory behaviour in a family of periodically driven spin chains which are subject to a weak measurement followed by post-selection. We discover a transition to an oscillatory phase as the strength of the measurement is increased. By mapping these spin chains to free fermion models, we find that this transition is reflected in the opening of a gap in the imaginary direction. Interestingly, we find a robust, purely real, edge $\pi$-mode in the oscillatory phase. We establish a correspondence between the complex bulk spectrum and these edge modes. These oscillations are numerically found to be stable against interactions and disorder. | 翻訳日:2023-06-23 18:00:05 公開日:2023-06-22 |
# estimator variance reductionを用いたマルチエージェント強化学習 Taming Multi-Agent Reinforcement Learning with Estimator Variance Reduction ( http://arxiv.org/abs/2209.01054v2 ) ライセンス: Link先を確認 | Taher Jafferjee, Juliusz Ziomek, Tianpei Yang, Zipeng Dai, Jianhong Wang, Matthew Taylor, Kun Shao, Jun Wang, David Mguni | (参考訳) 分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
その人気にもかかわらず、特定の状態における共同行動の単一サンプルからの学習に依存しているため、重大な欠点に悩まされている。
エージェントはトレーニング中にポリシーを探索し、更新するので、これらの単一のサンプルは、学習を妨げる高分散勾配推定につながるエージェントのシステムの実際の共同政治を表現できない可能性がある。
この問題に対処するため,アクター批判型MARL手法を適用可能な拡張ツールを提案する。
提案手法であるパフォーマンス強化強化学習装置(perla)は,エージェントの訓練中に,エージェントの共同政治のサンプリング手法を批評家に導入する。
このことは、与えられた状態における共同行動の単一サンプルからの推定よりも、現在の共同政治の下での真の期待値を正確に近似するTD更新につながる。
これにより、予測されるリターンの低いばらつきと正確な見積が行われ、通常は学習を妨げる批評家の推定値のばらつきを最小化する。
さらに,共同政策の単一サンプリングから批判のばらつきの大部分を排除することによって,PERLAはCT-DE法をエージェント数に応じて効率よくスケールできるようにする。
理論的には、PERLAは集中トレーニングの利点を維持しながら、分散トレーニングと同様の価値見積のばらつきを低減する。
PERLAの優れた性能と,マルチエージェントMujocoやStarCraft II Multi-agent Challengeなど,さまざまなベンチマークにおいて推定値のばらつきを低減する能力を示す。 Centralised training with decentralised execution (CT-DE) serves as the foundation of many leading multi-agent reinforcement learning (MARL) algorithms. Despite its popularity, it suffers from a critical drawback due to its reliance on learning from a single sample of the joint-action at a given state. As agents explore and update their policies during training, these single samples may poorly represent the actual joint-policy of the system of agents leading to high variance gradient estimates that hinder learning. To address this problem, we propose an enhancement tool that accommodates any actor-critic MARL method. Our framework, Performance Enhancing Reinforcement Learning Apparatus (PERLA), introduces a sampling technique of the agents' joint-policy into the critics while the agents train. This leads to TD updates that closely approximate the true expected value under the current joint-policy rather than estimates from a single sample of the joint-action at a given state. This produces low variance and precise estimates of expected returns, minimising the variance in the critic estimators which typically hinders learning. Moreover, as we demonstrate, by eliminating much of the critic variance from the single sampling of the joint policy, PERLA enables CT-DE methods to scale more efficiently with the number of agents. Theoretically, we prove that PERLA reduces variance in value estimates similar to that of decentralised training while maintaining the benefits of centralised training. Empirically, we demonstrate PERLA's superior performance and ability to reduce estimator variance in a range of benchmarks including Multi-agent Mujoco, and StarCraft II Multi-agent Challenge. | 翻訳日:2023-06-23 17:59:56 公開日:2023-06-22 |
# パラメトリゼーション表現率の量子コスト関数濃度依存性 The quantum cost function concentration dependency on the parametrization expressivity ( http://arxiv.org/abs/2301.06883v2 ) ライセンス: Link先を確認 | Lucas Friedrich, Jonas Maziero | (参考訳) 現在我々は、ノイズの多い中間量子デバイスの時代にあるが、機械学習を量子領域に持ち込むことを目的として、いくつかの研究が行われている。
現在、量子変動回路はそのようなモデルを構築するために使われる主要な戦略の1つである。
しかし、広く使われているにもかかわらず、量子機械学習モデルを作成するのに必要な最小限のリソースは未だに分かっていない。
本稿では,パラメトリゼーションの表現性がコスト関数に与える影響を分析する。
パラメトリゼーションがより表現力が高いほど、コスト関数は選択された可観測値と使用される量子ビット数の両方に依存する値に集中する傾向があることを分析的に示す。
そこで本研究では,パラメトリゼーションの表現性とコスト関数の平均値との関係について検討した。
その後、パラメータ化の表現性とコスト関数の分散を関連付ける。
最後に,理論解析的な予測を裏付ける数値シミュレーション結果を示す。
私たちの知る限りでは、量子ニューラルネットワークのこれら2つの重要な側面が明示的に接続されるのは、これが初めてです。 Although we are currently in the era of noisy intermediate scale quantum devices, several studies are being conducted with the aim of bringing machine learning to the quantum domain. Currently, quantum variational circuits are one of the main strategies used to build such models. However, despite its widespread use, we still do not know what are the minimum resources needed to create a quantum machine learning model. In this article, we analyze how the expressiveness of the parametrization affects the cost function. We analytically show that the more expressive the parametrization is, the more the cost function will tend to concentrate around a value that depends both on the chosen observable and on the number of qubits used. For this, we initially obtain a relationship between the expressiveness of the parametrization and the mean value of the cost function. Afterwards, we relate the expressivity of the parametrization with the variance of the cost function. Finally, we show some numerical simulation results that confirm our theoretical-analytical predictions. To the best of our knowledge, this is the first time that these two important aspects of quantum neural networks are explicitly connected. | 翻訳日:2023-06-23 17:53:23 公開日:2023-06-22 |
# 幾何学演算子量子速度限界,ウェグナーハミルトン流と演算子成長 Geometric Operator Quantum Speed Limit, Wegner Hamiltonian Flow and Operator Growth ( http://arxiv.org/abs/2301.04372v2 ) ライセンス: Link先を確認 | Niklas H\"ornedal, Nicoletta Carabba, Kazutaka Takahashi, Adolfo del Campo | (参考訳) 量子速度制限(QSL)は、量子状態間の距離を使い、進化の速度やその上界を特定することによって、プロセスが展開するために必要な最小時間での低い境界を提供する。
ユニタリで共役する一般作用素の進化を特徴付けるために、QSLの一般化を導入する。
結果として得られる演算子 QSL (OQSL) は幾何学的解釈を認め、厳密であることが示され、任意のユニタリ、すなわち時間依存あるいはパラメータ依存のジェネレータによって誘導される演算子フローを保持する。
導出された oqsl はハミルトン再正規化群論のウェグナーフロー方程式とクリロフ複雑性によって定量化された作用素成長に適用される。 Quantum speed limits (QSLs) provide lower bounds on the minimum time required for a process to unfold by using a distance between quantum states and identifying the speed of evolution or an upper bound to it. We introduce a generalization of QSL to characterize the evolution of a general operator when conjugated by a unitary. The resulting operator QSL (OQSL) admits a geometric interpretation, is shown to be tight, and holds for operator flows induced by arbitrary unitaries, i.e., with time- or parameter-dependent generators. The derived OQSL is applied to the Wegner flow equations in Hamiltonian renormalization group theory and the operator growth quantified by the Krylov complexity. | 翻訳日:2023-06-23 17:53:07 公開日:2023-06-22 |
# 数学的推論のための深層学習に関する調査 A Survey of Deep Learning for Mathematical Reasoning ( http://arxiv.org/abs/2212.10535v2 ) ライセンス: Link先を確認 | Pan Lu, Liang Qiu, Wenhao Yu, Sean Welleck, Kai-Wei Chang | (参考訳) 数学的推論は人間の知能の基本的な側面であり、科学、工学、金融、日常生活など様々な分野に適用できる。
数学の問題を解き、定理を証明できる人工知能(AI)システムの開発は、機械学習や自然言語処理の分野で大きな関心を集めている。
例えば、数学は強力なディープラーニングモデルに挑戦する推論の側面のテストベッドとして機能し、新しいアルゴリズムとモデリングの進歩を駆動する。
一方で、大規模ニューラルネットワークモデルの最近の進歩は、数学的推論にディープラーニングを使用するための新しいベンチマークと機会を開放している。
本稿では,過去10年間の数学的推論と深層学習の交わりにおける重要な課題,データセット,方法について概説する。
また,既存のベンチマークや手法についても検討し,今後の研究の方向性について考察する。 Mathematical reasoning is a fundamental aspect of human intelligence and is applicable in various fields, including science, engineering, finance, and everyday life. The development of artificial intelligence (AI) systems capable of solving math problems and proving theorems has garnered significant interest in the fields of machine learning and natural language processing. For example, mathematics serves as a testbed for aspects of reasoning that are challenging for powerful deep learning models, driving new algorithmic and modeling advances. On the other hand, recent advances in large-scale neural language models have opened up new benchmarks and opportunities to use deep learning for mathematical reasoning. In this survey paper, we review the key tasks, datasets, and methods at the intersection of mathematical reasoning and deep learning over the past decade. We also evaluate existing benchmarks and methods, and discuss future research directions in this domain. | 翻訳日:2023-06-23 17:52:26 公開日:2023-06-22 |
# 地学とリモートセンシングのためのAIセキュリティ - 課題と今後の動向 AI Security for Geoscience and Remote Sensing: Challenges and Future Trends ( http://arxiv.org/abs/2212.09360v2 ) ライセンス: Link先を確認 | Yonghao Xu, Tao Bai, Weikang Yu, Shizhen Chang, Peter M. Atkinson, Pedram Ghamisi | (参考訳) 人工知能(AI)の最近の進歩は、地球科学とリモートセンシング(RS)分野における研究を著しく強化している。
AIアルゴリズム、特にディープラーニングベースのアルゴリズムが開発され、RSデータ分析に広く応用されている。
aiの成功した応用は、地球観測(eo)ミッションのほとんどすべての側面をカバーする。スーパーレゾリューション、デノージング、インペインティングのような低レベルのビジョンタスクから、シーン分類、オブジェクト検出、セマンティックセグメンテーションといった高レベルのビジョンタスクまでである。
AI技術は、研究者が地球をより正確に観察し理解することを可能にする一方で、多くの地球科学やRSタスクが非常に安全クリティカルであることを考えると、AIモデルの脆弱性と不確実性はさらに注目に値する。
本稿では,ジオサイエンスとrs分野におけるaiセキュリティの現状を概観し,敵の攻撃,バックドア攻撃,連合学習,不確実性,説明可能性という5つの重要な側面について述べる。
さらに、今後の研究に洞察を与える可能性や動向について論じる。
著者の知識を最大限に活用するために,本稿は,地球科学とRSコミュニティにおけるAIセキュリティ関連研究の体系的レビューを行う最初の試みである。
この活発な研究分野を前進させるために、利用可能なコードとデータセットも論文に記載されている。 Recent advances in artificial intelligence (AI) have significantly intensified research in the geoscience and remote sensing (RS) field. AI algorithms, especially deep learning-based ones, have been developed and applied widely to RS data analysis. The successful application of AI covers almost all aspects of Earth observation (EO) missions, from low-level vision tasks like super-resolution, denoising and inpainting, to high-level vision tasks like scene classification, object detection and semantic segmentation. While AI techniques enable researchers to observe and understand the Earth more accurately, the vulnerability and uncertainty of AI models deserve further attention, considering that many geoscience and RS tasks are highly safety-critical. This paper reviews the current development of AI security in the geoscience and RS field, covering the following five important aspects: adversarial attack, backdoor attack, federated learning, uncertainty and explainability. Moreover, the potential opportunities and trends are discussed to provide insights for future research. To the best of the authors' knowledge, this paper is the first attempt to provide a systematic review of AI security-related research in the geoscience and RS community. Available code and datasets are also listed in the paper to move this vibrant field of research forward. | 翻訳日:2023-06-23 17:52:15 公開日:2023-06-22 |
# \{kappa}HGCN:連続および離散曲率学習による木類似性モデリング \{kappa}HGCN: Tree-likeness Modeling via Continuous and Discrete Curvature Learning ( http://arxiv.org/abs/2212.01793v2 ) ライセンス: Link先を確認 | Menglin Yang, Min Zhou, Lujia Pan, Irwin King | (参考訳) 階層構造や電力法分布を含む木のような構造は、推薦システム、エコシステム、金融ネットワーク、ソーシャルネットワークなど、現実世界のアプリケーションに広く存在している。
近年,木状度モデリングにおける双曲空間の活用は,指数的成長量によって注目されている。
平坦なユークリッド空間と比較して、曲線双曲空間は、特に暗黙的な木のようなアーキテクチャを示すデータセットに対して、より快適で埋め込み可能な空間を提供する。
しかし、実世界の木のようなデータの複雑な性質は、木のような、平らで、丸い領域の異質な構成をしばしば表示するため、かなり困難である。
そのような不均一な構造を均質な埋め込み空間(すなわち双曲空間)に直接埋め込むことは必然的に大きな歪みをもたらす。
上記の不足を軽減するため,ネットワークトポロジが伝達するメッセージを学習過程で符号化することを目的として,離散構造と連続学習空間間の曲率を探索し,木のようなモデリングを改善する。
最後に,曲率に着目した双曲グラフ畳み込みニューラルネットワークである \{kappa}hgcnを提案する。
ノード分類とリンク予測タスクに関する広範囲な実験は、様々な競合モデルよりも大きなマージンで一貫して優れており、提案の優位性を検証する。 The prevalence of tree-like structures, encompassing hierarchical structures and power law distributions, exists extensively in real-world applications, including recommendation systems, ecosystems, financial networks, social networks, etc. Recently, the exploitation of hyperbolic space for tree-likeness modeling has garnered considerable attention owing to its exponential growth volume. Compared to the flat Euclidean space, the curved hyperbolic space provides a more amenable and embeddable room, especially for datasets exhibiting implicit tree-like architectures. However, the intricate nature of real-world tree-like data presents a considerable challenge, as it frequently displays a heterogeneous composition of tree-like, flat, and circular regions. The direct embedding of such heterogeneous structures into a homogeneous embedding space (i.e., hyperbolic space) inevitably leads to heavy distortions. To mitigate the aforementioned shortage, this study endeavors to explore the curvature between discrete structure and continuous learning space, aiming at encoding the message conveyed by the network topology in the learning process, thereby improving tree-likeness modeling. To the end, a curvature-aware hyperbolic graph convolutional neural network, \{kappa}HGCN, is proposed, which utilizes the curvature to guide message passing and improve long-range propagation. Extensive experiments on node classification and link prediction tasks verify the superiority of the proposal as it consistently outperforms various competitive models by a large margin. | 翻訳日:2023-06-23 17:51:53 公開日:2023-06-22 |
# RGBシーケンスからの手動3次元オブジェクトスキャン In-Hand 3D Object Scanning from an RGB Sequence ( http://arxiv.org/abs/2211.16193v2 ) ライセンス: Link先を確認 | Shreyas Hampali, Tomas Hodan, Luan Tran, Lingni Ma, Cem Keskin, Vincent Lepetit | (参考訳) モノクロカメラを用いた未知物体の3Dスキャン手法を提案する。
提案手法は,物体の形状と外観の両方を捉えるニューラル暗黙表面表現に依存しているが,ほとんどのNeRF法とは対照的に,カメラ対象の相対的なポーズが知られているとは考えていない。
代わりに、物体形状とポーズ軌道の両方を同時に最適化する。
すべての形状とポーズパラメータの直接最適化は粗い初期化を伴わずに失敗しがちであるので、最適化が成功する可能性のある、慎重に選択された重複セグメントにシーケンスを分割することから始まる漸進的なアプローチを提案する。
対象の形状を再構築し、各セグメント内で独立してポーズを追跡し、全セグメントをマージしてグローバル最適化を行う。
本研究では,テクスチャと難解なテクスチャレスオブジェクトの形状と色を再構築し,外観のみに依存する古典的手法よりも優れており,その性能は既知のカメラのポーズを仮定する最近の手法に近いことを示す。 We propose a method for in-hand 3D scanning of an unknown object with a monocular camera. Our method relies on a neural implicit surface representation that captures both the geometry and the appearance of the object, however, by contrast with most NeRF-based methods, we do not assume that the camera-object relative poses are known. Instead, we simultaneously optimize both the object shape and the pose trajectory. As direct optimization over all shape and pose parameters is prone to fail without coarse-level initialization, we propose an incremental approach that starts by splitting the sequence into carefully selected overlapping segments within which the optimization is likely to succeed. We reconstruct the object shape and track its poses independently within each segment, then merge all the segments before performing a global optimization. We show that our method is able to reconstruct the shape and color of both textured and challenging texture-less objects, outperforms classical methods that rely only on appearance features, and that its performance is close to recent methods that assume known camera poses. | 翻訳日:2023-06-23 17:51:28 公開日:2023-06-22 |
# ソーシャルアウェア強化学習を用いたプロアクティブ対話エージェントの改善 Improving Proactive Dialog Agents Using Socially-Aware Reinforcement Learning ( http://arxiv.org/abs/2211.15359v2 ) ライセンス: Link先を確認 | Matthias Kraus, Nicolas Wagner, Ron Riekenbrauck and Wolfgang Minker | (参考訳) インテリジェントダイアログエージェントの次のステップは、サイレントな傍観者としての役割を逃れて、積極的になることである。
適切に定義された積極的行動は、インタラクション中にエージェントがよりアクティブな役割を担い、ユーザから責任を奪うため、人間と機械の協調を改善する可能性がある。
しかし, プロアクティベーションは, 作業結果だけでなく, ユーザとの関係にも悪影響を及ぼす可能性があるため, 両刃の剣である。
適切なプロアクティブなダイアログ戦略を設計するために,ダイアログの社会的特徴とタスク関連機能の両方を含む新しいアプローチを提案する。
ここでの第一の目的は、積極的行動の最適化であり、タスク指向であり、これは高いタスクの成功と効率を意味する。
強化学習を用いたプロアクティブ・ダイアログエージェントを訓練するための報酬関数の両側面を含めると,より良好な人間と機械の連携が期待できる。 The next step for intelligent dialog agents is to escape their role as silent bystanders and become proactive. Well-defined proactive behavior may improve human-machine cooperation, as the agent takes a more active role during interaction and takes off responsibility from the user. However, proactivity is a double-edged sword because poorly executed pre-emptive actions may have a devastating effect not only on the task outcome but also on the relationship with the user. For designing adequate proactive dialog strategies, we propose a novel approach including both social as well as task-relevant features in the dialog. Here, the primary goal is to optimize proactive behavior so that it is task-oriented - this implies high task success and efficiency - while also being socially effective by fostering user trust. Including both aspects in the reward function for training a proactive dialog agent using reinforcement learning showed the benefit of our approach for more successful human-machine cooperation. | 翻訳日:2023-06-23 17:51:09 公開日:2023-06-22 |
# ストリーミングエンドツーエンドasrのための逐次サンプリングチャンクコンフォメータ Sequentially Sampled Chunk Conformer for Streaming End-to-End ASR ( http://arxiv.org/abs/2211.11419v3 ) ライセンス: Link先を確認 | Fangyuan Wang, Bo Xu | (参考訳) 本稿では,End-to-End (E2E) ASR ストリーミングのための逐次サンプリング型チャンクコンバータ SSC-Conformer について詳細に検討する。
ssc-conformerは、並列エンコーダにおけるチャンクワイズマルチヘッドセルフアテンション(ssc-mhsa)の逐次サンプリングにより、線形複素性を維持しつつ効率的なクロスチャンク相互作用を実現することにより、大幅な性能向上を実現する。
さらに、チャンクド畳み込みを利用してチャンク回りの将来のコンテキストを利用し、畳み込み層のカジュアル畳み込みと統合することで、cerをさらに削減する。
提案するssc-conformerをaishell-1ベンチマークで検証し,実験結果から,ストリーミングe2e asrの最先端性能はlmリコーリングを伴わないcer 5.33%で達成できることを確認した。
また、線形複雑性のため、SC-Conformerは大きなバッチサイズでトレーニングでき、より効率的に推論できる。 This paper presents an in-depth study on a Sequentially Sampled Chunk Conformer, SSC-Conformer, for streaming End-to-End (E2E) ASR. The SSC-Conformer first demonstrates the significant performance gains from using the sequentially sampled chunk-wise multi-head self-attention (SSC-MHSA) in the Conformer encoder by allowing efficient cross-chunk interactions while keeping linear complexities. Furthermore, it explores taking advantage of chunked convolution to make use of the chunk-wise future context and integrates with casual convolution in the convolution layers to further reduce CER. We verify the proposed SSC-Conformer on the AISHELL-1 benchmark and experimental results show that a state-of-the-art performance for streaming E2E ASR is achieved with CER 5.33% without LM rescoring. And, owing to its linear complexity, the SSC-Conformer can train with large batch sizes and infer more efficiently. | 翻訳日:2023-06-23 17:50:54 公開日:2023-06-22 |
# 非凸確率合成最適化のための一サンプル分散近似アルゴリズム A One-Sample Decentralized Proximal Algorithm for Non-Convex Stochastic Composite Optimization ( http://arxiv.org/abs/2302.09766v2 ) ライセンス: Link先を確認 | Tesi Xiao, Xuxing Chen, Krishnakumar Balasubramanian, Saeed Ghadimi | (参考訳) 我々は分散確率的非凸最適化に焦点をあて、$n$エージェントは滑らかな項と非滑らかな凸項の和である複合目的関数を最適化するために協力する。
そこで本研究では, Prox-DASA と Prox-DASA-GT の2つの単一時間スケールアルゴリズムを提案する。
これらのアルゴリズムは、$\mathcal{O}(n^{-1}\epsilon^{-2})$イテレーションにおいて、一定のバッチサイズ(つまり、$\mathcal{O}(1)$)で$\epsilon$-定常点を見つけることができる。
従来の作業とは異なり、アルゴリズムは大規模なバッチサイズ、より複雑な単文演算(ダブルループなど)、より強力な仮定を必要とせずに、同等の複雑性を達成する。
我々の理論的な発見は、これまでのアプローチよりもアルゴリズムの優越性を示す広範な数値実験によって裏付けられている。
私たちのコードはhttps://github.com/xuxingc/ProxDASAで利用可能です。 We focus on decentralized stochastic non-convex optimization, where $n$ agents work together to optimize a composite objective function which is a sum of a smooth term and a non-smooth convex term. To solve this problem, we propose two single-time scale algorithms: Prox-DASA and Prox-DASA-GT. These algorithms can find $\epsilon$-stationary points in $\mathcal{O}(n^{-1}\epsilon^{-2})$ iterations using constant batch sizes (i.e., $\mathcal{O}(1)$). Unlike prior work, our algorithms achieve comparable complexity without requiring large batch sizes, more complex per-iteration operations (such as double loops), or stronger assumptions. Our theoretical findings are supported by extensive numerical experiments, which demonstrate the superiority of our algorithms over previous approaches. Our code is available at https://github.com/xuxingc/ProxDASA. | 翻訳日:2023-06-23 17:44:08 公開日:2023-06-22 |
# 深層学習手法によるBVOCマップの高分解能化 Super-Resolution of BVOC Maps by Adapting Deep Learning Methods ( http://arxiv.org/abs/2302.07570v3 ) ライセンス: Link先を確認 | Antonio Giganti, Sara Mandelli, Paolo Bestagini, Marco Marcon, Stefano Tubaro | (参考訳) 生物揮発性有機化合物(BVOC)は、大気圏と大気圏の相互作用において重要な役割を担い、大気や気候の物理的および化学的性質において重要な要素である。
大規模できめ細かなBVOCエミッションマップの取得は高価で時間を要するため、ほとんどのBVOCデータは、緩やかなサンプリンググリッドや小さな領域で得られる。
しかし、高解像度のBVOCデータは、大気質、大気化学、気候モニタリングなど多くの用途で望ましい。
本研究では,BVOC買収の促進の可能性について検討し,環境とこれらの化合物の関係をさらに説明する。
我々は、画像超解法(SR)のために提案されたいくつかの最先端ニューラルネットワークの性能を比較し、放射の大きなダイナミックレンジによる課題を克服し、予測における外れ値の影響を低減する。
さらに,時間的制約と地理的制約を考慮した現実的なシナリオも検討する。
最後に, SRの一般化に関する今後の展開について, スケール不変性および未知化合物からの超解離放出を考察する。 Biogenic Volatile Organic Compounds (BVOCs) play a critical role in biosphere-atmosphere interactions, being a key factor in the physical and chemical properties of the atmosphere and climate. Acquiring large and fine-grained BVOC emission maps is expensive and time-consuming, so most available BVOC data are obtained on a loose and sparse sampling grid or on small regions. However, high-resolution BVOC data are desirable in many applications, such as air quality, atmospheric chemistry, and climate monitoring. In this work, we investigate the possibility of enhancing BVOC acquisitions, further explaining the relationships between the environment and these compounds. We do so by comparing the performances of several state-of-the-art neural networks proposed for image Super-Resolution (SR), adapting them to overcome the challenges posed by the large dynamic range of the emission and reduce the impact of outliers in the prediction. Moreover, we also consider realistic scenarios, considering both temporal and geographical constraints. Finally, we present possible future developments regarding SR generalization, considering the scale-invariance property and super-resolving emissions from unseen compounds. | 翻訳日:2023-06-23 17:43:51 公開日:2023-06-22 |
# Robust Unsupervised StyleGAN Image Restoration Robust Unsupervised StyleGAN Image Restoration ( http://arxiv.org/abs/2302.06733v2 ) ライセンス: Link先を確認 | Yohan Poirier-Ginter and Jean-Fran\c{c}ois Lalonde | (参考訳) GANベースの画像復元は、既知の劣化によって破損した画像を修復する生成過程を反転させる。
既存の教師なしメソッドは、各タスクと分解レベルに対して慎重に調整されなければならない。
本研究は,StyleGAN画像復元を堅牢なものとし,一組のハイパーパラメータを広範囲の劣化レベルにわたって動作させる。
これにより、複数の劣化の組み合わせをリチューンする必要なしに処理できる。
提案手法は, 3相進行遅延空間拡張と, 追加の正規化項を不要とする保守的オプティマイザに頼っている。
広範な実験により、様々な劣化レベルにおけるインパインティング、アップサンプリング、デノイジング、ディアティファクトのロバスト性が示され、他のスタイルガンベースのインバージョン技術よりも優れている。
また,よりリアルな逆変換結果を得ることで,拡散型復元と好適な比較を行った。
コードはhttps://lvsn.github.io/robustunsupervised/で入手できる。 GAN-based image restoration inverts the generative process to repair images corrupted by known degradations. Existing unsupervised methods must be carefully tuned for each task and degradation level. In this work, we make StyleGAN image restoration robust: a single set of hyperparameters works across a wide range of degradation levels. This makes it possible to handle combinations of several degradations, without the need to retune. Our proposed approach relies on a 3-phase progressive latent space extension and a conservative optimizer, which avoids the need for any additional regularization terms. Extensive experiments demonstrate robustness on inpainting, upsampling, denoising, and deartifacting at varying degradations levels, outperforming other StyleGAN-based inversion techniques. Our approach also favorably compares to diffusion-based restoration by yielding much more realistic inversion results. Code is available at https://lvsn.github.io/RobustUnsupervised/. | 翻訳日:2023-06-23 17:43:30 公開日:2023-06-22 |
# 量子クエンチ後の対称性回復の欠如:絡み合い非対称性の研究 Lack of symmetry restoration after a quantum quench: an entanglement asymmetry study ( http://arxiv.org/abs/2302.03330v4 ) ライセンス: Link先を確認 | Filiberto Ares, Sara Murciano, Eric Vernier, Pasquale Calabrese | (参考訳) 我々は、傾いた N'eel 状態から始まるXXスピン鎖の量子クエンチを、ポストクエンチハミルトニアンの$U(1)$対称性を明示的に破ると考える。
非常に驚くべきことに、u(1)$対称性は、すべての電荷が壊れる非可換な集合を活性化するため、大々的に復元されない。
対称性の破れは、最近導入された絡み合い非対称性によって効果的に定量的に特徴づけられる。
正確な計算と準粒子画像の議論を組み合わせることで、クエンチ後いつでも非対称性の挙動を正確に記述することができる。
さらに、定常動作は非アベリア一般化ギブスアンサンブルによって完全に捉えられていることを示す。
相互作用しないスピンチェーンの計算は行われているが、この場合も非アベリア電荷が存在するため、積分可能な相互作用ケースについても同様の結果が得られると期待している。 We consider the quantum quench in the XX spin chain starting from a tilted N\'eel state which explicitly breaks the $U(1)$ symmetry of the post-quench Hamiltonian. Very surprisingly, the $U(1)$ symmetry is not restored at large time because of the activation of a non-Abelian set of charges which all break it. The breaking of the symmetry can be effectively and quantitatively characterised by the recently introduced entanglement asymmetry. By a combination of exact calculations and quasi-particle picture arguments, we are able to exactly describe the behaviour of the asymmetry at any time after the quench. Furthermore we show that the stationary behaviour is completely captured by a non-Abelian generalised Gibbs ensemble. While our computations have been performed for a non-interacting spin chain, we expect similar results to hold for the integrable interacting case as well because of the presence of non-Abelian charges also in that case. | 翻訳日:2023-06-23 17:42:35 公開日:2023-06-22 |
# 変分ベイズ系統パラメータ推定における事前密度学習 Prior Density Learning in Variational Bayesian Phylogenetic Parameters Inference ( http://arxiv.org/abs/2302.02522v2 ) ライセンス: Link先を確認 | Amine M. Remita, Golrokh Kiani Vitae and Abdoulaye Banir\'e Diallo | (参考訳) 変分推論の進歩はベイズ推定問題に有望な経路を与えている。
これらの進歩により、変異型系統推論はマルコフ連鎖モンテカルロ法に代わる手法となり、系統的後方を近似する。
しかし、そのようなアプローチの主な欠点の1つは、固定分布による事前のモデリングであり、現在のデータ分布から遠く離れている場合、後方近似を偏らせる可能性がある。
本稿では,勾配に基づく手法とニューラルネットワークに基づくパラメータ化を用いて,そのパラメータを学習することにより,事前密度の剛性を緩和する手法と実装フレームワークを提案する。
本手法をマルコフ連鎖置換モデルを用いて分岐長と進化パラメータ推定に適用した。
シミュレーションの結果,この手法は分岐長と進化モデルパラメータの推定に有効であることがわかった。
また、フレキシブルな事前モデルが事前定義された事前モデルよりも優れた結果をもたらすことも示している。
最後に,ニューラルネットワークの利用により,事前密度パラメータの最適化の初期化が向上することを示す。 The advances in variational inference are providing promising paths in Bayesian estimation problems. These advances make variational phylogenetic inference an alternative approach to Markov Chain Monte Carlo methods for approximating the phylogenetic posterior. However, one of the main drawbacks of such approaches is the modelling of the prior through fixed distributions, which could bias the posterior approximation if they are distant from the current data distribution. In this paper, we propose an approach and an implementation framework to relax the rigidity of the prior densities by learning their parameters using a gradient-based method and a neural network-based parameterization. We applied this approach for branch lengths and evolutionary parameters estimation under several Markov chain substitution models. The results of performed simulations show that the approach is powerful in estimating branch lengths and evolutionary model parameters. They also show that a flexible prior model could provide better results than a predefined prior model. Finally, the results highlight that using neural networks improves the initialization of the optimization of the prior density parameters. | 翻訳日:2023-06-23 17:42:10 公開日:2023-06-22 |
# HDPV-SLAM:Tilted LiDARとパノラマカメラを用いたモバイルマッピングシステムのためのハイブリッド奥行きパノラマ画像SLAM HDPV-SLAM: Hybrid Depth-augmented Panoramic Visual SLAM for Mobile Mapping System with Tilted LiDAR and Panoramic Visual Camera ( http://arxiv.org/abs/2301.11823v3 ) ライセンス: Link先を確認 | Mostafa Ahmadi, Amin Alizadeh Naeini, Mohammad Moein Sheikholeslami, Zahra Arjmandi, Yujia Zhang, and Gunho Sohn | (参考訳) 本論文では,パノラマカメラと傾斜多ビームlidarスキャナを用いて高精度かつメートルスケールの軌跡を生成する,ハイブリッド奥行き誘導パノラマ視覚スラム(hdpv-slam)と呼ばれる新しい視覚同時測位・マッピングシステムを提案する。
RGB-D SLAMはHDPV-SLAMの設計基盤であり、視覚的特徴に深度情報を追加した。
これは、同様のSLAMシステムの性能を妨げる2つの大きな問題を解決することを目的としている。
第1の障害は、LiDARの深さの疎度であり、RGB画像の抽出された視覚的特徴との相関が難しい。
この問題に対処するため, 深層学習に基づく疎水深度推定モジュールを提案する。
第2の課題は、パノラマカメラと傾斜LiDARセンサーとの水平重なり合いの欠如による奥行き関係の難しさに関するものである。
この困難を克服するために,特徴に基づく三角測量と深度推定という2つの独立した手順によって推定される深度情報を最適に組み合わせたハイブリッド深度関連モジュールを提案する。
特徴追跡の段階において、このハイブリッド深度関連モジュールは、視覚的特徴追跡による三角深度と深度に基づく補正深度とのより正確な深度情報の利用を最大化することを目的としている。
ヨーク大学およびTeledyne Optech (YUTO) MMSデータセットを用いてHDPV-SLAMの有効性を検討した。
実験の結果,2つのモジュールは,最先端SLAMシステムを上回るHDPV-SLAMの性能に大きく貢献することが示された。 This paper proposes a novel visual simultaneous localization and mapping (SLAM) system called Hybrid Depth-augmented Panoramic Visual SLAM (HDPV-SLAM), that employs a panoramic camera and a tilted multi-beam LiDAR scanner to generate accurate and metrically-scaled trajectories. RGB-D SLAM was the design basis for HDPV-SLAM, which added depth information to visual features. It aims to solve the two major issues hindering the performance of similar SLAM systems. The first obstacle is the sparseness of LiDAR depth, which makes it difficult to correlate it with the extracted visual features of the RGB image. A deep learning-based depth estimation module for iteratively densifying sparse LiDAR depth was suggested to address this issue. The second issue pertains to the difficulties in depth association caused by a lack of horizontal overlap between the panoramic camera and the tilted LiDAR sensor. To surmount this difficulty, we present a hybrid depth association module that optimally combines depth information estimated by two independent procedures, feature-based triangulation and depth estimation. During a phase of feature tracking, this hybrid depth association module aims to maximize the use of more accurate depth information between the triangulated depth with visual features tracked and the deep learning-based corrected depth. We evaluated the efficacy of HDPV-SLAM using the 18.95 km-long York University and Teledyne Optech (YUTO) MMS dataset. The experimental results demonstrate that the two proposed modules contribute substantially to the performance of HDPV-SLAM, which surpasses that of the state-of-the-art (SOTA) SLAM systems. | 翻訳日:2023-06-23 17:41:52 公開日:2023-06-22 |
# SemSup-XC:zeroとFew-shot Extremeのセマンティックスーパービジョン SemSup-XC: Semantic Supervision for Zero and Few-shot Extreme Classification ( http://arxiv.org/abs/2301.11309v2 ) ライセンス: Link先を確認 | Pranjal Aggarwal, Ameet Deshpande, Karthik Narasimhan | (参考訳) エクストリーム分類(xc)は、ニュース記事の分類やeコマース商品のタグ付けといった現実世界のアプリケーションを含む、大量のクラス(数千から数百万)の予測を伴う。
このタスクのゼロショットバージョンは、追加の監督なしで新しいクラスへの一般化を必要とする。
本稿では,法的,電子商取引,ウィキペディアのデータから得られた3つのXCデータセットに対して,最先端のゼロショットと少数ショットのパフォーマンスを実現するモデルであるSemSup-XCを開発する。
SemSup-XCを開発するために、セマンティッククラス記述を自動的に収集し、クラスを表現し、セマンティックと語彙の類似性を組み合わせた入力インスタンスとクラス記述をマッチングする新しいハイブリッドマッチングモジュールによる一般化を容易にする。
対照的な学習でトレーニングされたsemsup-xcは、ベースラインを著しく上回り、3つのデータセットすべてで最先端のパフォーマンスを確立し、ゼロショットで最大12点、ワンショットテストで10点以上を獲得し、リコール@10も同様に向上した。
アブレーション研究では,ハイブリッドマッチングモジュールの相対的重要性とクラス記述の自動収集が強調された。 Extreme classification (XC) involves predicting over large numbers of classes (thousands to millions), with real-world applications like news article classification and e-commerce product tagging. The zero-shot version of this task requires generalization to novel classes without additional supervision. In this paper, we develop SemSup-XC, a model that achieves state-of-the-art zero-shot and few-shot performance on three XC datasets derived from legal, e-commerce, and Wikipedia data. To develop SemSup-XC, we use automatically collected semantic class descriptions to represent classes and facilitate generalization through a novel hybrid matching module that matches input instances to class descriptions using a combination of semantic and lexical similarity. Trained with contrastive learning, SemSup-XC significantly outperforms baselines and establishes state-of-the-art performance on all three datasets considered, gaining up to 12 precision points on zero-shot and more than 10 precision points on one-shot tests, with similar gains for recall@10. Our ablation studies highlight the relative importance of our hybrid matching module and automatically collected class descriptions. | 翻訳日:2023-06-23 17:40:53 公開日:2023-06-22 |
# 半教師付きセンシングレート学習による集団内の信頼データ収集によるcovid-19対策cmab A Semi-supervised Sensing Rate Learning based CMAB Scheme to Combat COVID-19 by Trustful Data Collection in the Crowd ( http://arxiv.org/abs/2301.08563v2 ) ライセンス: Link先を確認 | Jianheng Tang, Kejia Fan, Wenxuan Xie, Luomin Zeng, Feijiang Han, Guosheng Huang, Tian Wang, Anfeng Liu, Shaobo Zhang | (参考訳) 信頼性と質の高い労働者の採用は、MCSにとって重要な研究課題である。
以前の研究では、労働者の質が事前に知られていると仮定するか、収集されたデータを受け取ったらそのプラットフォームが労働者の質を知っていると仮定する。
実際、コストを削減し、収益を最大化するために、多くの戦略的労働者は、自分のセンシングタスクを誠実に実行せず、偽のデータをプラットフォームに報告する。
そして、プラットフォームが受信したデータの真正性を評価することは極めて困難である。
本稿では、MCSにおける複数の未知の戦略的労働者の求人問題を解決するために、セミスーパービジョンベースの Combinatorial Multi-Armed Bandit reverse Auction (SCMABA) というインセンティブメカニズムを提案する。
まず,マルチアームのバンディット逆オークション問題として労働者採用をモデル化し,探索と搾取を分離するucbベースのアルゴリズムをデザインし,バンディットの利得として採用した労働者のセンシングレート(srs)について検討した。
次に,SSRL(Semi-supervised Sensing Rate Learning)アプローチを提案し,労働者のSRを迅速かつ正確に取得する。
最後に, SCMABAは, SRs獲得機構とマルチアーム・バンドイット・リバース・オークションを有機的に組み合わせて設計し, 探索には教師付きSR学習, 搾取には自己教師付きSR学習を用いる。
理論上,我々のSCMABAは真理性と個人合理性を達成し,実世界のデータトレースの詳細なシミュレーションを通じて,SCMABA機構の優れた性能を示す。 The recruitment of trustworthy and high-quality workers is an important research issue for MCS. Previous studies either assume that the qualities of workers are known in advance, or assume that the platform knows the qualities of workers once it receives their collected data. In reality, to reduce costs and thus maximize revenue, many strategic workers do not perform their sensing tasks honestly and report fake data to the platform, which is called False data attacks. And it is very hard for the platform to evaluate the authenticity of the received data. In this paper, an incentive mechanism named Semi-supervision based Combinatorial Multi-Armed Bandit reverse Auction (SCMABA) is proposed to solve the recruitment problem of multiple unknown and strategic workers in MCS. First, we model the worker recruitment as a multi-armed bandit reverse auction problem and design an UCB-based algorithm to separate the exploration and exploitation, regarding the Sensing Rates (SRs) of recruited workers as the gain of the bandit. Next, a Semi-supervised Sensing Rate Learning (SSRL) approach is proposed to quickly and accurately obtain the workers' SRs, which consists of two phases, supervision and self-supervision. Last, SCMABA is designed organically combining the SRs acquisition mechanism with multi-armed bandit reverse auction, where supervised SR learning is used in the exploration, and the self-supervised one is used in the exploitation. We theoretically prove that our SCMABA achieves truthfulness and individual rationality and exhibits outstanding performances of the SCMABA mechanism through in-depth simulations of real-world data traces. | 翻訳日:2023-06-23 17:40:29 公開日:2023-06-22 |
# 超伝導クエットアレイにおける多体量子状態の散逸準備と安定化 Dissipative preparation and stabilization of many-body quantum states in a superconducting qutrit array ( http://arxiv.org/abs/2303.12111v2 ) ライセンス: Link先を確認 | Yunzhao Wang, Kyrylo Snizhko, Alessandro Romito, Yuval Gefen, and Kater Murch | (参考訳) 量子多体絡み合い状態の多様体を対称に保護された位相秩序で駆動散逸的に作成・安定化するためのプロトコルを提示・解析する。
具体的には、超伝導トランスモン回路と線形マイクロ波共振器からなる実験プラットフォームについて考察する。
実デバイスの物理特性に基づくパルスレベルのシミュレーションにより,このプラットフォームを理論的にモデル化する。
我々のプロトコルでは、トランスモンクォートはスピン-1系にマッピングされる。
共振形マイクロ波共振器への最近傍の分散結合の共有により、隣接するペアごとに$S^\mathrm{total}=2$部分空間の状態集団の除去が可能となり、Affleck, Kennedy, Lieb, Tasaki (AKLT) への多体系の安定化はエッジモードの構成までの状態となる。
また,システムサイズが4クォートリットまで拡大する際のプロトコルの性能を,その忠実度と安定化時間の観点から解析する。
本研究は、位相的に非自補正された量子多体状態をホストする駆動散逸型超伝導cqed系の容量を示す。 We present and analyze a protocol for driven-dissipatively preparing and stabilizing a manifold of quantum manybody entangled states with symmetry-protected topological order. Specifically, we consider the experimental platform consisting of superconducting transmon circuits and linear microwave resonators. We perform theoretical modeling of this platform via pulse-level simulations based on physical features of real devices. In our protocol, transmon qutrits are mapped onto spin-1 systems. The qutrits' sharing of nearest-neighbor dispersive coupling to a dissipative microwave resonator enables elimination of state population in the $S^\mathrm{total}=2$ subspace for each adjacent pair, and thus, the stabilization of the manybody system into the Affleck, Kennedy, Lieb, and Tasaki (AKLT) state up to the edge mode configuration. We also analyze the performance of our protocol as the system size scales up to four qutrits, in terms of its fidelity as well as the stabilization time. Our work shows the capacity of driven-dissipative superconducting cQED systems to host robust and self-corrected quantum manybody states that are topologically non-trivial. | 翻訳日:2023-06-23 17:35:04 公開日:2023-06-22 |
# 二元的医用画像分類のための決定論的手法によるモデル自己解釈可能性の再検討 Revisiting model self-interpretability in a decision-theoretic way for binary medical image classification ( http://arxiv.org/abs/2303.06876v2 ) ライセンス: Link先を確認 | Sourya Sengupta and Mark A. Anastasio | (参考訳) ディープニューラルネットワークベースの分類器、特に医用画像における高い判定に対処する場合、解釈可能性は非常に望ましい。
一般的に用いられるポストホック解釈可能性法は、与えられたモデルの正当だが異なる解釈を生成できるという制限を持ち、どのモデルを選ぶべきかの曖昧さをもたらす。
この問題に対処するために,事前訓練された深部二元ブラックボックス医療画像分類器を前提とした自己解釈モデルを確立するために,新たな決定論的動機付け手法を提案する。
このアプローチでは,自己解釈可能なエンコーダデコーダモデルと,ユニタリ重み付き単一層完全連結ネットワークを併用する。
このモデルは、与えられた訓練されたブラックボックスのディープバイナリ分類器のテスト統計を推定するために訓練され、同様の精度を維持する。
デコーダ出力画像は、同値マップと呼ばれ、固定された完全連結層によって処理されると、元の分類器と同じテスト統計値を生成するto-be-classified画像の変換バージョンを表す画像である。
同値マップは、テストの統計値に直接寄与する変換された画像の特徴の可視化を提供し、さらにそれらの相対的な貢献の定量化を可能にする。
従来のポストホック解釈法とは異なり、提案手法は自己解釈可能で定量的であり、決定論に基づく。
3つの異なる医用画像バイナリ分類タスクを用いて詳細な量的・質的分析を行った。 Interpretability is highly desired for deep neural network-based classifiers, especially when addressing high-stake decisions in medical imaging. Commonly used post-hoc interpretability methods have the limitation that they can produce plausible but different interpretations of a given model, leading to ambiguity about which one to choose. To address this problem, a novel decision-theory-motivated approach is investigated to establish a self-interpretable model, given a pretrained deep binary black-box medical image classifier. This approach involves utilizing a self-interpretable encoder-decoder model in conjunction with a single-layer fully connected network with unity weights. The model is trained to estimate the test statistic of the given trained black-box deep binary classifier to maintain a similar accuracy. The decoder output image, referred to as an equivalency map, is an image that represents a transformed version of the to-be-classified image that, when processed by the fixed fully connected layer, produces the same test statistic value as the original classifier. The equivalency map provides a visualization of the transformed image features that directly contribute to the test statistic value and, moreover, permits quantification of their relative contributions. Unlike the traditional post-hoc interpretability methods, the proposed method is self-interpretable, quantitative, and fundamentally based on decision theory. Detailed quantitative and qualitative analysis have been performed with three different medical image binary classification tasks. | 翻訳日:2023-06-23 17:34:43 公開日:2023-06-22 |
# TSMixer: 時系列予測のためのオールMLPアーキテクチャ TSMixer: An all-MLP Architecture for Time Series Forecasting ( http://arxiv.org/abs/2303.06053v3 ) ライセンス: Link先を確認 | Si-An Chen, Chun-Liang Li, Nate Yoder, Sercan O. Arik, Tomas Pfister | (参考訳) 現実世界の時系列データセットはしばしば複雑なダイナミクスを持つ多変量である。
この複雑さを捉えるために、リカレントやアテンションベースのシーケンシャルディープラーニングモデルのような高容量アーキテクチャが普及している。
しかし、最近の研究では、単純な単変量線形モデルは、よく使われるいくつかの学術ベンチマークにおいて、そのような深層学習モデルより優れていることが示されている。
本稿では,時系列予測のための線形モデルと,多層パーセプトロン (mlps) を積み重ねた新しいアーキテクチャであるcurrent time-series mixer (tsmixer) の機能について検討する。
TSMixerは時間次元と特徴次元の混合操作に基づいて情報を効率的に抽出する。
一般的な学術ベンチマークでは、TSMixerは特定のベンチマークの帰納バイアスを利用する専門的な最先端モデルに匹敵する。
現実の小売データセットである挑戦的で大規模なM5ベンチマークでは、TSMixerは最先端の代替モデルよりも優れたパフォーマンスを示している。
その結果,時系列予測の性能向上にクロスバリアイトと補助情報を効果的に活用することの重要性が示唆された。
我々はTSMixerの能力について様々な分析を行った。
TSMixerで使用される設計パラダイムは、ディープラーニングに基づく時系列予測のための新たな地平を開くことが期待されている。
実装はhttps://github.com/google-research/google-research/tree/master/tsmixerで利用可能である。 Real-world time-series datasets are often multivariate with complex dynamics. To capture this complexity, high capacity architectures like recurrent- or attention-based sequential deep learning models have become popular. However, recent work demonstrates that simple univariate linear models can outperform such deep learning models on several commonly used academic benchmarks. Extending them, in this paper, we investigate the capabilities of linear models for time-series forecasting and present Time-Series Mixer (TSMixer), a novel architecture designed by stacking multi-layer perceptrons (MLPs). TSMixer is based on mixing operations along both the time and feature dimensions to extract information efficiently. On popular academic benchmarks, the simple-to-implement TSMixer is comparable to specialized state-of-the-art models that leverage the inductive biases of specific benchmarks. On the challenging and large scale M5 benchmark, a real-world retail dataset, TSMixer demonstrates superior performance compared to the state-of-the-art alternatives. Our results underline the importance of efficiently utilizing cross-variate and auxiliary information for improving the performance of time series forecasting. We present various analyses to shed light into the capabilities of TSMixer. The design paradigms utilized in TSMixer are expected to open new horizons for deep learning-based time series forecasting. The implementation is available at https://github.com/google-research/google-research/tree/master/tsmixer | 翻訳日:2023-06-23 17:34:19 公開日:2023-06-22 |
# 線形QAOAに基づく分解アルゴリズムの落とし穴 Pitfalls of the sublinear QAOA-based factorization algorithm ( http://arxiv.org/abs/2303.04656v3 ) ライセンス: Link先を確認 | S.V. Grebnev, M.A. Gavreev, E.O. Kiktenko, A.P. Guglya, K.V. Kuchkin, A.R. Efimov, A.K. Fedorov | (参考訳) 量子コンピューティングデバイスは、広く普及している公開鍵暗号ツールの中心である素因数分解問題を解決する上で強力であると考えられている。
しかし、Shorの量子因数分解アルゴリズムの実装には、数値サイズと線形にスケールする重要なリソースが必要であり、量子エラー補正に必要なオーバーヘッドを考慮すると、2048ビットのRSA鍵を8時間で分解するには2000万の物理量子ビットが必要である。
yanらによる最近の提案
al.は、部分線形量子資源を用いて因子分解問題を解決する可能性を主張する。
我々の研究で示すように、この提案はシュノーラーの格子に基づくアプローチを利用するアルゴリズムの古典的な部分の計算複雑性の体系的な解析を欠いている。
提案する量子分解アルゴリズムに対する追加資源分析の必要性を示すいくつかの例を示す。 Quantum computing devices are believed to be powerful in solving the prime factorization problem, which is at the heart of widely deployed public-key cryptographic tools. However, the implementation of Shor's quantum factorization algorithm requires significant resources scaling linearly with the number size; taking into account an overhead that is required for quantum error correction the estimation is that 20 millions of (noisy) physical qubits are required for factoring 2048-bit RSA key in 8 hours. Recent proposal by Yan et. al. claims a possibility of solving the factorization problem with sublinear quantum resources. As we demonstrate in our work, this proposal lacks systematic analysis of the computational complexity of the classical part of the algorithm, which exploits the Schnorr's lattice-based approach. We provide several examples illustrating the need in additional resource analysis for the proposed quantum factorization algorithm. | 翻訳日:2023-06-23 17:33:55 公開日:2023-06-22 |
# 言語による抽象的視覚的推論 Abstract Visual Reasoning Enabled by Language ( http://arxiv.org/abs/2303.04091v3 ) ライセンス: Link先を確認 | Giacomo Camposampiero, Loic Houmard, Benjamin Estermann, Jo\"el Mathys, Roger Wattenhofer | (参考訳) 人工知能(AI)モデルは、よく定義された多くのアプリケーションで人間や超人的なパフォーマンスを達成したが、広範かつ柔軟な知性を示すのに苦戦している。
Fran\c{c}ois Chollet氏が導入したビジュアルインテリジェンスベンチマークであるARC(Abstraction and Reasoning Corpus)は、AIシステムが人間のような認知能力にどの程度近いかを評価することを目的としている。
現在のほとんどのアプローチは、ARCに存在するタスクのブルートフォースソリューションに対して、慎重に手作りのドメイン固有プログラム検索に依存している。
本研究では,ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語とビジョンのこの構成により、事前訓練されたモデルが各ステージで活用され、手作りの先行モデルから学習された先行モデルへの移行が可能になる。
ARCの最先端モデルにはまだ勝っていないが、例えば、これまで解決されていないARCタスクを解くことで、我々のアプローチの可能性を実証する。 While artificial intelligence (AI) models have achieved human or even superhuman performance in many well-defined applications, they still struggle to show signs of broad and flexible intelligence. The Abstraction and Reasoning Corpus (ARC), a visual intelligence benchmark introduced by Fran\c{c}ois Chollet, aims to assess how close AI systems are to human-like cognitive abilities. Most current approaches rely on carefully handcrafted domain-specific program searches to brute-force solutions for the tasks present in ARC. In this work, we propose a general learning-based framework for solving ARC. It is centered on transforming tasks from the vision to the language domain. This composition of language and vision allows for pre-trained models to be leveraged at each stage, enabling a shift from handcrafted priors towards the learned priors of the models. While not yet beating state-of-the-art models on ARC, we demonstrate the potential of our approach, for instance, by solving some ARC tasks that have not been solved previously. | 翻訳日:2023-06-23 17:33:39 公開日:2023-06-22 |
# UniHCP:人間中心の知覚の統一モデル UniHCP: A Unified Model for Human-Centric Perceptions ( http://arxiv.org/abs/2303.02936v4 ) ライセンス: Link先を確認 | Yuanzheng Ci, Yizhou Wang, Meilin Chen, Shixiang Tang, Lei Bai, Feng Zhu, Rui Zhao, Fengwei Yu, Donglian Qi, Wanli Ouyang | (参考訳) 人間中心の知覚(ポーズ推定、人間の解析、歩行者検出、人物再同定など)は、視覚モデルの産業応用において重要な役割を果たす。
特定の人間中心のタスクは、それぞれに焦点をあてる意味的な側面を持っているが、同時に、人体の基本的な意味構造も共有している。
しかし、そのような均質性を活かし、人間中心タスクの汎用モデルの設計を試みる研究はほとんどない。
本研究では、人間中心の幅広いタスクを再考し、最小限の方法でそれらを統一する。
そこで我々は,人間中心のタスクを多種多様なタスクに統一したUniHCPを,視覚トランスフォーマアーキテクチャを用いて簡易なエンド・ツー・エンド方式で提案する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPはいくつかのドメイン内および下流タスクにおいて、直接評価によって強力なベースラインを達成できる。
特定のタスクに適応すると、UniHCPは、人間解析用のCIHPの69.8 mIoU、属性予測用のPA-100Kの86.18 mA、ReID用のMarket1501の90.3 mAP、歩行者検出用のCrowdHumanの85.8 JIなど、幅広い人間中心のタスクで新しいSOTAを達成し、各タスク用に調整された特別モデルよりも優れたパフォーマンスを発揮する。 Human-centric perceptions (e.g., pose estimation, human parsing, pedestrian detection, person re-identification, etc.) play a key role in industrial applications of visual models. While specific human-centric tasks have their own relevant semantic aspect to focus on, they also share the same underlying semantic structure of the human body. However, few works have attempted to exploit such homogeneity and design a general-propose model for human-centric tasks. In this work, we revisit a broad range of human-centric tasks and unify them in a minimalist manner. We propose UniHCP, a Unified Model for Human-Centric Perceptions, which unifies a wide range of human-centric tasks in a simplified end-to-end manner with the plain vision transformer architecture. With large-scale joint training on 33 human-centric datasets, UniHCP can outperform strong baselines on several in-domain and downstream tasks by direct evaluation. When adapted to a specific task, UniHCP achieves new SOTAs on a wide range of human-centric tasks, e.g., 69.8 mIoU on CIHP for human parsing, 86.18 mA on PA-100K for attribute prediction, 90.3 mAP on Market1501 for ReID, and 85.8 JI on CrowdHuman for pedestrian detection, performing better than specialized models tailored for each task. | 翻訳日:2023-06-23 17:33:20 公開日:2023-06-22 |
# 義足・高齢者音声認識のための自己教師付き事前学習型asrモデルの検討 Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition ( http://arxiv.org/abs/2302.14564v2 ) ライセンス: Link先を確認 | Shujie Hu, Xurong Xie, Zengrui Jin, Mengzhe Geng, Yi Wang, Mingyu Cui, Jiajun Deng, Xunying Liu, Helen Meng | (参考訳) 不規則・高齢の音声の自動認識は、大量のデータ収集が困難であるため、現在まで非常に困難な課題である。
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合するための一連のアプローチについて検討する。
a) 標準音響フロントエンドと領域適応wav2vec2.0音声表現との入力特徴融合
b)標準音響特徴と追加のwav2vec2.0特徴のみを用いて個別に訓練されたTDNNシステムのフレームレベル共同復号
c) ドメイン適応wav2vec2.0モデルを用いて、TDNN/Conformerシステム出力を含むマルチパス復号化を行う。
さらに、ドメイン適応wav2vec2.0表現はa2aインバージョンで活用され、マルチモーダル・ディサルトリックおよび高齢者音声認識システムを構築する。
uaspeech dysarthric と dementiabank pitt elderly speech corpora の実験では、tdnn と conformer asr systems integrated domain adapt wav2vec2.0 モデルが、統計学的に有意な wer モデルを8.22% と 3.43% の絶対値 (26.71% と 15.88% の絶対値) でそれぞれ上回っていることが示唆された。
最も低いWERは22.56%(非常に低い知性では52.53%、見えない単語では39.09%)で、UASpeechテストセットの16の変形性スピーカでは18.17%、DementiaBank Pittテストセットでは18.17%である。 Automatic recognition of disordered and elderly speech remains a highly challenging task to date due to the difficulty in collecting such data in large quantities. This paper explores a series of approaches to integrate domain adapted SSL pre-trained models into TDNN and Conformer ASR systems for dysarthric and elderly speech recognition: a) input feature fusion between standard acoustic frontends and domain adapted wav2vec2.0 speech representations; b) frame-level joint decoding of TDNN systems separately trained using standard acoustic features alone and with additional wav2vec2.0 features; and c) multi-pass decoding involving the TDNN/Conformer system outputs to be rescored using domain adapted wav2vec2.0 models. In addition, domain adapted wav2vec2.0 representations are utilized in acoustic-to-articulatory (A2A) inversion to construct multi-modal dysarthric and elderly speech recognition systems. Experiments conducted on the UASpeech dysarthric and DementiaBank Pitt elderly speech corpora suggest TDNN and Conformer ASR systems integrated domain adapted wav2vec2.0 models consistently outperform the standalone wav2vec2.0 models by statistically significant WER reductions of 8.22% and 3.43% absolute (26.71% and 15.88% relative) on the two tasks respectively. The lowest published WERs of 22.56% (52.53% on very low intelligibility, 39.09% on unseen words) and 18.17% are obtained on the UASpeech test set of 16 dysarthric speakers, and the DementiaBank Pitt test set respectively. | 翻訳日:2023-06-23 17:32:20 公開日:2023-06-22 |
# ペアワイズ差の混合学習のためのemの鋭い解析 Sharp analysis of EM for learning mixtures of pairwise differences ( http://arxiv.org/abs/2302.10066v2 ) ライセンス: Link先を確認 | Abhishek Dhawan, Cheng Mao, Ashwin Pananjady | (参考訳) 線形回帰とランダムなサンプルの対称な混合をペア比較設計から考えると、ユークリッド距離幾何学のタイプのノイズのあるバージョンと見なすことができる。
予測最大化(EM)アルゴリズムを地平線周辺で局所的に解析し、その列が線形に収束することを証明し、反復数の推定誤差に対して$\ell_\infty$-norm保証を与える。
さらに,em系列の極限は$\ell_2$-norm において,情報理論上最適定数に適合する鋭い推定率が得られることを示す。
また、この設定では、ランダム初期化からの収束がはるかに繊細であり、一般には発生しないというシミュレーションを通じて論じる。
その結果,共変量分布が適切に構成された場合,EMアルゴリズムはいくつかのユニークな挙動を示すことがわかった。 We consider a symmetric mixture of linear regressions with random samples from the pairwise comparison design, which can be seen as a noisy version of a type of Euclidean distance geometry problem. We analyze the expectation-maximization (EM) algorithm locally around the ground truth and establish that the sequence converges linearly, providing an $\ell_\infty$-norm guarantee on the estimation error of the iterates. Furthermore, we show that the limit of the EM sequence achieves the sharp rate of estimation in the $\ell_2$-norm, matching the information-theoretically optimal constant. We also argue through simulation that convergence from a random initialization is much more delicate in this setting, and does not appear to occur in general. Our results show that the EM algorithm can exhibit several unique behaviors when the covariate distribution is suitably structured. | 翻訳日:2023-06-23 17:31:19 公開日:2023-06-22 |
# 相互類似性制御を用いたコントラスト学習による視覚言語事前学習 Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation ( http://arxiv.org/abs/2305.04474v3 ) ライセンス: Link先を確認 | Chaoya Jiang, Wei Ye, Haiyang Xu, Miang yan, Shikun Zhang, Jie Zhang, Fei Huang | (参考訳) vision language pretraining(vlp)におけるクロスモーダルコントラスト学習は、(部分的な)偽陰性の問題に直面している。
本稿では,相互情報(MI)最適化の観点からこの問題を考察する。
対照的な学習で使用されるInfoNCE損失は、アンカーと正のMIの低い境界を最大化するが、理論上は、ノイズが一般的に存在する場合にも、負のMIが重要であることを証明している。
最適化のためのより一般的な下界形式によって導かれ、段階的に改良されたクロスモーダルな類似性によって制御される対照的な学習戦略を提案し、画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
提案手法は,下流の4つのクロスモーダルタスクと,(部分的な)偽陰性サンプルの有益かつ有害な効果を,理論的指導下で体系的にバランスをとる。 Cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimization. It is common sense that InfoNCE loss used in contrastive learning will maximize the lower bound of MI between anchors and their positives, while we theoretically prove that MI involving negatives also matters when noises commonly exist. Guided by a more general lower bound form for optimization, we propose a contrastive learning strategy regulated by progressively refined cross-modal similarity, to more accurately optimize MI between an image/text anchor and its negative texts/images instead of improperly minimizing it. Our method performs competitively on four downstream cross-modal tasks and systematically balances the beneficial and harmful effects of (partial) false negative samples under theoretical guidance. | 翻訳日:2023-06-23 17:23:28 公開日:2023-06-22 |
# ゼロ温度における2自由度シュウィンガーモデルの位相図 Phase Diagram of the Two-Flavor Schwinger Model at Zero Temperature ( http://arxiv.org/abs/2305.04437v2 ) ライセンス: Link先を確認 | Ross Dempsey, Igor R. Klebanov, Silviu S. Pufu, Benjamin T. S{\o}gaard, and Bernardo Zan | (参考訳) そこで, 2-フレーバーシュウィンガーモデルの位相構造を, $\theta$-angle と $m_1$ と $m_2$ の2つの質量の関数として検討した。
特に、$\theta=\pi$:$SU(2)$-不変直線 $m_1 = m_2 = m$ において、$m$ が電荷 $g$ よりもはるかに小さい状態において、この理論はベレジンスキー=コステリッツ=トゥーレス型の対数的 RG フローを経る。
その結果、この方法では非摂動的に小さい質量ギャップ $\sim e^{- a g^2/m^2}$ が存在する。
su(2)$-不変直線は、電荷共役対称性が自発的に破られ、その境界が数値的に決定される位相図の領域内にある。
離散キラル対称性によって決定される質量シフト $m_\text{lat} = m-g^2 a/4$ を含むハミルトニアン格子ゲージの定式化を用いて数値計算を行った。 We examine the phase structure of the two-flavor Schwinger model as a function of the $\theta$-angle and the two masses, $m_1$ and $m_2$. In particular, we find interesting effects at $\theta=\pi$: along the $SU(2)$-invariant line $m_1 = m_2 = m$, in the regime where $m$ is much smaller than the charge $g$, the theory undergoes logarithmic RG flow of the Berezinskii-Kosterlitz-Thouless type. As a result, in this regime there is a non-perturbatively small mass gap $\sim e^{- A g^2/m^2}$. The $SU(2)$-invariant line lies within a region of the phase diagram where the charge conjugation symmetry is spontaneously broken and whose boundaries we determine numerically. Our numerical results are obtained using the Hamiltonian lattice gauge formulation that includes the mass shift $m_\text{lat} = m- g^2 a/4$ dictated by the discrete chiral symmetry. | 翻訳日:2023-06-23 17:23:10 公開日:2023-06-22 |
# 共変量シフト下での分類木刈り Classification Tree Pruning Under Covariate Shift ( http://arxiv.org/abs/2305.04335v2 ) ライセンス: Link先を確認 | Nicholas Galbraith and Samory Kpotufe | (参考訳) 非均質なトレーニングデータと共通する状況において、偏りと分散のバランスをとる適切な部分木を選択するという分類木を \emph{pruning} の問題を考える。
すなわち, 分散$p_{x, y}$ からのほとんどデータへのアクセスを仮定するが, 所望の分散$q_{x, y}$ と異なる$x$-マージナルによるデータが少ない場合には, クロスバリデーションや他のペナルテッド変種が極めて不適切な場合に, 最適な刈り取りを行うための最初の効率的な手順を提案する。
最適性は \emph{average discrepancy} $p_{x} \to q_{x}$(平均で$x$空間)という概念で導出され、この分布シフトの下で分類の限界を厳密に捉えることが示されている。
我々の緩和された概念は、ミンコフスキー次元やレーニ次元のような既存の情報の概念に関係しているため、分布間の \emph{relative dimension} の尺度と見なすことができる。 We consider the problem of \emph{pruning} a classification tree, that is, selecting a suitable subtree that balances bias and variance, in common situations with inhomogeneous training data. Namely, assuming access to mostly data from a distribution $P_{X, Y}$, but little data from a desired distribution $Q_{X, Y}$ with different $X$-marginals, we present the first efficient procedure for optimal pruning in such situations, when cross-validation and other penalized variants are grossly inadequate. Optimality is derived with respect to a notion of \emph{average discrepancy} $P_{X} \to Q_{X}$ (averaged over $X$ space) which significantly relaxes a recent notion -- termed \emph{transfer-exponent} -- shown to tightly capture the limits of classification under such a distribution shift. Our relaxed notion can be viewed as a measure of \emph{relative dimension} between distributions, as it relates to existing notions of information such as the Minkowski and Renyi dimensions. | 翻訳日:2023-06-23 17:22:47 公開日:2023-06-22 |
# 大規模言語モデルを用いた人型翻訳戦略の探索 Exploring Human-Like Translation Strategy with Large Language Models ( http://arxiv.org/abs/2305.04118v2 ) ライセンス: Link先を確認 | Zhiwei He, Tian Liang, Wenxiang Jiao, Zhuosheng Zhang, Yujiu Yang, Rui Wang, Zhaopeng Tu, Shuming Shi, Xing Wang | (参考訳) 大規模言語モデル(LLM)は一般的なシナリオにおいて印象的な能力を示しており、人間レベルの知性を超えている面もある。
数多くの技術の中で、LLMの翻訳能力に大きな注目を集めている。
ソースターゲットマッピングのみに焦点を当てた従来の機械翻訳とは対照的に、LLMベースの翻訳は、高品質な翻訳を保証するために多くの準備段階を必要とする人間の翻訳プロセスを模倣する可能性がある。
本研究の目的は、マルチアスペクト・プロンプトとセレクションの略であるMAPSフレームワークを提案することである。
具体的には、LLMが与えられたソーステキストをまず分析し、翻訳関連知識の3つの側面(キーワード、トピック、関連するデモ)を抽出して翻訳プロセスを導く。
ノイズと非効率な知識をフィルタリングするために,品質推定に基づく選択機構を採用する。
実験の結果、MAPSは最新のWMT22テストセットからの8つの翻訳方向において、text-davinci-003とAlpacaよりも大幅に、一貫した改善をもたらすことが示唆された。
さらに分析した結果,抽出した知識は,翻訳における幻覚的誤りの最大59%を解消するのに重要であることがわかった。
コードはhttps://github.com/zwhe99/maps-mtで入手できる。 Large language models (LLMs) have demonstrated impressive capabilities in general scenarios, exhibiting a level of aptitude that approaches, in some aspects even surpasses, human-level intelligence. Among their numerous skills, the translation abilities of LLMs have received considerable attention. In contrast to traditional machine translation that focuses solely on source-target mapping, LLM-based translation can potentially mimic the human translation process that takes many preparatory steps to ensure high-quality translation. This work aims to explore this possibility by proposing the MAPS framework, which stands for Multi-Aspect Prompting and Selection. Specifically, we enable LLMs to first analyze the given source text and extract three aspects of translation-related knowledge: keywords, topics and relevant demonstrations to guide the translation process. To filter out the noisy and unhelpful knowledge, we employ a selection mechanism based on quality estimation. Experiments suggest that MAPS brings significant and consistent improvements over text-davinci-003 and Alpaca on eight translation directions from the latest WMT22 test sets. Our further analysis shows that the extracted knowledge is critical in resolving up to 59% of hallucination mistakes in translation. Code is available at https://github.com/zwhe99/MAPS-mt. | 翻訳日:2023-06-23 17:22:20 公開日:2023-06-22 |
# エンティティマッチングにChatGPTを使用する Using ChatGPT for Entity Matching ( http://arxiv.org/abs/2305.03423v2 ) ライセンス: Link先を確認 | Ralph Peeters, Christian Bizer | (参考訳) エンティティマッチングは、2つのエンティティ記述が同じ現実世界のエンティティを指すかどうかを決定するタスクである。
最先端エンティティマッチング手法は、BERTやRoBERTaのような微調整トランスフォーマーモデルに依存することが多い。
エンティティマッチングにこれらのモデルを使用する際の2つの大きな欠点は、
(i)モデルの性能向上には大量の微調整データが必要である。
(ii) 細調整されたモデルは分布外エンティティに関して堅牢ではない。
本稿では,従来のトランスフォーマーモデルに代えて,より堅牢で訓練的なデータ効率向上のためのChatGPTについて検討する。
3次元で実験を行います
(i)一般プロンプトデザイン
(ii)文脈内学習、及び
(iii)高度なマッチング知識の提供。
我々は,ChatGPTが微調整されたRoBERTaモデルと競合し,RoBERTaが2000のトレーニング例を必要とする挑戦的マッチングタスクにおいて,82.35% F1のゼロショット性能に達することを示す。
プロンプトにコンテキスト内デモを追加することで、類似性ベースのサンプル選択を使用する場合、F1をさらに7.85%改善する。
10個の手書きのデモを常に使用すると、ゼロショットのパフォーマンスよりも4.92%向上する。
最後に,ChatGPTはプロンプトに規則の形で高レベルなマッチング知識を追加することでガイドすることもできることを示す。
マッチングルールの提供は、コンテキスト内デモの提供と同じようなパフォーマンス向上につながる。 Entity Matching is the task of deciding if two entity descriptions refer to the same real-world entity. State-of-the-art entity matching methods often rely on fine-tuning Transformer models such as BERT or RoBERTa. Two major drawbacks of using these models for entity matching are that (i) the models require significant amounts of fine-tuning data for reaching a good performance and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. In this paper, we investigate using ChatGPT for entity matching as a more robust, training data-efficient alternative to traditional Transformer models. We perform experiments along three dimensions: (i) general prompt design, (ii) in-context learning, and (iii) provision of higher-level matching knowledge. We show that ChatGPT is competitive with a fine-tuned RoBERTa model, reaching a zero-shot performance of 82.35% F1 on a challenging matching task on which RoBERTa requires 2000 training examples for reaching a similar performance. Adding in-context demonstrations to the prompts further improves the F1 by up to 7.85% when using similarity-based example selection. Always using the same set of 10 handpicked demonstrations leads to an improvement of 4.92% over the zero-shot performance. Finally, we show that ChatGPT can also be guided by adding higher-level matching knowledge in the form of rules to the prompts. Providing matching rules leads to similar performance gains as providing in-context demonstrations. | 翻訳日:2023-06-23 17:22:00 公開日:2023-06-22 |
# 知識グラフ推論のセキュリティリスクについて On the Security Risks of Knowledge Graph Reasoning ( http://arxiv.org/abs/2305.02383v2 ) ライセンス: Link先を確認 | Zhaohan Xi and Tianyu Du and Changjiang Li and Ren Pang and Shouling Ji and Xiapu Luo and Xusheng Xiao and Fenglong Ma and Ting Wang | (参考訳) 知識グラフ推論(KGR) — 大きな知識グラフ上の複雑な論理的クエリに応答する — は、さまざまなアプリケーション(サイバー脅威ハンティングなど)を含む重要な人工知能タスクである。
しかし、人気が高まっているにもかかわらず、KGRの潜在的なセキュリティリスクは、セキュリティクリティカルなドメインにおけるそのような機能の利用の増加を考えると、ほとんど解明されていない。
この作業は、衝撃的なギャップを埋める第一歩となる。
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
さらに,このような脅威をインスタンス化する,新たなタイプの攻撃であるroarも紹介する。
代表的なユースケース(例えば、医療意思決定支援、サイバー脅威ハンティング、コモンセンス推論)における経験的評価を通じて、ROARはKGRを誤解させ、ターゲットクエリに対する事前定義された回答を提案するのに非常に効果的であるが、ターゲットでないケースには無視できる影響を持つことを示した。
最後に, 有害な知識のフィルタリングや, 対向的な拡張クエリによるトレーニングなど, ROARに対する潜在的な対策を検討する。 Knowledge graph reasoning (KGR) -- answering complex logical queries over large knowledge graphs -- represents an important artificial intelligence task, entailing a range of applications (e.g., cyber threat hunting). However, despite its surging popularity, the potential security risks of KGR are largely unexplored, which is concerning, given the increasing use of such capability in security-critical domains. This work represents a solid initial step towards bridging the striking gap. We systematize the security threats to KGR according to the adversary's objectives, knowledge, and attack vectors. Further, we present ROAR, a new class of attacks that instantiate a variety of such threats. Through empirical evaluation in representative use cases (e.g., medical decision support, cyber threat hunting, and commonsense reasoning), we demonstrate that ROAR is highly effective to mislead KGR to suggest pre-defined answers for target queries, yet with negligible impact on non-target ones. Finally, we explore potential countermeasures against ROAR, including filtering of potentially poisoning knowledge and training with adversarially augmented queries, which leads to several promising research directions. | 翻訳日:2023-06-23 17:21:40 公開日:2023-06-22 |
# SweCTRL-Mini:スウェーデンにおける制御可能なテキスト生成のためのデータ透過トランスフォーマーに基づく大規模言語モデル SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish ( http://arxiv.org/abs/2304.13994v3 ) ライセンス: Link先を確認 | Dmytro Kalpakchi, Johan Boye | (参考訳) SweCTRL-Miniは,1つのコンシューマグレードGPU上での推論と微調整に使用できる,スウェーデンの大規模言語モデルである。
このモデルはKeskar, McCann, Varshney, Xiong, Socher (2019)によるCTRLアーキテクチャに基づいており、SweCTRL-Miniモデルのユーザは生成プロンプトに特別なトークンを挿入することで生成されたテキストのジャンルを制御できる。
SweCTRL-MiniはスウェーデンのmC4コーパスのサブセットとスウェーデンの小説のセットで訓練されている。
本稿では,(1)使用済みの訓練データとテキストの前処理ステップの詳細な説明,(2)特定のフレーズ/ソースが訓練データの一部であったかどうかの確認,(2)自動評価手法と生成課題を用いた判別作業におけるモデルの評価について述べる。
また,モデル生成能力とGPT-3の比較を行った。
SweCTRL-Miniは完全にオープンで、ダウンロードできる。 We present SweCTRL-Mini, a large Swedish language model that can be used for inference and fine-tuning on a single consumer-grade GPU. The model is based on the CTRL architecture by Keskar, McCann, Varshney, Xiong, and Socher (2019), which means that users of the SweCTRL-Mini model can control the genre of the generated text by inserting special tokens in the generation prompts. SweCTRL-Mini is trained on a subset of the Swedish part of the mC4 corpus and a set of Swedish novels. In this article, we provide (1) a detailed account of the utilized training data and text pre-processing steps, to the extent that it is possible to check whether a specific phrase/source was a part of the training data, and (2) an evaluation of the model on both discriminative tasks, using automatic evaluation methods, and generative tasks, using human referees. We also compare the generative capabilities of the model with those of GPT-3. SweCTRL-Mini is fully open and available for download. | 翻訳日:2023-06-23 17:21:19 公開日:2023-06-22 |
# 大規模レコメンデーションシステムにおけるオンラインバンディット探索の評価 Evaluating Online Bandit Exploration In Large-Scale Recommender System ( http://arxiv.org/abs/2304.02572v2 ) ライセンス: Link先を確認 | Hongbo Guo, Ruben Naeff, Alex Nikulkov, Zheqing Zhu | (参考訳) バンディット学習はレコメンダシステムのためのデザイン選択として人気が高まっている。
コミュニティからのバンディット学習への強い関心にもかかわらず、多くのバンディット学習アプローチが生産化を妨げている複数のボトルネックが残っている。
ひとつの大きなボトルネックは、公正でデータ漏洩のないbanditアルゴリズムの有効性をテストする方法である。
教師付き学習アルゴリズムとは異なり、バンディット学習アルゴリズムは探索的性質を通じてデータ収集プロセスに重点を置いている。
このような探索的行動は、古典的なa/bテスト設定において不公平な評価を引き起こす可能性がある。
本研究では,我々の大規模ショートビデオレコメンデータシステムに対して,uper confidence bound(ucb)を適用し,新しいメトリクスセットを用いた生産バンディット学習ライフサイクルのためのテストフレームワークを提案する。
広範な実験結果から,実験設計は推薦システムにおけるバンディット学習の性能を十分に評価できることがわかった。 Bandit learning has been an increasingly popular design choice for recommender system. Despite the strong interest in bandit learning from the community, there remains multiple bottlenecks that prevent many bandit learning approaches from productionalization. One major bottleneck is how to test the effectiveness of bandit algorithm with fairness and without data leakage. Different from supervised learning algorithms, bandit learning algorithms emphasize greatly on the data collection process through their explorative nature. Such explorative behavior may induce unfair evaluation in a classic A/B test setting. In this work, we apply upper confidence bound (UCB) to our large scale short video recommender system and present a test framework for the production bandit learning life-cycle with a new set of metrics. Extensive experiment results show that our experiment design is able to fairly evaluate the performance of bandit learning in the recommender system. | 翻訳日:2023-06-23 17:20:57 公開日:2023-06-22 |
# 実生活エネルギー取引戦略の最適化のためのオンライン強化学習 On-line reinforcement learning for optimization of real-life energy trading strategy ( http://arxiv.org/abs/2303.16266v2 ) ライセンス: Link先を確認 | {\L}ukasz Lepak and Pawe{\l} Wawrzy\'nski | (参考訳) 多くの小規模生産者によって再生可能エネルギー源からエネルギーのシェアが増大している。
これらの源の効率は不安定であり、ある程度ランダムにエネルギー市場のバランスの問題を悪化させる。
多くの国では、このバランスはデイアヘッド(DA)エネルギー市場で行われる。
本稿では,中規模プロシューマーによるDAエネルギー市場における自動取引について考察する。
我々は、この活動をマルコフ決定プロセスとしてモデル化し、実際の戦略に適用可能なフレームワークをオフラインデータで最適化する。
我々は,天気予報を含む将来の価格に影響を及ぼす可能性のある,利用可能な環境情報を提供する貿易戦略を設計する。
我々はこの戦略を最適化するために最先端強化学習(RL)アルゴリズムを用いる。
比較のために、単純なパラメトリック取引戦略を合成し、進化的アルゴリズムで最適化する。
その結果、当社のRLベースの戦略が市場利益が最も高いことを示唆している。 An increasing share of energy is produced from renewable sources by many small producers. The efficiency of those sources is volatile and, to some extent, random, exacerbating the problem of energy market balancing. In many countries, this balancing is done on the day-ahead (DA) energy markets. This paper considers automated trading on the DA energy market by a medium size prosumer. We model this activity as a Markov Decision Process and formalize a framework in which an applicable in real-life strategy can be optimized with off-line data. We design a trading strategy that is fed with the available environmental information that can impact future prices, including weather forecasts. We use state-of-the-art reinforcement learning (RL) algorithms to optimize this strategy. For comparison, we also synthesize a simple parametric trading strategy and optimize it with an evolutionary algorithm. Results show that our RL-based strategy generates the highest market profits. | 翻訳日:2023-06-23 17:20:43 公開日:2023-06-22 |
# SU(2)プラケット鎖上の非アベリアゲージ理論 : 固有状態熱化仮説 SU(2) Non-Abelian Gauge Theory on a Plaquette Chain Obeys Eigenstate Thermalization Hypothesis ( http://arxiv.org/abs/2303.14264v2 ) ライセンス: Link先を確認 | Xiaojun Yao | (参考訳) 2+1次元su(2)格子ゲージ理論の固有状態熱化仮説(eth)をテストする。
プラケットの連鎖の理論と、リンク変数の基底状態が$j=1/2$であることを考えると、局所相互作用を持つ量子スピン鎖にそれを写像し、合理的に大きな格子サイズのハミルトニアンを数値的に対角化することができる。
運動量セクターのエネルギー準位は、残りの離散対称性を持たない。
我々はWilsonループからなる局所観測器を2つ研究し、ETHと整合性を示すエネルギー固有基底の行列要素を計算した。 We test the eigenstate thermalization hypothesis (ETH) for 2+1 dimensional SU(2) lattice gauge theory. By considering the theory on a chain of plaquettes and truncating basis states for link variables at $j=1/2$, we can map it onto a quantum spin chain with local interactions and numerically exactly diagonalize the Hamiltonian for reasonably large lattice sizes. We find energy level repulsion in momentum sectors with no remaining discrete symmetry. We study two local observables made up of Wilson loops and calculate their matrix elements in the energy eigenbasis, which are shown consistent with the ETH. | 翻訳日:2023-06-23 17:20:30 公開日:2023-06-22 |
# qudit量子力学のフレーム表現 Frame representations of qudit quantum mechanics ( http://arxiv.org/abs/2305.19287v2 ) ライセンス: Link先を確認 | Nicolae Cotfas | (参考訳) すべての線型作用素 A:H -- > H の空間 L(H) は複素ヒルベルト空間であり、すべての自己随伴作用素 A:H -- > H の空間 A(H) は実ヒルベルト空間である。
キューディット量子力学の通常の離散位相空間の定式化は、ある直交基底を用いて L(H) と A(H) の記述に基づいている。
オルタナティブな定式化は直交基底の代わりにタイトフレームを用いて得られることを示し,qubit と qutrit に関するいくつかの例を示す。 A qudit is a quantum system described by a d-dimensional complex Hilbert space H. The space L(H) of all the linear operators A:H -- > H is a complex Hilbert space, and the space A(H) of all the self-adjoint operators A:H -- > H is a real Hilbert space. The usual discrete phase-space formulation of qudit quantum mechanics is based on the description of L(H) and A(H) by using certain orthogonal bases. We show that some alternative formulations can be obtained by using tight frames instead of orthogonal bases, and present some examples concerning the qubit and qutrit. | 翻訳日:2023-06-23 17:14:32 公開日:2023-06-22 |
# BLIP拡散:制御可能なテキスト・画像生成・編集のための事前学習対象表現 BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing ( http://arxiv.org/abs/2305.14720v2 ) ライセンス: Link先を確認 | Dongxu Li, Junnan Li, Steven C.H. Hoi | (参考訳) 主題駆動テキストから画像への生成モデルは、テキストプロンプトに基づいて、入力対象の新しいランディションを生成する。
既存のモデルは長い微調整に苦しめられ、主題の忠実さを保つのが困難である。
これらの制約を克服するために,対象画像とテキストプロンプトの入力を消費するマルチモーダル制御をサポートする新たな対象駆動画像生成モデルBLIP-Diffusionを導入する。
他の主題駆動生成モデルとは異なり、blip-diffusionは新しいマルチモーダルエンコーダを導入している。
まず、BLIP-2に従ってマルチモーダルエンコーダを事前学習し、テキストに沿った視覚表現を生成する。
そこで我々は,そのような視覚的表現を拡散モデルで活用し,新たな主題の活用を可能にする主観表現学習タスクを設計する。
dreamboothのような従来の方法と比較して,本モデルでは最大20倍のスピードアップを実現することで,ゼロショットの主題駆動生成と効率的な微調整が可能となる。
また, BLIP-Diffusion と ControlNet や prompt-to-prompt といった既存の手法を柔軟に組み合わせることで, 新規な主題駆動型生成・編集アプリケーションを実現できることを示す。
コードとモデルはhttps://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusionでリリースされる。
プロジェクトページ: https://dxli94.github.io/blip-diffusion-website/ Subject-driven text-to-image generation models create novel renditions of an input subject based on text prompts. Existing models suffer from lengthy fine-tuning and difficulties preserving the subject fidelity. To overcome these limitations, we introduce BLIP-Diffusion, a new subject-driven image generation model that supports multimodal control which consumes inputs of subject images and text prompts. Unlike other subject-driven generation models, BLIP-Diffusion introduces a new multimodal encoder which is pre-trained to provide subject representation. We first pre-train the multimodal encoder following BLIP-2 to produce visual representation aligned with the text. Then we design a subject representation learning task which enables a diffusion model to leverage such visual representation and generates new subject renditions. Compared with previous methods such as DreamBooth, our model enables zero-shot subject-driven generation, and efficient fine-tuning for customized subject with up to 20x speedup. We also demonstrate that BLIP-Diffusion can be flexibly combined with existing techniques such as ControlNet and prompt-to-prompt to enable novel subject-driven generation and editing applications. Code and models will be released at https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion. Project page at https://dxli94.github.io/BLIP-Diffusion-website/. | 翻訳日:2023-06-23 17:13:45 公開日:2023-06-22 |
# 化合物相互接続によるマルチbvoc超解像化 Multi-BVOC Super-Resolution Exploiting Compounds Inter-Connection ( http://arxiv.org/abs/2305.14180v3 ) ライセンス: Link先を確認 | Antonio Giganti, Sara Mandelli, Paolo Bestagini, Marco Marcon, Stefano Tubaro | (参考訳) 地球の大気中に地球生態系から放出される生体揮発性有機化合物(BVOC)は大気化学の重要な構成要素である。
測定が不十分なため、BVOCの放射マップの信頼性の向上は、大気化学、気候、大気質のモデルにより密集したデータを提供するのに役立つ。
本研究では, 異なる化合物の寄与を同時に活用し, 粗bvoc排出マップの超解法を提案する。
そこで本研究ではまず,複数のBVOC種間の空間的相互接続を正確に検討する。
そこで,この類似性を生かして,多次元超解像 (misr) システムを構築し,多種多様な化合物に関連したエミッションマップを集約し,超解像 (sr) 性能を向上させる。
種と結合するBVOCの数について異なる構成を比較した。
実験の結果, BVOCsの関係をプロセスに組み込むことで, 超解写像の精度を大幅に向上できることがわかった。
興味深いことに、強い非相関化合物の放出マップを集約すると、最良の結果が得られる。
この特異性は、他のデータドメイン、すなわち結合された非相関情報は、misrのパフォーマンスを高めるために相関した情報よりも有用である。
それでも、提案された研究は、複数の異なる化合物の融合によるbvoc排出の最初の試みである。 Biogenic Volatile Organic Compounds (BVOCs) emitted from the terrestrial ecosystem into the Earth's atmosphere are an important component of atmospheric chemistry. Due to the scarcity of measurement, a reliable enhancement of BVOCs emission maps can aid in providing denser data for atmospheric chemical, climate, and air quality models. In this work, we propose a strategy to super-resolve coarse BVOC emission maps by simultaneously exploiting the contributions of different compounds. To this purpose, we first accurately investigate the spatial inter-connections between several BVOC species. Then, we exploit the found similarities to build a Multi-Image Super-Resolution (MISR) system, in which a number of emission maps associated with diverse compounds are aggregated to boost Super-Resolution (SR) performance. We compare different configurations regarding the species and the number of joined BVOCs. Our experimental results show that incorporating BVOCs' relationship into the process can substantially improve the accuracy of the super-resolved maps. Interestingly, the best results are achieved when we aggregate the emission maps of strongly uncorrelated compounds. This peculiarity seems to confirm what was already guessed for other data-domains, i.e., joined uncorrelated information are more helpful than correlated ones to boost MISR performance. Nonetheless, the proposed work represents the first attempt in SR of BVOC emissions through the fusion of multiple different compounds. | 翻訳日:2023-06-23 17:13:09 公開日:2023-06-22 |
# ToolkenGPT: ツール埋め込みによる大量ツールによる凍結言語モデルの拡張 ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings ( http://arxiv.org/abs/2305.11554v2 ) ライセンス: Link先を確認 | Shibo Hao, Tianyang Liu, Zhen Wang, Zhiting Hu | (参考訳) 言語モデル(LLM)を外部ツールで拡張することは、複雑な問題を解決するための有望なアプローチとして現れている。
しかし、ツールのデモデータでLSMを微調整する従来の手法は、コストと事前定義されたツールセットに制限される可能性がある。
最近のインコンテキスト学習パラダイムはこれらの問題を緩和するが、制限されたコンテキスト長はいくつかのデモのみを可能にし、ツールの最適下理解につながる。
さらに、多くのツールが選択できる場合、コンテキスト内学習は完全に機能しない可能性がある。
本稿では,両面の利点を組み合わせた代替手法として$\textbf{ToolkenGPT}$を提案する。
我々のアプローチは、各$\underline{tool}$をto$\underline{ken}$ ($\textit{toolken}$)として表現し、埋め込みを学習し、通常のワードトークンを生成するのと同じようにツール呼び出しを可能にする。
ツールケンが起動されると、LSMはツールの実行のための引数を完了するように促される。
toolkengptは、ツールケンのセットをオンザフライで拡大することで、任意の数のツールをプラグインする柔軟性を提供します。
さらに、ツールケン埋め込みを学習するための広範なデモデータを提供することで、ツール使用を改善する。
数値推論,知識に基づく質問応答,具体化計画生成など,多様な領域において,我々のアプローチはLLMをツールで効果的に強化し,最新のベースラインを大幅に上回っている。
ToolkenGPTは、複雑なシナリオにおいて、大きなツールセットから関連するツールを使用する有望な能力を示す。 Augmenting large language models (LLMs) with external tools has emerged as a promising approach to solving complex problems. However, traditional methods, which finetune LLMs with tool demonstration data, can be both costly and restricted to a predefined set of tools. Recent in-context learning paradigm alleviates these issues, but the limited context length only allows for a few shots of demonstrations, leading to suboptimal understandings of the tools. Moreover, when there are numerous tools to choose from, in-context learning could completely fail to work. In this paper, we propose an alternative approach, $\textbf{ToolkenGPT}$, which combines the benefits of both sides. Our approach represents each $\underline{tool}$ as a to$\underline{ken}$ ($\textit{toolken}$) and learns an embedding for it, enabling tool calls in the same way as generating a regular word token. Once a toolken is triggered, the LLM is prompted to complete arguments for the tool to execute. ToolkenGPT offers the flexibility to plug in an arbitrary number of tools by expanding the set of toolkens on the fly. In addition, it improves tool use by allowing extensive demonstration data for learning the toolken embeddings. In diverse domains, including numerical reasoning, knowledge-based question answering, and embodied plan generation, our approach effectively augments LLMs with tools and substantially outperforms various latest baselines. ToolkenGPT demonstrates the promising ability to use relevant tools from a large tool set in complex scenarios. | 翻訳日:2023-06-23 17:12:47 公開日:2023-06-22 |
# CosmoPower-JAX:微分可能な宇宙エミュレータを用いた高次元ベイズ推定 CosmoPower-JAX: high-dimensional Bayesian inference with differentiable cosmological emulators ( http://arxiv.org/abs/2305.06347v2 ) ライセンス: Link先を確認 | D. Piras and A. Spurio Mancini | (参考訳) 宇宙パワースペクトルのニューラルエミュレータを構築することで、宇宙論的推論を加速する、JAXベースのCosmoPower-JAXを提案する。
本稿では,jaxの自動微分,バッチ評価,ジャスト・イン・タイムコンパイル機能を用い,gpu(graphics processing unit)上で推論パイプラインを実行することで,高度勾配に基づくサンプリング手法を用いてパラメータ推定を桁違いに高速化できることを示す。
これらは次世代の宇宙探査の分析に必要とされるような高次元のパラメータ空間を効率的に探索するのに使うことができる。
シミュレーションステージIVにおけるCosmoPower-JAXの精度と計算効率について述べる。
まず,37のモデルパラメータを包含する宇宙せん断解析を行う1つの調査について考察した。
また,CosmoPower-JAXとハミルトニアンのモンテカルロ試料から得られた輪郭を,ネストしたスライダとエミュレータを使わずに評価し,速度向上係数を$\mathcal{O}(10^3)$とした。
次に、3つのステージivの観測結果を組み合わせて、合計157のモデルパラメータを用いて、それぞれが宇宙せん断と銀河クラスタリング(3x2pt)の合同分析を行う。
このような高次元のパラメータ空間であっても、CosmoPower-JAXは標準法で求められる6年間とは対照的に、収束した後部輪郭を3日間で提供する。
cosmopower-jaxはpythonで完全に書かれており、次世代のサーベイで設定された精度要件を宇宙社会が満たすのに役立つように公開しています。 We present CosmoPower-JAX, a JAX-based implementation of the CosmoPower framework, which accelerates cosmological inference by building neural emulators of cosmological power spectra. We show how, using the automatic differentiation, batch evaluation and just-in-time compilation features of JAX, and running the inference pipeline on graphics processing units (GPUs), parameter estimation can be accelerated by orders of magnitude with advanced gradient-based sampling techniques. These can be used to efficiently explore high-dimensional parameter spaces, such as those needed for the analysis of next-generation cosmological surveys. We showcase the accuracy and computational efficiency of CosmoPower-JAX on two simulated Stage IV configurations. We first consider a single survey performing a cosmic shear analysis totalling 37 model parameters. We validate the contours derived with CosmoPower-JAX and a Hamiltonian Monte Carlo sampler against those derived with a nested sampler and without emulators, obtaining a speed-up factor of $\mathcal{O}(10^3)$. We then consider a combination of three Stage IV surveys, each performing a joint cosmic shear and galaxy clustering (3x2pt) analysis, for a total of 157 model parameters. Even with such a high-dimensional parameter space, CosmoPower-JAX provides converged posterior contours in 3 days, as opposed to the estimated 6 years required by standard methods. CosmoPower-JAX is fully written in Python, and we make it publicly available to help the cosmological community meet the accuracy requirements set by next-generation surveys. | 翻訳日:2023-06-23 17:12:18 公開日:2023-06-22 |
# 変圧器言語モデルの性能に及ぼすサブワードセグメンテーションの影響の検討 Investigating the effect of sub-word segmentation on the performance of transformer language models ( http://arxiv.org/abs/2305.05480v2 ) ライセンス: Link先を確認 | Jue Hou, Anisia Katinskaia, Anh-Duc Vu and Roman Yangarber | (参考訳) 形態素が言語モデルの性能にどのように影響するかを探求したい。
我々はフィンランド語とロシア語の両方に対してStateMorphを用いてGPT-2とBertモデルを訓練した。
比較として,BPEとMorfessorを用いてモデルを訓練した。
予備的な結果は、StateMorphがモデルをより効率的に収束させ、より良い検証スコアを得るのに役立つことを示している。 We would like to explore how morphemes can affect the performance of a language model. We trained GPT-2 and Bert model with StateMorph for both Finnish and Russian, which is a morpheme segmenting algorithm. As a comparison, we also trained a model with BPE and Morfessor. Our preliminary result shows that StateMorph can help the model to converge more efficiently and achieve a better validation score. | 翻訳日:2023-06-23 17:11:45 公開日:2023-06-22 |
# Seq2seqモデルのトークンレベルフィッティング問題 Token-Level Fitting Issues of Seq2seq Models ( http://arxiv.org/abs/2305.04493v2 ) ライセンス: Link先を確認 | Guangsheng Bao, Zhiyang Teng, Yue Zhang | (参考訳) sequence-to-sequence(seq2seq)モデルは、自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。
早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。
特に、語彙のいくつかのトークンが過剰適合を示す一方で、トレーニングが停止された場合に不適合なトークンもある。
実験により、この現象は、微調整された大きな事前訓練モデルであっても、異なるモデルで広まることが示された。
トークンレベルの適合性に影響を与える3つの主要な要因を明らかにする。
さらに,言語やモデルサイズ,ドメイン,データスケール,事前トレーニングといった外部要因もトークンの適合性に影響を与える可能性がある。 Sequence-to-sequence (seq2seq) models have been widely used for natural language processing, computer vision, and other deep learning tasks. We find that seq2seq models trained with early-stopping suffer from issues at the token level. In particular, while some tokens in the vocabulary demonstrate overfitting, others underfit when training is stopped. Experiments show that the phenomena are pervasive in different models, even in fine-tuned large pretrained-models. We identify three major factors that influence token-level fitting, which include token frequency, parts-of-speech, and prediction discrepancy. Further, we find that external factors such as language, model size, domain, data scale, and pretraining can also influence the fitting of tokens. | 翻訳日:2023-06-23 17:11:38 公開日:2023-06-22 |
# RANS-PINNを用いた乱流予測シミュレーション RANS-PINN based Simulation Surrogates for Predicting Turbulent Flows ( http://arxiv.org/abs/2306.06034v2 ) ライセンス: Link先を確認 | Shinjan Ghosh, Amit Chakraborty, Georgia Olympia Brikis, Biswadip Dey | (参考訳) 物理情報ニューラルネットワーク(PINN)は、微分方程式によって支配される力学系の代理モデルを構築するためのフレームワークを提供する。
学習過程の間、ピンズは一般化性能を高めるために損失関数に物理ベースの正規化項を組み込む。
偏微分方程式(PDE)によって制御される力学のシミュレーションは計算コストがかかるため、PINNはナヴィエ・ストークス方程式が支配する流体問題に対するパラメトリックサロゲートの学習に人気がある。
本研究では,高レイノルズ数乱流状態における流れ場(速度と圧力)を予測するために,改良されたPINNフレームワークであるRANS-PINNを紹介する。
乱流によってもたらされるさらなる複雑さを考慮するため、RANS-PINNはレイノルズ平均ナビエ・ストークス(RANS)の定式化に基づく2方程式渦粘性モデルを採用している。
さらに,損失関数の各種成分間の効果的な初期化とバランスを確保するための新しい訓練手法を採用する。
次に、パラメトリックPINNを用いてRANS-PINNフレームワークの有効性を示す。 Physics-informed neural networks (PINNs) provide a framework to build surrogate models for dynamical systems governed by differential equations. During the learning process, PINNs incorporate a physics-based regularization term within the loss function to enhance generalization performance. Since simulating dynamics controlled by partial differential equations (PDEs) can be computationally expensive, PINNs have gained popularity in learning parametric surrogates for fluid flow problems governed by Navier-Stokes equations. In this work, we introduce RANS-PINN, a modified PINN framework, to predict flow fields (i.e., velocity and pressure) in high Reynolds number turbulent flow regime. To account for the additional complexity introduced by turbulence, RANS-PINN employs a 2-equation eddy viscosity model based on a Reynolds-averaged Navier-Stokes (RANS) formulation. Furthermore, we adopt a novel training approach that ensures effective initialization and balance among the various components of the loss function. The effectiveness of RANS-PINN framework is then demonstrated using a parametric PINN. | 翻訳日:2023-06-23 17:03:51 公開日:2023-06-22 |
# 実測による自己解釈可能な時系列予測 Self-Interpretable Time Series Prediction with Counterfactual Explanations ( http://arxiv.org/abs/2306.06024v3 ) ライセンス: Link先を確認 | Jingquan Yan, Hao Wang | (参考訳) 解釈可能な時系列予測は、医療や自動運転のような安全クリティカルな分野に不可欠である。
既存の手法の多くは、重要なスコアを時系列のセグメントに割り当てることで予測を解釈することに集中している。
本稿では,時間列予測のための非現実的かつ実用的な説明を生成する,CounTS(Counfactual Time Series)と呼ばれる自己解釈可能なモデルの開発を目指す。
具体的には,時系列の反事実的説明の問題を定式化し,関連する評価プロトコルを定式化し,時系列推論,行動,予測の反事実的推論能力を備えた変分ベイズ深層学習モデルを提案する。
最先端のベースラインと比較して、我々の自己解釈可能なモデルは、同等の予測精度を維持しながら、より優れた対実的説明を生成することができる。 Interpretable time series prediction is crucial for safety-critical areas such as healthcare and autonomous driving. Most existing methods focus on interpreting predictions by assigning important scores to segments of time series. In this paper, we take a different and more challenging route and aim at developing a self-interpretable model, dubbed Counterfactual Time Series (CounTS), which generates counterfactual and actionable explanations for time series predictions. Specifically, we formalize the problem of time series counterfactual explanations, establish associated evaluation protocols, and propose a variational Bayesian deep learning model equipped with counterfactual inference capability of time series abduction, action, and prediction. Compared with state-of-the-art baselines, our self-interpretable model can generate better counterfactual explanations while maintaining comparable prediction accuracy. | 翻訳日:2023-06-23 17:03:30 公開日:2023-06-22 |
# 共振強結合による空洞誘起分子偏極機構の解明 Unraveling a cavity induced molecular polarization mechanism from collective vibrational strong coupling ( http://arxiv.org/abs/2306.06004v2 ) ライセンス: Link先を確認 | Dominik Sidler, Thomas Schnappinger, Anatoly Obzhirov, Michael Ruggenthaler, Markus Kowalewski, Angel Rubio | (参考訳) 熱平衡における分子の集合振動強い結合は、熱力学的限界において大きな局所的な電子偏光効果をもたらすことを実証する。
希薄ガス限界における強結合分子のアンサンブルの完全非相対論的パウリ・フィエルツ問題(英語版)は、キャビティ-ハートリー方程式へのボルン・オッペンハイマー近似において減少することを示した。
その結果、各分子は他の全ての分子の双極子と自己整合結合を経験する。
熱力学的限界において、全ての分子双極子の和はマクロ偏極場を構成し、自己整合性はその不均一な顕微鏡成分の微妙なバックアクションを説明できる。
ここで導かれたキャビティ-ハートリー方程式は、ab-initio分子動力学設定における計算効率の高い実装を可能にする。
緩やかに回転するモデル分子のランダムに配向したアンサンブルでは、実験と一致した偏光場によるキャビティ共鳴の赤方シフトを観測する。
次に、局所偏光に対するバックアクションは熱力学的極限において無視できない値となり、従って集団振動の強いカップリングは個々の分子特性を局所的に変化させることができることを示した。
しかし、室温が無秩序を誘発せず、局所偏光効果が希薄な限界に存在しない原子アンサンブルの場合、これはそうではない。
以上の結果から, 化学反応の修飾等, 偏光化学の徹底的な理解にはキャビティ誘起偏光に対する自己整合的な処理が必要であり, 変位場効果に対する通常適用される制限は不十分である可能性が示唆された。 We demonstrate that collective vibrational strong coupling of molecules in thermal equilibrium can give rise to significant local electronic polarization effects in the thermodynamic limit. We do so by first showing that the full non-relativistic Pauli-Fierz problem of an ensemble of strongly-coupled molecules in the dilute-gas limit reduces in the cavity Born-Oppenheimer approximation to a cavity-Hartree equation. Consequently, each molecule experiences a self-consistent coupling to the dipoles of all other molecules. In the thermodynamic limit, the sum of all molecular dipoles constitutes the macroscopic polarization field and the self-consistency then accounts for the delicate back-action on its heterogeneous microscopic constituents. The here derived cavity-Hartree equations allow for a computationally efficient implementation in an ab-initio molecular dynamics setting. For a randomly oriented ensemble of slowly rotating model molecules, we observe a red shift of the cavity resonance due to the polarization field, which is in agreement with experiments. We then demonstrate that the back-action on the local polarization takes a non-negligible value in the thermodynamic limit and hence the collective vibrational strong coupling can modify individual molecular properties locally. This is not the case, however, for atomic ensembles, where room temperature does not induce any disorder and local polarization effects are absent in the dilute limit. Our findings suggest that the thorough understanding of polaritonic chemistry, such as the modification of chemical reactions, requires self-consistent treatment of the cavity induced polarization and the usually applied restrictions to the displacement field effects may be insufficient. | 翻訳日:2023-06-23 17:03:17 公開日:2023-06-22 |
# ヘビー学習ネットワークにおけるアクティブ推論 Active Inference in Hebbian Learning Networks ( http://arxiv.org/abs/2306.05053v2 ) ライセンス: Link先を確認 | Ali Safa, Tim Verbelen, Lars Keuninckx, Ilja Ocket, Andr\'e Bourdoux, Francky Catthoor, Georges Gielen, Gert Cauwenberghs | (参考訳) 本研究は、局所的なヒュービアン可塑性を有する脳にインスパイアされた神経アンサンブルが、動的エージェントを制御するためにアクティブ推論(aif)を行う方法について研究する。
環境力学をキャプチャする生成モデルは、2つの異なるヘビーアンアンサンブルからなるネットワークによって学習される: 観測された潜在状態を推論する後続のネットワークと、現在の状態-作用ペアが与えられた次の予測潜在状態を予測する状態遷移ネットワークである。
openai gym suiteのマウンテンカー環境を用いた実験を行い,様々なヘビーネットワークパラメータがタスク性能に及ぼす影響について検討した。
提案したHebbian AIFアプローチは,従来の強化学習システムのように,リプレイバッファを必要としないQ-ラーニングよりも優れていた。
これらの結果は,過去のバッファリング経験を再考することなく環境力学を学習できるAIFネットワークの設計において,ヘビアン学習のさらなる研究を動機付けている。 This work studies how brain-inspired neural ensembles equipped with local Hebbian plasticity can perform active inference (AIF) in order to control dynamical agents. A generative model capturing the environment dynamics is learned by a network composed of two distinct Hebbian ensembles: a posterior network, which infers latent states given the observations, and a state transition network, which predicts the next expected latent state given current state-action pairs. Experimental studies are conducted using the Mountain Car environment from the OpenAI gym suite, to study the effect of the various Hebbian network parameters on the task performance. It is shown that the proposed Hebbian AIF approach outperforms the use of Q-learning, while not requiring any replay buffer, as in typical reinforcement learning systems. These results motivate further investigations of Hebbian learning for the design of AIF networks that can learn environment dynamics without the need for revisiting past buffered experiences. | 翻訳日:2023-06-23 17:02:51 公開日:2023-06-22 |
# Mixed-TD: 層状テンソル分解を用いた高効率ニューラルネットワーク加速器 Mixed-TD: Efficient Neural Network Accelerator with Layer-Specific Tensor Decomposition ( http://arxiv.org/abs/2306.05021v2 ) ライセンス: Link先を確認 | Zhewen Yu, Christos-Savvas Bouganis | (参考訳) ニューラルネットワークの設計は、VGGスタイルからResNetスタイル、畳み込みニューラルネットワークからトランスフォーマーまで、非常に多様である。
効率的な加速器の設計に向けて、多くの作品はデータフローベースの層間パイプラインアーキテクチャを採用し、各層にカスタマイズされたハードウェアを備え、超高スループットと低レイテンシを実現している。
このようなデータフローアーキテクチャアクセラレータへのニューラルネットワークのデプロイは、システムパフォーマンスを最大化するためにニューラルネットワークの重みをオンチップにプリロードすることが望ましいため、利用可能なオンチップメモリによって妨げられる。
これに対処するために、ネットワークは通常、プルーニング、量子化、テンソル分解などの手法によって展開前に圧縮される。
本論文では,mixed-tdと呼ばれる新しいテンソル分解法に基づいて,cnnをfpgaにマッピングする枠組みを提案する。
提案手法は,DSP毎の1.73倍から10.29倍のスループットを最先端CNNに適用し,層固有特異値分解(SVD)とカノニカルポリアディック分解(CPD)を混合的に適用する。
私たちの作業はオープンソースです。 https://github.com/Yu-Zhewen/Mixed-TD Neural Network designs are quite diverse, from VGG-style to ResNet-style, and from Convolutional Neural Networks to Transformers. Towards the design of efficient accelerators, many works have adopted a dataflow-based, inter-layer pipelined architecture, with a customised hardware towards each layer, achieving ultra high throughput and low latency. The deployment of neural networks to such dataflow architecture accelerators is usually hindered by the available on-chip memory as it is desirable to preload the weights of neural networks on-chip to maximise the system performance. To address this, networks are usually compressed before the deployment through methods such as pruning, quantization and tensor decomposition. In this paper, a framework for mapping CNNs onto FPGAs based on a novel tensor decomposition method called Mixed-TD is proposed. The proposed method applies layer-specific Singular Value Decomposition (SVD) and Canonical Polyadic Decomposition (CPD) in a mixed manner, achieving 1.73x to 10.29x throughput per DSP to state-of-the-art CNNs. Our work is open-sourced: https://github.com/Yu-Zhewen/Mixed-TD | 翻訳日:2023-06-23 17:02:36 公開日:2023-06-22 |
# 集合論と多くの世界 Set Theory and Many Worlds ( http://arxiv.org/abs/2306.03583v2 ) ライセンス: Link先を確認 | Paul Tappenden | (参考訳) 2022年のテルアビブの量子力学の多世界解釈に関する会議は、理論家の間で多くの違いを浮き彫りにした。
非常に重要な二分法は、エベレットの分裂(分裂)とサンダース=ウォレス=ウィルソンの分岐である。
フィッションの場合、観測者は複数の未来を持つが、発散の場合は常に単一の未来を持つ。
発散はエベレット理論における測定前の不確実性(英語版)の問題を解決するために明示的に導入された。
ここでは、客観的確率がエベレット枝の性質である限り、核分裂以前の将来の観測には確かに不確実性がある。
これは宇宙が集合であり、分枝が確率測度を持つ部分集合であるときに可能となる。
宇宙は、マクロ的に同型であり、顕微鏡的な局所的なbe\"可能な全ての構成にまたがる宇宙の集合である。
客観的確率が分枝の性質であるならば、成功したドイッチュ=ウォレス決定理論の議論は主原理を正当化し、多くの世界特有のものではなく確率論の一部となる。
環境中のあらゆるマクロな物体は、異なる微視的な構成を持つアイソモルフィックの集合となり、それぞれが要素宇宙(集合論的な意味での要素)にある。
これは多くの相互作用世界理論に類似しているが、観察者は個々の世界ではなく世界の集合に居住している。
オブザーバーには多くの元素体があります。 The 2022 Tel Aviv conference on the Many Worlds interpretation of quantum mechanics highlighted many differences between theorists. A very significant dichotomy is between Everettian fission (splitting) and Saunders-Wallace-Wilson divergence. For fission, an observer may have multiple futures, whereas for divergence they always have a single future. Divergence was explicitly introduced to resolve the problem of pre-measurement uncertainty for Everettian theory, which is universally believed to be absent for fission. Here, I maintain that there is indeed uncertainty about future observations prior to fission, so long as objective probability is a property of Everettian branches. This is made possible if the universe is a set and branches are subsets with probability measure. A universe which is a set of universes which are macroscopically isomorphic and span all possible configurations of microscopic local be\"ables fulfils that role. If objective probability is a property of branches, a successful Deutsch-Wallace decision-theoretic argument would justify the Principal Principle and be part of probability theory rather than being specific to Many Worlds. Any macroscopic object in our environment becomes a set of isomorphs with different microscopic configurations, each in an elemental universe (elemental in the set-theoretic sense). This is similar to Many Interacting Worlds theory but the observer inhabits the set of worlds, not an individual world. An observer has many elemental bodies. | 翻訳日:2023-06-23 17:02:12 公開日:2023-06-22 |
# ラベルなしデータに基づく雑音判断のためのストリーミングアルゴリズム -バイナリ分類 Streaming algorithms for evaluating noisy judges on unlabeled data -- binary classification ( http://arxiv.org/abs/2306.01726v2 ) ライセンス: Link先を確認 | Andr\'es Corrada-Emmanuel | (参考訳) ラベル付けされていないデータに対するノイズの多いバイナリ分類器の評価はストリーミングタスクとして扱われる: アンサンブルによる決定のデータのスケッチを与えられた場合、ラベルの真価と各分類器の精度を推定する。
2つの完全に代数的な評価器が構築されている。
どちらも、分類器が独立した誤りを犯すという仮定に基づいている。
1つ目は多数決による投票である。
論文の主な貢献である2番目は、正しいことが保証されている。
しかし、どのようなテストで分類器が独立であることをどうやって知るのか?
このプリンシパル/エージェント監視パラドックスは、独立評価器の故障を利用して、合理的な見積を返すことで改善される。
ほぼエラーのない三重項の探索は、代数的故障モードを用いて、不相関な評価アンサンブルを拒絶することで、 \texttt{adult}, \texttt{mushroom}, \texttt{two-norm}データセット上で経験的に実行される。
真の値点を含む評価空間の表面を構築することにより、検索を洗練する。
任意の相関変数を含まない多項式部分集合の選択を任意の相関型分類器の代数は許す。
候補評価アンサンブルは、データスケッチが構築面から遠すぎる独立した推定値を生成する場合、拒否される。
生き残ったアンサンブルが生み出す結果は、時には1\%にも達することがある。
しかし、少量の相関を扱うことは依然として困難である。
独立性が仮定されるときに生成される推定値のテイラー展開は、実際、分類器はわずかに相関しており、独立評価器が代数的「盲点」を持つかを明らかにするのに役立つ。 The evaluation of noisy binary classifiers on unlabeled data is treated as a streaming task: given a data sketch of the decisions by an ensemble, estimate the true prevalence of the labels as well as each classifier's accuracy on them. Two fully algebraic evaluators are constructed to do this. Both are based on the assumption that the classifiers make independent errors. The first is based on majority voting. The second, the main contribution of the paper, is guaranteed to be correct. But how do we know the classifiers are independent on any given test? This principal/agent monitoring paradox is ameliorated by exploiting the failures of the independent evaluator to return sensible estimates. A search for nearly error independent trios is empirically carried out on the \texttt{adult}, \texttt{mushroom}, and \texttt{two-norm} datasets by using the algebraic failure modes to reject evaluation ensembles as too correlated. The searches are refined by constructing a surface in evaluation space that contains the true value point. The algebra of arbitrarily correlated classifiers permits the selection of a polynomial subset free of any correlation variables. Candidate evaluation ensembles are rejected if their data sketches produce independent estimates too far from the constructed surface. The results produced by the surviving ensembles can sometimes be as good as 1\%. But handling even small amounts of correlation remains a challenge. A Taylor expansion of the estimates produced when independence is assumed but the classifiers are, in fact, slightly correlated helps clarify how the independent evaluator has algebraic `blind spots'. | 翻訳日:2023-06-23 17:01:33 公開日:2023-06-22 |
# マスク事前モデリングによる拡散セマンティクスの分節化 Denoising Diffusion Semantic Segmentation with Mask Prior Modeling ( http://arxiv.org/abs/2306.01721v2 ) ライセンス: Link先を確認 | Zeqiang Lai, Yuchen Duan, Jifeng Dai, Ziheng Li, Ying Fu, Hongsheng Li, Yu Qiao, Wenhai Wang | (参考訳) セマンティックセグメンテーションの進化は、各ピクセルを分類するためのより識別的な画像表現を学ぶことで長い間支配されてきた。
顕著な進歩にもかかわらず、セグメンテーションマスクの先行、例えば幾何学的制約や意味的制約はいまだ未発見のままである。
本稿では,最近開発された分別拡散生成モデルによるマスク先行モデルを用いて,既存の判別手法のセグメンテーション品質を改善することを提案する。
マスク事前モデリングに拡散モデルを適用する統一アーキテクチャから始め、この作業は離散拡散を伴う特定のインスタンス化に焦点をあて、その成功のために様々な重要な設計選択を識別する。
Our exploratory analysis revealed several important findings, including: (1) a simple integration of diffusion models into semantic segmentation is not sufficient, and a poorly-designed diffusion process might lead to degradation in segmentation performance; (2) during the training, the object to which noise is added is more important than the type of noise; (3) during the inference, the strict diffusion denoising scheme may not be essential and can be relaxed to a simpler scheme that even works better.
ade20k と cityscapes における実験結果から,提案手法が競争的に定量的な性能とより魅力的な視覚品質を実現することを証明した。 The evolution of semantic segmentation has long been dominated by learning more discriminative image representations for classifying each pixel. Despite the prominent advancements, the priors of segmentation masks themselves, e.g., geometric and semantic constraints, are still under-explored. In this paper, we propose to ameliorate the semantic segmentation quality of existing discriminative approaches with a mask prior modeled by a recently-developed denoising diffusion generative model. Beginning with a unified architecture that adapts diffusion models for mask prior modeling, we focus this work on a specific instantiation with discrete diffusion and identify a variety of key design choices for its successful application. Our exploratory analysis revealed several important findings, including: (1) a simple integration of diffusion models into semantic segmentation is not sufficient, and a poorly-designed diffusion process might lead to degradation in segmentation performance; (2) during the training, the object to which noise is added is more important than the type of noise; (3) during the inference, the strict diffusion denoising scheme may not be essential and can be relaxed to a simpler scheme that even works better. We evaluate the proposed prior modeling with several off-the-shelf segmentors, and our experimental results on ADE20K and Cityscapes demonstrate that our approach could achieve competitively quantitative performance and more appealing visual quality. | 翻訳日:2023-06-23 17:01:05 公開日:2023-06-22 |
# 開分散光学系における自発パラメトリックダウン変換の非摂動理論 Non-perturbative theory of spontaneous parametric down-conversion in open and dispersive optical systems ( http://arxiv.org/abs/2306.00781v2 ) ライセンス: Link先を確認 | Aleksa Krsti\'c, Frank Setzpfandt and Sina Saravi | (参考訳) 任意の損失と分散量を持つ非線形光学構造における高ゲインレジームの自発的パラメトリックダウンコンバージョンを記述できる,グリーン関数量子化法に基づく非摂動的定式化法を開発した。
この形式主義は、圧縮光発生、非線形性に基づく量子センシング、非線形相互作用を介するハイブリッド量子システムなどの量子技術応用における任意の複素および/またはオープンナノ構造非線形光学系の記述と設計の方法を開く。
例えば、高利得状態において、未検出光子と統合量子分光のシナリオを数値的に検討し、システムの性能における新たな利得依存効果を明らかにする。 We develop a non-perturbative formulation based on the Green-function quantization method, that can describe spontaneous parametric down-conversion in the high-gain regime in nonlinear optical structures with arbitrary amount of loss and dispersion. This formalism opens the way for description and design of arbitrary complex and/or open nanostructured nonlinear optical systems in quantum technology applications, such as squeezed-light generation, nonlinearity-based quantum sensing, and hybrid quantum systems mediated by nonlinear interactions. As an example case, we numerically investigate the scenario of integrated quantum spectroscopy with undetected photons, in the high-gain regime, and uncover novel gain-dependent effects in the performance of the system. | 翻訳日:2023-06-23 17:00:46 公開日:2023-06-22 |
# 潜時拡散モデルを用いたテキスト駆動型フォリー音生成 Text-Driven Foley Sound Generation With Latent Diffusion Model ( http://arxiv.org/abs/2306.10359v2 ) ライセンス: Link先を確認 | Yi Yuan, Haohe Liu, Xubo Liu, Xiyuan Kang, Peipei Wu, Mark D.Plumbley, Wenwu Wang | (参考訳) Foley Sound Generationはマルチメディアコンテンツのための背景音の合成を目的としている。
従来のモデルは通常、ラベルを入力として大規模な開発セット(シングルナンバーやワンホットベクトルなど)を使用する。
本研究では,テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
データ不足の問題を緩和するため,本モデルはまず,大規模データセットを事前学習し,コントラスト言語-オーディオ関連(clap)手法を用いた転送学習により,このタスクを微調整した。
テキストエンコーダによって抽出された特徴埋め込みは,生成モデルの性能に大きな影響を与える可能性がある。
したがって、エンコーダの後、トレーニング可能な層を導入し、エンコーダによって生成されたテキスト埋め込みを改善する。
また、複数の候補音声クリップを同時に生成し、候補クリップの埋め込みと対象テキストラベルの埋め込みとの類似度スコアで決定される最良波形を選択することにより、生成された波形をさらに洗練する。
提案手法を用いて,DCASEチャレンジ2023タスク7に提出されたシステムのうち,${1}^{st}$をランク付けする。
アブレーション実験の結果,提案手法は音響発生性能を著しく向上させることが示された。
提案するシステムの実装コードはオンラインで公開されている。 Foley sound generation aims to synthesise the background sound for multimedia content. Previous models usually employ a large development set with labels as input (e.g., single numbers or one-hot vector). In this work, we propose a diffusion model based system for Foley sound generation with text conditions. To alleviate the data scarcity issue, our model is initially pre-trained with large-scale datasets and fine-tuned to this task via transfer learning using the contrastive language-audio pertaining (CLAP) technique. We have observed that the feature embedding extracted by the text encoder can significantly affect the performance of the generation model. Hence, we introduce a trainable layer after the encoder to improve the text embedding produced by the encoder. In addition, we further refine the generated waveform by generating multiple candidate audio clips simultaneously and selecting the best one, which is determined in terms of the similarity score between the embedding of the candidate clips and the embedding of the target text label. Using the proposed method, our system ranks ${1}^{st}$ among the systems submitted to DCASE Challenge 2023 Task 7. The results of the ablation studies illustrate that the proposed techniques significantly improve sound generation performance. The codes for implementing the proposed system are available online. | 翻訳日:2023-06-23 16:55:03 公開日:2023-06-22 |
# 実世界のRAW画像からの効率的なHDR再構成 Efficient HDR Reconstruction from Real-World Raw Images ( http://arxiv.org/abs/2306.10311v2 ) ライセンス: Link先を確認 | Qirui Yang, Yihao Liu and Jingyu Yang | (参考訳) 高ダイナミックレンジ(HDR)イメージングは、ジェネリックイメージセンサーの限られたダイナミックレンジのため、依然として重要な課題である。
既存の学習ベースのHDR再構成手法の多くは、ダイナミックレンジを拡張するためにブラケット付き露光sRGB画像の集合を取り、画像信号処理装置(ISP)が生画像から複数のsRGB画像を生成することを要求することにより、計算およびメモリ非効率である。
本稿では,生の入力から動的範囲を広げ,再構成したHDR生画像に対して1つのISP処理のみを実行することを提案する。
我々は,(1)新しい計算用生HDRデータ生成パイプラインを設計し,第1の実世界の生HDRデータセットであるRealRaw-HDRを構築し,(2)構造的再パラメータ化手法を用いて軽量なHDRモデルRepUNetを開発し,(3)短時間と長時間の撮影画像間の動きの不一致を軽減するためのプラグアンドプレイ動作アライメント損失を提案する。
広汎な実験により、我々の手法は視覚的品質と量的指標の両方において最先端のパフォーマンスを達成することを示した。 High dynamic range (HDR) imaging is still a significant yet challenging problem due to the limited dynamic range of generic image sensors. Most existing learning-based HDR reconstruction methods take a set of bracketed-exposure sRGB images to extend the dynamic range, and thus are computational- and memory-inefficient by requiring the Image Signal Processor (ISP) to produce multiple sRGB images from the raw ones. In this paper, we propose to broaden the dynamic range from the raw inputs and perform only one ISP processing for the reconstructed HDR raw image. Our key insights are threefold: (1) we design a new computational raw HDR data formation pipeline and construct the first real-world raw HDR dataset, RealRaw-HDR; (2) we develop a lightweight-efficient HDR model, RepUNet, using the structural re-parameterization technique; (3) we propose a plug-and-play motion alignment loss to mitigate motion misalignment between short- and long-exposure images. Extensive experiments demonstrate that our approach achieves state-of-the-art performance in both visual quality and quantitative metrics. | 翻訳日:2023-06-23 16:54:27 公開日:2023-06-22 |
# フェデレーション・マイトショット学習 Federated Few-shot Learning ( http://arxiv.org/abs/2306.10234v2 ) ライセンス: Link先を確認 | Song Wang, Xingbo Fu, Kaize Ding, Chen Chen, Huiyuan Chen, Jundong Li | (参考訳) フェデレーション・ラーニング(fl)は、複数のクライアントがローカルデータを交換することなく、協調して機械学習モデルを学習できるようにする。
このようにして、サーバはすべてのクライアントの計算能力を活用し、すべてのクライアント間でより大きなデータサンプルセットでモデルをトレーニングすることができる。
このようなメカニズムは様々な分野で有効であることが証明されているが、既存の研究は、各クライアントがトレーニングに十分なデータを保存すると仮定している。
しかし実際には、特定のクライアントは限られた数のサンプル(すなわち、少数のサンプル)しか含まない。
例えば、特定のユーザーが新しいモバイルデバイスで撮影した写真データは、比較的まれである。
このシナリオでは、既存のFLの取り組みは、一般的にこれらのクライアントに大きなパフォーマンス低下に遭遇します。
そのため、FLシナリオの下で限られたデータを持つクライアントに一般化可能な数ショットモデルを開発することが急務である。
本稿では,この新たな問題を,フェデレーション付き数発学習と呼ぶ。
しかしながら、クライアント間のグローバルデータ分散(クライアント間のデータ分散の違い)と各クライアント内のローカルデータ不足(トレーニングに十分なローカルデータ不足)という2つの大きな理由により、この問題は依然として困難なままである。
これら2つの課題を克服するために,グローバルデータ分散と局所データ不足の悪影響を軽減すべく,2つのモデルと専用トレーニング戦略を別々に更新した,連帯型少数ショット学習フレームワークを提案する。
ニュース記事とイメージをカバーする4つの一般的なデータセットに関する広範囲な実験は、最先端のベースラインと比較して、フレームワークの有効性を検証する。
私たちのコードはhttps://github.com/SongW-SW/F2Lで提供されます。 Federated Learning (FL) enables multiple clients to collaboratively learn a machine learning model without exchanging their own local data. In this way, the server can exploit the computational power of all clients and train the model on a larger set of data samples among all clients. Although such a mechanism is proven to be effective in various fields, existing works generally assume that each client preserves sufficient data for training. In practice, however, certain clients may only contain a limited number of samples (i.e., few-shot samples). For example, the available photo data taken by a specific user with a new mobile device is relatively rare. In this scenario, existing FL efforts typically encounter a significant performance drop on these clients. Therefore, it is urgent to develop a few-shot model that can generalize to clients with limited data under the FL scenario. In this paper, we refer to this novel problem as federated few-shot learning. Nevertheless, the problem remains challenging due to two major reasons: the global data variance among clients (i.e., the difference in data distributions among clients) and the local data insufficiency in each client (i.e., the lack of adequate local data for training). To overcome these two challenges, we propose a novel federated few-shot learning framework with two separately updated models and dedicated training strategies to reduce the adverse impact of global data variance and local data insufficiency. Extensive experiments on four prevalent datasets that cover news articles and images validate the effectiveness of our framework compared with the state-of-the-art baselines. Our code is provided at https://github.com/SongW-SW/F2L. | 翻訳日:2023-06-23 16:53:49 公開日:2023-06-22 |
# 拡張大言語モデル(GPT-4)による法的概念の説明 Explaining Legal Concepts with Augmented Large Language Models (GPT-4) ( http://arxiv.org/abs/2306.09525v2 ) ライセンス: Link先を確認 | Jaromir Savelka, Kevin D. Ashley, Morgan A. Gray, Hannes Westermann, Huihui Xu | (参考訳) 法的なオープンテクスト用語の意味を解釈することは、法律専門家にとって重要な課題である。
この解釈の重要な根拠は、前回の訴訟においてこの用語が適用された方法である。
本稿では,法律における用語の事実的正確・明確・関連的な説明を生成するためのGPT-4の性能を評価する。
本稿では,GPT-4が直接法的用語の説明を依頼されるベースライン・セットアップの性能と,ケース・ローからの文の形式で,モデルに関連するコンテキストを提供するための法的情報検索モジュールを用いた拡張アプローチとの比較を行う。
GPT-4の直接適用により, 表面の非常に高品質な説明が得られることがわかった。
しかし、詳細な分析により、説明の事実的正確性の観点から制限が明らかになった。
さらに, 改良により品質が向上し, モデルが誤った文を発明する幻覚の問題を排除していることが明らかとなった。
これらの発見は、ケースローから関連する文章を自律的に回収し、法律学者や教育者、弁護士などにとって有用な説明に導くことができるシステムの構築への扉を開く。 Interpreting the meaning of legal open-textured terms is a key task of legal professionals. An important source for this interpretation is how the term was applied in previous court cases. In this paper, we evaluate the performance of GPT-4 in generating factually accurate, clear and relevant explanations of terms in legislation. We compare the performance of a baseline setup, where GPT-4 is directly asked to explain a legal term, to an augmented approach, where a legal information retrieval module is used to provide relevant context to the model, in the form of sentences from case law. We found that the direct application of GPT-4 yields explanations that appear to be of very high quality on their surface. However, detailed analysis uncovered limitations in terms of the factual accuracy of the explanations. Further, we found that the augmentation leads to improved quality, and appears to eliminate the issue of hallucination, where models invent incorrect statements. These findings open the door to the building of systems that can autonomously retrieve relevant sentences from case law and condense them into a useful explanation for legal scholars, educators or practicing lawyers alike. | 翻訳日:2023-06-23 16:53:03 公開日:2023-06-22 |
# 瞬時非局所量子計算と回路深さ低減 Instantaneous nonlocal quantum computation and circuit depth reduction ( http://arxiv.org/abs/2306.09326v2 ) ライセンス: Link先を確認 | Li Yu, Jie Xu, Fuqun Wang, Chui-Ping Yang | (参考訳) 瞬時二者量子計算(imstantaneous two-party quantum computation)は、2成分の入力と出力を持つ計算プロセスで、初期共有の絡み合いがあり、非局所的な相互作用は両方向の古典的通信に制限される。
これは即時測定の問題とほぼ同値であり、量子基盤や位置ベースの量子暗号におけるいくつかのトピックと関連している。
本研究の前半では,園芸用ガジェットとして知られる単純化されたサブプロデューサが,即時2要素量子計算における絡み合いコストを著しく低減できないことを示す。
第2部では、クリフォードゲートとTゲートの層からなる任意のユニタリ回路を、原回路のT深さに比例した深さ(または単位回路)の回路を用いて実装可能であることを示す。
この結果は、測定に基づく量子計算の結果と類似しており、またいくつかの違いもある。
興味深い量子アルゴリズムは、しばしば高いtゲートの比率を必要とするが、それでもその拡張と応用について議論する。 Instantaneous two-party quantum computation is a computation process with bipartite input and output, in which there are initial shared entanglement, and the nonlocal interactions are limited to simultaneous classical communication in both directions. It is almost equivalent to the problem of instantaneous measurements, and is related to some topics in quantum foundations and position-based quantum cryptography. In the first part of this work, we show that a particular simplified subprocedure, known as a garden-hose gadget, cannot significantly reduce the entanglement cost in instantaneous two-party quantum computation. In the second part, we show that any unitary circuit consisting of layers of Clifford gates and T gates can be implemented using a circuit with measurements (or a unitary circuit) of depth proportional to the T-depth of the original circuit. This result has some similarity with and also some difference from a result in measurement-based quantum computation. It is of limited use since interesting quantum algorithms often require a high ratio of T gates, but still we discuss its extensions and applications. | 翻訳日:2023-06-23 16:52:15 公開日:2023-06-22 |
# フェアレンジクラスタリングのための近似アルゴリズム Approximation Algorithms for Fair Range Clustering ( http://arxiv.org/abs/2306.06778v2 ) ライセンス: Link先を確認 | S\`edjro S. Hotegni and Sepideh Mahabadi and Ali Vakilian | (参考訳) 本論文は,データポイントが異なる人口集団から得られるフェアレンジクラスタリング問題について検討し,各グループを最低限のクラスタリングコストで選択することを目的としている。
More precisely, given a set of $n$ points in a metric space $(P,d)$ where each point belongs to one of the $\ell$ different demographics (i.e., $P = P_1 \uplus P_2 \uplus \cdots \uplus P_\ell$) and a set of $\ell$ intervals $[\alpha_1, \beta_1], \cdots, [\alpha_\ell, \beta_\ell]$ on desired number of centers from each group, the goal is to pick a set of $k$ centers $C$ with minimum $\ell_p$-clustering cost (i.e., $(\sum_{v\in P} d(v,C)^p)^{1/p}$) such that for each group $i\in \ell$, $|C\cap P_i| \in [\alpha_i, \beta_i]$.
特に、fair range $\ell_p$-clusteringは、特別なケースとして、fair range $k$-center、$k$-median、$k$-meansをキャプチャする。
本研究では、fair range $\ell_p$-clustering for all value of $p\in [1,\infty)$に対して効率的な定数係数近似アルゴリズムを提供する。 This paper studies the fair range clustering problem in which the data points are from different demographic groups and the goal is to pick $k$ centers with the minimum clustering cost such that each group is at least minimally represented in the centers set and no group dominates the centers set. More precisely, given a set of $n$ points in a metric space $(P,d)$ where each point belongs to one of the $\ell$ different demographics (i.e., $P = P_1 \uplus P_2 \uplus \cdots \uplus P_\ell$) and a set of $\ell$ intervals $[\alpha_1, \beta_1], \cdots, [\alpha_\ell, \beta_\ell]$ on desired number of centers from each group, the goal is to pick a set of $k$ centers $C$ with minimum $\ell_p$-clustering cost (i.e., $(\sum_{v\in P} d(v,C)^p)^{1/p}$) such that for each group $i\in \ell$, $|C\cap P_i| \in [\alpha_i, \beta_i]$. In particular, the fair range $\ell_p$-clustering captures fair range $k$-center, $k$-median and $k$-means as its special cases. In this work, we provide efficient constant factor approximation algorithms for fair range $\ell_p$-clustering for all values of $p\in [1,\infty)$. | 翻訳日:2023-06-23 16:51:56 公開日:2023-06-22 |
# ラベル生成に基づくクラスインクリメンタル学習 Class-Incremental Learning based on Label Generation ( http://arxiv.org/abs/2306.12619v1 ) ライセンス: Link先を確認 | Yijia Shao, Yiduo Guo, Dongyan Zhao, Bing Liu | (参考訳) 事前学習された言語モデルの大きな成功にもかかわらず、これらのモデルを継続的学習、特に破滅的忘れ(CF)によるクラス増分学習(CIL)設定に使用することは依然として困難である。
本稿では,cil を連続ラベル生成問題として定式化した場合,cf は大幅に削減され,事前学習モデルの一般化表現がより良く保持できることを示す。
そこで我々は,語彙の空間性を活用して生成に集中し,ラベルセマンティクスを用いて擬似再生サンプルを作成する新しいCIL法を提案する。
実験の結果, VAGはベースラインよりも大きなマージンで優れていた。 Despite the great success of pre-trained language models, it is still a challenge to use these models for continual learning, especially for the class-incremental learning (CIL) setting due to catastrophic forgetting (CF). This paper reports our finding that if we formulate CIL as a continual label generation problem, CF is drastically reduced and the generalizable representations of pre-trained models can be better retained. We thus propose a new CIL method (VAG) that also leverages the sparsity of vocabulary to focus the generation and creates pseudo-replay samples by using label semantics. Experimental results show that VAG outperforms baselines by a large margin. | 翻訳日:2023-06-23 15:55:59 公開日:2023-06-22 |
# 確率的故障を伴う混合モデルシークエンシング:自動車産業を事例として Mixed-model Sequencing with Stochastic Failures: A Case Study for Automobile Industry ( http://arxiv.org/abs/2306.12618v1 ) ライセンス: Link先を確認 | I. Ozan Yilmazlar, Mary E. Kurz, Hamed Rahimian | (参考訳) 自動車業界では、製造日に先立って製造される車両の順序が決定される。
しかし、材料不足や塗料の故障などいくつかの理由により製造できない車両や失敗した車両もある。
これらの車両はシーケンスから取り出され、その後の位置にある車両は前進し、ロジスティクスや他のスケジュール上の問題を引き起こす可能性がある。
本稿では,混合モデルシークエンシング(MMS)問題と確率的製品故障に対する2段階確率的プログラムを提案し,第2段階問題を改善する。
指数関数的なシナリオ数に取り組むために,サンプル平均近似法と2つの解法を用いる。
また,L字型分解に基づくアルゴリズムを開発し,計算実験により,既製の解法を用いて決定論的等価な定式化を解くよりも優れていることを示す。
さらに,自動車メーカのパートナからインスパイアされたケーススタディインスタンスに取り組むための欲深いヒューリスティックに加えて,タブ探索アルゴリズムも提供する。
数値実験により,提案手法はシナリオのサンプルを用いて高品質な解を生成することを示した。
特に、自動車故障を考慮した堅牢なシーケンスは、小規模インスタンスと大規模インスタンスの両方において、期待される作業過負荷を20倍以上削減することができる。 In the automotive industry, the sequence of vehicles to be produced is determined ahead of the production day. However, there are some vehicles, failed vehicles, that cannot be produced due to some reasons such as material shortage or paint failure. These vehicles are pulled out of the sequence, and the vehicles in the succeeding positions are moved forward, potentially resulting in challenges for logistics or other scheduling concerns. This paper proposes a two-stage stochastic program for the mixed-model sequencing (MMS) problem with stochastic product failures, and provides improvements to the second-stage problem. To tackle the exponential number of scenarios, we employ the sample average approximation approach and two solution methodologies. On one hand, we develop an L-shaped decomposition-based algorithm, where the computational experiments show its superiority over solving the deterministic equivalent formulation with an off-the-shelf solver. Moreover, we provide a tabu search algorithm in addition to a greedy heuristic to tackle case study instances inspired by our car manufacturer partner. Numerical experiments show that the proposed solution methodologies generate high quality solutions by utilizing a sample of scenarios. Particularly, a robust sequence that is generated by considering car failures can decrease the expected work overload by more than 20\% for both small- and large-sized instances. | 翻訳日:2023-06-23 15:55:48 公開日:2023-06-22 |
# robustneuralnetworks.jl: 認定ロバスト性を備えた機械学習とデータ駆動制御のためのパッケージ RobustNeuralNetworks.jl: a Package for Machine Learning and Data-Driven Control with Certified Robustness ( http://arxiv.org/abs/2306.12612v1 ) ライセンス: Link先を確認 | Nicholas H. Barbara, Max Revay, Ruigang Wang, Jing Cheng, Ian R. Manchester | (参考訳) ニューラルネットワークは通常、小さな入力摂動に敏感であり、予期せぬあるいは不安定な振る舞いを引き起こす。
RobustNeuralNetworks.jl: ユーザ定義の堅牢性制約を自然に満たすように構築されたニューラルネットワークモデル用のJuliaパッケージ。
このパッケージは、最近提案されたRecurrent Equilibrium Network (REN)とLipschitz-Bounded Deep Network (LBDN)モデルクラスに基づいており、Juliaの最も広く使われている機械学習パッケージであるFlux.jlと直接接続するように設計されている。
モデルパラメータ化の背景にある理論を議論し,パッケージの概要を説明し,画像分類,強化学習,非線形状態オブザーバ設計における利用例を示すチュートリアルを提供する。 Neural networks are typically sensitive to small input perturbations, leading to unexpected or brittle behaviour. We present RobustNeuralNetworks.jl: a Julia package for neural network models that are constructed to naturally satisfy a set of user-defined robustness constraints. The package is based on the recently proposed Recurrent Equilibrium Network (REN) and Lipschitz-Bounded Deep Network (LBDN) model classes, and is designed to interface directly with Julia's most widely-used machine learning package, Flux.jl. We discuss the theory behind our model parameterization, give an overview of the package, and provide a tutorial demonstrating its use in image classification, reinforcement learning, and nonlinear state-observer design. | 翻訳日:2023-06-23 15:55:26 公開日:2023-06-22 |
# 対人パッチに対する認証ロバスト対策のための画像分類教育の見直し Revisiting Image Classifier Training for Improved Certified Robust Defense against Adversarial Patches ( http://arxiv.org/abs/2306.12610v1 ) ライセンス: Link先を確認 | Aniruddha Saha, Shuhua Yu, Arash Norouzzadeh, Wan-Yi Lin, Chaithanya Kumar Mummadi | (参考訳) 画像分類器の敵対的パッチに対する証明可能な堅牢な防御は、制約されたピクセル近傍の変更に対する正しい予測を保証する。
PatchCleanser arXiv:2108.09135[cs.CV]は、最先端の認定防衛であり、堅牢な分類のために二重マスキング戦略を使用している。
この戦略の成功は、画像ピクセルマスキングに対するモデルの不変性に大きく依存している。
本稿では,この不変性を改善するためのモデル学習方式について考察する。
PatchCleanserのようなRandom Cutout arXiv:1708.04552v2[cs.CV]拡張の代わりに、最悪のケースマスキングの概念を導入する。
しかし、最悪のケースのマスクを見つけるには徹底的な捜索が必要であり、訓練中にオンザフライを行うのに非常に費用がかかる可能性がある。
そこで本研究では,2ラウンドのグリーディマスク戦略(グリーディカットアウト)を提案する。
私たちは、Greedy Cutoutでトレーニングされたモデルが、PatchCleanserのRandom Cutoutよりも、さまざまなデータセットやアーキテクチャの信頼性を向上していることを示す。
ViT-B16-224モデルでImageNet上で認証された堅牢な精度は58.1\%から62.3\%に上昇し、画像上の任意の場所に3\%の正方形パッチが適用される。 Certifiably robust defenses against adversarial patches for image classifiers ensure correct prediction against any changes to a constrained neighborhood of pixels. PatchCleanser arXiv:2108.09135 [cs.CV], the state-of-the-art certified defense, uses a double-masking strategy for robust classification. The success of this strategy relies heavily on the model's invariance to image pixel masking. In this paper, we take a closer look at model training schemes to improve this invariance. Instead of using Random Cutout arXiv:1708.04552v2 [cs.CV] augmentations like PatchCleanser, we introduce the notion of worst-case masking, i.e., selecting masked images which maximize classification loss. However, finding worst-case masks requires an exhaustive search, which might be prohibitively expensive to do on-the-fly during training. To solve this problem, we propose a two-round greedy masking strategy (Greedy Cutout) which finds an approximate worst-case mask location with much less compute. We show that the models trained with our Greedy Cutout improves certified robust accuracy over Random Cutout in PatchCleanser across a range of datasets and architectures. Certified robust accuracy on ImageNet with a ViT-B16-224 model increases from 58.1\% to 62.3\% against a 3\% square patch applied anywhere on the image. | 翻訳日:2023-06-23 15:55:09 公開日:2023-06-22 |
# レギュラブルAIシステムに向けて:技術ギャップと政策機会 Towards Regulatable AI Systems: Technical Gaps and Policy Opportunities ( http://arxiv.org/abs/2306.12609v1 ) ライセンス: Link先を確認 | Xudong Shen, Hannah Brown, Jiashu Tao, Martin Strobel, Yao Tong, Akshay Narayan, Harold Soh, Finale Doshi-Velez | (参考訳) AIシステムの規制方法に注目が集まっている。
AIの専門家は、規制要件に準拠するために、AIシステムをどの程度精査できるだろうか?
我々はこの質問を、2つの公共セクターの調達チェックリストを通じて調査し、現在何ができるか、AIの技術的革新で何ができるか、より学際的なアプローチを必要とする要件を特定します。 There is increasing attention being given to how to regulate AI systems. As governing bodies grapple with what values to encapsulate into regulation, we consider the technical half of the question: To what extent can AI experts vet an AI system for adherence to regulatory requirements? We investigate this question through two public sector procurement checklists, identifying what we can do now, what we should be able to do with technical innovation in AI, and what requirements necessitate a more interdisciplinary approach. | 翻訳日:2023-06-23 15:54:45 公開日:2023-06-22 |
# ゼロ廃棄状態準備法による効率的な量子画像表現と圧縮回路 Efficient quantum image representation and compression circuit using zero-discarded state preparation approach ( http://arxiv.org/abs/2306.12634v1 ) ライセンス: Link先を確認 | Md Ershadul Haque, Manoranjan Paul, Anwaar Ulhaq, Tanmoy Debnath | (参考訳) 量子イメージコンピューティングは、画像データの保存と処理が従来のものよりも速いため、多くの注目を集めている。
画像サイズが大きくなると接続数も増加し、回路複合体が形成される。
したがって、効率的な量子画像表現と圧縮の問題はまだ難しい。
量子系における表現と圧縮のための画像の符号化は古典的なものとは異なる。
量子学において、位置の符号化は古典との大きな違いである。
本稿では, ゼロ廃棄状態接続ノベル拡張量子表現(ZSCNEQR)アプローチを導入し, 位置表現情報中の'0'を破棄することで, 複雑さをさらに軽減する。
制御操作ゲートでは、入力'1'だけが出力に寄与するため、ゼロを破棄することで、提案したZSCNEQR回路をより効率的にする。
提案したZSCNEQRアプローチは、表現と圧縮の両方に必要なビットを大幅に削減した。
提案手法は, 従来の手法に比べて11.76 %少ない量子ビットを必要とする。
その結果,提案手法は画像の表現と圧縮に有効であることが示唆された。 Quantum image computing draws a lot of attention due to storing and processing image data faster than classical. With increasing the image size, the number of connections also increases, leading to the circuit complex. Therefore, efficient quantum image representation and compression issues are still challenging. The encoding of images for representation and compression in quantum systems is different from classical ones. In quantum, encoding of position is more concerned which is the major difference from the classical. In this paper, a novel zero-discarded state connection novel enhance quantum representation (ZSCNEQR) approach is introduced to reduce complexity further by discarding '0' in the location representation information. In the control operational gate, only input '1' contribute to its output thus, discarding zero makes the proposed ZSCNEQR circuit more efficient. The proposed ZSCNEQR approach significantly reduced the required bit for both representation and compression. The proposed method requires 11.76\% less qubits compared to the recent existing method. The results show that the proposed approach is highly effective for representing and compressing images compared to the two relevant existing methods in terms of rate-distortion performance. | 翻訳日:2023-06-23 15:46:04 公開日:2023-06-22 |
# 量子側情報を用いた逆推測 Adversarial guesswork with quantum side information ( http://arxiv.org/abs/2306.12633v1 ) ライセンス: Link先を確認 | Baasanchimed Avirmed, Kaito Niinomi, Michele Dall'Arno | (参考訳) 古典量子チャネルの推測作業は、チャネルが送信する状態の推測に要するコストを定量化し、一度に1つの状態だけを問い合わせることができ、任意の古典量子チャネルの前処理を最大化し、任意の量子後処理を最小化する。
任意の次元の共変古典量子チャネルに対して、最適前処理の不変性と最適後処理の共分散を証明できる。
量子ビットの場合、高度に対称な情報完全古典量子チャネルのクラスに対する最適な推測作業を計算する。 The guesswork of a classical-quantum channel quantifies the cost incurred in guessing the state transmitted by the channel when only one state can be queried at a time, maximized over any classical pre-processing and minimized over any quantum post-processing. For arbitrary-dimensional covariant classical-quantum channels, we prove the invariance of the optimal pre-processing and the covariance of the optimal post-processing. In the qubit case, we compute the optimal guesswork for the class of so-called highly symmetric informationally complete classical-quantum channels. | 翻訳日:2023-06-23 15:45:47 公開日:2023-06-22 |
# 時空間フラクタル障害を伴う量子ウォーク Quantum walks with spatiotemporal fractal disorder ( http://arxiv.org/abs/2306.12628v1 ) ライセンス: Link先を確認 | Marcelo A. Pires, Caio B. Naves, Diogo O. Soares-Pinto and S\'ilvio M. Duarte Queir\'os | (参考訳) 本研究では, 時空フラクタル構造に連結したコイン演算子を用いた量子ウォークによる輸送特性と絡み合い特性について検討する。
フォトニクスの最近の発展にインスパイアされた我々は、パラダイム的シエルピンスキーのガスケットを選択する。
フラクタルの 0-1 パターンは一般化されたアダマール=フーリエ作用素の交替にマッピングされる。
量子ウォーク特性(特にフラクタル決定性障害)における乱れの影響の解析に空白空間を満たすことで,エンタングルメントエンハンスメントの頑健な効果を示すとともに,効果的な弾道拡散を実現するチューナブル・スケーリング指数を用いて超拡散する興味深い新しい道を示す。
すなわち、このフラクタルアプローチにより、拡散を危険にさらすことなく量子エンタングルメントの増大を得ることができる。
これらの特徴に加えて、干渉の度合いや可視性などのさらなる特性を分析する。
本モデルは、フォトニックパターン構造構築のためのビルディングブロックという、実験的に実現可能な設定におけるフラクタルの新しい応用に対応する。 We investigate the transport and entanglement properties exhibited by quantum walks with coin operators concatenated in a space-time fractal structure. Inspired by recent developments in photonics, we choose the paradigmatic Sierpinski gasket. The 0-1 pattern of the fractal is mapped into an alternation of the generalized Hadamard-Fourier operators. In fulfilling the blank space on the analysis of the impact of disorder in quantum walk properties -- specifically, fractal deterministic disorder --, our results show a robust effect of entanglement enhancement as well as an interesting novel road to superdiffusive spreading with a tunable scaling exponent attaining effective ballistic diffusion. Namely, with this fractal approach it is possible to obtain an increase in quantum entanglement without jeopardizing spreading. Alongside those features, we analyze further properties such as the degree of interference and visibility. The present model corresponds to a new application of fractals in an experimentally feasible setting, namely the building block for the construction of photonic patterned structures. | 翻訳日:2023-06-23 15:45:37 公開日:2023-06-22 |
# 異常検出のための目標崩壊正規化オートエンコーダ:中心にブラックホール Targeted collapse regularized autoencoder for anomaly detection: black hole at the center ( http://arxiv.org/abs/2306.12627v1 ) ライセンス: Link先を確認 | Amin Ghafourian, Huanyi Shui, Devesh Upadhyay, Rajesh Gupta, Dimitar Filev, Iman Soltani Bozchalooi | (参考訳) オートエンコーダは近年の異常検出技術の開発に広く使われている。
彼らのアプリケーションの前提は、通常のトレーニングデータでオートエンコーダをトレーニングした後、異常な入力が重要なリコンストラクションエラーを示すという考え方に基づいている。
これにより、通常のサンプルと異常サンプルを明確に区別することができる。
しかし、実際には、オートエンコーダは通常のクラスを超えて一般化でき、いくつかの異常サンプルに対して小さな再構成誤差を達成できる。
性能を向上させるために、様々な技術が追加のコンポーネントとより洗練された訓練手順を提案している。
本研究では,ニューラルネットワークコンポーネントの追加や計算処理,煩雑なトレーニングを行う代わりに,遅延空間における表現の規範を規定する計算的に軽量な用語で再構成損失を補うという,極めて簡単な方法を提案する。
このアプローチの単純さは、新しいアプリケーションに対するハイパーパラメータチューニングとカスタマイズの要件を最小化し、許容データモダリティ制約と組み合わせることで、幅広いアプリケーションにまたがって採用が成功する可能性を高める。
様々な視覚的および表的ベンチマークでこの手法をテストし,その手法が代替案に合致し,多用することを示す。
また,理論解析と数値シミュレーションを行い,トレーニング中に展開する基礎過程と,異常検出にどのように役立つかを示す。
これは、オートエンコーダに基づく異常検出アルゴリズムのブラックボックスの性質を緩和し、さらなる利点、障害事例、潜在的な新しい方向の解明のための道筋を提供する。 Autoencoders have been extensively used in the development of recent anomaly detection techniques. The premise of their application is based on the notion that after training the autoencoder on normal training data, anomalous inputs will exhibit a significant reconstruction error. Consequently, this enables a clear differentiation between normal and anomalous samples. In practice, however, it is observed that autoencoders can generalize beyond the normal class and achieve a small reconstruction error on some of the anomalous samples. To improve the performance, various techniques propose additional components and more sophisticated training procedures. In this work, we propose a remarkably straightforward alternative: instead of adding neural network components, involved computations, and cumbersome training, we complement the reconstruction loss with a computationally light term that regulates the norm of representations in the latent space. The simplicity of our approach minimizes the requirement for hyperparameter tuning and customization for new applications which, paired with its permissive data modality constraint, enhances the potential for successful adoption across a broad range of applications. We test the method on various visual and tabular benchmarks and demonstrate that the technique matches and frequently outperforms alternatives. We also provide a theoretical analysis and numerical simulations that help demonstrate the underlying process that unfolds during training and how it can help with anomaly detection. This mitigates the black-box nature of autoencoder-based anomaly detection algorithms and offers an avenue for further investigation of advantages, fail cases, and potential new directions. | 翻訳日:2023-06-23 15:45:18 公開日:2023-06-22 |
# 第1回 multiearth 2023 challenge on multimodal sar-to-eo image translation 1st Place Solution to MultiEarth 2023 Challenge on Multimodal SAR-to-EO Image Translation ( http://arxiv.org/abs/2306.12626v1 ) ライセンス: Link先を確認 | Jingi Ju, Hyeoncheol Noh, Minwoo Kim, Dong-Geol Choi | (参考訳) マルチモーダル・ラーニング・フォー・アース・エコ環境ワークショップ(MultiEarth 2023)は、地球生態系の健康状態のモニタリングと分析のために、広範囲に収集された大量のリモートセンシングデータを活用することを目的としている。
サブタスクであるMultimodal SAR-to-EO Image Translationは、悪天候や照明条件下であっても堅牢なSARデータを使用し、高品質で透明で視覚的に魅力的なEOデータに変換する。
SAR2EOタスクのコンテキストでは、EOデータに雲や障害が存在することが課題となる可能性がある。
この問題に対処するために,このクラウドレスSARデータを完全に活用し,データ学習の妨げとなる要因を取り除くために設計されたクリーンコレクタアルゴリズム(CCA)を提案する。
その後,SAR-to-EO変換にPix2pixHD,画像強調にRestormerを適用した。
最終評価では、チーム「cdrl」が0.07313のメイを獲得し、リーダーボードのトップランクを確保した。 The Multimodal Learning for Earth and Environment Workshop (MultiEarth 2023) aims to harness the substantial amount of remote sensing data gathered over extensive periods for the monitoring and analysis of Earth's ecosystems'health. The subtask, Multimodal SAR-to-EO Image Translation, involves the use of robust SAR data, even under adverse weather and lighting conditions, transforming it into high-quality, clear, and visually appealing EO data. In the context of the SAR2EO task, the presence of clouds or obstructions in EO data can potentially pose a challenge. To address this issue, we propose the Clean Collector Algorithm (CCA), designed to take full advantage of this cloudless SAR data and eliminate factors that may hinder the data learning process. Subsequently, we applied pix2pixHD for the SAR-to-EO translation and Restormer for image enhancement. In the final evaluation, the team 'CDRL' achieved an MAE of 0.07313, securing the top rank on the leaderboard. | 翻訳日:2023-06-23 15:44:53 公開日:2023-06-22 |
# 重要度サンプリングによるコミュニケーション効率の高い連合学習 Communication-Efficient Federated Learning through Importance Sampling ( http://arxiv.org/abs/2306.12625v1 ) ライセンス: Link先を確認 | Berivan Isik, Francesco Pase, Deniz Gunduz, Sanmi Koyejo, Tsachy Weissman, Michele Zorzi | (参考訳) モデル更新をクライアントからサーバに送信する通信コストが高いことは、スケーラブルな連合学習(fl)にとって大きなボトルネックである。
クライアント$n$は、クライアントのみの確率分布$q_{\phi^{(n)}}$からサンプルを送り、サーバはこれらのサンプルを使用してクライアントの分布の平均を推定する。
しかしながら、これらのメソッドは、トレーニングプロセス全体を通して、クライアントの分散である$q_{\phi^{(n)}}$ in Kullback-Leibler (KL) の分岐に近い、事前データの分散である$p_{\theta}$のサイド情報を持つ、FLセットアップを完全には利用しない。
本研究では,クライアントの分散である$q_{\phi^{(n)}}$ とサーバのサイド情報$p_{\theta}$との密接性を利用し,約$d_{kl}(q_{\phi^{(n)}}|| p_{\theta})$ビットの通信を必要とするフレームワークを提案する。
提案手法は,federated sgld,qsgdなどの既存の確率圧縮フレームワークと統合して,最大50ドルまでのビットレート削減で同じ(かつしばしば高い)テスト精度を達成することができることを示す。 The high communication cost of sending model updates from the clients to the server is a significant bottleneck for scalable federated learning (FL). Among existing approaches, state-of-the-art bitrate-accuracy tradeoffs have been achieved using stochastic compression methods -- in which the client $n$ sends a sample from a client-only probability distribution $q_{\phi^{(n)}}$, and the server estimates the mean of the clients' distributions using these samples. However, such methods do not take full advantage of the FL setup where the server, throughout the training process, has side information in the form of a pre-data distribution $p_{\theta}$ that is close to the client's distribution $q_{\phi^{(n)}}$ in Kullback-Leibler (KL) divergence. In this work, we exploit this closeness between the clients' distributions $q_{\phi^{(n)}}$'s and the side information $p_{\theta}$ at the server, and propose a framework that requires approximately $D_{KL}(q_{\phi^{(n)}}|| p_{\theta})$ bits of communication. We show that our method can be integrated into many existing stochastic compression frameworks such as FedPM, Federated SGLD, and QSGD to attain the same (and often higher) test accuracy with up to $50$ times reduction in the bitrate. | 翻訳日:2023-06-23 15:44:36 公開日:2023-06-22 |
# dreamedit: 主題による画像編集 DreamEdit: Subject-driven Image Editing ( http://arxiv.org/abs/2306.12624v1 ) ライセンス: Link先を確認 | Tianle Li, Max Ku, Cong Wei, Wenhu Chen | (参考訳) 被写体駆動画像生成は、最近研究コミュニティから大きな注目を集めているカスタマイズされた被写体を含む画像を生成することを目的としている。
しかし,従来の研究は対象対象の背景や位置を正確に制御することはできない。
本研究では,この空白を満たし,2つの新しい主題駆動サブタスク,すなわち主題置換と主題付加を提案する。
対象をカスタマイズしたものに置き換えることで、形状、テクスチャ、色を変えることができる一方で、提供されたシーンで指定された位置に対象を付加することで、状況に応じた姿勢を必要とする。
この2つの新しい課題を克服するために、まず22種類の被験者と440個のソースイメージを含む新しいデータセットDreamEditBenchを手作業でキュレートする。
プラットフォームとしてDreamEditBenchをホストし、標準的な人間評価のために訓練された評価者を雇用する予定です。
また、これらの課題を反復生成することで解決する革新的な手法を考案し、カスタマイズ対象への円滑な適応を可能にする。
本稿では,DreamEditBenchにおけるDreamEditorの性能とベースラインを理解するために,自動評価と人的評価を行う。
主観的置き換えでは,既存のモデルが原対象の形状や色に敏感であることが判明した。
モデル失敗率は、ソースと対象が極めて異なる場合に劇的に増加する。
対象追加については,既存のモデルではカスタマイズした対象を背景にスムーズにブレンドすることができず,生成した画像に顕著なアーティファクトが生じることがわかった。
dreameditbenchが、より制御可能な主題駆動画像編集を構築するための将来の調査を可能にする標準プラットフォームになることを願っている。
プロジェクトのホームページはhttps://dreameditbenchteam.github.io/。 Subject-driven image generation aims at generating images containing customized subjects, which has recently drawn enormous attention from the research community. However, the previous works cannot precisely control the background and position of the target subject. In this work, we aspire to fill the void and propose two novel subject-driven sub-tasks, i.e., Subject Replacement and Subject Addition. The new tasks are challenging in multiple aspects: replacing a subject with a customized one can change its shape, texture, and color, while adding a target subject to a designated position in a provided scene necessitates a context-aware posture. To conquer these two novel tasks, we first manually curate a new dataset DreamEditBench containing 22 different types of subjects, and 440 source images with different difficulty levels. We plan to host DreamEditBench as a platform and hire trained evaluators for standard human evaluation. We also devise an innovative method DreamEditor to resolve these tasks by performing iterative generation, which enables a smooth adaptation to the customized subject. In this project, we conduct automatic and human evaluations to understand the performance of DreamEditor and baselines on DreamEditBench. For Subject Replacement, we found that the existing models are sensitive to the shape and color of the original subject. The model failure rate will dramatically increase when the source and target subjects are highly different. For Subject Addition, we found that the existing models cannot easily blend the customized subjects into the background smoothly, leading to noticeable artifacts in the generated image. We hope DreamEditBench can become a standard platform to enable future investigations toward building more controllable subject-driven image editing. Our project homepage is https://dreameditbenchteam.github.io/. | 翻訳日:2023-06-23 15:44:07 公開日:2023-06-22 |
# SEAL: マルチロボットシステムにおける同時探索とローカライゼーション SEAL: Simultaneous Exploration and Localization in Multi-Robot Systems ( http://arxiv.org/abs/2306.12623v1 ) ライセンス: Link先を確認 | Ehsan Latif and Ramviyas Parasuraman | (参考訳) 正確なローカライゼーションはマルチロボット探索戦略に不可欠であり、ノイズや一貫性のないローカライゼーションは探索目標の達成に失敗する。
本研究では,グローバルなローカライゼーション情報を必要とせず,同時代の探検地図の信条で高精度なローカライゼーションを実現することを目的とする。
本稿では,gaussian process (gp) に基づく情報融合を最大探索に活用し,相対的局所化のための通信グラフ最適化を行う新しい同時探索・局所化(seal)手法を提案する。
これらの相互依存目的はラオ・ブラックウェル化法によって統合された。
分散線形凸船体最適化は、分散探索のための次の最良未探索領域を選択するために用いられる。
SEALは、広範囲なROS-Gazeboシミュレーションにおける探索とローカライズ性能の最先端手法に優れ、実世界の応用におけるアプローチの実用性を示している。 The availability of accurate localization is critical for multi-robot exploration strategies; noisy or inconsistent localization causes failure in meeting exploration objectives. We aim to achieve high localization accuracy with contemporary exploration map belief and vice versa without needing global localization information. This paper proposes a novel simultaneous exploration and localization (SEAL) approach, which uses Gaussian Processes (GP)-based information fusion for maximum exploration while performing communication graph optimization for relative localization. Both these cross-dependent objectives were integrated through the Rao-Blackwellization technique. Distributed linearized convex hull optimization is used to select the next-best unexplored region for distributed exploration. SEAL outperformed cutting-edge methods on exploration and localization performance in extensive ROS-Gazebo simulations, illustrating the practicality of the approach in real-world applications. | 翻訳日:2023-06-23 15:43:38 公開日:2023-06-22 |
# 数百画素の光子数分解検出器のための最適検出器トモグラフィ Optimized detector tomography for photon-number resolving detectors with hundreds of pixels ( http://arxiv.org/abs/2306.12622v1 ) ライセンス: Link先を確認 | Dong-Sheng Liu, Jia-Qi Wang, Chang-Ling Zou, Xi-Feng Ren, Guang-Can Guo | (参考訳) 数百ピクセルの光子数分解検出器が利用可能になった一方、検出器トモグラフィを用いたこれらの検出器のキャラクタリゼーションは計算量が多い。
本稿では,最適化を必要とする変数数を削減できる改良型検出器トモグラフィモデルを提案する。
本モデルの有効性と精度を評価するため,期待最大エントロピーアルゴリズムを用いて光コヒーレントおよび熱状態の光子数分布を再構成する。
その結果, 復元状態の忠実度は99%以上であり, 第2次および第3次相関は, 平均光子の数の理論値とよく一致していることがわかった。
また,検出器トモグラフィーに必要な計算資源について検討し,標準検出器トモグラフィー手法と比較して,提案手法が解法時間を約半分短縮し,必要なメモリ資源が多数の画素の検出器トモグラフィーの主要な障害となることを明らかにする。
以上の結果から,検出器トモグラフィは最大340ピクセルの検出器に対して1〜TB RAMのスーパーコンピュータ上で実現可能であることが示唆された。 Photon-number resolving detectors with hundreds of pixels are now readily available, while the characterization of these detectors using detector tomography is computationally intensive. Here, we present a modified detector tomography model that reduces the number of variables that need optimization. To evaluate the effectiveness and accuracy of our model, we reconstruct the photon number distribution of optical coherent and thermal states using the expectation-maximization-entropy algorithm. Our results indicate that the fidelity of the reconstructed states remains above 99%, and the second and third-order correlations agree well with the theoretical values for a mean number of photons up to 100. We also investigate the computational resources required for detector tomography and find out that our approach reduces the solving time by around a half compared to the standard detector tomography approach, and the required memory resources are the main obstacle for detector tomography of a large number of pixels. Our results suggest that detector tomography is viable on a supercomputer with 1~TB RAM for detectors with up to 340 pixels. | 翻訳日:2023-06-23 15:43:23 公開日:2023-06-22 |
# RXFOOD:関心事検出のためのプラグインRGB-X融合 RXFOOD: Plug-in RGB-X Fusion for Object of Interest Detection ( http://arxiv.org/abs/2306.12621v1 ) ライセンス: Link先を確認 | Jin Ma, Jinlong Li, Qing Guo, Tianyun Zhang, Yuewei Lin, Hongkai Yu | (参考訳) 異なるセンサー(外赤外線、深度など)の出現は、従来のRGBカメラの限られた応用シナリオに対する対策である。
RGB-Xタスクは、特定の問題を解決するためにRGB入力と他のタイプのデータ入力に依存しており、マルチメディアで人気のある研究トピックとなっている。
2分岐のRGB-Xディープニューラルネットワークにおいて重要な部分は、モーダル間で情報を融合する方法である。
RGB-Xネットワーク内の膨大な情報を考えると、以前の研究は通常、単純核融合(平均核融合や最大核融合など)や、同じスケールでのみ特徴核融合に焦点をあてる。
本稿では,同一モダリティブランチ内および異なるモダリティブランチ間における異なるスケール間の特徴の融合を統一的注意機構で同時に行うrxfoodと呼ばれる新しい手法を提案する。
エネルギー交換モジュールは、機能マップ内の異なる位置と異なるチャネルの相互関係を反映する各特徴マップのエネルギー行列の相互作用のために設計されている。
rxfood法は、プラグインモジュールとして任意のデュアルブランチエンコーダ-デコーダネットワークに容易に組み込むことができ、元のバックボーンネットワークが関心対象検出のための重要な位置とチャネルに焦点を合わせるのに役立つ。
rgb-nirsalient object detection, rgb-d salient object detection, rgb frequency image manipulation detectionの実験結果は, 提案するrxfoodの有効性を示す。 The emergence of different sensors (Near-Infrared, Depth, etc.) is a remedy for the limited application scenarios of traditional RGB camera. The RGB-X tasks, which rely on RGB input and another type of data input to resolve specific problems, have become a popular research topic in multimedia. A crucial part in two-branch RGB-X deep neural networks is how to fuse information across modalities. Given the tremendous information inside RGB-X networks, previous works typically apply naive fusion (e.g., average or max fusion) or only focus on the feature fusion at the same scale(s). While in this paper, we propose a novel method called RXFOOD for the fusion of features across different scales within the same modality branch and from different modality branches simultaneously in a unified attention mechanism. An Energy Exchange Module is designed for the interaction of each feature map's energy matrix, who reflects the inter-relationship of different positions and different channels inside a feature map. The RXFOOD method can be easily incorporated to any dual-branch encoder-decoder network as a plug-in module, and help the original backbone network better focus on important positions and channels for object of interest detection. Experimental results on RGB-NIR salient object detection, RGB-D salient object detection, and RGBFrequency image manipulation detection demonstrate the clear effectiveness of the proposed RXFOOD. | 翻訳日:2023-06-23 15:43:04 公開日:2023-06-22 |
# インストラクションフィンGPT:汎用大言語モデルのインストラクションチューニングによる財務感性分析 Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of General-Purpose Large Language Models ( http://arxiv.org/abs/2306.12659v1 ) ライセンス: Link先を確認 | Boyu Zhang, Hongyang Yang, Xiao-Yang Liu | (参考訳) 感情分析は、金融記事、ニュース、ソーシャルメディアからの洞察を明らかにする上で不可欠なツールであり、市場の動きに対する理解を形作る。
金融自然言語処理(NLP)における大きな言語モデル(LLM)の印象的な能力にもかかわらず、彼らは数値の正確な解釈と財務状況の把握に苦慮し、金銭的感情を予測する効果を制限している。
本稿では,これらの問題に対処する簡易かつ効果的な命令チューニング手法を提案する。
金融感情分析データのごく一部を指導データに変換し、この方法で汎用LSMを微調整することにより、財務感情分析における顕著な進歩を実現する。
実験では,特に数値理解や文脈理解が不可欠であるシナリオにおいて,最先端の教師付き感情分析モデル,ChatGPTやLLaMAなどのLLMよりも優れていた。 Sentiment analysis is a vital tool for uncovering insights from financial articles, news, and social media, shaping our understanding of market movements. Despite the impressive capabilities of large language models (LLMs) in financial natural language processing (NLP), they still struggle with accurately interpreting numerical values and grasping financial context, limiting their effectiveness in predicting financial sentiment. In this paper, we introduce a simple yet effective instruction tuning approach to address these issues. By transforming a small portion of supervised financial sentiment analysis data into instruction data and fine-tuning a general-purpose LLM with this method, we achieve remarkable advancements in financial sentiment analysis. In the experiment, our approach outperforms state-of-the-art supervised sentiment analysis models, as well as widely used LLMs like ChatGPT and LLaMAs, particularly in scenarios where numerical understanding and contextual comprehension are vital. | 翻訳日:2023-06-23 15:36:45 公開日:2023-06-22 |
# Bicausal Optimal Transportのためのフィット値反復法 Fitted Value Iteration Methods for Bicausal Optimal Transport ( http://arxiv.org/abs/2306.12658v1 ) ライセンス: Link先を確認 | Erhan Bayraktar, Bingyan Han | (参考訳) 結合が適合した構造を持つ二因果最適輸送(OT)を計算するための適合値反復(FVI)法を開発した。
動的プログラミングの定式化に基づいて、FVIは関数クラスを採用し、二元関数の値関数を近似する。
集中性条件と近似完全性仮定の下で、(局所)ラデマッハ複雑性を用いてサンプル複雑性を証明した。
さらに、適切な構造を持つ多層ニューラルネットワークが、サンプル複雑性証明に必要な重要な仮定を満たすことを示した。
数値実験により、FVIは線形プログラミングと適応したシンクホーン法を時間的水平線が大きくなるにつれて性能が向上し、精度は維持されていることが明らかになった。 We develop a fitted value iteration (FVI) method to compute bicausal optimal transport (OT) where couplings have an adapted structure. Based on the dynamic programming formulation, FVI adopts a function class to approximate the value functions in bicausal OT. Under the concentrability condition and approximate completeness assumption, we prove the sample complexity using (local) Rademacher complexity. Furthermore, we demonstrate that multilayer neural networks with appropriate structures satisfy the crucial assumptions required in sample complexity proofs. Numerical experiments reveal that FVI outperforms linear programming and adapted Sinkhorn methods in scalability as the time horizon increases, while still maintaining acceptable accuracy. | 翻訳日:2023-06-23 15:36:27 公開日:2023-06-22 |
# 大規模言語モデルを用いた希少疾患現象の同定と抽出 Identifying and Extracting Rare Disease Phenotypes with Large Language Models ( http://arxiv.org/abs/2306.12656v1 ) ライセンス: Link先を確認 | Cathy Shyr, Yan Hu, Paul A. Harris, Hua Xu | (参考訳) 希少疾患(RD)は総じて一般的であり、全世界で3億人に影響を及ぼす。
正確な表現型付けは診断や治療に重要であるが、RD表現型はしばしば非構造化テキストに埋め込まれ、手動で抽出するのに時間がかかる。
自然言語処理(nlp)モデルは、抽出を自動化するために名前付きエンティティ認識(ner)を実行できるが、大きなボトルネックは、モデルトレーニングのための大きな注釈付きコーパスの開発である。
近年、高速学習はNLPパラダイムとして出現し、ゼロショット(ゼロショット)や少数のラベル付きサンプル(ファウショット)を使わずにより一般化可能な結果をもたらすことができる。
ChatGPTは複雑な人間のプロンプトに従い、高品質な応答を生成できる革命的な大規模言語モデルであるが、ゼロショットと少数ショットの設定でRDのNER性能を研究していない。
そこで我々は,RD表現型を抽出する新しいプロンプトを設計し,これらの設定でChatGPTの性能を評価するためのベンチマークを最初に確立した。
その性能を従来の微調整手法と比較し,詳細な誤差解析を行った。
総じて、微調整されたバイオクリニカルバートはchatgptよりも高い性能(0.689のf1(0.472のf1と0.91のゼロショットと少数ショットの設定でそれぞれ0.591)をもたらした。
これにもかかわらず、ChatGPTは単発設定(F1は0.776、0.725)において、特定の実体(まれな疾患や兆候)に対して類似または高い精度を達成した。
このことは、適切なプロンプトエンジニアリングにより、ChatGPTは1つのラベル付きサンプルで特定のエンティティタイプに対して微調整された言語モデルに適合または性能を向上する可能性があることを示唆している。
大きな言語モデルの増殖はRDの診断と治療を支援する機会を与えるかもしれないが、研究者や臨床医はモデルのアウトプットを批判的に評価し、それらの限界を十分に表現する必要がある。 Rare diseases (RDs) are collectively common and affect 300 million people worldwide. Accurate phenotyping is critical for informing diagnosis and treatment, but RD phenotypes are often embedded in unstructured text and time-consuming to extract manually. While natural language processing (NLP) models can perform named entity recognition (NER) to automate extraction, a major bottleneck is the development of a large, annotated corpus for model training. Recently, prompt learning emerged as an NLP paradigm that can lead to more generalizable results without any (zero-shot) or few labeled samples (few-shot). Despite growing interest in ChatGPT, a revolutionary large language model capable of following complex human prompts and generating high-quality responses, none have studied its NER performance for RDs in the zero- and few-shot settings. To this end, we engineered novel prompts aimed at extracting RD phenotypes and, to the best of our knowledge, are the first the establish a benchmark for evaluating ChatGPT's performance in these settings. We compared its performance to the traditional fine-tuning approach and conducted an in-depth error analysis. Overall, fine-tuning BioClinicalBERT resulted in higher performance (F1 of 0.689) than ChatGPT (F1 of 0.472 and 0.591 in the zero- and few-shot settings, respectively). Despite this, ChatGPT achieved similar or higher accuracy for certain entities (i.e., rare diseases and signs) in the one-shot setting (F1 of 0.776 and 0.725). This suggests that with appropriate prompt engineering, ChatGPT has the potential to match or outperform fine-tuned language models for certain entity types with just one labeled sample. While the proliferation of large language models may provide opportunities for supporting RD diagnosis and treatment, researchers and clinicians should critically evaluate model outputs and be well-informed of their limitations. | 翻訳日:2023-06-23 15:36:15 公開日:2023-06-22 |
# 高忠実なオープンワールドにおける新規なマルチエージェント計画 Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World ( http://arxiv.org/abs/2306.12654v1 ) ライセンス: Link先を確認 | James Chao, Wiktor Piotrowski, Mitch Manzanares, Douglas S. Lange | (参考訳) 現実の環境で行動する自律エージェントは、しばしば計画実行に干渉する未知の新規性を推論する必要がある。
ノベルティは、環境のコア特性、構成、ダイナミクスを変化させる予期せぬ現象である。
新規性は、事前の通知や説明なしに、十分に複雑な環境でいつでも起こりうる。
これまでの研究では、新規性はエージェントのパフォーマンスに破滅的な影響を及ぼすことが示されている。
インテリジェントエージェントは、環境の複雑さを理解し、その計画をうまく実行するために、世界の内部モデルを推論します。
環境への新規性の導入は通常、内部モデルを不正確なものにし、生成された計画はもはや適用されない。
ノベルティは特に、ドメイン固有で予測されるノベルティ固有のアプローチがノベルティの影響を緩和するために使われる実世界で広く使われている。
本研究では,angry birds や cartpole などの小型物理系ゲームにおいて,新奇性を検出,特徴化し,適応するドメインに依存しないaiエージェントを,軍用ドメインの現実的な高精細シミュレータにおいて,新奇性をうまく実行し,理性に適合させることを実証する。 Autonomous agents acting in real-world environments often need to reason with unknown novelties interfering with their plan execution. Novelty is an unexpected phenomenon that can alter the core characteristics, composition, and dynamics of the environment. Novelty can occur at any time in any sufficiently complex environment without any prior notice or explanation. Previous studies show that novelty has catastrophic impact on agent performance. Intelligent agents reason with an internal model of the world to understand the intricacies of their environment and to successfully execute their plans. The introduction of novelty into the environment usually renders their internal model inaccurate and the generated plans no longer applicable. Novelty is particularly prevalent in the real world where domain-specific and even predicted novelty-specific approaches are used to mitigate the novelty's impact. In this work, we demonstrate that a domain-independent AI agent designed to detect, characterize, and accommodate novelty in smaller-scope physics-based games such as Angry Birds and Cartpole can be adapted to successfully perform and reason with novelty in realistic high-fidelity simulator of the military domain. | 翻訳日:2023-06-23 15:35:36 公開日:2023-06-22 |
# Mems-Ultrasonic Sensors を用いたハンドポース推定 Hand Pose Estimation with Mems-Ultrasonic Sensors ( http://arxiv.org/abs/2306.12652v1 ) ライセンス: Link先を確認 | Qiang Zhang, Yuanqiao Lin, Yubin Lin, Szymon Rusinkiewicz | (参考訳) ハンドトラッキングは人間とコンピュータのインタラクションの重要な側面であり、拡張現実デバイスに幅広い応用がある。
しかし、現在の手の動きを捉える方法には様々な制限がある。
例えば、視覚に基づく手ポーズ推定は自己閉塞や照明条件の変化の影響を受けやすいが、IMUベースのトラッキンググローブは大きなドリフトを経験し、外部磁場干渉には耐性がない。
これらの問題に対処するために,指に複数のmems-ultrasonicセンサーを装着し,センサ間の距離行列を測定する新しい低コストハンドトラッキンググローブを提案する。
我々の軽量深層ネットワークは距離行列から手ポーズを再構成する。
実験の結果,本手法は精度,サイズに依存し,外的干渉に対して頑健であることがわかった。
また,センサ選択,センサ構成,回路図,モデルアーキテクチャの設計ロジックも示す。 Hand tracking is an important aspect of human-computer interaction and has a wide range of applications in extended reality devices. However, current hand motion capture methods suffer from various limitations. For instance, visual-based hand pose estimation is susceptible to self-occlusion and changes in lighting conditions, while IMU-based tracking gloves experience significant drift and are not resistant to external magnetic field interference. To address these issues, we propose a novel and low-cost hand-tracking glove that utilizes several MEMS-ultrasonic sensors attached to the fingers, to measure the distance matrix among the sensors. Our lightweight deep network then reconstructs the hand pose from the distance matrix. Our experimental results demonstrate that this approach is both accurate, size-agnostic, and robust to external interference. We also show the design logic for the sensor selection, sensor configurations, circuit diagram, as well as model architecture. | 翻訳日:2023-06-23 15:35:15 公開日:2023-06-22 |
# 膵臓分節化のためのカリキュラム知識切り換え Curriculum Knowledge Switching for Pancreas Segmentation ( http://arxiv.org/abs/2306.12651v1 ) ライセンス: Link先を確認 | Yumou Tang, Kun Zhan, Zhibo Tian, Mingxuan Zhang, Saisai Wang, Xueming Wen | (参考訳) 膵の分画は小比例と非常に変化しやすい解剖学的構造のため困難である。
これは、膵臓の検出を難易度が異なる3つの段階(単純、難易度、難易度)に分解する、カリキュラムナレッジスイッチング(cks)フレームワークである。
フレームワークは、簡単なフェーズから困難なフェーズに切り替えることにより、徐々に膵臓の検出を学習する。
さらに、スイッチング中にモーメント更新パラメータの更新機構を採用し、入力データセットが変化すると、損失が徐々に収束する。
実験の結果、cksフレームワークを用いた異なるニューラルネットワークバックボーンが、dscメトリックで測定したnihデータセットで最先端のパフォーマンスを達成した。 Pancreas segmentation is challenging due to the small proportion and highly changeable anatomical structure. It motivates us to propose a novel segmentation framework, namely Curriculum Knowledge Switching (CKS) framework, which decomposes detecting pancreas into three phases with different difficulty extent: straightforward, difficult, and challenging. The framework switches from straightforward to challenging phases and thereby gradually learns to detect pancreas. In addition, we adopt the momentum update parameter updating mechanism during switching, ensuring the loss converges gradually when the input dataset changes. Experimental results show that different neural network backbones with the CKS framework achieved state-of-the-art performance on the NIH dataset as measured by the DSC metric. | 翻訳日:2023-06-23 15:34:58 公開日:2023-06-22 |
# 連続学習のための学習性とアルゴリズム Learnability and Algorithm for Continual Learning ( http://arxiv.org/abs/2306.12646v1 ) ライセンス: Link先を確認 | Gyuhak Kim, Changnan Xiao, Tatsuya Konishi, Bing Liu | (参考訳) 本稿では,クラスインクリメンタル学習(cil)の課題継続学習(cl)設定について検討する。
CILは、相容れない概念やクラスからなる一連のタスクを学習する。
いずれにせよ、これまで学んだクラスのテストインスタンスを予測/分類するために、各テストインスタンスにタスク関連の情報を提供することなく、単一のモデルを構築します。
CILには多くの技術が提案されているが、主に経験的である。
最近、強力なcilシステムでは、各タスクに対して強いタスク内予測(wp)と強いout-of-distribution(ood)検出が必要であることが示されている。
しかし、CILが実際に学べるかどうかはまだ分かっていない。
本稿ではCILが学習可能であることを示す。
この理論に基づいて新しいcilアルゴリズムも提案されている。
実験の結果,有効性が示された。 This paper studies the challenging continual learning (CL) setting of Class Incremental Learning (CIL). CIL learns a sequence of tasks consisting of disjoint sets of concepts or classes. At any time, a single model is built that can be applied to predict/classify test instances of any classes learned thus far without providing any task related information for each test instance. Although many techniques have been proposed for CIL, they are mostly empirical. It has been shown recently that a strong CIL system needs a strong within-task prediction (WP) and a strong out-of-distribution (OOD) detection for each task. However, it is still not known whether CIL is actually learnable. This paper shows that CIL is learnable. Based on the theory, a new CIL algorithm is also proposed. Experimental results demonstrate its effectiveness. | 翻訳日:2023-06-23 15:34:47 公開日:2023-06-22 |
# FLAG:ジェネレーティブAIでライン異常(コード内で)を見つける FLAG: Finding Line Anomalies (in code) with Generative AI ( http://arxiv.org/abs/2306.12643v1 ) ライセンス: Link先を確認 | Baleegh Ahmad, Benjamin Tan, Ramesh Karri, Hammond Pearce | (参考訳) コードにはセキュリティと機能的なバグが含まれている。
それらの特定とローカライゼーションのプロセスは困難であり、人間の労働に依存している。
本研究では,ヒトデバッガを支援する新しいアプローチ (FLAG) を提案する。
FLAGは、生成AI、特にLarge Language Models(LLM)の語彙能力に基づいている。
ここでは、コードファイルを入力し、そのファイル内の各行を抽出して再生し、自己比較する。
元のコードを LLM 生成の代替品と比較することにより,コメントからの距離や LLM の信頼度などの特徴によって,さらなる検査を行うための異常として,注目すべき違いをフラグ付けすることができる。
これにより、デザイナーの検査検索スペースが削減される。
この領域の他の自動化アプローチとは異なり、FLAGは言語に依存しず、不完全な(そしてコンパイルされていない)コードに取り組み、セキュリティ特性や機能テスト、ルールの定義を必要としない。
本研究では,この分類においてLLMを支援する機能について検討し,既知のバグに対するFLAGの性能評価を行う。
私たちは、c、python、verilogで121のベンチマークを使用し、それぞれのベンチマークには既知のセキュリティや機能の弱点が含まれています。
我々はOpenAIの Code-davinci-002 と gpt-3.5-turbo の2つの技術 LLM を用いて実験を行った。
flagは欠陥の101を識別でき、検索スペースをソースコードの12-17%に削減するのに役立つ。 Code contains security and functional bugs. The process of identifying and localizing them is difficult and relies on human labor. In this work, we present a novel approach (FLAG) to assist human debuggers. FLAG is based on the lexical capabilities of generative AI, specifically, Large Language Models (LLMs). Here, we input a code file then extract and regenerate each line within that file for self-comparison. By comparing the original code with an LLM-generated alternative, we can flag notable differences as anomalies for further inspection, with features such as distance from comments and LLM confidence also aiding this classification. This reduces the inspection search space for the designer. Unlike other automated approaches in this area, FLAG is language-agnostic, can work on incomplete (and even non-compiling) code and requires no creation of security properties, functional tests or definition of rules. In this work, we explore the features that help LLMs in this classification and evaluate the performance of FLAG on known bugs. We use 121 benchmarks across C, Python and Verilog; with each benchmark containing a known security or functional weakness. We conduct the experiments using two state of the art LLMs in OpenAI's code-davinci-002 and gpt-3.5-turbo, but our approach may be used by other models. FLAG can identify 101 of the defects and helps reduce the search space to 12-17% of source code. | 翻訳日:2023-06-23 15:34:36 公開日:2023-06-22 |
# TaCA:タスクに依存しない互換アダプタでVisual Foundationモデルをアップグレード TaCA: Upgrading Your Visual Foundation Model with Task-agnostic Compatible Adapter ( http://arxiv.org/abs/2306.12642v1 ) ライセンス: Link先を確認 | Binjie Zhang, Yixiao Ge, Xuyuan Xu, Ying Shan, Mike Zheng Shou | (参考訳) CLIPのようなビジュアルファウンデーションモデルは、広範なデータセットから自己教師付きメソッドを通じて特徴表現を学習し、顕著な転送学習と一般化能力を示す。
BLIP-2のような革新的なソリューションを含む、視覚基盤モデルに基づくアプリケーションが増えつつある。
これらのアプリケーションは上流の機能抽出器として事前訓練されたクリップモデルを採用し、様々な下流モジュールを訓練して様々なタスクをこなす。
上流のファウンデーションモデルを更新する必要のあるシステムアップグレードに関わる状況では、新しいファウンデーションモデルに適応するためにすべての下流モジュールを再トレーニングすることが不可欠になる。
本稿では,新しいモデルの性能向上を図りつつ,異なる基盤モデル間の互換性を容易にする,パラメータ効率とタスクに依存しないアダプタ taca を提案する。
TaCAは、ダウンストリームアプリケーションが再トレーニングを必要とせずに、より良いパフォーマンスの基盤モデルをシームレスに統合することを可能にする。
我々は,ビデオテキスト検索,ビデオ認識,視覚的質問応答などの様々なタスクにおいて,最大10億パラメータの異なるモデルのスケールを用いて,tacaの広範囲な実験的検証を行う。
その結果、視覚基礎モデルのホットプラグアップグレードにおけるTaCAの創発的能力が一貫して示された。
コードとモデルはhttps://github.com/TencentARC/TaCA.comから入手できる。 Visual foundation models like CLIP excel in learning feature representations from extensive datasets through self-supervised methods, demonstrating remarkable transfer learning and generalization capabilities. A growing number of applications based on visual foundation models are emerging, including innovative solutions such as BLIP-2. These applications employ pre-trained CLIP models as upstream feature extractors and train various downstream modules to accomplish diverse tasks. In situations involving system upgrades that require updating the upstream foundation model, it becomes essential to re-train all downstream modules to adapt to the new foundation model, which is inflexible and inefficient. In this paper, we introduce a parameter-efficient and task-agnostic adapter, dubbed TaCA, that facilitates compatibility across distinct foundation models while ensuring enhanced performance for the new models. TaCA allows downstream applications to seamlessly integrate better-performing foundation models without necessitating retraining. We conduct extensive experimental validation of TaCA using different scales of models with up to one billion parameters on various tasks such as video-text retrieval, video recognition, and visual question answering. The results consistently demonstrate the emergent ability of TaCA on hot-plugging upgrades for visual foundation models. Codes and models will be available at https://github.com/TencentARC/TaCA. | 翻訳日:2023-06-23 15:34:14 公開日:2023-06-22 |
# グラフニューラルネットワークの限界への取り組み On Addressing the Limitations of Graph Neural Networks ( http://arxiv.org/abs/2306.12640v1 ) ライセンス: Link先を確認 | Sitao Luan | (参考訳) 本稿では,グラフ畳み込みネットワーク(gcns)に関する2つの問題点について概説する。 This report gives a summary of two problems about graph convolutional networks (GCNs): over-smoothing and heterophily challenges, and outlines future directions to explore. | 翻訳日:2023-06-23 15:33:53 公開日:2023-06-22 |
# 1回に1回:深さ推定のための多段階容積確率分布拡散 One at A Time: Multi-step Volumetric Probability Distribution Diffusion for Depth Estimation ( http://arxiv.org/abs/2306.12681v1 ) ライセンス: Link先を確認 | Bohan Li, Jingxin Dong, Yunnan Wang, Jinming Liu, Lianying Yin, Wei Zhao, Zheng Zhu, Xin Jin, Wenjun Zeng | (参考訳) 近年,マルチビューステレオ(MVS)とセマンティックシーン補完(SSC)における深度推定の基本的な役割について検討している。
彼らは一般的に3次元のコストボリュームを構築し、幾何学的対応を深く探求し、それらのボリュームを1ステップで推定する。
しかし、複雑な経験的分布、特に閉塞や反射などの挑戦的な領域において、そのような問題は1段階で完全には処理できない。
本稿では,多段階分布近似法として深度推定タスクを定式化し,拡散モデル(VPDD)を用いたマルコフ連鎖に従って,体積確率分布を段階的に(段階的に)モデル化する新しいパラダイムを提案する。
具体的には,VPDDにおけるボリュームの多段階生成を制限するため,分布近似を容易にするために,メタボリュームガイダンスとコンテクストガイダンスを構築した。
サンプリングプロセスでは,安定したトレーニングのためのボリューム表現の整合性を維持するためのオンラインフィルタリング戦略をさらに検討する。
実験により,MVS や SSC のタスクでは,プラグアンドプレイのVPDD が最先端のタスクよりも優れており,また,改善のためにさまざまなベースラインに容易に拡張可能であることが示された。
SemanticKITTIデータセット上でLiDARベースのメソッドを超えた最初のカメラベースの作業であることに注意してください。 Recent works have explored the fundamental role of depth estimation in multi-view stereo (MVS) and semantic scene completion (SSC). They generally construct 3D cost volumes to explore geometric correspondence in depth, and estimate such volumes in a single step relying directly on the ground truth approximation. However, such problem cannot be thoroughly handled in one step due to complex empirical distributions, especially in challenging regions like occlusions, reflections, etc. In this paper, we formulate the depth estimation task as a multi-step distribution approximation process, and introduce a new paradigm of modeling the Volumetric Probability Distribution progressively (step-by-step) following a Markov chain with Diffusion models (VPDD). Specifically, to constrain the multi-step generation of volume in VPDD, we construct a meta volume guidance and a confidence-aware contextual guidance as conditional geometry priors to facilitate the distribution approximation. For the sampling process, we further investigate an online filtering strategy to maintain consistency in volume representations for stable training. Experiments demonstrate that our plug-and-play VPDD outperforms the state-of-the-arts for tasks of MVS and SSC, and can also be easily extended to different baselines to get improvement. It is worth mentioning that we are the first camera-based work that surpasses LiDAR-based methods on the SemanticKITTI dataset. | 翻訳日:2023-06-23 15:26:38 公開日:2023-06-22 |
# レコメンダシステムの最近の進歩:サーベイ Recent Developments in Recommender Systems: A Survey ( http://arxiv.org/abs/2306.12680v1 ) ライセンス: Link先を確認 | Yang Li, Kangbo Liu, Ranjan Satapathy, Suhang Wang and Erik Cambria | (参考訳) 本技術調査では,レコメンデータシステムの分野における最新の進歩を包括的に要約する。
本研究の目的は、この分野における最先端技術の概要と、レコメンダシステムの開発における最新の動向を明らかにすることである。
この研究は、パーソナライズされたグループレコメンダシステムを含むレコメンダシステムの主要な分類を包括的にまとめてから始まり、その後、ナレッジベースのレコメンダシステムのカテゴリに展開する。
さらに、リコメンデータシステムにおけるロバスト性、データバイアス、公正性の問題を分析し、これらのシステムの性能を評価するために使用される評価指標を要約した。
最後に、この研究はレコメンダシステム開発の最新トレンドに関する洞察を提供し、この分野における今後の研究の方向性を強調するものだ。 In this technical survey, we comprehensively summarize the latest advancements in the field of recommender systems. The objective of this study is to provide an overview of the current state-of-the-art in the field and highlight the latest trends in the development of recommender systems. The study starts with a comprehensive summary of the main taxonomy of recommender systems, including personalized and group recommender systems, and then delves into the category of knowledge-based recommender systems. In addition, the survey analyzes the robustness, data bias, and fairness issues in recommender systems, summarizing the evaluation metrics used to assess the performance of these systems. Finally, the study provides insights into the latest trends in the development of recommender systems and highlights the new directions for future research in the field. | 翻訳日:2023-06-23 15:26:13 公開日:2023-06-22 |
# ソーシャルマイクロブログのペルシャ感情分析のための口語データセットの構築 Constructing Colloquial Dataset for Persian Sentiment Analysis of Social Microblogs ( http://arxiv.org/abs/2306.12679v1 ) ライセンス: Link先を確認 | Mojtaba Mazoochi (ICT Research Institute, Tehran, Iran), Leyla Rabiei (Iran Telecommunication Research Center (ITRC), Tehran, Iran), Farzaneh Rahmani (Iran Telecommunication Research Center (ITRC), Tehran, Iran), Zeinab Rajabi (Iran Telecommunication Research Center (ITRC), Tehran, Iran) | (参考訳) 紹介:マイクロブログサイトは、感情分析と意見マイニングのために豊富なデータソースを蓄積した。
この点において、感情分類はしばしば非効率であることが証明されている。なぜなら、マイクロブログ投稿には構文的に一貫性のある用語や代表が欠けているからだ。
また、低リソース言語にもいくつかの制限がある。
ペルシア語は例外的な特徴を持ち、英語方言のテキストの特徴と異なる感情分析タスクのための独自の注釈付きデータとモデルを要求する。
方法:本論文はまず,協調環境とインソース手法によるITRC-Opinionと呼ばれるユーザ意見データセットを構築する。
当社のデータセットには、twitterやinstagramなどのソーシャルマイクロブログからの非公式で口語的なペルシャのテキストが6万件含まれています。
第2に,ソーシャルマイクロブログ投稿における口語テキストのより効果的な感情分析のための新しい深層畳み込みニューラルネットワーク(cnn)モデルを提案する。
構築されたデータセットを使用して、提示されたモデルを評価する。
さらに、LSTM、CNN-RNN、BiLSTM、BiGRUなどの異なる単語埋め込みを持つモデル(Fasttext、Glove、Word2vec)は、我々のデータセットを調査し、その結果を評価した。
結果: データセットと提案モデルの利点(72%の精度)が示され, 感情分類性能が有意義に向上した。 Introduction: Microblogging websites have massed rich data sources for sentiment analysis and opinion mining. In this regard, sentiment classification has frequently proven inefficient because microblog posts typically lack syntactically consistent terms and representatives since users on these social networks do not like to write lengthy statements. Also, there are some limitations to low-resource languages. The Persian language has exceptional characteristics and demands unique annotated data and models for the sentiment analysis task, which are distinctive from text features within the English dialect. Method: This paper first constructs a user opinion dataset called ITRC-Opinion by collaborative environment and insource way. Our dataset contains 60,000 informal and colloquial Persian texts from social microblogs such as Twitter and Instagram. Second, this study proposes a new deep convolutional neural network (CNN) model for more effective sentiment analysis of colloquial text in social microblog posts. The constructed datasets are used to evaluate the presented model. Furthermore, some models, such as LSTM, CNN-RNN, BiLSTM, and BiGRU with different word embeddings, including Fasttext, Glove, and Word2vec, investigated our dataset and evaluated the results. Results: The results demonstrate the benefit of our dataset and the proposed model (72% accuracy), displaying meaningful improvement in sentiment classification performance. | 翻訳日:2023-06-23 15:25:58 公開日:2023-06-22 |
# invexityを用いたスパース線形モデルのoutlier-robust推定 Outlier-robust Estimation of a Sparse Linear Model Using Invexity ( http://arxiv.org/abs/2306.12678v1 ) ライセンス: Link先を確認 | Adarsh Barik and Jean Honorio | (参考訳) 本稿では,外乱サンプルの存在下での正しい支持でスパース回帰ベクトルを推定する問題について検討する。
ラッソ型手法の不整合はこのシナリオでよく知られている。
クリーンサンプルを識別するoutlier-robust lassoの組合せバージョンを提案する。
その後、これらのクリーンなサンプルを使用して良い評価を行う。
また、組合せ問題に対する新しい凸緩和を提供し、この緩和に対する証明可能な理論的保証を提供する。
最後に、我々は理論を検証する実験を行い、結果を標準ラッソと比較する。 In this paper, we study problem of estimating a sparse regression vector with correct support in the presence of outlier samples. The inconsistency of lasso-type methods is well known in this scenario. We propose a combinatorial version of outlier-robust lasso which also identifies clean samples. Subsequently, we use these clean samples to make a good estimation. We also provide a novel invex relaxation for the combinatorial problem and provide provable theoretical guarantees for this relaxation. Finally, we conduct experiments to validate our theory and compare our results against standard lasso. | 翻訳日:2023-06-23 15:25:37 公開日:2023-06-22 |
# softgpt: 生成的事前学習型不均一グラフトランスフォーマによる目標指向のソフトオブジェクト操作スキルの学習 SoftGPT: Learn Goal-oriented Soft Object Manipulation Skills by Generative Pre-trained Heterogeneous Graph Transformer ( http://arxiv.org/abs/2306.12677v1 ) ライセンス: Link先を確認 | Junjia Liu, Zhihao Li, Sylvain Calinon, and Fei Chen | (参考訳) 室内のソフトオブジェクト操作タスクは、複雑な力学と可変形状特性により、既存のロボットスキル学習技術にとって大きな課題となる。
人間のデモンストレーションから新しい操作スキルを学ぶことはロボットアプリケーションにとって効果的な方法であるため、ソフトオブジェクトの表現とダイナミクスに関する事前知識を開発する必要がある。
そこで本研究では,3次元の異種グラフ表現とGPTに基づくダイナミックスモデルからなる大量の探索データを用いて,事前学習したソフトオブジェクト操作スキル学習モデルであるSoftGPTを提案する。
各ダウンストリームタスクでは、目標指向のポリシエージェントが次のアクションを予測するようにトレーニングされ、softgptがこれらのアクションの結果を生成する。
これら2つのアプローチを統合することで、ポリシー学習を促進するためのロールアウトを提供するロボットの思考プロセスを確立する。
本研究は,この思考プロセスによる事前知識の活用が,人間の実演から直接学習できる可能性とともに,様々なソフトオブジェクト操作スキルを効率的に学習できることを実証した。 Soft object manipulation tasks in domestic scenes pose a significant challenge for existing robotic skill learning techniques due to their complex dynamics and variable shape characteristics. Since learning new manipulation skills from human demonstration is an effective way for robot applications, developing prior knowledge of the representation and dynamics of soft objects is necessary. In this regard, we propose a pre-trained soft object manipulation skill learning model, namely SoftGPT, that is trained using large amounts of exploration data, consisting of a three-dimensional heterogeneous graph representation and a GPT-based dynamics model. For each downstream task, a goal-oriented policy agent is trained to predict the subsequent actions, and SoftGPT generates the consequences of these actions. Integrating these two approaches establishes a thinking process in the robot's mind that provides rollout for facilitating policy learning. Our results demonstrate that leveraging prior knowledge through this thinking process can efficiently learn various soft object manipulation skills, with the potential for direct learning from human demonstrations. | 翻訳日:2023-06-23 15:25:29 公開日:2023-06-22 |
# 経験的貯水池は学ぶことを学ぶ Memristive Reservoirs Learn to Learn ( http://arxiv.org/abs/2306.12676v1 ) ライセンス: Link先を確認 | Ruomin Zhu, Jason K. Eshraghian and Zdenka Kuncic | (参考訳) 膜貯水池はナノワイヤネットワークとして知られる新しい神経形ハードウェアからインスピレーションを得ている。
これらの系は創発的な脳様ダイナミクスを示し、最適性能は動的相転移で示される。
これらのネットワークでは、ランダムアクセスメモリを介してニューロモルフィックハードウェアが提供するグローバルな制御性とは対照的に、システムダイナミクスを変調する電極の数が限られている。
学習から学習までのフレームワークが最適化の文脈でこの課題に効果的に対処できることを実証する。
このフレームワークを用いて,貯水池の最適ハイパーパラメータの同定に成功した。
この知見は, 導電性経路の「形成の端」において, 旋回貯留層の最適性能が生じることを示唆する以前の研究と一致している。
さらに,これらのシステムはスパイクニューロンで観察される膜電位の挙動を模倣し,スパイクベースと連続過程の界面として機能する可能性が示唆された。 Memristive reservoirs draw inspiration from a novel class of neuromorphic hardware known as nanowire networks. These systems display emergent brain-like dynamics, with optimal performance demonstrated at dynamical phase transitions. In these networks, a limited number of electrodes are available to modulate system dynamics, in contrast to the global controllability offered by neuromorphic hardware through random access memories. We demonstrate that the learn-to-learn framework can effectively address this challenge in the context of optimization. Using the framework, we successfully identify the optimal hyperparameters for the reservoir. This finding aligns with previous research, which suggests that the optimal performance of a memristive reservoir occurs at the `edge of formation' of a conductive pathway. Furthermore, our results show that these systems can mimic membrane potential behavior observed in spiking neurons, and may serve as an interface between spike-based and continuous processes. | 翻訳日:2023-06-23 15:25:11 公開日:2023-06-22 |
# 事前訓練画像表現における純粋特徴の同定と識別 Identifying and Disentangling Spurious Features in Pretrained Image Representations ( http://arxiv.org/abs/2306.12673v1 ) ライセンス: Link先を確認 | Rafayel Darbinyan, Hrayr Harutyunyan, Aram H. Markosyan, Hrant Khachatrian | (参考訳) ニューラルネットワークはその予測に急激な相関を導入し、これらの相関が保たなければ性能が低下する。
最近の研究は、事前訓練された表現の修正と、素早い特徴を使用しない分類ヘッドの訓練を提案する。
予備訓練された表現において,突発的特徴がどのように表現されるかを調査し,突発的特徴に関する情報を除去するための戦略を探る。
Waterbirdsデータセットといくつかの事前訓練された表現を考えると、急激な特徴を十分に理解しているとしても、その除去は絡み合った表現のため簡単ではない。
そこで本研究では,表現をコア,スプリアス,その他の特徴に分離する線形オートエンコーダトレーニング手法を提案する。
符号化に適用した2つの効果的なスプリアス特徴除去手法を提案し、最悪のグループ精度で測定された分類性能を著しく改善する。 Neural networks employ spurious correlations in their predictions, resulting in decreased performance when these correlations do not hold. Recent works suggest fixing pretrained representations and training a classification head that does not use spurious features. We investigate how spurious features are represented in pretrained representations and explore strategies for removing information about spurious features. Considering the Waterbirds dataset and a few pretrained representations, we find that even with full knowledge of spurious features, their removal is not straightforward due to entangled representation. To address this, we propose a linear autoencoder training method to separate the representation into core, spurious, and other features. We propose two effective spurious feature removal approaches that are applied to the encoding and significantly improve classification performance measured by worst group accuracy. | 翻訳日:2023-06-23 15:24:57 公開日:2023-06-22 |
# 単語モデルから世界モデルへ:自然言語から思考の確率的言語への翻訳 From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought ( http://arxiv.org/abs/2306.12672v1 ) ライセンス: Link先を確認 | Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum | (参考訳) 言語は下流の思考にどのように影響しますか?
特に、人間はどのようにして言語から意味を作るのか -- そして、より人間的な方法で考える機械を構築するために、言語的意味の理論をどのように活用できるのか?
本稿では,言語ニューラルモデルと有理推論の確率的モデルを組み合わせた言語インフォームド思考のための計算フレームワークである「textit{rational meaning construction」を提案する。
言語的意味を自然言語から思考の確率的言語(plot)への文脈に敏感なマッピングとして構成し、確率的、生成的世界モデリングのための汎用的シンボリック基盤とした。
私たちは、フレキシブルなコモンセンス推論のための表現型表現である \textit{probabilistic programs} で思考をモデル化し、また、確率的プログラミング言語において、自然言語発話からコード表現への広範囲な翻訳をサポートする \textit{large language models} (llms) で意味構築をモデル化します。
我々は認知科学の4つのコアドメイン(確率的推論、論理的および関係的推論、視覚的および物理的推論、エージェントとその計画に関する社会的推論)をカバーする例を通して、行動の枠組みを説明します。
各プログラムのベイジアン推論はコヒーレントでロバストなコモンセンス推論をサポートするのに対し,LLMは現実的に適切な言語的意味を捉えた文脈依存翻訳を生成する。
我々はフレームワークを拡張し、認知的なモチベーションを持つ象徴的モジュールを統合し、言語から統一された常識的思考インターフェースを提供する。
最後に,言語が世界モデルの構築をいかに進めるかを考察する。 How does language inform our downstream thinking? In particular, how do humans make meaning from language -- and how can we leverage a theory of linguistic meaning to build machines that think in more human-like ways? In this paper, we propose \textit{rational meaning construction}, a computational framework for language-informed thinking that combines neural models of language with probabilistic models for rational inference. We frame linguistic meaning as a context-sensitive mapping from natural language into a \textit{probabilistic language of thought} (PLoT) -- a general-purpose symbolic substrate for probabilistic, generative world modeling. Our architecture integrates two powerful computational tools that have not previously come together: we model thinking with \textit{probabilistic programs}, an expressive representation for flexible commonsense reasoning; and we model meaning construction with \textit{large language models} (LLMs), which support broad-coverage translation from natural language utterances to code expressions in a probabilistic programming language. We illustrate our framework in action through examples covering four core domains from cognitive science: probabilistic reasoning, logical and relational reasoning, visual and physical reasoning, and social reasoning about agents and their plans. In each, we show that LLMs can generate context-sensitive translations that capture pragmatically-appropriate linguistic meanings, while Bayesian inference with the generated programs supports coherent and robust commonsense reasoning. We extend our framework to integrate cognitively-motivated symbolic modules to provide a unified commonsense thinking interface from language. Finally, we explore how language can drive the construction of world models themselves. | 翻訳日:2023-06-23 15:24:44 公開日:2023-06-22 |
# 一般化低域更新:低域学習データ修正のためのモデルパラメータ境界 Generalized Low-Rank Update: Model Parameter Bounds for Low-Rank Training Data Modifications ( http://arxiv.org/abs/2306.12670v1 ) ライセンス: Link先を確認 | Hiroyuki Hanada, Noriaki Hashimoto, Kouichi Taji, Ichiro Takeuchi | (参考訳) 本研究では,少数のインスタンスや機能が加えられたり削除されたりした場合に最適なモデルが得られるインクリメンタル機械学習(ML)手法を開発した。
この問題は、クロスバリデーション(cv)や特徴選択のようなモデル選択において実際的に重要である。
線形推定子として知られるmlメソッドのクラスには、低ランク更新と呼ばれる効率的なモデル更新フレームワークがあり、データマトリックス内の少数の行と列の変更を効果的に処理できる。
しかしながら、線形推定器以外のMLメソッドでは、特定の計算複雑性の中で更新されたソリューションに関する知識を得るための包括的なフレームワークが現在存在しない。
そこで本研究では,線形推定器の低ランク更新フレームワークを,SVMやロジスティック回帰などの一般的な手法を含む正規化された経験的リスク最小化のクラスとして定式化したMLメソッドに拡張する,一般化低ランク更新(GLRU)手法を提案する。
提案手法は適用範囲を広げるだけでなく,データセットの変更量に比例した計算複雑性を持つ更新されたソリューションに関する情報も提供する。
GLRU法の有効性を示すため,他のベースライン法と比較して,クロスバリデーションと特徴選択の効率を示す実験を行った。 In this study, we have developed an incremental machine learning (ML) method that efficiently obtains the optimal model when a small number of instances or features are added or removed. This problem holds practical importance in model selection, such as cross-validation (CV) and feature selection. Among the class of ML methods known as linear estimators, there exists an efficient model update framework called the low-rank update that can effectively handle changes in a small number of rows and columns within the data matrix. However, for ML methods beyond linear estimators, there is currently no comprehensive framework available to obtain knowledge about the updated solution within a specific computational complexity. In light of this, our study introduces a method called the Generalized Low-Rank Update (GLRU) which extends the low-rank update framework of linear estimators to ML methods formulated as a certain class of regularized empirical risk minimization, including commonly used methods such as SVM and logistic regression. The proposed GLRU method not only expands the range of its applicability but also provides information about the updated solutions with a computational complexity proportional to the amount of dataset changes. To demonstrate the effectiveness of the GLRU method, we conduct experiments showcasing its efficiency in performing cross-validation and feature selection compared to other baseline methods. | 翻訳日:2023-06-23 15:24:12 公開日:2023-06-22 |
# 確率的並列化スパイクニューロンによるsn学習の促進 Accelerating SNN Training with Stochastic Parallelizable Spiking Neurons ( http://arxiv.org/abs/2306.12666v1 ) ライセンス: Link先を確認 | Sidi Yaya Arnaud Yarga, Sean U. N. Wood | (参考訳) spiking neural networks(snn)は、特にニューロモルフィックなハードウェアにおいて、少ないエネルギーで時空間的特徴を学習することができる。
深層学習において最も広く使われているスパイクニューロンはLeaky Integrate and Fire(LIF)ニューロンである。
しかし LIF ニューロンは、t 時の状態の計算は t-1 時の状態の計算に依存するため、順次動作する。
この制限はrecurrent neural networks(rnn)と共有され、gpu(graphics processing unit)でのトレーニングが遅くなる。
本稿では、LIFニューロンの逐次訓練制限を克服するために、SPSN(Stochastic Parallelizable Spiking Neuron)を提案する。
線形積分成分を非線形スパイク関数から分離することにより、SPSNは時間とともに並列に実行できる。
提案手法は、Spking Heidelberg Digits(SHD)データセット上のフィードフォワードニューラルネットワークの最先端技術と同等のパフォーマンスを示し、LIFネットワークよりも10倍高速にトレーニングし、同じネットワークアーキテクチャで非スパイクネットワークより優れたパフォーマンスを実現する。
10000時間ステップの長い入力シーケンスについて,提案手法が4000倍高速トレーニングを実現することを示し,大規模データセットのsnトレーニングを高速化するための提案手法の可能性を示した。 Spiking neural networks (SNN) are able to learn spatiotemporal features while using less energy, especially on neuromorphic hardware. The most widely used spiking neuron in deep learning is the Leaky Integrate and Fire (LIF) neuron. LIF neurons operate sequentially, however, since the computation of state at time t relies on the state at time t-1 being computed. This limitation is shared with Recurrent Neural Networks (RNN) and results in slow training on Graphics Processing Units (GPU). In this paper, we propose the Stochastic Parallelizable Spiking Neuron (SPSN) to overcome the sequential training limitation of LIF neurons. By separating the linear integration component from the non-linear spiking function, SPSN can be run in parallel over time. The proposed approach results in performance comparable with the state-of-the-art for feedforward neural networks on the Spiking Heidelberg Digits (SHD) dataset, outperforming LIF networks while training 10 times faster and outperforming non-spiking networks with the same network architecture. For longer input sequences of 10000 time-steps, we show that the proposed approach results in 4000 times faster training, thus demonstrating the potential of the proposed approach to accelerate SNN training for very large datasets. | 翻訳日:2023-06-23 15:23:48 公開日:2023-06-22 |
# optiforest: 異常検出のための最適孤立林 OptIForest: Optimal Isolation Forest for Anomaly Detection ( http://arxiv.org/abs/2306.12703v1 ) ライセンス: Link先を確認 | Haolong Xiang, Xuyun Zhang, Hongsheng Hu, Lianyong Qi, Wanchun Dou, Mark Dras, Amin Beheshti and Xiaolong Xu | (参考訳) 異常検出は、サイバーセキュリティにおける侵入検知、金融リスク検出、人間の健康モニタリングなど、様々な分野において重要な役割を担っている。
様々な異常検出手法が提案されており、分離林機構に基づくカテゴリーは、その単純さ、有効性、効率性から際立っている。
分離された森の大半はバイナリ構造を使っているが、LSHiForestフレームワークは、マルチフォークの分離ツリー構造がより良い検出性能をもたらすことを示した。
しかし,枝分かれ要因に関して,孤立林に最適な樹木構造について,根本的かつ実践的に重要な疑問に答える理論的研究はない。
本稿では,この問いに回答し,分離木に対する最適分岐係数を決定するための分離効率の理論を定式化する。
理論的基盤を基礎として,クラスタリングに基づく学習をハッシュに組み込むことで,データからより多くの情報を学習し,より優れたアイソレーション品質を実現する。
このアプローチの理論的根拠は、OptIForestのバイアス低減によって達成されるより優れたバイアス分散トレードオフに依存します。
比較・アブレーション研究のための一連のベンチマークデータセットに関する広範囲な実験により,本手法は,ディープラーニングに基づく手法を含む最先端技術よりも,より効率的に,かつロバストに検出性能を発揮できることが証明された。 Anomaly detection plays an increasingly important role in various fields for critical tasks such as intrusion detection in cybersecurity, financial risk detection, and human health monitoring. A variety of anomaly detection methods have been proposed, and a category based on the isolation forest mechanism stands out due to its simplicity, effectiveness, and efficiency, e.g., iForest is often employed as a state-of-the-art detector for real deployment. While the majority of isolation forests use the binary structure, a framework LSHiForest has demonstrated that the multi-fork isolation tree structure can lead to better detection performance. However, there is no theoretical work answering the fundamentally and practically important question on the optimal tree structure for an isolation forest with respect to the branching factor. In this paper, we establish a theory on isolation efficiency to answer the question and determine the optimal branching factor for an isolation tree. Based on the theoretical underpinning, we design a practical optimal isolation forest OptIForest incorporating clustering based learning to hash which enables more information to be learned from data for better isolation quality. The rationale of our approach relies on a better bias-variance trade-off achieved by bias reduction in OptIForest. Extensive experiments on a series of benchmarking datasets for comparative and ablation studies demonstrate that our approach can efficiently and robustly achieve better detection performance in general than the state-of-the-arts including the deep learning based methods. | 翻訳日:2023-06-23 15:18:24 公開日:2023-06-22 |
# 伝送線路形状における高インピーダンスジョセフソン接合共振器 High Impedance Josephson Junction Resonators in the Transmission Line Geometry ( http://arxiv.org/abs/2306.12701v1 ) ライセンス: Link先を確認 | Antti Ranni, Harald Havir, Subhomoy Haldar, Ville F. Maisi | (参考訳) 本稿では,ジョセフソン接合を用いたマイクロ波共振器の実験的検討を行う。
接合部は伝送線路形状に埋め込まれており、線路の長さごとのインダクタンスを増加させる。
入力/出力結合強度が異なる2つのデバイスを比較することで、結合コンデンサは共振器の総容量にかなりの量を加えることを示す。
これにより、結合容量の高い共振器は、接合部からのインダクタンスと端部からのキャパシタンスとの共振器として機能する。
また、回路解析により、共振器の入力結合と出力結合は最大値$\omega_r Z_0 /4 Z_r$に制限され、そこでは$\omega_r$が共振周波数、$Z_0$と$Z_r$が共振器の特性インピーダンスであることを示す。 In this article we present an experimental study of microwave resonators made out of Josephson junctions. The junctions are embedded in a transmission line geometry so that they increase the inductance per length for the line. By comparing two devices with different input/output coupling strengths, we show that the coupling capacitors, however, add a significant amount to the total capacitance of the resonator. This makes the resonators with high coupling capacitance to act rather as lumped element resonators with inductance from the junctions and capacitance from the end sections. Based on a circuit analysis, we also show that the input and output couplings of the resonator are limited to a maximum value of $\omega_r Z_0 /4 Z_r$ where $\omega_r$ is the resonance frequency and $Z_0$ and $Z_r$ are the characteristic impedances of the input/output lines and the resonator respectively. | 翻訳日:2023-06-23 15:18:01 公開日:2023-06-22 |
# ばらつき伝達と学習速度適応を用いたインクリメンタル成長ニューラルネットワークによる加速訓練 Accelerated Training via Incrementally Growing Neural Networks using Variance Transfer and Learning Rate Adaptation ( http://arxiv.org/abs/2306.12700v1 ) ライセンス: Link先を確認 | Xin Yuan, Pedro Savarese, Michael Maire | (参考訳) パラメータ化および最適化戦略が学習ダイナミクスに与える影響を考慮して設計されるニューラルネットワークを効率的に育成する手法を開発した。
単純な複製ヒューリスティックに従ったり、補助的な勾配に基づく局所最適化を利用する既存の成長手法とは異なり、アーキテクチャの進化に伴って動的に重み、アクティベーション、勾配スケーリングを安定化し、ネットワークの推論機能を維持するパラメータ化スキームを構築する。
異なる成長段階にあるサブネットワークに分散したトレーニングの不均衡による最適化の難しさを解決するために,これらのサブコンポーネントの勾配寄与を再均衡させる学習速度適応機構を提案する。
実験結果から,本手法は大規模固定サイズモデルの訓練よりも精度が向上すると同時に,当初の計算予算の大部分を節約できることがわかった。
これらの改善が実際のウォールクロックトレーニングのスピードアップに結びつくことを実証する。 We develop an approach to efficiently grow neural networks, within which parameterization and optimization strategies are designed by considering their effects on the training dynamics. Unlike existing growing methods, which follow simple replication heuristics or utilize auxiliary gradient-based local optimization, we craft a parameterization scheme which dynamically stabilizes weight, activation, and gradient scaling as the architecture evolves, and maintains the inference functionality of the network. To address the optimization difficulty resulting from imbalanced training effort distributed to subnetworks fading in at different growth phases, we propose a learning rate adaption mechanism that rebalances the gradient contribution of these separate subcomponents. Experimental results show that our method achieves comparable or better accuracy than training large fixed-size models, while saving a substantial portion of the original computation budget for training. We demonstrate that these gains translate into real wall-clock training speedups. | 翻訳日:2023-06-23 15:17:42 公開日:2023-06-22 |
# indic to indic languagesのための多言語ニューラルマシン翻訳システム Multilingual Neural Machine Translation System for Indic to Indic Languages ( http://arxiv.org/abs/2306.12693v1 ) ライセンス: Link先を確認 | Sudhansu Bala Das, Divyajyoti Panda, Tapas Kumar Mishra, Bidyut Kr. Patra, Asif Ekbal | (参考訳) 本稿では,サマナンタルコーパス上に実装された11個のILに対して,Indic-to-Indic (IL-IL) MNMTベースラインモデルを提案する。
全てのモデルはBLEUスコアを用いて評価される。
また、東インド・アーリア語(EI)、ドラヴィディア語(DR)、西インド・アーリア語(WI)の3つのグループに分類される。
言語関連がmnmtモデル効率に及ぼす影響について検討した。
英語 (EN) から IL への大型コーパスの存在から, EN をピボットとした MNMT IL-IL モデルの構築と検討を行った。
これを実現するために、関連言語の使用の有無に関わらず、英語インデックス(EN-IL)モデルも開発されている。
その結果, 関連言語の使用はWI群にのみ有益であり, EI群には有害であり, DR群には不決定性を示すが, EN-ILモデルには有用であることがわかった。
したがって、関連する言語群は、ピボットMNMTモデルの開発に使用される。
さらに、ILコーパスは、対応するスクリプトから修正されたITRANSスクリプトに変換され、以前のアプローチから最高のMNMTモデルが変換コーパス上に構築される。
ピボットモデルを用いた場合,最小BLEUスコアがAS-TA,最大スコアがPA-HIでMNMTベースラインが大幅に向上することが観察された。
AS、ML、TAはBLEUスコアが最も低いが、HI、PA、GUは最高である。
書き起こしは、ほとんど例外なくモデルにも役立ちます。
スコアの最良の増加はML、TA、BNで観測され、最悪の平均増加はKN、HI、PAの各言語で観測される。
最も優れたモデルはPAWI翻訳コーパスで訓練されたPA-HI言語ペアで、24.29BLEUを提供する。 This paper gives an Indic-to-Indic (IL-IL) MNMT baseline model for 11 ILs implemented on the Samanantar corpus and analyzed on the Flores-200 corpus. All the models are evaluated using the BLEU score. In addition, the languages are classified under three groups namely East Indo- Aryan (EI), Dravidian (DR), and West Indo-Aryan (WI). The effect of language relatedness on MNMT model efficiency is studied. Owing to the presence of large corpora from English (EN) to ILs, MNMT IL-IL models using EN as a pivot are also built and examined. To achieve this, English- Indic (EN-IL) models are also developed, with and without the usage of related languages. Results reveal that using related languages is beneficial for the WI group only, while it is detrimental for the EI group and shows an inconclusive effect on the DR group, but it is useful for EN-IL models. Thus, related language groups are used to develop pivot MNMT models. Furthermore, the IL corpora are transliterated from the corresponding scripts to a modified ITRANS script, and the best MNMT models from the previous approaches are built on the transliterated corpus. It is observed that the usage of pivot models greatly improves MNMT baselines with AS-TA achieving the minimum BLEU score and PA-HI achieving the maximum score. Among languages, AS, ML, and TA achieve the lowest BLEU score, whereas HI, PA, and GU perform the best. Transliteration also helps the models with few exceptions. The best increment of scores is observed in ML, TA, and BN and the worst average increment is observed in KN, HI, and PA, across all languages. The best model obtained is the PA-HI language pair trained on PAWI transliterated corpus which gives 24.29 BLEU. | 翻訳日:2023-06-23 15:17:25 公開日:2023-06-22 |
# 帯域およびリソース制約IoTシステムにおけるフレキシブル分割DNNのためのスリムエンコーダ Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource Constrained IoT Systems ( http://arxiv.org/abs/2306.12691v1 ) ライセンス: Link先を確認 | Juliano S. Assine, J. C. S. Santos Filho, Eduardo Valle, Marco Levorato | (参考訳) モバイルエッジデバイスでの大規模ディープニューラルネットワーク(DNN)の実行には、ハードウェア機能への要求を示唆しながら、エネルギーなどの重要なリソースをかなり消費する必要がある。
エッジコンピューティングに基づくアプローチでは、モデルの実行は5Gインフラストラクチャのエッジに位置する計算可能デバイスにオフロードされる。
後者のアプローチの主な問題は、限られた時間と限られた容量で、情報豊富な信号を無線リンクに転送する必要性である。
最近の分割コンピューティングパラダイムは、DNNモデルの実行をシステムの層に分散することで、モバイルデバイスに最小限の計算負荷を課し、送信するデータの量を減らすことで、この問題を解決する。
本稿では,スリム化可能なアンサンブルエンコーダに基づく新しいスプリットコンピューティング手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
これは、同じ適応がコストのかかるコンテキストスイッチングとモデルローディングを必要とする既存のアプローチとは対照的である。
さらに,本モデルでは,圧縮効率や実行時間,特に弱いモバイルデバイスの状況において,既存のソリューションよりも優れています。
本稿では,最も先進的なスプリットコンピューティングソリューションと,gpuレスデバイスにおける実験的評価を包括的に比較する。 The execution of large deep neural networks (DNN) at mobile edge devices requires considerable consumption of critical resources, such as energy, while imposing demands on hardware capabilities. In approaches based on edge computing the execution of the models is offloaded to a compute-capable device positioned at the edge of 5G infrastructures. The main issue of the latter class of approaches is the need to transport information-rich signals over wireless links with limited and time-varying capacity. The recent split computing paradigm attempts to resolve this impasse by distributing the execution of DNN models across the layers of the systems to reduce the amount of data to be transmitted while imposing minimal computing load on mobile devices. In this context, we propose a novel split computing approach based on slimmable ensemble encoders. The key advantage of our design is the ability to adapt computational load and transmitted data size in real-time with minimal overhead and time. This is in contrast with existing approaches, where the same adaptation requires costly context switching and model loading. Moreover, our model outperforms existing solutions in terms of compression efficacy and execution time, especially in the context of weak mobile devices. We present a comprehensive comparison with the most advanced split computing solutions, as well as an experimental evaluation on GPU-less devices. | 翻訳日:2023-06-23 15:16:52 公開日:2023-06-22 |
# Vec2Vec: 高忠実度テキスト埋め込み変換のためのコンパクトニューラルネットワークアプローチ Vec2Vec: A Compact Neural Network Approach for Transforming Text Embeddings with High Fidelity ( http://arxiv.org/abs/2306.12689v1 ) ライセンス: Link先を確認 | Andrew Kean Gao | (参考訳) ベクトル埋め込みは多くの言語関連タスクのユビキタスツールとなっている。
主要な埋め込みモデルはOpenAIのtext-ada-002で、約6,000ワードを1,536次元ベクトルに埋め込むことができる。
強力だが、text-ada-002はオープンソースではない。
768次元mpnet埋め込みをテキスト-ada-002埋め込みに変換するために、単純なニューラルネットワークを訓練した。
われわれは5万件のオンライン食品レビューをまとめた。
我々は、レビュー毎にMPNetとテキスト-ada-002埋め込みを計算し、75エポックまでの単純なニューラルネットワークを訓練した。
ニューラルネットワークは、所定のMPNET埋め込みに対応するテキスト-ada-002埋め込みを予測するように設計されている。
私たちのモデルは、保留テストデータセットで1万件の未確認レビューに対して平均0.932のコサイン類似性を達成しました。
テキスト-ada-002組込みレビューによるベクトル探索のための予測埋め込みの質を手作業で評価した。
実際のテキスト-ada-002組込みほど良くないが、予測された組込みは、非常に関連性の高いレビューを取得することができた。
最後のモデルであるVec2Vecは軽量(80MB)で高速です。
今後のステップには、より高度なアーキテクチャでニューラルネットワークをトレーニングすることと、パフォーマンス向上のためにペア埋め込みのデータセットを大きくする、などが含まれる。
埋め込みスペースの変換とアライメントは、相互運用性、プロプライエタリなモデルへの依存の制限、データのプライバシ保護、コスト削減、オフライン操作に有効である。 Vector embeddings have become ubiquitous tools for many language-related tasks. A leading embedding model is OpenAI's text-ada-002 which can embed approximately 6,000 words into a 1,536-dimensional vector. While powerful, text-ada-002 is not open source and is only available via API. We trained a simple neural network to convert open-source 768-dimensional MPNet embeddings into text-ada-002 embeddings. We compiled a subset of 50,000 online food reviews. We calculated MPNet and text-ada-002 embeddings for each review and trained a simple neural network to for 75 epochs. The neural network was designed to predict the corresponding text-ada-002 embedding for a given MPNET embedding. Our model achieved an average cosine similarity of 0.932 on 10,000 unseen reviews in our held-out test dataset. We manually assessed the quality of our predicted embeddings for vector search over text-ada-002-embedded reviews. While not as good as real text-ada-002 embeddings, predicted embeddings were able to retrieve highly relevant reviews. Our final model, Vec2Vec, is lightweight (<80 MB) and fast. Future steps include training a neural network with a more sophisticated architecture and a larger dataset of paired embeddings to achieve greater performance. The ability to convert between and align embedding spaces may be helpful for interoperability, limiting dependence on proprietary models, protecting data privacy, reducing costs, and offline operations. | 翻訳日:2023-06-23 15:16:32 公開日:2023-06-22 |
# 機械学習における量子強化対向ロバスト性を目指して Towards quantum enhanced adversarial robustness in machine learning ( http://arxiv.org/abs/2306.12688v1 ) ライセンス: Link先を確認 | Maxwell T. West, Shu-Lok Tsang, Jia S. Low, Charles D. Hill, Christopher Leckie, Lloyd C.L. Hollenberg, Sarah M. Erfani, Muhammad Usman | (参考訳) 機械学習アルゴリズムは、画像分類や特徴検出などのデータ駆動タスクのための強力なツールであるが、その脆弱性は、アルゴリズムを騙すために操作された入力サンプルである。
機械学習と量子コンピューティングの統合は、精度と計算効率の向上だけでなく、敵対的攻撃に対する優れた堅牢性を提供するツールをもたらす可能性がある。
実際、近年の研究では、量子力学的現象を用いて敵攻撃を防ぎ、量子対向機械学習(QAML)の分野が急速に発展し、新たな量子優位性を生み出す可能性がある。
有望な早期成果にもかかわらず、実世界の堅牢なQAMLツールの構築には依然として課題がある。
本稿では,近年のQAMLの進歩と重要な課題について述べる。
また、量子コンピューティングハードウェアのスケールアップとノイズレベルの低減により、QAMLアプローチの実用性への道筋を決定できる将来の研究方向性を提案する。 Machine learning algorithms are powerful tools for data driven tasks such as image classification and feature detection, however their vulnerability to adversarial examples - input samples manipulated to fool the algorithm - remains a serious challenge. The integration of machine learning with quantum computing has the potential to yield tools offering not only better accuracy and computational efficiency, but also superior robustness against adversarial attacks. Indeed, recent work has employed quantum mechanical phenomena to defend against adversarial attacks, spurring the rapid development of the field of quantum adversarial machine learning (QAML) and potentially yielding a new source of quantum advantage. Despite promising early results, there remain challenges towards building robust real-world QAML tools. In this review we discuss recent progress in QAML and identify key challenges. We also suggest future research directions which could determine the route to practicality for QAML approaches as quantum computing hardware scales up and noise levels are reduced. | 翻訳日:2023-06-23 15:16:09 公開日:2023-06-22 |
# 知識グラフにおける関係予測のための説明可能表現 Explainable Representations for Relation Prediction in Knowledge Graphs ( http://arxiv.org/abs/2306.12687v1 ) ライセンス: Link先を確認 | Rita T. Sousa, Sara Silva, Catia Pesquita | (参考訳) 知識グラフは実世界の実体とその関係をオントロジーによって支えられた意味豊かな構造で表現する。
このデータを機械学習手法で探索することは、しばしば知識グラフの埋め込みに依存し、構造的および局所的なグラフ近傍のプロパティを保持するエンティティの潜在表現を生成するが、説明責任を犠牲にする。
しかし、リンクや関係予測のようなタスクでは、複雑なアプリケーションや重要なアプリケーションをサポートするために、どの特定の特徴が関係をよりよく説明するかを理解することが不可欠である。
本稿では,知識グラフにおける関係予測を支援する新しい表現法である seek を提案する。
エンティティ間の関連する共有意味的側面(すなわちサブグラフ)と、各サブグラフの学習表現を識別し、多面的かつ説明可能な表現を生成する。
本研究では,タンパク質間相互作用予測と遺伝子発現関連予測の2つの実世界の高度に複雑な関係予測タスクについてSEEKを評価する。
確立されたベンチマークを用いた広範囲な分析により,SEEKは標準的な学習表現法よりもはるかに優れた性能を示し,共有の意味的側面に基づく十分な説明と必要な説明の両方を同定する。 Knowledge graphs represent real-world entities and their relations in a semantically-rich structure supported by ontologies. Exploring this data with machine learning methods often relies on knowledge graph embeddings, which produce latent representations of entities that preserve structural and local graph neighbourhood properties, but sacrifice explainability. However, in tasks such as link or relation prediction, understanding which specific features better explain a relation is crucial to support complex or critical applications. We propose SEEK, a novel approach for explainable representations to support relation prediction in knowledge graphs. It is based on identifying relevant shared semantic aspects (i.e., subgraphs) between entities and learning representations for each subgraph, producing a multi-faceted and explainable representation. We evaluate SEEK on two real-world highly complex relation prediction tasks: protein-protein interaction prediction and gene-disease association prediction. Our extensive analysis using established benchmarks demonstrates that SEEK achieves significantly better performance than standard learning representation methods while identifying both sufficient and necessary explanations based on shared semantic aspects. | 翻訳日:2023-06-23 15:15:53 公開日:2023-06-22 |
# FlowFace++: セマンティックフローを教師するエンドツーエンドの顔スワッピング FlowFace++: Explicit Semantic Flow-supervised End-to-End Face Swapping ( http://arxiv.org/abs/2306.12686v1 ) ライセンス: Link先を確認 | Yu Zhang, Hao Zeng, Bowen Ma, Wei Zhang, Zhimeng Zhang, Yu Ding, Tangjie Lv, Changjie Fan | (参考訳) 本研究は、明示的な意味的フロー監督とエンドツーエンドアーキテクチャを利用して、シェイプアウェアなフェイススワッピングを容易にする新しいフェイススワッピングフレームワークflowface++を提案する。
具体的には、顔形状判別器を事前訓練し、顔交換ネットワークを監督する。
識別器は形状を認識でき、対象面とソース面との形状の相違を明示的に計算するため、セマンティックフロー誘導操作により、顔交換ネットワークを最適化し、極めて現実的な結果を生成する。
顔交換ネットワークは、事前訓練された顔マスク式オートエンコーダ(mae)、クロスアテンション融合モジュール、畳み込みデコーダのスタックである。
MAEは、ターゲットとソースの顔に統一されたきめ細かい顔画像表現空間を提供し、最終的な現実的な結果を促進する。
クロスアテンション融合モジュールは、ターゲット画像の他の属性(表情、頭部ポーズ、髪型、背景、照明など)を保存しつつ、細粒度の潜在空間でソースからターゲットへの顔交換を行う。
最後に、畳み込み復号器は、クロスアテンション融合モジュールからのフェイススワッピング潜水埋め込みに応じてスワップ結果をさらに合成する。
in-the-wild faceに関する広範囲な定量的・定性的な実験は、flowface++が最先端を著しく上回っていることを示している。 This work proposes a novel face-swapping framework FlowFace++, utilizing explicit semantic flow supervision and end-to-end architecture to facilitate shape-aware face-swapping. Specifically, our work pretrains a facial shape discriminator to supervise the face swapping network. The discriminator is shape-aware and relies on a semantic flow-guided operation to explicitly calculate the shape discrepancies between the target and source faces, thus optimizing the face swapping network to generate highly realistic results. The face swapping network is a stack of a pre-trained face-masked autoencoder (MAE), a cross-attention fusion module, and a convolutional decoder. The MAE provides a fine-grained facial image representation space, which is unified for the target and source faces and thus facilitates final realistic results. The cross-attention fusion module carries out the source-to-target face swapping in a fine-grained latent space while preserving other attributes of the target image (e.g. expression, head pose, hair, background, illumination, etc). Lastly, the convolutional decoder further synthesizes the swapping results according to the face-swapping latent embedding from the cross-attention fusion module. Extensive quantitative and qualitative experiments on in-the-wild faces demonstrate that our FlowFace++ outperforms the state-of-the-art significantly, particularly while the source face is obstructed by uneven lighting or angle offset. | 翻訳日:2023-06-23 15:15:35 公開日:2023-06-22 |
# 逆移動可能性に対する後方伝播の再考 Rethinking the Backward Propagation for Adversarial Transferability ( http://arxiv.org/abs/2306.12685v1 ) ライセンス: Link先を確認 | Xiaosen Wang, Kangheng Tong, Kun He | (参考訳) 転送ベースの攻撃は、surrogateモデル上で逆の例を生成し、他のブラックボックスモデルをアクセスせずに誤解させ、現実世界のアプリケーションを攻撃することを約束する。
近年,サロゲートモデルを見落としている対向移動性を高めるために,いくつかの研究が提案されている。
本研究では,非線形層(ReLU,max-poolingなど)が後方伝播中の勾配を乱し,損失関数に勾配w.r.t.入出力画像が不正確であることを示す。
このような乱れが敵の例の伝達性を損なうと仮定し実証する。
そこで本研究では,BPA (Backward Propagation Attack) と呼ばれる新しい手法を提案し,入力画像の勾配w.r.t.と損失関数の関係性を高め,高い伝達性を持つ逆例を生成する。
具体的には、BPAはReLUの誘導体として非単調関数を採用し、温度にソフトマックスを組み込んで最大プーリングの誘導体を滑らかにし、勾配の後方伝播時の情報損失を軽減する。
imagenetデータセットの実証結果によると、この手法は逆転送可能性を大きく向上させるだけでなく、既存の転送ベースの攻撃にも有効である。 Transfer-based attacks generate adversarial examples on the surrogate model, which can mislead other black-box models without any access, making it promising to attack real-world applications. Recently, several works have been proposed to boost adversarial transferability, in which the surrogate model is usually overlooked. In this work, we identify that non-linear layers (e.g., ReLU, max-pooling, etc.) truncate the gradient during backward propagation, making the gradient w.r.t.input image imprecise to the loss function. We hypothesize and empirically validate that such truncation undermines the transferability of adversarial examples. Based on these findings, we propose a novel method called Backward Propagation Attack (BPA) to increase the relevance between the gradient w.r.t. input image and loss function so as to generate adversarial examples with higher transferability. Specifically, BPA adopts a non-monotonic function as the derivative of ReLU and incorporates softmax with temperature to smooth the derivative of max-pooling, thereby mitigating the information loss during the backward propagation of gradients. Empirical results on the ImageNet dataset demonstrate that not only does our method substantially boost the adversarial transferability, but it also is general to existing transfer-based attacks. | 翻訳日:2023-06-23 15:15:06 公開日:2023-06-22 |
# ood状態アクションを超えて:クロスドメインオフライン強化学習をサポート Beyond OOD State Actions: Supported Cross-Domain Offline Reinforcement Learning ( http://arxiv.org/abs/2306.12755v1 ) ライセンス: Link先を確認 | Jinxin Liu, Ziqi Zhang, Zhenyu Wei, Zifeng Zhuang, Yachen Kang, Sibo Gai, Donglin Wang | (参考訳) オフライン強化学習(RL)は、事前収集データと固定データのみを用いてポリシーを学習することを目的としている。
RLにおける時間を要するオンラインインタラクションを避けながら、アウト・オブ・ディストリビューション(OOD)状態のアクションに挑戦し、トレーニングにデータ非効率に悩まされることが多い。
OOD状態のアクションに対処するために多くの努力がなされているが、後者(データ非効率)はオフラインのRLではほとんど注目されない。
そこで本稿では,オフラインデータが様々な遷移ダイナミクス(環境)から追加のソースドメインデータを取り込み,オフラインデータ効率に貢献することを想定した,クロスドメインオフラインrlを提案する。
そこで我々は,クロスドメインオフラインデータを利用する場合のood状態動作問題を超えて,ood遷移ダイナミクスの新たな課題を特定する。
そこで本稿では,上記のOOD問題に対処するために,サポート制約付き2つの目的を用いたBOSAを提案する。
BOSAは、クロスドメインのオフラインRL設定における広範な実験を通じて、ターゲットデータの10%しか使用せず、ターゲットデータの100パーセントを使用するSOTAオフラインRL性能の {74.4\%} を達成できることを示した。
さらに,BOSA をモデルベースオフライン RL に強制的に接続し,対象ドメインデータと新たに生成されたソースドメインデータとの動的ミスマッチを自然に回避するデータ拡張技術 (ソースドメインデータ生成に使用される) を通知する。 Offline reinforcement learning (RL) aims to learn a policy using only pre-collected and fixed data. Although avoiding the time-consuming online interactions in RL, it poses challenges for out-of-distribution (OOD) state actions and often suffers from data inefficiency for training. Despite many efforts being devoted to addressing OOD state actions, the latter (data inefficiency) receives little attention in offline RL. To address this, this paper proposes the cross-domain offline RL, which assumes offline data incorporate additional source-domain data from varying transition dynamics (environments), and expects it to contribute to the offline data efficiency. To do so, we identify a new challenge of OOD transition dynamics, beyond the common OOD state actions issue, when utilizing cross-domain offline data. Then, we propose our method BOSA, which employs two support-constrained objectives to address the above OOD issues. Through extensive experiments in the cross-domain offline RL setting, we demonstrate BOSA can greatly improve offline data efficiency: using only 10\% of the target data, BOSA could achieve {74.4\%} of the SOTA offline RL performance that uses 100\% of the target data. Additionally, we also show BOSA can be effortlessly plugged into model-based offline RL and noising data augmentation techniques (used for generating source-domain data), which naturally avoids the potential dynamics mismatch between target-domain data and newly generated source-domain data. | 翻訳日:2023-06-23 15:07:22 公開日:2023-06-22 |
# 単調ではない:過剰パラメータモデルにおける確率線探索の緩和 Don't be so Monotone: Relaxing Stochastic Line Search in Over-Parameterized Models ( http://arxiv.org/abs/2306.12747v1 ) ライセンス: Link先を確認 | Leonardo Galli, Holger Rauhut, Mark Schmidt | (参考訳) 近年の研究では,SGDとAdamの線形探索手法が,現代の過パラメータ設定において高速化できることが示されている。
しかしながら、既存の行探索は、(ミニ)バッチの目的関数の単調な減少を必要とするため、必要よりも小さいステップを取ることができる。
この条件を緩和し、より大きなステップサイズを受け入れるために、モノトーンライン探索法を探索する。
単調な減少の欠如にもかかわらず、単調の場合と同様に収束速度が速いことが証明される。
実験により,SGD/Adamの収束速度と一般化特性は,従来の単調線探索を超えていることがわかった。
本稿では,非単トン線探索とPolyak初期ステップサイズを組み合わせたPolyak NOnmonotone Stochastic (PoNoS)法を提案する。
さらに,大規模な初期ステップサイズを維持しながら,ほとんどのイテレーションにおいてバックトラックの量をゼロに削減する,新たなリセット手法を開発した。
我々の知る限り、最初の実行時比較では、行探索に基づく手法のエポックな優位性が全体的な計算時間に反映されることが示されている。 Recent works have shown that line search methods can speed up Stochastic Gradient Descent (SGD) and Adam in modern over-parameterized settings. However, existing line searches may take steps that are smaller than necessary since they require a monotone decrease of the (mini-)batch objective function. We explore nonmonotone line search methods to relax this condition and possibly accept larger step sizes. Despite the lack of a monotonic decrease, we prove the same fast rates of convergence as in the monotone case. Our experiments show that nonmonotone methods improve the speed of convergence and generalization properties of SGD/Adam even beyond the previous monotone line searches. We propose a POlyak NOnmonotone Stochastic (PoNoS) method, obtained by combining a nonmonotone line search with a Polyak initial step size. Furthermore, we develop a new resetting technique that in the majority of the iterations reduces the amount of backtracks to zero while still maintaining a large initial step size. To the best of our knowledge, a first runtime comparison shows that the epoch-wise advantage of line-search-based methods gets reflected in the overall computational time. | 翻訳日:2023-06-23 15:06:53 公開日:2023-06-22 |
# スパイクするか スパイクしないか?
snnとcnn fpga実装の定量的比較 To Spike or Not to Spike? A Quantitative Comparison of SNN and CNN FPGA Implementations ( http://arxiv.org/abs/2306.12742v1 ) ライセンス: Link先を確認 | Patrick Plagwitz, Frank Hannig, J\"urgen Teich, Oliver Keszocze | (参考訳) 畳み込みニューラルネットワーク(CNN)は画像分類などの様々な問題を解決するために広く利用されている。
計算とデータ集約性のため、CNNアクセラレータはASICやFPGAとして開発された。
アプリケーションの複雑さが増大すると、これらの加速器の資源コストとエネルギー要求が増大する。
Spiking Neural Networks(SNN)は、リソースとエネルギー効率の向上を約束するCNN実装の新たな代替品である。
本稿では、SNNアクセラレーターが、CNNと同等のエネルギー要求を本当に満たすかどうかについて論じる。
そこで本研究ではfpga用snnハードウェアアクセラレータの性能とエネルギー効率について解析する。
本稿では,スパイクイベントキューの新しい符号化方式と,SNNのエネルギー効率をさらに向上するための新しいメモリ構成手法を提案する。
どちらの手法も最先端のSNNアーキテクチャに統合され、MNIST、SVHN、CIFAR-10データセットと、2つの異なるサイズのモダンFPGAプラットフォーム上の対応するネットワークアーキテクチャで評価されている。
MNISTのような小規模のベンチマークでは、SNNの設計は、対応するCNNの実装よりも多少のレイテンシとエネルギー効率の利点を提供する。
SVHNやCIFAR-10のようなより複雑なベンチマークでは、傾向が逆になる。 Convolutional Neural Networks (CNNs) are widely employed to solve various problems, e.g., image classification. Due to their compute- and data-intensive nature, CNN accelerators have been developed as ASICs or on FPGAs. Increasing complexity of applications has caused resource costs and energy requirements of these accelerators to grow. Spiking Neural Networks (SNNs) are an emerging alternative to CNN implementations, promising higher resource and energy efficiency. The main research question addressed in this paper is whether SNN accelerators truly meet these expectations of reduced energy requirements compared to their CNN equivalents. For this purpose, we analyze multiple SNN hardware accelerators for FPGAs regarding performance and energy efficiency. We present a novel encoding scheme of spike event queues and a novel memory organization technique to improve SNN energy efficiency further. Both techniques have been integrated into a state-of-the-art SNN architecture and evaluated for MNIST, SVHN, and CIFAR-10 datasets and corresponding network architectures on two differently sized modern FPGA platforms. For small-scale benchmarks such as MNIST, SNN designs provide rather no or little latency and energy efficiency advantages over corresponding CNN implementations. For more complex benchmarks such as SVHN and CIFAR-10, the trend reverses. | 翻訳日:2023-06-23 15:06:35 公開日:2023-06-22 |
# SAM統合補間ネットワークのためのラダーファインチューニング手法 Ladder Fine-tuning approach for SAM integrating complementary network ( http://arxiv.org/abs/2306.12737v1 ) ライセンス: Link先を確認 | Shurong Chai, Rahul Kumar Jain, Shiyu Teng, Jiaqing Liu, Yinhao Li, Tomoko Tateyama, Yen-wei Chen | (参考訳) 近年,コンピュータビジョンの分野で様々な課題を示す基礎モデルが紹介されている。
Segment Anything Model (SAM)のようなこれらのモデルは、巨大なデータセットを使用してトレーニングされた一般化モデルである。
現在進行中の研究は、医療画像などの特定の領域におけるこれらの一般化モデルの有効利用を探求することに焦点を当てている。
しかし,医療画像では,プライバシの懸念やその他の要因によるトレーニングサンプルの欠如が,医療画像分割タスクに一般化モデルを適用する上で大きな課題となっている。
この問題に対処するため、これらのモデルの効果的な微調整は、それらの最適利用を保証するために不可欠である。
本研究では,医療画像分割のための標準SAMネットワークとともに,補完的な畳み込みニューラルネットワーク(CNN)を提案する。
大きな基礎モデルの微調整の負担を軽減し、コスト効率のよいトレインニグスキームを実装するため、追加のcnnネットワークとsamデコーダ部分の微調整にのみ焦点を合わせます。
この戦略はトレーニッヒの時間を著しく削減し、公開データセットで競争力のある結果を達成する。
コードはhttps://github.com/11yxk/SAM-LSTで公開されている。 Recently, foundation models have been introduced demonstrating various tasks in the field of computer vision. These models such as Segment Anything Model (SAM) are generalized models trained using huge datasets. Currently, ongoing research focuses on exploring the effective utilization of these generalized models for specific domains, such as medical imaging. However, in medical imaging, the lack of training samples due to privacy concerns and other factors presents a major challenge for applying these generalized models to medical image segmentation task. To address this issue, the effective fine tuning of these models is crucial to ensure their optimal utilization. In this study, we propose to combine a complementary Convolutional Neural Network (CNN) along with the standard SAM network for medical image segmentation. To reduce the burden of fine tuning large foundation model and implement cost-efficient trainnig scheme, we focus only on fine-tuning the additional CNN network and SAM decoder part. This strategy significantly reduces trainnig time and achieves competitive results on publicly available dataset. The code is available at https://github.com/11yxk/SAM-LST. | 翻訳日:2023-06-23 15:06:17 公開日:2023-06-22 |
# mp3:運動原始型(再計画)政策 MP3: Movement Primitive-Based (Re-)Planning Policy ( http://arxiv.org/abs/2306.12729v1 ) ライセンス: Link先を確認 | Fabian Otto, Hongyi Zhou, Onur Celik, Ge Li, Rudolf Lioutikov, Gerhard Neumann | (参考訳) 我々は,移動計画政策(MP3)と呼ばれる新しい深層強化学習(RL)手法を導入する。
運動プリミティブ(MP)を深いRLフレームワークに統合することにより、MP3は学習プロセス全体を通してスムーズな軌道の生成を可能にし、スパースや非マルコフの報酬から効果的に学習する。
さらに、MP3は実行中に環境の変化に適応する能力を維持している。
ロボットRLの初期の成功は、RLとMPを組み合わせることで達成されているが、これらのアプローチは単一のストロークベースの動作の学習に限られており、タスクのバリエーションに適応したり、実行中の動作を調整する能力に欠ける。
本稿では,MPパラメータを異なるタスク変数に非線形に適応するエピソードベースのRL手法を導入し,再計画戦略を取り入れたアプローチを拡張した。
これにより、動きの実行を通してMPパラメータの適応が可能になり、フィードバックを必要とする確率領域におけるオンラインモーション適応の欠如に対処できる。
最先端のRL法とRL法をMPs法と比較した。
その結果,厳密でスパースな報酬設定と再計画を必要とする領域の性能向上が示された。 We introduce a novel deep reinforcement learning (RL) approach called Movement Prmitive-based Planning Policy (MP3). By integrating movement primitives (MPs) into the deep RL framework, MP3 enables the generation of smooth trajectories throughout the whole learning process while effectively learning from sparse and non-Markovian rewards. Additionally, MP3 maintains the capability to adapt to changes in the environment during execution. Although many early successes in robot RL have been achieved by combining RL with MPs, these approaches are often limited to learning single stroke-based motions, lacking the ability to adapt to task variations or adjust motions during execution. Building upon our previous work, which introduced an episode-based RL method for the non-linear adaptation of MP parameters to different task variations, this paper extends the approach to incorporating replanning strategies. This allows adaptation of the MP parameters throughout motion execution, addressing the lack of online motion adaptation in stochastic domains requiring feedback. We compared our approach against state-of-the-art deep RL and RL with MPs methods. The results demonstrated improved performance in sophisticated, sparse reward settings and in domains requiring replanning. | 翻訳日:2023-06-23 15:05:59 公開日:2023-06-22 |
# ノードドロップグラフポーリングのためのノード機能とグラフ構造多様性の探索 On Exploring Node-feature and Graph-structure Diversities for Node Drop Graph Pooling ( http://arxiv.org/abs/2306.12726v1 ) ライセンス: Link先を確認 | Chuang Liu, Yibing Zhan, Baosheng Yu, Liu Liu, Bo Du, Wenbin Hu, Tongliang Liu | (参考訳) ノードドロッププーリングが1つの主流グラフプーリング技術となった,効率的なグラフレベルの表現学習には,プーリング操作が不可欠である。
しかし、現在のノードドロッププーリング法は通常、ノードの特徴やグラフ構造の観点からグラフの多様性を無視して、上位kノードをその重要度に応じて保持する。
上記の問題に対処するために,新たなプラグ・アンド・プレイスコアスキームを提案し,これをmidと呼び,二つの演算を持つ2次元的スコア空間である \textit{i.e.}, fl\textbf{i}pscore, \textbf{d}ropscore から構成する。
特に、多次元スコア空間は、複数の基準を通してノードの重要性を表現しており、flipscoreは異なるノードの特徴の維持を奨励し、dropscoreはモデルに重要な局所構造に留まらず、多様なグラフ構造を認識させる。
提案するMIDの有効性を評価するため,TopKPool,SAGPool,GSAPool,ASAPなど,最近の多種多様なノードプーリング手法に適用し,幅広い実験を行った。
具体的には、4つのソーシャルデータセット(IMDB-Binary, IMDB-MULTI, REDDIT-Binary, COLLAB)と13の生化学的データセット(D\&D, PROTEINS, NCI1, MUTAG, PTC-MR, NCI109, ENZYMES, MUTAGENICITY, FRANKENSTEIN, HIV, BBBP, TOXCAST, TOX21)を含む、上記の4つの実世界のグラフ分類データセットに対する平均2.8 %の改善を効率よく達成することができる。
コードは~\url{https://github.com/whuchuang/mid}で入手できる。 A pooling operation is essential for effective graph-level representation learning, where the node drop pooling has become one mainstream graph pooling technology. However, current node drop pooling methods usually keep the top-k nodes according to their significance scores, which ignore the graph diversity in terms of the node features and the graph structures, thus resulting in suboptimal graph-level representations. To address the aforementioned issue, we propose a novel plug-and-play score scheme and refer to it as MID, which consists of a \textbf{M}ultidimensional score space with two operations, \textit{i.e.}, fl\textbf{I}pscore and \textbf{D}ropscore. Specifically, the multidimensional score space depicts the significance of nodes through multiple criteria; the flipscore encourages the maintenance of dissimilar node features; and the dropscore forces the model to notice diverse graph structures instead of being stuck in significant local structures. To evaluate the effectiveness of our proposed MID, we perform extensive experiments by applying it to a wide variety of recent node drop pooling methods, including TopKPool, SAGPool, GSAPool, and ASAP. Specifically, the proposed MID can efficiently and consistently achieve about 2.8\% average improvements over the above four methods on seventeen real-world graph classification datasets, including four social datasets (IMDB-BINARY, IMDB-MULTI, REDDIT-BINARY, and COLLAB), and thirteen biochemical datasets (D\&D, PROTEINS, NCI1, MUTAG, PTC-MR, NCI109, ENZYMES, MUTAGENICITY, FRANKENSTEIN, HIV, BBBP, TOXCAST, and TOX21). Code is available at~\url{https://github.com/whuchuang/mid}. | 翻訳日:2023-06-23 15:05:37 公開日:2023-06-22 |
# 生成型マルチモーダルエンティティリンク Generative Multimodal Entity Linking ( http://arxiv.org/abs/2306.12725v1 ) ライセンス: Link先を確認 | Senbao Shi, Zhenran Xu, Baotian Hu, Min Zhang | (参考訳) マルチモーダルエンティティリンク(英: Multimodal Entity Linking、MEL)は、知識ベース(ウィキペディアなど)からの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
従来のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、全てのモデルパラメータを微調整する必要がある。
本稿では,大規模事前学習からLLMの能力を生かして,目的のエンティティ名を直接生成する,シンプルで効果的なジェネレーティブ・マルチモーダル・エンティティリンク法であるGEMELを提案する。
ビジョンと言語モデルは凍結し続け、相互モダリティの相互作用を可能にするために線形層のみをトレーニングします。
MELタスクにLLMを適応させるために、マルチモーダルインスタンスをデモとして検索することで、LLMのICL(In-context Learning)機能を活用する。
GEMEL はモデルパラメータの ~0.3% しか微調整されていないため、2つの確立された MEL データセット(WikiDiverse では 4.1% 、WikiMEL では 15.4% の精度向上)で最先端の結果が得られる。
我々のアプローチは市販の言語モデルと互換性があり、MELタスクでLLMを利用するための効率的で汎用的なソリューションへの道を開く。 Multimodal Entity Linking (MEL) is the task of mapping mentions with multimodal contexts to the referent entities from a knowledge base (e.g., Wikipedia). Prior MEL methods mainly focus on designing complex multimodal interaction mechanisms and require fine-tuning all model parameters, which can be prohibitively costly and difficult to scale in the era of Large Language Models (LLMs). In this work, we propose GEMEL, a simple yet effective Generative Multimodal Entity Linking method, which leverages the capabilities of LLMs from large-scale pre-training to directly generate target entity names. We keep the vision and language model frozen and only train a linear layer to enable cross-modality interactions. To adapt LLMs to the MEL task, we take advantage of the emerging in-context learning (ICL) capability of LLMs by retrieving multimodal instances as demonstrations. Extensive experiments show that with only ~0.3% of the model parameters fine-tuned, GEMEL achieves state-of-the-art results on two well-established MEL datasets (4.1% accuracy gains on WikiDiverse and 15.4% accuracy gains on WikiMEL). Our approach is compatible with any off-the-shelf language model, paving the way towards an efficient and general solution for utilizing LLMs in the MEL task. | 翻訳日:2023-06-23 15:04:52 公開日:2023-06-22 |
# 広告のための自然言語生成:調査 Natural Language Generation for Advertising: A Survey ( http://arxiv.org/abs/2306.12719v1 ) ライセンス: Link先を確認 | Soichiro Murakami, Sho Hoshino, Peinan Zhang | (参考訳) 自然言語生成手法は、広告主が制作するオンライン広告の数を増やすための効果的なツールとして登場した。
この調査は、ニューラルネットワークを用いたテンプレートベースから抽出的、抽象的アプローチまで、過去10年間のこのトピックに関する研究トレンドのレビューを伴っている。
さらに、メトリック最適化、忠実性、多様性、マルチモダリティ、ベンチマークデータセットの開発など、調査を通じて明らかになった重要な課題と方向性について論じる。 Natural language generation methods have emerged as effective tools to help advertisers increase the number of online advertisements they produce. This survey entails a review of the research trends on this topic over the past decade, from template-based to extractive and abstractive approaches using neural networks. Additionally, key challenges and directions revealed through the survey, including metric optimization, faithfulness, diversity, multimodality, and the development of benchmark datasets, are discussed. | 翻訳日:2023-06-23 15:04:28 公開日:2023-06-22 |
# 自動歌唱音声理解タスクのための事前学習型セルフスーパービジョンフロントエンドの活用に向けて:3事例 Toward Leveraging Pre-Trained Self-Supervised Frontends for Automatic Singing Voice Understanding Tasks: Three Case Studies ( http://arxiv.org/abs/2306.12714v1 ) ライセンス: Link先を確認 | Yuya Yamamoto | (参考訳) 歌手識別、歌唱音声書き起こし、歌唱技法分類などの自動歌唱音声理解タスクは、深層学習技術を利用したデータ駆動アプローチの恩恵を受ける。
これらのアプローチは、その表現能力のために声楽と雑音の豊富なサンプルの下でもうまく機能する。
しかし、ラベル付きデータの可用性の制限は、十分なパフォーマンスを達成するための重要な障害である。
近年,音声処理や音楽分類の分野で,ラベルのない大量のデータを用いて自己教師付き学習モデル(SSLモデル)を訓練している。
これらのモデルを対象タスク向けに微調整することで、限られたトレーニングデータで従来の教師付き学習と同等のパフォーマンスが得られる。
そこで本研究では,さまざまな歌声音声認識タスクにおけるSSLモデルの有効性について検討する。
本研究は,3つのタスク(歌手識別,歌唱音声書き起こし,歌唱技法分類)におけるSSLモデルの比較実験を初期探索として報告し,これらの知見を議論することを目的とした。
実験の結果、各SSLモデルは、各タスクの最先端メソッドと比較して、同等のパフォーマンスを達成し、時にはパフォーマンスを向上することが示された。
また,sslモデルの挙動をさらに理解するために,層別分析を行った。 Automatic singing voice understanding tasks, such as singer identification, singing voice transcription, and singing technique classification, benefit from data-driven approaches that utilize deep learning techniques. These approaches work well even under the rich diversity of vocal and noisy samples owing to their representation ability. However, the limited availability of labeled data remains a significant obstacle to achieving satisfactory performance. In recent years, self-supervised learning models (SSL models) have been trained using large amounts of unlabeled data in the field of speech processing and music classification. By fine-tuning these models for the target tasks, comparable performance to conventional supervised learning can be achieved with limited training data. Therefore, in this paper, we investigate the effectiveness of SSL models for various singing voice recognition tasks. We report the results of experiments comparing SSL models for three different tasks (i.e., singer identification, singing voice transcription, and singing technique classification) as initial exploration and aim to discuss these findings. Experimental results show that each SSL model achieves comparable performance and sometimes outperforms compared to state-of-the-art methods on each task. We also conducted a layer-wise analysis to further understand the behavior of the SSL models. | 翻訳日:2023-06-23 15:04:20 公開日:2023-06-22 |
# 与えられた平均値の集合から量子フィッシャー情報を認証する:半定値プログラミングアプローチ Certifying the quantum Fisher information from a given set of mean values: a semidefinite programming approach ( http://arxiv.org/abs/2306.12711v1 ) ライセンス: Link先を確認 | Guillem M\"uller-Rigat, Anubhav Kumar Srivastava, Stanis{\l}aw Kurdzia{\l}ek, Grzegorz Rajchel-Mieldzio\'c, Maciej Lewenstein and Ir\'en\'ee Fr\'erot | (参考訳) 平均値の任意のデータセットと互換性のある最小の量子フィッシャー情報を見つけるための半定値プログラミングアルゴリズムを提案する。
この認証タスクは、量子状態の完全な知識を必要とせずに、気象学応用のための量子システムのリソース内容の定量化を可能にする。
量子スピンアンサンブルを研究するアルゴリズムを実装した。
我々はまずディッケ状態に注目し,文献におけるこれまでの結果に挑戦し補完する。
次に, 1軸ねじれ力学で発生した状態について検討し, 特に, 小系の4次モーメントや任意系サイズのパリティ測定などの単純な集合スピン観測器を用いて, いわゆる多頭猫状態の計量的パワーを証明できることを見出した。 We introduce a semidefinite programming algorithm to find the minimal quantum Fisher information compatible with an arbitrary dataset of mean values. This certification task allows one to quantify the resource content of a quantum system for metrology applications without complete knowledge of the quantum state. We implement the algorithm to study quantum spin ensembles. We first focus on Dicke states, where our findings challenge and complement previous results in the literature. We then investigate states generated during the one-axis twisting dynamics, where in particular we find that the metrological power of the so-called multi-headed cat states can be certified using simple collective spin observables, such as fourth-order moments for small systems, and parity measurements for arbitrary system sizes. | 翻訳日:2023-06-23 15:04:02 公開日:2023-06-22 |
# MFCCGAN: 逆学習を用いた新しいMFCCベース音声合成装置 MFCCGAN: A Novel MFCC-Based Speech Synthesizer Using Adversarial Learning ( http://arxiv.org/abs/2306.12785v1 ) ライセンス: Link先を確認 | Mohammad Reza Hasanabadi Majid Behdad Davood Gharavian | (参考訳) 本稿では,MFCCを入力として採用し,生音声波形を生成する敵対学習に基づく新しい音声合成器として,MFCCGANを導入する。
GANモデル機能に適合し、ルールベースのMFCCベースの音声合成器WORLDよりも知性の高い音声を生成する。
提案手法は,stoi (popular intrusive objective speech intelligibility measure) とnisqa (quality) を用いて評価した。
実験結果から,本システムはLibrosa MFCCのインバージョン(STOIの約26%から53%,NISQAスコアの16%から78%)と,CycleGAN-VCファミリーで使用されている従来のルールベースボコーダWORLDと比較して,約10%のインテリジェンス,4%の自然性向上を実現していることがわかった。
しかし、WORLDにはF0のような追加データが必要である。
最後に、STOIに基づく識別器の知覚的損失を用いることにより、品質が向上した。
WebMUSHRAベースの主観的テストも提案手法の質を示している。 In this paper, we introduce MFCCGAN as a novel speech synthesizer based on adversarial learning that adopts MFCCs as input and generates raw speech waveforms. Benefiting the GAN model capabilities, it produces speech with higher intelligibility than a rule-based MFCC-based speech synthesizer WORLD. We evaluated the model based on a popular intrusive objective speech intelligibility measure (STOI) and quality (NISQA score). Experimental results show that our proposed system outperforms Librosa MFCC- inversion (by an increase of about 26% up to 53% in STOI and 16% up to 78% in NISQA score) and a rise of about 10% in intelligibility and about 4% in naturalness in comparison with conventional rule-based vocoder WORLD that used in the CycleGAN-VC family. However, WORLD needs additional data like F0. Finally, using perceptual loss in discriminators based on STOI could improve the quality more. WebMUSHRA-based subjective tests also show the quality of the proposed approach. | 翻訳日:2023-06-23 14:57:49 公開日:2023-06-22 |
# 生成拡散モデルを用いた事前正則化全波形インバージョン A prior regularized full waveform inversion using generative diffusion models ( http://arxiv.org/abs/2306.12776v1 ) ライセンス: Link先を確認 | Fu Wang, Xinquan Huang, Tariq Alkhalifah | (参考訳) フルウェーブフォームインバージョン(FWI)は高分解能地下モデル推定を提供する可能性がある。
しかし、観測の限界、例えば地域騒音、限られたショットや受信機、帯域制限データなどにより、fwiで所望の高解像度モデルを得ることは困難である。
この課題に対処するために, 生成拡散モデルによって正規化されたfwiの新しいパラダイムを提案する。
具体的には,FWIを生成拡散モデルのサンプリングプロセスに組み込むことで,地表面の期待値を表す先行速度モデル分布に対して,完全に教師のない方法で拡散モデルを事前訓練し,地震観測に適応させる。
このような実装に拡散モデルが一意に適しているのは、生成過程が速度モデルの形状と次元を保持することである。
数値的な例から,本手法は計算コストを考慮しないだけで従来のFWIよりも優れていることを示す。
非常に希少な観測や強い雑音を伴う観測の場合であっても,提案手法は高品質な地下モデルを構築することができる。
したがって、ソリューションに対する以前の期待を効率的な方法で組み込むことができます。
提案手法の有効性を示すフィールドデータに対して,本手法をさらに検証する。 Full waveform inversion (FWI) has the potential to provide high-resolution subsurface model estimations. However, due to limitations in observation, e.g., regional noise, limited shots or receivers, and band-limited data, it is hard to obtain the desired high-resolution model with FWI. To address this challenge, we propose a new paradigm for FWI regularized by generative diffusion models. Specifically, we pre-train a diffusion model in a fully unsupervised manner on a prior velocity model distribution that represents our expectations of the subsurface and then adapt it to the seismic observations by incorporating the FWI into the sampling process of the generative diffusion models. What makes diffusion models uniquely appropriate for such an implementation is that the generative process retains the form and dimensions of the velocity model. Numerical examples demonstrate that our method can outperform the conventional FWI with only negligible additional computational cost. Even in cases of very sparse observations or observations with strong noise, the proposed method could still reconstruct a high-quality subsurface model. Thus, we can incorporate our prior expectations of the solutions in an efficient manner. We further test this approach on field data, which demonstrates the effectiveness of the proposed method. | 翻訳日:2023-06-23 14:57:28 公開日:2023-06-22 |
# 線形制約をもつバンディットの純粋探査 Pure Exploration in Bandits with Linear Constraints ( http://arxiv.org/abs/2306.12774v1 ) ライセンス: Link先を確認 | Emil Carlsson, Debabrota Basu, Fredrik D. Johansson, Devdatt Dubhashi | (参考訳) 我々は,多腕バンディット設定における最適ポリシーを一定の信頼度で識別する問題に, 'emph{the arms' が線形制約を受ける際に対処する。
良く研究されている標準的な最良の腕識別問題とは異なり、この場合の最適方針は決定論的ではなく、複数の腕の間で混合することができる。
これは、情報理論の下界によって特徴づけられる問題の幾何学を変える。
本稿では,この設定に対して,トラック・アンド・ストップ法とゲーム理論に基づく2つの漸近的最適アルゴリズムを提案する。
これらのアルゴリズムは、下界に基づいて最適な割り当てを追跡し、通常の円錐の境界への重み付き投影によって計算する。
最後に,限界を検証し,制約が問題の硬さを変える様子を可視化する実験結果を提供する。 We address the problem of identifying the optimal policy with a fixed confidence level in a multi-armed bandit setup, when \emph{the arms are subject to linear constraints}. Unlike the standard best-arm identification problem which is well studied, the optimal policy in this case may not be deterministic and could mix between several arms. This changes the geometry of the problem which we characterize via an information-theoretic lower bound. We introduce two asymptotically optimal algorithms for this setting, one based on the Track-and-Stop method and the other based on a game-theoretic approach. Both these algorithms try to track an optimal allocation based on the lower bound and computed by a weighted projection onto the boundary of a normal cone. Finally, we provide empirical results that validate our bounds and visualize how constraints change the hardness of the problem. | 翻訳日:2023-06-23 14:57:09 公開日:2023-06-22 |
# 量子力学写像の可逆性と非マルコフ性 Noninvertibility and non-Markovianity of quantum dynamical maps ( http://arxiv.org/abs/2306.12773v1 ) ライセンス: Link先を確認 | Vinayak Jagadish, R. Srikanth and Francesco Petruccione | (参考訳) 量子力学写像における2つの広範な非可逆性(cp-indivisibility)を同定し,1つはcp-indivisibilityと関連し,もう1つはそうではない。
次に,非可逆パウリ写像の混合による(非)マルコフ的可逆写像の生成について検討する。
メモリカーネルの観点は、マップやマスター方程式に基づくアプローチよりも可逆性の問題に関して透明性が低いようである。
ここでは、よく定義された半群極限の存在に繋がる写像のパラメタライズド・ファミリーの基準を識別する、関連性があり潜在的に有用な問題を考える。 We identify two broad types of noninvertibilities in quantum dynamical maps, one necessarily associated with CP-indivisibility and one not so. Next, we study the production of (non-)Markovian, invertible maps by the process of mixing noninvertible Pauli maps. The memory kernel perspective appears to be less transparent on the issue of invertibility than the approaches based on maps or master equations. Here we consider a related and potentially helpful issue: that of identifying criteria of parameterized families of maps leading to the existence of a well-defined semigroup limit. | 翻訳日:2023-06-23 14:56:54 公開日:2023-06-22 |
# 運動からのインクリメンタル構造に基づく球面画像の3次元再構成 3D Reconstruction of Spherical Images based on Incremental Structure from Motion ( http://arxiv.org/abs/2306.12770v1 ) ライセンス: Link先を確認 | San Jiang, Kan You, Yaxin Li, Duojie Weng, Wu Chen | (参考訳) 3次元再構成は、現代のフォトグラムシステムにおいてますます重要な役割を担っている。
従来の衛星や空中リモートセンシング(RS)プラットフォームは、大規模な地形や都市の3D再構成に必要なデータソースを提供することができる。
低高度のuav(無人航空機)でも、都市キャニオンや屋内シーンなどの複雑な状況下での3d再構成は、カメラフレーム間の頻繁なトラッキング障害と高いデータ収集コストのために困難である。
近年,一台のカメラから周囲の環境を撮影できるため,球面画像が広く活用されている。
しかし、古典的な3D再構成パイプラインは球面画像には使用できない。
さらに、球面画像の3次元再構成のためのソフトウェアパッケージは少ない。
球面カメラの画像幾何学に基づいて,球面対応を用いた相対配向アルゴリズム,シーンと球面間の3次元対応を用いた絶対配向,BA(バンドル調整)最適化のためのコスト関数について検討した。
さらに,上述したアルゴリズムを用いて球面画像に対して,段階的なSfMワークフローが提案されている。
提案手法は,コンシューマグレードおよびプロの球面カメラで撮影された3つの球面データセットを用いて検証された。
その結果,提案するsfmワークフローは複雑なシーンの3次元再構成を成功させ,オープンソースソフトウェアパッケージの実装に有用な手掛かりを与えることができた。
設計したSfMワークフローのソースコードが公開されている。 3D reconstruction plays an increasingly important role in modern photogrammetric systems. Conventional satellite or aerial-based remote sensing (RS) platforms can provide the necessary data sources for the 3D reconstruction of large-scale landforms and cities. Even with low-altitude UAVs (Unmanned Aerial Vehicles), 3D reconstruction in complicated situations, such as urban canyons and indoor scenes, is challenging due to the frequent tracking failures between camera frames and high data collection costs. Recently, spherical images have been extensively exploited due to the capability of recording surrounding environments from one camera exposure. Classical 3D reconstruction pipelines, however, cannot be used for spherical images. Besides, there exist few software packages for 3D reconstruction of spherical images. Based on the imaging geometry of spherical cameras, this study investigates the algorithms for the relative orientation using spherical correspondences, absolute orientation using 3D correspondences between scene and spherical points, and the cost functions for BA (bundle adjustment) optimization. In addition, an incremental SfM (Structure from Motion) workflow has been proposed for spherical images using the above-mentioned algorithms. The proposed solution is finally verified by using three spherical datasets captured by both consumer-grade and professional spherical cameras. The results demonstrate that the proposed SfM workflow can achieve the successful 3D reconstruction of complex scenes and provide useful clues for the implementation in open-source software packages. The source code of the designed SfM workflow would be made publicly available. | 翻訳日:2023-06-23 14:56:43 公開日:2023-06-22 |
# 時間変化下における分散ディープラーニングのための概念認識クラスタリング Concept-aware clustering for decentralized deep learning under temporal shift ( http://arxiv.org/abs/2306.12768v1 ) ライセンス: Link先を確認 | Marcus Toft{\aa}s, Emilie Klefbom, Edvin Listo Zec, Martin Willbo, Olof Mogren | (参考訳) 分散ディープラーニングでは、クライアント間の非IDデータを扱う必要があり、時間的シフトによって時間とともに変化する可能性がある。
非iidデータは分散環境で広く研究されているが、時間シフトは注目されていない。
私たちの知識を最大限に活用するために、私たちはまず、非IDデータと動的データによる分散学習という、新しくて困難な問題に取り組みます。
本稿では,ネットワーク内の進化する概念を自動的に発見し,適応できる新しいアルゴリズムを提案する。
提案アルゴリズムは,標準ベンチマークデータセット上で評価し,従来の分散学習手法よりも優れていることを示す。 Decentralized deep learning requires dealing with non-iid data across clients, which may also change over time due to temporal shifts. While non-iid data has been extensively studied in distributed settings, temporal shifts have received no attention. To the best of our knowledge, we are first with tackling the novel and challenging problem of decentralized learning with non-iid and dynamic data. We propose a novel algorithm that can automatically discover and adapt to the evolving concepts in the network, without any prior knowledge or estimation of the number of concepts. We evaluate our algorithm on standard benchmark datasets and demonstrate that it outperforms previous methods for decentralized learning. | 翻訳日:2023-06-23 14:56:22 公開日:2023-06-22 |
# 生成翻訳によるオープンコモンセンス知識基盤のマッピングとクリーニング Mapping and Cleaning Open Commonsense Knowledge Bases with Generative Translation ( http://arxiv.org/abs/2306.12766v1 ) ライセンス: Link先を確認 | Julien Romero, Simon Razniewski | (参考訳) structured knowledge bases (kbs) は多くの know-ledge-intensive アプリケーションのバックボーンであり、自動化された構成が注目されている。
特にオープン情報抽出(OpenIE)は、テキストから構造を誘導するためにしばしば用いられる。
しかし、高いリコールを可能にするが、抽出された知識はソースとOpenIEアルゴリズムからノイズを継承する傾向がある。
さらに、OpenIEタプルにはオープンで非標準化された関係が含まれており、抽出された知識の下流への利用が困難になる。
本稿では,オープンKBを既存のKBの固定スキーマにマッピングする問題,特にコモンセンス知識の場合について検討する。
本稿では,言語モデルを訓練し,オープン言語から固定スキーマアサーションを生成することにより,ジェネレーティブ翻訳による問題へのアプローチを提案する。
実験により、このアプローチは従来のマニュアル、ルールベース、あるいは分類ベースの標準化とCOMETのような純粋に生成的なKB構造との間にスイートスポットを占めることが示された。
さらに,連想に基づく雑音を回避しつつ,前者よりも高いマッピング精度を実現する。 Structured knowledge bases (KBs) are the backbone of many know\-ledge-intensive applications, and their automated construction has received considerable attention. In particular, open information extraction (OpenIE) is often used to induce structure from a text. However, although it allows high recall, the extracted knowledge tends to inherit noise from the sources and the OpenIE algorithm. Besides, OpenIE tuples contain an open-ended, non-canonicalized set of relations, making the extracted knowledge's downstream exploitation harder. In this paper, we study the problem of mapping an open KB into the fixed schema of an existing KB, specifically for the case of commonsense knowledge. We propose approaching the problem by generative translation, i.e., by training a language model to generate fixed-schema assertions from open ones. Experiments show that this approach occupies a sweet spot between traditional manual, rule-based, or classification-based canonicalization and purely generative KB construction like COMET. Moreover, it produces higher mapping accuracy than the former while avoiding the association-based noise of the latter. | 翻訳日:2023-06-23 14:56:11 公開日:2023-06-22 |
# Blended-NeRF:既存の神経放射場におけるゼロショットオブジェクト生成とブレンド Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields ( http://arxiv.org/abs/2306.12760v1 ) ライセンス: Link先を確認 | Ori Gordon and Omri Avrahami and Dani Lischinski | (参考訳) NeRFで表される3Dシーンで局所領域や特定のオブジェクトを編集することは、主にシーン表現の暗黙の性質のために困難である。
シーンに新しい現実的なオブジェクトを一貫して混ぜ合わせると、さらに難易度が増す。
我々は,テキストプロンプトや画像パッチをベースとした,既存のNeRFシーンに対する特定の関心領域を編集する,堅牢で柔軟なフレームワークであるBlended-NeRFと,3D ROIボックスを提案する。
本手法は,ユーザが入力したテキストプロンプトやイメージパッチに対して,事前学習した言語画像モデルと,既存のnerfシーンで初期化された3d mlpモデルを組み合わせて,オブジェクトを生成し,元のシーンの特定の領域にブレンドする。
入力シーンに3D ROIボックスを配置することで局所的な編集を可能とし、新しいボリュームブレンディング技術を用いてROI内で合成されたコンテンツを既存のシーンとシームレスにブレンドする。
自然視・視界整合性のある結果を得るために,既存の幾何学的先行と3次元拡張を利用して最終結果の視覚的忠実度を向上する。
我々は,実写3Dシーンやテキストプロンプトの質的,定量的にテストし,ベースラインと比較して多くの柔軟性と多様性を持った現実的なマルチビュー一貫性のある結果を示す。
最後に,シーンへの新たなオブジェクトの追加,既存オブジェクトの削除・更新・変更,テクスチャ変換など,いくつかの3d編集アプリケーションに対するフレームワークの適用性を示す。 Editing a local region or a specific object in a 3D scene represented by a NeRF is challenging, mainly due to the implicit nature of the scene representation. Consistently blending a new realistic object into the scene adds an additional level of difficulty. We present Blended-NeRF, a robust and flexible framework for editing a specific region of interest in an existing NeRF scene, based on text prompts or image patches, along with a 3D ROI box. Our method leverages a pretrained language-image model to steer the synthesis towards a user-provided text prompt or image patch, along with a 3D MLP model initialized on an existing NeRF scene to generate the object and blend it into a specified region in the original scene. We allow local editing by localizing a 3D ROI box in the input scene, and seamlessly blend the content synthesized inside the ROI with the existing scene using a novel volumetric blending technique. To obtain natural looking and view-consistent results, we leverage existing and new geometric priors and 3D augmentations for improving the visual fidelity of the final result. We test our framework both qualitatively and quantitatively on a variety of real 3D scenes and text prompts, demonstrating realistic multi-view consistent results with much flexibility and diversity compared to the baselines. Finally, we show the applicability of our framework for several 3D editing applications, including adding new objects to a scene, removing/replacing/altering existing objects, and texture conversion. | 翻訳日:2023-06-23 14:55:51 公開日:2023-06-22 |
# 早期停止判別器を用いた1時間ガラスブロックによるJPEG最大損失圧縮顔画像の復元 Restoration of the JPEG Maximum Lossy Compressed Face Images with Hourglass Block based on Early Stopping Discriminator ( http://arxiv.org/abs/2306.12757v1 ) ライセンス: Link先を確認 | Jongwook Si and Sungyoung Kim | (参考訳) 圧縮率の高い損失圧縮法を用いてjpeg画像が圧縮されると、画像中にブロッキング現象が発生し、元の画質に復元する必要がある。
特に、認識できない圧縮画像の復元は革新的な課題である。
そこで本稿は,GANを用いたネットワーク手法を用いて,最大圧縮により大きな損失を被ったJPEG画像の復元を実現することを目的とする。
このネットワークのジェネレータはU-Netアーキテクチャに基づいており、深い層の構造を保存できる新しい時計構造を備えている。
さらに、lfロスとhfロスという2つの損失関数を組み込んで、自然画像と高性能画像を生成する。
HF Lossはトレーニング済みのVGG-16ネットワークを使用しており、特徴を最もよく表す特定の層を使用して構成されている。
一方、LF損失は低周波領域の処理に使用される。
これら2つの損失関数は、高周波数領域と低周波数領域の両方を精度良く生成しながら、判別器を欺くことができるジェネレータによる画像の生成を促進する。
その結果, 圧縮画像のブロックフェノメノンが除去され, 識別可能なアイデンティティが生成されることがわかった。
本研究は, 画像復元性能の観点から, これまでの研究よりも大幅に向上したことを示す。 When a JPEG image is compressed using the loss compression method with a high compression rate, a blocking phenomenon can occur in the image, making it necessary to restore the image to its original quality. In particular, restoring compressed images that are unrecognizable presents an innovative challenge. Therefore, this paper aims to address the restoration of JPEG images that have suffered significant loss due to maximum compression using a GAN-based net-work method. The generator in this network is based on the U-Net architecture and features a newly presented hourglass structure that can preserve the charac-teristics of deep layers. Additionally, the network incorporates two loss functions, LF Loss and HF Loss, to generate natural and high-performance images. HF Loss uses a pretrained VGG-16 network and is configured using a specific layer that best represents features, which can enhance performance for the high-frequency region. LF Loss, on the other hand, is used to handle the low-frequency region. These two loss functions facilitate the generation of images by the generator that can deceive the discriminator while accurately generating both high and low-frequency regions. The results show that the blocking phe-nomenon in lost compressed images was removed, and recognizable identities were generated. This study represents a significant improvement over previous research in terms of image restoration performance. | 翻訳日:2023-06-23 14:55:22 公開日:2023-06-22 |
# 生成的検索モデルのロバスト性について : 分散性の観点から On the Robustness of Generative Retrieval Models: An Out-of-Distribution Perspective ( http://arxiv.org/abs/2306.12756v1 ) ライセンス: Link先を確認 | Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Wei Chen, Xueqi Cheng | (参考訳) 近年,情報検索(IR)分野において,識別子を直接生成して文書を検索する生成検索が注目されるようになっている。
これまでのところ、効率的な生成検索モデルの開発に多くの努力が注がれている。
堅牢性の観点からは注意が払われていない。
新しい検索パラダイムが現実世界のアプリケーションに入ると、アウト・オブ・ディストリビューション(ood)の一般化、すなわちどのように生成的検索モデルを新しいディストリビューションに一般化するかを測定することも重要です。
この質問に答えるために、まず3つの観点からOODのロバスト性を定義します。
1) クエリのバリエーション。
2) 予期せぬクエリタイプ,及び
3) 予期せぬタスク。
本分類法に基づき,複数の代表的な生成的検索モデルのoodロバスト性を分析するための経験的研究を行った。
実験結果から, 生成的検索モデルのOODロバスト性には強化が必要であることが示唆された。
生成的検索モデルのOODロバスト性の研究は、IRコミュニティにとって有利であると期待する。 Recently, we have witnessed generative retrieval increasingly gaining attention in the information retrieval (IR) field, which retrieves documents by directly generating their identifiers. So far, much effort has been devoted to developing effective generative retrieval models. There has been less attention paid to the robustness perspective. When a new retrieval paradigm enters into the real-world application, it is also critical to measure the out-of-distribution (OOD) generalization, i.e., how would generative retrieval models generalize to new distributions. To answer this question, firstly, we define OOD robustness from three perspectives in retrieval problems: 1) The query variations; 2) The unforeseen query types; and 3) The unforeseen tasks. Based on this taxonomy, we conduct empirical studies to analyze the OOD robustness of several representative generative retrieval models against dense retrieval models. The empirical results indicate that the OOD robustness of generative retrieval models requires enhancement. We hope studying the OOD robustness of generative retrieval models would be advantageous to the IR community. | 翻訳日:2023-06-23 14:54:59 公開日:2023-06-22 |
# ねじれ運動を感知・制御するためのジグザグ光学空洞 A zigzag optical cavity for sensing and controlling torsional motion ( http://arxiv.org/abs/2306.12804v1 ) ライセンス: Link先を確認 | Sofia Agafonova, Umang Mishra, Fritz Diorico, Onur Hosten | (参考訳) ミリグラムスケールの機械振動子の精密検出と操作は、重力のテーブルトップ探査やマクロスケールでの量子力学のテストの分野への関心が高まっている。
ねじり振動子はこの点において環境騒音からの孤立性により好機となる。
ねじり運動では、線形発振器で既に確立されているように、光学キャビティの有効利用により、光学的相互作用が強化されている。
本稿では,振子のねじれ回転を1つの2ミラー光学キャビティの経路長にのみマッピングする,ねじれ運動を感知し操作するための新しい概念を提案する。
この概念は本質的に、以前のアプローチの多くの制限を緩和する。
厳密に制御された振り子を用いてプリンシプルの実証実験を行い、概念の知覚的側面を探索し、潜在的な芸術的設定における実用的限界を特定する。
この研究に基づいて,10^{-19}~\mathrm{n\cdot m/\sqrt{hz}}$以下の感度を持つ精密トルクセンサの開発と,入射レーザパワーのサブマイクロワットで量子放射圧ノイズが支配する振子の動きを予測した。
この研究は、量子力学と重力の界面における実験のための新しい地平線への道を開く。 Precision sensing and manipulation of milligram-scale mechanical oscillators has attracted growing interest in the fields of table-top explorations of gravity and tests of quantum mechanics at macroscopic scales. Torsional oscillators present an opportunity in this regard due to their remarked isolation from environmental noise. For torsional motion, an effective employment of optical cavities to enhance optomechanical interactions -- as already established for linear oscillators -- so far faced certain challenges. Here, we propose a novel concept for sensing and manipulating torsional motion, where exclusively the torsional rotations of a pendulum are mapped onto the path length of a single two-mirror optical cavity. The concept inherently alleviates many limitations of previous approaches. A proof-of-principle experiment is conducted with a rigidly controlled pendulum to explore the sensing aspects of the concept and to identify practical limitations in a potential state-of-the art setup. Based on this work, we anticipate development of precision torque sensors with sensitivities below $10^{-19}~\mathrm{N\cdot m/\sqrt{Hz}}$ and with the motion of the pendulums dominated by quantum radiation pressure noise at sub-microwatts of incoming laser power. This work, therefore, paves the way to new horizons for experiments at the interface of quantum mechanics and gravity. | 翻訳日:2023-06-23 14:47:23 公開日:2023-06-22 |
# 局所的変動尺度によるランダム変数のロバスト統計的比較 Robust Statistical Comparison of Random Variables with Locally Varying Scale of Measurement ( http://arxiv.org/abs/2306.12803v1 ) ライセンス: Link先を確認 | Christoph Jansen, Georg Schollmeyer, Hannah Blocher, Julian Rodemann, Thomas Augustin | (参考訳) 異なる次元の多次元構造のような局所的に異なる測定スケールを持つ空間は、統計学や機械学習において非常に一般的である。
それでも、その中にエンコードされた情報全体をどのように適切に活用するかというオープンな疑問として理解されている。
このような非標準空間への写像の確率変数の期待(集合)に基づく順序を考えることでこの問題に対処する。
この順序は、確率的支配と予想順序を、全くまたはそれぞれ完全でない基構造が与えられる極端な場合として含む。
提案した一般化確率支配(GSD)順序に対する(正規化)統計的テストの導出,線形最適化による運用,不正確な確率モデルによる堅牢化を行う。
本研究は, 多次元貧困測定, ファイナンス, 医療データを用いて行った。 Spaces with locally varying scale of measurement, like multidimensional structures with differently scaled dimensions, are pretty common in statistics and machine learning. Nevertheless, it is still understood as an open question how to exploit the entire information encoded in them properly. We address this problem by considering an order based on (sets of) expectations of random variables mapping into such non-standard spaces. This order contains stochastic dominance and expectation order as extreme cases when no, or respectively perfect, cardinal structure is given. We derive a (regularized) statistical test for our proposed generalized stochastic dominance (GSD) order, operationalize it by linear optimization, and robustify it by imprecise probability models. Our findings are illustrated with data from multidimensional poverty measurement, finance, and medicine. | 翻訳日:2023-06-23 14:46:33 公開日:2023-06-22 |
# Otter-Knowledge:薬物発見のための異なるソースから学習したマルチモーダル知識グラフのベンチマーク Otter-Knowledge: benchmarks of multimodal knowledge graph representation learning from different sources for drug discovery ( http://arxiv.org/abs/2306.12802v1 ) ライセンス: Link先を確認 | Hoang Thanh Lam, Marco Luca Sbodio, Marcos Mart\'inez Gallindo, Mykhaylo Zayats, Ra\'ul Fern\'andez-D\'iaz, V\'ictor Valls, Gabriele Picco, Cesar Berrospi Ramis, Vanessa L\'opez | (参考訳) 表現学習における最近の研究は、タンパク質や分子のデータベースを利用して、教師なし学習技術を通じて、薬物やタンパク質の構造に関する知識を取得する。
これらの事前訓練された表現は、薬物と標的タンパク質の親和性を予測するなど、その後のタスクの精度を著しく向上させることが証明されている。
本研究では,様々な情報源やモダリティからの知識グラフをシーケンスやSMILES表現に組み込むことで,その表現をさらに強化し,確立したベンチマークデータセットの最先端結果が得られることを示す。
30万以上のトリプルを包含する7つの公開ソースから得られた前処理および統合データを提供する。
さらに,このデータに基づく事前学習モデルと,治療データコモンズ(tdc)ベンチマークで見いだされた薬物標的結合親和性予測のための3つのベンチマークデータセットの性能評価結果について報告する。
さらに、ベンチマークデータセットでモデルをトレーニングするためのソースコードを公開しています。
モデル事前学習とベンチマーク結果のためのクリーンなデータを伴う事前学習モデルをリリースする目的は、知識強化表現学習の研究を促進することである。 Recent research in representation learning utilizes large databases of proteins or molecules to acquire knowledge of drug and protein structures through unsupervised learning techniques. These pre-trained representations have proven to significantly enhance the accuracy of subsequent tasks, such as predicting the affinity between drugs and target proteins. In this study, we demonstrate that by incorporating knowledge graphs from diverse sources and modalities into the sequences or SMILES representation, we can further enrich the representation and achieve state-of-the-art results on established benchmark datasets. We provide preprocessed and integrated data obtained from 7 public sources, which encompass over 30M triples. Additionally, we make available the pre-trained models based on this data, along with the reported outcomes of their performance on three widely-used benchmark datasets for drug-target binding affinity prediction found in the Therapeutic Data Commons (TDC) benchmarks. Additionally, we make the source code for training models on benchmark datasets publicly available. Our objective in releasing these pre-trained models, accompanied by clean data for model pretraining and benchmark results, is to encourage research in knowledge-enhanced representation learning. | 翻訳日:2023-06-23 14:46:15 公開日:2023-06-22 |
# 2レベルエミッタ上の光子散乱によるベル不等式違反 Violation of Bell inequality by photon scattering on a two-level emitter ( http://arxiv.org/abs/2306.12801v1 ) ライセンス: Link先を確認 | Shikai Liu, Oliver August Dall'Alba Sandberg, Ming Lai Chan, Bj\"orn Schrinski, Yiouli Anyfantaki, Rasmus Bruhn Nielsen, Robert Garbecht Larsen, Andrei Skalkin, Ying Wang, Leonardo Midolo, Sven Scholz, Andreas Dirk Wieck, Arne Ludwig, Anders S{\o}ndberg S{\o}rensen, Alexey Tiranov, Peter Lodahl | (参考訳) 多部量子系における非局所相関であるエンタングルメントは、量子力学と量子技術の燃料の興味深い特徴である。
したがって、高忠実な絡み合った状態を生成するためのエネルギー保存と簡単な方法を開発することが最優先事項である。
光の場合、要求される非線形相互作用は通常弱いが、物質との相互作用によって絡み合いが実現され、適用性は制限される。
ここでは、ナノフォトニック導波路における光に決定的に結合した2レベルエミッタが、単一の光子レベルで励起するために真のフォトニック量子エンタングルメントを実現する方法を示す。
効率的な光カップリングにより、2光子相互作用は、絡み合う巨大な非線形性を実現するエミッターによって強く媒介される。
2光子散乱応答の干渉測定において,ベルの不等式(Clauder-Horne-Shimony-Holt Bellパラメータ=S=2.6716)>2$)に違反してエネルギー時間絡みを実験的に生成し,検証した。
このアプローチの魅力的な特徴として、2レベルエミッターは、最初は基底状態で準備されたパッシブ散乱器として機能し、高度なスピン制御は不要である。
この実験は、量子シミュレータやメトロロジーの光子絡み合い状態の超低エネルギー消費合成のための新しい経路を開拓する基礎的な進歩である。 Entanglement, the non-local correlations present in multipartite quantum systems, is a curious feature of quantum mechanics and the fuel of quantum technology. It is therefore a major priority to develop energy-conserving and simple methods for generating high-fidelity entangled states. In the case of light, entanglement can be realized by interactions with matter, although the required nonlinear interaction is typically weak, thereby limiting its applicability. Here, we show how a single two-level emitter deterministically coupled to light in a nanophotonic waveguide is used to realize genuine photonic quantum entanglement for excitation at the single photon level. By virtue of the efficient optical coupling, two-photon interactions are strongly mediated by the emitter realizing a giant nonlinearity that leads to entanglement. We experimentally generate and verify energy-time entanglement by violating a Bell inequality (Clauder-Horne-Shimony-Holt Bell parameter of $S=2.67(16)>2$) in an interferometric measurement of the two-photon scattering response. As an attractive feature of this approach, the two-level emitter acts as a passive scatterer initially prepared in the ground state, i.e., no advanced spin control is required. This experiment is a fundamental advancement that may pave a new route for ultra-low energy-consuming synthesis of photonic entangled states for quantum simulators or metrology. | 翻訳日:2023-06-23 14:45:51 公開日:2023-06-22 |
# HypeRS:ハイパーグラフ駆動のアンサンブルレコメンダーシステムの構築 HypeRS: Building a Hypergraph-driven ensemble Recommender System ( http://arxiv.org/abs/2306.12800v1 ) ライセンス: Link先を確認 | Alireza Gharahighehi, Celine Vens, Konstantinos Pliakos | (参考訳) recommenderシステムは、アイテムのコレクションよりもユーザの好みを予測するように設計されている。
これらのシステムは、ユーザの以前のインタラクションを処理し、要求を満たすためにどの項目を上位にランクするかを決定する。
アンサンブルレコメンデータシステムは、個々のモデルによって生成された決定を効果的に組み合わせて、優れたレコメンデーション性能を達成することができる。
本稿では,異なるモデルによる予測を統一的なハイパーグラフランキングフレームワークに組み合わせた,新しいアンサンブル推薦システムを提案する。
ハイパーグラフランキングが推奨システムのアンサンブルをモデル化するのはこれが初めてである。
ハイパーグラフはグラフの一般化であり、複数の頂点がハイパーエッジを介して接続でき、高次関係を効率的にモデル化できる。
個々のレコメンダシステムに対して異なるハイパーエッジ重みを割り当てることで,ユーザとアイテムの実際の接続と予測した接続を区別する。
映画,音楽,メディアレコメンデーションの分野から4つのデータセットを用いて実験を行った。
その結果,アンサンブルハイパーグラフランキング法は,個々のモデルと重み付けハイブリッドアプローチと比較して,より正確な推奨結果を生成することがわかった。
アンサンブルハイパーグラフに異なるハイパーエッジ重みを割り当てることにより、同一のハイパーエッジ重みを持つ設定よりも性能が向上する。 Recommender systems are designed to predict user preferences over collections of items. These systems process users' previous interactions to decide which items should be ranked higher to satisfy their desires. An ensemble recommender system can achieve great recommendation performance by effectively combining the decisions generated by individual models. In this paper, we propose a novel ensemble recommender system that combines predictions made by different models into a unified hypergraph ranking framework. This is the first time that hypergraph ranking has been employed to model an ensemble of recommender systems. Hypergraphs are generalizations of graphs where multiple vertices can be connected via hyperedges, efficiently modeling high-order relations. We differentiate real and predicted connections between users and items by assigning different hyperedge weights to individual recommender systems. We perform experiments using four datasets from the fields of movie, music and news media recommendation. The obtained results show that the ensemble hypergraph ranking method generates more accurate recommendations compared to the individual models and a weighted hybrid approach. The assignment of different hyperedge weights to the ensemble hypergraph further improves the performance compared to a setting with identical hyperedge weights. | 翻訳日:2023-06-23 14:45:28 公開日:2023-06-22 |
# マクロ生物系における非古典性の時間的証人 Temporal witnesses of non-classicality in a macroscopic biological system ( http://arxiv.org/abs/2306.12799v1 ) ライセンス: Link先を確認 | Giuseppe Di Pietra, Vlatko Vedral, Chiara Marletto | (参考訳) ポリマーに沿ったエクシトン移動は多くの生物学的プロセス、例えば光合成バイオシステムにおける光の収穫に必須である。
ここでは、この現象に非古典性の新たな証人を適用し、励起子が光子のコヒーレント量子進化を仲介できるならば、励起子は非古典的であると結論付ける。
次に, 高分子鎖に沿った励起子の量子移動に関する一般量子ビットモデルを提案し, 環境デコヒーレンスの影響を議論する。
この結果の一般性は、複雑な生体分子の量子特性の新しい試験を設計するのに理想的な候補となる。 Exciton transfer along a polymer is essential for many biological processes, for instance light harvesting in photosynthetic biosystems. Here we apply a new witness of non-classicality to this phenomenon, to conclude that, if an exciton can mediate the coherent quantum evolution of a photon, then the exciton is non-classical. We then propose a general qubit model for the quantum transfer of an exciton along a polymer chain, also discussing the effects of environmental decoherence. The generality of our results makes them ideal candidates to design new tests of quantum features in complex bio-molecules. | 翻訳日:2023-06-23 14:45:09 公開日:2023-06-22 |
# 領域適応によるbvocエミッションマップの超解像 Super-Resolution of BVOC Emission Maps Via Domain Adaptation ( http://arxiv.org/abs/2306.12796v1 ) ライセンス: Link先を確認 | Antonio Giganti, Sara Mandelli, Paolo Bestagini, Marco Marcon, Stefano Tubaro | (参考訳) 生体揮発性有機化合物(bvoc)の分解能向上はリモートセンシングにおいて重要な課題である。
近年,Deep Learning (DL) に基づく超解法 (SR) 手法が提案されている。
しかし、衛星観測から得られたデータを扱う場合、SRアルゴリズムを訓練するための測定が不足しているため、再構成は特に困難である。
本研究では,数値シミュレーションにより得られたエミッションマップの情報を活用し,衛星観測から得られた低分解能エミッションマップの超解像を目指す。
そこで我々は,DLに基づくSR手法とドメイン適応(DA)手法を併用し,シミュレーションおよび観測領域で使用される異なる集約戦略と空間情報を調和させて互換性を確保する。
シミュレーションおよび観測された排出量の数を体系的に変化させ,様々な段階におけるda戦略の有効性について検討し,適応戦略におけるデータ不足の影響について検討した。
我々の知る限りでは、衛星由来のBVOCマップ拡張におけるDAの事前調査は行われていない。
我々の研究は、観測されたbvoc排出の再構成のためのロバストな戦略の開発に向けた第一歩である。 Enhancing the resolution of Biogenic Volatile Organic Compound (BVOC) emission maps is a critical task in remote sensing. Recently, some Super-Resolution (SR) methods based on Deep Learning (DL) have been proposed, leveraging data from numerical simulations for their training process. However, when dealing with data derived from satellite observations, the reconstruction is particularly challenging due to the scarcity of measurements to train SR algorithms with. In our work, we aim at super-resolving low resolution emission maps derived from satellite observations by leveraging the information of emission maps obtained through numerical simulations. To do this, we combine a SR method based on DL with Domain Adaptation (DA) techniques, harmonizing the different aggregation strategies and spatial information used in simulated and observed domains to ensure compatibility. We investigate the effectiveness of DA strategies at different stages by systematically varying the number of simulated and observed emissions used, exploring the implications of data scarcity on the adaptation strategies. To the best of our knowledge, there are no prior investigations of DA in satellite-derived BVOC maps enhancement. Our work represents a first step toward the development of robust strategies for the reconstruction of observed BVOC emissions. | 翻訳日:2023-06-23 14:44:58 公開日:2023-06-22 |
# 見えないモダリティインタラクションを学ぶ Learning Unseen Modality Interaction ( http://arxiv.org/abs/2306.12795v1 ) ライセンス: Link先を確認 | Yunhua Zhang and Hazel Doughty and Cees G.M. Snoek | (参考訳) マルチモーダル学習(multimodal learning)は、興味のモダリティの組み合わせがトレーニング中に利用可能であると仮定し、クロスモーダル対応を学ぶ。
本稿では,マルチモーダル学習におけるモダリティ完全仮定に挑戦し,その代わりに推論中のモダリティ結合に対する一般化を試みる。
我々は,非知覚的モダリティ相互作用の問題を提起し,第1の解決法を提案する。
異なるモダリティの多次元特徴をリッチな情報を予約した共有空間に投影する機能投影モジュールを利用する。
これにより、情報は利用可能なモダリティにまたがる単純な和演算で蓄積される。
トレーニング中の信頼できないモダリティの組み合わせへの過度な適合を減らすため、モダリティ予測の信頼性を示す擬似スーパービジョンを用いてモデル学習をさらに改善する。
本手法は,マルチモーダル映像分類,ロボット状態回帰,マルチメディア検索において,多様なタスクやモダリティに対して有効であることを示す。 Multimodal learning assumes all modality combinations of interest are available during training to learn cross-modal correspondences. In this paper, we challenge this modality-complete assumption for multimodal learning and instead strive for generalization to unseen modality combinations during inference. We pose the problem of unseen modality interaction and introduce a first solution. It exploits a feature projection module to project the multidimensional features of different modalities into a common space with rich information reserved. This allows the information to be accumulated with a simple summation operation across available modalities. To reduce overfitting to unreliable modality combinations during training, we further improve the model learning with pseudo-supervision indicating the reliability of a modality's prediction. We demonstrate that our approach is effective for diverse tasks and modalities by evaluating it for multimodal video classification, robot state regression, and multimedia retrieval. | 翻訳日:2023-06-23 14:44:39 公開日:2023-06-22 |
# DSTC11トラック4におけるオープンドメイン対話システムのロバストおよび多言語自動評価指標の概要 Overview of Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems at DSTC 11 Track 4 ( http://arxiv.org/abs/2306.12794v1 ) ライセンス: Link先を確認 | Mario Rodr\'iguez-Cantelar and Chen Zhang and Chengguang Tang and Ke Shi and Sarik Ghazarian and Jo\~ao Sedoc and Luis Fernando D'Haro and Alexander Rudnicky | (参考訳) ニューラルネットワークの出現と急速な発展は対話システムの研究に革命をもたらし、その後、その自動評価に関する様々な課題を引き起こした。
オープンチャレンジとしてのオープンドメイン対話システムの自動評価は、多くの研究者の注目を集めている。
自動メトリクスと人的評価の相関性を改善するための一貫した努力にもかかわらず、複数の領域や次元に対する堅牢性を評価する試みはごくわずかである。
また、主に英語に焦点が当てられている。
これらの課題はすべて、さまざまなドメイン、ディメンション、言語に信頼性のある自動評価メトリクスの開発を促す。
第11回対話システム技術チャレンジ(DSTC11)のこのトラックは、堅牢で多言語による自動評価のメトリクスを促進する取り組みの一環である。
本稿では、参加者に提供するデータセットとベースラインについて述べ、提案した2つのサブタスクの提出と結果の詳細について論じる。 The advent and fast development of neural networks have revolutionized the research on dialogue systems and subsequently have triggered various challenges regarding their automatic evaluation. Automatic evaluation of open-domain dialogue systems as an open challenge has been the center of the attention of many researchers. Despite the consistent efforts to improve automatic metrics' correlations with human evaluation, there have been very few attempts to assess their robustness over multiple domains and dimensions. Also, their focus is mainly on the English language. All of these challenges prompt the development of automatic evaluation metrics that are reliable in various domains, dimensions, and languages. This track in the 11th Dialogue System Technology Challenge (DSTC11) is part of the ongoing effort to promote robust and multilingual automatic evaluation metrics. This article describes the datasets and baselines provided to participants and discusses the submission and result details of the two proposed subtasks. | 翻訳日:2023-06-23 14:44:25 公開日:2023-06-22 |
# DiffWA:ウォーターマーク攻撃のための拡散モデル DiffWA: Diffusion Models for Watermark Attack ( http://arxiv.org/abs/2306.12790v1 ) ライセンス: Link先を確認 | Xinyu Li | (参考訳) ディープニューラルネットワーク(DNN)の急速な開発に伴い、多くの堅牢なブラインド透かしアルゴリズムとフレームワークが提案され、良好な結果が得られた。
現在、ウォーターマーク攻撃アルゴリズムはウォーターマーク加算アルゴリズムと競合することができない。
そして多くのウォーターマーク攻撃アルゴリズムは、ウォーターマークの通常の抽出と干渉することしか気にせず、ウォーターマーク攻撃は画像に大きな視覚損失を引き起こす。
そこで本稿では,透かし攻撃のための距離誘導付き条件拡散モデルであるDiffWAを提案し,埋め込み透かしを除去しながら画像の復元を行う。
本手法の中核は,無透かし画像に対する画像対画像条件拡散モデルを訓練し,サンプリング時の距離誘導を用いて条件付きモデルを誘導することで,原画像と類似した無透かし画像を生成することにある。
提案モデルを用いてCIFAR-10の実験を行った。
その結果,ウォーターマーク抽出のビット誤り率を0.4以上とすることで,効果のよいウォーターマークを除去できることがわかった。
同時に、攻撃された画像は、元の画像と比較して31以上のPSNRと0.97以上のSSIMで良好な視覚効果を維持する。 With the rapid development of deep neural networks(DNNs), many robust blind watermarking algorithms and frameworks have been proposed and achieved good results. At present, the watermark attack algorithm can not compete with the watermark addition algorithm. And many watermark attack algorithms only care about interfering with the normal extraction of the watermark, and the watermark attack will cause great visual loss to the image. To this end, we propose DiffWA, a conditional diffusion model with distance guidance for watermark attack, which can restore the image while removing the embedded watermark. The core of our method is training an image-to-image conditional diffusion model on unwatermarked images and guiding the conditional model using a distance guidance when sampling so that the model will generate unwatermarked images which is similar to original images. We conducted experiments on CIFAR-10 using our proposed models. The results shows that the model can remove the watermark with good effect and make the bit error rate of watermark extraction higher than 0.4. At the same time, the attacked image will maintain good visual effect with PSNR more than 31 and SSIM more than 0.97 compared with the original image. | 翻訳日:2023-06-23 14:44:09 公開日:2023-06-22 |
# 適応的光学クラスタリングに基づく強化連合学習法 Reinforcement Federated Learning Method Based on Adaptive OPTICS Clustering ( http://arxiv.org/abs/2306.12859v1 ) ライセンス: Link先を確認 | Tianyu Zhao, Junping Du, Yingxia Shao, and Zeli Guan | (参考訳) フェデレーション学習(Federated Learning)は、データプライバシ保護とデータ共有コンピューティングのバランスを実現する分散機械学習技術である。
データプライバシを保護するために、フェデレーション付き学習は、参加デバイス上でローカルに分散トレーニングを実行し、ローカルモデルをグローバルモデルに集約することにより、共有モデルを学ぶ。
フェデレーション学習には問題があり、すなわち、異なるユーザ端末間でのデータの非独立的かつ同一の分散によって生じる負の影響がある。
この問題を軽減するために,適応型OPTICSクラスタリングに基づく強化されたフェデレーションアグリゲーション手法を提案する。
具体的には、クラスタリング環境をマルコフ決定過程として認識し、パラメータ探索方向の調整過程をモデル化し、最適な cla-teringパラメータを見つけ、最適なフェデレーション集計法を実現する。
本稿では,連合学習のための適応型OPTICSクラスタリングアルゴリズムを提案する。
このアルゴリズムは、OPTICSクラスタリングと適応学習技術を組み合わせて、異なるユーザ端末間で非独立で同一の分散データの問題に効果的に対処することができる。
クラスタリング環境をマルコフ決定プロセスとして認識することで,人工的な支援なしにOPTICSクラスタの最適なパラメータを見つけ,最適な連合集約法と優れた性能を実現することが目的である。
本手法の信頼性と実用性は, 実験データから検証され, 有効性と優越性が確認された。 Federated learning is a distributed machine learning technology, which realizes the balance between data privacy protection and data sharing computing. To protect data privacy, feder-ated learning learns shared models by locally executing distributed training on participating devices and aggregating local models into global models. There is a problem in federated learning, that is, the negative impact caused by the non-independent and identical distribu-tion of data across different user terminals. In order to alleviate this problem, this paper pro-poses a strengthened federation aggregation method based on adaptive OPTICS clustering. Specifically, this method perceives the clustering environment as a Markov decision process, and models the adjustment process of parameter search direction, so as to find the best clus-tering parameters to achieve the best federated aggregation method. The core contribution of this paper is to propose an adaptive OPTICS clustering algorithm for federated learning. The algorithm combines OPTICS clustering and adaptive learning technology, and can effective-ly deal with the problem of non-independent and identically distributed data across different user terminals. By perceiving the clustering environment as a Markov decision process, the goal is to find the best parameters of the OPTICS cluster without artificial assistance, so as to obtain the best federated aggregation method and achieve better performance. The reliability and practicability of this method have been verified on the experimental data, and its effec-tiveness and superiority have been proved. | 翻訳日:2023-06-23 14:38:16 公開日:2023-06-22 |
# 情報損失制約に基づく大規模公共安全時空間データの効率的な分割方法 Efficient Partitioning Method of Large-Scale Public Safety Spatio-Temporal Data based on Information Loss Constraints ( http://arxiv.org/abs/2306.12857v1 ) ライセンス: Link先を確認 | Jie Gao, Yawen Li, Zhe Xue, and Zeli Guan | (参考訳) 大規模な時空間データの保管、管理、適用は、公共の安全を含む様々な実践シナリオに広く適用されている。
しかし,re-al-worldデータの時空間分布特性から,既存の手法では,データの時空間的近接や分散ストレージにおける負荷分散が制限されている。
本稿では,情報損失制約(IFL-LSTP)に基づく大規模公共安全時空間データの効率的な分割手法を提案する。
IFL-LSTPモデルは、時空間分割モジュール(STPM)とグラフ分割モジュール(GPM)を組み合わせた大規模時空間点da-taを特にターゲットとしている。
このアプローチは、パーティショニング効率を改善するために、モデルの精度を維持しながらデータのスケールを大幅に削減することができる。
また、データパーティショニング結果の時空間的近接を維持しながら、分散ストレージのロードバランシングを確保することもできる。
本手法は,仮設時空間データの分散ストレージのための新しいソリューションを提供する。
複数の実世界のda-tasetに対する実験結果は、IFL-LSTPの有効性と優位性を示している。 The storage, management, and application of massive spatio-temporal data are widely applied in various practical scenarios, including public safety. However, due to the unique spatio-temporal distribution characteristics of re-al-world data, most existing methods have limitations in terms of the spatio-temporal proximity of data and load balancing in distributed storage. There-fore, this paper proposes an efficient partitioning method of large-scale public safety spatio-temporal data based on information loss constraints (IFL-LSTP). The IFL-LSTP model specifically targets large-scale spatio-temporal point da-ta by combining the spatio-temporal partitioning module (STPM) with the graph partitioning module (GPM). This approach can significantly reduce the scale of data while maintaining the model's accuracy, in order to improve the partitioning efficiency. It can also ensure the load balancing of distributed storage while maintaining spatio-temporal proximity of the data partitioning results. This method provides a new solution for distributed storage of mas-sive spatio-temporal data. The experimental results on multiple real-world da-tasets demonstrate the effectiveness and superiority of IFL-LSTP. | 翻訳日:2023-06-23 14:37:51 公開日:2023-06-22 |
# 多部量子系における$k$以下の非絡み合い粒子を含む量子状態の効率的な検出 Efficient detection for quantum states containing fewer than $k$ unentangled particles in multipartite quantum systems ( http://arxiv.org/abs/2306.12856v1 ) ライセンス: Link先を確認 | Yabin Xing, Yan Hong, Limin Gao, Ting Gao, Fengli Yan | (参考訳) 本稿では,多成分量子系における1k$以下の非エンタングル粒子を含む量子状態の検出を主に研究する。
演算子に関する計算に基づいて、k$非エンタングル粒子未満のn$パーティタイト量子状態を決定するための2つの実用的な基準を導出する。
さらに、いくつかの具体的な例を通して、我々のフレームワークの有効性を実証し、特に、我々の方法が検出できる無絡粒子が$k$未満である量子状態が認識できないことを指摘した。 In this paper, we mainly investigate the detection of quantum states containing fewer than $k$ unentangled particles in multipartite quantum systems. Based on calculations about operators, we derive two practical criteria for judging $N$-partite quantum states owning fewer than $k$ unentangled particles. In addition, we demonstrate the effectiveness of our frameworks through some concrete examples, and specifically point out the quantum states having fewer than $k$ unentangled particles that our methods can detect, while other criteria cannot recognize. | 翻訳日:2023-06-23 14:37:34 公開日:2023-06-22 |
# 症状を治さないで、原因を見つけなさい!
インタラクティブデバッギングのための効率的な人工知能法 Don't Treat the Symptom, Find the Cause! Efficient Artificial-Intelligence Methods for (Interactive) Debugging ( http://arxiv.org/abs/2306.12850v1 ) ライセンス: Link先を確認 | Patrick Rodler | (参考訳) 現代の世界では、自動車、eコマースのレコメンデーションシステム、オンラインのネットワーク、PCやスマートフォンを使うときの集積回路、エネルギー供給の確保のための電力網、銀行口座にアクセスするときのセキュリティクリティカルなソフトウェア、金融計画と意思決定のためのスプレッドシートなど、より高度な高度なシステムに常用し、活用し、交流し、頼りにしています。
これらのシステムの複雑さとシステムへの高い依存は、システム障害の非無視可能性と、そのような障害が私たちの日常生活に重大な悪影響を及ぼす可能性の両方を示している。
そのため,システム停止時間を最小限に抑えるとともに,システム修復のコストを最小化するために,新たな障害の被害を最小限に抑えることが不可欠である。
ここでモデルベースの診断が活躍する。
モデルに基づく診断は、原則化された、ドメインに依存しないアプローチであり、上記のものを含む様々な種類のトラブルシュートシステムに一般的に適用することができる。
知識表現、自動推論、ヒューリスティック問題解決、インテリジェントサーチ、最適化、確率論、統計学、不確実性下での意思決定、機械学習、および微積分学、組合せ論、集合論の技法を活用し、異常行動システムにおける障害の検出、局所化、修正を行う。
本論文では,モデルベース診断のトピックを紹介するとともに,この分野の主要な課題を指摘し,これらの課題に対する我々の研究から選択したアプローチについて論じる。 In the modern world, we are permanently using, leveraging, interacting with, and relying upon systems of ever higher sophistication, ranging from our cars, recommender systems in e-commerce, and networks when we go online, to integrated circuits when using our PCs and smartphones, the power grid to ensure our energy supply, security-critical software when accessing our bank accounts, and spreadsheets for financial planning and decision making. The complexity of these systems coupled with our high dependency on them implies both a non-negligible likelihood of system failures, and a high potential that such failures have significant negative effects on our everyday life. For that reason, it is a vital requirement to keep the harm of emerging failures to a minimum, which means minimizing the system downtime as well as the cost of system repair. This is where model-based diagnosis comes into play. Model-based diagnosis is a principled, domain-independent approach that can be generally applied to troubleshoot systems of a wide variety of types, including all the ones mentioned above, and many more. It exploits and orchestrates i.a. techniques for knowledge representation, automated reasoning, heuristic problem solving, intelligent search, optimization, stochastics, statistics, decision making under uncertainty, machine learning, as well as calculus, combinatorics and set theory to detect, localize, and fix faults in abnormally behaving systems. In this thesis, we will give an introduction to the topic of model-based diagnosis, point out the major challenges in the field, and discuss a selection of approaches from our research addressing these issues. | 翻訳日:2023-06-23 14:37:24 公開日:2023-06-22 |
# 電子健康記録における自然言語処理と医療意思決定--システムレビュー Natural Language Processing in Electronic Health Records in Relation to Healthcare Decision-making: A Systematic Review ( http://arxiv.org/abs/2306.12834v1 ) ライセンス: Link先を確認 | Elias Hossain, Rajib Rana, Niall Higgins, Jeffrey Soar, Prabal Datta Barua, Anthony R. Pisani, Ph.D, Kathryn Turner} | (参考訳) 背景: 自然言語処理(NLP)は電子健康記録(EHR)から臨床知見を抽出するために広く用いられている。
しかしながら、注釈付きデータや自動化ツール、その他の課題が欠如しているため、EHRに対するNLPのフル活用が妨げられている。
機械学習(ML)、ディープラーニング(DL)、NLP技術を研究し、この分野の限界と機会を包括的に理解するために比較した。
方法論:11のデータベースから261の記事をスクリーニングした後、全文レビュー用の127の論文を7つのカテゴリにまとめた。
1)医療ノート分類。
2) 臨床的実体認識
3)テキスト要約
4)ディープラーニング(dl)とトランスファー学習アーキテクチャ、
5)情報抽出,
6) 医学語訳及び翻訳
7) その他の NLP アプリケーション。
本研究は,系統的レビューとメタ分析(prisma)ガイドラインに好適な報告項目に従う。
結果と議論: EHRは選択した記事の中で最もよく使われるデータ型であり、データセットは主に構造化されていない。
ML や DL の様々な手法が用いられ、予測や分類がML や DL の最も一般的な応用である。
最も一般的な使用例は、国際疾患分類、第9次改訂分類(ICD-9)、臨床ノート分析、精神疾患の臨床的記述と研究のための名前付きエンティティ認識(NER)である。
結論: 採用したMLモデルは適切に評価されなかった。
加えて、データ不均衡の問題は非常に重要であるが、この根底的な問題に対処する技術を見つける必要がある。
今後の研究は、主にループス腎炎、自殺未遂、周産期自己修復、ICD-9分類などの研究における重要な限界に対処すべきである。 Background: Natural Language Processing (NLP) is widely used to extract clinical insights from Electronic Health Records (EHRs). However, the lack of annotated data, automated tools, and other challenges hinder the full utilisation of NLP for EHRs. Various Machine Learning (ML), Deep Learning (DL) and NLP techniques are studied and compared to understand the limitations and opportunities in this space comprehensively. Methodology: After screening 261 articles from 11 databases, we included 127 papers for full-text review covering seven categories of articles: 1) medical note classification, 2) clinical entity recognition, 3) text summarisation, 4) deep learning (DL) and transfer learning architecture, 5) information extraction, 6) Medical language translation and 7) other NLP applications. This study follows the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines. Result and Discussion: EHR was the most commonly used data type among the selected articles, and the datasets were primarily unstructured. Various ML and DL methods were used, with prediction or classification being the most common application of ML or DL. The most common use cases were: the International Classification of Diseases, Ninth Revision (ICD-9) classification, clinical note analysis, and named entity recognition (NER) for clinical descriptions and research on psychiatric disorders. Conclusion: We find that the adopted ML models were not adequately assessed. In addition, the data imbalance problem is quite important, yet we must find techniques to address this underlining problem. Future studies should address key limitations in studies, primarily identifying Lupus Nephritis, Suicide Attempts, perinatal self-harmed and ICD-9 classification. | 翻訳日:2023-06-23 14:36:53 公開日:2023-06-22 |
# MultiTASC: コンシューマエッジにおけるカスケードDNN推論のためのマルチテナンシ対応スケジューリング MultiTASC: A Multi-Tenancy-Aware Scheduler for Cascaded DNN Inference at the Consumer Edge ( http://arxiv.org/abs/2306.12830v1 ) ライセンス: Link先を確認 | Sokratis Nikolaidis, Stylianos I. Venieris, Iakovos S. Venieris | (参考訳) カスケードシステムは2モデルシーケンスで構成され、全てのサンプルを軽量に処理し、より硬い試料を条件に精製し精度を向上させる。
光モデルをデバイス側に配置し、重モデルをサーバに配置することで、モデルカスケードは広く使われている分散推論のアプローチを構成する。
スマートホームなどのインテリジェントな屋内環境の急速な拡大に伴い、マルチデバイスカスケードの新たな設定が登場し、複数の多様なデバイスが同時に同じサーバ上で共有ヘビーモデルを使用することが求められている。
本研究はマルチテナント対応スケジューラであるMultiTASCを,高い精度と低レイテンシを維持しつつ,システムのスループットを最大化するために,デバイス転送決定関数を適応的に制御する。
デバイスの不均一性を明示的に考慮することで,40台以上のデバイスを運用しながら,最先端カスケード法よりも遅延サービスレベル目標(slo)満足度を20~25ポイント(pp)向上させる。 Cascade systems comprise a two-model sequence, with a lightweight model processing all samples and a heavier, higher-accuracy model conditionally refining harder samples to improve accuracy. By placing the light model on the device side and the heavy model on a server, model cascades constitute a widely used distributed inference approach. With the rapid expansion of intelligent indoor environments, such as smart homes, the new setting of Multi-Device Cascade is emerging where multiple and diverse devices are to simultaneously use a shared heavy model on the same server, typically located within or close to the consumer environment. This work presents MultiTASC, a multi-tenancy-aware scheduler that adaptively controls the forwarding decision functions of the devices in order to maximize the system throughput, while sustaining high accuracy and low latency. By explicitly considering device heterogeneity, our scheduler improves the latency service-level objective (SLO) satisfaction rate by 20-25 percentage points (pp) over state-of-the-art cascade methods in highly heterogeneous setups, while serving over 40 devices, showcasing its scalability. | 翻訳日:2023-06-23 14:36:26 公開日:2023-06-22 |
# strainnet:se(3)等価グラフニューラルネットワークによる結晶構造弾性特性の予測 StrainNet: Predicting crystal structure elastic properties using SE(3)-equivariant graph neural networks ( http://arxiv.org/abs/2306.12818v1 ) ライセンス: Link先を確認 | Teerachote Pakornchote, Annop Ektarawong, Thiparat Chotibut | (参考訳) 結晶性固体の弾性特性を正確に予測することは計算材料科学にとって不可欠である。
しかしながら、従来の原子スケールabイニシアトアプローチは、特に単位セル内に多数の原子を持つ複雑な物質を研究するために、計算的に集約的である。
本稿では,SE(3)-同変グラフニューラルネットワーク(GNN)を用いて結晶構造の弾性特性を効率的に予測する新しいデータ駆動手法を提案する。
このアプローチは、最近のデータ駆動研究に匹敵する精度で重要なスカラー弾性変調をもたらす。
重要なことに,我々の対称性を考慮したGNNモデルは,材料の結晶群に大きく影響される基本テンソル量であるひずみエネルギー密度(SED)と関連する弾性定数の予測を可能にする。
このモデルは、結晶構造の対称性に従ってSEDテンソルの独立要素を一貫して区別する。
最後に,我々のディープラーニングモデルは有意な潜在特性を有し,弾性特性の解釈可能な予測を提供する。 Accurately predicting the elastic properties of crystalline solids is vital for computational materials science. However, traditional atomistic scale ab initio approaches are computationally intensive, especially for studying complex materials with a large number of atoms in a unit cell. We introduce a novel data-driven approach to efficiently predict the elastic properties of crystal structures using SE(3)-equivariant graph neural networks (GNNs). This approach yields important scalar elastic moduli with the accuracy comparable to recent data-driven studies. Importantly, our symmetry-aware GNNs model also enables the prediction of the strain energy density (SED) and the associated elastic constants, the fundamental tensorial quantities that are significantly influenced by a material's crystallographic group. The model consistently distinguishes independent elements of SED tensors, in accordance with the symmetry of the crystal structures. Finally, our deep learning model possesses meaningful latent features, offering an interpretable prediction of the elastic properties. | 翻訳日:2023-06-23 14:36:03 公開日:2023-06-22 |
# XAI-TRIS:ML説明性能の定量化のための非線形ベンチマーク XAI-TRIS: Non-linear benchmarks to quantify ML explanation performance ( http://arxiv.org/abs/2306.12816v1 ) ライセンス: Link先を確認 | Benedict Clark, Rick Wilming, Stefan Haufe | (参考訳) 説明可能な」人工知能(xai)の分野は、複雑な機械学習(ml)手法を人間に「理解可能」な方法で決定しようとする非常に引用された手法を生み出している。
しかし、形式的な基盤の欠如は、与えられたXAI法の結果からどの結論を安全に導き出すことができるかについては明らかではなく、XAI法の理論的検証と実証的検証を妨げている。
これは、一般的にディープニューラルネットワークによって解決される非線形問題に挑戦するが、現在は適切な対策を欠いていることを意味する。
本稿では,重要なクラス条件特徴を設計によって把握し,基礎的真理説明として機能する,3つの異なる非線形分類シナリオのためのベンチマークデータセットを作成する。
新たな定量的指標を用いて,3つのディープラーニングモデルアーキテクチャにまたがる広範囲なXAI手法の説明性能をベンチマークした。
我々は,一般的なXAI手法が,ランダムな性能基準やエッジ検出方法よりも著しく優れていることを示す。
さらに,異なるモデルアーキテクチャから派生した説明は,制御条件下でも誤解釈しがちであることを示す。 The field of 'explainable' artificial intelligence (XAI) has produced highly cited methods that seek to make the decisions of complex machine learning (ML) methods 'understandable' to humans, for example by attributing 'importance' scores to input features. Yet, a lack of formal underpinning leaves it unclear as to what conclusions can safely be drawn from the results of a given XAI method and has also so far hindered the theoretical verification and empirical validation of XAI methods. This means that challenging non-linear problems, typically solved by deep neural networks, presently lack appropriate remedies. Here, we craft benchmark datasets for three different non-linear classification scenarios, in which the important class-conditional features are known by design, serving as ground truth explanations. Using novel quantitative metrics, we benchmark the explanation performance of a wide set of XAI methods across three deep learning model architectures. We show that popular XAI methods are often unable to significantly outperform random performance baselines and edge detection methods. Moreover, we demonstrate that explanations derived from different model architectures can be vastly different; thus, prone to misinterpretation even under controlled conditions. | 翻訳日:2023-06-23 14:35:48 公開日:2023-06-22 |
# AIは完璧な気候の誤報を生み出すかもしれない AI could create a perfect storm of climate misinformation ( http://arxiv.org/abs/2306.12807v1 ) ライセンス: Link先を確認 | Victor Galaz, Hannah Metzler, Stefan Daume, Andreas Olsson, Bj\"orn Lindstr\"om, Arvid Marklund | (参考訳) 私たちは今、デジタルニュースエコシステムの変革の最中です。
オンラインソーシャルネットワークの拡大、レコメンデーションシステムの影響、自動化の強化、そして新しい生成型人工知能ツールによって、気候変動や持続可能性問題に関する誤情報が世界中に移動するスピードと方法が急速に変化している。
政策立案者、研究者、そして一般大衆は、不透明なソーシャルメディアアルゴリズムの危険な組み合わせ、ソーシャルボットの分極、そして新しい世代のAI生成コンテンツに対処する力を組み合わせる必要がある。
この合成ブリーフはストックホルム大学のストックホルムレジリエンスセンター、スウェーデン王立科学アカデミーのBeijer Institute of Ecological Economics、ウィーンの複雑さ科学ハブ、カロリンスカ研究所の協力によるものである。
2023年5月24日から26日にかけてワシントンd.c.で開催されたノーベル平和サミット2023, truth, trust and hopeに独立した貢献としてまとめられた。 We are in the midst of a transformation of the digital news ecosystem. The expansion of online social networks, the influence of recommender systems, increased automation, and new generative artificial intelligence tools are rapidly changing the speed and the way misinformation about climate change and sustainability issues moves around the world. Policymakers, researchers and the public need to combine forces to address the dangerous combination of opaque social media algorithms, polarizing social bots, and a new generation of AI-generated content. This synthesis brief is the result of a collaboration between Stockholm Resilience Centre at Stockholm University, the Beijer Institute of Ecological Economics at the Royal Swedish Academy of Sciences, the Complexity Science Hub Vienna, and Karolinska Institutet. It has been put together as an independent contribution to the Nobel Prize Summit 2023, Truth, Trust and Hope, Washington D.C., 24th to 26th of May 2023. | 翻訳日:2023-06-23 14:35:27 公開日:2023-06-22 |
# 極限順序ブック環境のための条件付きジェネレータ--説明可能性,課題,ロバスト性 Conditional Generators for Limit Order Book Environments: Explainability, Challenges, and Robustness ( http://arxiv.org/abs/2306.12806v1 ) ライセンス: Link先を確認 | Andrea Coletta, Joseph Jerome, Rahul Savani, and Svitlana Vyetrenko | (参考訳) 限定注文書は、基本的で広範な市場メカニズムである。
本稿では,条件付き生成モデルを用いた注文帳シミュレーションについて検討する。
トレーディングエージェントの開発においては、トレーディングエージェントの存在に反応する能力のため、従来のバックテストに代わるものとして近年注目されている。
最新のCGAN(Coletta et al. (2022))を用いて、入力特徴への依存を探り、強みと弱みの両方を強調する。
これを実現するために、モデルの特徴とそのメカニズムに"逆攻撃"を使用します。
次に、これらの知見がCGANの改善にどのように役立つか、その現実性と堅牢性の両方の観点から示す。
今後の作業のロードマップを策定する作業を終えます。 Limit order books are a fundamental and widespread market mechanism. This paper investigates the use of conditional generative models for order book simulation. For developing a trading agent, this approach has drawn recent attention as an alternative to traditional backtesting due to its ability to react to the presence of the trading agent. Using a state-of-the-art CGAN (from Coletta et al. (2022)), we explore its dependence upon input features, which highlights both strengths and weaknesses. To do this, we use "adversarial attacks" on the model's features and its mechanism. We then show how these insights can be used to improve the CGAN, both in terms of its realism and robustness. We finish by laying out a roadmap for future work. | 翻訳日:2023-06-23 14:35:09 公開日:2023-06-22 |
# xsim++:低リソース言語のためのバイテキストマイニングパフォーマンス向上のためのプロキシ xSIM++: An Improved Proxy to Bitext Mining Performance for Low-Resource Languages ( http://arxiv.org/abs/2306.12907v1 ) ライセンス: Link先を確認 | Mingda Chen, Kevin Heffernan, Onur \c{C}elebi, Alex Mourachko, Holger Schwenk | (参考訳) 複数言語埋め込み空間における類似性に基づいて,bitextマイニングを評価するための新しいプロキシスコア(xSIM++)を導入する。
xSIMと比較して、この改良されたプロキシはルールベースのアプローチを利用して、大規模な鉱業で遭遇するシナリオをより深く反映した、合成的で難しい例で設定された任意の評価において、英語文を拡張する。
低リソース言語のセットでかなりの数のバイテキストマイニング実験を実行し、その後、マイニングされたデータでnmtシステムをトレーニングすることで、このプロキシを検証する。
xSIMと比較して、xSIM++は、マイニングされたbitextで訓練された翻訳システムの下流BLEUスコアとよりよく相関していることを示し、高価なbitextマイニングパイプラインを走らせることなく、信頼性の高いbitextマイニング性能のプロキシを提供する。
xSIM++はまた、異なるエラータイプのパフォーマンスを報告し、モデル開発に対してよりきめ細かいフィードバックを提供する。 We introduce a new proxy score for evaluating bitext mining based on similarity in a multilingual embedding space: xSIM++. In comparison to xSIM, this improved proxy leverages rule-based approaches to extend English sentences in any evaluation set with synthetic, hard-to-distinguish examples which more closely mirror the scenarios we encounter during large-scale mining. We validate this proxy by running a significant number of bitext mining experiments for a set of low-resource languages, and subsequently train NMT systems on the mined data. In comparison to xSIM, we show that xSIM++ is better correlated with the downstream BLEU scores of translation systems trained on mined bitexts, providing a reliable proxy of bitext mining performance without needing to run expensive bitext mining pipelines. xSIM++ also reports performance for different error types, offering more fine-grained feedback for model development. | 翻訳日:2023-06-23 14:27:31 公開日:2023-06-22 |
# シミュレーションと機械学習を結合するin situフレームワークとcfdへの応用 In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD ( http://arxiv.org/abs/2306.12900v1 ) ライセンス: Link先を確認 | Riccardo Balin and Filippo Simini and Cooper Simpson and Andrew Shao and Alessandro Rigazzi and Matthew Ellis and Stephen Becker and Alireza Doostan and John A. Evans and Kenneth E. Jansen | (参考訳) 近年、流体力学計算を容易にする機械学習(ml)の多くの応用が成功している。
シミュレーションが成長するにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、i/oとストレージのボトルネックを生み出します。
さらに、実行時に推論を実行するには、シミュレーションコードとMLフレームワークライブラリを非自明に結合する必要がある。
この作業は、この結合を単純化し、異種クラスタ上でのインプレイストレーニングと推論ワークフローを可能にすることにより、両方の制限に対するソリューションを提供する。
smartsimを活用することで、提示されたフレームワークはデータベースをデプロイして、データとmlモデルをメモリに格納する。
ポーラリススーパーコンピュータ上では,データ転送と推論コストの全マシンサイズに対して,データベースの新たな配置により,完全なスケーリング効率を示す。
さらに、乱流シミュレーションからオートエンコーダをトレーニングし、このフレームワークのオーバーヘッドがソルバ時間ステップとトレーニングエポックと比較して無視可能であることを示す。 Recent years have seen many successful applications of machine learning (ML) to facilitate fluid dynamic computations. As simulations grow, generating new training datasets for traditional offline learning creates I/O and storage bottlenecks. Additionally, performing inference at runtime requires non-trivial coupling of ML framework libraries with simulation codes. This work offers a solution to both limitations by simplifying this coupling and enabling in situ training and inference workflows on heterogeneous clusters. Leveraging SmartSim, the presented framework deploys a database to store data and ML models in memory, thus circumventing the file system. On the Polaris supercomputer, we demonstrate perfect scaling efficiency to the full machine size of the data transfer and inference costs thanks to a novel co-located deployment of the database. Moreover, we train an autoencoder in situ from a turbulent flow simulation, showing that the framework overhead is negligible relative to a solver time step and training epoch. | 翻訳日:2023-06-23 14:27:14 公開日:2023-06-22 |
# InAs/GaAs量子ドットの機械学習と実時間フィードバック制御 Machine-Learning-Assisted and Real-Time-Feedback-Controlled Growth of InAs/GaAs Quantum Dots ( http://arxiv.org/abs/2306.12898v1 ) ライセンス: Link先を確認 | Chao Shen, Wenkang Zhan, Kaiyao Xin, Manyang Li, Zhenyu Sun, Jian Tang, Zhaofeng Wu, Bo Xu, Zhongming Wei, Chao Zhao, and Zhanguo Wang | (参考訳) 自己集合型InAs/GaAs量子ドット(QD)は、QDレーザーや単一光子源のような様々な光電子デバイスを開発するのに非常に有用な性質を持つ。
これらの応用はこれらのドットの密度と品質に強く依存しており、高品質なエピウエハやデバイスを実現するための成長過程制御の研究を動機付けている。
特定のQD密度に対する分子線エピタキシー(MBE)におけるプロセスパラメータの確立は多次元最適化の課題であり、通常は時間と反復的な試行錯誤によって対処される。
一方、反射型高エネルギー電子回折(RHEED)は、多量の成長情報を取得するために広く用いられている。
しかし、ノイズや重なり合う画像から情報を取り出すという課題に直面している。
本稿では,3次元resnetに基づいて,静的画像の代わりにrheedビデオを訓練し,プロセス制御のための表面形態に関するリアルタイムフィードバックを提供する機械学習モデルを開発した。
約1.5E10 cm-2から3.8E8 cm-2または1.4E11 cm-2まで,ほぼリアルタイムにQD密度を調整し,成長後のQDの密度を予測することを実証した。
従来の手法と比較して,本手法はその場調整能力と信頼性に優れ,材料最適化を劇的に高速化し,MBE成長の再現性を向上し,薄膜成長技術に大きな進歩をもたらした。
この研究で実証された概念や手法は、マイクロエレクトロニクスや光電子産業の半導体製造に革命をもたらす様々な材料成長プロセスに適用できることを約束している。 Self-assembled InAs/GaAs quantum dots (QDs) have properties highly valuable for developing various optoelectronic devices such as QD lasers and single photon sources. The applications strongly rely on the density and quality of these dots, which has motivated studies of the growth process control to realize high-quality epi-wafers and devices. Establishing the process parameters in molecular beam epitaxy (MBE) for a specific density of QDs is a multidimensional optimization challenge, usually addressed through time-consuming and iterative trial-and-error. Meanwhile, reflective high-energy electron diffraction (RHEED) has been widely used to capture a wealth of growth information in situ. However, it still faces the challenges of extracting information from noisy and overlapping images. Here, based on 3D ResNet, we developed a machine learning (ML) model specially designed for training RHEED videos instead of static images and providing real-time feedback on surface morphologies for process control. We demonstrated that ML from previous growth could predict the post-growth density of QDs, by successfully tuning the QD densities in near-real time from 1.5E10 cm-2 down to 3.8E8 cm-2 or up to 1.4 E11 cm-2. Compared to traditional methods, our approach, with in-situ tuning capabilities and excellent reliability, can dramatically expedite the material optimization process and improve the reproducibility of MBE growth, constituting significant progress for thin film growth techniques. The concepts and methodologies proved feasible in this work are promising to be applied to a variety of material growth processes, which will revolutionize semiconductor manufacturing for microelectronic and optoelectronic industries. | 翻訳日:2023-06-23 14:26:57 公開日:2023-06-22 |
# global narratives: 露ウクライナ紛争に関するニュースメディアの多言語twitterデータセット Unveiling Global Narratives: A Multilingual Twitter Dataset of News Media on the Russo-Ukrainian Conflict ( http://arxiv.org/abs/2306.12886v1 ) ライセンス: Link先を確認 | Sherzod Hakimov and Gullal S. Cheema | (参考訳) ロシアとウクライナの紛争は世界中で激しいメディア報道の対象となっている。
この話題を取り巻く世界的物語を理解することは、多面的次元に関する洞察を得ることを目指す研究者にとって極めて重要である。
本稿では,ソーシャルメディア上でニュースやメディアが投稿したつぶやきを収集・処理することで,この話題に焦点を当てた新しいデータセットを提案する。
私たちは2022年2月から2023年5月までのツイートを収集し、60の言語で約150万のツイートを取得しました。
データセット内の各ツイートには処理されたタグが添付されており、エンティティ、スタンス、コンセプト、感情の識別が可能だ。
データセットの可用性は、誰が重要なエンティティであるか、どのようなスタンスが取られるのか、これらのスタンスがどこから生まれたのか、イベントに関連するさまざまな概念がどのように表現されているのかなど、さまざまな側面から、現在進行中の紛争を取り巻く世界的物語を調査することを目的とした研究者にとって、貴重な情報源となる。 The ongoing Russo-Ukrainian conflict has been a subject of intense media coverage worldwide. Understanding the global narrative surrounding this topic is crucial for researchers that aim to gain insights into its multifaceted dimensions. In this paper, we present a novel dataset that focuses on this topic by collecting and processing tweets posted by news or media companies on social media across the globe. We collected tweets from February 2022 to May 2023 to acquire approximately 1.5 million tweets in 60 different languages. Each tweet in the dataset is accompanied by processed tags, allowing for the identification of entities, stances, concepts, and sentiments expressed. The availability of the dataset serves as a valuable resource for researchers aiming to investigate the global narrative surrounding the ongoing conflict from various aspects such as who are the prominent entities involved, what stances are taken, where do these stances originate, and how are the different concepts related to the event portrayed. | 翻訳日:2023-06-23 14:26:28 公開日:2023-06-22 |
# ニューラルネットワークのためのデータフリーバックボーン微細チューニング Data-Free Backbone Fine-Tuning for Pruned Neural Networks ( http://arxiv.org/abs/2306.12881v1 ) ライセンス: Link先を確認 | Adrian Holzbock, Achyut Hegde, Klaus Dietmayer, and Vasileios Belagiannis | (参考訳) モデル圧縮技術はディープニューラルネットワークの計算負荷とメモリ消費を削減する。
パラメータプルーニングのような圧縮操作の後、モデルは通常、圧縮によるパフォーマンス低下から回復するために、元のトレーニングデータセットに微調整される。
しかし、プライバシの問題やその他の要因のために、トレーニングデータは必ずしも利用できない。
本研究では,深層ニューラルネットワークのバックボーンを刈り取るためのデータフリーな微調整手法を提案する。
特に, 刈り取られたネットワークバックボーンは, 合成画像を用いて訓練され, 提案する中間監督機構は未刈取バックボーンの出力特徴マップを模倣する。
その後、刈り取られたバックボーンを元のネットワークヘッドと組み合わせて予測を行うことができる。
我々は,バックボーンプルーニングにl1プルーニングを頼りながら,ノイズ画像に勾配をバックプロパゲーションすることで合成画像を生成する。
実験では,バックボーンのみを刈り取ることにより,タスクに依存しないアプローチを示した。
2次元人間のポーズ推定,物体検出,画像分類に対するアプローチを評価し,未完成モデルと比較して有望な性能を示す。
私たちのコードはhttps://github.com/holzbock/dfbfで利用可能です。 Model compression techniques reduce the computational load and memory consumption of deep neural networks. After the compression operation, e.g. parameter pruning, the model is normally fine-tuned on the original training dataset to recover from the performance drop caused by compression. However, the training data is not always available due to privacy issues or other factors. In this work, we present a data-free fine-tuning approach for pruning the backbone of deep neural networks. In particular, the pruned network backbone is trained with synthetically generated images, and our proposed intermediate supervision to mimic the unpruned backbone's output feature map. Afterwards, the pruned backbone can be combined with the original network head to make predictions. We generate synthetic images by back-propagating gradients to noise images while relying on L1-pruning for the backbone pruning. In our experiments, we show that our approach is task-independent due to pruning only the backbone. By evaluating our approach on 2D human pose estimation, object detection, and image classification, we demonstrate promising performance compared to the unpruned model. Our code is available at https://github.com/holzbock/dfbf. | 翻訳日:2023-06-23 14:26:09 公開日:2023-06-22 |
# 時間複雑化問題の解法と人工メモリ制限による量子貯水池計算の性能調整 Solving the time-complexity problem and tuning the performance of quantum reservoir computing by artificial memory restriction ( http://arxiv.org/abs/2306.12876v1 ) ライセンス: Link先を確認 | Saud \v{C}indrak, Brecht Donvil, Kathy L\"udge, Lina Jaurigue | (参考訳) 量子リザーバコンピューティング(quantum reservoir computing)は、複雑なタスクを解決するために、小さな量子システムの複雑性と高次元を、リザーバコンピューティングの高速トレーサビリティとともに活用することを目的としたコンピューティングアプローチである。
時間的タスクを解くための量子貯水池計算の適合性は、測定が行われると量子システムの崩壊によって妨げられる。
これにより貯水池の記憶が消去される。
したがって、全ての出力に対して、貯水池を再起動するために入力信号全体が必要であるため、二次的な時間的複雑さが生じる。
この問題を克服することは、量子貯水池コンピューティングのハードウェア実装に不可欠である。
本稿では,少数の入力のみを用いて量子貯水池のメモリを人工的に制限し,測定後に貯水池を再起動させる手法を提案する。
これにより、時系列予測タスクの実行に必要な量子演算数が大幅に削減されるだけでなく、貯水池の応答の非線形性を調整する手段も提供され、性能が大幅に向上する。
線形および二次的なアルゴリズムを,完全連結な逆イジングモデルと量子プロセッサモデルに対して数値的に検討する。
提案する線形アルゴリズムは計算コストを大幅に削減するだけでなく,タスク固有の貯留層計算性能を最適化する実験的な手段を提供する。 Quantum reservoir computing is a computing approach which aims at utilising the complexity and high-dimensionality of small quantum systems, together with the fast trainability of reservoir computing, in order to solve complex tasks. The suitability of quantum reservoir computing for solving temporal tasks is hindered by the collapse of the quantum system when measurements are made. This leads to the erasure of the memory of the reservoir. Hence, for every output, the entire input signal is needed to reinitialise the reservoir, leading to quadratic time complexity. Overcoming this issue is critical to the hardware implementation of quantum reservoir computing. We propose artificially restricting the memory of the quantum reservoir by only using a small number inputs to reinitialise the reservoir after measurements are performed, leading to linear time complexity. This not only substantially reduces the number of quantum operations needed to perform timeseries prediction tasks, it also provides a means of tuning the nonlinearity of the response of the reservoir, which can lead to significant performance improvement. We numerically study the linear and quadratic algorithms for a fully connected transverse Ising model and a quantum processor model. We find that our proposed linear algorithm not only significantly reduces the computational cost but also provides an experimental accessible means to optimise the task specific reservoir computing performance. | 翻訳日:2023-06-23 14:25:50 公開日:2023-06-22 |
# FuXi:15日間の世界天気予報のためのカスケード機械学習予測システム FuXi: A cascade machine learning forecasting system for 15-day global weather forecast ( http://arxiv.org/abs/2306.12873v1 ) ライセンス: Link先を確認 | Lei Chen, Xiaohui Zhong, Feng Zhang, Yuan Cheng, Yinghui Xu, Yuan Qi, Hao Li | (参考訳) 過去数年間、天気予報のための機械学習(ML)モデルの急速な発展により、最先端のMLモデルは、空間分解能0.25度の10日間の予測において、欧州中レージ気象予報センター(ECMWF)の高解像度予測(HRES)よりも優れた性能を示した。
しかし、この課題は15日間の予測においてECMWFアンサンブル平均値(EM)と同等に実行される。
従来の研究は、効果的な長期予測のための予測誤差の蓄積を緩和することの重要性を実証してきた。
自己回帰的多時間ステップ損失を含む累積誤差を削減する努力は数多くあったが、単一のモデルでは短時間と長時間の両方のリードタイムで最適な性能を達成するには不十分であることが判明した。
そこで本研究では,15日間の天気予報を時間分解能6時間,空間分解能0.25度で提供するカスケードml天気予報システムfuxiを提案する。
FuXiはECMWF ERA5の再分析データセットの39年間を使用して開発されている。
緯度重み付き根平均二乗誤差(rmse)と異常相関係数(acc)に基づく性能評価により、fuxiは15日間の予測においてecmwf emに匹敵する予測性能を示し、この達成を達成する最初のmlベースの気象予報システムとなった。 Over the past few years, due to the rapid development of machine learning (ML) models for weather forecasting, state-of-the-art ML models have shown superior performance compared to the European Centre for Medium-Range Weather Forecasts (ECMWF)'s high-resolution forecast (HRES) in 10-day forecasts at a spatial resolution of 0.25 degree. However, the challenge remains to perform comparably to the ECMWF ensemble mean (EM) in 15-day forecasts. Previous studies have demonstrated the importance of mitigating the accumulation of forecast errors for effective long-term forecasts. Despite numerous efforts to reduce accumulation errors, including autoregressive multi-time step loss, using a single model is found to be insufficient to achieve optimal performance in both short and long lead times. Therefore, we present FuXi, a cascaded ML weather forecasting system that provides 15-day global forecasts with a temporal resolution of 6 hours and a spatial resolution of 0.25 degree. FuXi is developed using 39 years of the ECMWF ERA5 reanalysis dataset. The performance evaluation, based on latitude-weighted root mean square error (RMSE) and anomaly correlation coefficient (ACC), demonstrates that FuXi has comparable forecast performance to ECMWF EM in 15-day forecasts, making FuXi the first ML-based weather forecasting system to accomplish this achievement. | 翻訳日:2023-06-23 14:25:28 公開日:2023-06-22 |
# 拡散型確率的再生モデルによる風雑音低減 Wind Noise Reduction with a Diffusion-based Stochastic Regeneration Model ( http://arxiv.org/abs/2306.12867v1 ) ライセンス: Link先を確認 | Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning, Timo Gerkmann | (参考訳) 本稿では,予測モデルと生成モデルを組み合わせた拡散型確率的再生モデルを用いた単チャンネル風雑音低減手法を提案する。
本稿では, 風流による膜の非線形変形とクリッピングを考慮した雑音モデルにおける非加法音声について紹介する。
我々の確率的再生モデルは、シミュレーションおよび実記録風雑音を用いたデータセット上で、他のニューラルネットワークに基づく風雑音低減法、および純粋に予測的および生成的モデルより優れていることを示す。
さらに,本手法は,実記録風雑音のある未認識データセット上でテストすることにより,よく一般化できることを示す。
提案手法の音声サンプル、データ生成スクリプト、コードはオンラインで見ることができる(https://uhh.de/inf-sp-storm-wind)。 In this paper we present a method for single-channel wind noise reduction using our previously proposed diffusion-based stochastic regeneration model combining predictive and generative modelling. We introduce a non-additive speech in noise model to account for the non-linear deformation of the membrane caused by the wind flow and possible clipping. We show that our stochastic regeneration model outperforms other neural-network-based wind noise reduction methods as well as purely predictive and generative models, on a dataset using simulated and real-recorded wind noise. We further show that the proposed method generalizes well by testing on an unseen dataset with real-recorded wind noise. Audio samples, data generation scripts and code for the proposed methods can be found online (https://uhh.de/inf-sp-storm-wind). | 翻訳日:2023-06-23 14:24:59 公開日:2023-06-22 |
# フラグフォールトトレラント誤り訂正のための距離保存ツール Optimization tools for distance-preserving flag fault-tolerant error correction ( http://arxiv.org/abs/2306.12862v1 ) ライセンス: Link先を確認 | Balint Pato, Theerapat Tansuwannont, Shilin Huang, Kenneth R. Brown | (参考訳) ルックアップテーブルの復号化は高速かつ距離を保ち、最小距離の量子誤り訂正符号を持つ短期量子コンピュータアーキテクチャにとって魅力的である。
本研究では,Calderbank-Shor-Steane (CSS) 符号のルックアップテーブルデコードにより,フラグフォールトトレラントエラー訂正 (FTEC) に必要な時間的オーバーヘッドを低減できる最適化ツールを開発した。
我々の技術には、コンパクトなルックアップテーブルの構築、Meet-in-the-Middle技術、フラグFTECの適応時間デコード、フラグ情報のための古典的処理技術、分離された$X$と$Z$カウント技術が含まれる。
距離3, 5, 7, 9の六角形カラーコードの回路レベルの雑音下での数値シミュレーションにより, ツールの性能評価を行った。
すべてのツールを組み合わせると、長さ9の六角形の色符号の擬似閾値が1.34 \pm 0.01 \times 10^{-4}$から$(1.42 \pm 0.12) \times 10^{-3}$へと大幅に増加する。 Lookup table decoding is fast and distance preserving, making it attractive for near-term quantum computer architectures with small-distance quantum error correcting codes. In this work, we develop several optimization tools which can potentially reduce the space and time overhead required for flag fault-tolerant error correction (FTEC) with lookup table decoding on Calderbank-Shor-Steane (CSS) codes. Our techniques include the compact lookup table construction, the Meet-in-the-Middle technique, the adaptive time decoding for flag FTEC, the classical processing technique for flag information, and the separated $X$ and $Z$ counting technique. We evaluate the performance of our tools using numerical simulation of hexagonal color codes of distances 3, 5, 7, and 9 under circuit-level noise. Combining all tools can result in more than an order of magnitude increase in pseudothreshold for the hexagonal color code of distance 9, from $(1.34 \pm 0.01) \times 10^{-4}$ to $(1.42 \pm 0.12) \times 10^{-3}$. | 翻訳日:2023-06-23 14:24:46 公開日:2023-06-22 |
# オフライン事前学習による視覚観察からの学習 Learning from Visual Observation via Offline Pretrained State-to-Go Transformer ( http://arxiv.org/abs/2306.12860v1 ) ライセンス: Link先を確認 | Bohan Zhou, Ke Li, Jiechuan Jiang, Zongqing Lu | (参考訳) 視覚的観察データのみからポリシーを回復することを目的とした視覚的観察(LfVO)からの学習は、挑戦的な問題である。
既存のLfVOアプローチは、非効率なオンライン学習スキームを採用するか、ゴールステートのような追加のタスク固有の情報を必要とする。
そこで本研究では,視覚観察から学ぶための2段階フレームワークを提案する。
第1段階では,実演の潜在性遷移を予測・識別するために,stgトランスフォーマーをオフラインで導入・事前学習する。
その後、第2段階では、stgトランスフォーマーは、エージェントが単に内在的な報酬から学習する下流強化学習タスクに内在的な報酬を提供する。
atari と minecraft を用いた実験の結果,提案手法はベースラインを上回っており,いくつかのタスクでは環境報酬から学んだポリシーに匹敵する性能を実現していることがわかった。
これらの結果は、状態、アクション、報酬を含む完全なオフラインデータセットに頼るのではなく、ビデオのみのデータを使用して難しい視覚強化学習タスクを解決する可能性に光を当てた。
プロジェクトのWebサイトとコードはhttps://sites.google.com/view/stgtransformerで見ることができる。 Learning from visual observation (LfVO), aiming at recovering policies from only visual observation data, is promising yet a challenging problem. Existing LfVO approaches either only adopt inefficient online learning schemes or require additional task-specific information like goal states, making them not suited for open-ended tasks. To address these issues, we propose a two-stage framework for learning from visual observation. In the first stage, we introduce and pretrain State-to-Go (STG) Transformer offline to predict and differentiate latent transitions of demonstrations. Subsequently, in the second stage, the STG Transformer provides intrinsic rewards for downstream reinforcement learning tasks where an agent learns merely from intrinsic rewards. Empirical results on Atari and Minecraft show that our proposed method outperforms baselines and in some tasks even achieves performance comparable to the policy learned from environmental rewards. These results shed light on the potential of utilizing video-only data to solve difficult visual reinforcement learning tasks rather than relying on complete offline datasets containing states, actions, and rewards. The project's website and code can be found at https://sites.google.com/view/stgtransformer. | 翻訳日:2023-06-23 14:24:25 公開日:2023-06-22 |
# ロバストセマンティックセマンティックセグメンテーション:強敵攻撃とロバストモデルの高速訓練 Robust Semantic Segmentation: Strong Adversarial Attacks and Fast Training of Robust Models ( http://arxiv.org/abs/2306.12941v1 ) ライセンス: Link先を確認 | Francesco Croce, Naman D Singh, Matthias Hein | (参考訳) 画像分類器に対する敵攻撃の設計に多くの研究が注がれているが、セマンティックセグメンテーションモデルを攻撃する手法はごくわずかである。
セグメンテーションモデルへの攻撃はタスク固有の課題であり,新しい解決策を提案する。
最終評価プロトコルは既存手法よりも優れており,モデルのロバスト性を過大評価できることを示す。
さらに,より堅牢な画像分類器を得る上で最も成功した逆行訓練は,セマンティックセグメンテーションにうまく適用できなかった。
これは、学習すべき課題がより困難であり、画像分類よりもはるかに高い計算労力を必要とするためである。
本稿では,画像ネット分類器の最近の進歩を生かして,頑健なバックボーンを微調整することで,計算コストの制限により,逆向きに頑健なセグメンテーションモデルを訓練できることを示す。 While a large amount of work has focused on designing adversarial attacks against image classifiers, only a few methods exist to attack semantic segmentation models. We show that attacking segmentation models presents task-specific challenges, for which we propose novel solutions. Our final evaluation protocol outperforms existing methods, and shows that those can overestimate the robustness of the models. Additionally, so far adversarial training, the most successful way for obtaining robust image classifiers, could not be successfully applied to semantic segmentation. We argue that this is because the task to be learned is more challenging, and requires significantly higher computational effort than for image classification. As a remedy, we show that by taking advantage of recent advances in robust ImageNet classifiers, one can train adversarially robust segmentation models at limited computational cost by fine-tuning robust backbones. | 翻訳日:2023-06-23 14:18:43 公開日:2023-06-22 |
# パピルスフラグメントの著者検索と同定のための特徴混合 Feature Mixing for Writer Retrieval and Identification on Papyri Fragments ( http://arxiv.org/abs/2306.12939v1 ) ライセンス: Link先を確認 | Marco Peer and Robert Sablatnig | (参考訳) 本稿では,パピリの著者検索と同定を深層学習に基づくアプローチとして,特定の著者と関連した断片と同一画像に対応する断片の同定に焦点をあてた。
本稿では,検索性能を向上させるために,残差バックボーンと特徴混合ステージを組み合わせた新しいニューラルネットワークアーキテクチャを提案する。
この手法は2つのベンチマークで評価されている: papyrow(著者とページの検索において26.6 %と24.9 %)とhisfragir20(最先端のパフォーマンスを示す)である。
さらに,筆者の識別精度は28.7 %である。
さらに,2つのバイナライズ手法がフラグメントに与える影響について実験を行い,バイナライズが性能を向上しないことを示す。
私たちのコードとモデルはコミュニティで利用可能です。 This paper proposes a deep-learning-based approach to writer retrieval and identification for papyri, with a focus on identifying fragments associated with a specific writer and those corresponding to the same image. We present a novel neural network architecture that combines a residual backbone with a feature mixing stage to improve retrieval performance, and the final descriptor is derived from a projection layer. The methodology is evaluated on two benchmarks: PapyRow, where we achieve a mAP of 26.6 % and 24.9 % on writer and page retrieval, and HisFragIR20, showing state-of-the-art performance (44.0 % and 29.3 % mAP). Furthermore, our network has an accuracy of 28.7 % for writer identification. Additionally, we conduct experiments on the influence of two binarization techniques on fragments and show that binarizing does not enhance performance. Our code and models are available to the community. | 翻訳日:2023-06-23 14:18:26 公開日:2023-06-22 |
# 変圧器の量子化:アテンションヘッドが何もしないようにする Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing ( http://arxiv.org/abs/2306.12929v1 ) ライセンス: Link先を確認 | Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort | (参考訳) トランスフォーマーモデルはここ数年、様々な領域で広く採用され、特に大きな言語モデルはAIの分野を著しく進歩させてきた。
その規模のため、これらのネットワークの能力は大幅に増加したが、必要な計算量を大幅に増加させるコストがかかっている。
量子化は、ニューラルネットワークの計算時間とメモリ消費を減らす最も効果的な方法の1つである。
しかし、多くの研究により、現代のトランスフォーマーモデルはアクティベーションにおいて強い外れ値を学ぶ傾向にあり、定量化が難しいことが示されている。
許容される性能を維持するために、これらの異常値の存在は、ビット幅の高いアクティベーションや、異なる数値フォーマット、追加の微調整、その他の回避策を必要とする。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意頭の動きに非常に関係していることを示す。
ノーアップデートのためのアテンションマトリックスで必要とされる正確なゼロを達成するために、トレーニング中にソフトマックスへの入力がより大きくなり、ネットワークの他の部分で異常が発生する。
これらの観察に基づいて,注意機構の単純(独立)な2つの修正(クリップングソフトマックスとゲート付き注意)を提案する。
我々は,本手法を用いて事前学習したモデルにおいて,浮動小数点タスク性能を維持・改善しながら,はるかに小さなアウトレーラを学習できることを実証的に示す。
これにより、追加の労力なしで、トランスフォーマーをint8量子化に量子化できます。
提案手法の有効性を言語モデル(BERT, OPT)と視覚変換器の両方で示す。 Transformer models have been widely adopted in various domains over the last years, and especially large language models have advanced the field of AI significantly. Due to their size, the capability of these networks has increased tremendously, but this has come at the cost of a significant increase in necessary compute. Quantization is one of the most effective ways to reduce the computational time and memory consumption of neural networks. Many studies have shown, however, that modern transformer models tend to learn strong outliers in their activations, making them difficult to quantize. To retain acceptable performance, the existence of these outliers requires activations to be in higher bitwidth or the use of different numeric formats, extra fine-tuning, or other workarounds. We show that strong outliers are related to very specific behavior of attention heads that try to learn a "no-op" or just a partial update of the residual. To achieve the exact zeros needed in the attention matrix for a no-update, the input to the softmax is pushed to be larger and larger during training, causing outliers in other parts of the network. Based on these observations, we propose two simple (independent) modifications to the attention mechanism - clipped softmax and gated attention. We empirically show that models pre-trained using our methods learn significantly smaller outliers while maintaining and sometimes even improving the floating-point task performance. This enables us to quantize transformers to full INT8 quantization of the activations without any additional effort. We demonstrate the effectiveness of our methods on both language models (BERT, OPT) and vision transformers. | 翻訳日:2023-06-23 14:18:08 公開日:2023-06-22 |
# グローバルな状態予測による分散マルチエージェント強化学習 Decentralized Multi-Agent Reinforcement Learning with Global State Prediction ( http://arxiv.org/abs/2306.12926v1 ) ライセンス: Link先を確認 | Joshua Bloom, Pranjal Paliwal, Apratim Mukherjee, Carlo Pinciroli | (参考訳) 深部強化学習(DRL)は単一ロボットの制御において顕著な成功を収めた。
しかし、DRLをロボット群に適用することは大きな課題である。
重要な課題は非定常性であり、2つ以上のロボットが個別または共有のポリシーを同時に更新することで、収束の保証なしに相互依存のトレーニングプロセスに参加する。
非定常性を回避するには、通常、他のエージェントの状態や行動に関するグローバルな情報でロボットを訓練する。
対照的に,本稿では,グローバル情報の必要性をなくす方法について検討する。
我々は、他のエージェントに対するグローバルな知識が欠如していることから、部分的に観測可能なマルコフ決定プロセスとしてこの問題を提起する。
テストベッドシナリオとして集合輸送を用いたマルチエージェントトレーニングの2つのアプローチについて検討した。
最初は、ロボットはメッセージを交換せず、移動対象のプッシュ&プルを通じて暗黙のコミュニケーションに頼るように訓練される。
第2のアプローチでは、グローバルステート予測(GSP)を導入し、Swarm全体の信念を予測し、将来の状態を予測できるように訓練した。
障害のある環境での4つのよく知られた深層強化学習アルゴリズムに関する包括的研究を行い、望ましい時間枠内の目標へのオブジェクトの移動としての性能を測定した。
アブレーション研究により,グローバル知識を用いた手法と比較して,GSPを含むと性能が向上し,堅牢性が向上することが示された。 Deep reinforcement learning (DRL) has seen remarkable success in the control of single robots. However, applying DRL to robot swarms presents significant challenges. A critical challenge is non-stationarity, which occurs when two or more robots update individual or shared policies concurrently, thereby engaging in an interdependent training process with no guarantees of convergence. Circumventing non-stationarity typically involves training the robots with global information about other agents' states and/or actions. In contrast, in this paper we explore how to remove the need for global information. We pose our problem as a Partially Observable Markov Decision Process, due to the absence of global knowledge on other agents. Using collective transport as a testbed scenario, we study two approaches to multi-agent training. In the first, the robots exchange no messages, and are trained to rely on implicit communication through push-and-pull on the object to transport. In the second approach, we introduce Global State Prediction (GSP), a network trained to forma a belief over the swarm as a whole and predict its future states. We provide a comprehensive study over four well-known deep reinforcement learning algorithms in environments with obstacles, measuring performance as the successful transport of the object to the goal within a desired time-frame. Through an ablation study, we show that including GSP boosts performance and increases robustness when compared with methods that use global knowledge. | 翻訳日:2023-06-23 14:17:41 公開日:2023-06-22 |
# AudioPaLM: 講演や聞き取りが可能な大規模言語モデル AudioPaLM: A Large Language Model That Can Speak and Listen ( http://arxiv.org/abs/2306.12925v1 ) ライセンス: Link先を確認 | Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zal\'an Borsos, F\'elix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor, Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirovi\'c, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank | (参考訳) 本稿では音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMは、テキストベースおよび音声ベースの言語モデルであるPaLM-2(Anil et al., 2023)とAudioLM(Borsos et al., 2022)を統合マルチモーダルアーキテクチャに融合し、音声認識や音声音声翻訳などのアプリケーションでテキストと音声を処理・生成する。
AudioPaLMは、話者識別やイントネーションなどのパラ言語情報をAudioLMから継承し、PaLM-2のようなテキスト大言語モデルにのみ存在する言語知識を継承する。
本研究では,テキストのみの大規模言語モデルの重みを伴ってAudioPaLMを初期化することで音声処理が向上し,事前学習に使用する大量のテキストトレーニングデータを活用できることを実証する。
このモデルは既存の音声翻訳システムよりも優れており、入力/ターゲット言語の組み合わせが訓練中に見られない多くの言語に対してゼロショット音声テキスト翻訳を行うことができる。
AudioPaLMはまた、短い音声プロンプトに基づいて言語間で音声を転送するなど、オーディオ言語モデルの機能をデモしている。
私たちは https://google-research.github.io/seanet/audiopalm/examples でメソッドの例をリリースします。 We introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation. AudioPaLM inherits the capability to preserve paralinguistic information such as speaker identity and intonation from AudioLM and the linguistic knowledge present only in text large language models such as PaLM-2. We demonstrate that initializing AudioPaLM with the weights of a text-only large language model improves speech processing, successfully leveraging the larger quantity of text training data used in pretraining to assist with the speech tasks. The resulting model significantly outperforms existing systems for speech translation tasks and has the ability to perform zero-shot speech-to-text translation for many languages for which input/target language combinations were not seen in training. AudioPaLM also demonstrates features of audio language models, such as transferring a voice across languages based on a short spoken prompt. We release examples of our method at https://google-research.github.io/seanet/audiopalm/examples | 翻訳日:2023-06-23 14:17:17 公開日:2023-06-22 |
# 表データにおける新しいクラス発見のための対話型インタフェース An Interactive Interface for Novel Class Discovery in Tabular Data ( http://arxiv.org/abs/2306.12919v1 ) ライセンス: Link先を確認 | Colin Troisemaine, Joachim Flocon-Cholet, St\'ephane Gosselin, Alexandre Reiffers-Masson, Sandrine Vaton, Vincent Lemaire | (参考訳) 新規クラス発見(英語: novel class discovery、ncd)とは、ラベルのない集合の中で新しいクラスを見つけようとする問題である。
提案されているncd手法の大部分は画像データのみを扱うものであるが、表型データは実用的な用途において最も広く使われているデータである。
クラスタリングやNCDアルゴリズムの結果を解釈するには、データサイエンティストが表データのドメインやアプリケーション固有の属性を理解する必要がある。
このタスクは困難であり、しばしばドメインエキスパートによってのみ実行される。
したがって、このインターフェースにより、ドメインエキスパートは、表データでncdの最先端のアルゴリズムを簡単に実行できます。
データサイエンスの知識が最小限であれば、解釈可能な結果が生成される。 Novel Class Discovery (NCD) is the problem of trying to discover novel classes in an unlabeled set, given a labeled set of different but related classes. The majority of NCD methods proposed so far only deal with image data, despite tabular data being among the most widely used type of data in practical applications. To interpret the results of clustering or NCD algorithms, data scientists need to understand the domain- and application-specific attributes of tabular data. This task is difficult and can often only be performed by a domain expert. Therefore, this interface allows a domain expert to easily run state-of-the-art algorithms for NCD in tabular data. With minimal knowledge in data science, interpretable results can be generated. | 翻訳日:2023-06-23 14:16:52 公開日:2023-06-22 |
# 言語間クロスタイム要約:データセット、モデル、評価 Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation ( http://arxiv.org/abs/2306.12916v1 ) ライセンス: Link先を確認 | Ran Zhang, Jihed Ouni, Steffen Eger | (参考訳) 要約は自然言語処理 (NLP) において広く研究されているが、言語間横断要約 (CLCTS) は、文化的アクセシビリティ、情報共有、理解を改善する可能性を持つ未発見領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
我々は,最初のclctsコーパスを構築し,英語とドイツ語の歴史的文書とウィキペディア要約を活用し,中間タスクの微調整タスクが異なる汎用トランスフォーマティブエンドツーエンドモデルの有効性について検討した。
さらに,CLCTS における ChatGPT の可能性について,要約器および評価器として検討する。
全体として、人間、ChatGPT、および最近のいくつかの自動評価指標について報告し、中間タスクの微調整されたエンドツーエンドモデルは、中程度から中程度の品質の要約を生成し、(微調整なしで)要約器としてのChatGPTは、中程度から良質な出力を提供し、評価器は、低いスコアを与える傾向にあるものの、人間評価と中程度に相関する。
ChatGPTは、歴史的テキストの正規化にも非常に適しているようだ。
最終的にChatGPTを攻撃的かつ見当たらないソース文書のシナリオでテストした結果、ChatGPTは以前の知識に反するよりも、省略性とエンティティスワップが優れていることがわかった。 While summarization has been extensively researched in natural language processing (NLP), cross-lingual cross-temporal summarization (CLCTS) is a largely unexplored area that has the potential to improve cross-cultural accessibility, information sharing, and understanding. This paper comprehensively addresses the CLCTS task, including dataset creation, modeling, and evaluation. We build the first CLCTS corpus, leveraging historical fictive texts and Wikipedia summaries in English and German, and examine the effectiveness of popular transformer end-to-end models with different intermediate task finetuning tasks. Additionally, we explore the potential of ChatGPT for CLCTS as a summarizer and an evaluator. Overall, we report evaluations from humans, ChatGPT, and several recent automatic evaluation metrics where we find our intermediate task finetuned end-to-end models generate bad to moderate quality summaries; ChatGPT as a summarizer (without any finetuning) provides moderate to good quality outputs and as an evaluator correlates moderately with human evaluations though it is prone to giving lower scores. ChatGPT also seems to be very adept at normalizing historical text. We finally test ChatGPT in a scenario with adversarially attacked and unseen source documents and find that ChatGPT is better at omission and entity swap than negating against its prior knowledge. | 翻訳日:2023-06-23 14:16:40 公開日:2023-06-22 |
# CADエンジンを用いた3次元流れ予測のための深層学習物理を用いた多目的ハル形状最適化 Multi-Objective Hull Form Optimization with CAD Engine-based Deep Learning Physics for 3D Flow Prediction ( http://arxiv.org/abs/2306.12915v1 ) ライセンス: Link先を確認 | Jocelyn Ahmed Mazari, Antoine Reverberi, Pierre Yser, Sebastian Sigmund | (参考訳) 本研究では,Duisburg Test Case (DTC)コンテナ容器の形状最適化研究を行うためのDLPO(Deep Learning Physics Optimization)フレームワークを提案する。
我々は,(1)最も有望な基本船体形状を検出する感度解析と(2)最適船体形状間のトレードオフを定量化する多目的最適化の2つの異なる応用法を提案する。
dlpoフレームワークは、設計イテレーションをエンドツーエンドで自動的に評価できる。
これらの結果は、ExtralityのDeep Learning Physics(DLP)モデルをCADエンジンとオプティマイザに結合することで実現した。
提案するdlpモデルは,ransシミュレーションから得られたフル3dボリュームデータに基づいてトレーニングされ,高精度かつ高品質な3dフロー予測をリアルタイムに行うことができる。
特に、船体表面に一体化することで船体に作用する力を回復することができ、総抵抗の相対誤差は3.84\% \pm 2.179\%である。
各イテレーションはわずか20秒で時間とエンジニアリングの労力を大幅に節約し、RANSのような詳細なフロー情報を含む船の性能に関する貴重な洞察を提供する。
DLPOフレームワークは, 船の設計プロセスの高速化と, より効率の良い船の流動性能向上に寄与する, 有望なツールである。 In this work, we propose a built-in Deep Learning Physics Optimization (DLPO) framework to set up a shape optimization study of the Duisburg Test Case (DTC) container vessel. We present two different applications: (1) sensitivity analysis to detect the most promising generic basis hull shapes, and (2) multi-objective optimization to quantify the trade-off between optimal hull forms. DLPO framework allows for the evaluation of design iterations automatically in an end-to-end manner. We achieved these results by coupling Extrality's Deep Learning Physics (DLP) model to a CAD engine and an optimizer. Our proposed DLP model is trained on full 3D volume data coming from RANS simulations, and it can provide accurate and high-quality 3D flow predictions in real-time, which makes it a good evaluator to perform optimization of new container vessel designs w.r.t the hydrodynamic efficiency. In particular, it is able to recover the forces acting on the vessel by integration on the hull surface with a mean relative error of 3.84\% \pm 2.179\% on the total resistance. Each iteration takes only 20 seconds, thus leading to a drastic saving of time and engineering efforts, while delivering valuable insight into the performance of the vessel, including RANS-like detailed flow information. We conclude that DLPO framework is a promising tool to accelerate the ship design process and lead to more efficient ships with better hydrodynamic performance. | 翻訳日:2023-06-23 14:16:10 公開日:2023-06-22 |
# 暗黙の音声言語ダイアリゼーション Implicit spoken language diarization ( http://arxiv.org/abs/2306.12913v1 ) ライセンス: Link先を確認 | Jagabandhu Mishra, Amartya Chowdhury, S. R. Mahadeva Prasanna | (参考訳) 話し言葉ダイアリゼーション(ld)と関連するタスクは、主にフォノタティックアプローチを用いて探求される。
Phonotacticアプローチは主に言語モデリングの明示的な方法を使用するため、中間音素モデリングと転写データが必要である。
あるいは、時間力学をモデル化するディープラーニングアプローチの能力は、深層埋め込みベクトルによる言語情報の暗黙的モデリングに役立つかもしれない。
したがって、この研究はまず、LDタスクを実行するために暗黙的に話者情報をキャプチャする、利用可能な話者ダイアリゼーションフレームワークを探求する。
エンド・ツー・エンドのx-vectorアプローチを用いた合成符号切替データにおけるldシステムの性能は6.78%と7.06%であり、実データではダイアリゼーション誤差率とjaccardエラーレート(jer)でそれぞれ22.50%と60.38%である。
性能劣化は、データ不均衡のためであり、JERの相対的な改善となる30.74%のトレーニング済みWave2vec埋め込みを使用することである程度解決された。 Spoken language diarization (LD) and related tasks are mostly explored using the phonotactic approach. Phonotactic approaches mostly use explicit way of language modeling, hence requiring intermediate phoneme modeling and transcribed data. Alternatively, the ability of deep learning approaches to model temporal dynamics may help for the implicit modeling of language information through deep embedding vectors. Hence this work initially explores the available speaker diarization frameworks that capture speaker information implicitly to perform LD tasks. The performance of the LD system on synthetic code-switch data using the end-to-end x-vector approach is 6.78% and 7.06%, and for practical data is 22.50% and 60.38%, in terms of diarization error rate and Jaccard error rate (JER), respectively. The performance degradation is due to the data imbalance and resolved to some extent by using pre-trained wave2vec embeddings that provide a relative improvement of 30.74% in terms of JER. | 翻訳日:2023-06-23 14:15:45 公開日:2023-06-22 |
# Wasserstein Barycenters による保険の差別の緩和 Mitigating Discrimination in Insurance with Wasserstein Barycenters ( http://arxiv.org/abs/2306.12912v1 ) ライセンス: Link先を確認 | Arthur Charpentier and Fran\c{c}ois Hu and Philipp Ratz | (参考訳) 保険業界は潜在的な顧客の特徴に基づくリスクの予測に大きく依存している。
このようなモデルの使用は一般的であるが、研究者は、このような行為が性別や人種のような繊細な特徴に基づく差別を持続させると長い間指摘してきた。
このような差別は、しばしば過去のデータバイアスに起因する可能性があるため、削除または少なくとも緩和が望ましい。
より伝統的なモデルから機械学習ベースの予測へのシフトにより、価格プロセスにおける敏感な変数を単に排除するだけでは効果がないことを示すため、より大きな緩和を求める声が再び高まった。
本稿では、まず、なぜ業界で予測が必須なのか、なぜバイアスの修正が単に感度のある変数を識別するほど単純ではないのかを考察する。
次に,単純なスケーリングではなく,wasserstein barycentersの利用によるバイアス緩和を提案する。
アプローチの効果と効果を実データに適用し,その影響を議論する。 The insurance industry is heavily reliant on predictions of risks based on characteristics of potential customers. Although the use of said models is common, researchers have long pointed out that such practices perpetuate discrimination based on sensitive features such as gender or race. Given that such discrimination can often be attributed to historical data biases, an elimination or at least mitigation is desirable. With the shift from more traditional models to machine-learning based predictions, calls for greater mitigation have grown anew, as simply excluding sensitive variables in the pricing process can be shown to be ineffective. In this article, we first investigate why predictions are a necessity within the industry and why correcting biases is not as straightforward as simply identifying a sensitive variable. We then propose to ease the biases through the use of Wasserstein barycenters instead of simple scaling. To demonstrate the effects and effectiveness of the approach we employ it on real data and discuss its implications. | 翻訳日:2023-06-23 14:15:26 公開日:2023-06-22 |
# PyKoopman: Koopman演算子のデータ駆動近似のためのPythonパッケージ PyKoopman: A Python Package for Data-Driven Approximation of the Koopman Operator ( http://arxiv.org/abs/2306.12962v1 ) ライセンス: Link先を確認 | Shaowu Pan, Eurika Kaiser, Brian M. de Silva, J. Nathan Kutz, Steven L. Brunton | (参考訳) PyKoopmanは、動的システムに関連するKoopman演算子のデータ駆動近似のためのPythonパッケージである。
クープマン作用素は非線形力学の原理的線形埋め込みであり、線形系理論を用いた強非線形力学の予測、推定、制御を促進する。
特に、PyKoopmanは、方程式のない動的モード分解(DMD)とその変種をベースに構築された非力および作動系のデータ駆動型システム識別ツールを提供している。
本稿では、クープマン演算子の数学的基盤の簡単な説明、PyKoopmanで実装された機能の概要とデモ(コード例を含む)、ユーザへの実用的なアドバイス、およびPyKoopmanの拡張の可能性のリストを提供する。
ソフトウェアはhttp://github.com/dynamicslab/pykoopmanで利用可能 PyKoopman is a Python package for the data-driven approximation of the Koopman operator associated with a dynamical system. The Koopman operator is a principled linear embedding of nonlinear dynamics and facilitates the prediction, estimation, and control of strongly nonlinear dynamics using linear systems theory. In particular, PyKoopman provides tools for data-driven system identification for unforced and actuated systems that build on the equation-free dynamic mode decomposition (DMD) and its variants. In this work, we provide a brief description of the mathematical underpinnings of the Koopman operator, an overview and demonstration of the features implemented in PyKoopman (with code examples), practical advice for users, and a list of potential extensions to PyKoopman. Software is available at http://github.com/dynamicslab/pykoopman | 翻訳日:2023-06-23 14:06:41 公開日:2023-06-22 |
# 多経路自由電子-光子相互作用の量子干渉による光猫状態の生成 Generating optical cat states via quantum interference of multi-path free-electron-photons interactions ( http://arxiv.org/abs/2306.12959v1 ) ライセンス: Link先を確認 | Feng-Xiao Sun, Yiqi Fang, Qiongyi He, Yunquan Liu | (参考訳) 自由電子-光子相互作用によって引き起こされる新しい量子効果は、超高速量子情報処理における潜在的な応用により、注目を集めている。
本稿では,強結合強度と同時に発生する多経路自由電子-光子相互作用の量子干渉に基づく光猫状態の生成法を提案する。
電子の射影測定を行うことで、光の状態はコヒーレント状態からウィグナー負性またはスクイージング特性を持つ非ガウス状態へと著しく変化し、どちらも量子的優位性を達成するためにメトロジー力を持つ。
さらに重要なことは、ウィグナー負極性は結合強度で振動し、光学猫状態は振動ピークのすべてにおいて高い忠実度で生成されることである。
この振動は、電子と光子の相互作用における複数の量子経路の量子干渉効果を明らかにし、様々な非古典的な光状態が高速に準備され、操作されることを約束する。
これらの発見は、創発的量子現象と自由電子を用いた高度な量子技術をさらに探究するきっかけとなった。 The novel quantum effects induced by the free-electron-photons interaction have attracted increasing interest due to their potential applications in ultrafast quantum information processing. Here, we propose a scheme to generate optical cat states based on the quantum interference of multi-path free-electron-photons interactions that take place simultaneously with strong coupling strength. By performing a projection measurement on the electron, the state of light changes significantly from a coherent state into a non-Gaussian state with either Wigner negativity or squeezing property, both possess metrological power to achieve quantum advantage. More importantly, we show that the Wigner negativity oscillates with the coupling strength, and the optical cat states are successfully generated with high fidelity at all the oscillation peaks. This oscillation reveals the quantum interference effect of the multiple quantum pathways in the interaction of the electron with photons, by that various nonclassical states of light are promising to be fast prepared and manipulated. These findings inspire further exploration of emergent quantum phenomena and advanced quantum technologies with free electrons. | 翻訳日:2023-06-23 14:06:25 公開日:2023-06-22 |
# Siamese SIREN:意図しないニューラル表現による音声圧縮 Siamese SIREN: Audio Compression with Implicit Neural Representations ( http://arxiv.org/abs/2306.12957v1 ) ライセンス: Link先を確認 | Luca A. Lanzend\"orfer, Roger Wattenhofer | (参考訳) Inlicit Neural Representations (INR)は、3次元形状、画像、オーディオなど、多様なデータモダリティを表現するための有望な方法として登場した。
近年の研究では、画像および3d形状圧縮におけるinrsの応用が実証されているが、オーディオ圧縮の可能性はほとんど未解明である。
そこで本研究では,音声圧縮におけるINRの使用について予備検討する。
本研究は,SIRENアーキテクチャに基づく新しいアプローチであるSiamese SIRENを紹介する。
実験の結果, 従来のINRアーキテクチャと比較して, ネットワークパラメータが少なく, より優れた音響再構成精度が得られた。 Implicit Neural Representations (INRs) have emerged as a promising method for representing diverse data modalities, including 3D shapes, images, and audio. While recent research has demonstrated successful applications of INRs in image and 3D shape compression, their potential for audio compression remains largely unexplored. Motivated by this, we present a preliminary investigation into the use of INRs for audio compression. Our study introduces Siamese SIREN, a novel approach based on the popular SIREN architecture. Our experimental results indicate that Siamese SIREN achieves superior audio reconstruction fidelity while utilizing fewer network parameters compared to previous INR architectures. | 翻訳日:2023-06-23 14:06:08 公開日:2023-06-22 |
# 条件付きデュアルオートエンコーダによるダークシャワーのトリガー Triggering Dark Showers with Conditional Dual Auto-Encoders ( http://arxiv.org/abs/2306.12955v1 ) ライセンス: Link先を確認 | Luca Anzalone, Simranjit Singh Chhibra, Benedikt Maier, Nadezda Chernyavskaya, and Maurizio Pierini | (参考訳) オートエンコーダ(aes)は、衝突型加速器での新しい物理探索のための効率的で汎用的なツールになり得る。
新しい仮説物理信号は、一般的にデータセット全体を記述することが期待される、よく知られたバックグラウンドプロセスから逸脱する異常と見なすことができる。
本稿では,異常検出(AD)問題として定式化された探索を行い,AEを用いて事象の物理特性を決定する基準を定義する。
本研究では、物理に基づく事前処理や信号の仮定を使わずに、大きく、非常に疎い原位置検出画像を用いて、強い力のダークバージョンをAD検索する。
コンディショニングによりコンパクトな潜在空間を学習できるデュアルエンコーダの設計を提案する。
複数のADメトリクスの文脈では、競合するベースラインや事前アプローチよりも明確な改善を示す。
アトラスやcmsなどのlhc実験のトリガーステージでは、aeが複数のダークシャワーモデルに対して優れた識別を示すことが示され、この手法がモデルに依存しない高性能なアルゴリズムとして適用可能であることが示されている。 Auto-encoders (AEs) have the potential to be effective and generic tools for new physics searches at colliders, requiring little to no model-dependent assumptions. New hypothetical physics signals can be considered anomalies that deviate from the well-known background processes generally expected to describe the whole dataset. We present a search formulated as an anomaly detection (AD) problem, using an AE to define a criterion to decide about the physics nature of an event. In this work, we perform an AD search for manifestations of a dark version of strong force using raw detector images, which are large and very sparse, without leveraging any physics-based pre-processing or assumption on the signals. We propose a dual-encoder design which can learn a compact latent space through conditioning. In the context of multiple AD metrics, we present a clear improvement over competitive baselines and prior approaches. It is the first time that an AE is shown to exhibit excellent discrimination against multiple dark shower models, illustrating the suitability of this method as a performant, model-independent algorithm to deploy, e.g., in the trigger stage of LHC experiments such as ATLAS and CMS. | 翻訳日:2023-06-23 14:05:55 公開日:2023-06-22 |
# 感情分析とトピックモデリングを用いたTwitter上でのChatGPTに対する大衆の態度追跡 Tracking public attitudes toward ChatGPT on Twitter using sentiment analysis and topic modeling ( http://arxiv.org/abs/2306.12951v1 ) ライセンス: Link先を確認 | Ratanond Koonchanok, Yanling Pan, Hyeju Jang | (参考訳) ChatGPTは,成長速度の速いユーザベースを,大規模言語モデル(LLM)を使用したチャットボットとして新記録を樹立した。
様々な言語生成タスクにおいて最先端の能力を示す一方で、社会的影響に関する大衆の関心も高めている。
本稿では,感情分析とトピックモデリング手法をTwitterデータに適用することにより,ChatGPTに対する公衆の態度を調べるために自然言語処理アプローチを利用する。
その結果、全体の感情はポジティブにほぼ中立であり、異なる職業集団にまたがって当てはまることがわかった。
ツイートで言及されている幅広いトピックのうち、最も人気のあるトピックは人工知能、検索エンジン、教育、執筆、質問応答である。 ChatGPT sets a new record with the fastest-growing user base, as a chatbot powered by a large language model (LLM). While it demonstrates state-of-the-art capabilities in a variety of language-generating tasks, it also raises widespread public concerns regarding its societal impact. In this paper, we utilize natural language processing approaches to investigate the public attitudes towards ChatGPT by applying sentiment analysis and topic modeling techniques to Twitter data. Our result shows that the overall sentiment is largely neutral to positive, which also holds true across different occupation groups. Among a wide range of topics mentioned in tweets, the most popular topics are Artificial Intelligence, Search Engines, Education, Writing, and Question Answering. | 翻訳日:2023-06-23 14:05:36 公開日:2023-06-22 |
# 多変量機能主成分分析におけるグラム行列の利用について On the use of the Gram matrix for multivariate functional principal components analysis ( http://arxiv.org/abs/2306.12949v1 ) ライセンス: Link先を確認 | Steven Golovkine, Edward Gunning, Andrew J. Simpkin and Norma Bargary | (参考訳) 次元減少は機能データ分析(FDA)において重要である。
データの次元を減らすための重要なツールは、機能的主成分分析である。
関数主成分分析の既存のアプローチは通常、共分散作用素の対角化を伴う。
関数型データセットのサイズと複雑さの増加に伴い、共分散演算子の推定がより困難になっている。
したがって、固有成分を推定する効率的な方法論の必要性が高まっている。
観測空間と機能的特徴の空間の双対性を用いて、曲線間の内積を用いて多変量および多次元関数データセットの固有要素を推定する。
共分散作用素の固有元と内積行列の固有元との関係が確立される。
これらの方法論の適用について,いくつかのfda設定で検討し,そのユーザビリティに関する一般的なガイダンスを提供する。 Dimension reduction is crucial in functional data analysis (FDA). The key tool to reduce the dimension of the data is functional principal component analysis. Existing approaches for functional principal component analysis usually involve the diagonalization of the covariance operator. With the increasing size and complexity of functional datasets, estimating the covariance operator has become more challenging. Therefore, there is a growing need for efficient methodologies to estimate the eigencomponents. Using the duality of the space of observations and the space of functional features, we propose to use the inner-product between the curves to estimate the eigenelements of multivariate and multidimensional functional datasets. The relationship between the eigenelements of the covariance operator and those of the inner-product matrix is established. We explore the application of these methodologies in several FDA settings and provide general guidance on their usability. | 翻訳日:2023-06-23 14:05:23 公開日:2023-06-22 |
# 量子最適輸送と弱トポロジー Quantum optimal transport and weak topologies ( http://arxiv.org/abs/2306.12944v1 ) ライセンス: Link先を確認 | Laurent Lafleche | (参考訳) 古典的最適輸送距離の量子設定へのいくつかの拡張が提案されている。
本稿では、golse, mouhot, paul [commun math phys 343:165-205, 2016] と golse, paul [arch ration mech anal 223:57-94, 2017] によって導入された擬メトリックスについて検討する。
これらの擬計量は、位相空間上の2ドル級のモンゲ-カントロヴィチ-ヴァッサーシュタイン距離の量子類似体として機能する。
半古典的近似において、それらが負のソボレフノルムに匹敵するものであることを証明し、ウィグナー-ヤネーゼスキュー情報を用いて表現できる。
これにより、初期データに対する正規性が少なくなり、平均場と半古典的限界の文脈で既知の結果を改善することができる。 Several extensions of the classical optimal transport distances to the quantum setting have been proposed. In this paper, we investigate the pseudometrics introduced by Golse, Mouhot and Paul in [Commun Math Phys 343:165-205, 2016] and by Golse and Paul in [Arch Ration Mech Anal 223:57-94, 2017]. These pseudometrics serve as a quantum analogue of the Monge--Kantorovich--Wasserstein distances of order $2$ on the phase space. We prove that they are comparable to negative Sobolev norms up to a small term in the semiclassical approximation, which can be expressed using the Wigner--Yanase Skew information. This enables us to improve the known results in the context of the mean-field and semiclassical limits by requiring less regularity on the initial data. | 翻訳日:2023-06-23 14:05:11 公開日:2023-06-22 |
# 計算グラフの進化 Evolving Computation Graphs ( http://arxiv.org/abs/2306.12943v1 ) ライセンス: Link先を確認 | Andreea Deac, Jian Tang | (参考訳) グラフニューラルネットワーク(GNN)は、特に、ノード間の接続が同じクラスに属することを暗示する傾向にある、ホモフィリーを示すデータに対して、関係データのモデリングに成功した。
しかし、この仮定は多くの関連する状況において真実であるが、この仮定に反する重要な現実シナリオが存在するため、これらのケースにおいてGNNを改善する研究が進められている。
本研究ではヘテロ親和性データセット上でのGNNの強化手法であるEvolving Computation Graphs (ECGs)を提案する。
提案手法は,gnnsの計算グラフを同一クラスに属するノードを接続するエッジを追加することによる,ノード次数,ハイホモフィリ,インタークラス内埋め込みの類似性をリンクする事前の理論的洞察に基づいて構築する。
より弱い分類器を用いてこれらのエッジを識別し、結果として非親和性データ上でのGNN性能を向上する。
我々は,最近提案された多種多様なヘテロ親和性データセットを用いてECGを評価し,関連するベースラインの改善を示す。
ECGは、ドメイン知識を必要とせずに、ヘテロ親水性データセット上でのGNNパフォーマンスを改善するための単純で直感的でエレガントなアプローチを提供する。 Graph neural networks (GNNs) have demonstrated success in modeling relational data, especially for data that exhibits homophily: when a connection between nodes tends to imply that they belong to the same class. However, while this assumption is true in many relevant situations, there are important real-world scenarios that violate this assumption, and this has spurred research into improving GNNs for these cases. In this work, we propose Evolving Computation Graphs (ECGs), a novel method for enhancing GNNs on heterophilic datasets. Our approach builds on prior theoretical insights linking node degree, high homophily, and inter vs intra-class embedding similarity by rewiring the GNNs' computation graph towards adding edges that connect nodes that are likely to be in the same class. We utilise weaker classifiers to identify these edges, ultimately improving GNN performance on non-homophilic data as a result. We evaluate ECGs on a diverse set of recently-proposed heterophilous datasets and demonstrate improvements over the relevant baselines. ECG presents a simple, intuitive and elegant approach for improving GNN performance on heterophilic datasets without requiring prior domain knowledge. | 翻訳日:2023-06-23 14:04:54 公開日:2023-06-22 |
# 音声感情ダイアリゼーション:どの感情がいつ現れるか? Speech Emotion Diarization: Which Emotion Appears When? ( http://arxiv.org/abs/2306.12991v1 ) ライセンス: Link先を確認 | Yingzhi Wang, Mirco Ravanelli, Alaa Nfissi, Alya Yacoubi | (参考訳) 音声感情認識(ser)は通常、発話レベルのソリューションに依存する。
しかし, 発話を通して伝達される感情は, 発話全体の属性ではなく, 時間的境界が明確である個別の発話イベントとみなすべきである。
音声感情のきめ細かい性質を反映するため,音声感情ダイアリゼーション(SED)という新たな課題を提案する。
話者ダイアリゼーションが「誰がいつ話すか」という問いに答えるのと同じように、スピーチ感情ダイアリゼーションは「どの感情が現れるか」という問いに答える。
実生活環境下で記録された非活動感情と、発話中の感情セグメントを手動で注釈付けした境界を含む、オープンアクセス可能な音声感情データセットであるザイオン感情データセット(ZED)を導入する。
競争力のあるベースラインを提供し、コードと事前訓練されたモデルをオープンソース化します。 Speech Emotion Recognition (SER) typically relies on utterance-level solutions. However, emotions conveyed through speech should be considered as discrete speech events with definite temporal boundaries, rather than attributes of the entire utterance. To reflect the fine-grained nature of speech emotions, we propose a new task: Speech Emotion Diarization (SED). Just as Speaker Diarization answers the question of "Who speaks when?", Speech Emotion Diarization answers the question of "Which emotion appears when?". To facilitate the evaluation of the performance and establish a common benchmark for researchers, we introduce the Zaion Emotion Dataset (ZED), an openly accessible speech emotion dataset that includes non-acted emotions recorded in real-life conditions, along with manually-annotated boundaries of emotion segments within the utterance. We provide competitive baselines and open-source the code and the pre-trained models. | 翻訳日:2023-06-23 14:00:04 公開日:2023-06-22 |
# 単一の画像処理アルゴリズムはDCE-MRIのすべてのフェーズで等しく機能するのか? Can a single image processing algorithm work equally well across all phases of DCE-MRI? ( http://arxiv.org/abs/2306.12988v1 ) ライセンス: Link先を確認 | Adam G. Tattersall, Keith A. Goatman, Lucy E. Kershaw, Scott I. K. Semple and Sonia Dahdouh | (参考訳) ダイナミックコントラスト強調MRI(DCE-MRI)に適用した場合,画像分割と登録は困難であると言われている。
コントラスト剤は関心領域などの強度の急激な変化を引き起こすため、セグメンテーションタスクの誤った正の予測や、画像登録類似度指標の相違につながる可能性がある。
コントラストの変化はこれらのタスクの難易度を高めると広く考えられているが、我々の知識ではこれらの効果を定量化していない。
本稿では,nU-NetとMask R-CNNのセグメンテーションとVoxelMorphとVTNを用いた登録という2つの一般的なタスクに対するコントラスト強化(CE)データの異なる比率でのトレーニングの効果を検討する。
我々は,データ分割の異なる事前トレーニングと微調整を通じて,利用可能なデータセットを戦略的に利用してさらに実験を行った。
その結果,CEデータによる事前学習と非CEデータによる微調整により,一般化可能なモデルが得られた。
この興味深い発見は、DCE-MRIによる他のディープラーニングベースの画像処理タスクに拡張され、モデルのパフォーマンスが大幅に改善される可能性がある。 Image segmentation and registration are said to be challenging when applied to dynamic contrast enhanced MRI sequences (DCE-MRI). The contrast agent causes rapid changes in intensity in the region of interest and elsewhere, which can lead to false positive predictions for segmentation tasks and confound the image registration similarity metric. While it is widely assumed that contrast changes increase the difficulty of these tasks, to our knowledge no work has quantified these effects. In this paper we examine the effect of training with different ratios of contrast enhanced (CE) data on two popular tasks: segmentation with nnU-Net and Mask R-CNN and registration using VoxelMorph and VTN. We experimented further by strategically using the available datasets through pretraining and fine tuning with different splits of data. We found that to create a generalisable model, pretraining with CE data and fine tuning with non-CE data gave the best result. This interesting find could be expanded to other deep learning based image processing tasks with DCE-MRI and provide significant improvements to the models performance. | 翻訳日:2023-06-23 13:59:47 公開日:2023-06-22 |
# 測定誘起量子同期と多重化 Measurement-induced quantum synchronization and multiplexing ( http://arxiv.org/abs/2306.12986v1 ) ライセンス: Link先を確認 | Finn Schmolke, Eric Lutz | (参考訳) 測定は量子力学に根本的な影響を及ぼすことができる。
本稿では,連続的に測定される量子多体系が,単一軌道のレベルで非同期確率力学からノイズフリー安定同期へ自発的に遷移することを示す。
我々は、この量子現象の一般的な基準を定式化し、同期実現数を無から全まで制御できることを実証する。
さらに、時間とアンサンブル平均が根本的に異なる同期挙動を示す可能性があるため、エルゴード性は通常壊れている。
さらに、異なる同期周波数を持つ個々の軌跡を含む量子型多重化を導入する。
測定誘起同期は、量子重ね合わせを利用する真の非古典的同期形式として現れる。 Measurements are able to fundamentally affect quantum dynamics. We here show that a continuously measured quantum many-body system can undergo a spontaneous transition from asynchronous stochastic dynamics to noise-free stable synchronization at the level of single trajectories. We formulate general criteria for this quantum phenomenon to occur, and demonstrate that the number of synchronized realizations can be controlled from none to all. We additionally find that ergodicity is typically broken, since time and ensemble averages may exhibit radically different synchronization behavior. We further introduce a quantum type of multiplexing that involves individual trajectories with distinct synchronization frequencies. Measurement-induced synchronization appears as a genuine nonclassical form of synchrony that exploits quantum superpositions. | 翻訳日:2023-06-23 13:59:25 公開日:2023-06-22 |
# データからの相互独立の最も優れたパターンの推測 Inferring the finest pattern of mutual independence from data ( http://arxiv.org/abs/2306.12984v1 ) ライセンス: Link先を確認 | G. Marrelec and A. Giron | (参考訳) 確率変数 $x$ に対して、我々はその最も細かい相互独立パターン $\mu (x )$ のブラインド抽出に興味を持っている。
私たちはディコトミックと呼ぶ特定の種類の独立を導入します。
もし$\Delta ( X )$ が$X$を保留するダイコトミック独立のすべてのパターンの集合を表すなら、$\mu ( X )$ は $\Delta ( X )$ のすべての要素の交叉として得ることができることを示す。
次に、データの独立性と同値(d.d.)な多変量正規分布の実現時に、$\Delta ( X )$を推定する手法を提案する。
もし$\hat{\Delta} ( X )$ が二コトミック独立の有効なパターンの集合であるなら、$\mu ( X )$ を $\hat{\Delta} ( X )$ のすべてのパターンの交点として推定する。
この方法はシミュレーションデータ上でテストされ、その利点と限界を示す。
また、おもちゃの例や実験データへの応用についても検討する。 For a random variable $X$, we are interested in the blind extraction of its finest mutual independence pattern $\mu ( X )$. We introduce a specific kind of independence that we call dichotomic. If $\Delta ( X )$ stands for the set of all patterns of dichotomic independence that hold for $X$, we show that $\mu ( X )$ can be obtained as the intersection of all elements of $\Delta ( X )$. We then propose a method to estimate $\Delta ( X )$ when the data are independent and identically (i.i.d.) realizations of a multivariate normal distribution. If $\hat{\Delta} ( X )$ is the estimated set of valid patterns of dichotomic independence, we estimate $\mu ( X )$ as the intersection of all patterns of $\hat{\Delta} ( X )$. The method is tested on simulated data, showing its advantages and limits. We also consider an application to a toy example as well as to experimental data. | 翻訳日:2023-06-23 13:59:14 公開日:2023-06-22 |
# 大規模拡散モデルに対するより現実的なメンバーシップ推論攻撃に向けて Towards More Realistic Membership Inference Attacks on Large Diffusion Models ( http://arxiv.org/abs/2306.12983v1 ) ライセンス: Link先を確認 | Jan Dubi\'nski, Antoni Kowalczuk, Stanis{\l}aw Pawlak, Przemys{\l}aw Rokita, Tomasz Trzci\'nski, Pawe{\l} Morawiecki | (参考訳) 安定拡散やミッドジャーニーを含む生成拡散モデルでは、様々な用途で視覚的に魅力的で多彩で高解像度な画像を生成することができる。
これらのモデルは、数十億ものインターネットソースイメージに基づいてトレーニングされ、著作権保護された画像の潜在的無許可使用に関する大きな懸念を提起する。
本稿では,特定のイメージがトレーニングセットで使用されたか,サイバーセキュリティコミュニティで知られ,メンバシップ推論攻撃として言及されているかを決定することができるかを検討する。
我々の焦点は安定拡散であり、このメンバーシップ問題に答えるために公正な評価フレームワークを設計することの課題に対処する。
本稿では,公平な評価設定を確立して安定拡散に適用し,他の生成モデルへの潜在的な拡張を可能にする手法を提案する。
この評価設定を利用して、メンバシップアタック(既知のものと新たに導入されたものの両方)を実行します。
本研究は,提案手法がメンバシップ推論攻撃の有効性を完全に理解していないことを明らかにする。
会員推測攻撃は、大きな拡散モデル(しばしばブラックボックスシステムとして展開される)にとって重要な課題であり、関連するプライバシーと著作権の問題は、当面続くと結論付けている。 Generative diffusion models, including Stable Diffusion and Midjourney, can generate visually appealing, diverse, and high-resolution images for various applications. These models are trained on billions of internet-sourced images, raising significant concerns about the potential unauthorized use of copyright-protected images. In this paper, we examine whether it is possible to determine if a specific image was used in the training set, a problem known in the cybersecurity community and referred to as a membership inference attack. Our focus is on Stable Diffusion, and we address the challenge of designing a fair evaluation framework to answer this membership question. We propose a methodology to establish a fair evaluation setup and apply it to Stable Diffusion, enabling potential extensions to other generative models. Utilizing this evaluation setup, we execute membership attacks (both known and newly introduced). Our research reveals that previously proposed evaluation setups do not provide a full understanding of the effectiveness of membership inference attacks. We conclude that the membership inference attack remains a significant challenge for large diffusion models (often deployed as black-box systems), indicating that related privacy and copyright issues will persist in the foreseeable future. | 翻訳日:2023-06-23 13:58:52 公開日:2023-06-22 |
# グラフ畳み込みネットワークを用いた対話脱線予測 Conversation Derailment Forecasting with Graph Convolutional Networks ( http://arxiv.org/abs/2306.12982v1 ) ライセンス: Link先を確認 | Enas Altarawneh, Ammeta Agrawal, Michael Jenkin, Manos Papagelis | (参考訳) オンライン会話は特に脱線の影響を受けやすく、不敬なコメントや言葉による虐待といった有害なコミュニケーションパターンの形で現れうる。
会話脱線予測は、会話の積極的なモデレーションを可能にする前もって脱線の兆候を予測する。
この問題に対する現在の最先端のアプローチは、対話をテキストストリームとして扱うシーケンスモデルに依存している。
本稿では,対話ユーザの動態と公的な認識が会話発話に与える影響を考慮したグラフ畳み込みニューラルネットワークに基づく新しいモデルを提案する。
経験的評価により,本モデルは会話のダイナミクスを効果的に捉え,cgaおよびcmvベンチマークデータセットの最先端モデルをそれぞれ1.5\%,1.7\%で上回った。 Online conversations are particularly susceptible to derailment, which can manifest itself in the form of toxic communication patterns like disrespectful comments or verbal abuse. Forecasting conversation derailment predicts signs of derailment in advance enabling proactive moderation of conversations. Current state-of-the-art approaches to address this problem rely on sequence models that treat dialogues as text streams. We propose a novel model based on a graph convolutional neural network that considers dialogue user dynamics and the influence of public perception on conversation utterances. Through empirical evaluation, we show that our model effectively captures conversation dynamics and outperforms the state-of-the-art models on the CGA and CMV benchmark datasets by 1.5\% and 1.7\%, respectively. | 翻訳日:2023-06-23 13:58:32 公開日:2023-06-22 |
# グループ化による行動空間削減によるサンプルと計算効率向上学習の実現 Achieving Sample and Computational Efficient Reinforcement Learning by Action Space Reduction via Grouping ( http://arxiv.org/abs/2306.12981v1 ) ライセンス: Link先を確認 | Yining Li, Peizhong Ju, Ness Shroff | (参考訳) 強化学習は、高次元空間(しばしば次元の呪いとして知られる)における最適制御を探索する際に、状態や行動の指数的な成長を扱う必要がある。
本研究では,動作に類似したMDPの固有構造を学習し,性能劣化とサンプル/計算複雑性を適切にバランスさせることにより,この問題に対処する。
特に,遷移分布と報酬関数の類似性に基づいて作用空間を複数の群に分け,群内遷移核と群内報酬の差を捉える線形分解モデルを構築した。
より洗練されたグループ化戦略は、同一のグループでの処理によって生じる近似誤差を減少させるが、サンプルや計算資源のサイズが制限された場合の予測誤差も増大させる。
この発見はグループ戦略を、全体的なパフォーマンス損失を最小限に抑えるために最適化可能な、新たな自由度として強調している。
この問題に対処するために,性能損失とサンプル/計算複雑性のバランスをとる最適グループ化戦略を決定するための一般的な最適化問題を定式化する。
さらに,行動空間の大きさに依存しない計算複雑性を保ちつつ,最適に近いグループ化戦略を選択する計算効率の高い手法を提案する。 Reinforcement learning often needs to deal with the exponential growth of states and actions when exploring optimal control in high-dimensional spaces (often known as the curse of dimensionality). In this work, we address this issue by learning the inherent structure of action-wise similar MDP to appropriately balance the performance degradation versus sample/computational complexity. In particular, we partition the action spaces into multiple groups based on the similarity in transition distribution and reward function, and build a linear decomposition model to capture the difference between the intra-group transition kernel and the intra-group rewards. Both our theoretical analysis and experiments reveal a \emph{surprising and counter-intuitive result}: while a more refined grouping strategy can reduce the approximation error caused by treating actions in the same group as identical, it also leads to increased estimation error when the size of samples or the computation resources is limited. This finding highlights the grouping strategy as a new degree of freedom that can be optimized to minimize the overall performance loss. To address this issue, we formulate a general optimization problem for determining the optimal grouping strategy, which strikes a balance between performance loss and sample/computational complexity. We further propose a computationally efficient method for selecting a nearly-optimal grouping strategy, which maintains its computational complexity independent of the size of the action space. | 翻訳日:2023-06-23 13:58:18 公開日:2023-06-22 |
# 真のスカラーフィールドの理想的な測定法は? Are Ideal Measurements of Real Scalar Fields Causal? ( http://arxiv.org/abs/2306.12980v1 ) ライセンス: Link先を確認 | Emma Albertini, Ian Jubb | (参考訳) 半世紀前、局所的かつ(よく見られるように)、射影仮定の因果的一貫した実装は、空間的局所可観測物が可換であるような基本的な性質を利用することで、量子場理論(QFT)の局所射影に対して定式化された。
これは、QFTにおける射影的、あるいは理想的な測定が因果関係を尊重するかどうかの物語の終わりではなかった。
特に、理想的測定の因果一貫性は20年後、以前に見落とされたシナリオを用いて、sorkinによって疑問にかけられた。
しかし、ソーキンの例では非局所作用素が関係していたため、局所作用素の理想的な測度が因果的に一貫したものであるかどうかという問題は残った。
因果集合のような連続時空と離散時空の両方を考慮すると、実スカラー場の理論の基本的局所観測可能(smeared field operator)に焦点を当て、対応する理想測度が因果性に反し、実際に実現することは不可能であることを示す。
本手法は, 単体キック, 理想的な測定値, 弱い測定値などの近似値を含むスミアフィールドの更新マップの一般クラスに導出する因果性条件を用いて提案する。
我々は、結果に当てはまる様々な仮定について議論する。
注目すべきは、sorkinのシナリオが与えられた時空設定で実際に構築できるという仮定である。
この仮定は連続体の特定の特別な場合や因果集合論において特に自然な方法で回避できる。
そのような場合、射影仮定を因果一貫性のある方法で自由に使用することができる。
理想的な測定の一般的な因果関係を考慮し、QFTにおける測定の操作主義的な記述として、投影仮説の因果関係の代替を提供する局所更新マップの例を示す。 Half a century ago a local and (seemingly) causally consistent implementation of the projection postulate was formulated for local projectors in Quantum Field Theory (QFT) by utilising the basic property that spacelike local observables commute. This was not the end of the story for whether projective, or ideal measurements in QFT respect causality. In particular, the causal consistency of ideal measurements was brought into question by Sorkin 20 years later using a scenario previously overlooked. Sorkin's example, however, involved a non-local operator, and thus the question remained whether ideal measurements of local operators are causally consistent, and hence whether they are physically realisable. Considering both continuum and discrete spacetimes such as causal sets, we focus on the basic local observables of real scalar field theory -- smeared field operators -- and show that the corresponding ideal measurements violate causality, and are thus impossible to realise in practice. We show this using a causality condition derived for a general class of update maps for smeared fields that includes unitary kicks, ideal measurements, and approximations to them such as weak measurements. We discuss the various assumptions that go into our result. Of note is an assumption that Sorkin's scenario can actually be constructed in the given spacetime setup. This assumption can be evaded in certain special cases in the continuum, and in a particularly natural way in Causal Set Theory. In such cases one can then freely use the projection postulate in a causally consistent manner. In light of the generic acausality of ideal measurements, we also present examples of local update maps that offer causality-respecting alternatives to the projection postulate as an operationalist description of measurement in QFT. | 翻訳日:2023-06-23 13:57:47 公開日:2023-06-22 |
# エネルギーハーベスティングによるRSMAによる航空通信の最高速度化:強化学習アプローチ Sum-Rate Maximization of RSMA-based Aerial Communications with Energy Harvesting: A Reinforcement Learning Approach ( http://arxiv.org/abs/2306.12977v1 ) ライセンス: Link先を確認 | Jaehyup Seong, Mesut Toka, Wonjae Shin | (参考訳) 本稿では, 自給自給自給自給自給自足基地局が複数のユーザに対して, 回収エネルギーを利用して, 速度分割多重アクセス(RSMA)に基づく航空通信を行うための共同電力・ビームフォーミング設計問題について検討する。
長期的観点からの総和率の最大化を考慮し,チャネル環境の確率特性,収穫エネルギー,バッテリ電力情報に基づいて,ソフトアクタ・クリティック・アルゴリズムという深部強化学習(DRL)アプローチを用いて,各時間における最大伝送電力の制限を行う。
さらに、RSMAのすべてのプライベート/共通ストリームにおけるプリコーダと電力割り当てを設計するために、Han-Powell quasi-Newton法による逐次最小二乗プログラミング(SLSQP)を用い、DRLによる送信電力の総和率を最大化する。
数値計算の結果,提案手法は平均和率性能の点で複数のベースライン法よりも優れていることがわかった。 In this letter, we investigate a joint power and beamforming design problem for rate-splitting multiple access (RSMA)-based aerial communications with energy harvesting, where a self-sustainable aerial base station serves multiple users by utilizing the harvested energy. Considering maximizing the sum-rate from the long-term perspective, we utilize a deep reinforcement learning (DRL) approach, namely the soft actor-critic algorithm, to restrict the maximum transmission power at each time based on the stochastic property of the channel environment, harvested energy, and battery power information. Moreover, for designing precoders and power allocation among all the private/common streams of the RSMA, we employ sequential least squares programming (SLSQP) using the Han-Powell quasi-Newton method to maximize the sum-rate for the given transmission power via DRL. Numerical results show the superiority of the proposed scheme over several baseline methods in terms of the average sum-rate performance. | 翻訳日:2023-06-23 13:56:30 公開日:2023-06-22 |
# 高次元データストリームに対する適応ベルンシュタイン変化検出器 Adaptive Bernstein Change Detector for High-Dimensional Data Streams ( http://arxiv.org/abs/2306.12974v1 ) ライセンス: Link先を確認 | Marco Heyden, Edouard Fouch\'e, Vadim Arzamasov, Tanja Fenn, Florian Kalinke, Klemens B\"ohm | (参考訳) データストリームを分析する場合、変更検出は根本的な重要性を持つ。
変更の検出は、アラームの発行や学習アルゴリズムの更新などによって、迅速かつ正確に監視および予測システムが反応することを可能にする。
しかし、観測が高次元の場合、変化の検出は困難である。
高次元データでは、変化検出器は変化がいつ起こるかだけでなく、どの部分空間で起こるかも特定できなければならない。
理想的には、それがどれほど厳しいかも定量化する必要がある。
我々のアプローチであるABCDはこれらの特性を持っている。
ABCDはエンコーダ・デコーダモデルを学び、その精度を適応サイズのウィンドウ上で監視する。
abcdは、バーンスタインの不等式に基づく変化スコアを導出して、変化を示す精度の偏差を検出する。
実験の結果,ABCDはF1スコアの平均で8%以上,F1スコアでは23%以上の成績を示した。
また、変化の部分空間を正確に推定し、基底の真理と相関する重大度測度と共に推定することもできる。 Change detection is of fundamental importance when analyzing data streams. Detecting changes both quickly and accurately enables monitoring and prediction systems to react, e.g., by issuing an alarm or by updating a learning algorithm. However, detecting changes is challenging when observations are high-dimensional. In high-dimensional data, change detectors should not only be able to identify when changes happen, but also in which subspace they occur. Ideally, one should also quantify how severe they are. Our approach, ABCD, has these properties. ABCD learns an encoder-decoder model and monitors its accuracy over a window of adaptive size. ABCD derives a change score based on Bernstein's inequality to detect deviations in terms of accuracy, which indicate changes. Our experiments demonstrate that ABCD outperforms its best competitor by at least 8% and up to 23% in F1-score on average. It can also accurately estimate changes' subspace, together with a severity measure that correlates with the ground truth. | 翻訳日:2023-06-23 13:55:54 公開日:2023-06-22 |
# AugDMC: 深層クラスタリングをガイドしたデータ拡張 AugDMC: Data Augmentation Guided Deep Multiple Clustering ( http://arxiv.org/abs/2306.13023v1 ) ライセンス: Link先を確認 | Jiawei Yao, Enbei Liu, Maham Rashid, Juhua Hu | (参考訳) クラスタリングは、異なるオブジェクトを分離しながら、類似したオブジェクトをまとめることを目的としている。
その後、データに隠された構造は、教師なしの方法でデータを理解するのに役立つ。
k-meansのような従来のクラスタリング手法は、単一のデータセットに対して単一のクラスタリングしか提供しない。
自動エンコーダベースのクラスタリング手法のような深いクラスタリング手法は、パフォーマンスは向上しているが、単一のクラスタリングを提供する。
しかし、与えられたデータセットは複数のクラスタ構造を持ち、それぞれがデータのユニークな視点を表す。
そのため、データに隠された複数の独立した構造を発見するために、複数のクラスタリング手法が開発されている。
深層クラスタリング手法は優れたパフォーマンスを提供するが、データ内の代替の視点を効率的に捉える方法は依然として問題である。
本稿では,この課題に対処するために,深層クラスタリングをガイドした新しいデータ拡張手法であるAugDMCを提案する。
特に、augdmcはデータ拡張を利用して、データの特定の側面に関連する特徴を自動的に抽出し、異なるデータ拡張の下でデータの異なる側面を保存できる自己教師付きプロトタイプベースの表現学習を使用する。
さらに, 異なる増補から不安定な問題を緩和するために, 安定した最適化戦略が提案されている。
その後、データの異なる側面に基づく複数のクラスタリングを得ることができる。
実世界の3つのデータセットに対する実験結果から,提案手法の有効性を検証した。 Clustering aims to group similar objects together while separating dissimilar ones apart. Thereafter, structures hidden in data can be identified to help understand data in an unsupervised manner. Traditional clustering methods such as k-means provide only a single clustering for one data set. Deep clustering methods such as auto-encoder based clustering methods have shown a better performance, but still provide a single clustering. However, a given dataset might have multiple clustering structures and each represents a unique perspective of the data. Therefore, some multiple clustering methods have been developed to discover multiple independent structures hidden in data. Although deep multiple clustering methods provide better performance, how to efficiently capture the alternative perspectives in data is still a problem. In this paper, we propose AugDMC, a novel data Augmentation guided Deep Multiple Clustering method, to tackle the challenge. Specifically, AugDMC leverages data augmentations to automatically extract features related to a certain aspect of the data using a self-supervised prototype-based representation learning, where different aspects of the data can be preserved under different data augmentations. Moreover, a stable optimization strategy is proposed to alleviate the unstable problem from different augmentations. Thereafter, multiple clusterings based on different aspects of the data can be obtained. Experimental results on three real-world datasets compared with state-of-the-art methods validate the effectiveness of the proposed method. | 翻訳日:2023-06-23 13:48:55 公開日:2023-06-22 |
# 駆動超電導量子ビットにおける非マルコフ雑音のモデル化 Modelling non-Markovian noise in driven superconducting qubits ( http://arxiv.org/abs/2306.13021v1 ) ライセンス: Link先を確認 | Abhishek Agarwal, Lachlan P. Lindoy, Deep Lall, Francois Jamet, Ivan Rungger | (参考訳) 非マルコフノイズは超伝導量子ビットにおける重大な誤差の原因となる。
非マルコフ雑音がアイドルと駆動量子ビットの両方に与える影響を特徴付け、モデル化できるミラー付き擬似同一性を利用したゲートシーケンスを開発した。
観測音をモデル化するための3つのアプローチを比較する。
(i)マルコフ雑音モデル
(ii)二段階システム(tls)との相互作用を含むモデル
(iii) ポストマルコフマスター方程式(PMME)を利用したモデルで、ある条件下でのqubit-TLSモデルと等価であることを示す。
超伝導量子ビットデバイス上でノイズ特性回路を実行すると、純粋なマルコフノイズモデルは実験データを再現できないことが分かる。
一方, 量子ビット-TLS相互作用に基づくモデルでは, アイドルおよび駆動量子ビットの両方で観測された実験挙動を綿密に捉えることができる。
ハードウェアのノイズ特性の経時的安定性について検討し、キュービット-tls相互作用強度を規定するパラメータが短時間の時間スケールでも著しく変動することを確認した。
最後に、クビット駆動パルス振幅を増大させる際のノイズパラメータの変化を評価する。
ハードウェアノイズパラメータは、異なる日で大きく変動するが、その駆動パルス誘起相対変動は、位相誤差とqubit-TLS相互作用強度の両方がパルス強度と大きく変化し、位相誤差は印加パルスの振幅と2次的に変化するという、計算された不確実性の中でかなりよく定義される。
ノイズモデルはアイドルと駆動量子ビットの挙動を詳細に記述することができるので、量子誤差緩和法や補正法の開発に利用するのが理想的である。 Non-Markovian noise can be a significant source of errors in superconducting qubits. We develop gate sequences utilising mirrored pseudoidentities that allow us to characterise and model the effects of non-Markovian noise on both idle and driven qubits. We compare three approaches to modelling the observed noise: (i) a Markovian noise model, (ii) a model including interactions with a two-level system (TLS), (iii) a model utilising the post Markovian master equation (PMME), which we show to be equivalent to the qubit-TLS model in certain regimes. When running our noise characterisation circuits on a superconducting qubit device we find that purely Markovian noise models cannot reproduce the experimental data. Our model based on a qubit-TLS interaction, on the other hand, is able to closely capture the observed experimental behaviour for both idle and driven qubits. We investigate the stability of the noise properties of the hardware over time, and find that the parameter governing the qubit-TLS interaction strength fluctuates significantly even over short time-scales of a few minutes. Finally, we evaluate the changes in the noise parameters when increasing the qubit drive pulse amplitude. We find that although the hardware noise parameters fluctuate significantly over different days, their drive pulse induced relative variation is rather well defined within computed uncertainties: both the phase error and the qubit-TLS interaction strength change significantly with the pulse strength, with the phase error changing quadratically with the amplitude of the applied pulse. Since our noise model can closely describe the behaviour of idle and driven qubits, it is ideally suited to be used in the development of quantum error mitigation and correction methods. | 翻訳日:2023-06-23 13:48:36 公開日:2023-06-22 |
# 解剖学的計測によるマイクロブリードの自動検出に向けて : 深層学習による臨床診断支援 Toward Automated Detection of Microbleeds with Anatomical Scale Localization: A Complete Clinical Diagnosis Support Using Deep Learning ( http://arxiv.org/abs/2306.13020v1 ) ライセンス: Link先を確認 | Jun-Ho Kim, Young Noh, Haejoon Lee, Seul Lee, Woo-Ram Kim, Koung Mi Kang, Eung Yeop Kim, Mohammed A. Al-masni, Dong-Hyun Kim | (参考訳) 脳微小血腫 (CMBs) は、脳組織の小さな血液産物の慢性的な堆積物であり、認知機能低下、脳内出血、脳梗塞などの解剖学的位置によって様々な脳血管疾患と明確な関係がある。
しかし,手動によるCMBの検出は,その粗さと微細な構造特性のため,時間と誤差の伴うプロセスである。
CMBの検出は、石灰化や真珠血管などの高い偽陽性率(FPR)を引き起こす多くのCMB模倣の存在によって、一般的に影響を受ける。
本稿では, cmbを検出するだけでなく, 脳の解剖学的位置(lobar, deep, infratentorial region)を知らせる, 新たな3次元深層学習フレームワークを提案する。
CMB検出タスクでは,地域提案ネットワーク(RPN)のバックボーンとしてU-Netを利用する単一エンドツーエンドモデルを提案する。
同じ単一モデル内でFPを著しく削減するために、コンテキスト情報を利用した小さな候補を検出するFeature Fusion Module(FFM)と、CMBをマイニングするHard Sample Prototype Learning(HSPL)を含む新たなスキームを開発し、畳み込み型学習(CPL)を用いた集中損失と呼ばれる損失項を生成する。
解剖学的局所化タスクは、CMBがどの領域に属しているかだけでなく、解剖学的情報を利用して検出タスクから一部のFPを除去する。
その結果、FFMおよびHSPLを用いたRPNは、バニラRPNよりも優れ、94.66%対93.33%、被験者あたりの平均偽陽性数(FPavg)は0.86対14.73であることがわかった。
また、解剖学的局所化タスクは、94.66%の感度を維持しながらFPavgを0.56に減らし、検出性能をさらに向上させる。 Cerebral Microbleeds (CMBs) are chronic deposits of small blood products in the brain tissues, which have explicit relation to various cerebrovascular diseases depending on their anatomical location, including cognitive decline, intracerebral hemorrhage, and cerebral infarction. However, manual detection of CMBs is a time-consuming and error-prone process because of their sparse and tiny structural properties. The detection of CMBs is commonly affected by the presence of many CMB mimics that cause a high false-positive rate (FPR), such as calcification and pial vessels. This paper proposes a novel 3D deep learning framework that does not only detect CMBs but also inform their anatomical location in the brain (i.e., lobar, deep, and infratentorial regions). For the CMB detection task, we propose a single end-to-end model by leveraging the U-Net as a backbone with Region Proposal Network (RPN). To significantly reduce the FPs within the same single model, we develop a new scheme, containing Feature Fusion Module (FFM) that detects small candidates utilizing contextual information and Hard Sample Prototype Learning (HSPL) that mines CMB mimics and generates additional loss term called concentration loss using Convolutional Prototype Learning (CPL). The anatomical localization task does not only tell to which region the CMBs belong but also eliminate some FPs from the detection task by utilizing anatomical information. The results show that the proposed RPN that utilizes the FFM and HSPL outperforms the vanilla RPN and achieves a sensitivity of 94.66% vs. 93.33% and an average number of false positives per subject (FPavg) of 0.86 vs. 14.73. Also, the anatomical localization task further improves the detection performance by reducing the FPavg to 0.56 while maintaining the sensitivity of 94.66%. | 翻訳日:2023-06-23 13:48:07 公開日:2023-06-22 |
# 光子付加によるヘラルド光「シュレーディンガー猫」状態の生成 Generation of heralded optical `Schroedinger cat' states by photon-addition ( http://arxiv.org/abs/2306.13011v1 ) ライセンス: Link先を確認 | Yi-Ru Chen, Hsien-Yi Hsieh, Jingyu Ning, Hsun-Chung Wu, Hua Li Chen, Zi-Hao Shi, Popo Yang, Ole Steuernagel, Chien-Ming Wu, and Ray-Kuang Lee | (参考訳) 2つの準古典的コヒーレント状態の非古典的な重ね合わせである光学的「シュリンガー・キャット」は、メソスコピックスケールで量子物理学をテストするゲダンケン実験の基礎となり、量子情報処理の資源としてますます認識されている。
本稿では,光子を圧縮真空状態に加えることで光子"schr\"odinger cats"を初めて実験的に実現し,これまで光子減算プロトコルのみが実現されてきたことを報告する。
光子付加により、シャーレ信号光子を実験的トリガーとして用いる利点が得られ、8.5 \times 10^4$ counts per second; 少なくとも1桁以上の精度で"Schr\"オジンジャー・キャット"を生成できる。
初期圧縮真空入力状態が純度が低い場合でも、顕著な負の部分のウィグナー分布が-8.89dBスクイーズで示される。
このような劣化した入力状態に対するベンチマークでは、最大猫振幅が$|\alpha| \approx 1.66$と80%以上である。
我々の実験では、ペアからの光子付加を用いるが、これらの光子のうちの1つはモニタリングに使われており、制御が強化されており、さらにペア生成速度が高く、繰り返しステージを通じて光子付加を繰り返すことが可能である。 Optical "Schr\"odinger cat" states, the non-classical superposition of two quasi-classical coherent states, serve as a basis for gedanken experiments testing quantum physics on mesoscopic scales and are increasingly recognized as a resource for quantum information processing. Here, we report the first experimental realization of optical "Schr\"odinger cats" by adding a photon to a squeezed vacuum state, so far only photon-subtraction protocols have been realized. Photon-addition gives us the advantage of using heralded signal photons as experimental triggers, and we can generate "Schr\"odinger cats" at rates exceeding $8.5 \times 10^4$ counts per second; at least one order of magnitude higher than all previously reported realizations. Wigner distributions with pronounced negative parts are demonstrated at down to -8.89 dB squeezing, even when the initial squeezed vacuum input state has low purity. Benchmarking against such a degraded squeezed input state we report a maximum fidelity of more than 80% with a maximum cat amplitude of $|\alpha| \approx 1.66$. Our experiment uses photon-addition from pairs, one of those photons is used for monitoring, giving us enhanced control; moreover the pair production rates are high and should allow for repeated application of photon-addition via repeat-stages. | 翻訳日:2023-06-23 13:47:27 公開日:2023-06-22 |
# 確率量子回路における対称性保護長距離絡みの安定化 Stabilization of symmetry-protected long-range entanglement in stochastic quantum circuits ( http://arxiv.org/abs/2306.13008v1 ) ライセンス: Link先を確認 | Iosifina Angelidi, Marcin Szyniszewski, Arijeet Pal | (参考訳) 長距離の絡み合った状態は、量子情報処理と量子計測に不可欠である。
このような絡み合った状態をユニタリゲートと組み合わせることで、有限深さ量子回路を用いた効率的なプロトコルの新たな可能性を開いた。
これらのアルゴリズムの複雑さは、量子デバイス上のリソース要求に不可欠である。
摂動に対する準備プロトコルの安定性は、大規模な雑音量子デバイスにおける実装の運命を決定する。
本研究では, 1次元と2次元の確率量子回路を, ランダムに応用されたユニタリゲートと局所測定により検討する。
これらの量子演算は離散局所対称性のクラスを保存し、タイミングとゲートの不完全性から生じる確率性のために分解することができる。
ランダム性がない場合、プロトコルは有限深さ回路において対称に保護された長距離絡み合い状態を生成することが知られている。
一般に、このハイブリッド量子回路下での時間発展を研究することで、対象の絡み合った状態に到達する時間を分析する。
対称性生成器の出現と関連する2つの重要な時間尺度が見つかる。
量子軌道はシステムサイズと対数的にスケールする時間で局所対称性を具現化するが、大域対称性は指数的に長い時間を要する。
時間スケールの両方において大きな改善をもたらす誤り緩和プロトコルを考案し、実験で自然に発生する摂動に対するアルゴリズムの安定性について検討する。
また,2次元のトーリック符号とxu-ムーア状態を実現するプロトコルを一般化し,それらのシステムに存在するエノニック励起の今後の研究への道を開く。
我々の研究は、量子状態形成のための効率的な誤り訂正の道を開く。 Long-range entangled states are vital for quantum information processing and quantum metrology. Preparing such entangled states by combining measurements with unitary gates has opened new possibilities for efficient protocols with finite-depth quantum circuits. The complexity of these algorithms is crucial for the resource requirements on a quantum device. The stability of the preparation protocols to perturbations decides the fate of their implementation in large-scale noisy quantum devices. In this work, we consider stochastic quantum circuits in one and two dimensions consisting of randomly applied unitary gates and local measurements. These quantum operations preserve a class of discrete local symmetries, which can be broken due to the stochasticity arising from timing and gate imperfections. In the absence of randomness, the protocol is known to generate a symmetry-protected long-range entangled state in a finite-depth circuit. In the general case, by studying the time evolution under this hybrid quantum circuit, we analyze the time to reach the target entangled state. We find two important time scales which we associate with the emergence of certain symmetry generators. The quantum trajectories embody the local symmetry with a time that scales logarithmically with system size, whereas global symmetries require exponentially long times to appear. We devise error-mitigation protocols that provide significant improvement on both time scales and investigate the stability of the algorithm to perturbations that naturally arise in experiments. We also generalize the protocol to realize the toric code and Xu-Moore states in two dimensions, and open avenues for future studies of anyonic excitations present in those systems. Our work paves the way for efficient error correction for quantum state preparation. | 翻訳日:2023-06-23 13:47:01 公開日:2023-06-22 |
# 微分可能決定木は解釈可能な逆関数を学習できるか? Can Differentiable Decision Trees Learn Interpretable Reward Functions? ( http://arxiv.org/abs/2306.13004v1 ) ライセンス: Link先を確認 | Akansha Kalra, Daniel S. Brown | (参考訳) 人間の意図や好みをモデル化する報酬関数の学習への関心が高まっている。
しかし、多くのフレームワークは、表現力はあるが解釈が難しいブラックボックス学習手法を使っている。
低次元と高次元の入力に対して微分可能決定木(ddts)を用いた選好から表現可能で解釈可能な報酬関数を学習するための新しい手法を提案し,評価した。
カートゥール, ビジュアルグリッドワールド環境, アタリゲームにおいて, DDTを用いた解釈可能な報酬関数の学習可能性を検討する。
学習した報酬関数のツリー構造が、報酬関数が人間の好みと一致している程度を決定するのに有用であることを示す。
学習した報酬ddtを可視化し,解釈可能な報酬関数を学習できるが,木の離散性はテスト時の強化学習性能を損なうことがわかった。
しかし,ソフトアウトプット(葉ノードの平均値)を用いることで,より容量の深いニューラルネットワーク報酬関数と比較して競争性能が向上することを示す。 There is an increasing interest in learning reward functions that model human intent and human preferences. However, many frameworks use blackbox learning methods that, while expressive, are difficult to interpret. We propose and evaluate a novel approach for learning expressive and interpretable reward functions from preferences using Differentiable Decision Trees (DDTs) for both low- and high-dimensional state inputs. We explore and discuss the viability of learning interpretable reward functions using DDTs by evaluating our algorithm on Cartpole, Visual Gridworld environments, and Atari games. We provide evidence that that the tree structure of our learned reward function is useful in determining the extent to which a reward function is aligned with human preferences. We visualize the learned reward DDTs and find that they are capable of learning interpretable reward functions but that the discrete nature of the trees hurts the performance of reinforcement learning at test time. However, we also show evidence that using soft outputs (averaged over all leaf nodes) results in competitive performance when compared with larger capacity deep neural network reward functions. | 翻訳日:2023-06-23 13:46:37 公開日:2023-06-22 |
# 政治情報?
デルファイ氏の米政治問題に対する対応を監査 Apolitical Intelligence? Auditing Delphi's responses on controversial political issues in the US ( http://arxiv.org/abs/2306.13000v1 ) ライセンス: Link先を確認 | Jonathan H. Rystr{\o}m | (参考訳) 生成言語モデルは、より広範に展開されるため、その政治的価値に対する懸念は、モデルがバイアスを受け、中立性が欠如しているという政治的スペクトルのあらゆる部分からの批判で最前線に現れている。
しかし、中立性とそれが望ましいかどうかという問題は未検討のままである。
本稿では,クラウドソースの倫理のために設計された大規模言語モデルである delphi [arxiv:2110.07574] の監査を通して,中立性を検討する。
私は、delphiが政治的に議論された質問に対して、米国の異なる政治サブグループに対してどのように反応するかを分析します。
デルポイは信頼感に欠けており、政治的に大きな偏りがあると思います。
これらの結果から,データフェミニストレンズの中立性に関する問題を,中立性の概念がいかにパワーをシフトさせ,さらに無音音声を疎外するかという観点から検討する。
これらの発見は、アライメントの規範的問題と、社会における生成モデルの役割について、より反射的な議論に寄与することを期待している。 As generative language models are deployed in ever-wider contexts, concerns about their political values have come to the forefront with critique from all parts of the political spectrum that the models are biased and lack neutrality. However, the question of what neutrality is and whether it is desirable remains underexplored. In this paper, I examine neutrality through an audit of Delphi [arXiv:2110.07574], a large language model designed for crowdsourced ethics. I analyse how Delphi responds to politically controversial questions compared to different US political subgroups. I find that Delphi is poorly calibrated with respect to confidence and exhibits a significant political skew. Based on these results, I examine the question of neutrality from a data-feminist lens, in terms of how notions of neutrality shift power and further marginalise unheard voices. These findings can hopefully contribute to a more reflexive debate about the normative questions of alignment and what role we want generative models to play in society. | 翻訳日:2023-06-23 13:46:18 公開日:2023-06-22 |
# 相対ポーズ推定のためのマルチカメラシステム間のアフィン対応 Affine Correspondences between Multi-Camera Systems for Relative Pose Estimation ( http://arxiv.org/abs/2306.12996v1 ) ライセンス: Link先を確認 | Banglei Guan and Ji Zhao | (参考訳) 本稿では,2つのアフィン対応(acs)を用いて,マルチカメラシステムの相対姿勢を計算する新しい手法を提案する。
マルチカメラの相対ポーズ推定に対する既存の解は、特別な動きの場合に制限されるか、計算の複雑さが高すぎるか、ポイント対応(pcs)が多すぎるかのいずれかである。
これにより、RANSACをロバストな推定器として用いる際に、効率よく正確な相対ポーズ推定を阻害する。
本稿では,ACs を用いた 6DOF 相対ポーズ推定問題により,ACs とマルチカメラシステム間の幾何的制約を特別なパラメータ化を用いて利用することにより,最小解が実現可能であることを示す。
本稿では,2つの視点,すなわちカメラ間とカメラ内という2つの共通タイプの交流を含む2つのACに基づく問題定式化を提案する。
さらに、最小解法を生成するための枠組みを拡張して、既知の回転角の既知の5dof相対ポーズ推定など、様々な相対ポーズ推定問題を解くことができる。
仮想と実のマルチカメラの両方の実験により、提案した解法は最先端のアルゴリズムよりも効率的であることが証明された。
ソースコードはhttps://github.com/jizhaox/relpose-mcs-depthで入手できる。 We present a novel method to compute the relative pose of multi-camera systems using two affine correspondences (ACs). Existing solutions to the multi-camera relative pose estimation are either restricted to special cases of motion, have too high computational complexity, or require too many point correspondences (PCs). Thus, these solvers impede an efficient or accurate relative pose estimation when applying RANSAC as a robust estimator. This paper shows that the 6DOF relative pose estimation problem using ACs permits a feasible minimal solution, when exploiting the geometric constraints between ACs and multi-camera systems using a special parameterization. We present a problem formulation based on two ACs that encompass two common types of ACs across two views, i.e., inter-camera and intra-camera. Moreover, the framework for generating the minimal solvers can be extended to solve various relative pose estimation problems, e.g., 5DOF relative pose estimation with known rotation angle prior. Experiments on both virtual and real multi-camera systems prove that the proposed solvers are more efficient than the state-of-the-art algorithms, while resulting in a better relative pose accuracy. Source code is available at https://github.com/jizhaox/relpose-mcs-depth. | 翻訳日:2023-06-23 13:46:00 公開日:2023-06-22 |
# 高インピーダンス表面波共振器 High-impedance surface acoustic wave resonators ( http://arxiv.org/abs/2306.12993v1 ) ライセンス: Link先を確認 | Yadav P. Kandel, Suraj Thapa Magar, Arjun Iyer, William H. Renninger, John M. Nichol | (参考訳) 小型化、低損失化、磁場や高温との互換性から、表面波共振器は将来の量子インターコネクトとして大きな可能性を秘めている。
本稿では、半導体量子ドットを含むナノスケール固体量子システムに強い静電容量結合のポテンシャルを持つGHz帯表面波共振器の設計、製造、特性評価を行う。
このような系への強い容量結合は大きな特性インピーダンスを必要とし、我々が構成する共振器は100$\Omega$を超えるインピーダンス値を持つ。
ガウス音響モードを密閉することにより,高インピーダンス値を実現する。
同時に、共振器の損失も低く、ミリケルビン温度では品質要因は数千である。
これらの高インピーダンス共振器は、大きな真空電界揺らぎを示し、様々な固体量子系と強い結合の可能性を期待されている。 Because of their small size, low loss, and compatibility with magnetic fields and elevated temperatures, surface acoustic wave resonators hold significant potential as future quantum interconnects. Here, we design, fabricate, and characterize GHz-frequency surface acoustic wave resonators with the potential for strong capacitive coupling to nanoscale solid-state quantum systems, including semiconductor quantum dots. Strong capacitive coupling to such systems requires a large characteristic impedance, and the resonators we fabricate have impedance values above 100 $\Omega$. We achieve such high impedance values by tightly confining a Gaussian acoustic mode. At the same time, the resonators also have low loss, with quality factors of several thousand at millikelvin temperatures. These high-impedance resonators are expected to exhibit large vacuum electric-field fluctuations and have the potential for strong coupling to a variety of solid-state quantum systems. | 翻訳日:2023-06-23 13:45:37 公開日:2023-06-22 |
# psf対応トランスフォーマーを用いたミニマリスト・高画質パノラマイメージング Minimalist and High-Quality Panoramic Imaging with PSF-aware Transformers ( http://arxiv.org/abs/2306.12992v1 ) ライセンス: Link先を確認 | Qi Jiang, Shaohua Gao, Yao Gao, Kailun Yang, Zhonghua Yi, Hao Shi, Lei Sun, Kaiwei Wang | (参考訳) ファイン・オブ・ビュー(FoV)の360度の高画質パノラマ画像は、現代のパノラマコンピュータビジョンタスクに不可欠である。
しかし、従来の撮像システムは高度なレンズ設計と重い光学部品を備えている。
これは、薄くてポータブルでミニマリストなイメージングシステムが要求される多くのモバイルおよびウェアラブルアプリケーションでの使用を損なう。
本稿では,パノラマ画像の最小化と高品質化に対応するパノラマ計算イメージングエンジン (pcie) を提案する。
球面レンズが3つ未満のミニマリストパノラマイメージングプロトタイプ (MPIP) はパノラマ環状レンズ (PAL) の設計に基づいて構築されているが、収差と画像平面サイズが小さいため、低画質の撮像結果が得られる。
我々は,MPIPの画質問題に対して,小型と大型の画像センサを用いて,収差補正(AC)と超解差補正(SR&AC)の2つのパイプラインを提案する。
2つのパイプラインのユニバーサルネットワークにおいて、光学系の点拡散関数(psf)からの情報を活用し、psfアウェア収差画像復元トランス(part)の設計を行い、psfアウェア機構を介してセルフアテンション計算と特徴抽出を誘導する。
シミュレーションから合成画像対をトレーニングし、PALHQデータセットを作成し、低レベルビジョンのための現実世界の高品質PALイメージのギャップを埋める。
合成および実世界のベンチマークに関する総合的な実験は、PCIEの印象的な画像結果とプラグアンドプレイのPSF認識機構の有効性を示す。
ミニマリストおよび高画質パノラマ画像に対するヒューリスティックな実験結果も提供する。
データセットとコードはhttps://github.com/zju-jiangqi/PCIE-PART.comで公開されます。 High-quality panoramic images with a Field of View (FoV) of 360-degree are essential for contemporary panoramic computer vision tasks. However, conventional imaging systems come with sophisticated lens designs and heavy optical components. This disqualifies their usage in many mobile and wearable applications where thin and portable, minimalist imaging systems are desired. In this paper, we propose a Panoramic Computational Imaging Engine (PCIE) to address minimalist and high-quality panoramic imaging. With less than three spherical lenses, a Minimalist Panoramic Imaging Prototype (MPIP) is constructed based on the design of the Panoramic Annular Lens (PAL), but with low-quality imaging results due to aberrations and small image plane size. We propose two pipelines, i.e. Aberration Correction (AC) and Super-Resolution and Aberration Correction (SR&AC), to solve the image quality problems of MPIP, with imaging sensors of small and large pixel size, respectively. To provide a universal network for the two pipelines, we leverage the information from the Point Spread Function (PSF) of the optical system and design a PSF-aware Aberration-image Recovery Transformer (PART), in which the self-attention calculation and feature extraction are guided via PSF-aware mechanisms. We train PART on synthetic image pairs from simulation and put forward the PALHQ dataset to fill the gap of real-world high-quality PAL images for low-level vision. A comprehensive variety of experiments on synthetic and real-world benchmarks demonstrates the impressive imaging results of PCIE and the effectiveness of plug-and-play PSF-aware mechanisms. We further deliver heuristic experimental findings for minimalist and high-quality panoramic imaging. Our dataset and code will be available at https://github.com/zju-jiangqi/PCIE-PART. | 翻訳日:2023-06-23 13:45:22 公開日:2023-06-22 |
# レコメンダシステムのためのデータ拡張:最大マージン行列分解を用いた半教師付きアプローチ Data augmentation for recommender system: A semi-supervised approach using maximum margin matrix factorization ( http://arxiv.org/abs/2306.13050v1 ) ライセンス: Link先を確認 | Shamal Shaikh, Venkateswara Rao Kagita, Vikas Kumar, Arun K Pujari | (参考訳) 協調フィルタリング(CF)は,過去の嗜好や他ユーザの嗜好情報に基づいて,新たな項目に対するユーザのレーティングを予測するレコメンデータシステム(RS)を開発するための一般的な手法となっている。
CFベースの手法が普及しているにもかかわらず、その性能は観察された項目の幅によって著しく制限されることが多い。
本研究では,MMMF (Maximum Margin Matrix Factorization, MMMF) のデータの増大と改善について検討した。
CFアルゴリズムの特性を利用して個人評価の信頼度を評価し,自己学習に基づく評価向上のための半教師付きアプローチを提案する。
cfアルゴリズムの信頼度の低い予測は、トレーニングデータの不足によるものであると仮定し、体系的データ拡張戦略を採用することにより、アルゴリズムの性能を向上させることができる。
我々は,高い信頼度で予測された評価を反復的に使用し,トレーニングデータを強化し,改良プロセスを通じて信頼性の低い項目を除去した。
このプロセスを繰り返すことで、システムは予測精度を改善することを学ぶ。
本手法は,いくつかの最先端cfアルゴリズムで実験的に評価され,ベースライン手法の性能向上に寄与する。 Collaborative filtering (CF) has become a popular method for developing recommender systems (RS) where ratings of a user for new items is predicted based on her past preferences and available preference information of other users. Despite the popularity of CF-based methods, their performance is often greatly limited by the sparsity of observed entries. In this study, we explore the data augmentation and refinement aspects of Maximum Margin Matrix Factorization (MMMF), a widely accepted CF technique for the rating predictions, which have not been investigated before. We exploit the inherent characteristics of CF algorithms to assess the confidence level of individual ratings and propose a semi-supervised approach for rating augmentation based on self-training. We hypothesize that any CF algorithm's predictions with low confidence are due to some deficiency in the training data and hence, the performance of the algorithm can be improved by adopting a systematic data augmentation strategy. We iteratively use some of the ratings predicted with high confidence to augment the training data and remove low-confidence entries through a refinement process. By repeating this process, the system learns to improve prediction accuracy. Our method is experimentally evaluated on several state-of-the-art CF algorithms and leads to informative rating augmentation, improving the performance of the baseline approaches. | 翻訳日:2023-06-23 13:39:04 公開日:2023-06-22 |
# CamChoice: 複数の選択質問と候補応答分布のコーパス CamChoice: A Corpus of Multiple Choice Questions and Candidate Response Distributions ( http://arxiv.org/abs/2306.13047v1 ) ライセンス: Link先を確認 | Adian Liusie, Vatsal Raina, Andrew Mullooly, Kate Knill, Mark J. F. Gales | (参考訳) 複数の選択試験(multiple choice examination)は、さまざまなドメインやタスクの候補の能力を測定するユビキタスな評価形式である。
提案する質問の品質を維持することは、テスト設計者にとって非常に重要であるため、新しく提案された質問は、実際のテストに配備される前に、いくつかの事前テスト評価段階を経る。
このプロセスは現在非常に手作業で、質問開発サイクルの遅延につながる可能性がある。
このプロセスを自動化することで効率が大幅に向上するが、現在のデータセットには十分な事前テスト分析情報が含まれていない。
本稿では,対象レベルの異なる質問に対して,真の候補選択された選択肢分布を問う多重選択理解データセットCamChoiceを紹介する。
候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。
さらに、これらの自動システムは、性能の低い乱れを検知するなど、実際の事前評価作業に利用でき、この検出システムは、候補がほとんどいない不適切な乱れを自動で識別できる。
今後の研究のためにデータを公開します。 Multiple Choice examinations are a ubiquitous form of assessment that is used to measure the ability of candidates across various domains and tasks. Maintaining the quality of proposed questions is of great importance to test designers, and therefore newly proposed questions go through several pre-test evaluation stages before they can be deployed into real-world exams. This process is currently quite manual, which can lead to time lags in the question development cycle. Automating this process would lead to a large improvement in efficiency, however, current datasets do not contain sufficient pre-test analysis information. In this paper, we introduce CamChoice; a multiple-choice comprehension dataset with questions at different target levels, where questions have the true candidate selected options distributions. We introduce the task of candidate distribution matching, propose several evaluation metrics for the task, and demonstrate that automatic systems trained on RACE++ can be leveraged as baselines for our task. We further demonstrate that these automatic systems can be used for practical pre-test evaluation tasks such as detecting underperforming distractors, where our detection systems can automatically identify poor distractors that few candidates select. We release the data publicly for future research. | 翻訳日:2023-06-23 13:38:43 公開日:2023-06-22 |
# 雑音量子プロセッサにおける量子データ伝播の実際的限界 Practical limitations of quantum data propagation on noisy quantum processors ( http://arxiv.org/abs/2306.13046v1 ) ライセンス: Link先を確認 | Gaurav Saxena, Ahmed Shalabi, Thi Ha Kyaw | (参考訳) 変分量子虚時発展アルゴリズムは、量子ハミルトンの基底状態を見つけるのに効率的である。
このアルゴリズムは、古典的コンピュータで線形方程式の系を解き、その解を量子波動関数の伝播に利用する。
ここでは、現在の量子プロセッサのノイズの性質から、そのような量子アルゴリズムや、高い条件数で行列を反転させる古典的な計算を必要とする量子アルゴリズムの族は、エラー確率が非常に低い単一および2量子ゲートを必要とすることを示す。
このような条件を満たせなかった場合、比較的小さな量子回路であるアンサッツでも誤った量子データ伝播が生じる。
具体的には、量子アルゴリズムの誤差が量子ハードウェアの誤差の確率とどのようにスケールするかについて上限を求める。
我々の研究は、ノイズの多い環境で実行できるハイブリッド量子古典量子アルゴリズムの主流概念に挑戦し、実際にそのようなアルゴリズムは信頼性の高い結果を得るために非常に低いエラー量子ゲートを必要とすることを示した。 The variational quantum imaginary time evolution algorithm is efficient in finding the ground state of a quantum Hamiltonian. This algorithm involves solving a system of linear equations in a classical computer and the solution is then used to propagate a quantum wavefunction. Here, we show that owing to the noisy nature of current quantum processors, such a quantum algorithm or the family of quantum algorithms that require classical computation of inverting a matrix with high condition number will require single- and two-qubit gates with very low error probability. Failure to meet such condition will result in erroneous quantum data propagation even for a relatively small quantum circuit ansatz. Specifically, we find the upper bounds on how the quantum algorithmic error scales with the probability of errors in quantum hardware. Our work challenges the mainstream notion of hybrid quantum-classical quantum algorithms being able to perform under noisy environments while we show such algorithms in fact require very low error quantum gates to get reliable results. | 翻訳日:2023-06-23 13:38:22 公開日:2023-06-22 |
# CDR構造予測のためのループ特定注意によるマルチタスク学習 Multi-Task Learning with Loop Specific Attention for CDR Structure Prediction ( http://arxiv.org/abs/2306.13045v1 ) ライセンス: Link先を確認 | Eleni Giovanoudi and Dimitrios Rafailidis | (参考訳) 抗体工学におけるループの相補性決定領域(cdr)構造予測は研究者から多くの注目を集めている。
抗体を設計する場合、主な課題はH3ループのCDR構造を予測することである。
H1 と H2 のループである他の CDR ループと比較して、H3 ループの CDR 構造はその長さと柔軟な構造によってより困難である。
本稿では,ループ特定注意を用いたマルチタスク学習モデル,すなわちMLSAを提案する。
特に、私たちの知る限りでは、私たちは新しいマルチタスク学習戦略を通じて、3つのCDRループを共同で学習する最初の人です。
さらに,3つのCDRループの構造的,機能的類似点と相違点を考慮し,MLSAのトレーニングにおける各CDRループの影響を制御するループ特異的注意機構を提案する。
ベンチマークデータを用いた実験により,提案手法はh3ループのcdr構造の予測誤差を,他のベースライン戦略と比較した場合,少なくとも19%低減することを示した。
最後に、再生のためにMLSAの実装をhttps://anonymous.4open.science/r/MLSA-2442/で公開します。 The Complementarity Determining Region (CDR) structure prediction of loops in antibody engineering has gained a lot of attraction by researchers. When designing antibodies, a main challenge is to predict the CDR structure of the H3 loop. Compared with the other CDR loops, that is the H1 and H2 loops, the CDR structure of the H3 loop is more challenging due to its varying length and flexible structure. In this paper, we propose a Multi-task learning model with Loop Specific Attention, namely MLSA. In particular, to the best of our knowledge we are the first to jointly learn the three CDR loops, via a novel multi-task learning strategy. In addition, to account for the structural and functional similarities and differences of the three CDR loops, we propose a loop specific attention mechanism to control the influence of each CDR loop on the training of MLSA. Our experimental evaluation on widely used benchmark data shows that the proposed MLSA method significantly reduces the prediction error of the CDR structure of the H3 loop, by at least 19%, when compared with other baseline strategies. Finally, for reproduction purposes we make the implementation of MLSA publicly available at https://anonymous.4open.science/r/MLSA-2442/. | 翻訳日:2023-06-23 13:38:06 公開日:2023-06-22 |
# 機械翻訳における評価指標の解明に向けて Towards Explainable Evaluation Metrics for Machine Translation ( http://arxiv.org/abs/2306.13041v1 ) ライセンス: Link先を確認 | Christoph Leiter, Piyawat Lertvittayakumjorn, Marina Fomicheva, Wei Zhao, Yang Gao, Steffen Eger | (参考訳) BLEUのような古典的な語彙重なりのメトリクスとは異なり、機械翻訳(COMETやBERTScoreなど)の現在の評価基準はブラックボックスの大規模言語モデルに基づいている。
彼らはしばしば人間の判断と強い相関関係を持つが、最近の研究は、低品質の古典的指標が依然として支配的であることを示している。
新たな高品質メトリクスのより広範な受け入れを促進するためには、説明可能性が不可欠になる。
本稿では,機械翻訳の指標を説明するための重要な特性と目的を特定し,最近の手法の総合的な合成を行い,それらの目標と特性に関連付ける。
この文脈では、ChatGPTやGPT4といった生成モデルに基づく説明可能なメトリクスに対する最新の最先端のアプローチについても論じる。
最後に,自然言語説明を含む次世代アプローチのビジョンを提示する。
私たちは、私たちの研究が、説明可能な評価メトリクスに関する将来の研究を触媒し、ガイドし、さらに、より良くより透明な機械翻訳システムにも貢献できることを願っています。 Unlike classical lexical overlap metrics such as BLEU, most current evaluation metrics for machine translation (for example, COMET or BERTScore) are based on black-box large language models. They often achieve strong correlations with human judgments, but recent research indicates that the lower-quality classical metrics remain dominant, one of the potential reasons being that their decision processes are more transparent. To foster more widespread acceptance of novel high-quality metrics, explainability thus becomes crucial. In this concept paper, we identify key properties as well as key goals of explainable machine translation metrics and provide a comprehensive synthesis of recent techniques, relating them to our established goals and properties. In this context, we also discuss the latest state-of-the-art approaches to explainable metrics based on generative models such as ChatGPT and GPT4. Finally, we contribute a vision of next-generation approaches, including natural language explanations. We hope that our work can help catalyze and guide future research on explainable evaluation metrics and, mediately, also contribute to better and more transparent machine translation systems. | 翻訳日:2023-06-23 13:37:47 公開日:2023-06-22 |
# 次世代AI技術のサイバー防衛への影響とリスク Impacts and Risk of Generative AI Technology on Cyber Defense ( http://arxiv.org/abs/2306.13033v1 ) ライセンス: Link先を確認 | Subash Neupane, Ivan A. Fernandez, Sudip Mittal, Shahram Rahimi | (参考訳) Generative Artificial Intelligence(GenAI)は、テキスト、画像、オーディオ、ビデオなど、さまざまな領域で、高度に現実的なコンテンツを自動生成できる強力な技術として登場した。
クリエイティブアート、コンテンツ生成、仮想アシスタント、データ合成におけるポジティブな応用の可能性から、GenAIは大きな注目を集め、採用されている。
しかし、ジェナイの普及に伴い、フィッシングメールの作成、ディープフェイクビデオによる偽情報の生成、ソーシャルメディア投稿による偽情報の拡散、サイバーセキュリティの分野での新たな課題とリスクに対する懸念が高まっている。
GenAIによる脅威に対処するために,サイバー攻撃のライフサイクルを理解するために,サイバー攻撃連鎖(CKC)を活用することを提案する。
本稿では,ckcフレームワークの各段階において,ジェナイ技術が悪用されることによるリスク領域の包括的分析を目的とする。
また、脅威アクターが採用する戦略を分析し、CKCの様々な段階を通じてその利用状況を調べ、サイバー防御の意義を強調した。
また,攻撃意識と適応性の両方を有するGenAI対応防衛戦略を提案する。
これらの戦略は、GenAIによるサイバー脅威によって引き起こされるリスクを効果的に軽減することを目的とした、検出、騙し、敵の訓練など、様々な技術を含んでいる。 Generative Artificial Intelligence (GenAI) has emerged as a powerful technology capable of autonomously producing highly realistic content in various domains, such as text, images, audio, and videos. With its potential for positive applications in creative arts, content generation, virtual assistants, and data synthesis, GenAI has garnered significant attention and adoption. However, the increasing adoption of GenAI raises concerns about its potential misuse for crafting convincing phishing emails, generating disinformation through deepfake videos, and spreading misinformation via authentic-looking social media posts, posing a new set of challenges and risks in the realm of cybersecurity. To combat the threats posed by GenAI, we propose leveraging the Cyber Kill Chain (CKC) to understand the lifecycle of cyberattacks, as a foundational model for cyber defense. This paper aims to provide a comprehensive analysis of the risk areas introduced by the offensive use of GenAI techniques in each phase of the CKC framework. We also analyze the strategies employed by threat actors and examine their utilization throughout different phases of the CKC, highlighting the implications for cyber defense. Additionally, we propose GenAI-enabled defense strategies that are both attack-aware and adaptive. These strategies encompass various techniques such as detection, deception, and adversarial training, among others, aiming to effectively mitigate the risks posed by GenAI-induced cyber threats. | 翻訳日:2023-06-23 13:37:30 公開日:2023-06-22 |
# モノのインターネットにおける機械学習侵入検出におけるオンライン自己監視学習 Online Self-Supervised Learning in Machine Learning Intrusion Detection for the Internet of Things ( http://arxiv.org/abs/2306.13030v1 ) ライセンス: Link先を確認 | Mert Nak{\i}p and Erol Gelenbe | (参考訳) 本稿では,人間の介入や事前のオフライン学習を必要としない完全オンライン機械学習(ML)ベースの侵入検知システム(IDS)を実現する,新しい自己監視侵入検出(SSID)フレームワークを提案する。
提案手法は,自動連想型深層ランダムニューラルネットワークを用いてIDS自体の決定と,その統計的に測定された信頼性のオンライン推定に基づいて,受信するトラフィックパケットを分析し,ラベル付けする。
SSIDフレームワークにより、IDSはネットワークトラフィックの時間変化特性に迅速に適応することが可能になり、オフラインデータ収集の必要性がなくなる。
このアプローチは、データラベリングにおけるヒューマンエラーや、モデルトレーニングとデータ収集の人的労力と計算コストを回避する。
このアプローチは、パブリックデータセットで実験的に評価され、よく知られたMLモデルと比較して、このSSIDフレームワークは、IoTシステムのための正確なオンライン学習MLベースのIDSとして非常に有用で有利であることを示している。 This paper proposes a novel Self-Supervised Intrusion Detection (SSID) framework, which enables a fully online Machine Learning (ML) based Intrusion Detection System (IDS) that requires no human intervention or prior off-line learning. The proposed framework analyzes and labels incoming traffic packets based only on the decisions of the IDS itself using an Auto-Associative Deep Random Neural Network, and on an online estimate of its statistically measured trustworthiness. The SSID framework enables IDS to adapt rapidly to time-varying characteristics of the network traffic, and eliminates the need for offline data collection. This approach avoids human errors in data labeling, and human labor and computational costs of model training and data collection. The approach is experimentally evaluated on public datasets and compared with well-known ML models, showing that this SSID framework is very useful and advantageous as an accurate and online learning ML-based IDS for IoT systems. | 翻訳日:2023-06-23 13:37:07 公開日:2023-06-22 |
# 軽量侵入検知のための分散オンラインGネットワーク学習 Decentralized Online Federated G-Network Learning for Lightweight Intrusion Detection ( http://arxiv.org/abs/2306.13029v1 ) ライセンス: Link先を確認 | Mert Nak{\i}p and Baran Can G\"ul and Erol Gelenbe | (参考訳) サイバー攻撃はネットワーク化されたシステムを脅かしている。多くの場合、新しいタイプの未知(ゼロデイ)攻撃や脆弱なデバイスが出現する。
機械学習(ML)ベースの侵入検知システム(IDS)は、これらの攻撃を検出する上で極めて有望であることが示されているが、大量のラベル付きデータを学習する必要性は、MLベースのIDSをプライベートローカルデータのみにアクセス可能なサイバーシステムに適用することを制限することが多い。
そこで本研究では,分散・オンライン統合学習侵入検知(DOF-ID)アーキテクチャを提案する。
DOF-IDは、サイバーシステムで使用される各IDSが、他のシステムのデータのプライバシーを侵害することなく、他のサイバーシステムで得られた経験から学ぶことができる協調学習システムである。
公的なKitsuneデータセットとBot-IoTデータセットによる性能評価結果が示すように、DOF-IDは、オンライン学習に許容される計算時間と同時に、すべての協調ノードの侵入検出性能を大幅に改善する。 Cyberattacks are increasingly threatening networked systems, often with the emergence of new types of unknown (zero-day) attacks and the rise of vulnerable devices. While Machine Learning (ML)-based Intrusion Detection Systems (IDSs) have been shown to be extremely promising in detecting these attacks, the need to learn large amounts of labelled data often limits the applicability of ML-based IDSs to cybersystems that only have access to private local data. To address this issue, this paper proposes a novel Decentralized and Online Federated Learning Intrusion Detection (DOF-ID) architecture. DOF-ID is a collaborative learning system that allows each IDS used for a cybersystem to learn from experience gained in other cybersystems in addition to its own local data without violating the data privacy of other systems. As the performance evaluation results using public Kitsune and Bot-IoT datasets show, DOF-ID significantly improves the intrusion detection performance in all collaborating nodes simultaneously with acceptable computation time for online learning. | 翻訳日:2023-06-23 13:36:49 公開日:2023-06-22 |
# 複雑コンディショニング発電機によるトランスファタブル・キュリキュラ Transferable Curricula through Difficulty Conditioned Generators ( http://arxiv.org/abs/2306.13028v1 ) ライセンス: Link先を確認 | Sidney Tio, Pradeep Varakantham | (参考訳) 強化学習(RL)の進歩は、Starcraft、Go、Chessといった複雑なタスクにおいて超人的なパフォーマンスを示している。
しかし、人為的な「専門家」から人間への知識移転は依然として大きな課題である。
このような移転のための有望な道は、キュリキュラの使用である。
近年のカリキュラム生成手法はRLエージェントを効率的に訓練することに重点を置いているが、これらの手法は学生の進歩を追跡するための補助手段に依存しており、現実世界(あるいはより野心的な人間)でのロボットの訓練には適していない。
本稿では,パラメータ化環境におけるRLエージェントのトレーニングにおいて有望な結果を示すパラメータ化環境応答モデル(PERM)を提案する。
項目応答理論に触発されて、PERMは環境の難しさとRLエージェントの能力を直接モデル化しようとする。
rlエージェントと人間は「近位開発ゾーン」の下でより効率的に訓練されているため、学習者の現在の能力と環境の難易度を一致させることでカリキュラムを作成できる。
さらに、PERMはオフラインでトレーニングすることができ、学生間の移動に適した非定常的な学生能力の尺度を採用できない。
PERMが環境パラメータ空間を表現する能力を示し、PERMを用いたRLエージェントによるトレーニングは、決定論的環境において強い性能を示す。
最後に,本手法は,学習品質を犠牲にすることなく,学生間で移行可能であることを示す。 Advancements in reinforcement learning (RL) have demonstrated superhuman performance in complex tasks such as Starcraft, Go, Chess etc. However, knowledge transfer from Artificial "Experts" to humans remain a significant challenge. A promising avenue for such transfer would be the use of curricula. Recent methods in curricula generation focuses on training RL agents efficiently, yet such methods rely on surrogate measures to track student progress, and are not suited for training robots in the real world (or more ambitiously humans). In this paper, we introduce a method named Parameterized Environment Response Model (PERM) that shows promising results in training RL agents in parameterized environments. Inspired by Item Response Theory, PERM seeks to model difficulty of environments and ability of RL agents directly. Given that RL agents and humans are trained more efficiently under the "zone of proximal development", our method generates a curriculum by matching the difficulty of an environment to the current ability of the student. In addition, PERM can be trained offline and does not employ non-stationary measures of student ability, making it suitable for transfer between students. We demonstrate PERM's ability to represent the environment parameter space, and training with RL agents with PERM produces a strong performance in deterministic environments. Lastly, we show that our method is transferable between students, without any sacrifice in training quality. | 翻訳日:2023-06-23 13:36:30 公開日:2023-06-22 |
# 室温における二次元材料中の量子コヒーレントスピン A quantum coherent spin in a two-dimensional material at room temperature ( http://arxiv.org/abs/2306.13025v1 ) ライセンス: Link先を確認 | Hannah L. Stern, Carmem M. Gilardoni, Qiushi Gu, Simone Eizagirre Barker, Oliver Powell, Xiaoxi Deng, Louis Follet, Chi Li, Andrew Ramsay, Hark Hoe Tan, Igor Aharonovich and Mete Atat\"ure | (参考訳) 量子ネットワークとセンシングには、単一光子生成と長時間のスピンコヒーレンスとスケーラブルなデバイス統合を組み合わせた固体スピン光子インターフェースが必要である。
いくつかの候補系で急速に進歩したにもかかわらず、室温で量子コヒーレント単スピンを持つものは非常に稀である。
本稿では,2次元材料窒化ホウ素中の単一光子放出欠陥スピンの環境条件下での量子コヒーレント制御について報告する。
炭素関連欠陥はスピントリップ電子基底状態多様体を有する。
スピンコヒーレンスは主に数個の近位核への結合によって制御され、デカップリングプロトコルによって長くなる。
この結果から, 室温スピン量子ビットを, ナノスケールのサンプル近接を持つマルチキュービット量子レジスタや量子センサに結合させることができた。 Quantum networks and sensing require solid-state spin-photon interfaces that combine single-photon generation and long-lived spin coherence with scalable device integration, ideally at ambient conditions. Despite rapid progress reported across several candidate systems, those possessing quantum coherent single spins at room temperature remain extremely rare. Here, we report quantum coherent control under ambient conditions of a single-photon emitting defect spin in a a two-dimensional material, hexagonal boron nitride. We identify that the carbon-related defect has a spin-triplet electronic ground-state manifold. We demonstrate that the spin coherence is governed predominantly by coupling to only a few proximal nuclei and is prolonged by decoupling protocols. Our results allow for a room-temperature spin qubit coupled to a multi-qubit quantum register or quantum sensor with nanoscale sample proximity. | 翻訳日:2023-06-23 13:36:07 公開日:2023-06-22 |
# 光導波路格子上の任意の連続状態の完全移動 Perfect transfer of arbitrary continuous variable states across optical waveguide lattices ( http://arxiv.org/abs/2306.13068v1 ) ライセンス: Link先を確認 | Tonipe Anuradha, Ayan Patra, Rivu Gupta, Aditi Sen De | (参考訳) 我々は, 近接結合を変調したハミルトニアンが支配する光導波路格子において, 完全状態伝達が達成できることを実証した。
特に、連続変数の入力状態の完全移動を達成するためには、進化ハミルトニアンが満足すべき条件を報告する。
送信可能な状態は、純粋または混合、ガウス的または非ガウス的であり、任意の数のモードからなる、特定の特性を持つ必要はない。
提案手法は2次元および3次元導波路ジオメトリにスケーラブルであることを示す。
全てのモードにおける局所位相ゲートの助けを借りて、導波路配置の中心付近のミラー対称モード間のSWAPゲートを実現することができる。 We demonstrate that perfect state transfer can be achieved in an optical waveguide lattice governed by a Hamiltonian with modulated nearest-neighbor couplings. In particular, we report the condition that the evolution Hamiltonian should satisfy in order to achieve perfect transfer of any continuous variable input state. The states that can be transmitted need not have any specific properties - they may be pure or mixed, Gaussian or non-Gaussian in character, and comprise an arbitrary number of modes. We illustrate that the proposed protocol is scalable to two- and three-dimensional waveguide geometries. With the help of local phase gates on all the modes, our results can also be applied to realize a SWAP gate between mirror-symmetric modes about the centre of the waveguide setup. | 翻訳日:2023-06-23 13:28:21 公開日:2023-06-22 |
# 最大長量子力学におけるベル非局所性 Bell nonlocality in maximal-length quantum mechanics ( http://arxiv.org/abs/2306.13067v1 ) ライセンス: Link先を確認 | Pasquale Bosso, Fabrizio Illuminati, Luciano Petruzziello, Fabian Wagner | (参考訳) 本稿では,二部量子系の2つのパーティで共有される非局所相関に対する最大長と最小運動量スケールの影響について検討する。
この目的のために、宇宙スケールにおける非無視可能な時空曲率、すなわち拡張不確実性原理と関連づけられる一般的な現象論的スキームに依存する。
したがって、変形した量子力学的モデルが正の宇宙定数を模倣すると、量子相関は劣化する。
これにより、十分に大きな距離で古典性を取り戻す可能性が開ける。 In this paper, we investigate the consequences of maximal length as well as minimal momentum scales on nonlocal correlations shared by two parties of a bipartite quantum system. To this aim, we rely on a general phenomenological scheme which is usually associated with the non-negligible spacetime curvature at cosmological scales, namely the extended uncertainty principle. In so doing, we find that quantum correlations are degraded if the deformed quantum mechanical model mimics a positive cosmological constant. This opens up the possibility to recover classicality at sufficiently large distances. | 翻訳日:2023-06-23 13:28:08 公開日:2023-06-22 |
# 間欠的バイアスの予測モデルの検討 Auditing Predictive Models for Intersectional Biases ( http://arxiv.org/abs/2306.13064v1 ) ライセンス: Link先を確認 | Kate S. Boxer, Edward McFowland III, Daniel B. Neill | (参考訳) 保護クラスのメンバーの集合におけるグループフェアネス基準を満たすが、サブグループフェアネスを保証しない予測モデルは、2つ以上の保護クラスの交差点で個人に対するバイアス付き予測を生成する。
このリスクに対処するため,分類モデルの交差バイアスを検出するためのフレキシブル監査フレームワークであるConditional Bias Scan (CBS)を提案する。
CBSは、保護されたクラスに対する最も重要なバイアスがあるサブグループを、保護されていないクラスの同等のサブグループと比較して特定し、確率的および二項化予測の両方に複数の一般的なフェアネス定義を組み込むことができる。
本手法は,CompAS前リスクアセスメントツールにおいて,未同定の交差点バイアスや文脈バイアスを検出でき,サブグループフェアネスを監査する類似手法と比較して高いバイアス検出能力を有することを示す。 Predictive models that satisfy group fairness criteria in aggregate for members of a protected class, but do not guarantee subgroup fairness, could produce biased predictions for individuals at the intersection of two or more protected classes. To address this risk, we propose Conditional Bias Scan (CBS), a flexible auditing framework for detecting intersectional biases in classification models. CBS identifies the subgroup for which there is the most significant bias against the protected class, as compared to the equivalent subgroup in the non-protected class, and can incorporate multiple commonly used fairness definitions for both probabilistic and binarized predictions. We show that this methodology can detect previously unidentified intersectional and contextual biases in the COMPAS pre-trial risk assessment tool and has higher bias detection power compared to similar methods that audit for subgroup fairness. | 翻訳日:2023-06-23 13:27:59 公開日:2023-06-22 |
# LLMは不確かさを表現できるのか?
LLMにおける信頼緩和の実証評価 Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs ( http://arxiv.org/abs/2306.13063v1 ) ライセンス: Link先を確認 | Miao Xiong, Zhiyuan Hu, Xinyang Lu, Yifei Li, Jie Fu, Junxian He, Bryan Hooi | (参考訳) 大きな言語モデル(LLM)の信頼性を正確に表現するためのタスクは、信頼性と信頼性の高い意思決定プロセスを保証する上で不可欠である。
従来の手法は主にモデルロジットに依存していたが、LLMには適せず、クローズドソースのLLM(例えば商用のLLM API)の登場で実現不可能になった。
これにより、llmの不確かさを推定するための\emph{non-logit-based} アプローチの未解決領域を探索する必要性が高まる。
そこで本研究では,モデル微調整やプロプライエタリ情報へのアクセスを必要としない信頼性評価手法について検討する。
本稿では,5種類のデータセットと4種類の LLM を対象とし,言語化ベース,一貫性ベース,およびそれらのハイブリッドなベンチマーク手法の3つのカテゴリを紹介した。
これらの手法の分析によって、いくつかの重要な知見が明らかになる。
1) LLMは,その信頼を言葉で表す際に,高い自信を示すことが多い。
2) cot, top-k, multi-step confidences などの戦略の推進は,言語化された信頼のキャリブレーションを改善する。
3) 一貫性に基づく手法は,ほとんどの場合,特に算術的推論タスクにおいて,言語化された信頼度よりも優れる。
4) ハイブリッド手法は,ベースラインに対して一貫して最高のパフォーマンスを提供するため,有望な最先端アプローチとして出現する。
5) これらの進歩にもかかわらず, 全ての調査手法は, 専門家の知識を必要とするような課題に苦慮し, 信頼性向上のかなりの範囲を残している。 The task of empowering large language models (LLMs) to accurately express their confidence, referred to as confidence elicitation, is essential in ensuring reliable and trustworthy decision-making processes. Previous methods, which primarily rely on model logits, have become less suitable for LLMs and even infeasible with the rise of closed-source LLMs (e.g., commercialized LLM APIs). This leads to a growing need to explore the untapped area of \emph{non-logit-based} approaches to estimate the uncertainty of LLMs. Hence, in this study, we investigate approaches for confidence elicitation that do not require model fine-tuning or access to proprietary information. We introduce three categories of methods: verbalize-based, consistency-based, and their hybrid methods for benchmarking, and evaluate their performance across five types of datasets and four widely-used LLMs. Our analysis of these methods uncovers several key insights: 1) LLMs often exhibit a high degree of overconfidence when verbalizing their confidence; 2) Prompting strategies such as CoT, Top-K and Multi-step confidences improve calibration of verbalized confidence; 3) Consistency-based methods outperform the verbalized confidences in most cases, with particularly notable improvements on the arithmetic reasoning task; 4) Hybrid methods consistently deliver the best performance over their baselines, thereby emerging as a promising state-of-the-art approach; 5) Despite these advancements, all investigated methods continue to struggle with challenging tasks, such as those requiring professional knowledge, leaving significant scope for improvement of confidence elicitation. | 翻訳日:2023-06-23 13:27:42 公開日:2023-06-22 |
# 履歴書における名前付きエンティティ認識 Named entity recognition in resumes ( http://arxiv.org/abs/2306.13062v1 ) ライセンス: Link先を確認 | Ege Kesim, Aysu Deliahmetoglu | (参考訳) 名前付きエンティティ認識(NER)は、名前や日付などの様々な文書やテキストから情報を抽出するために用いられる。
履歴書から教育や作業経験情報を抽出してフィルタリングすることが重要である。
履歴書のすべての情報を手動で会社のシステムに入力する必要があることを考えると、このプロセスを自動化すれば、企業の時間を節約できる。
本研究では,その分野における履歴書を中心に,深層学習に基づく半自動型エンティティ認識システムを実装した。
第一に、5つの異なるIT関連分野の従業員の履歴書が注釈付けされている。
6つのトランスを用いた事前学習モデルがアノテーション付きデータを用いて名前付きエンティティ認識問題に適用されている。
これらのモデルは自然言語処理分野で人気のあるモデルに選ばれている。
得られたシステムは、都市、日付、学位、学位、学位、役職、言語、国、技能の8つの異なるエンティティタイプを認識することができる。
実験で使用したモデルは, マイクロ, マクロ, 重み付きf1スコアを用いて比較し, 評価を行った。
これらのスコアをテストセットに考慮し、RoBERTaにより最良のマイクロおよび重み付きF1スコアを取得し、Electraモデルにより最良のマクロF1スコアを得る。 Named entity recognition (NER) is used to extract information from various documents and texts such as names and dates. It is important to extract education and work experience information from resumes in order to filter them. Considering the fact that all information in a resume has to be entered to the companys system manually, automatizing this process will save time of the companies. In this study, a deep learning-based semi-automatic named entity recognition system has been implemented with a focus on resumes in the field of IT. Firstly, resumes of employees from five different IT related fields has been annotated. Six transformer based pre-trained models have been adapted to named entity recognition problem using the annotated data. These models have been selected among popular models in the natural language processing field. The obtained system can recognize eight different entity types which are city, date, degree, diploma major, job title, language, country and skill. Models used in the experiments are compared using micro, macro and weighted F1 scores and the performance of the methods was evaluated. Taking these scores into account for test set the best micro and weighted F1 score is obtained by RoBERTa and the best macro F1 score is obtained by Electra model. | 翻訳日:2023-06-23 13:27:15 公開日:2023-06-22 |
# 境界共分散GMM学習のためのSQ下界 SQ Lower Bounds for Learning Bounded Covariance GMMs ( http://arxiv.org/abs/2306.13057v1 ) ライセンス: Link先を確認 | Ilias Diakonikolas, Daniel M. Kane, Thanasis Pittas, Nikos Zarifis | (参考訳) 未知有界共分散行列を持つ分離ガウスの混合学習の複雑さについて検討した。
具体的には、$\mathbb{R}^d$ 上のガウス混合モデル (GMMs) について、$P= \sum_{i=1}^k w_i \mathcal{N}(\boldsymbol \mu_i,\mathbf \Sigma_i)$ ここで、$\mathbf \Sigma_i = \mathbf \Sigma \preceq \mathbf I$ と $\min_{i \neq j} \| \boldsymbol \mu_i\| \geq k^\epsilon$ を学習する。
このGMMの族に対する学習アルゴリズムは、複雑さ$(dk)^{O(1/\epsilon)}$を持つ。
本研究では,この問題に対する統計的クエリ (SQ) アルゴリズムが,少なくとも$d^{\Omega(1/\epsilon)}$の複雑性を必要とすることを証明した。
分離が$k^{1/2}$の順序である特別な場合、正しい指数を持つきめ細かい SQ の下界も得られる。
我々のSQ下限は、低次多項式テストに類似した下限を暗示する。
概念的には、この問題の既知のアルゴリズムが可能な限り最善であることを示す。 We study the complexity of learning mixtures of separated Gaussians with common unknown bounded covariance matrix. Specifically, we focus on learning Gaussian mixture models (GMMs) on $\mathbb{R}^d$ of the form $P= \sum_{i=1}^k w_i \mathcal{N}(\boldsymbol \mu_i,\mathbf \Sigma_i)$, where $\mathbf \Sigma_i = \mathbf \Sigma \preceq \mathbf I$ and $\min_{i \neq j} \| \boldsymbol \mu_i - \boldsymbol \mu_j\|_2 \geq k^\epsilon$ for some $\epsilon>0$. Known learning algorithms for this family of GMMs have complexity $(dk)^{O(1/\epsilon)}$. In this work, we prove that any Statistical Query (SQ) algorithm for this problem requires complexity at least $d^{\Omega(1/\epsilon)}$. In the special case where the separation is on the order of $k^{1/2}$, we additionally obtain fine-grained SQ lower bounds with the correct exponent. Our SQ lower bounds imply similar lower bounds for low-degree polynomial tests. Conceptually, our results provide evidence that known algorithms for this problem are nearly best possible. | 翻訳日:2023-06-23 13:26:55 公開日:2023-06-22 |
# 利得損失誘起非アベルブロッホブレイド Gain-loss induced non-Abelian Bloch braids ( http://arxiv.org/abs/2306.13056v1 ) ライセンス: Link先を確認 | B. Midya | (参考訳) 非エルミートエネルギーバンドのオンサイトゲインロス誘起トポロジカルブレイディング原理は、エルミートホッピング振幅を持つ多バンド格子モデルで理論的に定式化されている。
ブレイド相転移は、ゲインロスパラメータが例外的な点退化によって調整されるときに起こる。
実験室で実現可能な有効ハミルトニアンは、それぞれ2バンドと3バンドのブレイド群 $\mathbb{b}_2$ と $\mathbb{b}_3$ を実現するために提案されている。
$\mathbb{B}_2$ は自明にアーベル的であるが、群 $\mathbb{B}_3$ は非アーベルブレイディングとエネルギー置換を特徴とする。
ブレイド群生成器を実現するための格子パラメータに関する位相図とその非可換性を示す。
提案理論は、トポロジカル量子フォトニクス計算と情報処理への応用のために、例外的な物質を合成することを目的としている。 Onsite gain-loss induced topological braiding principles of non-Hermitian energy bands is theoretically formulated in multiband lattice models with Hermitian hopping amplitudes. Braid phase transition occurs when the gain-loss parameter is tuned across exceptional point degeneracies. Laboratory realizable effective-Hamiltonians are proposed to realize braid groups $\mathbb{B}_2$ and $\mathbb{B}_3$ of two and three bands respectively. While $\mathbb{B}_2$ is trivially Abelian, the group $\mathbb{B}_3$ features non-Abelian braiding and energy permutation. Phase diagrams with respect to lattice parameters to realize braid group generators and their non-commutativity are shown. The proposed theory is conducive to synthesize exceptional materials for applications in topological quantum photonic computation and information processing. | 翻訳日:2023-06-23 13:26:16 公開日:2023-06-22 |
# ソフト直交プロキシを用いたDeep Metric Learning Deep Metric Learning with Soft Orthogonal Proxies ( http://arxiv.org/abs/2306.13055v1 ) ライセンス: Link先を確認 | Farshad Saberi-Movahed, Mohammad K.Ebrahimpour, Farid Saberi-Movahed, Monireh Moshavash, Dorsa Rahmatian, Mahvash Mohazzebi, Mahdi Shariatzadeh, Mahdi Eftekhari | (参考訳) ディープメトリック学習(dml)モデルは、特定の損失関数を持つ強い表現と類似性に基づく尺度に依存する。
プロキシベースの損失は収束速度の点でペアベースの損失と比較して大きなパフォーマンスを示した。
しかし、異なるクラスに割り当てられたプロキシは埋め込み空間に密着しているため、正の項目と負の項目を区別するのに苦労することがある。
あるいは、高い相関関係となり、モデルに冗長な情報を提供することもある。
これらの問題に対処するため,我々は,プロキシにソフトオルソゴナリティ(so)制約を導入する新しいアプローチを提案する。
この制約は、プロキシが可能な限り直交であることを保証するため、埋め込み空間におけるそれらの位置を制御する。
提案手法では,DML目標とともに画像からコンテキスト特徴を抽出するエンコーダとして,データ効率の良い画像変換器(DeiT)を利用する。
目的は、SO正則化とともにプロキシアンカー損失である。
カテゴリレベルの画像検索のための4つの公開ベンチマークにおいて,本手法の有効性を総合的な実験結果とアブレーション研究で検証した。
本評価は,最先端手法に対する提案手法の優位性を有意なマージンで示している。 Deep Metric Learning (DML) models rely on strong representations and similarity-based measures with specific loss functions. Proxy-based losses have shown great performance compared to pair-based losses in terms of convergence speed. However, proxies that are assigned to different classes may end up being closely located in the embedding space and hence having a hard time to distinguish between positive and negative items. Alternatively, they may become highly correlated and hence provide redundant information with the model. To address these issues, we propose a novel approach that introduces Soft Orthogonality (SO) constraint on proxies. The constraint ensures the proxies to be as orthogonal as possible and hence control their positions in the embedding space. Our approach leverages Data-Efficient Image Transformer (DeiT) as an encoder to extract contextual features from images along with a DML objective. The objective is made of the Proxy Anchor loss along with the SO regularization. We evaluate our method on four public benchmarks for category-level image retrieval and demonstrate its effectiveness with comprehensive experimental results and ablation studies. Our evaluations demonstrate the superiority of our proposed approach over state-of-the-art methods by a significant margin. | 翻訳日:2023-06-23 13:26:00 公開日:2023-06-22 |
# Quantum Pufferfish Privacy: 量子システムのための柔軟なプライバシーフレームワーク Quantum Pufferfish Privacy: A Flexible Privacy Framework for Quantum Systems ( http://arxiv.org/abs/2306.13054v1 ) ライセンス: Link先を確認 | Theshani Nuradha, Ziv Goldfeld, Mark M. Wilde | (参考訳) 本稿では、量子フグプライバシー(QPP)と呼ばれる量子システムのための多用途プライバシーフレームワークを提案する。
従来のpufferfishのプライバシに触発されて,量子差分プライバシの限界を一般化・対処し,プライベート情報や実現可能な測定,ドメイン知識の特定に柔軟性を提供する。
本稿では,QPPをData-Leditzky情報スペクトルのばらつきの観点から等価に定式化できることを示す。
我々は,この発散を半定値プログラムとして再構成し,その性質を導出し,qpp機構の凸性,構成可能性,後処理を証明するために用いる。
脱分極機構のqppを保証するパラメータも導出される。
一般QPP機構のプライバシ・ユーティリティ・トレードオフを分析し,また,脱分極機構を明示的な事例として検討する。
QPPフレームワークは、量子アルゴリズムを利用する仮説テストパイプラインを介して、プライバシ違反を特定するためのプライバシ監査に適用される。
量子フェアネスや他の量子ダイバーシティとの接続も検討され、qppのいくつかの変種が検討されている。 We propose a versatile privacy framework for quantum systems, termed quantum pufferfish privacy (QPP). Inspired by classical pufferfish privacy, our formulation generalizes and addresses limitations of quantum differential privacy by offering flexibility in specifying private information, feasible measurements, and domain knowledge. We show that QPP can be equivalently formulated in terms of the Datta-Leditzky information spectrum divergence, thus providing the first operational interpretation thereof. We reformulate this divergence as a semi-definite program and derive several properties of it, which are then used to prove convexity, composability, and post-processing of QPP mechanisms. Parameters that guarantee QPP of the depolarization mechanism are also derived. We analyze the privacy-utility tradeoff of general QPP mechanisms and, again, study the depolarization mechanism as an explicit instance. The QPP framework is then applied to privacy auditing for identifying privacy violations via a hypothesis testing pipeline that leverages quantum algorithms. Connections to quantum fairness and other quantum divergences are also explored and several variants of QPP are examined. | 翻訳日:2023-06-23 13:25:43 公開日:2023-06-22 |
# コンテキスト結合型確率的包帯 Context-lumpable stochastic bandits ( http://arxiv.org/abs/2306.13053v1 ) ライセンス: Link先を確認 | Chung-Wei Lee, Qinghua Liu, Yasin Abbasi-Yadkori, Chi Jin, Tor Lattimore, Csaba Szepesv\'ari | (参考訳) 我々は、$S $コンテキストと$A $アクションのコンテキスト的バンディット問題を考える。
各ラウンド$t=1,2,\dots$ では、学習者はランダムな文脈を観察し、過去の経験に基づいてアクションを選択する。
そして、学習者は、平均が文脈の関数であり、ラウンドに対するアクションであるランダムな報酬を観察する。
コンテキストを$r\le \min\{s ,a \}$ グループにまとめることができて、同じグループに属する2つのコンテキストに対して平均報酬が同じであると仮定すると、最大$\widetilde o(r (s +a )/\epsilon^2)$ のサンプルを高い確率で使用して、$\widetilde\omega(r (s +a )/\epsilon^2)$ の値と一致する$\widetilde\omega(r (s +a )/\epsilon^2)$ の値を求めるアルゴリズムを与える。
後悔の最小化設定では、T$までの累積後悔を$\widetilde O(\sqrt{r^3(S +A )T})$で束縛するアルゴリズムを与える。
我々の知る限り、我々はPAC設定におけるほぼ最適サンプルの複雑さを初めて示し、この問題のオンライン設定において、$\widetilde O(\sqrt{{poly}(r)(S+K)T})$ minimax regret を示す。
また、我々のアルゴリズムはより一般的な低ランクバンディットに適用でき、いくつかのシナリオで改善された後悔境界が得られることを示す。 We consider a contextual bandit problem with $S $ contexts and $A $ actions. In each round $t=1,2,\dots$ the learner observes a random context and chooses an action based on its past experience. The learner then observes a random reward whose mean is a function of the context and the action for the round. Under the assumption that the contexts can be lumped into $r\le \min\{S ,A \}$ groups such that the mean reward for the various actions is the same for any two contexts that are in the same group, we give an algorithm that outputs an $\epsilon$-optimal policy after using at most $\widetilde O(r (S +A )/\epsilon^2)$ samples with high probability and provide a matching $\widetilde\Omega(r (S +A )/\epsilon^2)$ lower bound. In the regret minimization setting, we give an algorithm whose cumulative regret up to time $T$ is bounded by $\widetilde O(\sqrt{r^3(S +A )T})$. To the best of our knowledge, we are the first to show the near-optimal sample complexity in the PAC setting and $\widetilde O(\sqrt{{poly}(r)(S+K)T})$ minimax regret in the online setting for this problem. We also show our algorithms can be applied to more general low-rank bandits and get improved regret bounds in some scenarios. | 翻訳日:2023-06-23 13:25:23 公開日:2023-06-22 |
# Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale from a new perspective Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale From A New Perspective ( http://arxiv.org/abs/2306.13092v1 ) ライセンス: Link先を確認 | Zeyuan Yin and Eric Xing and Zhiqiang Shen | (参考訳) 本稿では,トレーニング中のモデルと合成データの2レベル最適化を分離し,データセットのスケール,モデルアーキテクチャ,画像解像度のさまざまな処理を行う,srewish, recovery and relabel(sre$^2$l)という新しいデータセット凝縮フレームワークを提案する。
提案手法は,多様なデータセットスケールにまたがる柔軟性を示し,合成画像の任意の解像度,高分解能トレーニングによる低トレーニングコスト,メモリ消費,任意の評価ネットワークアーキテクチャへのスケールアップ能力など,複数の利点を示す。
Tiny-ImageNetと完全なImageNet-1Kデータセットで大規模な実験が行われている。
50 IPC未満では、Tiny-ImageNetとImageNet-1Kの検証精度は42.5%と60.8%で、従来の最先端手法をそれぞれ14.5%と32.9%で上回っている。
また,mttを約52$\times$ (convnet-4) と16$\times$ (resnet-18) で高速化し,データ合成時のメモリ消費を11.6$\times$ と 6.4$\times$ で削減した。
コードと4Kリカバリ予算付き50,200 IPCのデータセットはhttps://zeyuanyin.github.io/projects/SRe2L/で公開されています。 We present a new dataset condensation framework termed Squeeze, Recover and Relabel (SRe$^2$L) that decouples the bilevel optimization of model and synthetic data during training, to handle varying scales of datasets, model architectures and image resolutions for effective dataset condensation. The proposed method demonstrates flexibility across diverse dataset scales and exhibits multiple advantages in terms of arbitrary resolutions of synthesized images, low training cost and memory consumption with high-resolution training, and the ability to scale up to arbitrary evaluation network architectures. Extensive experiments are conducted on Tiny-ImageNet and full ImageNet-1K datasets. Under 50 IPC, our approach achieves the highest 42.5% and 60.8% validation accuracy on Tiny-ImageNet and ImageNet-1K, outperforming all previous state-of-the-art methods by margins of 14.5% and 32.9%, respectively. Our approach also outperforms MTT by approximately 52$\times$ (ConvNet-4) and 16$\times$ (ResNet-18) faster in speed with less memory consumption of 11.6$\times$ and 6.4$\times$ during data synthesis. Our code and condensed datasets of 50, 200 IPC with 4K recovery budget are available at https://zeyuanyin.github.io/projects/SRe2L/. | 翻訳日:2023-06-23 13:19:58 公開日:2023-06-22 |
# 属性条件付き逆顔による法医学的分類器の回避 Evading Forensic Classifiers with Attribute-Conditioned Adversarial Faces ( http://arxiv.org/abs/2306.13091v1 ) ライセンス: Link先を確認 | Fahad Shamshad, Koushik Srivatsan, Karthik Nandakumar | (参考訳) 生成モデルが高度にリアルな合成顔画像を生成する能力は、セキュリティと倫理的懸念を高めている。
このような偽の顔に対する防御の第一線として、深層学習に基づく法科学分類器が開発された。
これらの法医学モデルでは、顔画像が合成であるかリアルであるかを高い精度で検出できるが、敵の攻撃に対して脆弱である。
このような攻撃は、法医学的分類器による検出を回避できるが、注意深い人間の検査によって検出可能な可視的ノイズパターンを導入する。
加えて、これらの攻撃は必ずしも真とは限らないターゲットモデルへのアクセスを想定している。
GANの潜伏空間を直接摂動して、法医学的分類を回避できる敵対的な偽の顔を作り出す試みが試みられている。
本研究ではさらに一歩進めて,特定の属性(髪色,目の大きさ,人種,性別など)を用いて,敵対的な偽顔を生成することができることを示した。
この目的を達成するために,不連続表現を持つ最先端生成モデルstyleganを活用し,自然画像の多様体を残さずに様々な修正が可能となる。
本稿では,テキストプロンプトや参照画像によって検索をガイドできるStyleGANの機能空間内で,逆潜時符号を探索するフレームワークを提案する。
また,未知対象モデルにおける転送可能性能を実現するためのメタラーニングに基づく最適化戦略を提案する。
大規模な実験により,提案手法は特定の属性セットに忠実で,法医学的顔分類器を騙すことができる一方で,人間によって検出不能なまま,意味的に操作された逆顔を生成することができることが示された。
コード: https://github.com/koushiksrivats/face_attribute_attack.com The ability of generative models to produce highly realistic synthetic face images has raised security and ethical concerns. As a first line of defense against such fake faces, deep learning based forensic classifiers have been developed. While these forensic models can detect whether a face image is synthetic or real with high accuracy, they are also vulnerable to adversarial attacks. Although such attacks can be highly successful in evading detection by forensic classifiers, they introduce visible noise patterns that are detectable through careful human scrutiny. Additionally, these attacks assume access to the target model(s) which may not always be true. Attempts have been made to directly perturb the latent space of GANs to produce adversarial fake faces that can circumvent forensic classifiers. In this work, we go one step further and show that it is possible to successfully generate adversarial fake faces with a specified set of attributes (e.g., hair color, eye size, race, gender, etc.). To achieve this goal, we leverage the state-of-the-art generative model StyleGAN with disentangled representations, which enables a range of modifications without leaving the manifold of natural images. We propose a framework to search for adversarial latent codes within the feature space of StyleGAN, where the search can be guided either by a text prompt or a reference image. We also propose a meta-learning based optimization strategy to achieve transferable performance on unknown target models. Extensive experiments demonstrate that the proposed approach can produce semantically manipulated adversarial fake faces, which are true to the specified attribute set and can successfully fool forensic face classifiers, while remaining undetectable by humans. Code: https://github.com/koushiksrivats/face_attribute_attack. | 翻訳日:2023-06-23 13:19:29 公開日:2023-06-22 |
# PromptIR:オールインワンのブラインド画像復元のためのプロンプト PromptIR: Prompting for All-in-One Blind Image Restoration ( http://arxiv.org/abs/2306.13090v1 ) ライセンス: Link先を確認 | Vaishnav Potlapalli, Syed Waqas Zamir, Salman Khan, Fahad Shahbaz Khan | (参考訳) 画質の劣化した画像から高品質なクリーンなイメージを復元する。
深層学習に基づく手法は画像復元性能を著しく向上させたが、分解の種類やレベルによって一般化能力は限られている。
これは、特定の分解ごとに個々のモデルをトレーニングし、関連するモデルを適用するために入力劣化タイプを知る必要があるため、実際のアプリケーションを制限する。
本稿では,様々なタイプの画像と劣化レベルを効果的に復元できる,オールインワン画像復元のためのプロンプトIRを提案する。
特に,本手法では,劣化特異的情報をエンコードするプロンプトを用いて,復元ネットワークを動的にガイドする。
これにより,画像のデニュージングやデヘイジング,デヘイジングといった最先端の成果を保ちながら,異なる劣化タイプとレベルに一般化することができる。
全体的に、prompirは汎用的で効率的なプラグインモジュールを提供するが、軽量なプロンプトはほとんどなく、イメージに存在する腐敗に関する事前情報なしで、さまざまなタイプのイメージや劣化レベルを復元することができる。
私たちのコードと事前訓練済みのモデルはここで利用可能です。 Image restoration involves recovering a high-quality clean image from its degraded version. Deep learning-based methods have significantly improved image restoration performance, however, they have limited generalization ability to different degradation types and levels. This restricts their real-world application since it requires training individual models for each specific degradation and knowing the input degradation type to apply the relevant model. We present a prompt-based learning approach, PromptIR, for All-In-One image restoration that can effectively restore images from various types and levels of degradation. In particular, our method uses prompts to encode degradation-specific information, which is then used to dynamically guide the restoration network. This allows our method to generalize to different degradation types and levels, while still achieving state-of-the-art results on image denoising, deraining, and dehazing. Overall, PromptIR offers a generic and efficient plugin module with few lightweight prompts that can be used to restore images of various types and levels of degradation with no prior information on the corruptions present in the image. Our code and pretrained models are available here: https://github.com/va1shn9v/PromptIR | 翻訳日:2023-06-23 13:18:59 公開日:2023-06-22 |
# 軌道重み付けによるオフライン強化学習データセットの活用 Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory Weighting ( http://arxiv.org/abs/2306.13085v1 ) ライセンス: Link先を確認 | Zhang-Wei Hong, Pulkit Agrawal, R\'emi Tachet des Combes, Romain Laroche | (参考訳) ほとんどのオフライン強化学習(rl)アルゴリズムは、(1)データセットを収集した行動ポリシーに対する期待性能向上と、(2)引き起こされた状態行動占有の分散性に起因するリスクとのトレードオフを最大化する目標ポリシーを返す。
対象ポリシのパフォーマンスは,行動ポリシのパフォーマンスと強く関連しており,したがって,データセットの軌道戻り分布に強く関連している。
主に低反転軌道と小逆軌道からなる混合データセットにおいて、最先端のオフラインRLアルゴリズムは低反転軌道によって過度に抑制され、高い性能のトラジェクトリを最大限に活用できないことを示す。
この問題を克服するために,確率的初期状態を持つ決定論的mdpでは,データセットサンプリングを重み付けして,行動ポリシーがリターンの高い人工データセットを誘導できることを示した。
この再加重サンプリング戦略は任意のオフラインRLアルゴリズムと組み合わせることができる。
さらに,行動ポリシーよりも性能向上の機会が,データセット内の軌道の戻り値の正の方向のばらつきと相関していることを解析した。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないことを経験的に示しています。
さらに, 理論的制限にもかかわらず, 確率的環境下でのアプローチが有効であることを示す。
コードはhttps://github.com/improbable-ai/harness-offline-rlで入手できる。 Most offline reinforcement learning (RL) algorithms return a target policy maximizing a trade-off between (1) the expected performance gain over the behavior policy that collected the dataset, and (2) the risk stemming from the out-of-distribution-ness of the induced state-action occupancy. It follows that the performance of the target policy is strongly related to the performance of the behavior policy and, thus, the trajectory return distribution of the dataset. We show that in mixed datasets consisting of mostly low-return trajectories and minor high-return trajectories, state-of-the-art offline RL algorithms are overly restrained by low-return trajectories and fail to exploit high-performing trajectories to the fullest. To overcome this issue, we show that, in deterministic MDPs with stochastic initial states, the dataset sampling can be re-weighted to induce an artificial dataset whose behavior policy has a higher return. This re-weighted sampling strategy may be combined with any offline RL algorithm. We further analyze that the opportunity for performance improvement over the behavior policy correlates with the positive-sided variance of the returns of the trajectories in the dataset. We empirically show that while CQL, IQL, and TD3+BC achieve only a part of this potential policy improvement, these same algorithms combined with our reweighted sampling strategy fully exploit the dataset. Furthermore, we empirically demonstrate that, despite its theoretical limitation, the approach may still be efficient in stochastic environments. The code is available at https://github.com/Improbable-AI/harness-offline-rl. | 翻訳日:2023-06-23 13:18:36 公開日:2023-06-22 |
# ユーラー半金属中の障害誘起トポロジカル量子相転移 Disorder-induced topological quantum phase transitions in Euler semimetals ( http://arxiv.org/abs/2306.13084v1 ) ライセンス: Link先を確認 | Wojciech J. Jankowski, Mohammedreza Noormandipour, Adrien Bouhon, Robert-Jan Slager | (参考訳) 非自明なオイラークラスを持つシステムにおける障害の影響について検討する。
これらの最近提案された多重ギャップ位相は、孤立したバンド部分空間内で安定なペアを誘導するために異なるバンドの間にある非アベル帯帯ノードをブレイディングすることによって生じるため、遷移点よりも金属に分解する有限臨界位相を含む新しい性質は、基礎となる$C_2\cal{T}$または$\cal{P}\cal{T}$対称性を平均で保存するときに期待できる。
複雑な数値計算を用いて,種々の疾患に対する状態の平均密度と導電率の変化を評価することにより,関連するトポロジーのロバスト性を検証する。
対応する量子臨界点に関するスケーリング解析を実行すると、2次元パーコレーションモデルに関するオイラー保護位相に対して$\nu = 1.4 \pm 0.1$の局所化長指数に対して普遍性を求める。
一般に、焼成障害はオイラー半金属を臨界金属相へと誘導する。
最後に、磁気障害は、オイラー不変量の初期値から決定される局所チャーン数を用いて、量子異常ホールプラケットへの位相遷移を誘導できることを示す。 We study the effect of disorder in systems having a non-trivial Euler class. As these recently proposed multi-gap topological phases come about by braiding non-Abelian charged band nodes residing between different bands to induce stable pairs within isolated band subspaces, novel properties that include a finite critical phase under the debraiding to a metal rather than a transition point and a modified stability may be expected when the disorder preserves the underlying $C_2\cal{T}$ or $\cal{P}\cal{T}$ symmetry on average. Employing elaborate numerical computations, we verify the robustness of associated topology by evaluating the changes in the average densities of states and conductivities for different types of disorders. Upon performing a scaling analysis around the corresponding quantum critical points we retrieve a universality for the localization length exponent of $\nu = 1.4 \pm 0.1$ for Euler-protected phases, relating to 2D percolation models. We generically find that quenched disorder drives Euler semimetals into critical metallic phases. Finally, we show that magnetic disorder can also induce topological transitions to quantum anomalous Hall plaquettes with local Chern numbers determined by the initial value of the Euler invariant. | 翻訳日:2023-06-23 13:18:08 公開日:2023-06-22 |
# 拡散モデルを用いた単一画像の連続レイアウト編集 Continuous Layout Editing of Single Images with Diffusion Models ( http://arxiv.org/abs/2306.13078v1 ) ライセンス: Link先を確認 | Zhiyuan Zhang, Zhitong Huang, Jing Liao | (参考訳) 近年の大規模テキスト・画像拡散モデルの進歩は画像編集における多くの応用を可能にしている。
しかし、これらの方法では、既存の単一の画像のレイアウトを編集することはできない。
このギャップに対処するために,視覚特性を維持しながら1つの画像のレイアウト編集を行うための最初のフレームワークを提案する。
我々のアプローチは2つの主要なモジュールによって達成される。
まず、画像内の複数のオブジェクトの特性を保存するため、異なるオブジェクトの概念を分離し、マスク付きテキスト反転と呼ばれる新しい方法を用いて、それらを別々のテキストトークンに埋め込む。
次に,事前学習した拡散モデルのレイアウト制御を行うためのトレーニングフリーな最適化手法を提案する。
既存の画像のレイアウトを編集する最初のフレームワークとして,提案手法が有効であることを実証し,このタスクをサポートするために修正された他のベースラインよりも優れていることを示す。
私たちのコードは受理後無料で公開されます。 Recent advancements in large-scale text-to-image diffusion models have enabled many applications in image editing. However, none of these methods have been able to edit the layout of single existing images. To address this gap, we propose the first framework for layout editing of a single image while preserving its visual properties, thus allowing for continuous editing on a single image. Our approach is achieved through two key modules. First, to preserve the characteristics of multiple objects within an image, we disentangle the concepts of different objects and embed them into separate textual tokens using a novel method called masked textual inversion. Next, we propose a training-free optimization method to perform layout control for a pre-trained diffusion model, which allows us to regenerate images with learned concepts and align them with user-specified layouts. As the first framework to edit the layout of existing images, we demonstrate that our method is effective and outperforms other baselines that were modified to support this task. Our code will be freely available for public use upon acceptance. | 翻訳日:2023-06-23 13:17:41 公開日:2023-06-22 |
# マルチモーダル感情認識のための時間モデルの比較 A Comparison of Time-based Models for Multimodal Emotion Recognition ( http://arxiv.org/abs/2306.13076v1 ) ライセンス: Link先を確認 | Ege Kesim, Selahattin Serdar Helli, Sena Nur Cavsak | (参考訳) 感情認識は人間とコンピュータの相互作用の分野で重要な研究トピックとなっている。
表情の分析と6つの基本的な感情の分類を中心にした感情理解のための音声とビデオの研究
本研究では,マルチモーダル感情認識における異なるシーケンスモデルの性能を比較した。
音と画像はまず多層CNNモデルにより処理され、これらのモデルの出力は様々なシーケンスモデルに供給された。
シーケンスモデルはGRU、Transformer、LSTM、Max Poolingである。
各モデルの精度,精度,F1スコア値を算出した。
実験ではマルチモーダル CREMA-D データセットが使用された。
crema-dデータセットの比較の結果、gruベースのアーキテクチャと0.640のアーキテクチャはf1スコア、lstmベースのアーキテクチャは0.699の精度メトリック、感度は0.620のmax poolingベースのアーキテクチャで時間とともに最高の結果を示した。
その結果、シーケンスモデルが互いに近いパフォーマンスを比較することが観察されている。 Emotion recognition has become an important research topic in the field of human-computer interaction. Studies on sound and videos to understand emotions focused mainly on analyzing facial expressions and classified 6 basic emotions. In this study, the performance of different sequence models in multi-modal emotion recognition was compared. The sound and images were first processed by multi-layered CNN models, and the outputs of these models were fed into various sequence models. The sequence model is GRU, Transformer, LSTM and Max Pooling. Accuracy, precision, and F1 Score values of all models were calculated. The multi-modal CREMA-D dataset was used in the experiments. As a result of the comparison of the CREMA-D dataset, GRU-based architecture with 0.640 showed the best result in F1 score, LSTM-based architecture with 0.699 in precision metric, while sensitivity showed the best results over time with Max Pooling-based architecture with 0.620. As a result, it has been observed that the sequence models compare performances close to each other. | 翻訳日:2023-06-23 13:17:25 公開日:2023-06-22 |
# 2000-2020年度の放射線科学におけるNCIからの半自動研究トピック抽出と動向 Semi-automated extraction of research topics and trends from NCI funding in radiological sciences from 2000-2020 ( http://arxiv.org/abs/2306.13075v1 ) ライセンス: Link先を確認 | Mark Nguyen, Peter Beidler, Joseph Tsai, August Anderson, Daniel Chen, Paul Kinahan, John Kang | (参考訳) 公的資金による研究におけるトピックやトレンドに関する調査者、資金提供者、公的な欲求知識は、現在手動分類における取り組みは、規模や理解において限られている。
我々は,研究トピックを抽出・命名するための半自動アプローチを開発し,この手法を21年間にわたる放射線科学におけるNCI資金の1.9億ドルに応用し,マイクロ・マクロ研究トピックと資金調達トレンドを判定した。
提案手法は, 既存のバイオメディカルな単語埋め込みの逐次クラスタリング, 対象物の専門家による命名, および個々のトピック上のマクロスケールにおけるトレンドの可視化に依存する。
15と60のクラスタを対象とし,2Dプロジェクション法により物理生物学と治療診断の2つの主要な軸が明らかとなった。
我々のデータセットでは、治療と物理学に基づく研究の資金が、それぞれ診断と生物学に基づく研究を上回っていることがわかった。
これらの結果が,(1)資金配分の適切性に関する資金提供者への洞察を与え,(2)作業の文脈化と近隣の研究領域の探索を支援するとともに,(3)税金の配分先を住民に確認できるようにすることを期待する。 Investigators, funders, and the public desire knowledge on topics and trends in publicly funded research but current efforts in manual categorization are limited in scale and understanding. We developed a semi-automated approach to extract and name research topics, and applied this to \$1.9B of NCI funding over 21 years in the radiological sciences to determine micro- and macro-scale research topics and funding trends. Our method relies on sequential clustering of existing biomedical-based word embeddings, naming using subject matter experts, and visualization to discover trends at a macroscopic scale above individual topics. We present results using 15 and 60 cluster topics, where we found that 2D projection of grant embeddings reveals two dominant axes: physics-biology and therapeutic-diagnostic. For our dataset, we found that funding for therapeutics- and physics-based research have outpaced diagnostics- and biology-based research, respectively. We hope these results may (1) give insight to funders on the appropriateness of their funding allocation, (2) assist investigators in contextualizing their work and explore neighboring research domains, and (3) allow the public to review where their tax dollars are being allocated. | 翻訳日:2023-06-23 13:17:09 公開日:2023-06-22 |
# スポーツにおける多目的追跡のための反復的スケールアップIoUとディープ・フィーチャーズ・アソシエーション Iterative Scale-Up ExpansionIoU and Deep Features Association for Multi-Object Tracking in Sports ( http://arxiv.org/abs/2306.13074v1 ) ライセンス: Link先を確認 | Hsiang-Wei Huang, Cheng-Yen Yang, Jenq-Neng Hwang, Chung-I Huang | (参考訳) マルチオブジェクトトラッキングアルゴリズムは、近年のオブジェクト検出の発展により、大幅に進歩している。
しかし、既存のほとんどの手法は、比較的単純で規則的な動きパターンを示す歩行者や車両の追跡に重点を置いている。
その結果、マルチスロットトラッキングのような不規則または非線形な動きを伴うターゲットの追跡に対処するアルゴリズムが不足している。
さらに、一般的な追跡アルゴリズムは、物体の動きがカルマンフィルタの線形運動仮定と矛盾する場合に物体を追跡するのに失敗する物体の運動モデリングにカルマンフィルタに依存することが多い。
そこで我々は,多対象追跡のためのIterative Scale-Up ExpansionIoUとDeep Featuresという,オンラインかつ堅牢な多対象追跡手法を提案する。
従来の手法とは異なり、カルマンフィルタの使用を放棄し、反復スケールアップ拡張IoUの利用を提案する。
このアプローチは、追加のトレーニングデータを必要としたり、より堅牢な検出器を採用することなく、他の外観に基づく手法と比較して計算コストを低く抑えながら、優れたトラッキング性能を実現する。
提案手法は不規則な運動物体の追跡において顕著な効果を示し, HOTAの75.3%のスコアを得た。
これはsportsmotデータセット上の最先端のオンライントラッキングアルゴリズムを上回り、様々なスポーツシナリオをカバーする。 Multi-object tracking algorithms have made significant advancements due to the recent developments in object detection. However, most existing methods primarily focus on tracking pedestrians or vehicles, which exhibit relatively simple and regular motion patterns. Consequently, there is a scarcity of algorithms that address the tracking of targets with irregular or non-linear motion, such as multi-athlete tracking. Furthermore, popular tracking algorithms often rely on the Kalman filter for object motion modeling, which fails to track objects when their motion contradicts the linear motion assumption of the Kalman filter. Due to this reason, we proposed a novel online and robust multi-object tracking approach, named Iterative Scale-Up ExpansionIoU and Deep Features for multi-object tracking. Unlike conventional methods, we abandon the use of the Kalman filter and propose utilizing the iterative scale-up expansion IoU. This approach achieves superior tracking performance without requiring additional training data or adopting a more robust detector, all while maintaining a lower computational cost compared to other appearance-based methods. Our proposed method demonstrates remarkable effectiveness in tracking irregular motion objects, achieving a score of 75.3% in HOTA. It outperforms all state-of-the-art online tracking algorithms on the SportsMOT dataset, covering various kinds of sport scenarios. | 翻訳日:2023-06-23 13:16:46 公開日:2023-06-22 |
# ユニタリ複雑性とウルマン変換問題 Unitary Complexity and the Uhlmann Transformation Problem ( http://arxiv.org/abs/2306.13073v1 ) ライセンス: Link先を確認 | John Bostanci, Yuval Efron, Tony Metger, Alexander Poremba, Luowen Qian, Henry Yuen | (参考訳) 量子情報の圧縮や量子コミットメントの破りといった状態変換問題は、基本的な量子タスクである。
しかし、それらの計算困難さは古典的な入力と出力を持つタスクに焦点を当てた従来の複雑性理論では容易には特徴づけられない。
このような状態変換タスクの複雑性を研究するために,リダクションの概念やユニタリ複雑性クラスを含むユニタリ合成問題の枠組みを提案する。
このフレームワークを使用して、ある絡み合った状態をローカル操作によって別の状態に変換する複雑さを研究する。
これをウルマン変換問題(uulmann transformation problem, uhlmann's theorem)と定式化する。
次に,ユルマン変換問題,多項式空間量子計算,ゼロ知識プロトコルの複雑さに関する構造的結果を示す。
uhlmann変換問題により、ノイズのある量子チャネルの復号化、検証可能な量子暗号の仮定の破断、量子インタラクティブな証明における最適証明戦略の実装、ブラックホールのホーキング放射の復号など、量子情報処理における様々なタスクの複雑さを特徴付けることができる。
そこで我々は,多くの自然量子情報処理タスクの計算複雑性を研究するための新しい手法を提案する。 State transformation problems such as compressing quantum information or breaking quantum commitments are fundamental quantum tasks. However, their computational difficulty cannot easily be characterized using traditional complexity theory, which focuses on tasks with classical inputs and outputs. To study the complexity of such state transformation tasks, we introduce a framework for unitary synthesis problems, including notions of reductions and unitary complexity classes. We use this framework to study the complexity of transforming one entangled state into another via local operations. We formalize this as the Uhlmann Transformation Problem, an algorithmic version of Uhlmann's theorem. Then, we prove structural results relating the complexity of the Uhlmann Transformation Problem, polynomial space quantum computation, and zero knowledge protocols. The Uhlmann Transformation Problem allows us to characterize the complexity of a variety of tasks in quantum information processing, including decoding noisy quantum channels, breaking falsifiable quantum cryptographic assumptions, implementing optimal prover strategies in quantum interactive proofs, and decoding the Hawking radiation of black holes. Our framework for unitary complexity thus provides new avenues for studying the computational complexity of many natural quantum information processing tasks. | 翻訳日:2023-06-23 13:16:22 公開日:2023-06-22 |
# quilt-1m:病理組織学のための100万の画像テキストペア Quilt-1M: One Million Image-Text Pairs for Histopathology ( http://arxiv.org/abs/2306.11207v2 ) ライセンス: Link先を確認 | Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay Krishna, Linda Shapiro | (参考訳) マルチモーダルアプリケーションにおける最近の加速は、画像データとテキストデータをオンラインで利用できることで実現されている。
しかし、医療分野、特に病理組織学における類似データの不足は、同等の進歩を妨げている。
同様の組織病理学の表現学習を可能にするために、私たちはビデオの未編集リソースであるyoutubeに目を向け、専門家臨床医からの貴重な教育的病理学ビデオ1087ドルを提供した。
YouTubeから、Qultをキュレートする: 768,826ドルの画像とテキストペアからなる大規模なビジョン言語データセット。
quiltは、大規模な言語モデル、手作りのアルゴリズム、人間知識データベース、自動音声認識を含む混合モデルを使用して自動的にキュレートされた。
比較して、最も包括的なデータセットは、約200ドルのサンプルしか収集されなかった。
quiltとtwitter、研究論文、インターネットなど他のソースのデータセットを組み合わせることで、さらに大きなデータセットを作成することができます。
事前学習したCLIPモデルの微調整によりQult-1Mの有効性を示す。
我々のモデルは、ゼロショットおよびリニアプローブタスクの両方で最先端のモデルより優れており、新しい病理像を、異なる8ドルのサブ病理とクロスモーダル検索タスクからなる、13ドルの多様なパッチレベルのデータセットに分類する。 Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has halted comparable progress. To enable similar representation learning for histopathology, we turn to YouTube, an untapped resource of videos, offering $1,087$ hours of valuable educational histopathology videos from expert clinicians. From YouTube, we curate Quilt: a large-scale vision-language dataset consisting of $768,826$ image and text pairs. Quilt was automatically curated using a mixture of models, including large language models, handcrafted algorithms, human knowledge databases, and automatic speech recognition. In comparison, the most comprehensive datasets curated for histopathology amass only around $200$K samples. We combine Quilt with datasets from other sources, including Twitter, research papers, and the internet in general, to create an even larger dataset: Quilt-1M, with $1$M paired image-text samples, marking it as the largest vision-language histopathology dataset to date. We demonstrate the value of Quilt-1M by fine-tuning a pre-trained CLIP model. Our model outperforms state-of-the-art models on both zero-shot and linear probing tasks for classifying new histopathology images across $13$ diverse patch-level datasets of $8$ different sub-pathologies and cross-modal retrieval tasks. | 翻訳日:2023-06-23 11:33:02 公開日:2023-06-22 |
# 強化学習技術を用いた変分量子状態対角化の強化 Enhancing variational quantum state diagonalization using reinforcement learning techniques ( http://arxiv.org/abs/2306.11086v2 ) ライセンス: Link先を確認 | Akash Kundu, Przemys{\l}aw Bede{\l}ek, Mateusz Ostaszewski, Onur Danaci, Yash J. Patel, Vedran Dunjko, Jaros{\l}aw A. Miszczak | (参考訳) NISQコンピュータの適用には、変分量子アルゴリズムの開発が不可欠である。
このようなアルゴリズムは、短期的なハードウェア上で実装しやすい短い量子回路を必要とするため、多くの方法が開発されている。
特に興味深いのは、重要なアルゴリズムのサブルーチンを構成する変分対角化法であり、量子状態に符号化されたデータを扱うために直接使用できる。
特に、システムの絡み合い特性や量子機械学習アルゴリズムなどの量子状態の特徴を識別するために応用することができる。
本研究では,量子状態対角化タスクにおいて必要となる非常に浅い量子回路を,強化学習を利用して設計する問題に取り組む。
そこで我々は,強化学習手法を用いて回路深度最適化の問題に対処するために,新しい符号化手法を用いる。
本手法は,少数のゲートを用いて,対角化タスクに対して確固たる近似を与えることを示す。
強化学習法により提案される回路は、標準的な変分量子状態対角化アルゴリズムよりも浅く、ハードウェア能力によって量子回路の深さが制限される状況で使用できる。 The development of variational quantum algorithms is crucial for the application of NISQ computers. Such algorithms require short quantum circuits, which are more amenable to implementation on near-term hardware, and many such methods have been developed. One of particular interest is the so-called the variational diagonalization method, which constitutes an important algorithmic subroutine, and it can be used directly for working with data encoded in quantum states. In particular, it can be applied to discern the features of quantum states, such as entanglement properties of a system, or in quantum machine learning algorithms. In this work, we tackle the problem of designing a very shallow quantum circuit, required in the quantum state diagonalization task, by utilizing reinforcement learning. To achieve this, we utilize a novel encoding method that can be used to tackle the problem of circuit depth optimization using a reinforcement learning approach. We demonstrate that our approach provides a solid approximation to the diagonalization task while using a small number of gates. The circuits proposed by the reinforcement learning methods are shallower than the standard variational quantum state diagonalization algorithm, and thus can be used in situations where the depth of quantum circuits is limited by the hardware capabilities. | 翻訳日:2023-06-23 11:32:40 公開日:2023-06-22 |
# 5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$の周波数測定とSrを用いたキングプロットの非線形性の観測 Frequency measurements of $5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$ and observation of nonlinearities in King plot with Sr ( http://arxiv.org/abs/2306.11082v3 ) ライセンス: Link先を確認 | S. Zhang, B. T. Tiwari, S. Ganesh, and Y. Singh | (参考訳) 5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$の絶対周波数を4つの安定Sr同位体すべてに対して、共振誘起分光法を用いて、$\sim$25 kHzの精度で測定した。
この遷移の同位体シフトと結合線上の既存の測定データを組み合わせることで、Kingプロットは5.2$\sigma$レベルでの線形性から逸脱することを明らかにする。 We report the first precision measurement of the absolute frequency of $5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$ for all four stable Sr isotopes with an accuracy of $\sim$25 kHz employing repumping induced spectroscopy. By combining the isotope shifts of this transition with the existing measurement data on the intercombination line, the King plot is established which reveals a deviation from the linearity at the 5.2$\sigma$ level. | 翻訳日:2023-06-23 11:32:22 公開日:2023-06-22 |
# hrnetによるリハビリテーションモニタリングシステム A HRNet-based Rehabilitation Monitoring System ( http://arxiv.org/abs/2306.10756v2 ) ライセンス: Link先を確認 | Yi-Ching Hung, Yu-Qing Jiang, Fong-Syuan Liou, Yu-Hsuan Tsao, Zi-Cing Chiang, MIn-Te Sun | (参考訳) リハビリテーション治療は、マイナースポーツや職業的外傷の治癒に役立つ。
従来のリハビリテーションプロセスでは、セラピストは患者に特定のアクションを割り当てて病院の訪問の間に実行し、患者は正しいアクションを記憶し、それを実行するためのスケジュールに依存する。
残念なことに、多くの患者はアクションを忘れたり、詳細でアクションを思い出すのに失敗する。
その結果、リハビリテーション治療が阻害されるか、最悪の場合、不適切な行動によって追加の怪我を負う可能性がある。
これらの課題を解決するため,患者のスマートフォンを介して患者の行動をいつ実行すべきかを患者に知らせるHRNetベースのリハビリテーション監視システムを提案する。
さらに、セラピストが患者のリハビリテーションの進捗を監視するのに役立つ。
私たちのシステムはiOSアプリとサーバ側のいくつかのコンポーネントで構成されています。
アプリはアクションビデオの表示と収集を担当している。
サーバは、各アクションの反復回数を追跡するために、セラピストのアクションとビデオ中の患者の類似度スコアを算出する。
これらの統計は、患者とセラピストの両方に表示される。
実験により, 類似度計算のF1スコアは0.9以上であり, 繰り返し回数のソフト精度は90%以上であった。 The rehabilitation treatment helps to heal minor sports and occupational injuries. In a traditional rehabilitation process, a therapist will assign certain actions to a patient to perform in between hospital visits, and it will rely on the patient to remember actions correctly and the schedule to perform them. Unfortunately, many patients forget to perform actions or fail to recall actions in detail. As a consequence, the rehabilitation treatment is hampered or, in the worst case, the patient may suffer from additional injury caused by performing incorrect actions. To resolve these issues, we propose a HRNet-based rehabilitation monitoring system, which can remind a patient when to perform the actions and display the actions for the patient to follow via the patient's smartphone. In addition, it helps the therapist to monitor the progress of the rehabilitation for the patient. Our system consists of an iOS app and several components at the server side. The app is in charge of displaying and collecting action videos. The server computes the similarity score between the therapist's actions and the patient's in the videos to keep track of the number of repetitions of each action. Theses stats will be shown to both of the patient and therapist. The extensive experiments show that the F1-Score of the similarity calculation is as high as 0.9 and the soft accuracy of the number of repetitions is higher than 90%. | 翻訳日:2023-06-23 11:32:07 公開日:2023-06-22 |
# clara: 信頼できる対話型ロボットエージェントのためのユーザコマンドの分類と解除 CLARA: Classifying and Disambiguating User Commands for Reliable Interactive Robotic Agents ( http://arxiv.org/abs/2306.10376v3 ) ライセンス: Link先を確認 | Jeongeun Park, Seungwon Lim, Joonhyung Lee, Sangbeom Park, Minsuk Chang, Youngjae Yu and Sungjoon Choi | (参考訳) 本稿では,大規模言語モデル(LLM)を用いた対話型ロボットエージェントの文脈において,与えられたユーザコマンドが明確であるか,曖昧であるか,あるいは不可能であるかを推定することに焦点を当てる。
この問題に対処するために,まず,コマンドが確実かどうか(明確か)を分類するためのllmsの不確実性推定法(曖昧か不可能か)を提案する。
コマンドが不確実であると分類されると、ゼロショット方式で状況認識コンテキストでLLMを活用する不明瞭なコマンドと非実用的なコマンドとを区別する。
あいまいなコマンドに対しては、質問生成を通じてLLMと対話することで、コマンドを曖昧にします。
我々は、与えられたコマンドを適切に認識すると、ロボットの誤動作や望ましくない動作が減少し、対話型ロボットエージェントの信頼性が向上すると信じている。
我々は,ロボットの状況認識のためのデータセットを提示する。2つの高レベルコマンド,シーン記述,コマンドタイプのラベル(明快,曖昧,実行不可能)からなる。
提案手法は,テーブルトップのピック・アンド・プレースシミュレーションを用いて検証した。
最後に,実世界のロボットインタラクション実験,すなわちハンドオーバシナリオにおいて提案手法を実証する。 In this paper, we focus on inferring whether the given user command is clear, ambiguous, or infeasible in the context of interactive robotic agents utilizing large language models (LLMs). To tackle this problem, we first present an uncertainty estimation method for LLMs to classify whether the command is certain (i.e., clear) or not (i.e., ambiguous or infeasible). Once the command is classified as uncertain, we further distinguish it between ambiguous or infeasible commands leveraging LLMs with situational aware context in a zero-shot manner. For ambiguous commands, we disambiguate the command by interacting with users via question generation with LLMs. We believe that proper recognition of the given commands could lead to a decrease in malfunction and undesired actions of the robot, enhancing the reliability of interactive robot agents. We present a dataset for robotic situational awareness, consisting pair of high-level commands, scene descriptions, and labels of command type (i.e., clear, ambiguous, or infeasible). We validate the proposed method on the collected dataset, pick-and-place tabletop simulation. Finally, we demonstrate the proposed approach in real-world human-robot interaction experiments, i.e., handover scenarios. | 翻訳日:2023-06-23 11:31:47 公開日:2023-06-22 |
# enlighten anything: セグメンテーションが低光度画像強調を実現する場合 Enlighten Anything: When Segment Anything Model Meets Low-Light Image Enhancement ( http://arxiv.org/abs/2306.10286v3 ) ライセンス: Link先を確認 | Qihan Zhao, Xiaofeng Zhang, Hao Tang, Chaochen Gu, Shanying Zhu | (参考訳) 画像復元は低レベルの視覚的タスクであり、ほとんどのCNN手法はブラックボックスとして設計されており、透明性と固有の美学に欠ける。
多くの教師なしのアプローチは、低照度シーンにおける可視情報の劣化を無視しており、これは補完的な情報の集約に深刻な影響を与え、極端な状況下ではフュージョンアルゴリズムが十分に融合結果を生成することができない。
本稿では,SAMセグメンテーションのセグメンテーションの意味的意図を低照度画像に拡張・融合し,視覚的知覚に優れた融合画像を得るエンライエンアリングを提案する。
教師なし学習の一般化能力は大幅に向上し,lolデータセットを用いた実験により,ベースラインよりもpsnrでは3db,ssimでは8dbの改善が確認された。
SAMのゼロショット学習は、教師なし低照度向上のための強力な補助を提供する。
Enlighten Anythingのソースコードはhttps://github.com/zhangbaijin/enlighten-anythingから取得できる。 Image restoration is a low-level visual task, and most CNN methods are designed as black boxes, lacking transparency and intrinsic aesthetics. Many unsupervised approaches ignore the degradation of visible information in low-light scenes, which will seriously affect the aggregation of complementary information and also make the fusion algorithm unable to produce satisfactory fusion results under extreme conditions. In this paper, we propose Enlighten-anything, which is able to enhance and fuse the semantic intent of SAM segmentation with low-light images to obtain fused images with good visual perception. The generalization ability of unsupervised learning is greatly improved, and experiments on LOL dataset are conducted to show that our method improves 3db in PSNR over baseline and 8 in SSIM. Zero-shot learning of SAM introduces a powerful aid for unsupervised low-light enhancement. The source code of Enlighten Anything can be obtained from https://github.com/zhangbaijin/enlighten-anything | 翻訳日:2023-06-23 11:31:30 公開日:2023-06-22 |
# コード生成のためのGPT自己修復 Demystifying GPT Self-Repair for Code Generation ( http://arxiv.org/abs/2306.09896v3 ) ライセンス: Link先を確認 | Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama | (参考訳) 大規模言語モデル(LLM)はコード生成に顕著な適性を示しているが、それでも難しいプログラミングタスクに苦戦している。
自己修復(Self-repair) — モデルが自身のコードでエラーをデバッグし修正する — は、最近、これらの設定のパフォーマンスを向上する一般的な方法になっている。
しかし、どのようにして自己修復が効果的に機能するかに関するごく限られた研究だけが文献に存在し、同じモデルによってコードが生成されたときにコードがなぜ間違っているのかを、モデルが正確にフィードバックできるかどうか疑問に思うかもしれない。
本稿では,GPT-3.5とGPT-4がAPPS上で自己修復を行う能力について分析する。
そこで我々はまず,モデルからサンプリングされたトークンの総数に対してタスクの通過率を測定するpass@tと呼ばれる新しい評価戦略を確立し,純粋にサンプリングベースのアプローチと公正な比較を可能にする。
この評価戦略により, GPT-4にのみ自己修復の有効性が認められる。
また, GPT-4 を用いて GPT-3.5 で生成されたプログラムにフィードバックを与え, 専門家のプログラムに GPT-4 で生成されたプログラムにフィードバックを与えると, 大幅な性能向上が期待できる。 Large Language Models (LLMs) have shown remarkable aptitude in code generation but still struggle on challenging programming tasks. Self-repair -- in which the model debugs and fixes mistakes in its own code -- has recently become a popular way to boost performance in these settings. However, only very limited studies on how and when self-repair works effectively exist in the literature, and one might wonder to what extent a model is really capable of providing accurate feedback on why the code is wrong when that code was generated by the same model. In this paper, we analyze GPT-3.5 and GPT-4's ability to perform self-repair on APPS, a challenging dataset consisting of diverse coding challenges. To do so, we first establish a new evaluation strategy dubbed pass@t that measures the pass rate of the tasks against the total number of tokens sampled from the model, enabling a fair comparison to purely sampling-based approaches. With this evaluation strategy, we find that the effectiveness of self-repair is only seen in GPT-4. We also observe that self-repair is bottlenecked by the feedback stage; using GPT-4 to give feedback on the programs generated by GPT-3.5 and using expert human programmers to give feedback on the programs generated by GPT-4, we unlock significant performance gains. | 翻訳日:2023-06-23 11:31:11 公開日:2023-06-22 |
# ConvXAI:人間とAIの科学的記述を支援するための会話による異種AI説明の提供 ConvXAI: Delivering Heterogeneous AI Explanations via Conversations to Support Human-AI Scientific Writing ( http://arxiv.org/abs/2305.09770v4 ) ライセンス: Link先を確認 | Hua Shen, Chieh-Yang Huang, Tongshuang Wu, Ting-Hao 'Kenneth' Huang | (参考訳) XAIメソッドの急激な収集にもかかわらず、ユーザーは依然として必要なAI説明を得るのに苦労している。
従来の研究では、チャットボットは動的ソリューションとして提案されていたが、現実的な人間のニーズに対する会話型XAIエージェントの効果的な設計は未検討のままである。
本稿では,AIを活用した科学書記タスクのための会話型XAIについて述べる。
人間の言語理論と形成的研究から,「多面的」,「制御可能性」,「混入的」,「文脈認識的ドリルダウン」の4つの設計根拠を同定した。
我々はそれらをインタラクティブなプロトタイプであるConvXAIに組み込み、対話を通じて科学的記述のための異種AI説明を容易にする。
21人のユーザによる2つの研究において、ConvXAIは、人間の知覚する理解と記述の改善にGUIベースのベースラインを上回ります。
本稿は,ConvXAIとのインタラクションにおける実践的人間利用パターンについても論じる。 Despite a surge collection of XAI methods, users still struggle to obtain required AI explanations. Previous research suggests chatbots as dynamic solutions, but the effective design of conversational XAI agents for practical human needs remains under-explored. This paper focuses on Conversational XAI for AI-assisted scientific writing tasks. Drawing from human linguistic theories and formative studies, we identify four design rationales: "multifaceted", "controllability", "mix-initiative", "context-aware drill-down". We incorporate them into an interactive prototype, ConvXAI, which facilitates heterogeneous AI explanations for scientific writing through dialogue. In two studies with 21 users, ConvXAI outperforms a GUI-based baseline on improving human-perceived understanding and writing improvement. The paper further discusses the practical human usage patterns in interacting with ConvXAI for scientific co-writing. | 翻訳日:2023-06-23 11:30:45 公開日:2023-06-22 |
# PhAST:加速触媒設計のための物理認識,スケーラブル,タスク固有GNN PhAST: Physics-Aware, Scalable, and Task-specific GNNs for Accelerated Catalyst Design ( http://arxiv.org/abs/2211.12020v3 ) ライセンス: Link先を確認 | Alexandre Duval, Victor Schmidt, Santiago Miret, Yoshua Bengio, Alex Hern\'andez-Garc\'ia, David Rolnick | (参考訳) 気候変動の緩和には、低炭素エネルギーへの急速な移行が必要である。
触媒材料は、再生可能エネルギー貯蔵や電気燃料合成など、多くの産業プロセスにおける電気化学反応において重要な役割を担っている。
このような活性に費やされるエネルギーを減らすために、電気化学反応を駆動するより効率的な触媒を迅速に発見する必要がある。
機械学習(ML)は、大量のデータから材料特性を効率的にモデル化する可能性を秘めている。
この目的のためにopen catalyst project oc20データセットが構築された。
しかし、OC20でトレーニングされたMLモデルは、実用アプリケーションに十分なスケーラビリティや正確性を持っていない。
本稿では,ほとんどのアーキテクチャに適用可能なタスク固有の革新を提案し,計算効率と精度の両立を図る。
これには(1)グラフ作成ステップ、(2)原子表現、(3)エネルギー予測ヘッド、(4)力予測ヘッドの改善が含まれる。
これらのコントリビューションを説明し、複数のアーキテクチャ上でそれらを徹底的に評価する。
全体として,提案したPhASTの改善は,目標タスク/モデルに応じて,計算時間を3~8ドルに分割しながら,エネルギーMAEを4~42$\%に向上させる。
PhASTはCPUトレーニングも可能で、高度に並列化された設定で40$\times$のスピードアップを実現している。
pythonパッケージ: \url{https://phast.readthedocs.io} Mitigating the climate crisis requires a rapid transition towards lower-carbon energy. Catalyst materials play a crucial role in the electrochemical reactions involved in numerous industrial processes key to this transition, such as renewable energy storage and electrofuel synthesis. To reduce the energy spent on such activities, we must quickly discover more efficient catalysts to drive electrochemical reactions. Machine learning (ML) holds the potential to efficiently model materials properties from large amounts of data, accelerating electrocatalyst design. The Open Catalyst Project OC20 dataset was constructed to that end. However, ML models trained on OC20 are still neither scalable nor accurate enough for practical applications. In this paper, we propose task-specific innovations applicable to most architectures, enhancing both computational efficiency and accuracy. This includes improvements in (1) the graph creation step, (2) atom representations, (3) the energy prediction head, and (4) the force prediction head. We describe these contributions and evaluate them thoroughly on multiple architectures. Overall, our proposed PhAST improvements increase energy MAE by 4 to 42$\%$ while dividing compute time by 3 to 8$\times$ depending on the targeted task/model. PhAST also enables CPU training, leading to 40$\times$ speedups in highly parallelized settings. Python package: \url{https://phast.readthedocs.io}. | 翻訳日:2023-06-23 11:30:29 公開日:2023-06-22 |
# 二次バンドのサンプル複雑性:ヘッセン依存境界と最適アルゴリズム Sample Complexity for Quadratic Bandits: Hessian Dependent Bounds and Optimal Algorithms ( http://arxiv.org/abs/2306.12383v2 ) ライセンス: Link先を確認 | Qian Yu, Yining Wang, Baihe Huang, Qi Lei, Jason D. Lee | (参考訳) 確率的ゼロ次最適化において、実用的妥当性の問題は、対象関数の局所幾何を完全に活用する方法を理解することである。
目的関数が二次的となる基本的な設定を考察し、最適なヘッセン依存サンプルの複雑性を初めて厳密に評価する。
私たちの貢献は2倍です。
まず,情報理論的な観点から,探索アルゴリズムと対象関数の幾何との相互作用を捉えたエネルギー割当という概念を導入することで,ヘッセン依存複素性に対する厳密な下界を証明した。
最適エネルギースペクトルを解くことにより、一致する上界を得る。
そして,アルゴリズムにより,全ヘッセンインスタンスの漸近的最適サンプル複雑性を普遍的に達成するヘッセン独立アルゴリズムの存在を示す。
提案アルゴリズムは, トランケーション法により実現された重み付き雑音分布に対して, 最適なサンプル複素量を示す。 In stochastic zeroth-order optimization, a problem of practical relevance is understanding how to fully exploit the local geometry of the underlying objective function. We consider a fundamental setting in which the objective function is quadratic, and provide the first tight characterization of the optimal Hessian-dependent sample complexity. Our contribution is twofold. First, from an information-theoretic point of view, we prove tight lower bounds on Hessian-dependent complexities by introducing a concept called energy allocation, which captures the interaction between the searching algorithm and the geometry of objective functions. A matching upper bound is obtained by solving the optimal energy spectrum. Then, algorithmically, we show the existence of a Hessian-independent algorithm that universally achieves the asymptotic optimal sample complexities for all Hessian instances. The optimal sample complexities achieved by our algorithm remain valid for heavy-tailed noise distributions, which are enabled by a truncation method. | 翻訳日:2023-06-23 11:25:13 公開日:2023-06-22 |
# 深層アンサンブルを超えて:分布シフト下におけるベイズ深層学習の大規模評価 Beyond Deep Ensembles: A Large-Scale Evaluation of Bayesian Deep Learning under Distribution Shift ( http://arxiv.org/abs/2306.12306v2 ) ライセンス: Link先を確認 | Florian Seligmann, Philipp Becker, Michael Volpp, Gerhard Neumann | (参考訳) Bayesian Deep Learning (BDL) は、分布シフトしたデータに対するよく校正された予測を実現するための有望なアプローチである。
それにもかかわらず、最近のSOTA手法を多様で現実的で挑戦的なベンチマークタスクを体系的に評価する大規模な調査は存在しない。
本稿では,BDL研究の現状を明らかにするために,WILDSコレクションから,分散シフトによる一般化能力とキャリブレーションに着目した,挑戦的な分類と回帰作業を含む実世界のデータセットに対する最新のBDLアルゴリズムの評価を行った。
我々は、大規模な、畳み込み、トランスフォーマーベースのニューラルネットワークアーキテクチャでアルゴリズムを比較した。
特に,予測校正誤差の符号付きバージョンについて検討し,メソッドが過度か過度かを明らかにし,メソッドの振舞いに関するさらなる知見を提供する。
さらに,スクラッチからのトレーニングが極めて高価である大規模事前学習モデルに対して,bdlの体系的評価を行った。
最後に,近年のDeep Ensemblesの成功を踏まえ,一般的な単一モード後部近似をアンサンブルを用いて複数のモードに拡張する。
単一モード近似は一般にモデルの一般化能力とキャリブレーションをかなりの差で向上させるが、大きなトランスフォーマーベース言語モデルを微調整する際のアンサンブルの失敗モードも同定する。
この設定では、最終層ベイズ・バイ・バックプロップのような変分推論に基づくアプローチは、SWAGのような現代の近似推論アルゴリズムが最適なキャリブレーションを達成するのに対し、大きなマージンによる精度で他の手法よりも優れている。 Bayesian deep learning (BDL) is a promising approach to achieve well-calibrated predictions on distribution-shifted data. Nevertheless, there exists no large-scale survey that evaluates recent SOTA methods on diverse, realistic, and challenging benchmark tasks in a systematic manner. To provide a clear picture of the current state of BDL research, we evaluate modern BDL algorithms on real-world datasets from the WILDS collection containing challenging classification and regression tasks, with a focus on generalization capability and calibration under distribution shift. We compare the algorithms on a wide range of large, convolutional and transformer-based neural network architectures. In particular, we investigate a signed version of the expected calibration error that reveals whether the methods are over- or under-confident, providing further insight into the behavior of the methods. Further, we provide the first systematic evaluation of BDL for fine-tuning large pre-trained models, where training from scratch is prohibitively expensive. Finally, given the recent success of Deep Ensembles, we extend popular single-mode posterior approximations to multiple modes by the use of ensembles. While we find that ensembling single-mode approximations generally improves the generalization capability and calibration of the models by a significant margin, we also identify a failure mode of ensembles when finetuning large transformer-based language models. In this setting, variational inference based approaches such as last-layer Bayes By Backprop outperform other methods in terms of accuracy by a large margin, while modern approximate inference algorithms such as SWAG achieve the best calibration. | 翻訳日:2023-06-23 11:24:56 公開日:2023-06-22 |
# MR画像における腰椎椎間板分割 : データセットと公開ベンチマーク Lumbar spine segmentation in MR images: a dataset and a public benchmark ( http://arxiv.org/abs/2306.12217v2 ) ライセンス: Link先を確認 | Jasper W. van der Graaf, Miranda L. van Hooff, Constantinus F. M. Buckens, Matthieu Rutten, Job L. C. van Susante, Robert Jan Kroeze, Marinus de Kleuver, Bram van Ginneken, Nikolas Lessmann | (参考訳) 本稿では, 椎間板, 椎間板, 脊柱管を基準とした多中心性腰椎磁気共鳴画像(mri)データセットを提案する。
このデータセットには、腰痛の歴史を持つ218人の患者から447個の矢状T1とT2MRIシリーズが含まれている。
4つの異なる病院から収集され、訓練(179名)と検証(39名)に分けられた。
反復的なデータアノテーションアプローチは、データセットの小さな部分にセグメンテーションアルゴリズムをトレーニングすることで、残りの画像の半自動セグメンテーションを可能にする。
アルゴリズムは初期セグメンテーションを提供し、その後レビューされ、手動で修正され、トレーニングデータに追加された。
本稿では,本アルゴリズムと nnU-Net の基準性能値について比較検討する。
異なるセグメンテーションアルゴリズムを公平に比較できるように、連続的なセグメンテーションチャレンジを設定しました。
本研究は腰椎椎間板分割の分野におけるより広範なコラボレーションを促進し,腰椎mriの診断的価値を向上させる。 This paper presents a large publicly available multi-center lumbar spine magnetic resonance imaging (MRI) dataset with reference segmentations of vertebrae, intervertebral discs (IVDs), and spinal canal. The dataset includes 447 sagittal T1 and T2 MRI series from 218 patients with a history of low back pain. It was collected from four different hospitals and was divided into a training (179 patients) and validation (39 patients) set. An iterative data annotation approach was used by training a segmentation algorithm on a small part of the dataset, enabling semi-automatic segmentation of the remaining images. The algorithm provided an initial segmentation, which was subsequently reviewed, manually corrected, and added to the training data. We provide reference performance values for this baseline algorithm and nnU-Net, which performed comparably. We set up a continuous segmentation challenge to allow for a fair comparison of different segmentation algorithms. This study may encourage wider collaboration in the field of spine segmentation, and improve the diagnostic value of lumbar spine MRI. | 翻訳日:2023-06-23 11:24:08 公開日:2023-06-22 |
# OphGLM:指導と対話に基づく眼科大言語・視覚アシスタントの訓練 OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant based on Instructions and Dialogue ( http://arxiv.org/abs/2306.12174v2 ) ライセンス: Link先を確認 | Weihao Gao, Zhuo Deng, Zhiyuan Niu, Fuju Rong, Chucheng Chen, Zheng Gong, Wenze Zhang, Daimin Xiao, Fang Li, Zhenjie Cao, Zhaoyi Ma, Wenbin Wei, Lan Ma | (参考訳) 大規模マルチモーダル言語モデル (LMM) は一般分野において大きな成功を収めている。
しかし、医用画像とテキストと一般的なウェブコンテンツの間に大きな違いがあるため、医療シナリオにおけるLMMのパフォーマンスは限られている。
眼科では、臨床診断は医療画像の多様性に依存しているが、残念ながら、多様眼科大言語モデルはこれまで研究されていない。
本稿では,眼科大マルチモーダルモデルの研究と構築について述べる。
まず,眼科領域の共通診断と病変の分節化を実現するために,眼底画像を用いて疾患評価と診断パイプラインを構築した。
そこで我々は,疾患関連知識データと実世界の医療対話に基づく,新しい眼科マルチモーダル・インストラクション・フォローおよび対話微調整データセットを構築した。
眼科大言語と視覚アシスタント(ophglm)を完成させるために,大言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
データセット、コード、モデルはhttps://github.com/ML-AILab/OphGLM.comで公開される。 Large multimodal language models (LMMs) have achieved significant success in general domains. However, due to the significant differences between medical images and text and general web content, the performance of LMMs in medical scenarios is limited. In ophthalmology, clinical diagnosis relies on multiple modalities of medical images, but unfortunately, multimodal ophthalmic large language models have not been explored to date. In this paper, we study and construct an ophthalmic large multimodal model. Firstly, we use fundus images as an entry point to build a disease assessment and diagnosis pipeline to achieve common ophthalmic disease diagnosis and lesion segmentation. Then, we establish a new ophthalmic multimodal instruction-following and dialogue fine-tuning dataset based on disease-related knowledge data and publicly available real-world medical dialogue. We introduce visual ability into the large language model to complete the ophthalmic large language and vision assistant (OphGLM). Our experimental results demonstrate that the OphGLM model performs exceptionally well, and it has the potential to revolutionize clinical applications in ophthalmology. The dataset, code, and models will be made publicly available at https://github.com/ML-AILab/OphGLM. | 翻訳日:2023-06-23 11:23:38 公開日:2023-06-22 |
# 非線形変分境界値問題のニューラルネットワークサロゲートの精度と信頼性を高める補正演算子 Corrector Operator to Enhance Accuracy and Reliability of Neural Operator Surrogates of Nonlinear Variational Boundary-Value Problems ( http://arxiv.org/abs/2306.12047v2 ) ライセンス: Link先を確認 | Prashant K. Jha and J. Tinsley Oden | (参考訳) この研究は、ニューラル作用素を介してパラメトリック偏微分方程式のクラスの解作用素を近似する手法の開発に焦点をあてる。
ニューラルネットワークには、適切なトレーニングデータの生成、コスト精度のトレードオフ、非自明なハイパーパラメータチューニングなど、いくつかの課題がある。
ニューラル演算子の精度の予測不可能性は、推論、最適化、制御といった下流問題のアプリケーションに影響を及ぼす。
ニューラルネットワークによって提供された予測を補正する線形変分問題に基づく枠組みを提案する。
修正子問題に関連する演算子は修正子演算子と呼ばれる。
pcanet型ニューラル演算子を用いた2次元の非線形拡散モデルを用いた数値実験では,提案手法により近似精度が約2桁向上することを示した。
さらに、非線形拡散モデルを含むトポロジー最適化は、ニューラル演算子の限界と補正スキームの有効性を強調していると考えられる。
神経オペレーターサロゲートによる最適化は、重大なエラー(最大80%)を発生させる。
しかし、ニューラルネットワークが提案手法に従って修正されると、エラーはずっと少なく(7%以下)なる。 This work focuses on developing methods for approximating the solution operators of a class of parametric partial differential equations via neural operators. Neural operators have several challenges, including the issue of generating appropriate training data, cost-accuracy trade-offs, and nontrivial hyperparameter tuning. The unpredictability of the accuracy of neural operators impacts their applications in downstream problems of inference, optimization, and control. A framework is proposed based on the linear variational problem that gives the correction to the prediction furnished by neural operators. The operator associated with the corrector problem is referred to as the corrector operator. Numerical results involving a nonlinear diffusion model in two dimensions with PCANet-type neural operators show almost two orders of increase in the accuracy of approximations when neural operators are corrected using the proposed scheme. Further, topology optimization involving a nonlinear diffusion model is considered to highlight the limitations of neural operators and the efficacy of the correction scheme. Optimizers with neural operator surrogates are seen to make significant errors (as high as 80 percent). However, the errors are much lower (below 7 percent) when neural operators are corrected following the proposed method. | 翻訳日:2023-06-23 11:23:17 公開日:2023-06-22 |
# AdCraft: 検索エンジンマーケティング最適化のための高度な強化学習ベンチマーク環境 AdCraft: An Advanced Reinforcement Learning Benchmark Environment for Search Engine Marketing Optimization ( http://arxiv.org/abs/2306.11971v2 ) ライセンス: Link先を確認 | Maziar Gomrokchi, Owen Levin, Jeffrey Roach, Jonah White | (参考訳) 本稿では,その確率的および非定常的特性を特徴とする強化学習(rl)コミュニティのための新しいベンチマーク環境adcraftを紹介する。
この環境は、検索エンジンの検索結果ページ(serps)上のウェブサイトの可視性を高めるために有料広告を利用するデジタルマーケティング技術である検索エンジンマーケティング(sem)における入札と予算のダイナミクスをシミュレートする。
SEM広告キャンペーンのパフォーマンスは、キーワード選択、広告デザイン、入札管理、予算調整、パフォーマンス監視など、いくつかの要因に依存する。
最近、Deep RLは、SEMの複雑でダイナミックな状況において、キャンペーン利益率を最適化する潜在的戦略として登場したが、実際に取得するにはコストがかかるか不可能な大量のデータを必要とする。
当社のカスタマイズ可能な環境は,SEM入札や予算管理に係わるRLアルゴリズムの堅牢性を,そのようなコストを伴わずに評価・強化することができる。
環境における一連の実験を通じて,エージェントの収束と性能にスパーシティと非定常性が与える課題を実証する。
これらの課題は、現実世界の不確実性を管理する効果的な戦略に関する議論と開発をさらに促進することを願っている。 We introduce AdCraft, a novel benchmark environment for the Reinforcement Learning (RL) community distinguished by its stochastic and non-stationary properties. The environment simulates bidding and budgeting dynamics within Search Engine Marketing (SEM), a digital marketing technique utilizing paid advertising to enhance the visibility of websites on search engine results pages (SERPs). The performance of SEM advertisement campaigns depends on several factors, including keyword selection, ad design, bid management, budget adjustments, and performance monitoring. Deep RL recently emerged as a potential strategy to optimize campaign profitability within the complex and dynamic landscape of SEM but it requires substantial data, which may be costly or infeasible to acquire in practice. Our customizable environment enables practitioners to assess and enhance the robustness of RL algorithms pertinent to SEM bid and budget management without such costs. Through a series of experiments within the environment, we demonstrate the challenges imposed by sparsity and non-stationarity on agent convergence and performance. We hope these challenges further encourage discourse and development around effective strategies for managing real-world uncertainties. | 翻訳日:2023-06-23 11:22:59 公開日:2023-06-22 |
# 構造に基づく薬物設計のための幾何学的深層学習の体系的調査 A Systematic Survey in Geometric Deep Learning for Structure-based Drug Design ( http://arxiv.org/abs/2306.11768v2 ) ライセンス: Link先を確認 | Zaixi Zhang, Jiaxian Yan, Qi Liu, and Enhong Chen | (参考訳) タンパク質の3次元形状を利用して潜在的な薬物候補を特定する構造に基づく薬物設計(SBDD)は、薬物発見においてますます重要になっている。
しかし、従来の物理化学モデリングと専門家のドメイン知識に基づく手法は時間と労力がかかる。
幾何学的深層学習の最近の進歩は、AlphaFoldのようなツールによる正確なタンパク質3D構造予測の可用性と相まって、構造に基づく薬物設計の進歩を著しく促進している。
本稿では,構造に基づく薬物設計における幾何深層学習の最近の進歩を体系的に概観する。
まず、構造に基づく薬物設計における主要な課題、一般的に使用される3Dタンパク質表現、および代表的予測・生成モデルについて、簡単な議論から始める。
次に、問題設定、代表方法、データセット、評価メトリクスを含む各タスクの詳細なレビュー(バインディングサイト予測、バインディングポーズ生成、\emph{de novo}分子生成、リンカ設計、バインディング親和性予測)について検討する。
最後に,本調査の課題と,構造に基づく薬物設計における幾何学的深層学習の可能性を明らかにする。 Structure-based drug design (SBDD), which utilizes the three-dimensional geometry of proteins to identify potential drug candidates, is becoming increasingly vital in drug discovery. However, traditional methods based on physiochemical modeling and experts' domain knowledge are time-consuming and laborious. The recent advancements in geometric deep learning, which integrates and processes 3D geometric data, coupled with the availability of accurate protein 3D structure predictions from tools like AlphaFold, have significantly propelled progress in structure-based drug design. In this paper, we systematically review the recent progress of geometric deep learning for structure-based drug design. We start with a brief discussion of the mainstream tasks in structure-based drug design, commonly used 3D protein representations and representative predictive/generative models. Then we delve into detailed reviews for each task (binding site prediction, binding pose generation, \emph{de novo} molecule generation, linker design, and binding affinity prediction), including the problem setup, representative methods, datasets, and evaluation metrics. Finally, we conclude this survey with the current challenges and highlight potential opportunities of geometric deep learning for structure-based drug design. | 翻訳日:2023-06-23 11:22:40 公開日:2023-06-22 |
# データ駆動だがプライバシーに配慮した:全体人合成による歩行者データセットの識別 Data-Driven but Privacy-Conscious: Pedestrian Dataset De-identification via Full-Body Person Synthesis ( http://arxiv.org/abs/2306.11710v2 ) ライセンス: Link先を確認 | Maxim Maximov, Tim Meinhardt, Ismail Elezi, Zoe Papakipos, Caner Hazirbas, Cristian Canton Ferrer, Laura Leal-Taix\'e | (参考訳) データ駆動技術ソリューションの出現は、データプライバシに関する懸念の高まりに伴うものだ。
これは、歩行者の検出、再同定、追跡などの人間中心の画像認識タスクにおいて特に重要である。
プライバシー問題の重要性を強調し、将来の研究を動機づけるため、歩行者データセット識別(PDI)タスクをモチベーションし、導入する。
PDIは、所定の非識別法に対して、非識別度とダウンストリームタスクトレーニング性能を評価する。
第1のベースラインとして,生成型adversarial networkを用いた画像合成に基づく2段階の非識別パイプラインであるincognimotを提案する。
最初のステージは、ターゲット歩行者を合成IDで置き換える。
下流のタスク性能を改善するためにステージ2を適用し、合成画像部品をデータにブレンドし、適応させる。
incognimotの有効性を実証するために,mot17歩行者追跡データセットの完全非識別版を作成し,歩行者再識別,検出,追跡モデルの訓練データとして解析する。
さらに,当社のデータが,プライバシを意識した方法で合成と実性能のギャップを狭める方法を示す。 The advent of data-driven technology solutions is accompanied by an increasing concern with data privacy. This is of particular importance for human-centered image recognition tasks, such as pedestrian detection, re-identification, and tracking. To highlight the importance of privacy issues and motivate future research, we motivate and introduce the Pedestrian Dataset De-Identification (PDI) task. PDI evaluates the degree of de-identification and downstream task training performance for a given de-identification method. As a first baseline, we propose IncogniMOT, a two-stage full-body de-identification pipeline based on image synthesis via generative adversarial networks. The first stage replaces target pedestrians with synthetic identities. To improve downstream task performance, we then apply stage two, which blends and adapts the synthetic image parts into the data. To demonstrate the effectiveness of IncogniMOT, we generate a fully de-identified version of the MOT17 pedestrian tracking dataset and analyze its application as training data for pedestrian re-identification, detection, and tracking models. Furthermore, we show how our data is able to narrow the synthetic-to-real performance gap in a privacy-conscious manner. | 翻訳日:2023-06-23 11:22:20 公開日:2023-06-22 |
# 生成AIにおける反トラストとプラットフォームパワーの探求 Exploring Antitrust and Platform Power in Generative AI ( http://arxiv.org/abs/2306.11342v2 ) ライセンス: Link先を確認 | Konrad Kollnig and Qian Li | (参考訳) いくつかのデジタル技術企業における権力集中は、学術的・非学術的な議論への関心が高まっている。
この議論に対する最も注目すべき貢献の1つは、リナ・カーンの『Amazon's Antitrust Paradox』である。
この作品の中でkhanは、amazonがオンライン小売における支配権を体系的に行使し、ライバルを排除し、その後、市場価格を請求したと主張している。
この業績は、最も影響力のある反トラスト組織の一つである連邦取引委員会(FTC)の議長にカーンが指名されたことに寄与した。
今日、米国とヨーロッパで進行中の反トラスト訴訟には、apple、google/alphabet、facebook/metaなどの大手テクノロジー企業が含まれる。
生成AIの世界では、私たちは再び、同じ企業が技術進歩をリードし、他の企業が競争する余地はほとんど残っていないのを目撃しています。
本稿では、反トラスト法の観点から、生成AIを支える技術スタックにおけるこれらの企業の市場優位性について考察する。 The concentration of power in a few digital technology companies has become a subject of increasing interest in both academic and non-academic discussions. One of the most noteworthy contributions to the debate is Lina Khan's Amazon's Antitrust Paradox. In this work, Khan contends that Amazon has systematically exerted its dominance in online retail to eliminate competitors and subsequently charge above-market prices. This work contributed to Khan's appointment as the chair of the US Federal Trade Commission (FTC), one of the most influential antitrust organizations. Today, several ongoing antitrust lawsuits in the US and Europe involve major technology companies like Apple, Google/Alphabet, and Facebook/Meta. In the realm of generative AI, we are once again witnessing the same companies taking the lead in technological advancements, leaving little room for others to compete. This article examines the market dominance of these corporations in the technology stack behind generative AI from an antitrust law perspective. | 翻訳日:2023-06-23 11:22:00 公開日:2023-06-22 |
# FDINet:特徴歪指数によるDNNモデル抽出に対する保護 FDINet: Protecting against DNN Model Extraction via Feature Distortion Index ( http://arxiv.org/abs/2306.11338v2 ) ライセンス: Link先を確認 | Hongwei Yao, Zheng Li, Haiqin Weng, Feng Xue, Kui Ren, and Zhan Qin | (参考訳) 機械学習・アズ・ア・サービス(MLaaS)プラットフォームはアクセシビリティ、コスト効率、スケーラビリティ、迅速な開発能力によって人気を集めている。
しかし、最近の研究は、MLaaSにおけるクラウドベースのモデルによる抽出攻撃の脆弱性を強調している。
本稿では,ディープニューラルネットワーク(DNN)モデルの特徴分布を利用した新しい防御機構であるFDINETを紹介する。
具体的には、相手のクエリから特徴分布を解析することにより、これらのクエリの特徴分布がモデルのトレーニングセットから逸脱することを明らかにする。
このキー観測に基づいて,受信クエリの特徴分布偏差を定量的に測定する指標である特徴歪指数(fdi)を提案する。
提案するFDINETはFDIを利用してバイナリ検出器を訓練し、FDI類似性を利用して分散抽出攻撃から衝突する敵を識別する。
我々は4つのベンチマークデータセットと4つの人気のあるモデルアーキテクチャに対する6つの最先端抽出攻撃に対してFDINETを評価するための広範な実験を行った。
FDINETは,DFMEとDASTの100%検出精度を達成し,モデル抽出に極めて有効であることが実証された。
FDINETは非常に効率的で、GTSRBでは50クエリで平均96.08%の信頼性を持つ抽出アラームを発生させる。
FDINETは、91%を超える精度で衝突する敵を識別する能力を示している。
さらに、2種類のアダプティブアタックを検出する能力も示す。 Machine Learning as a Service (MLaaS) platforms have gained popularity due to their accessibility, cost-efficiency, scalability, and rapid development capabilities. However, recent research has highlighted the vulnerability of cloud-based models in MLaaS to model extraction attacks. In this paper, we introduce FDINET, a novel defense mechanism that leverages the feature distribution of deep neural network (DNN) models. Concretely, by analyzing the feature distribution from the adversary's queries, we reveal that the feature distribution of these queries deviates from that of the model's training set. Based on this key observation, we propose Feature Distortion Index (FDI), a metric designed to quantitatively measure the feature distribution deviation of received queries. The proposed FDINET utilizes FDI to train a binary detector and exploits FDI similarity to identify colluding adversaries from distributed extraction attacks. We conduct extensive experiments to evaluate FDINET against six state-of-the-art extraction attacks on four benchmark datasets and four popular model architectures. Empirical results demonstrate the following findings FDINET proves to be highly effective in detecting model extraction, achieving a 100% detection accuracy on DFME and DaST. FDINET is highly efficient, using just 50 queries to raise an extraction alarm with an average confidence of 96.08% for GTSRB. FDINET exhibits the capability to identify colluding adversaries with an accuracy exceeding 91%. Additionally, it demonstrates the ability to detect two types of adaptive attacks. | 翻訳日:2023-06-23 11:21:44 公開日:2023-06-22 |