このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230623となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Open Tracing Tools: 概観と批判的比較 Open Tracing Tools: Overview and Critical Comparison ( http://arxiv.org/abs/2207.06875v2 ) ライセンス: Link先を確認 | Andrea Janes, Xiaozhou Li, Valentina Lenarduzzi | (参考訳) 背景。
現代のソフトウェアアーキテクチャが急速に複雑化する中で、トレーシングはますます重要なプラクティスとなり、ソフトウェアエンジニアによって広く採用されている。
トレースツールを採用することで、実践者は分散ソフトウェアアーキテクチャの監視、デバッグ、最適化が容易になる。
しかし, 有効な候補が多すぎると, 研究者や実践者は, その特徴や利点を体系的に検討して, 適切な追跡ツールの発見と選定に苦慮する。
このような目的のために,本稿では,人気のあるオープントレーシングツールの概観を比較を通して提供することを目的としている。
方法。
そこで我々はまず,体系的多言語文献レビュープロトコルを採用した目的的,体系的,再現可能なツールを同定した。
そして、各ツールがそれを見るのを特徴付ける。
1)測定された特徴
2)ピアレビュー文学とオンラインメディアにおける人気,および
3)利益と課題。
トピックモデリングと感情分析を使用して,そのメリットと問題を抽出し,要約した。
特に,話題解釈を支援するためにChatGPTを採用した。
結果だ
そこで,本稿では,その特徴,人気,利益,課題の観点から,選択した追跡ツールの体系的比較を行った。
結論だ
その結果は主に、それぞれのトレースツールが、異なる長所と短所を持つ特徴のユニークな組み合わせを提供することを示している。
本論文の貢献は,実践者に対して,採用を促進するトレースツールの理解を深めることである。 Background. Coping with the rapid growing complexity in contemporary software architecture, tracing has become an increasingly critical practice and been adopted widely by software engineers. By adopting tracing tools, practitioners are able to monitor, debug, and optimize distributed software architectures easily. However, with excessive number of valid candidates, researchers and practitioners have a hard time finding and selecting the suitable tracing tools by systematically considering their features and advantages.Objective. To such a purpose, this paper aims to provide an overview of popular Open tracing tools via comparison. Method. Herein, we first identified \ra{30} tools in an objective, systematic, and reproducible manner adopting the Systematic Multivocal Literature Review protocol. Then, we characterized each tool looking at the 1) measured features, 2) popularity both in peer-reviewed literature and online media, and 3) benefits and issues. We used topic modeling and sentiment analysis to extract and summarize the benefits and issues. Specially, we adopted ChatGPT to support the topic interpretation. Results. As a result, this paper presents a systematic comparison amongst the selected tracing tools in terms of their features, popularity, benefits and issues. Conclusion. The result mainly shows that each tracing tool provides a unique combination of features with also different pros and cons. The contribution of this paper is to provide the practitioners better understanding of the tracing tools facilitating their adoption. | 翻訳日:2023-10-24 15:17:05 公開日:2023-06-23 |
# Bayesian Networksによる冗長・レプリケーションクラウドサービスの可用性解析 Availability Analysis of Redundant and Replicated Cloud Services with Bayesian Networks ( http://arxiv.org/abs/2306.13334v1 ) ライセンス: Link先を確認 | Otto Bibartiu (1), Frank D\"urr (1), Kurt Rothermel (1), Beate Ottenw\"alder (2), Andreas Grau (2) ((1) University of Stuttgart, (2) Robert Bosch GmbH) | (参考訳) 現代のデータセンターの複雑さが増大しているため、障害はもはや珍しくない。
したがって、フォールトトレランスメカニズムは、可用性要件を満たす上で重要な役割を果たす。
計算システムを評価するために複数のアベイラビリティモデルが提案されており、ベイズネットワークモデルは強力なモデリング形式のために業界や研究で人気を集めている。
特に本研究は,ベイジアンネットワークを用いた冗長かつ複製されたクラウドコンピューティングサービスの可用性評価に重点を置いている。
これまでアベイラビリティに関する研究は、ベイジアンネットワークのインフラストラクチャや通信障害のモデリングにのみ焦点を当ててきたが、両方を同時に考慮していない。
本研究は、周辺インフラおよび通信ネットワークからのカスケードや共通原因障害を含む、ベイズネットワークによる大規模冗長および複製サービスの可用性を評価するための実用的なモデリング課題に対処する。
本稿では,モデリング作業を容易にするために,ベイズネットワークを自動構築する高レベルなモデリング形式を提案する。
大規模冗長サービスと複製サービスの可用性を評価するため,提案したベイズネットワークアプローチの実現可能性を示す。
このモデルはクラウドコンピューティングの領域でのみ適用できるだけでなく、ローカルおよび地理的分散システムの一般的なケースにも適用できる。 Due to the growing complexity of modern data centers, failures are not uncommon any more. Therefore, fault tolerance mechanisms play a vital role in fulfilling the availability requirements. Multiple availability models have been proposed to assess compute systems, among which Bayesian network models have gained popularity in industry and research due to its powerful modeling formalism. In particular, this work focuses on assessing the availability of redundant and replicated cloud computing services with Bayesian networks. So far, research on availability has only focused on modeling either infrastructure or communication failures in Bayesian networks, but have not considered both simultaneously. This work addresses practical modeling challenges of assessing the availability of large-scale redundant and replicated services with Bayesian networks, including cascading and common-cause failures from the surrounding infrastructure and communication network. In order to ease the modeling task, this paper introduces a high-level modeling formalism to build such a Bayesian network automatically. Performance evaluations demonstrate the feasibility of the presented Bayesian network approach to assess the availability of large-scale redundant and replicated services. This model is not only applicable in the domain of cloud computing it can also be applied for general cases of local and geo-distributed systems. | 翻訳日:2023-10-23 19:07:15 公開日:2023-06-23 |
# 安全性のアウトカムを解釈する:安全準備の広範化におけるWaymoのパフォーマンス評価 Interpreting Safety Outcomes: Waymo's Performance Evaluation in the Context of a Broader Determination of Safety Readiness ( http://arxiv.org/abs/2306.14923v1 ) ライセンス: Link先を確認 | Francesca M. Favaro, Trent Victor, Henning Hohnhold, Scott Schnelle | (参考訳) 本稿では,自動運転システム(ads)の安全性判定に関する幅広い文脈において,waymoの最近の論文を概説する。
waymoが報告した安全性能評価結果(すなわち、完全自律運転中に経験した接触事象)の概要から、他の推定手法で観察された安全結果の分析を補完する安全判断への多様化したアプローチの必要性を強調する。
広告クラッシュデータと人間由来のベースラインの比較における「信頼性パラドックス」の提示、使用中のモニタリングによる継続的な信頼性向上の認識、適切なイベントレベルの推論による集計統計分析の補完の必要性。 This paper frames recent publications from Waymo within the broader context of the safety readiness determination for an Automated Driving System (ADS). Starting from a brief overview of safety performance outcomes reported by Waymo (i.e., contact events experienced during fully autonomous operations), this paper highlights the need for a diversified approach to safety determination that complements the analysis of observed safety outcomes with other estimation techniques. Our discussion highlights: the presentation of a "credibility paradox" within the comparison between ADS crash data and human-derived baselines; the recognition of continuous confidence growth through in-use monitoring; and the need to supplement any aggregate statistical analysis with appropriate event-level reasoning. | 翻訳日:2023-10-23 18:55:56 公開日:2023-06-23 |
# 多体ファンデルワールス相互作用における非線形効果 Nonlinear effects in many-body van der Waals interactions ( http://arxiv.org/abs/2307.13607v1 ) ライセンス: Link先を確認 | Dai-Nam Le, Pablo Rodriguez-Lopez, Lilia M. Woods | (参考訳) ファン・デル・ワールス相互作用はユビキタスであり、物質の安定性に重要な役割を果たす。
このタイプのカップリングの現在の理解は線形応答理論に基づいているが、光非線形性はこの文脈ではほとんど考慮されない。
しかし、多くの材料は強い光非線形応答を示し、線形応答を超える分散力のさらなる評価を促す。
ここでは、与えられた系内の全ての双極子ナノ粒子の線型および非線形特性を考慮した$\textit{Discrete Coupled Non Dipole}$アプローチを示す。
本手法は, 距離, 異方性, 偏極性, 偏極性, vdWエネルギーの高偏極性といった複雑な相互作用を明らかにする様々な系で適用される非線形双極子に対するハミルトニアンに基づく。
本研究は分散相互作用の基本的な理解、特に非線形材料における理解を広げるものである。 Van der Waals interactions are ubiquitous and they play an important role for the stability of materials. Current understanding of this type of coupling is based on linear response theory, while optical nonlinearities are rarely considered in this context. Many materials, however, exhibit strong optical nonlinear response, which prompts further evaluation of dispersive forces beyond linear response. Here we present a $\textit{Discrete Coupled Nonlinear Dipole}$ approach that takes into account linear and nonlinear properties of all dipolar nanoparticles in a given system. This method is based on a Hamiltonian for nonlinear dipoles, which we apply in different systems uncovering a complex interplay of distance, anisotropy, polarizibilities, and hyperpolarizabilities in the vdW energy. This investigation broadens our basic understanding of dispersive interactions, especially in the context of nonlinear materials. | 翻訳日:2023-07-30 04:07:16 公開日:2023-06-23 |
# 量子高調波振動子モデルを用いたバイスタブル知覚のリンク物理と心理学 Linking Physics and Psychology of Bistable Perception Using an Eye Blink Inspired Quantum Harmonic Oscillator Model ( http://arxiv.org/abs/2307.08758v1 ) ライセンス: Link先を確認 | Ivan S. Maksymov and Ganna Pogrebna | (参考訳) 本稿では,ポテンシャル井戸に閉じ込められた電子に代表される高調波発振器のアナログを用いて,心理学現象を記述する新しい量子力学モデルを提案する。
研究~1は、ネッカーキューブによって例示される曖昧な図形(すなわち、錯視)の双安定な知覚への提案モデルの応用を実証する。
先行研究は量子力学と心理学的現象を理論的に関連付けてきたが、研究~2では物理学と双安定知覚の間に有望な生理的関係が示されている。
このモデルでは、ポテンシャルエネルギー障壁を通した電子の量子トンネルと、知覚反転を誘発する作用として知られるアイブリンクとを平行に描いている。
最後に,モデルが様々な視覚錯覚や認知的不協和を含む心理学的現象を捉える能力について論じる。 This paper introduces a novel quantum-mechanical model that describes psychological phenomena using the analogy of a harmonic oscillator represented by an electron trapped in a potential well. Study~1 demonstrates the application of the proposed model to bistable perception of ambiguous figures (i.e., optical illusions), exemplified by the Necker cube. While prior research has theoretically linked quantum mechanics to psychological phenomena, in Study~2 we demonstrate a viable physiological connection between physics and bistable perception. To that end, the model draws parallels between quantum tunneling of an electron through a potential energy barrier and an eye blink, an action known to trigger perceptual reversals. Finally, we discuss the ability of the model to capture diverse optical illusions and other psychological phenomena, including cognitive dissonance. | 翻訳日:2023-07-23 12:06:06 公開日:2023-06-23 |
# IoTデバイスの侵入監視・検出のためのインテリジェントメカニズム An Intelligent Mechanism for Monitoring and Detecting Intrusions in IoT Devices ( http://arxiv.org/abs/2306.17187v1 ) ライセンス: Link先を確認 | Vitalina Holubenko, Paulo Silva, Carlos Bento | (参考訳) 現状のIoTデバイスとその制限は、悪意のあるエンティティがそのようなデバイスを活用して、彼ら自身の利益のために使用する動機となっている。
iotデバイスのサイバー攻撃から守るために、侵入検知システムに機械学習技術を適用することができる。
さらに、集中型アプローチに関連するプライバシー関連の問題は、フェデレートラーニングによって緩和することができる。
この研究は、フェデレートラーニングとマルチ層パーセプトロンニューラルネットワークを活用して、IoTデバイスに対するサイバー攻撃を高精度に検出し、データプライバシ保護を強化するホストベースの侵入検知システムを提案する。 The current amount of IoT devices and their limitations has come to serve as a motivation for malicious entities to take advantage of such devices and use them for their own gain. To protect against cyberattacks in IoT devices, Machine Learning techniques can be applied to Intrusion Detection Systems. Moreover, privacy related issues associated with centralized approaches can be mitigated through Federated Learning. This work proposes a Host-based Intrusion Detection Systems that leverages Federated Learning and Multi-Layer Perceptron neural networks to detected cyberattacks on IoT devices with high accuracy and enhancing data privacy protection. | 翻訳日:2023-07-09 14:10:10 公開日:2023-06-23 |
# 分散型エネルギー管理システムのためのブロックチェーンベースの連合学習 Blockchain-based Federated Learning for Decentralized Energy Management Systems ( http://arxiv.org/abs/2306.17186v1 ) ライセンス: Link先を確認 | Abdulrezzak Zekiye, \"Oznur \"Ozkasap | (参考訳) Internet of Energy(IoE)は、分散型エネルギーシステムを実現するために、スマートネットワークと分散システム技術を活用する分散パラダイムである。
従来の集中型エネルギーシステムとは対照的に、分散エネルギーインターネットシステムは、分散化、信頼性、効率、セキュリティのための革新的な技術を必要とする複数のコンポーネントと通信要求から構成されている。
ブロックチェーンアーキテクチャ、スマートコントラクト、分散連合学習技術の最近の進歩により、分散エネルギーインターネットサービスを実現する新たな機会が開かれた。
本稿では,ioeドメインにおけるブロックチェーン,スマートコントラクト,フェデレーション学習を用いた最先端ソリューションの包括的な分析と分類について述べる。
具体的には,4つの代表的なシステムモデルを特定し,その重要な側面について議論する。
これらのモデルは、ブロックチェーン、スマートコントラクト、フェデレーション学習を統合して、IoEのメインドメイン、すなわち分散エネルギー取引と共有、スマートマイクログリッドエネルギーネットワーク、および電気および接続された車両管理をサポートするさまざまな方法を示している。
さらに,分散化のさまざまなレベル,連合学習のメリット,およびioeシステムにおけるブロックチェーンの利用のメリットを詳細に比較した。
さらに,インターネット・オブ・エナジー領域にフェデレート学習とブロックチェーンを統合するためのオープンな課題と今後の研究分野を特定した。 The Internet of Energy (IoE) is a distributed paradigm that leverages smart networks and distributed system technologies to enable decentralized energy systems. In contrast to the traditional centralized energy systems, distributed Energy Internet systems comprise multiple components and communication requirements that demand innovative technologies for decentralization, reliability, efficiency, and security. Recent advances in blockchain architectures, smart contracts, and distributed federated learning technologies have opened up new opportunities for realizing decentralized Energy Internet services. In this paper, we present a comprehensive analysis and classification of state-of-the-art solutions that employ blockchain, smart contracts, and federated learning for the IoE domains. Specifically, we identify four representative system models and discuss their key aspects. These models demonstrate the diverse ways in which blockchain, smart contracts, and federated learning can be integrated to support the main domains of IoE, namely distributed energy trading and sharing, smart microgrid energy networks, and electric and connected vehicle management. Furthermore, we provide a detailed comparison of the different levels of decentralization, the advantages of federated learning, and the benefits of using blockchain for the IoE systems. Additionally, we identify open issues and areas for future research for integrating federated learning and blockchain in the Internet of Energy domains. | 翻訳日:2023-07-09 14:09:59 公開日:2023-06-23 |
# Master-ASR: モジュール学習によるASRにおける多言語拡張性と低リソース適応の実現 Master-ASR: Achieving Multilingual Scalability and Low-Resource Adaptation in ASR with Modular Learning ( http://arxiv.org/abs/2306.15686v1 ) ライセンス: Link先を確認 | Zhongzhi Yu, Yang Zhang, Kaizhi Qian, Yonggan Fu, Yingyan Lin | (参考訳) 自動音声認識(ASR)によって最近達成された印象的な性能にもかかわらず,(1)訓練や推論,ストレージオーバーヘッドに制限のある言語をサポートするため,モデルにスケーラビリティを導入することの難しさ,(2)低リソース適応能力は,過度な適合や破滅的な忘れの問題を回避しつつ実現可能であること,の2つの大きな課題が観察されている。
最近の発見に触発されて、言語間で広く共有されるモジュールで上記の課題に対処できるという仮説を立てた。
そこで本研究では, マルチリンガルなスケーラビリティと低リソース適応性を両立させると同時に, モジュール化・階層化戦略により実現した ASR フレームワークである \METHODNS を提案する。
特に \method は、一般化可能なサブモジュールの小さなセットを学習し、それらを異なる言語向けに適応的に組み立てて、マルチリンガルのオーバーヘッドを減らし、低リソース適応のための効果的な知識転送を可能にする。
Extensive experiments and visualizations demonstrate that \METHOD can effectively discover language similarity and improve multilingual and low-resource ASR performance over state-of-the-art (SOTA) methods, e.g., under multilingual-ASR, our framework achieves a 0.13$\sim$2.41 lower character error rate (CER) with 30\% smaller inference overhead over SOTA solutions on multilingual ASR and a comparable CER, with nearly 50 times fewer trainable parameters over SOTA solutions on low-resource tuning, respectively. Despite the impressive performance recently achieved by automatic speech recognition (ASR), we observe two primary challenges that hinder its broader applications: (1) The difficulty of introducing scalability into the model to support more languages with limited training, inference, and storage overhead; (2) The low-resource adaptation ability that enables effective low-resource adaptation while avoiding over-fitting and catastrophic forgetting issues. Inspired by recent findings, we hypothesize that we can address the above challenges with modules widely shared across languages. To this end, we propose an ASR framework, dubbed \METHODNS, that, \textit{for the first time}, simultaneously achieves strong multilingual scalability and low-resource adaptation ability thanks to its modularize-then-assemble strategy. Specifically, \METHOD learns a small set of generalizable sub-modules and adaptively assembles them for different languages to reduce the multilingual overhead and enable effective knowledge transfer for low-resource adaptation. Extensive experiments and visualizations demonstrate that \METHOD can effectively discover language similarity and improve multilingual and low-resource ASR performance over state-of-the-art (SOTA) methods, e.g., under multilingual-ASR, our framework achieves a 0.13$\sim$2.41 lower character error rate (CER) with 30\% smaller inference overhead over SOTA solutions on multilingual ASR and a comparable CER, with nearly 50 times fewer trainable parameters over SOTA solutions on low-resource tuning, respectively. | 翻訳日:2023-07-02 13:18:12 公開日:2023-06-23 |
# オンラインasr用gpuデコーダにおけるコンテキストバイアスの実装 Implementing contextual biasing in GPU decoder for online ASR ( http://arxiv.org/abs/2306.15685v1 ) ライセンス: Link先を確認 | Iuliia Nigmatulina, Srikanth Madikeri, Esa\'u Villatoro-Tello, Petr Motli\v{c}ek, Juan Zuluaga-Gomez, Karthik Pandia, Aravind Ganapathiraju | (参考訳) gpuデコーディングはasr予測の出力を著しく加速する。
GPUはオンラインASRデコーディングにすでに使用されているが、GPUでの後処理と再コーディングはまだ適切に研究されていない。
利用可能なコンテキスト情報によるリコーディングは、ASR予測を大幅に改善することができる。
従来の研究は、オフラインおよびオンラインのCPUシナリオにおいて、デコードおよびバイアス言語モデル(LM)重み付けにおける格子再構成の可能性を証明してきた。
リアルタイムGPUデコーディングでは、格子生成なしで部分認識仮説が生成され、バイアス処理の実装がより複雑になる。
本稿では,標準のKaldi GPUデコーダを活用しながら,リアルタイムGPUデコードにコンテキストバイアスを統合するアプローチを提案する。
部分的ASR予測のバイアスに加え、我々の手法は動的コンテキスト切替を可能にし、各音声セグメントのフレキシブルな再構成をGPU上で直接行うことができる。
コードは公開され、オープンソースのテストセットでテストされる。 GPU decoding significantly accelerates the output of ASR predictions. While GPUs are already being used for online ASR decoding, post-processing and rescoring on GPUs have not been properly investigated yet. Rescoring with available contextual information can considerably improve ASR predictions. Previous studies have proven the viability of lattice rescoring in decoding and biasing language model (LM) weights in offline and online CPU scenarios. In real-time GPU decoding, partial recognition hypotheses are produced without lattice generation, which makes the implementation of biasing more complex. The paper proposes and describes an approach to integrate contextual biasing in real-time GPU decoding while exploiting the standard Kaldi GPU decoder. Besides the biasing of partial ASR predictions, our approach also permits dynamic context switching allowing a flexible rescoring per each speech segment directly on GPU. The code is publicly released and tested with open-sourced test sets. | 翻訳日:2023-07-02 13:17:42 公開日:2023-06-23 |
# 視覚言語事前学習モデルを用いたアイコンクラスのマルチモーダル検索 Multimodal Search on Iconclass using Vision-Language Pre-Trained Models ( http://arxiv.org/abs/2306.16529v1 ) ライセンス: Link先を確認 | Cristian Santini, Etienne Posthumus, Mary Ann Tan, Oleksandra Bruns, Tabea Tietz, Harald Sack | (参考訳) コントロールされた語彙、テザウリ、分類体系などの用語源は、文化遺産のデジタル化に重要な役割を果たしている。
しかし、これらの語彙資源を検索し探索できる情報検索(ir)システムは、ユーザの検索の背後にある意味論の適切な表現が欠如しており、複数の表現モダリティ(画像、キーワード、テキスト記述など)を通じて伝達される。
本稿では,最も広く使用されている図形分類システムであるIconclassに対する新しい検索エンジンの実装について述べる。
このシステムの目新しさは、事前訓練された視覚言語モデル、すなわちクリップを使用して、ビジュアルまたはテキストのクエリを使用してアイコンクラスの概念を検索し、探索することである。 Terminology sources, such as controlled vocabularies, thesauri and classification systems, play a key role in digitizing cultural heritage. However, Information Retrieval (IR) systems that allow to query and explore these lexical resources often lack an adequate representation of the semantics behind the user's search, which can be conveyed through multiple expression modalities (e.g., images, keywords or textual descriptions). This paper presents the implementation of a new search engine for one of the most widely used iconography classification system, Iconclass. The novelty of this system is the use of a pre-trained vision-language model, namely CLIP, to retrieve and explore Iconclass concepts using visual or textual queries. | 翻訳日:2023-07-02 13:06:43 公開日:2023-06-23 |
# 状態医学ライセンス試験におけるChatGPTの有用性 : 基本線形代数におけるファルター ChatGPT may excel in States Medical Licensing Examination but falters in basic Linear Algebra ( http://arxiv.org/abs/2306.16282v1 ) ライセンス: Link先を確認 | Eli Bagno, Thierry Dana-Picard and Shulamit Reches | (参考訳) ChatGPTの出現は急速であり、特定の領域に肯定的な影響を示すが、その影響は普遍的に有利ではない。
本解析は,chatgptの数学教育における能力,特に基本線形代数の指導に焦点をあてた。
ChatGPTが正確でモチベーションのよい回答を提供するケースは存在するが、重要な数学的誤りを犯し、論理的推論で失敗する多くのケースを認識することが重要である。
これらの現象は、真の理解よりも視覚的なパターンに依存しているように見えるため、システムの真の数学理解に関する懸念を引き起こす。
また,教師としてのChatGPTの適性も留意すべきである。 The emergence of ChatGPT has been rapid, and although it has demonstrated positive impacts in certain domains, its influence is not universally advantageous. Our analysis focuses on ChatGPT's capabilities in Mathematics Education, particularly in teaching basic Linear Algebra. While there are instances where ChatGPT delivers accurate and well-motivated answers, it is crucial to recognize numerous cases where it makes significant mathematical errors and fails in logical inference. These occurrences raise concerns regarding the system's genuine understanding of mathematics, as it appears to rely more on visual patterns rather than true comprehension. Additionally, the suitability of ChatGPT as a teacher for students also warrants consideration. | 翻訳日:2023-07-02 13:05:13 公開日:2023-06-23 |
# Voicebox: テキストによる多言語ユニバーサル音声生成 Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale ( http://arxiv.org/abs/2306.15687v1 ) ライセンス: Link先を確認 | Matthew Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, Wei-Ning Hsu | (参考訳) GPTやDALL-Eのような大規模生成モデルは自然言語処理やコンピュータビジョン研究に革命をもたらした。
これらのモデルは高忠実度テキストや画像出力を生成するだけでなく、明示的に教えられていないタスクを解く一般論者でもある。
対照的に、音声生成モデルは、スケールやタスクの一般化の観点からはまだ原始的である。
本稿では,音声合成モデルとして最も多彩な音声合成モデルであるvoiceboxを提案する。
voiceboxはノンリグレッシブなフローマッチングモデルで、音声のコンテキストとテキストを入力し、フィルタも拡張もされない5万時間以上の音声でトレーニングする。
GPTと同様に、Voiceboxはコンテキスト内学習を通じてさまざまなタスクを実行できるが、将来的なコンテキストでも条件付けできるため、より柔軟である。
Voiceboxはモノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用することができる。
特にVoiceboxは、最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%ワードエラー率)とオーディオの類似性(0.580対0.681)の両方で、20倍高速である。
モデルのデモについてはvoicebox.metademolab.comを参照。 Large-scale generative models such as GPT and DALL-E have revolutionized natural language processing and computer vision research. These models not only generate high fidelity text or image outputs, but are also generalists which can solve tasks not explicitly taught. In contrast, speech generative models are still primitive in terms of scale and task generalization. In this paper, we present Voicebox, the most versatile text-guided generative model for speech at scale. Voicebox is a non-autoregressive flow-matching model trained to infill speech, given audio context and text, trained on over 50K hours of speech that are neither filtered nor enhanced. Similar to GPT, Voicebox can perform many different tasks through in-context learning, but is more flexible as it can also condition on future context. Voicebox can be used for mono or cross-lingual zero-shot text-to-speech synthesis, noise removal, content editing, style conversion, and diverse sample generation. In particular, Voicebox outperforms the state-of-the-art zero-shot TTS model VALL-E on both intelligibility (5.9% vs 1.9% word error rates) and audio similarity (0.580 vs 0.681) while being up to 20 times faster. See voicebox.metademolab.com for a demo of the model. | 翻訳日:2023-07-02 13:05:01 公開日:2023-06-23 |
# LLM支援コンテンツ分析:デダクティブ符号化を支援する大言語モデル LLM-Assisted Content Analysis: Using Large Language Models to Support Deductive Coding ( http://arxiv.org/abs/2306.14924v1 ) ライセンス: Link先を確認 | Robert Chew, John Bollenbacher, Michael Wenger, Jessica Speer, Annice Kim | (参考訳) デダクティブコーディングは、文書間でのテーマの有病率を決定するために広く使われている定性的な研究手法である。
有益ではあるが、復調的なコーディングは、研究者が大量の非構造化テキスト文書を読み、解釈し、確実に分類する必要があるため、しばしば負担と時間を要する。
chatgptのような大規模な言語モデル(llm)は、さまざまな自然言語処理や推論タスクを実行できる、急速に進化するaiツールのクラスである。
本研究では,従来のコンテンツ分析の柔軟性を保ちながら,帰納的符号化に要する時間を短縮するLLMの利用について検討する。
提案手法である llm-assisted content analysis (laca) を概説するとともに,laca の gpt-3.5 を用いた詳細なケーススタディを行った。
さらに, LACAを4つの公開データセット上に使用して, GPT-3.5が多種多様な演能的符号化タスクに対してどの程度うまく動作するかというより広範な問題を評価する。
全体として、GPT-3.5は、人間のコーダに匹敵するレベルの合意で演能的な符号化を行うことができる。
さらに、LACAは、帰納的符号化のプロンプトを洗練させ、LLMがランダムに推測するコードを特定し、LLMと人間コーダをデダクティブ符号化にいつ使用するかを評価するのに役立ちます。
提案手法は,導出的符号化と関連する研究手法の今後の実践にいくつかの意味を持つ。 Deductive coding is a widely used qualitative research method for determining the prevalence of themes across documents. While useful, deductive coding is often burdensome and time consuming since it requires researchers to read, interpret, and reliably categorize a large body of unstructured text documents. Large language models (LLMs), like ChatGPT, are a class of quickly evolving AI tools that can perform a range of natural language processing and reasoning tasks. In this study, we explore the use of LLMs to reduce the time it takes for deductive coding while retaining the flexibility of a traditional content analysis. We outline the proposed approach, called LLM-assisted content analysis (LACA), along with an in-depth case study using GPT-3.5 for LACA on a publicly available deductive coding data set. Additionally, we conduct an empirical benchmark using LACA on 4 publicly available data sets to assess the broader question of how well GPT-3.5 performs across a range of deductive coding tasks. Overall, we find that GPT-3.5 can often perform deductive coding at levels of agreement comparable to human coders. Additionally, we demonstrate that LACA can help refine prompts for deductive coding, identify codes for which an LLM is randomly guessing, and help assess when to use LLMs vs. human coders for deductive coding. We conclude with several implications for future practice of deductive coding and related research methods. | 翻訳日:2023-06-28 16:09:27 公開日:2023-06-23 |
# ChatGPTを用いた製品情報抽出 Product Information Extraction using ChatGPT ( http://arxiv.org/abs/2306.14921v1 ) ライセンス: Link先を確認 | Alexander Brinkmann, Roee Shraga, Reng Chiz Der, Christian Bizer | (参考訳) 属性/価値ペアという形で構造化された製品データは、ファセットされた製品検索、製品比較、製品推奨など、多くのeコマースアプリケーションの基盤である。
製品提供物は、しばしばタイトルまたはフリーテキストの形式で製品属性のテキスト記述のみを含む。
したがって、テキスト製品記述から属性/値ペアを抽出することは、eコマースアプリケーションにとって必須のイネーブルである。
現状の製品情報抽出手法を最適化するためには,タスク固有の大量のトレーニングデータが必要である。
また、トレーニングデータの一部ではない分布外属性や属性値の一般化にも苦労している。
大量のテキストで事前トレーニングされていることと、モデルサイズによる創発的な影響のため、ChatGPTのような大規模言語モデルはこれらの欠点に対処する可能性がある。
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性を検討する。
ゼロショットと数ショットのプロンプトデザインを実験する。
以上の結果から,chatgptは事前学習した言語モデルと同様の性能を実現するが,微調整に必要なトレーニングデータや計算量ははるかに少ないことがわかった。 Structured product data in the form of attribute/value pairs is the foundation of many e-commerce applications such as faceted product search, product comparison, and product recommendation. Product offers often only contain textual descriptions of the product attributes in the form of titles or free text. Hence, extracting attribute/value pairs from textual product descriptions is an essential enabler for e-commerce applications. In order to excel, state-of-the-art product information extraction methods require large quantities of task-specific training data. The methods also struggle with generalizing to out-of-distribution attributes and attribute values that were not a part of the training data. Due to being pre-trained on huge amounts of text as well as due to emergent effects resulting from the model size, Large Language Models like ChatGPT have the potential to address both of these shortcomings. This paper explores the potential of ChatGPT for extracting attribute/value pairs from product descriptions. We experiment with different zero-shot and few-shot prompt designs. Our results show that ChatGPT achieves a performance similar to a pre-trained language model but requires much smaller amounts of training data and computation for fine-tuning. | 翻訳日:2023-06-28 16:08:58 公開日:2023-06-23 |
# 分布外検出のためのコサイン類似性に基づく手法 A Cosine Similarity-based Method for Out-of-Distribution Detection ( http://arxiv.org/abs/2306.14920v1 ) ライセンス: Link先を確認 | Nguyen Ngoc-Hieu, Nguyen Hung-Quang, The-Anh Ta, Thanh Nguyen-Tang, Khoa D Doan, Hoang Thanh-Tung | (参考訳) OODデータを検出する能力は、実用的な機械学習アプリケーションの重要な側面である。
本研究では,テスト特徴と典型的なID特徴とのコサイン類似性がOODデータの優れた指標であることを示す。
我々は,コサイン類似度スコアリング関数を用いたポストホックOOD検出アルゴリズムであるクラス定型マッチング(CTM)を提案する。
複数のベンチマークにおいて、CTMは既存のポストホックOOD検出方法よりも優れていた。 The ability to detect OOD data is a crucial aspect of practical machine learning applications. In this work, we show that cosine similarity between the test feature and the typical ID feature is a good indicator of OOD data. We propose Class Typical Matching (CTM), a post hoc OOD detection algorithm that uses a cosine similarity scoring function. Extensive experiments on multiple benchmarks show that CTM outperforms existing post hoc OOD detection methods. | 翻訳日:2023-06-28 16:08:40 公開日:2023-06-23 |
# ネットワーク内の拡張 Augmentation Inside the Network ( http://arxiv.org/abs/2012.10769v2 ) ライセンス: Link先を確認 | Maciej Sypetkowski, Jakub Jasiulewicz, Zbigniew Wojna | (参考訳) 本稿では,畳み込みニューラルネットワークの中間機能に対するコンピュータビジョン問題に対するデータ拡張手法をシミュレートする手法である,ネットワーク内部の拡張について述べる。
これらの変換を行い、ネットワーク内のデータフローを変更し、可能であれば共通の計算を共有します。
提案手法は,TTA法よりもスムーズな速度-精度トレードオフ調整を実現し,良好な結果が得られる。
さらに,テスト時間拡張と組み合わせることで,モデル性能をさらに向上させることができる。
本手法をimagenet-2012およびcifar-100データセットで検証した。
そこで本研究では,フリップテスト時拡張よりも30%高速で,CIFAR-100と同じ結果が得られる修正を提案する。 In this paper, we present augmentation inside the network, a method that simulates data augmentation techniques for computer vision problems on intermediate features of a convolutional neural network. We perform these transformations, changing the data flow through the network, and sharing common computations when it is possible. Our method allows us to obtain smoother speed-accuracy trade-off adjustment and achieves better results than using standard test-time augmentation (TTA) techniques. Additionally, our approach can improve model performance even further when coupled with test-time augmentation. We validate our method on the ImageNet-2012 and CIFAR-100 datasets for image classification. We propose a modification that is 30% faster than the flip test-time augmentation and achieves the same results for CIFAR-100. | 翻訳日:2023-06-28 01:52:37 公開日:2023-06-23 |
# 背景を無視して一般化を改善する:コストレスdnn視覚注意機構 Towards Ignoring Backgrounds and Improving Generalization: a Costless DNN Visual Attention Mechanism ( http://arxiv.org/abs/2202.00232v6 ) ライセンス: Link先を確認 | Pedro R. A. S. Bassi, Sergio S. J. Dertkigil and Andrea Cavalli | (参考訳) 本稿では,画像分類器に対する注意機構と,それに対応するディープニューラルネットワーク(dnn)アーキテクチャについて紹介する。
トレーニング中、ISNetはセグメンテーションターゲットを使用して、画像の関心領域を見つける方法を学び、注意を集中する。
この提案は、LRP説明熱マップにおける背景関連最小化という新しい概念に基づいている。
これは、実行時に余分な計算コストなしで、事実上あらゆる分類されたニューラルネットワークアーキテクチャに適用できる。
バックグラウンドを無視できるため、単一のDNNはセグメンタの共通パイプラインに代えて、より高速で軽量な分類器を使用することができる。
画像の背景に合成バイアス(多種多様な応用)を注入した後、ISNetを複数の最先端ニューラルネットワークと比較し、分類器決定に対するバイアスの影響を最小限に抑える優れた能力を定量的に示す。
胸部x線におけるcovid-19と結核検出のタスクは、背景バイアスと近距離学習を自然に促進する混合トレーニングデータベースを使用することが多い。
肺に焦点を当てることで、ISNetはショートカット学習を減らし、外部(アウト・オブ・ディストリビューション)テストデータセットにかなり優れた一般化をもたらした。
ISNetは、背景を無視し、一般化を改善するための正確で高速で軽量な方法論を提供する。 This work introduces an attention mechanism for image classifiers and the corresponding deep neural network (DNN) architecture, dubbed ISNet. During training, the ISNet uses segmentation targets to learn how to find the image's region of interest and concentrate its attention on it. The proposal is based on a novel concept, background relevance minimization in LRP explanation heatmaps. It can be applied to virtually any classification neural network architecture, without any extra computational cost at run-time. Capable of ignoring the background, the resulting single DNN can substitute the common pipeline of a segmenter followed by a classifier, being faster and lighter. After injecting synthetic bias in images' backgrounds (in diverse applications), we compare the ISNet to multiple state-of-the-art neural networks, and quantitatively demonstrate its superior capacity of minimizing the bias influence over the classifier decisions. The tasks of COVID-19 and tuberculosis detection in chest X-rays commonly employ mixed training databases, which naturally foster background bias and shortcut learning. By focusing on lungs, the ISNet reduced shortcut learning, leading to significantly superior generalization to external (out-of-distribution) test datasets. ISNet presents an accurate, fast, and light methodology to ignore backgrounds and improve generalization. | 翻訳日:2023-06-28 01:36:53 公開日:2023-06-23 |
# 画像キャプションにおけるディープラーニングのアプローチ Deep Learning Approaches on Image Captioning: A Review ( http://arxiv.org/abs/2201.12944v3 ) ライセンス: Link先を確認 | Taraneh Ghandi and Hamidreza Pourreza and Hamidreza Mahyar | (参考訳) 画像キャプションは、視覚コンテンツのための自然言語記述を生成することを目的とした、困難な研究領域である。
ディープラーニングの出現と、最近では視覚言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法とパフォーマンスの向上につながった。
本稿では,画像キャプションにおける深層学習法について,包括的分類法を提供し,各手法のカテゴリを詳細に論じて,構造化したレビューを行う。
また、画像キャプションモデルの性能を評価するために、広く使われているデータセットと評価指標についても論じる。
我々は,対象の幻覚問題,文脈の欠如,照明条件,文脈理解,参照表現など,この分野で直面する課題を強調した。
確立した評価基準に従って,各種の深層学習手法を評価対象としてランク付けする。
現状の把握に加えて,画像とテキストのモダリティ間の情報不一致問題の緩和,データセットバイアスの克服,キャプション生成のための視覚言語事前学習手法の導入,画像キャプションの品質測定のためのより良い評価ツールの開発など,この領域における研究の今後の方向性を提案する。 Image captioning is a challenging research area that aims to generate natural language descriptions for visual content. The advent of deep learning and more recently vision-language pre-training techniques has revolutionized the field, leading to more sophisticated methods and improved performance. This survey paper provides a structured review of deep learning methods in image captioning by providing a comprehensive taxonomy and discussing each method category in detail. We also discuss the widely-used datasets and evaluation metrics created to assess the performance of image captioning models. We highlight the challenges faced in the field, such as the object hallucination problem, missing context, illumination conditions, contextual understanding, and referring expressions. We rank various deep learning methods in terms of their performance according to established evaluation metrics. In addition to identifying the current state of the art, we suggest potential future directions for research in this area, such as mitigating the information misalignment problem between the image and text modalities, overcoming the dataset bias, incorporating vision-language pre-training methods for caption generation, and developing better evaluation tools to measure the quality of image captions. | 翻訳日:2023-06-28 01:36:30 公開日:2023-06-23 |
# ラマヌジャン総和とカシミール効果 Ramanujan summation and the Casimir effect ( http://arxiv.org/abs/2201.00076v2 ) ライセンス: Link先を確認 | Wolfgang Bietenholz | (参考訳) スリニヴァサ・ラマヌジャン(srinivasa ramanujan)は、イングランドから帰国した1年後、わずか32歳で亡くなった偉大なインド人数学者である。
彼の多くの業績の中には、有理有限値の発散級数への割り当てがあり、これは負の整数引数を持つリーマンの$\zeta$-関数に対応する。
彼はほとんど説明を残さなかったが、彼が与えたいくつかのヒントに従って、分析的な継続に基づいて、最もよく知られた例の直接的な正当化を構築する。
ラマヌジャン和の物理的応用として、この発散項の除去方法が真空エネルギー密度、特に光子場の再正規化に対応するカシミール効果について議論する。
これは、現在実験によって正確に確認されている導電板間のカシミール力の予測につながる。
最後に,カシミール効果の意味と解釈について議論する。
これは暗黒エネルギーの大きさを囲むミステリーに繋がる。 Srinivasa Ramanujan was a great self-taught Indian mathematician, who died a century ago, at the age of only 32, one year after returning from England. Among his numerous achievements is the assignment of sensible, finite values to divergent series, which correspond to Riemann's $\zeta$-function with negative integer arguments. He hardly left any explanation about it, but following the few hints that he gave, we construct a direct justification for the best known example, based on analytic continuation. As a physical application of Ramanujan summation we discuss the Casimir effect, where this way of removing a divergent term corresponds to the renormalization of the vacuum energy density, in particular of the photon field. This leads to the prediction of the Casimir force between conducting plates, which has now been accurately confirmed by experiments. Finally we review the discussion about the meaning and interpretation of the Casimir effect. This takes us to the mystery surrounding the magnitude of Dark Energy. | 翻訳日:2023-06-28 01:35:43 公開日:2023-06-23 |
# テンソルトレインスケッチによる生成モデリング Generative modeling via tensor train sketching ( http://arxiv.org/abs/2202.11788v6 ) ライセンス: Link先を確認 | YH. Hur, J. G. Hoskins, M. Lindsey, E.M. Stoudenmire, Y. Khoo | (参考訳) 本稿では,そのサンプルから確率密度のテンソルトレイン表現を構築するためのスケッチアルゴリズムを提案する。
本手法はテンソル列を構成するための標準再帰的svd法から逸脱する。
代わりに、個々のテンソルトレインコアに対して小さな線形系の列を定式化し、解く。
このアプローチは、回復問題のアルゴリズム的およびサンプル的複雑さの両方を脅かす次元の呪いを避けることができる。
具体的には、自然条件下でのマルコフモデルに対して、テンソルコアは次元において対数的にスケールするサンプルの複雑さで復元できることを示す。
最後に,いくつかの数値実験を行い,本手法の性能について述べる。 In this paper, we introduce a sketching algorithm for constructing a tensor train representation of a probability density from its samples. Our method deviates from the standard recursive SVD-based procedure for constructing a tensor train. Instead, we formulate and solve a sequence of small linear systems for the individual tensor train cores. This approach can avoid the curse of dimensionality that threatens both the algorithmic and sample complexities of the recovery problem. Specifically, for Markov models under natural conditions, we prove that the tensor cores can be recovered with a sample complexity that scales logarithmically in the dimensionality. Finally, we illustrate the performance of the method with several numerical experiments. | 翻訳日:2023-06-28 01:25:29 公開日:2023-06-23 |
# マージナルフェアネスによる節間フェアネスの境界と近似 Bounding and Approximating Intersectional Fairness through Marginal Fairness ( http://arxiv.org/abs/2206.05828v2 ) ライセンス: Link先を確認 | Mathieu Molina, Patrick Loiseau | (参考訳) マシンラーニングにおける差別は、多くの場合、複数の次元(すなわち保護された属性)に沿って発生する。
独立にすべての次元に対する \emph{marginal fairness} の保証は一般には不十分であることが知られている。
しかし、指数関数的な部分群の数のため、データからの交叉フェアネスを直接測定することは不可能である。
本稿では,辺縁と交叉フェアネスの関係を統計解析によって詳細に理解することを目的とする。
まず、正確な関係が得られる十分条件のセットを同定する。
すると、一般の場合の交叉フェアネスに高い確率で有界(端値等有意な統計量により容易に計算できる)を証明できる。
それらの記述値の他に、これらの理論的境界は、交叉部分群を記述する保護属性を選択することで、交叉フェアネスの近似と有界性を改善するヒューリスティックを導出するために活用できることを示す。
最後に,実データと合成データセットの近似と境界の性能を検証した。 Discrimination in machine learning often arises along multiple dimensions (a.k.a. protected attributes); it is then desirable to ensure \emph{intersectional fairness} -- i.e., that no subgroup is discriminated against. It is known that ensuring \emph{marginal fairness} for every dimension independently is not sufficient in general. Due to the exponential number of subgroups, however, directly measuring intersectional fairness from data is impossible. In this paper, our primary goal is to understand in detail the relationship between marginal and intersectional fairness through statistical analysis. We first identify a set of sufficient conditions under which an exact relationship can be obtained. Then, we prove bounds (easily computable through marginal fairness and other meaningful statistical quantities) in high-probability on intersectional fairness in the general case. Beyond their descriptive value, we show that these theoretical bounds can be leveraged to derive a heuristic improving the approximation and bounds of intersectional fairness by choosing, in a relevant manner, protected attributes for which we describe intersectional subgroups. Finally, we test the performance of our approximations and bounds on real and synthetic data-sets. | 翻訳日:2023-06-28 01:17:09 公開日:2023-06-23 |
# 確率的分類における予測多重性 Predictive Multiplicity in Probabilistic Classification ( http://arxiv.org/abs/2206.01131v3 ) ライセンス: Link先を確認 | Jamelle Watson-Daniels, David C. Parkes and Berk Ustun | (参考訳) 機械学習モデルは、消費者のデフォルトリスクの予測、深刻な病気に苦しむかどうかの予測、法廷に出廷するリスクの予測など、現実世界のリスクアセスメントタスクに使用されることが多い。
予測タスクに対してほぼ等しく機能する複数のモデルを考えると、これらのモデルでどの程度予測が変化するのか?
もし予測が類似のモデルに対して比較的一貫性があるなら、ペナルティ化された損失を最適化するモデルを選択する標準的なアプローチである。
しかし、同様のモデルで予測が大幅に異なる場合はどうだろう?
機械学習では、これは予測多重性(英: predictive multiplicity)と呼ばれる。
本稿では,確率的分類(正の結果の確率を推定する)における予測重複度を測定するための枠組みを提案する。
競合するモデルの集合におけるリスク推定の変動を捉える尺度を導入し、これらの指標を効率的かつ確実に計算する最適化手法を開発した。
実世界のタスクにおける予測多重度の発生頻度と頻度を示す。
さらに,予測多重度とデータセット特性(アウトレーヤ,分離性,多数少数性構造)の関係を解析することにより,予測多重度がどのように生じるのかを考察する。
本研究は,予測多重性をより広く報告する必要性を強調する。 Machine learning models are often used to inform real world risk assessment tasks: predicting consumer default risk, predicting whether a person suffers from a serious illness, or predicting a person's risk to appear in court. Given multiple models that perform almost equally well for a prediction task, to what extent do predictions vary across these models? If predictions are relatively consistent for similar models, then the standard approach of choosing the model that optimizes a penalized loss suffices. But what if predictions vary significantly for similar models? In machine learning, this is referred to as predictive multiplicity i.e. the prevalence of conflicting predictions assigned by near-optimal competing models. In this paper, we present a framework for measuring predictive multiplicity in probabilistic classification (predicting the probability of a positive outcome). We introduce measures that capture the variation in risk estimates over the set of competing models, and develop optimization-based methods to compute these measures efficiently and reliably for convex empirical risk minimization problems. We demonstrate the incidence and prevalence of predictive multiplicity in real-world tasks. Further, we provide insight into how predictive multiplicity arises by analyzing the relationship between predictive multiplicity and data set characteristics (outliers, separability, and majority-minority structure). Our results emphasize the need to report predictive multiplicity more widely. | 翻訳日:2023-06-28 01:15:56 公開日:2023-06-23 |
# oneq:フォトニック一方向量子計算のためのコンパイルフレームワーク OneQ: A Compilation Framework for Photonic One-Way Quantum Computation ( http://arxiv.org/abs/2209.01545v2 ) ライセンス: Link先を確認 | Hezi Zhang, Anbang Wu, Yuke Wang, Gushu Li, Hassan Shapourian, Alireza Shabani and Yufei Ding | (参考訳) 本稿では,一方向量子計算を現実的なフォトニック量子アーキテクチャに最適化する最初のフレームワークであるOneQを提案する。
固体量子ビット技術に対する以前のコンパイル作業とは異なり、我々の革新的なフレームワークはフォトニック量子コンピューティングにおけるユニークな課題に対処する。
具体的には、時間とともに量子ビットを動的に生成すること、1量子ビットと2量子ビットのゲートに頼るのではなく、測定によって全ての計算を実行すること、そして測定後に光子が即時に破壊されるという事実が含まれる。
この分野の先駆者として、我々はフォトニック・ワンウェイ量子コンピューティングの膨大な最適化可能性を実証し、oneqが計算資源要求を桁違いに減らす能力を示す。 In this paper, we propose OneQ, the first optimizing compilation framework for one-way quantum computation towards realistic photonic quantum architectures. Unlike previous compilation efforts for solid-state qubit technologies, our innovative framework addresses a unique set of challenges in photonic quantum computing. Specifically, this includes the dynamic generation of qubits over time, the need to perform all computation through measurements instead of relying on 1-qubit and 2-qubit gates, and the fact that photons are instantaneously destroyed after measurements. As pioneers in this field, we demonstrate the vast optimization potential of photonic one-way quantum computing, showcasing the remarkable ability of OneQ to reduce computing resource requirements by orders of magnitude. | 翻訳日:2023-06-28 00:57:48 公開日:2023-06-23 |
# LL-GNN:高エネルギー物理のためのFPGA上の低レイテンシグラフニューラルネットワーク LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics ( http://arxiv.org/abs/2209.14065v4 ) ライセンス: Link先を確認 | Zhiqiang Que, Hongxiang Fan, Marcus Loo, He Li, Michaela Blott, Maurizio Pierini, Alexander D. Tapper and Wayne Luk | (参考訳) 本研究では,低レイテンシグラフニューラルネットワーク(LL-GNN)設計のための新しいアーキテクチャを提案する。
fpgaベースのgnnを粒子検出器に組み込むことは、cernの大型ハドロン衝突型加速器実験でレベル1のトリガーで毎秒数百テラバイトのデータレートでオンラインイベント選択のためのネットワークをデプロイするのにサブマイクロ秒のレイテンシを必要とするため、ユニークな課題である。
本稿では,構造化随伴行列と列長データレイアウトを活用し,新たな外積ベース行列乗算手法を提案する。
さらに、不要なバウンダリを排除し、エンド・ツー・エンドの設計遅延をさらに低減するために、融合ステップを導入する。
さらに、GNN固有のアルゴリズム-ハードウェア共設計アプローチが提示され、より優れたレイテンシを持つ設計を見出すだけでなく、与えられたレイテンシ制約の下での高精度な設計も見出す。
これを容易にするために、この低レイテンシGNNハードウェアアーキテクチャのためのカスタマイズ可能なテンプレートを設計、オープンソース化し、高レベル合成ツールを用いた効率的なリソース利用による低レイテンシFPGA設計を可能にする。
評価の結果、FPGAの実装は最大9.0倍高速で、GPUの実装の最大12.4倍の消費電力を消費していることがわかった。
従来のFPGA実装と比較して、この作業は6.51から16.7倍のレイテンシを実現する。
さらに、FPGA設計のレイテンシは十分低く、サブマイクロ秒のリアルタイムコライダートリガシステムにGNNを配置できるため、精度の向上によるメリットが期待できる。
提案するll-gnn設計は,高度なアルゴリズムを用いて実験データを効率的に処理することにより,次世代のトリガーシステムを進化させる。 This work presents a novel reconfigurable architecture for Low Latency Graph Neural Network (LL-GNN) designs for particle detectors, delivering unprecedented low latency performance. Incorporating FPGA-based GNNs into particle detectors presents a unique challenge since it requires sub-microsecond latency to deploy the networks for online event selection with a data rate of hundreds of terabytes per second in the Level-1 triggers at the CERN Large Hadron Collider experiments. This paper proposes a novel outer-product based matrix multiplication approach, which is enhanced by exploiting the structured adjacency matrix and a column-major data layout. Moreover, a fusion step is introduced to further reduce the end-to-end design latency by eliminating unnecessary boundaries. Furthermore, a GNN-specific algorithm-hardware co-design approach is presented which not only finds a design with a much better latency but also finds a high accuracy design under given latency constraints. To facilitate this, a customizable template for this low latency GNN hardware architecture has been designed and open-sourced, which enables the generation of low-latency FPGA designs with efficient resource utilization using a high-level synthesis tool. Evaluation results show that our FPGA implementation is up to 9.0 times faster and consumes up to 12.4 times less power than a GPU implementation. Compared to the previous FPGA implementations, this work achieves 6.51 to 16.7 times lower latency. Moreover, the latency of our FPGA design is sufficiently low to enable deployment of GNNs in a sub-microsecond, real-time collider trigger system, enabling it to benefit from improved accuracy. The proposed LL-GNN design advances the next generation of trigger systems by enabling sophisticated algorithms to process experimental data efficiently. | 翻訳日:2023-06-28 00:49:28 公開日:2023-06-23 |
# 非エルミタン系における動的縮退と方向視認性 Dynamical Degeneracy Splitting and Directional Invisibility in Non-Hermitian Systems ( http://arxiv.org/abs/2211.07783v3 ) ライセンス: Link先を確認 | Kai Zhang, Chen Fang, Zhesen Yang | (参考訳) 本稿では,非エルミート系における異方性崩壊挙動を記述するために,動的退化分解の概念を紹介する。
動的退化分裂を伴うシステムには,2つの特徴があることを示す。
(i)周波数分解非エルミート皮膚効果を示す。
(ii)グリーン関数は与えられた周波数で異常を示し、スペクトル関数と異常散乱が均一に拡大する。
本研究では,波束力学に基づく方向可視性を提案し,より高次元の形状依存性スキン効果について検討する。
我々の研究は、非エルミート皮膚効果とグリーン機能との忠実な対応を解明し、この効果から生じる新しい物理現象の探索の指針となる。 In this paper, we introduce the concept of dynamical degeneracy splitting to describe the anisotropic decay behaviors in non-Hermitian systems. We demonstrate that systems with dynamical degeneracy splitting exhibit two distinctive features: (i) the system shows frequency-resolved non-Hermitian skin effect; (ii) Green's function exhibits anomalous at given frequency, leading to uneven broadening in spectral function and anomalous scattering. As an application, we propose directional invisibility based on wave packet dynamics to investigate the geometry-dependent skin effect in higher dimensions. Our work elucidates a faithful correspondence between non-Hermitian skin effect and Green's function, offering a guiding principle for exploration of novel physical phenomena emerging from this effect. | 翻訳日:2023-06-28 00:29:23 公開日:2023-06-23 |
# 広帯域ジョセフソンパラメトリックアイソレータ Wideband Josephson Parametric Isolator ( http://arxiv.org/abs/2212.08563v3 ) ライセンス: Link先を確認 | M. A. Beck, M. Selvanayagam, A. Carniol, S. Cairns, C. P. Mancini | (参考訳) 超伝導量子ビットベースの量子コンピュータを構築するために必要な低温ハードウェアは、様々なマイクロ波部品を必要とする。
これらの要素にはマイクロ波カプラ、フィルタ、増幅器、循環器/アイソレータが含まれる。
従来の離散的なコンポーネントとして実装されたこの周辺ハードウェアの統合は、全体のフットプリント、熱負荷、ノイズの追加を削減し、量子ビット数が100以上の量子プロセッサをスケールアップする上で重要な課題である。
導電体から量子ビットと共振器を分離するために一般的に使用されるフェライト系マイクロ波アイソレータは、現在でも離散部品として使われている体積最大のデバイスの一つとして存続する。ここでは、DC超伝導量子干渉デバイス(DC-SQUID)から派生した2ポート分離集積回路について述べる。
フラックス変調直流-SQUIDの3波マイクロ波混合特性を用いて非相互伝送を実現する。
複数のDC-SQUIDを多極共振器反転フィルタ構造に埋め込むと、直流-SQUIDのフラックスポンプによる3波混合により指向性マイクロ波電力の流れが得られることを示す。
3極フィルタデバイスにおいて,600mhz帯域上で15db以上の指向性を示す実験を行った。 The cryogenic hardware required to build a superconducting qubit based quantum computer demands a variety of microwave components. These elements include microwave couplers, filters, amplifiers, and circulators/isolators. Traditionally implemented as discrete components, integration of this peripheral hardware, in an effort to reduce overall footprint, thermal load, and added noise, is a key challenge to scaling modern quantum processors with qubit counts climbing over the 100+ mark. Ferrite--based microwave isolators, generally employed in the readout chain to decouple qubits and resonators from readout electronics, persist as one of the volumetrically largest devices still utilized as discrete components. Here we present an alternative two--port isolating integrated circuit derived from the DC Superconducting Quantum Interference Device (DC-SQUID). Non-reciprocal transmission is achieved using the three-wave microwave mixing properties of a flux-modulated DC--SQUID. We show that when multiple DC-SQUIDs are embedded in a multi--pole admittance inverting filter structure, the three-wave mixing derived from the flux pumping of the DC-SQUIDs can provide directional microwave power flow. For a three--pole filter device, we experimentally demonstrate a directionality greater than 15 dB over a 600 MHz bandwidth. | 翻訳日:2023-06-28 00:10:04 公開日:2023-06-23 |
# 可変決定周波数オプション批判 Variable Decision-Frequency Option Critic ( http://arxiv.org/abs/2212.04407v3 ) ライセンス: Link先を確認 | Amirmohammad Karimi, Jun Jin, Jun Luo, A. Rupam Mahmood, Martin Jagersand and Samuele Tosatto | (参考訳) 古典的な強化学習アルゴリズムでは、エージェントは離散時間と固定時間間隔で決定する。
決定の間隔が短すぎると、エージェントが目標を達成するために多数の決定をしなければならないため、エージェントがシステムの制御を失う可能性があるため、決定間の期間は重要なハイパーパラメータとなる。
しかし、物理系は必ずしも一定の制御周波数を必要としないため、学習エージェントの場合、可能であれば低い周波数、必要ならば高い周波数で操作することが好ましい。
提案するフレームワークはCTCO(Continuous-Time Continuous-Options)で,エージェントがオプションを可変期間のサブポリケーションとして選択する。
これらのオプションは時間連続であり、アクションのスムーズな変更を提供する任意の所望の頻度でシステムと対話することができる。
動作サイクルの異なる連続制御タスクにおける従来のRL法と時間的吸収RL法を比較し,CTCOの有効性を示す。
提案アルゴリズムの性能は,環境相互作用周波数の選択の影響を受けないことを示す。
さらに,sparse rewardの7自由度ロボットアームを用いた実世界の視覚到達作業におけるctcoの有効性を実証した。 In classic reinforcement learning algorithms, agents make decisions at discrete and fixed time intervals. The duration between decisions becomes a crucial hyperparameter, as setting it too short may increase the difficulty of the problem by requiring the agent to make numerous decisions to achieve its goal, while setting it too long can result in the agent losing control over the system. However, physical systems do not necessarily require a constant control frequency, and for learning agents, it is often preferable to operate with a low frequency when possible and a high frequency when necessary. We propose a framework called Continuous-Time Continuous-Options (CTCO), where the agent chooses options as sub-policies of variable durations. These options are time-continuous and can interact with the system at any desired frequency providing a smooth change of actions. We demonstrate the effectiveness of CTCO by comparing its performance to classical RL and temporal-abstraction RL methods on simulated continuous control tasks with various action-cycle times. We show that our algorithm's performance is not affected by choice of environment interaction frequency. Furthermore, we demonstrate the efficacy of CTCO in facilitating exploration in a real-world visual reaching task for a 7 DOF robotic arm with sparse rewards. | 翻訳日:2023-06-28 00:07:31 公開日:2023-06-23 |
# Calibeatingによるオンラインプラットスケーリング Online Platt Scaling with Calibeating ( http://arxiv.org/abs/2305.00070v2 ) ライセンス: Link先を確認 | Chirag Gupta, Aaditya Ramdas | (参考訳) オンライン・プラット・スケーリング(OPS)とオンライン・ロジスティック・レグレッションを組み合わせたオンライン・ポスト・ホック・キャリブレーション手法を提案する。
我々は,OPSが分布ドリフトを伴う非i.d.設定とi.d.設定の間で円滑に適応できることを実証した。
さらに、最高のPlatetスケーリングモデル自体が誤校正されたシナリオでは、最近開発されたcalalbeatingと呼ばれる手法を取り入れてOPSを強化し、より堅牢にする。
理論的には, OPS+calibeating法は, 逆数列のキャリブレーションが保証される。
実験的には、分布ドリフトのない合成および実世界のデータセットに対して有効であり、ハイパーパラメータチューニングなしで優れたパフォーマンスを達成する。
最後に、すべてのOPSのアイデアをベータスケーリングメソッドに拡張する。 We present an online post-hoc calibration method, called Online Platt Scaling (OPS), which combines the Platt scaling technique with online logistic regression. We demonstrate that OPS smoothly adapts between i.i.d. and non-i.i.d. settings with distribution drift. Further, in scenarios where the best Platt scaling model is itself miscalibrated, we enhance OPS by incorporating a recently developed technique called calibeating to make it more robust. Theoretically, our resulting OPS+calibeating method is guaranteed to be calibrated for adversarial outcome sequences. Empirically, it is effective on a range of synthetic and real-world datasets, with and without distribution drifts, achieving superior performance without hyperparameter tuning. Finally, we extend all OPS ideas to the beta scaling method. | 翻訳日:2023-06-27 23:01:15 公開日:2023-06-23 |
# 深層学習を用いたMRI画像における脳腫瘍の多重分類とセグメンテーション Brain tumor multi classification and segmentation in MRI images using deep learning ( http://arxiv.org/abs/2304.10039v2 ) ライセンス: Link先を確認 | Belal Amin, Romario Sameh Samir, Youssef Tarek, Mohammed Ahmed, Rana Ibrahim, Manar Ahmed, Mohamed Hassan | (参考訳) 本研究では,MRIによる脳腫瘍の分類と分類のための深層学習モデルを提案する。
この分類モデルはEfficientNetB1アーキテクチャに基づいており、画像は髄膜腫、グリオーマ、下垂体腺腫、腫瘍の4つのクラスに分類される。
セグメンテーションモデルはU-Netアーキテクチャに基づいており、MRI画像から腫瘍を正確にセグメンテーションするように訓練されている。
モデルは、公開データセットで評価され、高い精度とセグメンテーションのメトリクスを達成し、脳腫瘍の診断と治療における臨床使用の可能性を示す。 This study proposes a deep learning model for the classification and segmentation of brain tumors from magnetic resonance imaging (MRI) scans. The classification model is based on the EfficientNetB1 architecture and is trained to classify images into four classes: meningioma, glioma, pituitary adenoma, and no tumor. The segmentation model is based on the U-Net architecture and is trained to accurately segment the tumor from the MRI images. The models are evaluated on a publicly available dataset and achieve high accuracy and segmentation metrics, indicating their potential for clinical use in the diagnosis and treatment of brain tumors. | 翻訳日:2023-06-27 22:58:14 公開日:2023-06-23 |
# モバイル支払い受け入れのドライバー:ナイジェリアにおけるネットワーク外部性の影響 Drivers of Mobile Payment Acceptance:The Impact of Network Externalities in Nigeria ( http://arxiv.org/abs/2305.15436v3 ) ライセンス: Link先を確認 | Qasim Ajao, Olukotun Oludamilare, and Lanre Sadeeq | (参考訳) モバイル決済の普及は、スマートフォンとそのアプリケーションの普及に起因する可能性がある。
生活を単純化する可能性にもかかわらず、アフリカ諸国での採用は限られている。
本稿では,従来の技術受容要因に加えてネットワーク外部性の影響を探ることで,ナイジェリアにおけるモバイル決済の受容に影響を与える重要な要因の理解を深めることを目的とする。
これは、パフォーマンスの期待値、労力の期待値、社会的影響、信頼、ネットワークの外部性がモバイル決済の受け入れの鍵となると仮定している。
調査の結果は、従来のドライバーは依然としてモバイル決済を採用する顧客の意思に影響を与えているが、ネットワーク外部性は最も強い影響を持っていることを示している。
論文は将来の研究への勧告を提供するが、その結果は努力期待の影響を裏付けていない。 The rising popularity of mobile payments can be attributed to the widespread use of smartphones and their applications. Despite its potential to simplify our lives, its adoption in African countries has been limited. This paper aims to enhance our understanding of the critical factors that influence the acceptance of mobile payments in Nigeria by exploring the impact of network externalities in addition to conventional technology acceptance factors. It posits that performance expectancy, effort expectancy, social influence, trust, and network externality are the key drivers of mobile payment acceptance. The research findings indicate that while traditional drivers still have an impact on customer's willingness to adopt mobile payment, network externalities have the strongest influence. The paper provides recommendations for future research, although the results did not support the impact of effort expectancy. | 翻訳日:2023-06-27 22:42:04 公開日:2023-06-23 |
# データ中毒下におけるハイパーパラメータ学習:多目的二レベル最適化による正規化の影響分析 Hyperparameter Learning under Data Poisoning: Analysis of the Influence of Regularization via Multiobjective Bilevel Optimization ( http://arxiv.org/abs/2306.01613v2 ) ライセンス: Link先を確認 | Javier Carnerero-Cano, Luis Mu\~noz-Gonz\'alez, Phillippa Spencer, Emil C. Lupu | (参考訳) 機械学習(ml)アルゴリズムは、アルゴリズムのパフォーマンスを意図的に低下させるためにトレーニングデータの一部が操作される中毒攻撃に対して脆弱である。
最適な攻撃は二段階最適化問題として定式化でき、最悪のシナリオにおけるロバスト性を評価するのに役立つ。
ハイパーパラメータが一定であると考える現在のアプローチは、アルゴリズムの頑健さと正規化の影響を過度に悲観的に捉えていることを示している。
本稿では,ハイパーパラメータに対する攻撃の影響を考慮し,多目的二段階最適化問題として攻撃をモデル化する,新しい最適攻撃定式化を提案する。
これにより、最適な攻撃を定式化し、ハイパーパラメータを学習し、最悪の場合の堅牢性を評価することができる。
この攻撃定式化を、$L_2$と$L_1$正規化を用いて複数のML分類器に適用する。
複数のデータセットに対する評価は, 過去の戦略の限界を確認し, 毒性攻撃の影響を抑えるために$L_2$と$L_1$正規化を使用することの利点を証明している。 Machine Learning (ML) algorithms are vulnerable to poisoning attacks, where a fraction of the training data is manipulated to deliberately degrade the algorithms' performance. Optimal attacks can be formulated as bilevel optimization problems and help to assess their robustness in worst-case scenarios. We show that current approaches, which typically assume that hyperparameters remain constant, lead to an overly pessimistic view of the algorithms' robustness and of the impact of regularization. We propose a novel optimal attack formulation that considers the effect of the attack on the hyperparameters and models the attack as a multiobjective bilevel optimization problem. This allows to formulate optimal attacks, learn hyperparameters and evaluate robustness under worst-case conditions. We apply this attack formulation to several ML classifiers using $L_2$ and $L_1$ regularization. Our evaluation on multiple datasets confirms the limitations of previous strategies and evidences the benefits of using $L_2$ and $L_1$ regularization to dampen the effect of poisoning attacks. | 翻訳日:2023-06-27 22:23:20 公開日:2023-06-23 |
# 大規模言語モデルによるエビデンスに基づくインストラクショナルデザインエキスパートのスケーリング Scaling Evidence-based Instructional Design Expertise through Large Language Models ( http://arxiv.org/abs/2306.01006v2 ) ライセンス: Link先を確認 | Gautam Yadav | (参考訳) 本稿では,大規模言語モデル(LLM),特に GPT-4 を教育設計の分野で活用するための包括的探索を提案する。
エビデンスに基づくインストラクショナルデザインの専門知識のスケールアップに焦点をあて,理論教育研究と実践的実践のギャップを埋めることを目的とした。
我々は,AIによるコンテンツ生成のメリットと限界について論じ,教育資料の品質確保に人的監督が必要であることを強調した。
本研究は,gpt-4を用いて複雑な高次評価を行い,異なるコースでアクティブラーニングコンポーネントを作成するという,2つの詳細なケーススタディによって明らかにされる。
経験から,テンプレートの利用,微調整,予期せぬ出力処理,LCM連鎖の実装,参照の引用,アウトプットの評価,ルーリックの生成,グレーディング,イントラクタの生成など,教育設計タスクにおいてLLMを効果的に活用するためのベストプラクティスを提供する。
また,gpt-4をカスタマイズした教材設計の原則を教育研究から抽出し,ユーザ独自の教育的文脈に対するパーソナライズされたエビデンスに基づく戦略を作成する,今後のレコメンデーションシステムのビジョンを共有した。
本研究は、ai駆動型言語モデルの潜在能力を理解・最適活用し、教育成果の向上に寄与する。 This paper presents a comprehensive exploration of leveraging Large Language Models (LLMs), specifically GPT-4, in the field of instructional design. With a focus on scaling evidence-based instructional design expertise, our research aims to bridge the gap between theoretical educational studies and practical implementation. We discuss the benefits and limitations of AI-driven content generation, emphasizing the necessity of human oversight in ensuring the quality of educational materials. This work is elucidated through two detailed case studies where we applied GPT-4 in creating complex higher-order assessments and active learning components for different courses. From our experiences, we provide best practices for effectively using LLMs in instructional design tasks, such as utilizing templates, fine-tuning, handling unexpected output, implementing LLM chains, citing references, evaluating output, creating rubrics, grading, and generating distractors. We also share our vision of a future recommendation system, where a customized GPT-4 extracts instructional design principles from educational studies and creates personalized, evidence-supported strategies for users' unique educational contexts. Our research contributes to understanding and optimally harnessing the potential of AI-driven language models in enhancing educational outcomes. | 翻訳日:2023-06-27 22:22:37 公開日:2023-06-23 |
# 量子ノイズ限定進行波パラメトリック増幅器の実証 Demonstration of a Quantum Noise Limited Traveling-Wave Parametric Amplifier ( http://arxiv.org/abs/2306.11028v3 ) ライセンス: Link先を確認 | Nikita Klimovich, Peter Day, Shibo Shu, Byeong Ho Eom, Henry Leduc, and Andrew Beyer | (参考訳) 量子コンピューティングの最近の進歩と天体物理学の新しい検出器技術の発展により、高利得、広帯域、量子制限増幅器の必要性が高まっている。
逆NbTiNマイクロストリップとアモルファスシリコン誘電体を用いた純進行波パラメトリック増幅器(TWPA)を提案する。
分散工学により、50〜\Omega$インピーダンスマッチングを得ることができ、様々な周波数で3波混合増幅を位相マッチングしながら、望ましくないパラメトリック過程を抑えることができる。
その結果、20dBゲインと20mKの量子制限ノイズ性能を備えたブロードバンド増幅器が動作した。
さらに、増幅器が位相感度の高い単一周波数において、真空ノイズの8dBを更に実証する。 Recent progress in quantum computing and the development of novel detector technologies for astrophysics is driving the need for high-gain, broadband, and quantum-limited amplifiers. We present a purely traveling-wave parametric amplifier (TWPA) using an inverted NbTiN microstrip and amorphous Silicon dielectric. Through dispersion engineering, we are able to obtain $50~\Omega$ impedance matching and suppress undesired parametric processes while phase matching the three-wave-mixing amplification across a large range of frequencies. The result is a broadband amplifier operating with 20 dB gain and quantum-limited noise performance at 20 mK. At the single frequency where the amplifier is phase sensitive, we further demonstrate 8 dB of vacuum noise squeezing. | 翻訳日:2023-06-27 20:06:17 公開日:2023-06-23 |
# オープン量子系のコヒーレント状態ラダー時間依存性変分原理 Coherent-State Ladder Time-Dependent Variational Principle for Open Quantum Systems ( http://arxiv.org/abs/2306.13708v1 ) ライセンス: Link先を確認 | David S. Schlegel, Fabrizio Minganti, Vincenzo Savona | (参考訳) 相互作用する多ボソン開量子系の動的シミュレーションのための新しいパラダイムを提案する。
この方法は、光子付加コヒーレント状態の重畳という観点から、$n$-ボソン密度行列の変分アンザッツに依存する。
これは、状態が転位した場の上の量子ゆらぎによってよく説明される駆動散逸系のシミュレーションにおいて最も効率的であり、フォック空間展開を用いて非常に困難である、大きな占有数を持つ複数の結合モードのシミュレーションに適している。
本手法をいくつかの例で検証し,相互作用するボソニック系と猫量子ビットの予測シミュレーションに応用する可能性を示した。 We present a new paradigm for the dynamical simulation of interacting many-boson open quantum systems. The method relies on a variational ansatz for the $n$-boson density matrix, in terms of a superposition of photon-added coherent states. It is most efficient for the simulation of driven-dissipative systems where the state is well described by quantum fluctuations on top of a displaced field, making it suitable for the simulation of several coupled modes with large occupation numbers, that are otherwise very challenging using a Fock-space expansion. We test our method on several examples, demonstrating its potential application to the predictive simulation of interacting bosonic systems and cat qubits. | 翻訳日:2023-06-27 19:49:19 公開日:2023-06-23 |
# スピンスピン相互作用を持つコーネルポテンシャルを用いたクォーコニア質量スペクトルの最近の計算について On a recent calculation of the mass spectra of quarkonia using the Cornell potential with spin-spin interactions ( http://arxiv.org/abs/2306.13705v1 ) ライセンス: Link先を確認 | Francisco M. Fern\'andez | (参考訳) 我々は、クォーコニアの質量スペクトルに対するスピンスピン相互作用を伴うコーネルポテンシャルの最近の応用を分析し、著者らが実際にクラッツァー-フーズポテンシャルを用いたことを示した。
彼らは故意にあるポテンシャルを、無効な変換によって他方に変換した。 We analyse a recent application of the Cornell potential with spin-spin interaction to the mass spectra of quarkonia and show that the authors have in fact used the Kratzer-Fues potential. They inadvertently converted one potential into the other by means of an invalid transformation. | 翻訳日:2023-06-27 19:49:06 公開日:2023-06-23 |
# ユースケースカード:欧州AI法に触発されたユースケースレポートフレームワーク Use case cards: a use case reporting framework inspired by the European AI Act ( http://arxiv.org/abs/2306.13701v1 ) ライセンス: Link先を確認 | Isabelle Hupont, David Fern\'andez-Llorca, Sandra Baldassarri, Emilia G\'omez | (参考訳) 最近の人工知能(AI)コミュニティによる、モデル、メソッド、システム、データセットの文書化の標準化手順への取り組みにもかかわらず、現在、欧州AI法(AI Act)のリスクベースのアプローチに沿ったユースケースに焦点を当てた方法論はない。
本稿では,UML(Unified Markup Language)標準に含まれるユースケースモデリングに基づいて,ユースケースの文書化のための新しいフレームワークを提案する。
他のドキュメンテーション方法論とは異なり、私たちはAIシステムの意図された目的と運用上の使用に焦点を当てます。
主に2つの部分からなる。
まず、UMLベースのテンプレートを使用して、AIシステムのリスクレベルを暗黙的に評価し、関連する要件を定義する。
第2に、システムユーザ間のインタラクションと関係に関する情報を提供するように設計されたUMLダイアグラム。
提案された枠組みは、関連するEU政策の専門家と科学者のチームを含む共同設計プロセスの結果である。
我々は、異なる背景を持つ11人の専門家と、前提条件としてAI法に関する合理的な知識で提案を検証しました。
共同設計および検証プロセスで使用される5つの「ユースケースカード」を提供する。
そして、この方法論が、ユースケースを文書化し、リスクレベルを評価し、異なる要件に適応させ、aiの既存の使用方法のカタログを作成するための、政策立案者やプロバイダにとって有用なツールになることを願っている。 Despite recent efforts by the Artificial Intelligence (AI) community to move towards standardised procedures for documenting models, methods, systems or datasets, there is currently no methodology focused on use cases aligned with the risk-based approach of the European AI Act (AI Act). In this paper, we propose a new framework for the documentation of use cases, that we call "use case cards", based on the use case modelling included in the Unified Markup Language (UML) standard. Unlike other documentation methodologies, we focus on the intended purpose and operational use of an AI system. It consists of two main parts. Firstly, a UML-based template, tailored to allow implicitly assessing the risk level of the AI system and defining relevant requirements. Secondly, a supporting UML diagram designed to provide information about the system-user interactions and relationships. The proposed framework is the result of a co-design process involving a relevant team of EU policy experts and scientists. We have validated our proposal with 11 experts with different backgrounds and a reasonable knowledge of the AI Act as a prerequisite. We provide the 5 "use case cards" used in the co-design and validation process. "Use case cards" allows framing and contextualising use cases in an effective way, and we hope this methodology can be a useful tool for policy makers and providers for documenting use cases, assessing the risk level, adapting the different requirements and building a catalogue of existing usages of AI. | 翻訳日:2023-06-27 19:48:59 公開日:2023-06-23 |
# AI生成合成データセットの可能性を探る:ChatGPTを用いたテレマティクスデータの事例 Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study on Telematics Data with ChatGPT ( http://arxiv.org/abs/2306.13700v1 ) ライセンス: Link先を確認 | Ryan Lingo | (参考訳) この研究は、openaiの強力な言語モデルであるchatgptを活用し、特にテレマティクス領域における合成データセットの構築と利用に焦点をあてている。
合成データセットは、データのプライバシ、不足、変数の制御に関連する課題に対する効果的な解決策を提供する。
しかし、これらのデータセットの有用性は、多様性、妥当性、一貫性のレンズを通して測定される品質に大きく依存する。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
この実験では、chatgptの反復的な指導、プロンプトの段階的な洗練、オハイオ州コロンバスの仮想都市計画シナリオのための包括的なデータセットの作成などが行われた。
生成時、合成データセットは、予め識別された品質パラメータに着目し、詳細な分析のために記述統計と可視化技術を用いて評価された。
合成データセットは実際の世界データを完全に置き換えるものではないが、精度で実行される特定のユースケースにおけるそれらのポテンシャルは重要である。
この研究は、chatgptのようなaiモデルの、テレマティクスのような複雑なセクタのデータ可用性向上の可能性を強調し、無数の新しい研究機会への道を開く。 This research delves into the construction and utilization of synthetic datasets, specifically within the telematics sphere, leveraging OpenAI's powerful language model, ChatGPT. Synthetic datasets present an effective solution to challenges pertaining to data privacy, scarcity, and control over variables - characteristics that make them particularly valuable for research pursuits. The utility of these datasets, however, largely depends on their quality, measured through the lenses of diversity, relevance, and coherence. To illustrate this data creation process, a hands-on case study is conducted, focusing on the generation of a synthetic telematics dataset. The experiment involved an iterative guidance of ChatGPT, progressively refining prompts and culminating in the creation of a comprehensive dataset for a hypothetical urban planning scenario in Columbus, Ohio. Upon generation, the synthetic dataset was subjected to an evaluation, focusing on the previously identified quality parameters and employing descriptive statistics and visualization techniques for a thorough analysis. Despite synthetic datasets not serving as perfect replacements for actual world data, their potential in specific use-cases, when executed with precision, is significant. This research underscores the potential of AI models like ChatGPT in enhancing data availability for complex sectors like telematics, thus paving the way for a myriad of new research opportunities. | 翻訳日:2023-06-27 19:48:35 公開日:2023-06-23 |
# 生体分子相互作用予測のための曲率グラフ畳み込みネットワーク Curvature-enhanced Graph Convolutional Network for Biomolecular Interaction Prediction ( http://arxiv.org/abs/2306.13699v1 ) ライセンス: Link先を確認 | Cong Shen, Pingjian Ding, Junjie Wee, Jialin Bi, Jiawei Luo and Kelin Xia | (参考訳) 幾何学的深層学習は、非ユークリッドデータ解析において大きな可能性を証明している。
学習アーキテクチャにおける幾何学的洞察の取り入れは、その成功に不可欠である。
本稿では, 初めて生物分子相互作用予測のための曲率拡張グラフ畳み込みネットワーク(cgcn)を提案する。
我々のCGCNはOllivier-Ricci曲率(ORC)を用いてネットワーク局所構造を特徴づけ、GCNの学習能力を高める。
より具体的には、ORCはノード近傍の局所的トポロジーに基づいて評価され、さらにメッセージパッシング手順における特徴集約の重みとして使われる。
cgcnモデルは14の現実世界の2分子相互作用ネットワークと一連のシミュレーションデータで広く検証されている。
CGCNは最先端の結果が得られることが判明した。
われわれが知る限り、既存のモデルでは14の現実世界のデータセットのうち13つを上回り、残りのモデルでは第2位にランクインしている。
シミュレーションデータから, 正負曲率, ネットワーク密度, ネットワークサイズ(500以上)に関わらず, 従来のGCNモデルよりもCGCNモデルの方が優れていることが示された。 Geometric deep learning has demonstrated a great potential in non-Euclidean data analysis. The incorporation of geometric insights into learning architecture is vital to its success. Here we propose a curvature-enhanced graph convolutional network (CGCN) for biomolecular interaction prediction, for the first time. Our CGCN employs Ollivier-Ricci curvature (ORC) to characterize network local structures and to enhance the learning capability of GCNs. More specifically, ORCs are evaluated based on the local topology from node neighborhoods, and further used as weights for the feature aggregation in message-passing procedure. Our CGCN model is extensively validated on fourteen real-world bimolecular interaction networks and a series of simulated data. It has been found that our CGCN can achieve the state-of-the-art results. It outperforms all existing models, as far as we know, in thirteen out of the fourteen real-world datasets and ranks as the second in the rest one. The results from the simulated data show that our CGCN model is superior to the traditional GCN models regardless of the positive-to-negativecurvature ratios, network densities, and network sizes (when larger than 500). | 翻訳日:2023-06-27 19:48:12 公開日:2023-06-23 |
# 住民参加型政策形成による都市生活改善--スイスにおけるデータ駆動型アプローチ Improving City Life via Legitimate and Participatory Policy-making: A Data-driven Approach in Switzerland ( http://arxiv.org/abs/2306.13696v1 ) ライセンス: Link先を確認 | Thomas Wellings and Srijoni Majumdar and Regula H\"anggli Fricker and Evangelos Pournaras | (参考訳) 本稿では,公共資金の流通に関する都市政策立案者が直面する課題に対処する,新たなデータ駆動型アプローチを提案する。
客観的な(データ駆動)エビデンスに基づく生活の質を改善するための予算プロセスの提供は、これまで政策決定において欠落した要素であった。
本稿では,スイスのアララウ市における1,204人の市民を対象に,意思決定の正当性に影響を与える洞察力のある指標を含む調査データを分析した。
私たちのアプローチは2倍です。
一方,我々は,政策立案者の意思決定の正当性を最適化し,正当性に最も大きな利益をもたらす近隣やプロジェクトへの投資のレベルを特定することを目的とする。
そこで我々は,政策立案者に対して,文脈に依存しない新たな正当性指標を導入する。
この指標は、投資すべき地域やプロジェクトに対する決定的な集団選好と決定的でない集団選好を区別することができ、政策立案者は影響のあるボトムアップの相談や参加的なイニシアティブ(例えば参加予算)を優先することができる。
この基準により、政策立案者は様々なプロジェクトセクターや地区(正当性向上の観点から)への最適な投資数を特定できる。
一方、我々は、正確な分類モデルと移転の評価を通じて、満足度と参加要因が生活の質に影響を与える政策立案者にガイダンスを提供することを目的とする。
政策立案者は、その戦略をさらに洗練させ、市民の生活の質に大きな利益をもたらす目標投資を行うことができるかもしれない。
これらの発見は、スイスで直接民主主義を実践するための変革的な洞察と、世界中の政策決定の青写真を提供すると期待されている。 This paper introduces a novel data-driven approach to address challenges faced by city policymakers concerning the distribution of public funds. Providing budgeting processes for improving quality of life based on objective (data-driven) evidence has been so far a missing element in policy-making. This paper focuses on a case study of 1,204 citizens in the city of Aarau, Switzerland, and analyzes survey data containing insightful indicators that can impact the legitimacy of decision-making. Our approach is twofold. On the one hand, we aim to optimize the legitimacy of policymakers' decisions by identifying the level of investment in neighborhoods and projects that offer the greatest return in legitimacy. To do so, we introduce a new context-independent legitimacy metric for policymakers. This metric allows us to distinguish decisive vs. indecisive collective preferences for neighborhoods or projects on which to invest, enabling policymakers to prioritize impactful bottom-up consultations and participatory initiatives (e.g., participatory budgeting). The metric also allows policymakers to identify the optimal number of investments in various project sectors and neighborhoods (in terms of legitimacy gain). On the other hand, we aim to offer guidance to policymakers concerning which satisfaction and participation factors influence citizens' quality of life through an accurate classification model and an evaluation of relocations. By doing so, policymakers may be able to further refine their strategy, making targeted investments with significant benefits to citizens' quality of life. These findings are expected to provide transformative insights for practicing direct democracy in Switzerland and a blueprint for policy-making to adopt worldwide. | 翻訳日:2023-06-27 19:47:52 公開日:2023-06-23 |
# 深層学習を用いたカラードプラ心エコー図の位相アンラッピング Phase Unwrapping of Color Doppler Echocardiography using Deep Learning ( http://arxiv.org/abs/2306.13695v1 ) ライセンス: Link先を確認 | Hang Jung Ling, Olivier Bernard, Nicolas Ducros, Damien Garcia | (参考訳) カラードプラ心エコー法(color doppler echocardiography)は、心内血流に関するリアルタイム情報を提供する非侵襲的画像法である。
左心室の尖端長軸視では、カラードプラは、特に心臓の充填と放出の間、位相包みまたはエイリアシングを受ける。
カラードップラーによる定量的方法の設定には,このラッピングアーティファクトを補正する必要がある。
カラードプラ心エコー画像の切り離しと, nnU-Netモデルとトランスフォーマーモデルに基づく2つの最先端セグメンテーション手法の有効性を比較検討した。
そこで本研究では,nnu-netに基づく手法が最適な処理結果を提供し,その後にプライマル・デュアル・アプローチとトランスフォーマー・ベースの手法が得られた。
注目すべきは、訓練可能なパラメータが著しく少ない原始双対ネットワークは、他の2つの手法に対して競合的に実行し、深層展開法の高い可能性を示したことである。
以上の結果から,カラードプラ心エコー画像のアーティファクトを効果的に除去する深層学習手法が,最先端の半自動技術であるDeANより優れていることが示唆された。
総じて,深層学習に基づく手法は,下流の定量的解析にカラードップラー像を効果的に前処理できる可能性が示唆された。 Color Doppler echocardiography is a widely used non-invasive imaging modality that provides real-time information about the intracardiac blood flow. In an apical long-axis view of the left ventricle, color Doppler is subject to phase wrapping, or aliasing, especially during cardiac filling and ejection. When setting up quantitative methods based on color Doppler, it is necessary to correct this wrapping artifact. We developed an unfolded primal-dual network to unwrap (dealias) color Doppler echocardiographic images and compared its effectiveness against two state-of-the-art segmentation approaches based on nnU-Net and transformer models. We trained and evaluated the performance of each method on an in-house dataset and found that the nnU-Net-based method provided the best dealiased results, followed by the primal-dual approach and the transformer-based technique. Noteworthy, the primal-dual network, which had significantly fewer trainable parameters, performed competitively with respect to the other two methods, demonstrating the high potential of deep unfolding methods. Our results suggest that deep learning-based methods can effectively remove aliasing artifacts in color Doppler echocardiographic images, outperforming DeAN, a state-of-the-art semi-automatic technique. Overall, our results show that deep learning-based methods have the potential to effectively preprocess color Doppler images for downstream quantitative analysis. | 翻訳日:2023-06-27 19:47:23 公開日:2023-06-23 |
# 医用画像に対する大規模セグメンテーションモデル(sam)の効率的適応法 How to Efficiently Adapt Large Segmentation Model(SAM) to Medical Images ( http://arxiv.org/abs/2306.13731v1 ) ライセンス: Link先を確認 | Xinrong Hu, Xiaowei Xu, and Yiyu Shi | (参考訳) 新たなスケールセグメンテーションモデルであるSegment Anything (SAM)は、自然画像のゼロショットセグメンテーションにおいて印象的な機能を示している。
しかし、医療画像に適用すると、SAMは顕著なパフォーマンス低下に悩まされる。
SAMをコンピュータビジョンコミュニティの真の「基礎モデル」にするためには、SAMを医療画像データセットにカスタマイズする効率的な方法を見つけることが重要である。
本研究では,SAMエンコーダの重みの大部分をエンコーダが寄与するため,SAMエンコーダを凍結し,軽量なタスク固有予測ヘッドを微調整することを提案する。
さらにSAMはプロンプト可能なモデルであり、すべてのアプリケーションケースでプロンプトが必ずしも利用可能ではなく、複数のクラスセグメンテーションの正確なプロンプトも時間を要する。
そこで本研究では,ViT,CNN,線形層を含む3種類のプロンプトフリー予測ヘッドについて検討する。
ViTヘッドの場合、SAMのマスクデコーダのプロンプトトークンを除去し、AutoSAMと命名する。
AutoSAMは変更後の1つの推論で、異なるクラスのマスクを生成することもできる。
本手法のラベル効率を評価するために,公開医用画像セグメンテーションデータセットにおける3つの予測ヘッドの結果を限定ラベルデータと比較した。
実験によると、samの微調整は、1つのラベル付きボリュームでも医療用画像データセットのパフォーマンスを大幅に向上させる。
さらに、AutoSAMとCNN予測ヘッドは、アノテーション不足時にスクラッチからのトレーニングや自己教師型学習アプローチよりもセグメンテーション精度が優れている。 The emerging scale segmentation model, Segment Anything (SAM), exhibits impressive capabilities in zero-shot segmentation for natural images. However, when applied to medical images, SAM suffers from noticeable performance drop. To make SAM a real ``foundation model" for the computer vision community, it is critical to find an efficient way to customize SAM for medical image dataset. In this work, we propose to freeze SAM encoder and finetune a lightweight task-specific prediction head, as most of weights in SAM are contributed by the encoder. In addition, SAM is a promptable model, while prompt is not necessarily available in all application cases, and precise prompts for multiple class segmentation are also time-consuming. Therefore, we explore three types of prompt-free prediction heads in this work, include ViT, CNN, and linear layers. For ViT head, we remove the prompt tokens in the mask decoder of SAM, which is named AutoSAM. AutoSAM can also generate masks for different classes with one single inference after modification. To evaluate the label-efficiency of our finetuning method, we compare the results of these three prediction heads on a public medical image segmentation dataset with limited labeled data. Experiments demonstrate that finetuning SAM significantly improves its performance on medical image dataset, even with just one labeled volume. Moreover, AutoSAM and CNN prediction head also has better segmentation accuracy than training from scratch and self-supervised learning approaches when there is a shortage of annotations. | 翻訳日:2023-06-27 19:40:41 公開日:2023-06-23 |
# 両面置換反転問題について On the Two-sided Permutation Inversion Problem ( http://arxiv.org/abs/2306.13729v1 ) ライセンス: Link先を確認 | Gorjan Alagic and Chen Bai and Alexander Poremba and Kaiyan Shi | (参考訳) 置換反転問題において、タスクは、置換へのオラクルアクセスを与えられたチャレンジ値のプリイメージを見つけることである。
これはクエリ複雑性の根本的な問題であり、多くのコンテキスト、特に暗号に現れる。
本研究では,量子クエリが量子列の前方方向と逆方向の両方に許容されるような設定について検討する。
この設定の中で、逆アルゴリズムの2つの選択肢として、置換に関する量子アドバイスが得られるか、前置画像全体(検索)を生成するか、第1のビットのみを生成するか(決定)を考える。
逆問題の結果の変動の硬さを結合するいくつかの定理を証明し、多くの下界を確立する。
以上の結果から,逆問題自体を問合せできない場合,逆問題に対して逆数アクセスが与えられると,逆問題はかなり難しくなる可能性が示唆された。 In the permutation inversion problem, the task is to find the preimage of some challenge value, given oracle access to the permutation. This is a fundamental problem in query complexity, and appears in many contexts, particularly cryptography. In this work, we examine the setting in which the oracle allows for quantum queries to both the forward and the inverse direction of the permutation -- except that the challenge value cannot be submitted to the latter. Within that setting, we consider two options for the inversion algorithm: whether it can get quantum advice about the permutation, and whether it must produce the entire preimage (search) or only the first bit (decision). We prove several theorems connecting the hardness of the resulting variations of the inversion problem, and establish a number of lower bounds. Our results indicate that, perhaps surprisingly, the inversion problem does not become significantly easier when the adversary is granted oracle access to the inverse, provided it cannot query the challenge itself. | 翻訳日:2023-06-27 19:40:17 公開日:2023-06-23 |
# ボットネット検出における量子サイバーセキュリティ分析の活用:ツリーアルゴリズムによる安定したアーキテクチャとスピードアップ Enabling Quantum Cybersecurity Analytics in Botnet Detection: Stable Architecture and Speed-up through Tree Algorithms ( http://arxiv.org/abs/2306.13727v1 ) ライセンス: Link先を確認 | Madjid Tehrani, Eldar Sultanow, William J Buchanan, Malik Amir, Anja Jeschke, Raymond Chow, Mouad Lemoudden | (参考訳) 最初に、100個のデータサンプルと、5000個のデータサンプルを持つ実デバイスベースのシミュレーションを備えた実量子コンピュータ上で、ハイブリッド機械学習手法の実行を可能にし、2022年以降、1000個のデータサンプルに対処し、量子実デバイス上でのシミュレーションではなく、量子シミュレータ(純粋なソフトウェアベースのエミュレータ)上でのみ、現在よりも優れている。
さらに、報告された精度76.8%を平均精度89.0%で上回り、全計算時間は382秒に過ぎなかった。
彼らは実行時間を報告しなかった。
まず、実際の量子デバイス上でHQMLアルゴリズムの実行を可能にする安定化された量子アーキテクチャを提供する。
第二に、Hoeffding決定木アルゴリズムに基づくハイブリッド量子二項分類アルゴリズムの新たな形式を設計する。
これらのアルゴリズムは、通常のループベースのオプティマイザと比較して実際の量子デバイスに必要なショット数を大幅に削減するために、バッチ実行を通じて前述のスピードアップを導く。
そのインクリメンタルな性質は、DGAボットネット検出のためのビッグデータオンラインストリーミングの目的に役立つ。
これらの2つのステップにより、DGAボットネット検出の例と量子強化SIEMの例に基づいて、ハイブリッド量子機械学習をサイバーセキュリティ分析の分野に適用し、量子サイバーセキュリティ分析を可能にする。
量子シミュレータ aer とライブラリ qiskit を用いて実験を行い,ms azure quantum から ionq, rigetti, quantinuum の3種類の量子デバイスについて実験を行った。
これらのツールが組み合わされたのは初めてです。 For the first time, we enable the execution of hybrid machine learning methods on real quantum computers, with 100 data samples, and also with real-device-based simulations, with 5,000 data samples and thereby outperforming the current state of research of Suryotrisongko and Musashi from the year 2022 who were dealing with 1,000 data samples and not with simulations on quantum real devices but on quantum simulators (i.e. pure software-based emulators) only. Additionally, we beat their reported accuracy of 76.8% by an average accuracy of 89.0%, all of this in a total computation time of 382 seconds only. They did not report the execution time. We gain this significant progress by a two-fold strategy: First, we provide a stabilized quantum architecture that enables us to execute HQML algorithms on real quantum devices. Second, we design a new form of hybrid quantum binary classification algorithms that are based on Hoeffding decision tree algorithms. These algorithms lead to the mentioned speed-up through their batch-wise execution in order to drastically reduce the number of shots needed for the real quantum device compared to standard loop-based optimizers. Their incremental nature serves the purpose of big data online streaming for DGA botnet detection. These two steps allow us to apply hybrid quantum machine learning to the field of cybersecurity analytics on the example of DGA botnet detection and how quantum-enhanced SIEM and, thereby, quantum cybersecurity analytics is made possible. We conduct experiments using the library Qiskit with quantum simulator Aer as well as on three different real quantum devices from MS Azure Quantum, naming IonQ, Rigetti and Quantinuum. It is the first time that these tools have been combined. | 翻訳日:2023-06-27 19:40:01 公開日:2023-06-23 |
# 夜間・低照度都市運転シーンにおけるパノプティカルセグメンテーションの改善 Improving Panoptic Segmentation for Nighttime or Low-Illumination Urban Driving Scenes ( http://arxiv.org/abs/2306.13725v1 ) ライセンス: Link先を確認 | Ankur Chrungoo | (参考訳) 自動運転車と運転システムは、周囲の環境を理解するための重要なツールとしてシーン解析を使用する。
パノプティカルセグメンテーション(英: Panoptic segmentation)は、このユースケースにおいて重要な技術であることを示す最先端技術である。
ディープラーニングに基づくアーキテクチャは、近年、効果的で効率的なPanoptic Segmentationに活用されている。
しかし、照明の悪い暗いシーンや夜間のイメージといった悪条件の場合、既存の手法は昼間画像に比べて性能が劣る。
結果の悪い要因の1つは、都会の運転シーンに十分なアノテートされた夜間画像がないことである。
本研究では,まず,夜間や低照明の都市運転シーンにおけるパノプティックセグメンテーションのロバスト性を改善するために,ドメイン翻訳手法を用いて2つの新しい手法を提案する。
提案されたアプローチでは、cyclegan(zhu et al., 2017)を使用して、既存のpanopticアノテーションを夜間画像に変換する。
実験では,変換したCityscapesデータセットのPanopticセグメンテーション性能が,+10% PQ,+12% RQ,+2% SQ,+14% mIoU,+10% AP50絶対ゲインで大幅に向上した。
アプローチ2は、夜間運転環境の改善したロバスト性を示す。
どちらのアプローチも、包括的な定量的および定性的分析によってサポートされている。 Autonomous vehicles and driving systems use scene parsing as an essential tool to understand the surrounding environment. Panoptic segmentation is a state-of-the-art technique which proves to be pivotal in this use case. Deep learning-based architectures have been utilized for effective and efficient Panoptic Segmentation in recent times. However, when it comes to adverse conditions like dark scenes with poor illumination or nighttime images, existing methods perform poorly in comparison to daytime images. One of the main factors for poor results is the lack of sufficient and accurately annotated nighttime images for urban driving scenes. In this work, we propose two new methods, first to improve the performance, and second to improve the robustness of panoptic segmentation in nighttime or poor illumination urban driving scenes using a domain translation approach. The proposed approach makes use of CycleGAN (Zhu et al., 2017) to translate daytime images with existing panoptic annotations into nighttime images, which are then utilized to retrain a Panoptic segmentation model to improve performance and robustness under poor illumination and nighttime conditions. In our experiments, Approach-1 demonstrates a significant improvement in the Panoptic segmentation performance on the converted Cityscapes dataset with more than +10% PQ, +12% RQ, +2% SQ, +14% mIoU and +10% AP50 absolute gain. Approach-2 demonstrates improved robustness to varied nighttime driving environments. Both the approaches are supported via comprehensive quantitative and qualitative analysis. | 翻訳日:2023-06-27 19:39:31 公開日:2023-06-23 |
# 圧縮埋め込み層のレビューとレコメンダシステムへの応用 Review of compressed embedding layers and their applications for recommender systems ( http://arxiv.org/abs/2306.13724v1 ) ライセンス: Link先を確認 | Tamas Hajgato | (参考訳) 本稿では,学習可能な圧縮埋め込み層に関する文献を概観し,巨大ニューラルネットワークリコメンデータシステムへの適用性について考察する。
また,圧縮埋め込み層を用いて測定した結果を報告する。 We review the literature on trainable, compressed embedding layers and discuss their applicability for compressing gigantic neural recommender systems. We also report the results we measured with our compressed embedding layers. | 翻訳日:2023-06-27 19:39:03 公開日:2023-06-23 |
# 社会AIと人間-AI生態系の課題 Social AI and the Challenges of the Human-AI Ecosystem ( http://arxiv.org/abs/2306.13723v1 ) ライセンス: Link先を確認 | Dino Pedreschi, Luca Pappalardo, Ricardo Baeza-Yates, Albert-Laszlo Barabasi, Frank Dignum, Virginia Dignum, Tina Eliassi-Rad, Fosca Giannotti, Janos Kertesz, Alistair Knott, Yannis Ioannidis, Paul Lukowicz, Andrea Passarella, Alex Sandy Pentland, John Shawe-Taylor, Alessandro Vespignani | (参考訳) 人間が人工知能(AI)システム(アシスタントやリコメンデーターを含む短いAI)と対話する大規模な社会技術システムの台頭は、予期せぬ、意図せぬ結果をもたらす集合現象や転換点の出現の機会を乗じる。
例えば、ナビゲーションシステムの提案は、あまりにも多くのドライバーが同じルートに向かえば混乱を引き起こす可能性があり、ソーシャルメディア上のパーソナライズされた推奨は、偏光、フィルターバブル、過激化を増幅する可能性がある。
一方で、社会的・環境的な課題に直面するために「群衆の知性」と集団行動効果を育む方法を学べるかもしれない。
社会技術システムに対するAIの影響を理解するため,人間と連携して社会問題を克服する次世代AIを設計するために,複雑システム,ネットワーク科学,AIの交差点に社会AIの基礎を構築することを提案する。
本稿では,ソーシャルaiにおけるオープンな課題を概説し,技術的・科学的課題を概説し,研究の道を提案する。 The rise of large-scale socio-technical systems in which humans interact with artificial intelligence (AI) systems (including assistants and recommenders, in short AIs) multiplies the opportunity for the emergence of collective phenomena and tipping points, with unexpected, possibly unintended, consequences. For example, navigation systems' suggestions may create chaos if too many drivers are directed on the same route, and personalised recommendations on social media may amplify polarisation, filter bubbles, and radicalisation. On the other hand, we may learn how to foster the "wisdom of crowds" and collective action effects to face social and environmental challenges. In order to understand the impact of AI on socio-technical systems and design next-generation AIs that team with humans to help overcome societal problems rather than exacerbate them, we propose to build the foundations of Social AI at the intersection of Complex Systems, Network Science and AI. In this perspective paper, we discuss the main open questions in Social AI, outlining possible technical and scientific challenges and suggesting research avenues. | 翻訳日:2023-06-27 19:38:59 公開日:2023-06-23 |
# 明示的な遷移確率を持つ分離拡散モデル Decoupled Diffusion Models with Explicit Transition Probability ( http://arxiv.org/abs/2306.13720v1 ) ライセンス: Link先を確認 | Yuhang Huang and Zheng Qin and Xinwang Liu and Kai Xu | (参考訳) 近年の拡散確率モデル (DPM) は, 生成物の顕著な性能を示すが, 複雑な前処理に悩まされることが多く, 逆処理やサンプリング時間の短縮が困難である。
本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する拡散過程自体に着目し, 上記の課題に対処することを目的とする。
特に,I\^{o}拡散過程に基づくDDM(\textbf{D}ecoupled \textbf{D}iffusion \textbf{M}odels)という新しい拡散パラダイムを提案する。
拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。
我々はDPMの新しい学習目標を証明し、モデルが別々にノイズや画像成分を予測することを学べるようにした。
さらに、新しい前方拡散方程式を考えると、通常の微分方程式(ODE)ベースの加速器を使わずに、自然に生成のステップを少なくするDDMの逆分解式を導出する。
実験により,ddmは従来のdpmよりも少ない機能評価設定で大きな差を示し,長機能評価設定で同等の性能を得た。
また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。 Recent diffusion probabilistic models (DPMs) have shown remarkable abilities of generated content, however, they often suffer from complex forward processes, resulting in inefficient solutions for the reversed process and prolonged sampling times. In this paper, we aim to address the aforementioned challenges by focusing on the diffusion process itself that we propose to decouple the intricate diffusion process into two comparatively simpler process to improve the generative efficacy and speed. In particular, we present a novel diffusion paradigm named DDM (\textbf{D}ecoupled \textbf{D}iffusion \textbf{M}odels) based on the It\^{o} diffusion process, in which the image distribution is approximated by an explicit transition probability while the noise path is controlled by the standard Wiener process. We find that decoupling the diffusion process reduces the learning difficulty and the explicit transition probability improves the generative speed significantly. We prove a new training objective for DPM, which enables the model to learn to predict the noise and image components separately. Moreover, given the novel forward diffusion equation, we derive the reverse denoising formula of DDM that naturally supports fewer steps of generation without ordinary differential equation (ODE) based accelerators. Our experiments demonstrate that DDM outperforms previous DPMs by a large margin in fewer function evaluations setting and gets comparable performances in long function evaluations setting. We also show that our framework can be applied to image-conditioned generation and high-resolution image synthesis, and that it can generate high-quality images with only 10 function evaluations. | 翻訳日:2023-06-27 19:38:39 公開日:2023-06-23 |
# デコヒーレンスは、エレンフェスト時間を超える古典性を$\hbar \to 0$として保証する Decoherence ensures classicality beyond the Ehrenfest time as $\hbar \to 0$ ( http://arxiv.org/abs/2306.13717v1 ) ライセンス: Link先を確認 | Felipe Hern\'andez, Daniel Ranard, C. Jess Riedel | (参考訳) 閉じた量子系では、波束はカオスによって時間的に指数関数的に広がり、通常のマクロ系ではわずか数秒で長距離の重ね合わせを形成する。
弱結合環境は、系を分解し、必然的に拡散的ノイズを導入することなく量子古典的対応を復元するために予想される。
H=p^2/2m + V(x)$ の形をしたハミルトニアンの開系と線型リンドブラッド作用素に対して、環境誘起拡散の強さが閾値$\hbar^{4/3} A_c$ を超えるとき、量子的および古典的進化が近いことを証明する。
(より一般のハミルトニアヌスやリンドブラッドの作用素を扱う。)
境界は、すべての観測可能量と、閉系で対応が破れるようなEhrenfest時間スケールよりも指数関数的に長い時間に適用される。
拡散雑音の強さは、可逆力学の出現を与えるために古典的限界の中で消滅することができる。
4/3ドルの指数は最適であり、トスカノらは拡散がより弱い系では量子古典的対応が崩壊する証拠を発見した。 In closed quantum systems, wavepackets can spread exponentially in time due to chaos, forming long-range superpositions in just seconds for ordinary macroscopic systems. A weakly coupled environment is conjectured to decohere the system and restore the quantum-classical correspondence while necessarily introducing diffusive noise -- but for what coupling strength, and under what conditions? For Markovian open systems with Hamiltonians of the form $H=p^2/2m + V(x)$ and linear Lindblad operators, we prove the quantum and classical evolutions are close whenever the strength of the environment-induced diffusion exceeds a threshold $\hbar^{4/3} A_c$, were $A_c$ is a characteristic scale of the classical dynamics. (A companion paper treats more general Hamiltonians and Lindblad operators.) The bound applies for all observables and for times exponentially longer than the Ehrenfest timescale, which is when the correspondence can break down in closed systems. The strength of the diffusive noise can vanish in the classical limit to give the appearance of reversible dynamics. The $4/3$ exponent may be optimal, as Toscano et al. have found evidence that the quantum-classical correspondence breaks down in some systems when the diffusion is any weaker. | 翻訳日:2023-06-27 19:38:09 公開日:2023-06-23 |
# マルチモード連続可変ツインビームの非局所位相変調 Nonlocal phase modulation of multimode, continuous-variable twin beams ( http://arxiv.org/abs/2306.13716v1 ) ライセンス: Link先を確認 | Zhifan Zhou, Lu{\i}s E. E. de Araujo, Matt DiMario, B. E. Anderson, Jie Zhao, Kevin M. Jones, and Paul D. Lett | (参考訳) 多重周波数モード連続可変双対ビームの非局所位相変調を実験的に検討した。
熱rb蒸気中での4波混合により生じるエンタングルプローブと共役光ビームを1対の電気光学位相変調器で変調する。
ツインビームのどちらか一方の単一位相変調器は2モードのスクイージング信号を低減し、変調が非局所的に干渉してビーム相関を変更する。
ビームの非局所変調は、マルチモード場の周波数モード間の量子相関を生成することができる。 We investigate experimentally the nonlocal phase modulation of multiple-frequency-mode, continuous-variable entangled twin beams. We use a pair of electro-optical phase modulators to modulate the entangled probe and conjugate light beams produced by four-wave mixing in hot Rb vapor. A single phase modulator in either one of the twin beams reduces the two-mode squeezing signal, and we find that the modulations interfere nonlocally to modify the beam correlations. The nonlocal modulation of the beams can produce quantum correlations among frequency modes of the multimode fields. | 翻訳日:2023-06-27 19:37:41 公開日:2023-06-23 |
# 準安定マルコフボソニック系の位相的ゼロモードとエッジ対称性 Topological zero modes and edge symmetries of metastable Markovian bosonic systems ( http://arxiv.org/abs/2306.13711v1 ) ライセンス: Link先を確認 | Vincent P. Flynn, Emilio Cobanera, Lorenza Viola | (参考訳) 自由フェルミオン対称性で保護された位相相とそれに伴うエッジ局在励起のタイトボソニックなアナログは、凝縮物質とAMO物理学の把握を長い間避けてきた。
本研究は, 初期探査 [PRL 127, 245701 (2021)] に基づいて, 局所超伝導体と絶縁体に特徴的なMajoranaおよびDiracエッジモードの忠実なボソニック類似をそれぞれ実現したマルコフ散逸を受ける2次ボソニック系の幅広いクラスを同定する。
この目的のために,疑似スペクトル理論をリンドブラジアン生成器の非正規性を捉えるための適切な数学的ツールとして活用し,これらのシステムの位相的メタスタビリティに関する一般的な枠組みを確立する。
過渡的・漸近的力学と非自明なトポロジカル不変量の間の急激な分離を特徴とする結果の力学パラダイムは、マヨラナとディラックのボソンをダブしたエッジ局在モードをホストしていることが示される。
総じて、これらは1つの保存モードと、力学の近似対称性の正準共役生成器から構成される。
一般理論は、位相的に準安定な系が関与できる様々なエキゾチック境界物理学を示すいくつかのモデルを通して例示される。
特に、ネーターの定理がこの散逸な設定で破られる程度と、対称性とこれらのエッジモードの間の相互作用について検討する。
また, トポロジカルメタスタブルシステムで調製したボソニック猫状態に対する異常パリティダイナミクスの可能性を示した。
異常に長寿命な量子相関と発散するゼロ周波数パワースペクトルの形で観測可能なマルチタイムシグネチャを提案し、詳細に議論した。
この結果は, メタスタブル力学の長寿命な過渡的状態に深く埋め込まれた, 自由ボソンにおける真の対称性保護トポロジカル物理の証拠となる。 Tight bosonic analogs of free-fermionic symmetry-protected topological phases, and their associated edge-localized excitations, have long evaded the grasp of condensed-matter and AMO physics. In this work, building on our initial exploration [PRL 127, 245701 (2021)], we identify a broad class of quadratic bosonic systems subject to Markovian dissipation that realize faithful bosonic analogs of the Majorana and Dirac edge modes characteristic of topological superconductors and insulators, respectively. To this end, we establish a general framework for topological metastability for these systems, by leveraging pseudospectral theory as the appropriate mathematical tool for capturing the non-normality of the Lindbladian generator. The resulting dynamical paradigm, which is characterized by both a sharp separation between transient and asymptotic dynamics and a non-trivial topological invariant, is shown to host edge-localized modes, which we dub Majorana and Dirac bosons. Generically, these consist of one conserved mode and a canonically conjugate generator of an approximate symmetry of the dynamics. The general theory is exemplified through several models exhibiting a range of exotic boundary physics that topologically metastable systems can engender. In particular, we explore the extent to which Noether's theorem is violated in this dissipative setting and the interplay between symmetries and these edge modes. We also demonstrate the possibility of anomalous parity dynamics for a bosonic cat state prepared in a topologically metastable system. Observable multitime signatures in the form of anomalously long-lived quantum correlations and divergent zero-frequency power spectral peaks are proposed and discussed in detail. Our results provide evidence of genuine symmetry-protected topological physics in free bosons, embedded deeply in the long-lived transient regimes of metastable dynamics. | 翻訳日:2023-06-27 19:37:32 公開日:2023-06-23 |
# 統合勾配属性法の4つの公理的特性 Four Axiomatic Characterizations of the Integrated Gradients Attribution Method ( http://arxiv.org/abs/2306.13753v1 ) ライセンス: Link先を確認 | Daniel Lundstrom, Meisam Razaviyayn | (参考訳) 深層ニューラルネットワークは、精度と機能の観点から機械学習モデルの間で大きな進歩をもたらしたが、その内部構造はいまだに不明である。
アトリビューションメソッドは、各入力がモデルの出力にどれだけ貢献したかを示すことによって、これらの「ブラックボックス」モデルに光を当てようとしている。
統合グラディエンツ法(Integrated Gradients, IG)は、軸索静脈におけるアートベースライン属性法の状態であり、特定の属性の原理に従うように設計されている。
本稿では,IGの4つの公理的特性について述べる。IGは属性のクラスの中で異なる公理の集合を満たす一意の方法として確立される。 Deep neural networks have produced significant progress among machine learning models in terms of accuracy and functionality, but their inner workings are still largely unknown. Attribution methods seek to shine a light on these "black box" models by indicating how much each input contributed to a model's outputs. The Integrated Gradients (IG) method is a state of the art baseline attribution method in the axiomatic vein, meaning it is designed to conform to particular principles of attributions. We present four axiomatic characterizations of IG, establishing IG as the unique method to satisfy different sets of axioms among a class of attribution methods. | 翻訳日:2023-06-27 19:29:00 公開日:2023-06-23 |
# フォールトトレラント量子計算におけるランダムコンパイル Randomized compiling in fault-tolerant quantum computation ( http://arxiv.org/abs/2306.13752v1 ) ライセンス: Link先を確認 | Stefanie J. Beale and Joel J. Wallman | (参考訳) 量子誤差補正(qec:quantum error correction)の研究は、確率誤差を補正できるしきい値誤差率が存在することから、一般的な誤差を補正できるしきい値が存在することを意味するため、確率誤差に焦点をあてている。
しかし、一般的な誤差のしきい値の厳密な推定は、通常、確率的パウリ誤差のしきい値よりも桁違いに悪い。
特に、コヒーレントエラーは、符号化された状態と論理的およびエラー状態の重ね合わせをマッピングできるため、符号化された空間に特に有害な影響を及ぼす。
さらに、コヒーレントエラーは、複数ラウンドの誤り訂正やシンドローム測定で増加・干渉し、確率的パウリ誤差モデルで予想されるよりもはるかに悪いエラーをもたらす可能性がある。
本稿では,論理レベルでノイズをデコヒーレントするアルゴリズムを提案する。
このアルゴリズムは論理回路の深さを著しく増加させるものではなく(通常、深さを増加させることはない)、一般にフォールトトレラントなガジェットや誤り訂正ステップに適用される。 Studies of quantum error correction (QEC) typically focus on stochastic Pauli errors because the existence of a threshold error rate below which stochastic Pauli errors can be corrected implies that there exists a threshold below which generic errors can be corrected. However, rigorous estimates of the threshold for generic errors are typically orders of magnitude worse than the threshold for stochastic Pauli errors. Specifically, coherent errors have a particularly harmful impact on the encoded space because they can map encoded states to superpositions of logical and error states. Further, coherent errors can add up and interfere over multiple rounds of error correction or between syndrome measurements, which may result in significantly worse errors than expected under a stochastic Pauli error model. In this paper, we present an algorithm which decoheres noise at the logical level, projecting the state of the system onto a logical state with a well-defined error. The algorithm does not significantly increase the depth of the logical circuit (and usually does not lead to any increase in depth), and applies generally to most fault-tolerant gadgets and error correction steps. | 翻訳日:2023-06-27 19:28:46 公開日:2023-06-23 |
# CCP支援UMAPとt-SNEによるscRNA-seqデータの解析 Analyzing scRNA-seq data by CCP-assisted UMAP and t-SNE ( http://arxiv.org/abs/2306.13750v1 ) ライセンス: Link先を確認 | Yuta Hozumi, Gu-Wei Wei | (参考訳) 単細胞RNAシークエンシング(scRNA-seq)は、細胞内の不均一性を明らかにするために広く用いられ、細胞間通信、細胞分化、および分化遺伝子発現に関する洞察を与えてくれた。
しかし、scRNA-seqデータの解析は、スパーシリティと関連する多数の遺伝子によって困難である。
したがって,スプリアス信号の除去と下流解析の促進には,次元化と特徴選択が重要である。
相関クラスタリング・プロジェクション(CCP)は、最近、cRNA-seqデータを前処理する有効な方法として導入された。
CCPは遺伝子相関を利用して遺伝子を分割し、その分割に基づいて細胞間相互作用を用いてスーパー遺伝子を得る。
CCPは行列対角化を必要としないデータドメインアプローチであるため、多くの下流機械学習タスクで使用することができる。
本研究では,一様多様体近似および投影(UMAP)およびt分散確率的隣接埋め込み(t-SNE)の初期化ツールとしてCCPを利用する。
8つの公開データセットを使用することで、CCPは UMAP と t-SNE の可視化を大幅に改善し、精度を劇的に改善することがわかった。 Single-cell RNA sequencing (scRNA-seq) is widely used to reveal heterogeneity in cells, which has given us insights into cell-cell communication, cell differentiation, and differential gene expression. However, analyzing scRNA-seq data is a challenge due to sparsity and the large number of genes involved. Therefore, dimensionality reduction and feature selection are important for removing spurious signals and enhancing downstream analysis. Correlated clustering and projection (CCP) was recently introduced as an effective method for preprocessing scRNA-seq data. CCP utilizes gene-gene correlations to partition the genes and, based on the partition, employs cell-cell interactions to obtain super-genes. Because CCP is a data-domain approach that does not require matrix diagonalization, it can be used in many downstream machine learning tasks. In this work, we utilize CCP as an initialization tool for uniform manifold approximation and projection (UMAP) and t-distributed stochastic neighbor embedding (t-SNE). By using eight publicly available datasets, we have found that CCP significantly improves UMAP and t-SNE visualization and dramatically improve their accuracy. | 翻訳日:2023-06-27 19:28:25 公開日:2023-06-23 |
# 量子コンピューティングデバイスの決定論的およびベイズ的特徴付け Deterministic and Bayesian Characterization of Quantum Computing Devices ( http://arxiv.org/abs/2306.13747v1 ) ライセンス: Link先を確認 | Zhichao Peng, Daniel Appel\"o, N. Anders Petersson, Mohammad Motamed, Fortino Garcia and Yujin Cho | (参考訳) 本稿では, 超伝導量子装置のリンドブラディアン力学モデルにおいて, 遷移周波数と減衰時間を推定するためのデータ駆動型特性評価手法を提案する。
データは、第1および第2励起状態間の遷移周波数におけるパリティイベントを含む。
2つのリンドブラディアンモデルの平均解に基づく単純だが効果的な数学的モデルを示し、実験的な観測を正確に捉える。
データとリンドブラジアンシミュレーションのミスフィットを最小限に抑えるために、まずデバイスパラメータの決定論的ポイント推定を行う。
これらの推定は、その後のベイズ予想に対する事前分布の情報的選択に使用される。
データのノイズ構造をキャプチャする2つのハイパーパラメータを含む帰納関数のための付加ガウス雑音モデルを開発した。
ベイズ推定の結果は遷移周波数の後方確率分布であり、例えば、リスク中立性最適制御パルスの設計に利用できる。
本手法の適用性は,ローレンス・リバモア国立研究所のQuantum Device and Integration Testbed (QuDIT)の実験データから,タンタルを用いた超伝導トランスモンデバイスを用いて実証した。 Motivated by the noisy and fluctuating behavior of current quantum computing devices, this paper presents a data-driven characterization approach for estimating transition frequencies and decay times in a Lindbladian dynamical model of a superconducting quantum device. The data includes parity events in the transition frequency between the first and second excited states. A simple but effective mathematical model, based upon averaging solutions of two Lindbladian models, is demonstrated to accurately capture the experimental observations. A deterministic point estimate of the device parameters is first performed to minimize the misfit between data and Lindbladian simulations. These estimates are used to make an informed choice of prior distributions for the subsequent Bayesian inference. An additive Gaussian noise model is developed for the likelihood function, which includes two hyper-parameters to capture the noise structure of the data. The outcome of the Bayesian inference are posterior probability distributions of the transition frequencies, which for example can be utilized to design risk neutral optimal control pulses. The applicability of our approach is demonstrated on experimental data from the Quantum Device and Integration Testbed (QuDIT) at Lawrence Livermore National Laboratory, using a tantalum-based superconducting transmon device. | 翻訳日:2023-06-27 19:28:04 公開日:2023-06-23 |
# 予測後の正当な推論 Valid inference after prediction ( http://arxiv.org/abs/2306.13746v1 ) ライセンス: Link先を確認 | Keshav Motwani and Daniela Witten | (参考訳) 最近の研究は、予測に基づく推論という非常に一般的な実践に焦点を当てている。
(i)事前学習した機械学習モデルを用いて、観測されていない応答変数を予測し、次に、
二 予測応答と一部の共変量との関連性に関する推論を行うこと。
Wangらによって指摘されている。
[2020年]標準推論アプローチを適用する
(ii)は、観測されていない(予測された)応答と共変量との関係を正確に定量化していない。
最近の作品では、Wang et al。
[2020]とAngelopoulos et al。
【2023年】段階的な補正を提案する
(ii) 観測されていない応答と共変量との相関に関する有効な推論を可能にすること。
ここではangelopoulosらによって提案された手法について述べる。
2023] タイプ1の誤り率の制御に成功し, 予測に使用する事前学習された機械学習モデルの品質に関わらず, 信頼区間を適切な名目カバレッジで提供した。
しかし、王らによって提案された方法。
例えば、機械学習モデルが研究対象者の真の回帰関数を完全に近似するならば、[2020]は非常に強い条件下でのみ有効な推論を提供する。 Recent work has focused on the very common practice of prediction-based inference: that is, (i) using a pre-trained machine learning model to predict an unobserved response variable, and then (ii) conducting inference on the association between that predicted response and some covariates. As pointed out by Wang et al. [2020], applying a standard inferential approach in (ii) does not accurately quantify the association between the unobserved (as opposed to the predicted) response and the covariates. In recent work, Wang et al. [2020] and Angelopoulos et al. [2023] propose corrections to step (ii) in order to enable valid inference on the association between the unobserved response and the covariates. Here, we show that the method proposed by Angelopoulos et al. [2023] successfully controls the type 1 error rate and provides confidence intervals with correct nominal coverage, regardless of the quality of the pre-trained machine learning model used to predict the unobserved response. However, the method proposed by Wang et al. [2020] provides valid inference only under very strong conditions that rarely hold in practice: for instance, if the machine learning model perfectly approximates the true regression function in the study population of interest. | 翻訳日:2023-06-27 19:27:44 公開日:2023-06-23 |
# ガジェットを超えて行く - アナログ量子シミュレータのスケーラビリティの重要性 Going Beyond Gadgets: The Importance of Scalability for Analogue Quantum Simulators ( http://arxiv.org/abs/2306.13739v1 ) ライセンス: Link先を確認 | Dylan Harley, Ishaun Datta, Frederik Ravn Klausen, Andreas Bluhm, Daniel Stilck Fran\c{c}a, Albert Werner, Matthias Christandl | (参考訳) 本稿では,Cirac と Zoller が最初に導入した基本基準のセットに動機づけられた,実験可能なシミュレータの全スコープを捉えるためのアナログ量子シミュレーションの理論的枠組みを提案する。
我々のフレームワークは、複雑性理論で使われるハミルトン符号化と一致し、ノイズ下で安定であり、オープン量子システムのシミュレーションやリーブ・ロビンソン境界を用いたオーバーヘッド低減など、実験の幅広い可能性を含んでいる。
本稿では,アナログ量子シミュレーションにおけるスケーラビリティの必要性を考察し,特にシミュレーションはシステム規模で成長する相互作用強度を伴わないと論じる。
我々は,ハミルトニアン複雑性理論で用いられるガジェットの汎用フレームワークを開発し,特に,ハミルトニアン局所性還元ではサイズ依存スケーリングが避けられないことを証明した。
しかし、中間測定のさらなる資源を許容すると、量子ゼノ効果を用いて局所性還元ノーゴー定理を回避できるスキームが示される。
私たちのガジェットフレームワークは、ガジェットに関する長年のオープン質問を形式化し解決するための扉を開きます。
我々は、アナログ量子シミュレーションにおける普遍性の結果について論じる。 We propose a theoretical framework for analogue quantum simulation to capture the full scope of experimentally realisable simulators, motivated by a set of fundamental criteria first introduced by Cirac and Zoller. Our framework is consistent with Hamiltonian encodings used in complexity theory, is stable under noise, and encompasses a range of possibilities for experiment, such as the simulation of open quantum systems and overhead reduction using Lieb-Robinson bounds. We discuss the requirement of scalability in analogue quantum simulation, and in particular argue that simulation should not involve interaction strengths that grow with the size of the system. We develop a general framework for gadgets used in Hamiltonian complexity theory, which may be of interest independently of analogue simulation, and in particular prove that size-dependent scalings are unavoidable in Hamiltonian locality reduction. However, if one allows for the additional resource of intermediate measurements, we demonstrate a scheme that circumvents the locality reduction no-go theorem using the quantum Zeno effect. Our gadget framework opens the door to formalise and resolve long-standing open questions about gadgets. We conclude with a discussion on universality results in analogue quantum simulation. | 翻訳日:2023-06-27 19:27:27 公開日:2023-06-23 |
# マルチターゲット多重性:資源制約下におけるターゲット仕様の柔軟性と公平性 Multi-Target Multiplicity: Flexibility and Fairness in Target Specification under Resource Constraints ( http://arxiv.org/abs/2306.13738v1 ) ライセンス: Link先を確認 | Jamelle Watson-Daniels, Solon Barocas, Jake M. Hofman, Alexandra Chouldechova | (参考訳) 予測モデルは雇用、教育、融資、健康など様々な分野における意思決定の基礎として広く採用されている。
しかし、現実の問題は、正確に定式化された予測タスクとして容易に現れている。
特に、しばしば合理的なターゲット変数オプションが存在する。
先行研究は、これは重要で、時には過小評価される選択であり、ターゲットの選択が結果のモデルの公正性に重大な影響を与えることも示している。
しかし、既存の文献では、特定のタスクにおいて、どのターゲット選択が重要かを特徴付けるための形式的な枠組みを提供していない。
私たちの研究はこのギャップを埋め、ターゲット選択の問題と予測多重性に関する最近の研究との関係を描きます。
具体的には,対象の選択が個人の成果やグループ間の選択率の相違にどのように影響するかを評価するための概念的および計算的枠組みを提案する。
これをマルチターゲット乗法と呼ぶ。
その過程で, 資源制約を尊重する多重性の概念を導入することにより, 単一目標多重性の研究を洗練する。
この手法を医療データセットに適用し,目標変数選択から生じる多重度レベルが,1つの目標のほぼ最適モデルから生じるものよりも大きいことを示す。 Prediction models have been widely adopted as the basis for decision-making in domains as diverse as employment, education, lending, and health. Yet, few real world problems readily present themselves as precisely formulated prediction tasks. In particular, there are often many reasonable target variable options. Prior work has argued that this is an important and sometimes underappreciated choice, and has also shown that target choice can have a significant impact on the fairness of the resulting model. However, the existing literature does not offer a formal framework for characterizing the extent to which target choice matters in a particular task. Our work fills this gap by drawing connections between the problem of target choice and recent work on predictive multiplicity. Specifically, we introduce a conceptual and computational framework for assessing how the choice of target affects individuals' outcomes and selection rate disparities across groups. We call this multi-target multiplicity. Along the way, we refine the study of single-target multiplicity by introducing notions of multiplicity that respect resource constraints -- a feature of many real-world tasks that is not captured by existing notions of predictive multiplicity. We apply our methods on a healthcare dataset, and show that the level of multiplicity that stems from target variable choice can be greater than that stemming from nearly-optimal models of a single target. | 翻訳日:2023-06-27 19:27:08 公開日:2023-06-23 |
# 公益人活動認識データセットの併用によるラベル付きデータの空白化 Combining Public Human Activity Recognition Datasets to Mitigate Labeled Data Scarcity ( http://arxiv.org/abs/2306.13735v1 ) ライセンス: Link先を確認 | Riccardo Presotto, Sannara Ek, Gabriele Civitarese, Fran\c{c}ois Portet, Philippe Lalanda, Claudio Bettini | (参考訳) モバイルデバイスにおけるヒューマンアクティビティ認識のための教師付き学習(HAR)の利用は,強力な分類性能をもたらす。
しかし、そのようなアプローチでは、モデルの初期トレーニングと特定のクライアントのカスタマイズの両方において、大量のラベル付きデータを必要とする(これらのデータはトレーニングデータと大きく異なることが多い)。
これは実際に、データアノテーションのコスト、侵入性、時間のかかる性質のために入手できない。
さらに、大量のラベル付きデータの助けを借りても、ヘテロジニアスなクライアントへのモデル展開は、見当たらないデータでうまく一般化できない問題に直面している。
コンピュータビジョンや自然言語処理といった他の領域では、注釈付きデータの必要性を低減し、不均一性を管理するために、大きなコーパスを活用する事前訓練モデルの概念が提案されている。
この有望なアプローチは、十分なサイズの公開データセットが不足しているため、HARドメインでは実装されていない。
本稿では,利用可能なデータセットと,対象領域に限定されたラベル付きデータを用いて微調整可能な一般化harモデルを学習する目的とを組み合わせるための新しい戦略を提案する。
ニューラルネットワークアーキテクチャの実験を含む実験的な評価では、公開データセットを組み合わせることで、未認識のターゲットドメインで十分なパフォーマンスを実現するために必要なラベル付きサンプル数を大幅に削減できることが示された。 The use of supervised learning for Human Activity Recognition (HAR) on mobile devices leads to strong classification performances. Such an approach, however, requires large amounts of labeled data, both for the initial training of the models and for their customization on specific clients (whose data often differ greatly from the training data). This is actually impractical to obtain due to the costs, intrusiveness, and time-consuming nature of data annotation. Moreover, even with the help of a significant amount of labeled data, model deployment on heterogeneous clients faces difficulties in generalizing well on unseen data. Other domains, like Computer Vision or Natural Language Processing, have proposed the notion of pre-trained models, leveraging large corpora, to reduce the need for annotated data and better manage heterogeneity. This promising approach has not been implemented in the HAR domain so far because of the lack of public datasets of sufficient size. In this paper, we propose a novel strategy to combine publicly available datasets with the goal of learning a generalized HAR model that can be fine-tuned using a limited amount of labeled data on an unseen target domain. Our experimental evaluation, which includes experimenting with different state-of-the-art neural network architectures, shows that combining public datasets can significantly reduce the number of labeled samples required to achieve satisfactory performance on an unseen target domain. | 翻訳日:2023-06-27 19:26:49 公開日:2023-06-23 |
# CHiME-7 DASRチャレンジ: 異種シナリオにおける複数デバイスによる遠隔会議記録 The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios ( http://arxiv.org/abs/2306.13734v1 ) ライセンス: Link先を確認 | Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai Chang, Paola Garcia, Yoshiki Masuyama, Zhong-Qiu Wang, Stefano Squartini, Sanjeev Khudanpur | (参考訳) CHiME課題は、ロバスト音声認識(ASR)システムの開発と評価において重要な役割を果たしている。
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを導入する。
このタスクは、複数の異種記録装置を備えた遠方フィールド設定における統合asrおよびダイアリゼーションを含む。
従来の課題と異なり、CHiME-6、DiPCo、Mixer 6の3つのシナリオでシステムを評価する。
目的は、参加者がアプリオリ情報なしで異なる配列のジオメトリやユースケースをまたいで一般化できる単一のシステムを考案することである。
以前のCHiMEのイテレーションとは別の相違点として、参加者はオープンソースで事前トレーニングされたモデルとデータセットを使用することができる。
本稿では,課題設計,モチベーション,基本的な研究課題について詳述する。
また,完全アレートポロジーに依存しないベースラインシステムを提案し,マルチチャネルダイアリゼーション,チャネル選択,誘導ソース分離,自己教師付き音声表現(SSLR)を利用した堅牢なASRモデルを提案する。 The CHiME challenges have played a significant role in the development and evaluation of robust speech recognition (ASR) systems. We introduce the CHiME-7 distant ASR (DASR) task, within the 7th CHiME challenge. This task comprises joint ASR and diarization in far-field settings with multiple, and possibly heterogeneous, recording devices. Different from previous challenges, we evaluate systems on 3 diverse scenarios: CHiME-6, DiPCo, and Mixer 6. The goal is for participants to devise a single system that can generalize across different array geometries and use cases with no a-priori information. Another departure from earlier CHiME iterations is that participants are allowed to use open-source pre-trained models and datasets. In this paper, we describe the challenge design, motivation, and fundamental research questions in detail. We also present the baseline system, which is fully array-topology agnostic and features multi-channel diarization, channel selection, guided source separation and a robust ASR model that leverages self-supervised speech representations (SSLR). | 翻訳日:2023-06-27 19:26:27 公開日:2023-06-23 |
# 時間論理に基づく因果関係図を用いた強化学習 Reinforcement Learning with Temporal-Logic-Based Causal Diagrams ( http://arxiv.org/abs/2306.13732v1 ) ライセンス: Link先を確認 | Yash Paliwal, Rajarshi Roy, Jean-Rapha\"el Gaglione, Nasim Baharisangari, Daniel Neider, Xiaoming Duan, Ufuk Topcu, Zhe Xu | (参考訳) エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。
この設定では、タスクを決定論的有限オートマトン(DFA)として表現し、それらをRLアルゴリズムの状態空間に統合する。
しかし、これらの機械は報酬関数をモデル化するが、しばしば環境に関する因果知識を見落としている。
この制限に対処するため、RLにおける時間論理に基づく因果関係(TL-CD)を提案し、環境の異なる特性間の時間因果関係を捉える。
我々は,エージェントが環境の探索を著しく少なくするrlアルゴリズムを考案するためにtl-cdを利用する。
この目的のために、TL-CDとタスクDFAに基づいて、エージェントが探索中に期待される報酬を早期に決定できる構成を特定する。
一連のケーススタディを通じて、TL-CDを使うことの利点、特に環境探索の削減による最適ポリシーへのアルゴリズムの高速収束を実証する。 We study a class of reinforcement learning (RL) tasks where the objective of the agent is to accomplish temporally extended goals. In this setting, a common approach is to represent the tasks as deterministic finite automata (DFA) and integrate them into the state-space for RL algorithms. However, while these machines model the reward function, they often overlook the causal knowledge about the environment. To address this limitation, we propose the Temporal-Logic-based Causal Diagram (TL-CD) in RL, which captures the temporal causal relationships between different properties of the environment. We exploit the TL-CD to devise an RL algorithm in which an agent requires significantly less exploration of the environment. To this end, based on a TL-CD and a task DFA, we identify configurations where the agent can determine the expected rewards early during an exploration. Through a series of case studies, we demonstrate the benefits of using TL-CDs, particularly the faster convergence of the algorithm to an optimal policy due to reduced exploration of the environment. | 翻訳日:2023-06-27 19:26:10 公開日:2023-06-23 |
# 多目的最適化問題のサンプル効率探索のための目的空間の多様性獲得 Achieving Diversity in Objective Space for Sample-efficient Search of Multiobjective Optimization Problems ( http://arxiv.org/abs/2306.13780v1 ) ライセンス: Link先を確認 | Eric Hans Lee, Bolong Cheng, Michael McCourt | (参考訳) 材料設計などの重要な科学・工学応用のシミュレーション最適化のための多目的最適化問題を効果的に解くことは、ますます重要な研究トピックになりつつある。
これは主に、そのようなアプリケーションに関連するコストのかかるコストと、paretoのフロンティアを効率的に探索して有望な設計ソリューションのセットを公開するサンプル効率の高い多目的最適化メソッドの必要性によるものである。
そこで我々は,Paretoフロンティアを特定するために明示的な最適化を使わずに,ユーザの特定性能基準を満たすさまざまな結果の探索を提案する。
この手法は意思決定者に対して,有望な設計決定のプールを提供し,優れたソリューションの空間をよりよく理解するのに役立つ。
この結果を達成するために、我々は、LMS取得機能を導入し、その挙動と特性を分析し、様々な問題においてその可能性を示す。 Efficiently solving multi-objective optimization problems for simulation optimization of important scientific and engineering applications such as materials design is becoming an increasingly important research topic. This is due largely to the expensive costs associated with said applications, and the resulting need for sample-efficient, multiobjective optimization methods that efficiently explore the Pareto frontier to expose a promising set of design solutions. We propose moving away from using explicit optimization to identify the Pareto frontier and instead suggest searching for a diverse set of outcomes that satisfy user-specified performance criteria. This method presents decision makers with a robust pool of promising design decisions and helps them better understand the space of good solutions. To achieve this outcome, we introduce the Likelihood of Metric Satisfaction (LMS) acquisition function, analyze its behavior and properties, and demonstrate its viability on various problems. | 翻訳日:2023-06-27 19:21:02 公開日:2023-06-23 |
# Swin-Free: サイズが変わるウィンドウで、クロスウィンドウの注意力と効率性を向上 Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window ( http://arxiv.org/abs/2306.13776v1 ) ライセンス: Link先を確認 | Jinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park | (参考訳) トランスフォーマーモデルは、言語タスクの成功に続いて、コンピュータビジョンにおいて大きな可能性を示している。
Swin Transformerは、ViT(Vision Transformer)と、入力サイズに関して2次複雑さを持つその変種と比較して、効率を向上しながら、畳み込みベースのアーキテクチャを精度で上回っている。
Swin Transformerは、ウィンドウ間の接続を可能とし、自己アテンション計算を重複しないローカルウィンドウに制限するシフトウィンドウを備えている。
しかし、windowsへの移行は、そのランタイムのかなりの部分を占めるメモリコピー操作を導入している。
この問題を軽減するため,我々は,ローカルウィンドウ間の相互接続を実現するために,ウィンドウをシフトするのではなく,ステージ毎にサイズ可変ウィンドウを適用するスウィンフリー方式を提案する。
この単純な設計変更により、スウィンフリーは推論精度が向上し、スウィントランスよりも高速に動作する。
さらに,swinトランスフォーマーよりも高速であるswinフリーの変種をいくつか提案する。 Transformer models have shown great potential in computer vision, following their success in language tasks. Swin Transformer is one of them that outperforms convolution-based architectures in terms of accuracy, while improving efficiency when compared to Vision Transformer (ViT) and its variants, which have quadratic complexity with respect to the input size. Swin Transformer features shifting windows that allows cross-window connection while limiting self-attention computation to non-overlapping local windows. However, shifting windows introduces memory copy operations, which account for a significant portion of its runtime. To mitigate this issue, we propose Swin-Free in which we apply size-varying windows across stages, instead of shifting windows, to achieve cross-connection among local windows. With this simple design change, Swin-Free runs faster than the Swin Transformer at inference with better accuracy. Furthermore, we also propose a few of Swin-Free variants that are faster than their Swin Transformer counterparts. | 翻訳日:2023-06-27 19:20:47 公開日:2023-06-23 |
# ポストOCRテキスト処理による残量情報抽出 Resume Information Extraction via Post-OCR Text Processing ( http://arxiv.org/abs/2306.13775v1 ) ライセンス: Link先を確認 | Selahattin Serdar Helli, Senem Tanberk, Sena Nur Cavsak | (参考訳) 自然言語処理(NLP)の主要な課題の一つである情報抽出(IE)は,最近,履歴書の使用において重要性が増している。
CVから情報を抽出するテキストの研究において,NLPモデルを用いた文分類が一般的であった。
本研究では,オプティカル文字認識(OCT)やオブジェクト認識などの前処理後のテキスト群を履歴書のYOLOv8モデルで分類することで,情報を抽出することを目的とした。
テキストデータセットは、it業界の5つの異なる仕事記述(教育、経験、才能、個人および言語)のために収集された286の履歴書で構成されている。
オブジェクト認識用に作成されたデータセットは1198の履歴書で構成され、それらはオープンソースのインターネットから収集され、テキストセットとしてラベル付けされる。
モデルはBERT、BERT-t、DistilBERT、RoBERTa、XLNetであった。
F1スコアの差をモデル結果と比較した。
さらに、YOLOv8モデル自体も比較的報告されている。
その結果,DistilBERTは,他のモデルに比べてパラメータ数が少ないにもかかわらず,良好な結果を得た。 Information extraction (IE), one of the main tasks of natural language processing (NLP), has recently increased importance in the use of resumes. In studies on the text to extract information from the CV, sentence classification was generally made using NLP models. In this study, it is aimed to extract information by classifying all of the text groups after pre-processing such as Optical Character Recognition (OCT) and object recognition with the YOLOv8 model of the resumes. The text dataset consists of 286 resumes collected for 5 different (education, experience, talent, personal and language) job descriptions in the IT industry. The dataset created for object recognition consists of 1198 resumes, which were collected from the open-source internet and labeled as sets of text. BERT, BERT-t, DistilBERT, RoBERTa and XLNet were used as models. F1 score variances were used to compare the model results. In addition, the YOLOv8 model has also been reported comparatively in itself. As a result of the comparison, DistilBERT was showed better results despite having a lower number of parameters than other models. | 翻訳日:2023-06-27 19:20:31 公開日:2023-06-23 |
# バンディットフィードバックの最も近い隣人 Nearest Neighbour with Bandit Feedback ( http://arxiv.org/abs/2306.13773v1 ) ライセンス: Link先を確認 | Stephen Pasteris, Chris Hicks, Vasilios Mavroudis | (参考訳) 本稿では,最寄りの隣接規則を文脈的バンディット問題に適用する。
当社のアルゴリズムは,データ生成プロセスに関する仮定がまったくない,完全に敵対的な設定を処理します。
ナビゲーティングネットのような(おそらく近似的な)適応的近距離探索のための十分高速なデータ構造と組み合わせると、アルゴリズムは非常に効率的で、試行数とアクションの両方において試行時間当たりの多対数を持ち、準線形空間のみを取る。 In this paper we adapt the nearest neighbour rule to the contextual bandit problem. Our algorithm handles the fully adversarial setting in which no assumptions at all are made about the data-generation process. When combined with a sufficiently fast data-structure for (perhaps approximate) adaptive nearest neighbour search, such as a navigating net, our algorithm is extremely efficient - having a per trial running time polylogarithmic in both the number of trials and actions, and taking only quasi-linear space. | 翻訳日:2023-06-27 19:20:14 公開日:2023-06-23 |
# 無限体積の二重セミオン状態 The double semion state in infinite volume ( http://arxiv.org/abs/2306.13762v1 ) ライセンス: Link先を確認 | Alex Bols, Boris Kjaer and Alvin Moon | (参考訳) 本稿では,2次元量子スピン系の超選択セクタの集合から,アーベル・アノンに対応するユニタリブレンド核融合圏を抽出する方法について,簡単な設定で述べる。
ユニタリブレイド融合圏の構造は、エノンの融合とブレイディングを記述するFとR-シンボルによって与えられる。
次に、無限体積の二重セミオン状態を構築し、そのセミオン、アンチセミオン、バウンド状態励起を記述するユニタリブレンド核融合圏を抽出する。
この圏がz_2のツイスト量子二重の表現圏に対応することを確かめる。 We describe in a simple setting how to extract a unitary braided fusion category from a collection of superselection sectors of a two-dimensional quantum spin system, corresponding to abelian anyons. The structure of the unitary braided fusion category is given by F and R-symbols, which describe fusion and braiding of the anyons. We then construct the double semion state in infinite volume and extract the unitary braided fusion category describing its semion, anti-semion, and bound state excitations. We verify that this category corresponds to the representation category of the twisted quantum double of Z_2. | 翻訳日:2023-06-27 19:19:15 公開日:2023-06-23 |
# CeBed: ディープデータ駆動OFDMチャネル推定のためのベンチマーク CeBed: A Benchmark for Deep Data-Driven OFDM Channel Estimation ( http://arxiv.org/abs/2306.13761v1 ) ライセンス: Link先を確認 | Amal Feriani, Di Wu, Steve Liu, Greg Dudek | (参考訳) 深層学習は、チャネル推定を含む無線通信の問題で広く使われている。
データ駆動型アプローチはいくつか存在するが、実験条件の不一致と標準的な実験設計の欠如により、公平かつ現実的な比較は困難である。
さらに、データ駆動アプローチのパフォーマンスはしばしば経験的分析に基づいて比較される。
再現性と標準化された評価ツール(例えばデータセットやコードベース)の可用性の欠如は、チャネル推定や無線通信全般のためのデータ駆動手法の開発と進歩を妨げる。
本稿では,複数のデータ駆動ofdmチャネル推定手法を統合するベンチマークを構築するためのイニシアティブを提案する。
具体的には,様々なシステムモデルと伝播条件をカバーする異なるデータセットを含むcebed(チャネル推定のためのテストベッド)と,10の深層ベースラインおよび従来型ベースラインの実装を提案する。
このベンチマークでは、データ駆動モデルのロバスト性、パイロットの数と配置、受信アンテナの数など、さまざまな実用的側面を考察している。
この研究は、研究者がデータ駆動チャネル推定アルゴリズムを評価し設計するのに役立つ包括的で統一されたフレームワークを提供する。 Deep learning has been extensively used in wireless communication problems, including channel estimation. Although several data-driven approaches exist, a fair and realistic comparison between them is difficult due to inconsistencies in the experimental conditions and the lack of a standardized experimental design. In addition, the performance of data-driven approaches is often compared based on empirical analysis. The lack of reproducibility and availability of standardized evaluation tools (e.g., datasets, codebases) hinder the development and progress of data-driven methods for channel estimation and wireless communication in general. In this work, we introduce an initiative to build benchmarks that unify several data-driven OFDM channel estimation approaches. Specifically, we present CeBed (a testbed for channel estimation) including different datasets covering various systems models and propagation conditions along with the implementation of ten deep and traditional baselines. This benchmark considers different practical aspects such as the robustness of the data-driven models, the number and the arrangement of pilots, and the number of receive antennas. This work offers a comprehensive and unified framework to help researchers evaluate and design data-driven channel estimation algorithms. | 翻訳日:2023-06-27 19:18:42 公開日:2023-06-23 |
# 階層的関係オブジェクトナビゲーションのためのタスク駆動グラフアテンション Task-Driven Graph Attention for Hierarchical Relational Object Navigation ( http://arxiv.org/abs/2306.13760v1 ) ライセンス: Link先を確認 | Michael Lingelbach, Chengshu Li, Minjune Hwang, Andrey Kurenkov, Alan Lou, Roberto Mart\'in-Mart\'in, Ruohan Zhang, Li Fei-Fei, Jiajun Wu | (参考訳) 大きなシーンにいる身体を持つAIエージェントは、オブジェクトを見つけるためにナビゲートする必要があることが多い。
本研究では,家具に関連する階層構造オブジェクトに整理された論理述語によって指定されたオブジェクトを,キッチンのテーブルの上にリンゴを見つけるなど,室内に配置することを目的として,自然に出現するオブジェクトナビゲーションタスクである階層関係オブジェクトナビゲーション(hron)について検討する。
このようなタスクを解決するには、オブジェクト関係を推論し、環境とタスク目標の関係を関連付ける効率的な表現が必要である。
大きなシーン(例えば家)のHRONは、部分的な観測可能性と長い地平線のために特に困難であり、シーンを効果的に探索しながら過去の情報をコンパクトに保存できるソリューションを招待する。
本研究では,シーングラフが画像や2次元マップなどの従来の表現と比較して最適であることを示す。
本稿では,シーングラフを入力として使用し,そのバックボーンとしてグラフニューラルネットワークを統合し,タスク駆動型注意機構を統合し,最先端のベースラインよりも優れたスケーラビリティと学習効率を示すソリューションを提案する。 Embodied AI agents in large scenes often need to navigate to find objects. In this work, we study a naturally emerging variant of the object navigation task, hierarchical relational object navigation (HRON), where the goal is to find objects specified by logical predicates organized in a hierarchical structure - objects related to furniture and then to rooms - such as finding an apple on top of a table in the kitchen. Solving such a task requires an efficient representation to reason about object relations and correlate the relations in the environment and in the task goal. HRON in large scenes (e.g. homes) is particularly challenging due to its partial observability and long horizon, which invites solutions that can compactly store the past information while effectively exploring the scene. We demonstrate experimentally that scene graphs are the best-suited representation compared to conventional representations such as images or 2D maps. We propose a solution that uses scene graphs as part of its input and integrates graph neural networks as its backbone, with an integrated task-driven attention mechanism, and demonstrate its better scalability and learning efficiency than state-of-the-art baselines. | 翻訳日:2023-06-27 19:18:14 公開日:2023-06-23 |
# コンバージョン当たりの増益:Eコマース推進における昇降モデリングの対応転換 Incremental Profit per Conversion: a Response Transformation for Uplift Modeling in E-Commerce Promotions ( http://arxiv.org/abs/2306.13759v1 ) ライセンス: Link先を確認 | Hugo Manuel Proen\c{c}a, Felipe Moraes | (参考訳) プロモーションはEコマースプラットフォームにおいて重要な役割を担い、ユーザエンゲージメントを促進するために様々なコスト構造が採用されている。
本稿では,購入時にのみ費用が発生する応答依存コストによるプロモーションに焦点を当てた。
このようなプロモーションには割引やクーポンが含まれる。
既存のアップリフトモデルアプローチは、この課題に対処することを目的としているが、これらのアプローチでは、メタリーナーのような複数のモデルをトレーニングしたり、コストも利益もゼロの非変換個人から生じるゼロ膨張値による利益を見積もる場合の合併症に直面することが少なくない。
これらの課題に対処するために、単元経済におけるプロモーションキャンペーンの効率を向上する新たな指標であるIncremental Profit per Conversion(IPC)を導入する。
提案する応答変換により, ipc は変換データのみを必要とし, その拡張性, 1 モデルのみを推定できることを実証した。
その結果、ICCは上記の問題を解消しつつ、検索と購入データ間の多対一マッピングから生じる変換データセットやバイアスのクラス不均衡に関連するノイズを緩和する。
最後に,ディスカウントクーポンキャンペーンの合成シミュレーションから得られた結果を提示し,提案手法の有効性を検証した。 Promotions play a crucial role in e-commerce platforms, and various cost structures are employed to drive user engagement. This paper focuses on promotions with response-dependent costs, where expenses are incurred only when a purchase is made. Such promotions include discounts and coupons. While existing uplift model approaches aim to address this challenge, these approaches often necessitate training multiple models, like meta-learners, or encounter complications when estimating profit due to zero-inflated values stemming from non-converted individuals with zero cost and profit. To address these challenges, we introduce Incremental Profit per Conversion (IPC), a novel uplift measure of promotional campaigns' efficiency in unit economics. Through a proposed response transformation, we demonstrate that IPC requires only converted data, its propensity, and a single model to be estimated. As a result, IPC resolves the issues mentioned above while mitigating the noise typically associated with the class imbalance in conversion datasets and biases arising from the many-to-one mapping between search and purchase data. Lastly, we validate the efficacy of our approach by presenting results obtained from a synthetic simulation of a discount coupon campaign. | 翻訳日:2023-06-27 19:17:51 公開日:2023-06-23 |
# テキスト・画像拡散モデルのためのゼロショット空間配置条件付け Zero-shot spatial layout conditioning for text-to-image diffusion models ( http://arxiv.org/abs/2306.13754v1 ) ライセンス: Link先を確認 | Guillaume Couairon, Marl\`ene Careil, Matthieu Cord, St\'ephane Lathuili\`ere, Jakob Verbeek | (参考訳) 大規模なテキストから画像への拡散モデルは、生成画像モデリングにおけるアートの状態を著しく改善し、直感的で強力なユーザーインターフェイスにより画像生成プロセスを駆動できる。
特定の場所にある特定の物体の位置など、空間的制約を表現するのにテキストを使うのは面倒で、現在のテキストベースの画像生成モデルは、その指示を正確に従えません。
本稿では、直感的な自然言語インタフェースと、生成されたコンテンツの正確な空間制御を組み合わせた画像キャンバスのセグメントに関連付けられたテキストからの画像生成について考察する。
ZestGuideは、事前訓練されたテキスト-画像拡散モデルにプラグインでき、追加のトレーニングを必要としないゼロショットセグメンテーションガイダンスアプローチである。
クロスアテンション層から抽出可能な暗黙のセグメンテーションマップを利用して、生成を入力マスクと整合させる。
実験結果は,画像品質と入力セグメンテーションの正確なアライメントを組み合わせ,それに対応するセグメンテーションによる画像のトレーニングを必要とする手法を含む,事前作業の量的および質的な改善を図った。
ゼロショットセグメンテーション条件付き画像生成技術であるPaint with Wordsと比較して,同様のFIDスコアを持つCOCOデータセット上で,5~10mIoUポイントの改善を行った。 Large-scale text-to-image diffusion models have significantly improved the state of the art in generative image modelling and allow for an intuitive and powerful user interface to drive the image generation process. Expressing spatial constraints, e.g. to position specific objects in particular locations, is cumbersome using text; and current text-based image generation models are not able to accurately follow such instructions. In this paper we consider image generation from text associated with segments on the image canvas, which combines an intuitive natural language interface with precise spatial control over the generated content. We propose ZestGuide, a zero-shot segmentation guidance approach that can be plugged into pre-trained text-to-image diffusion models, and does not require any additional training. It leverages implicit segmentation maps that can be extracted from cross-attention layers, and uses them to align the generation with input masks. Our experimental results combine high image quality with accurate alignment of generated content with input segmentations, and improve over prior work both quantitatively and qualitatively, including methods that require training on images with corresponding segmentations. Compared to Paint with Words, the previous state-of-the art in image generation with zero-shot segmentation conditioning, we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores. | 翻訳日:2023-06-27 19:17:28 公開日:2023-06-23 |
# ロバスト連合学習のための一階メタスタッケルバーグ法 A First Order Meta Stackelberg Method for Robust Federated Learning ( http://arxiv.org/abs/2306.13800v1 ) ライセンス: Link先を確認 | Yunian Pan, Tao Li, Henger Li, Tianyi Xu, Zizhan Zheng, and Quanyan Zhu | (参考訳) これまでの研究によると、連邦学習(FL)システムは様々なセキュリティリスクにさらされている。
いくつかの防衛戦略の提案にもかかわらず、それらは非適応的で特定の種類の攻撃に特有の傾向があり、予測不能あるいは適応不能な脅威に対して効果的ではない。
この研究は、バイエルン・スタックルベルク・マルコフゲーム(BSMG)として敵対的連合学習をモデル化し、様々な攻撃タイプに関するディフェンダーの不完全な情報をキャプチャする。
本稿では,bsmgにおける平衡戦略を解決するために,効率的なメタ学習アルゴリズムであるmeta-stackelberg learning (meta-sl)を提案する。
メタslは, 1次$o(\varepsilon^{-2})$勾配反復において, 1次$\varepsilon$平衡点に収束し, 1回に$o(\varepsilon^{-4})$のサンプルが必要となる。
実証的な証拠は、我々のメタスタックルバーグフレームワークが、不確かな性質の強力なモデル中毒やバックドア攻撃に対して非常によく機能していることを示している。 Previous research has shown that federated learning (FL) systems are exposed to an array of security risks. Despite the proposal of several defensive strategies, they tend to be non-adaptive and specific to certain types of attacks, rendering them ineffective against unpredictable or adaptive threats. This work models adversarial federated learning as a Bayesian Stackelberg Markov game (BSMG) to capture the defender's incomplete information of various attack types. We propose meta-Stackelberg learning (meta-SL), a provably efficient meta-learning algorithm, to solve the equilibrium strategy in BSMG, leading to an adaptable FL defense. We demonstrate that meta-SL converges to the first-order $\varepsilon$-equilibrium point in $O(\varepsilon^{-2})$ gradient iterations, with $O(\varepsilon^{-4})$ samples needed per iteration, matching the state of the art. Empirical evidence indicates that our meta-Stackelberg framework performs exceptionally well against potent model poisoning and backdoor attacks of an uncertain nature. | 翻訳日:2023-06-27 19:09:47 公開日:2023-06-23 |
# 新型コロナウイルスワクチン開発から展開までのワクチン関連感情の分析 An analysis of vaccine-related sentiments from development to deployment of COVID-19 vaccines ( http://arxiv.org/abs/2306.13797v1 ) ライセンス: Link先を確認 | Rohitash Chandra, Jayesh Sonawane, Janhavi Lande, Cathy Yu | (参考訳) 抗ワクチン感情はウイルスのアウトブレイクや予防接種プログラムの歴史を通じてよく知られ、報告されている。
新型コロナウイルス(COVID-19)のパンデミックは、ツイッターなどのソーシャルメディアプラットフォームでよく表現されているワクチンに対する恐れと不確実性を持っていた。
我々は、新型コロナウイルス(covid-19)パンデミックの始まりからtwitterの感情を分析し、深層学習モデルを用いた感情分析フレームワークを用いて、世界中のツイートで表現されたワクチンの計画、開発、展開中の公開行動を研究する。
このようにして、新型コロナウイルスのパンデミックの過程で、抗ワクチン感情の可視化と分析を行う。
以上の結果から, ツイート数, ケース数, 感情極性スコアの変化の関連性を示した。
また、パンデミックの前半は、後に安定化した感情極性スコアに劇的な変化が見られ、ワクチンの導入がソーシャルメディア上での議論の本質に影響を与えていることが示唆された。 Anti-vaccine sentiments have been well-known and reported throughout the history of viral outbreaks and vaccination programmes. The COVID-19 pandemic had fear and uncertainty about vaccines which has been well expressed on social media platforms such as Twitter. We analyse Twitter sentiments from the beginning of the COVID-19 pandemic and study the public behaviour during the planning, development and deployment of vaccines expressed in tweets worldwide using a sentiment analysis framework via deep learning models. In this way, we provide visualisation and analysis of anti-vaccine sentiments over the course of the COVID-19 pandemic. Our results show a link between the number of tweets, the number of cases, and the change in sentiment polarity scores during major waves of COVID-19 cases. We also found that the first half of the pandemic had drastic changes in the sentiment polarity scores that later stabilised which implies that the vaccine rollout had an impact on the nature of discussions on social media. | 翻訳日:2023-06-27 19:09:20 公開日:2023-06-23 |
# マルチインテンス弱監督による潜在モデル学習について On Learning Latent Models with Multi-Instance Weak Supervision ( http://arxiv.org/abs/2306.13796v1 ) ライセンス: Link先を確認 | Kaifu Wang, Efi Tsamoura, Dan Roth | (参考訳) 複数の入力インスタンスに関連付けられたラベルの遷移関数$\sigma$によって監督信号が生成される弱い教師付き学習シナリオを考える。
この問題を標準的な PLL 問題の拡張である \emph{multi-instance partial Label Learning (multi-instance PLL)} として定式化する。
私たちの問題は、潜在構造学習や神経シンボリックな統合など、さまざまな分野に当てはまります。
多くの学習技術が存在するにもかかわらず、限定的な理論解析はこの問題に献身されてきた。
本稿では、おそらく未知の遷移 $\sigma$ を持つマルチインスタンス PLL に関する最初の理論的研究を提供する。
主な貢献は以下の通りである。
まず,問題の学習に必要かつ十分な条件を提案する。
この条件は、遷移が決定論的であることを認めるため、PLL文学において既存の小さな曖昧度を非自明に一般化し、緩和する。
第2に、ニューロシンボリックな文献で広く使われている上位k$の代理損失に基づいて、Rademacher型エラー境界を導出する。
さらに,未知の遷移下での学習実験を行った。
実験結果は我々の理論的な結果と一致するが、弱監督文学におけるスケーラビリティの問題も露呈している。 We consider a weakly supervised learning scenario where the supervision signal is generated by a transition function $\sigma$ of labels associated with multiple input instances. We formulate this problem as \emph{multi-instance Partial Label Learning (multi-instance PLL)}, which is an extension to the standard PLL problem. Our problem is met in different fields, including latent structural learning and neuro-symbolic integration. Despite the existence of many learning techniques, limited theoretical analysis has been dedicated to this problem. In this paper, we provide the first theoretical study of multi-instance PLL with possibly an unknown transition $\sigma$. Our main contributions are as follows. Firstly, we propose a necessary and sufficient condition for the learnability of the problem. This condition non-trivially generalizes and relaxes the existing small ambiguity degree in the PLL literature, since we allow the transition to be deterministic. Secondly, we derive Rademacher-style error bounds based on a top-$k$ surrogate loss that is widely used in the neuro-symbolic literature. Furthermore, we conclude with empirical experiments for learning under unknown transitions. The empirical results align with our theoretical findings; however, they also expose the issue of scalability in the weak supervision literature. | 翻訳日:2023-06-27 19:09:04 公開日:2023-06-23 |
# テンソルディリクレ過程多項混合モデルによる乗客軌道クラスタリング Tensor Dirichlet Process Multinomial Mixture Model for Passenger Trajectory Clustering ( http://arxiv.org/abs/2306.13794v1 ) ライセンス: Link先を確認 | Ziyue Li, Hao Yan, Chen Zhang, Andi Wang, Wolfgang Ketter, Lijun Sun, Fugee Tsung | (参考訳) 移動記録に基づく乗客クラスタリングは交通事業者にとって不可欠である。
しかし、既存の方法では、旅客旅行情報の階層構造、すなわち、各乗客が複数の旅行をしており、各旅行には多次元多モード情報が含まれるため、乗客のクラスタリングが困難である。
さらに、既存のアプローチはクラスタリング番号の正確な仕様に依存しており、何百万人もの通勤者が日常的に輸送システムを使っている場合、難しい。
本稿では,テンソルを用いた多次元旅行情報の多モード・階層構造を保存し,それらを一段階的にクラスタリングする新しいテンソル・ディリクレ・プロセス多相混合モデル(Tensor-DPMM)を提案する。
モデルには、dirichletプロセスを使用して自動的にクラスタ数を決定する機能もあり、乗客が既存のクラスタに割り当てられるか、新しいクラスタを作成するかを決定することができます。
最後に、既存の手法では、位置間の地理的近接や機能的類似性のような空間意味グラフを考慮せず、不正確なクラスタリングを引き起こす可能性がある。
そこで本研究では,このモデル,すなわちグラフ付きTensor-DPMMを提案する。
そこで本アルゴリズムでは,小人数のメンバでクラスタを分割し,残りのクラスタに移動させる「分割と移動」という革新的なステップで,テンソルのCollapsed Gibbs Smpling法を提案する。
これにより、制御不能なクラスタの増加が回避される。
香港の地下鉄利用者データに基づくケーススタディにより,クラスタ数の自動学習プロセスが実証され,クラスタ内コンパクト性とクラスタ間分離性が向上した。 Passenger clustering based on travel records is essential for transportation operators. However, existing methods cannot easily cluster the passengers due to the hierarchical structure of the passenger trip information, namely: each passenger has multiple trips, and each trip contains multi-dimensional multi-mode information. Furthermore, existing approaches rely on an accurate specification of the clustering number to start, which is difficult when millions of commuters are using the transport systems on a daily basis. In this paper, we propose a novel Tensor Dirichlet Process Multinomial Mixture model (Tensor-DPMM), which is designed to preserve the multi-mode and hierarchical structure of the multi-dimensional trip information via tensor, and cluster them in a unified one-step manner. The model also has the ability to determine the number of clusters automatically by using the Dirichlet Process to decide the probabilities for a passenger to be either assigned in an existing cluster or to create a new cluster: This allows our model to grow the clusters as needed in a dynamic manner. Finally, existing methods do not consider spatial semantic graphs such as geographical proximity and functional similarity between the locations, which may cause inaccurate clustering. To this end, we further propose a variant of our model, namely the Tensor-DPMM with Graph. For the algorithm, we propose a tensor Collapsed Gibbs Sampling method, with an innovative step of "disband and relocating", which disbands clusters with too small amount of members and relocates them to the remaining clustering. This avoids uncontrollable growing amounts of clusters. A case study based on Hong Kong metro passenger data is conducted to demonstrate the automatic process of learning the number of clusters, and the learned clusters are better in within-cluster compactness and cross-cluster separateness. | 翻訳日:2023-06-27 19:08:45 公開日:2023-06-23 |
# QNNRepair: 量子ニューラルネットワークの修復 QNNRepair: Quantized Neural Network Repair ( http://arxiv.org/abs/2306.13793v1 ) ライセンス: Link先を確認 | Xidan Song, Youcheng Sun, Mustafa A. Mustafa, and Lucas C. Cordeiro | (参考訳) 本稿では,量子化ニューラルネットワーク (QNN) の修復手法であるQNNRepairを提案する。
QNNRepairは、量子化後のニューラルネットワークモデルの精度向上を目的としている。
完全な精度と重み付けのニューラルネットワークと、合格テストと失敗テストの修復データセットを受け入れる。
はじめに、QNNRepairは、ニューラルネットワーク量子化時にパフォーマンス劣化を引き起こすニューロンを特定するために、ソフトウェア障害ローカライズ手法を適用した。
そして、修復問題をニューロン重みパラメータを解く線形計画問題に定式化し、合格テストにおける性能を損なうことなく、故障テストにおけるqnnの性能を補正する。
我々は、高解像度画像を含む一般的なデータセット上で、MobileNetV2、ResNet、VGGNetなどの広く使われているニューラルネットワークアーキテクチャを用いて、QNNRepairを評価する。
また,QNNRepairと最先端データ自由量子化手法SQuantを比較した。
実験の結果,QNNRepairは,ほとんどの場合において量子化モデルの性能向上に有効であることがわかった。
修復されたモデルは、独立した検証セット、特にImageNetデータセットにおいて、SQuantよりも24%高い精度を持つ。 We present QNNRepair, the first method in the literature for repairing quantized neural networks (QNNs). QNNRepair aims to improve the accuracy of a neural network model after quantization. It accepts the full-precision and weight-quantized neural networks and a repair dataset of passing and failing tests. At first, QNNRepair applies a software fault localization method to identify the neurons that cause performance degradation during neural network quantization. Then, it formulates the repair problem into a linear programming problem of solving neuron weights parameters, which corrects the QNN's performance on failing tests while not compromising its performance on passing tests. We evaluate QNNRepair with widely used neural network architectures such as MobileNetV2, ResNet, and VGGNet on popular datasets, including high-resolution images. We also compare QNNRepair with the state-of-the-art data-free quantization method SQuant. According to the experiment results, we conclude that QNNRepair is effective in improving the quantized model's performance in most cases. Its repaired models have 24% higher accuracy than SQuant's in the independent validation set, especially for the ImageNet dataset. | 翻訳日:2023-06-27 19:08:15 公開日:2023-06-23 |
# バナッハ代数における指数和と一般化リートラッター公式の鈴木型推定 Suzuki Type Estimates for Exponentiated Sums and Generalized Lie-Trotter Formulas in Banach Algebras ( http://arxiv.org/abs/2306.13791v1 ) ライセンス: Link先を確認 | Zhenhua Wang | (参考訳) リートローター公式は、量子力学、量子コンピューティング、量子シミュレーションにおける基本的なツールである。
リートロータ積公式の誤差推定は、スケーラビリティと計算効率を達成する上で重要な役割を果たす。
本稿では,バナッハ代数におけるジョルダン積を利用したリートロータ積公式の誤差推定について述べる。
さらに, 2 つの一般化リー-トロッター公式を導入し, 2 つの明示的な推定式を提供する。
したがって、指数和 \cite[Formula 3, Equation (1.15)]{Suzuki 1985} の有名なスズキ対称性は、定理 2.3 から直接従う。 The Lie-Trotter formula has been a fundamental tool in quantum mechanics, quantum computing, and quantum simulations. The error estimations for the Lie-Trotter product formula play a crucial role in achieving scalability and computational efficiency. In this note, we present two error estimates of Lie-Trotter product formulas, utilizing Jordan product within Banach algebras. Additionally, we introduce two generalized Lie-Trotter formula and provide two explicit estimation formulas. Consequently, the renowned Suzuki symmetrized approximation for the exponentiated sums \cite[Formula 3, Equation (1.15)]{Suzuki1985} follows directly from Theorem 2.3. | 翻訳日:2023-06-27 19:07:58 公開日:2023-06-23 |
# 分子スピン量子の半経験的Haken-Stroblモデル Semi-Empirical Haken-Strobl Model for Molecular Spin Qubits ( http://arxiv.org/abs/2306.13790v1 ) ライセンス: Link先を確認 | Katy Aruachan, Yamil J. Col\'on, Daniel Aravena, Felipe Herrera | (参考訳) 分子スピン量子ビットの緩和を決定づける物理過程を理解することは、量子力学や情報処理における想定された応用において重要である。
最近のスピンエコー $t_1$ 固体分子スピン量子ビットの測定は、第一原理電子構造法を用いて固有スピン量子ビットの時間スケールを予測する量子力学的モデルの開発を刺激した。
スピン-格子相互作用によるジャイロ磁性テンソルの変動と、他の格子スピンとの相互作用による局所磁場の変動を伴う中心スピンに対する確率的haken-stroblモデルを用いて、分子スピン量子ビットのレッドフィールド量子マスター方程式を構築するための代替的な半経験的手法を開発した。
バナジウム系スピン量子ビットをケーススタディとして, 少量のT_{1}$測定でパラメタライズした入浴スペクトル密度を用いて, 温度と磁場の関数として, 量子ビット集団とデコヒーレンス時間スケールを計算した。
この理論は、モデルのパラメータ化に使用される範囲を超えて実験データと定量的に一致し、手法の一般化ポテンシャルを示す。
モデルがT_2/T_1$の温度依存性を記述する能力について考察し,新しい分子系量子磁気センサの設計への応用の可能性を提案する。 Understanding the physical processes that determine the relaxation $T_{1}$ and dephasing $T_2$ times of molecular spin qubits is critical for envisioned applications in quantum metrology and information processing. Recent spin-echo $T_1$ measurements of solid-state molecular spin qubits have stimulated the development of quantum mechanical models for predicting intrinsic spin qubit timescales using first-principles electronic structure methods. We develop an alternative semi-empirical approach to construct Redfield quantum master equations for molecular spin qubits using a stochastic Haken-Strobl model for a central spin with a fluctuating gyromagnetic tensor due to spin-lattice interaction and a fluctuating local magnetic field due to interactions with other lattice spins. Using a vanadium-based spin qubit as a case study, we compute qubit population and decoherence timescales as a function of temperature and magnetic field using a bath spectral density parametrized with a small number of $T_{1}$ measurements. The theory quantitatively agrees with experimental data over a range of conditions beyond those used to parametrize the model, demonstrating the generalization potential of the method. The ability of the model to describe the temperature dependence of the ratio $T_2/T_1$ is discussed and possible applications for designing novel molecule-based quantum magnetometers are suggested. | 翻訳日:2023-06-27 19:07:48 公開日:2023-06-23 |
# デコンストラクタ分類器:テキスト分類モデルに対するデータ再構成攻撃に向けて Deconstructing Classifiers: Towards A Data Reconstruction Attack Against Text Classification Models ( http://arxiv.org/abs/2306.13789v1 ) ライセンス: Link先を確認 | Adel Elmahdy, Ahmed Salem | (参考訳) 自然言語処理(NLP)モデルは、テキスト分類などの現実世界のアプリケーションで人気が高まっている。
しかし、モデルのトレーニングに使用されるデータを抽出することを目的としたデータ復元攻撃など、プライバシ攻撃に弱い。
データ再構成攻撃に関するこれまでの研究はLLMに重点を置いていたが、分類モデルはより安全であると推定された。
本研究では,多くの分類モデルがLLMに基づいているという事実を生かして,Mix And Match攻撃と呼ばれる新たなデータ再構成攻撃を提案する。
Mix And Match攻撃は、ターゲットモデルのベースモデルを使用して候補トークンを生成し、分類ヘッドを使用してそれらをプーンする。
ランダムカナリアと有機カナリアの両方を用いた攻撃の有効性を広範囲に示す。
本研究は,データレコンストラクション攻撃に伴うプライバシリスクを分類モデルで考慮することの重要性を強調し,漏洩の可能性に関する洞察を提供する。 Natural language processing (NLP) models have become increasingly popular in real-world applications, such as text classification. However, they are vulnerable to privacy attacks, including data reconstruction attacks that aim to extract the data used to train the model. Most previous studies on data reconstruction attacks have focused on LLM, while classification models were assumed to be more secure. In this work, we propose a new targeted data reconstruction attack called the Mix And Match attack, which takes advantage of the fact that most classification models are based on LLM. The Mix And Match attack uses the base model of the target model to generate candidate tokens and then prunes them using the classification head. We extensively demonstrate the effectiveness of the attack using both random and organic canaries. This work highlights the importance of considering the privacy risks associated with data reconstruction attacks in classification models and offers insights into possible leakages. | 翻訳日:2023-06-27 19:07:20 公開日:2023-06-23 |
# 機械学習アルゴリズムの一般化誤りに対する新しいアプローチ:推定と収束 A new approach to generalisation error of machine learning algorithms: Estimates and convergence ( http://arxiv.org/abs/2306.13784v1 ) ライセンス: Link先を確認 | Michail Loulakis, Charalambos G. Makridakis | (参考訳) 本研究では、深層学習のモデル問題、すなわち有限個の点集合上の点値にアクセスできると仮定されたとき、与えられた関数の学習について考察する。
ディープニューラルネットワーク補間器は、与えられたDNNアーキテクチャと正確に解けると仮定された最適化ステップを含む典型的な機械学習アルゴリズムによって得られるfの近似である。
これらはニューラルネットワークに基づく最も単純な回帰アルゴリズムの1つである。
本研究では,(一般化)誤差の推定と収束に対する新しいアプローチを提案する。
結果には
(i)ニューラルネットワークにおける構造的仮定を伴わない誤りの推定と、学習関数f上の軽度正規性仮定
(ii)ニューラルネットワーク空間が適切な近似能力を持つだけで、対象関数fへの近似の収束。 In this work we consider a model problem of deep neural learning, namely the learning of a given function when it is assumed that we have access to its point values on a finite set of points. The deep neural network interpolant is the the resulting approximation of f, which is obtained by a typical machine learning algorithm involving a given DNN architecture and an optimisation step, which is assumed to be solved exactly. These are among the simplest regression algorithms based on neural networks. In this work we introduce a new approach to the estimation of the (generalisation) error and to convergence. Our results include (i) estimates of the error without any structural assumption on the neural networks and under mild regularity assumptions on the learning function f (ii) convergence of the approximations to the target function f by only requiring that the neural network spaces have appropriate approximation capability. | 翻訳日:2023-06-27 19:07:06 公開日:2023-06-23 |
# 教師なしSTDPに基づく行動認識のための2ストリーム方式のスパイキング Spiking Two-Stream Methods with Unsupervised STDP-based Learning for Action Recognition ( http://arxiv.org/abs/2306.13783v1 ) ライセンス: Link先を確認 | Mireille El-Assal and Pierre Tirilly and Ioan Marius Bilasco | (参考訳) ビデオ分析はコンピュータビジョンタスクであり、監視、人間と機械のインタラクション、自動運転車といった多くのアプリケーションに役立ちます。
深層畳み込みニューラルネットワーク(cnns)は現在、ビデオ解析の最先端の手法である。
しかし、計算コストが高く、トレーニングには大量のラベル付きデータが必要である。
本稿では,非教師付きスパイクタイミング依存可塑性(stdp)学習規則を用いて学習した畳み込みスパイクニューラルネットワーク(csnn)を用いて行動分類を行う。
これらのネットワークは、非同期の低エネルギースパイクを使って情報を表現する。
これにより、ネットワークはよりエネルギー効率が高く、ニューロモルフィックなハードウェアフレンドリーになる。
しかし、CSNNの挙動は時空間コンピュータビジョンモデルでは十分に研究されていない。
そこで,二流ニューラルネットワークのスパイキング領域への変換について検討する。
このモデルを教師なしSTDPベースのCSNNで実装することで、ビデオ解析によりこれらのネットワークの性能をさらに研究することができる。
本研究では,2ストリームのCSNNが,限られたトレーニングデータを使用しながらビデオから時空間情報を抽出し,時空間ストリームと時空間ストリームが相補的であることを示す。
また,STDPをベースとした2ストリームアーキテクチャにおける時空間ストリームの利用は情報冗長性をもたらし,性能が向上しないことを示す。 Video analysis is a computer vision task that is useful for many applications like surveillance, human-machine interaction, and autonomous vehicles. Deep Convolutional Neural Networks (CNNs) are currently the state-of-the-art methods for video analysis. However they have high computational costs, and need a large amount of labeled data for training. In this paper, we use Convolutional Spiking Neural Networks (CSNNs) trained with the unsupervised Spike Timing-Dependent Plasticity (STDP) learning rule for action classification. These networks represent the information using asynchronous low-energy spikes. This allows the network to be more energy efficient and neuromorphic hardware-friendly. However, the behaviour of CSNNs is not studied enough with spatio-temporal computer vision models. Therefore, we explore transposing two-stream neural networks into the spiking domain. Implementing this model with unsupervised STDP-based CSNNs allows us to further study the performance of these networks with video analysis. In this work, we show that two-stream CSNNs can successfully extract spatio-temporal information from videos despite using limited training data, and that the spiking spatial and temporal streams are complementary. We also show that using a spatio-temporal stream within a spiking STDP-based two-stream architecture leads to information redundancy and does not improve the performance. | 翻訳日:2023-06-27 19:06:53 公開日:2023-06-23 |
# AR2-D2:ロボットなしでのトレーニング AR2-D2:Training a Robot Without a Robot ( http://arxiv.org/abs/2306.13818v1 ) ライセンス: Link先を確認 | Jiafei Duan, Yi Ru Wang, Mohit Shridhar, Dieter Fox, Ranjay Krishna | (参考訳) 厳格に集められた人間のデモは、ロボット学習の進歩を促進するアンサングヒーローとして機能する。
現在デモは、少数のオブジェクトを操作するためにロボットを操作する特殊なコントローラーの使用を訓練する人々によって収集されている。
対照的に,本研究では,(1)専門訓練を要せず,(2)データ収集時に実ロボットを必要とせず,(3)実ロボットによる多種多様な物体の操作を可能にするデモ収集システムar2-d2を紹介する。
ar2-d2はiosアプリの形をしたフレームワークで、あらゆるオブジェクトを操作するビデオを記録し、同時に実際のロボットの訓練に必要なデータモダリティをキャプチャする。
本システムで収集したデータは,実物体操作時の行動クローニングエージェントの訓練を可能にする。
さらに,arデータを用いたトレーニングは実世界のロボットによる実演の訓練と同じくらい効果的であることを示した。
さらに,本研究は,AR2-D2を直感的に使用でき,ロボットのデモを収集する他の4つの方法と対照的に,トレーニングを必要としないことを示唆している。 Diligently gathered human demonstrations serve as the unsung heroes empowering the progression of robot learning. Today, demonstrations are collected by training people to use specialized controllers, which (tele-)operate robots to manipulate a small number of objects. By contrast, we introduce AR2-D2: a system for collecting demonstrations which (1) does not require people with specialized training, (2) does not require any real robots during data collection, and therefore, (3) enables manipulation of diverse objects with a real robot. AR2-D2 is a framework in the form of an iOS app that people can use to record a video of themselves manipulating any object while simultaneously capturing essential data modalities for training a real robot. We show that data collected via our system enables the training of behavior cloning agents in manipulating real objects. Our experiments further show that training with our AR data is as effective as training with real-world robot demonstrations. Moreover, our user study indicates that users find AR2-D2 intuitive to use and require no training in contrast to four other frequently employed methods for collecting robot demonstrations. | 翻訳日:2023-06-27 19:00:27 公開日:2023-06-23 |
# nlpトランスフォーマーの内部にある二重らせん The Double Helix inside the NLP Transformer ( http://arxiv.org/abs/2306.13817v1 ) ライセンス: Link先を確認 | Jason H.J. Lu, Qingzhen Guo | (参考訳) NLP変換器で様々な種類の情報を分析するためのフレームワークを提案する。
このアプローチでは、位置、構文、意味、文脈という4つの情報の層を区別する。
また,セマンティクス埋め込みに位置情報を追加するという一般的な実践は,準最適であり,代わりに線形付加アプローチを提案する。
分析の結果,深層部における位置情報の自律的分離が明らかになった。
埋め込みベクトルの蒸留された位置成分は、エンコーダ側とデコーダ側の両方でヘリックスの経路に沿っていることを示す。
さらに,エンコーダ側では,概念次元がPoS(Part-of-Speech)クラスタを生成することを示す。
デコーダ側では、ダイグラムアプローチが次のトークンのPoSクラスタを明らかにするのに役立つことを示す。
提案手法は,NLP変換器の深い層を通して情報処理を解明する方法である。 We introduce a framework for analyzing various types of information in an NLP Transformer. In this approach, we distinguish four layers of information: positional, syntactic, semantic, and contextual. We also argue that the common practice of adding positional information to semantic embedding is sub-optimal and propose instead a Linear-and-Add approach. Our analysis reveals an autogenetic separation of positional information through the deep layers. We show that the distilled positional components of the embedding vectors follow the path of a helix, both on the encoder side and on the decoder side. We additionally show that on the encoder side, the conceptual dimensions generate Part-of-Speech (PoS) clusters. On the decoder side, we show that a di-gram approach helps to reveal the PoS clusters of the next token. Our approach paves a way to elucidate the processing of information through the deep layers of an NLP Transformer. | 翻訳日:2023-06-27 19:00:08 公開日:2023-06-23 |
# テンポラル核融合変圧器(TFT)によるグローバル時間GPPのスケールアップ Upscaling Global Hourly GPP with Temporal Fusion Transformer (TFT) ( http://arxiv.org/abs/2306.13815v1 ) ライセンス: Link先を確認 | Rumi Nakagawa, Mary Chau, John Calzaretta, Trevor Keenan, Puya Vahabi, Alberto Todeschini, Maoya Bassiouni, Yanghui Kang | (参考訳) 気候変動イニシアチブの評価に不可欠なGross First Productivity (GPP)の信頼性評価は、現在、わずかに分散した渦状共分散塔からのみ利用可能である。
この制限は、地域規模からグローバル規模での信頼できるgpp定量化へのアクセスを阻害する。
従来の機械学習研究では,高時間分解能での入力特徴の欠如や重要な欠落値などの制約に直面していた。
本研究は,過去GPP時系列に依存することなく,TFT(Temporal Fusion Transformer)を用いた新しいアップスケーリングソリューションについて検討した。
モデル開発はRandom Forest Regressor (RFR)とXGBoostによって補完され、続いてTFTとツリーアルゴリズムのハイブリッドモデルが導入された。
最高のプリフォーミングモデルは0.704 NSEと3.54 RMSEのモデル性能を得た。
この研究のもう1つの貢献は、時間とフラックスタワーサイトに基づくエンコーダの特徴的重要性の分解分析であった。
このような分析により,マルチヘッドアテンション層の解釈性が向上し,影響する特徴の時間的ダイナミクスの視覚的理解が向上した。 Reliable estimates of Gross Primary Productivity (GPP), crucial for evaluating climate change initiatives, are currently only available from sparsely distributed eddy covariance tower sites. This limitation hampers access to reliable GPP quantification at regional to global scales. Prior machine learning studies on upscaling \textit{in situ} GPP to global wall-to-wall maps at sub-daily time steps faced limitations such as lack of input features at higher temporal resolutions and significant missing values. This research explored a novel upscaling solution using Temporal Fusion Transformer (TFT) without relying on past GPP time series. Model development was supplemented by Random Forest Regressor (RFR) and XGBoost, followed by the hybrid model of TFT and tree algorithms. The best preforming model yielded to model performance of 0.704 NSE and 3.54 RMSE. Another contribution of the study was the breakdown analysis of encoder feature importance based on time and flux tower sites. Such analysis enhanced the interpretability of the multi-head attention layer as well as the visual understanding of temporal dynamics of influential features. | 翻訳日:2023-06-27 18:59:54 公開日:2023-06-23 |
# BatchGNN: 非常に大規模なグラフ上での効率的なCPUベースの分散GNNトレーニング BatchGNN: Efficient CPU-Based Distributed GNN Training on Very Large Graphs ( http://arxiv.org/abs/2306.13814v1 ) ライセンス: Link先を確認 | Loc Hoang, Rita Brugarolas Brufau, Ke Ding, Bo Wu | (参考訳) 本稿では,テラバイト規模のグラフ上でGNNを効率的に学習する技術を紹介する分散CPUシステムであるBatchGNNを紹介する。
複数のミニバッチのサブグラフサンプリングと機能フェッチがひとつの通信リレーにバッチ化され、入力機能が静的である場合の冗長な機能フェッチが削減される。
batchgnnは、統合されたグラフパーティショニングとネイティブなgnnレイヤ実装を提供し、ランタイムを改善し、集約された入力機能をキャッシュすることで、サンプリングオーバーヘッドをさらに削減できる。
BatchGNNは、OGBNグラフでトレーニングされた3つのGNNモデル上で、DistDGLよりも平均$3\times$のスピードアップを実現し、分散GPUシステムによって報告されたランタイムを$P^3$とDistDGLv2で上回り、テラバイト規模のグラフにスケールする。 We present BatchGNN, a distributed CPU system that showcases techniques that can be used to efficiently train GNNs on terabyte-sized graphs. It reduces communication overhead with macrobatching in which multiple minibatches' subgraph sampling and feature fetching are batched into one communication relay to reduce redundant feature fetches when input features are static. BatchGNN provides integrated graph partitioning and native GNN layer implementations to improve runtime, and it can cache aggregated input features to further reduce sampling overhead. BatchGNN achieves an average $3\times$ speedup over DistDGL on three GNN models trained on OGBN graphs, outperforms the runtimes reported by distributed GPU systems $P^3$ and DistDGLv2, and scales to a terabyte-sized graph. | 翻訳日:2023-06-27 18:59:39 公開日:2023-06-23 |
# DualAttNet:胸部X線多層病変検出のための画像レベルと微細な病変注意の相乗的融合 DualAttNet: Synergistic Fusion of Image-level and Fine-Grained Disease Attention for Multi-Label Lesion Detection in Chest X-rays ( http://arxiv.org/abs/2306.13813v1 ) ライセンス: Link先を確認 | Qing Xu and Wenting Duan | (参考訳) 胸部X線写真は、病変検出のための最も一般的な放射線検査である。
近年のディープラーニングの進歩は、様々な胸部疾患検出タスクの結果を奨励している。
特に、特徴ピラミッドネットワークを備えたアーキテクチャでは、異なるサイズでターゲットを認識することができる。
しかし, 胸部x線像の視認性が高いため, 病変領域に注目することは困難である。
本稿ではDualAttNetという胸部X線写真におけるマルチラベル病変検出のための二重注意制御モジュールを提案する。
画像レベルの注意ブロックときめ細かい疾患注意アルゴリズムに基づいて、グローバルおよびローカルの病変分類情報を効率的に融合する。
画像レベルでのアテンションマップとグラウンド真理の差を計算するために二項クロスエントロピー損失関数を用いる。
生成した勾配流を利用してピラミッドの表現を洗練し、病変に関連する特徴を強調する。
VinDr-CXR, ChestX-ray8, COVID-19データセットのモデルについて検討した。
実験の結果、DualAttNetはベースラインを0.6%から2.7% mAP、検出アーキテクチャが異なる1.4%から4.7% AP50に超えることがわかった。
私たちの仕事のコードと技術的な詳細はhttps://github.com/xq141839/DualAttNet.comで確認できます。 Chest radiographs are the most commonly performed radiological examinations for lesion detection. Recent advances in deep learning have led to encouraging results in various thoracic disease detection tasks. Particularly, the architecture with feature pyramid network performs the ability to recognise targets with different sizes. However, such networks are difficult to focus on lesion regions in chest X-rays due to their high resemblance in vision. In this paper, we propose a dual attention supervised module for multi-label lesion detection in chest radiographs, named DualAttNet. It efficiently fuses global and local lesion classification information based on an image-level attention block and a fine-grained disease attention algorithm. A binary cross entropy loss function is used to calculate the difference between the attention map and ground truth at image level. The generated gradient flow is leveraged to refine pyramid representations and highlight lesion-related features. We evaluate the proposed model on VinDr-CXR, ChestX-ray8 and COVID-19 datasets. The experimental results show that DualAttNet surpasses baselines by 0.6% to 2.7% mAP and 1.4% to 4.7% AP50 with different detection architectures. The code for our work and more technical details can be found at https://github.com/xq141839/DualAttNet. | 翻訳日:2023-06-27 18:59:20 公開日:2023-06-23 |
# 深層学習における塑性維持 Maintaining Plasticity in Deep Continual Learning ( http://arxiv.org/abs/2306.13812v1 ) ライセンス: Link先を確認 | Shibhansh Dohare, J. Fernando Hernandez-Garcia, Parash Rahman, Richard S. Sutton, A. Rupam Mahmood | (参考訳) 現代のディープラーニングシステムは、継続的にトレーニングを行う継続的学習とは対照的に、トレーニングが繰り返される問題の設定に特化している。
ディープラーニングシステムが継続的学習環境に適用される場合、過去の例を思い出すのに壊滅的に失敗することはよく知られている。
より基本的なことは、あまり知られていないが、彼らは新しいデータに適応する能力を失うかもしれないということだ。
MNISTとImageNetのデータセットを用いて,連続学習をタスクのシーケンスとして再利用し,可塑性の喪失を示す。
ImageNetでは、初期タスクではバイナリ分類のパフォーマンスが89%から77%に低下し、2000年タスクでは線形ネットワークのレベルに低下した。
このような可塑性の損失は、幅広いディープネットワークアーキテクチャ、オプティマイザ、アクティベーション関数で発生し、バッチ正規化やドロップアウトでは緩和されなかった。
実験では, 可塑性の喪失は, 死単位の増殖, 非常に大きな重量, より一般に単位の多様性の喪失と相関した。
可塑性の損失は、特に重量摂動(Shrink, Perturb)と組み合わせた場合、$L^2$-regularizationにより著しく緩和された。
可塑性は -- $\textit{continual backpropagation}$ -- と呼ばれる新しいアルゴリズムで完全に維持可能であることを示す。 Modern deep-learning systems are specialized to problem settings in which training occurs once and then never again, as opposed to continual-learning settings in which training occurs continually. If deep-learning systems are applied in a continual learning setting, then it is well known that they may fail catastrophically to remember earlier examples. More fundamental, but less well known, is that they may also lose their ability to adapt to new data, a phenomenon called \textit{loss of plasticity}. We show loss of plasticity using the MNIST and ImageNet datasets repurposed for continual learning as sequences of tasks. In ImageNet, binary classification performance dropped from 89% correct on an early task down to 77%, or to about the level of a linear network, on the 2000th task. Such loss of plasticity occurred with a wide range of deep network architectures, optimizers, and activation functions, and was not eased by batch normalization or dropout. In our experiments, loss of plasticity was correlated with the proliferation of dead units, with very large weights, and more generally with a loss of unit diversity. Loss of plasticity was substantially eased by $L^2$-regularization, particularly when combined with weight perturbation (Shrink and Perturb). We show that plasticity can be fully maintained by a new algorithm -- called $\textit{continual backpropagation}$ -- which is just like conventional backpropagation except that a small fraction of less-used units are reinitialized after each example. | 翻訳日:2023-06-27 18:59:00 公開日:2023-06-23 |
# 道徳教育・開発研究における大規模言語モデル活用の可能性 Potential Benefits of Employing Large Language Models in Research in Moral Education and Development ( http://arxiv.org/abs/2306.13805v1 ) ライセンス: Link先を確認 | Hyemin Han | (参考訳) 近年,計算機科学者は大規模言語コーパスと人間強化を用いた予測モデルを訓練することにより,大規模言語モデル(LLM)を開発した。
LLMは様々な分野の精度で人工知能を実装するための有望な方法となっている。
興味深いことに、近年のLLMは、高度な人間の認知をエミュレートする創発的な機能的特徴、特に従来の予測モデルでは利用できなかった文脈内学習と思考の連鎖を持っている。
本稿では,LLMが道徳教育・開発研究にどのように貢献するかを検討する。
この目標を達成するために、最近発表された会議論文とArXivのプレプリントをレビューして、LLMで実装された新機能の概要を説明します。
また、倫理的ジレンマや外部からのフィードバックに対処しながら、LCMがどのように振る舞うかをChatGPTで簡単な実験を行うつもりです。
以上の結果から, LLMは外部入力による推論プロセスの修正と推論に基づいてジレンマを解くことができる可能性が示唆された。
モラル教育研究におけるllmの潜在的意義と今後の展開について考察する。 Recently, computer scientists have developed large language models (LLMs) by training prediction models with large-scale language corpora and human reinforcements. The LLMs have become one promising way to implement artificial intelligence with accuracy in various fields. Interestingly, recent LLMs possess emergent functional features that emulate sophisticated human cognition, especially in-context learning and the chain of thought, which were unavailable in previous prediction models. In this paper, I will examine how LLMs might contribute to moral education and development research. To achieve this goal, I will review the most recently published conference papers and ArXiv preprints to overview the novel functional features implemented in LLMs. I also intend to conduct brief experiments with ChatGPT to investigate how LLMs behave while addressing ethical dilemmas and external feedback. The results suggest that LLMs might be capable of solving dilemmas based on reasoning and revising their reasoning process with external input. I will discuss the potential implications of LLMs on research on moral education and development with the results. | 翻訳日:2023-06-27 18:58:32 公開日:2023-06-23 |
# マルチモーダルデュアルアテンション変換器を用いた言語間音声認識 Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers ( http://arxiv.org/abs/2306.13804v1 ) ライセンス: Link先を確認 | Syed Aun Muhammad Zaidi, Siddique Latif, Junaid Qadi | (参考訳) 近年の音声感情認識(SER)の進歩にもかかわらず、最先端のシステムではクロス言語環境での性能向上が達成できない。
本稿では,多言語SERを改善するためのマルチモーダルデュアルアテンショントランス(MDAT)モデルを提案する。
本モデルでは,マルチモーダル特徴抽出のための事前学習モデルを利用し,グラフ注意とコアテンションを含む2重注意機構を備え,異なるモーダル性にまたがる複雑な依存関係をキャプチャし,最小のターゲット言語データを用いて言語横断型ser結果の改善を実現する。
さらに,このモデルでは,高レベル特徴表現のためのトランスフォーマーエンコーダ層を利用して感情分類精度を向上させる。
このように、MDATは様々な段階で特徴表現の洗練を行い、分類層に感情的な健全な特徴を提供する。
この新たなアプローチは、モダリティ特有の感情情報の保存と、モダリティ間および言語間インタラクションの強化も保証する。
我々は,4つの公開SERデータセット上でのモデルの性能を評価し,最近のアプローチやベースラインモデルと比較して優れた有効性を示す。 Despite the recent progress in speech emotion recognition (SER), state-of-the-art systems are unable to achieve improved performance in cross-language settings. In this paper, we propose a Multimodal Dual Attention Transformer (MDAT) model to improve cross-language SER. Our model utilises pre-trained models for multimodal feature extraction and is equipped with a dual attention mechanism including graph attention and co-attention to capture complex dependencies across different modalities and achieve improved cross-language SER results using minimal target language data. In addition, our model also exploits a transformer encoder layer for high-level feature representation to improve emotion classification accuracy. In this way, MDAT performs refinement of feature representation at various stages and provides emotional salient features to the classification layer. This novel approach also ensures the preservation of modality-specific emotional information while enhancing cross-modality and cross-language interactions. We assess our model's performance on four publicly available SER datasets and establish its superior effectiveness compared to recent approaches and baseline models. | 翻訳日:2023-06-27 18:58:14 公開日:2023-06-23 |
# エレファントとアルゴリズム: エレファントモニタリングにおけるAIの現状と今後の役割 Elephants and Algorithms: A Review of the Current and Future Role of AI in Elephant Monitoring ( http://arxiv.org/abs/2306.13803v1 ) ライセンス: Link先を確認 | Leandra Brickson, Fritz Vollrath, Alexander J. Titus | (参考訳) 人工知能(AI)と機械学習(ML)は、動物行動と保全戦略の理解を深める革命的な機会を提供する。
アフリカ保護地域の重要な種であるゾウを焦点として、我々はAIとMLの保護における役割を掘り下げる。
カメラ、マイク、ジオフォン、ドローン、衛星など、さまざまなセンサーから収集されるデータ量の増加を考えると、この膨大なデータの管理と解釈には課題がある。
新しいaiとml技術は、このプロセスを合理化するソリューションを提供し、見過ごされる可能性のある重要な情報を抽出するのに役立ちます。
本稿では,異なるAIによるモニタリング手法とゾウ保護改善の可能性に焦点を当てる。
AIの専門家と生態研究者の協力は、これらの革新的な技術を野生生物保護の強化に活用するために不可欠である。 Artificial intelligence (AI) and machine learning (ML) present revolutionary opportunities to enhance our understanding of animal behavior and conservation strategies. Using elephants, a crucial species in Africa's protected areas, as our focal point, we delve into the role of AI and ML in their conservation. Given the increasing amounts of data gathered from a variety of sensors like cameras, microphones, geophones, drones, and satellites, the challenge lies in managing and interpreting this vast data. New AI and ML techniques offer solutions to streamline this process, helping us extract vital information that might otherwise be overlooked. This paper focuses on the different AI-driven monitoring methods and their potential for improving elephant conservation. Collaborative efforts between AI experts and ecological researchers are essential in leveraging these innovative technologies for enhanced wildlife conservation, setting a precedent for numerous other species. | 翻訳日:2023-06-27 18:57:54 公開日:2023-06-23 |
# 説明可能な機械学習への進化的アプローチ Evolutionary approaches to explainable machine learning ( http://arxiv.org/abs/2306.14786v1 ) ライセンス: Link先を確認 | Ryan Zhou, Ting Hu | (参考訳) 機械学習モデルは、重要なセクターでますます使われているが、そのブラックボックスの性質は、説明責任と信頼に関する懸念を引き起こしている。
説明可能な人工知能(XAI)や説明可能な機械学習(XML)の分野は、これらのモデルの人間的理解の必要性に応えて現れた。
進化的コンピューティングは、強力な最適化と学習ツールのファミリーとして、XAI/XMLに貢献する大きな可能性を秘めています。
この章では、XAI/XMLの簡単な紹介と、機械学習モデルの説明に現在使われている様々なテクニックについてレビューする。
次に、XAI/XMLにおける進化的コンピューティングの活用方法に注目し、ECテクニックを取り入れたいくつかのアプローチについてレビューする。
また、XAI/XMLにおけるオープンな課題と、ECを用いたこの分野における今後の研究の機会についても論じる。
我々の目的は、進化的コンピューティングが現在の説明可能性の問題に対処するのに適していることを示し、これらの手法のさらなる探索を奨励し、より透明で信頼性があり、説明可能な機械学習モデルの開発に寄与することである。 Machine learning models are increasingly being used in critical sectors, but their black-box nature has raised concerns about accountability and trust. The field of explainable artificial intelligence (XAI) or explainable machine learning (XML) has emerged in response to the need for human understanding of these models. Evolutionary computing, as a family of powerful optimization and learning tools, has significant potential to contribute to XAI/XML. In this chapter, we provide a brief introduction to XAI/XML and review various techniques in current use for explaining machine learning models. We then focus on how evolutionary computing can be used in XAI/XML, and review some approaches which incorporate EC techniques. We also discuss some open challenges in XAI/XML and opportunities for future research in this field using EC. Our aim is to demonstrate that evolutionary computing is well-suited for addressing current problems in explainability, and to encourage further exploration of these methods to contribute to the development of more transparent, trustworthy and accountable machine learning models. | 翻訳日:2023-06-27 12:57:33 公開日:2023-06-23 |
# 量子誤差補正の設計と検証のためのグラフィカル構造 Graphical Structures for Design and Verification of Quantum Error Correction ( http://arxiv.org/abs/1611.08012v4 ) ライセンス: Link先を確認 | Nicholas Chancellor, Aleks Kissinger, Joschka Roffe, Stefan Zohren, and Dominic Horsman | (参考訳) 我々は、コヒーレントパリティチェック(CPC)と呼ばれるものを中心に、量子誤り訂正符号を設計・解析するための高レベルなグラフィカルフレームワークを導入する。
グラフィカルな定式化は、量子観測可能なzx計算の図式ツールに基づいている。
結果として得られたフレームワークは、古典的コードに基づいて幅広い量子コードの設計と検証を可能にする安定化符号の構築につながり、解析的および数値的手法の両方を用いて、大きなコードのクラスを発見する手段を提供する。
特に、短期デバイスで最初に使用される小さなコードに焦点を当てています。
我々は,css コードが cpc コードのサブセットを形成する方法を示し,さらに一般に cpc コードの安定化器の計算方法を示す。
このフレームワークの明示的な例として、古典的な[n,k,3]符号のほとんどすべてのペアを[2n - k + 2, k, 3]] CPC符号に変換する方法を挙げる。
さらに,数千の潜在的な符号を出力する機械探索の簡単な手法を提案し,その動作を3と5の符号で実証する。
最後に、CPCコード内でClifford計算がどのように実行できるかを示すために、グラフィカルツールを使用します。
当社のフレームワークは,比較的高いコードレートで,小~中規模のコードを構築するための新たなツールを提供すると同時に,新興デバイスに適した新たなコードソースを提供すると同時に,zx-calculus基盤によって,グラフィカルなコンパイラツールチェーンによるエラー訂正の自然な統合を実現しています。
また、任意のサイズの安定化器量子誤り訂正符号を推論するための強力なフレームワークも提供する。 We introduce a high-level graphical framework for designing and analysing quantum error correcting codes, centred on what we term the coherent parity check (CPC). The graphical formulation is based on the diagrammatic tools of the zx-calculus of quantum observables. The resulting framework leads to a construction for stabilizer codes that allows us to design and verify a broad range of quantum codes based on classical ones, and that gives a means of discovering large classes of codes using both analytical and numerical methods. We focus in particular on the smaller codes that will be the first used by near-term devices. We show how CSS codes form a subset of CPC codes and, more generally, how to compute stabilizers for a CPC code. As an explicit example of this framework, we give a method for turning almost any pair of classical [n,k,3] codes into a [[2n - k + 2, k, 3]] CPC code. Further, we give a simple technique for machine search which yields thousands of potential codes, and demonstrate its operation for distance 3 and 5 codes. Finally, we use the graphical tools to demonstrate how Clifford computation can be performed within CPC codes. As our framework gives a new tool for constructing small- to medium-sized codes with relatively high code rates, it provides a new source for codes that could be suitable for emerging devices, while its zx-calculus foundations enable natural integration of error correction with graphical compiler toolchains. It also provides a powerful framework for reasoning about all stabilizer quantum error correction codes of any size. | 翻訳日:2023-06-26 18:06:16 公開日:2023-06-23 |
# インスタンス適応型ビデオ圧縮:テストセットのトレーニングによるニューラルコーデックの改善 Instance-Adaptive Video Compression: Improving Neural Codecs by Training on the Test Set ( http://arxiv.org/abs/2111.10302v2 ) ライセンス: Link先を確認 | Ties van Rozendaal, Johann Brehmer, Yunfan Zhang, Reza Pourreza, Auke Wiggers, Taco S. Cohen | (参考訳) インスタンス適応学習に基づくビデオ圧縮アルゴリズムを提案する。
送信される各ビデオシーケンスに対して、事前訓練された圧縮モデルを微調整する。
最適なパラメータは潜在コードと共に受信者に送信される。
適切な混合モデルの下でパラメータ更新をエントロピー符号化することにより、ネットワークパラメータを効率的にエンコードできる。
このインスタンス適応圧縮アルゴリズムはベースモデルの選択に非依存であり、ニューラルビデオコーデックを改善する可能性がある。
UVG、HEVC、Xiphのデータセットでは、私たちのコーデックは、スケールスペースフローモデルの性能を21%から27%のBDレートで、最先端のBフレームモデルは17~20%のBDレートで改善します。
また、インスタンス適応的な微調整によってドメインシフトに対する堅牢性が向上することを示す。
最後に,提案手法は圧縮モデルのキャパシティ要求を低減させる。
ネットワークサイズを70%削減した後でも,競争性能が向上することを示す。 We introduce a video compression algorithm based on instance-adaptive learning. On each video sequence to be transmitted, we finetune a pretrained compression model. The optimal parameters are transmitted to the receiver along with the latent code. By entropy-coding the parameter updates under a suitable mixture model prior, we ensure that the network parameters can be encoded efficiently. This instance-adaptive compression algorithm is agnostic about the choice of base model and has the potential to improve any neural video codec. On UVG, HEVC, and Xiph datasets, our codec improves the performance of a scale-space flow model by between 21% and 27% BD-rate savings, and that of a state-of-the-art B-frame model by 17 to 20% BD-rate savings. We also demonstrate that instance-adaptive finetuning improves the robustness to domain shift. Finally, our approach reduces the capacity requirements of compression models. We show that it enables a competitive performance even after reducing the network size by 70%. | 翻訳日:2023-06-26 18:05:14 公開日:2023-06-23 |
# h1データからの深い非弾性散乱における最大絡み合う低x$プロトンの証拠 Evidence for the maximally entangled low $x$ proton in Deep Inelastic Scattering from H1 data ( http://arxiv.org/abs/2110.06156v4 ) ライセンス: Link先を確認 | Martin Hentschinski and Krzysztof Kutak | (参考訳) 深部非弾性散乱における最大絡み合った陽子波関数について,ハルゼフとレヴィンの提案と,パルトン数と最終状態ハドロン乗法の関係について検討した。
元の定式化とは対照的に、グルーオンとクォークの分布関数の和から、次から次へと誘導されるバリツキー・ファディン・クレーエフ・リパトフの進化に従属する未積分グルーオン分布から得られる、低いx$で、素粒子エントロピーを決定する。
このフレームワークは、H1データと非常によく一致しています。
さらに,Next-to-leading と Next-to-next-to-leading のどちらにおいても,NNPDF のパートン分布関数に基づく比較を行った。 We investigate the proposal by Kharzeev and Levin of a maximally entangled proton wave function in Deep Inelastic Scattering at low $x$ and the proposed relation between parton number and final state hadron multiplicity. Contrary to the original formulation we determine partonic entropy from the sum of gluon and quark distribution functions at low $x$, which we obtain from an unintegrated gluon distribution subject to next-to-leading order Balitsky-Fadin-Kuraev-Lipatov evolution. We find for this framework very good agreement with H1 data. We furthermore provide a comparison based on NNPDF parton distribution functions at both next-to-next-to-leading order and next-to-next-to-leading with small $x$ resummation, where the latter provides an acceptable description of data. | 翻訳日:2023-06-26 18:04:21 公開日:2023-06-23 |
# 行列式ビーム探索 Determinantal Beam Search ( http://arxiv.org/abs/2106.07400v4 ) ライセンス: Link先を確認 | Clara Meister, Martina Forster, Ryan Cotterell | (参考訳) ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。
このアルゴリズムは、対応する集合関数が候補間の相互作用を反映しないにもかかわらず、自然に部分最適化問題と見なすことができる。
経験上、これはしばしば高い重なりを示す集合に繋がる、例えば、文字列は1つの単語だけによって異なるかもしれない。
しかし、複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットが望まれることが多い。
この問題に対処するために,我々は行列式ビーム探索と呼ぶビーム探索の再構成を提案する。
決定的ビーム探索は、本質的にセット内相互作用を符号化する集合上のモデルである決定的ポイントプロセス(DPP)と自然な関係を持つ。
ビームサーチを一連の行列式最大化問題として繰り返すことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。
ケーススタディでは、文字列サブシーケンスカーネルを使用して、シーケンスモデルから生成されたテキストのn-gramカバレッジを明示的に奨励する。
我々のアルゴリズムは、言語生成の文脈において、他の多様な集合生成戦略と競合する性能を提供し、多様性を最適化するためのより一般的なアプローチを提供する。 Beam search is a go-to strategy for decoding neural sequence models. The algorithm can naturally be viewed as a subset optimization problem, albeit one where the corresponding set function does not reflect interactions between candidates. Empirically, this leads to sets often exhibiting high overlap, e.g., strings may differ by only a single word. Yet in use-cases that call for multiple solutions, a diverse or representative set is often desired. To address this issue, we propose a reformulation of beam search, which we call determinantal beam search. Determinantal beam search has a natural relationship to determinantal point processes (DPPs), models over sets that inherently encode intra-set interactions. By posing iterations in beam search as a series of subdeterminant maximization problems, we can turn the algorithm into a diverse subset selection process. In a case study, we use the string subsequence kernel to explicitly encourage n-gram coverage in text generated from a sequence model. We observe that our algorithm offers competitive performance against other diverse set generation strategies in the context of language generation, while providing a more general approach to optimizing for diversity. | 翻訳日:2023-06-26 18:03:44 公開日:2023-06-23 |
# 隠れ変数を持つ因果グラフィカルモデルにおける最適調整セットに必要な十分なグラフィカル条件 Necessary and sufficient graphical conditions for optimal adjustment sets in causal graphical models with hidden variables ( http://arxiv.org/abs/2102.10324v4 ) ライセンス: Link先を確認 | Jakob Runge | (参考訳) 隠れ変数と条件変数を持つグラフィカルモデルにおける因果効果を推定するために最適なバックドア調整セットを選択する問題に対処する。
これまでの研究は、最適性は最小の漸近的推定分散を達成することと定義し、隠れ変数を持たない場合の最適セットを導出した。
隠れた変数の場合、最適集合が存在しず、制限された適用可能性の十分なグラフィカル最適性基準しか導出されていない設定が存在する。
本研究の最適性は、最適な調整集合とそれを構成するための定義とアルゴリズムの存在に対して必要かつ十分なグラフィカルな基準を導出できる特定の調整情報を最大化することを特徴とする。
さらに、最適なセットは、有効な調整セットが存在し、perkovi{\'c} et alで提案された調整セットよりも高い(または等しい)調整情報を持っている場合に限り有効である。
[機械学習研究日誌,18:1-62,2018]任意のグラフについて。
結果は、漸近的分散が特定の情報理論的関係に従う推定器のクラスに対する最小の漸近的推定分散に変換される。
数値実験により、漸近的な結果は比較的小さなサンプルサイズでも成立し、最適な調整セットや最小化変種はしばしばその推定子クラスを超えてより良い分散をもたらすことが示されている。
驚くべきことに、ランダムに作成されたセットアップのうち90%以上は、多くの現実のシナリオにおいても、グラフィカルな最適性が保持できることを示す最適条件を満たす。
コードはpython package \url{https://github.com/jakobrunge/tigramite}の一部として利用できる。 The problem of selecting optimal backdoor adjustment sets to estimate causal effects in graphical models with hidden and conditioned variables is addressed. Previous work has defined optimality as achieving the smallest asymptotic estimation variance and derived an optimal set for the case without hidden variables. For the case with hidden variables there can be settings where no optimal set exists and currently only a sufficient graphical optimality criterion of limited applicability has been derived. In the present work optimality is characterized as maximizing a certain adjustment information which allows to derive a necessary and sufficient graphical criterion for the existence of an optimal adjustment set and a definition and algorithm to construct it. Further, the optimal set is valid if and only if a valid adjustment set exists and has higher (or equal) adjustment information than the Adjust-set proposed in Perkovi{\'c} et al. [Journal of Machine Learning Research, 18: 1--62, 2018] for any graph. The results translate to minimal asymptotic estimation variance for a class of estimators whose asymptotic variance follows a certain information-theoretic relation. Numerical experiments indicate that the asymptotic results also hold for relatively small sample sizes and that the optimal adjustment set or minimized variants thereof often yield better variance also beyond that estimator class. Surprisingly, among the randomly created setups more than 90\% fulfill the optimality conditions indicating that also in many real-world scenarios graphical optimality may hold. Code is available as part of the python package \url{https://github.com/jakobrunge/tigramite}. | 翻訳日:2023-06-26 18:03:26 公開日:2023-06-23 |
# ビデオ質問応答のためのオープンエンドマルチモーダル関係推論 Open-Ended Multi-Modal Relational Reasoning for Video Question Answering ( http://arxiv.org/abs/2012.00822v3 ) ライセンス: Link先を確認 | Haozheng Luo, Ruiyang Qin, Chenwei Xu, Guo Ye, and Zening Luo | (参考訳) 本稿では,外部環境を分析し,参加者の質問に答えるためのロボットエージェントを提案する。
このエージェントの主な焦点は、ビデオベースのシーン内で言語ベースのインタラクションを使用する個人を支援することである。
提案手法は,ロボットエージェント内に映像認識技術と自然言語処理モデルを統合する。
本研究では,ロボットエージェントと参加者間の関連する問題を調べることによって,人間とロボットの相互作用に影響を及ぼす重要な要因について検討する。
方法により, 信頼と相互作用効率の正の関係が明らかとなった。
さらに,本モデルでは,他のベンチマーク手法と比較して,2-%から3-%の性能向上を示す。 In this paper, we introduce a robotic agent specifically designed to analyze external environments and address participants' questions. The primary focus of this agent is to assist individuals using language-based interactions within video-based scenes. Our proposed method integrates video recognition technology and natural language processing models within the robotic agent. We investigate the crucial factors affecting human-robot interactions by examining pertinent issues arising between participants and robot agents. Methodologically, our experimental findings reveal a positive relationship between trust and interaction efficiency. Furthermore, our model demonstrates a 2\% to 3\% performance enhancement in comparison to other benchmark methods. | 翻訳日:2023-06-26 18:02:15 公開日:2023-06-23 |
# 時計の干渉:量子双対パラドックス Interference of Clocks: A Quantum Twin Paradox ( http://arxiv.org/abs/1905.09102v2 ) ライセンス: Link先を確認 | Sina Loriani, Alexander Friedrich, Christian Ufrecht, Fabio Di Pumpo, Stephan Kleinert, Sven Abend, Naceur Gaaloul, Christian Meiners, Christian Schubert, Dorothee Tell, \'Etienne Wodey, Magdalena Zych, Wolfgang Ertmer, Albert Roura, Dennis Schlippert, Wolfgang P. Schleich, Ernst M. Rasel, Enno Giese | (参考訳) 物質波の位相は適切な時間に依存するため、特殊相対論的(キネマティック)および重力的(リシフト)時間拡張の影響を受けやすい。
したがって、原子干渉計は一般相対論的時間拡張効果を測定することができる。
この直感とは対照的に、 (i) パルスシーケンス中にクロック遷移のない閉光パルス干渉計は、線形ポテンシャルでの重力時間拡張に敏感ではない。
(ii)
これらは特殊相対論的双対パラドックスの量子バージョンを構成することができる。
(iii)
この効果を量子時計干渉計で分離する実験手法を提案する。 The phase of matter waves depends on proper time and is therefore susceptible to special-relativistic (kinematic) and gravitational (redshift) time dilation. Hence, it is conceivable that atom interferometers measure general-relativistic time-dilation effects. In contrast to this intuition, we show: (i.) Closed light-pulse interferometers without clock transitions during the pulse sequence are not sensitive to gravitational time dilation in a linear potential. (ii.) They can constitute a quantum version of the special-relativistic twin paradox. (iii.) Our proposed experimental geometry for a quantum-clock interferometer isolates this effect. | 翻訳日:2023-06-26 18:01:41 公開日:2023-06-23 |
# フェデレーション学習のためのテスト時間ロバストパーソナライゼーション Test-Time Robust Personalization for Federated Learning ( http://arxiv.org/abs/2205.10920v4 ) ライセンス: Link先を確認 | Liangze Jiang, Tao Lin | (参考訳) Federated Learning(FL)は、多くのクライアントが分散トレーニングデータで共有グローバルモデルを共同で学習する機械学習パラダイムである。
パーソナライズされたflは、さらにグローバルモデルを異なるクライアントに適応させ、一貫したローカルトレーニングとテストディストリビューションで有望な結果を得る。
しかし、実世界のパーソナライズされた fl アプリケーションでは、デプロイ中に進化するローカルテストセットの下で fl モデルを堅牢化することで、さまざまな分散シフトが発生する可能性がある。
本研究では,テスト時分布シフト下での既存作業の落とし穴を特定し,様々なテスト時分布シフトに頑健なflモデルをパーソナライズするフェデレートテスト時ヘッドアンサンブル+チューニング(fedthe+)を提案する。
我々は、CIFAR10とImageNetで様々なニューラルネットワーク(CNN、ResNet、Transformer)をトレーニングすることで、強力な競合相手に対してFedTHE+(および計算効率のよいFedTHE)の進歩を説明する。
これに加えて、デプロイ時にパーソナライズしたflメソッドのパフォーマンスとロバスト性を評価するためのベンチマークを構築します。
コード:https://github.com/LINs-lab/FedTHE。 Federated Learning (FL) is a machine learning paradigm where many clients collaboratively learn a shared global model with decentralized training data. Personalized FL additionally adapts the global model to different clients, achieving promising results on consistent local training and test distributions. However, for real-world personalized FL applications, it is crucial to go one step further: robustifying FL models under the evolving local test set during deployment, where various distribution shifts can arise. In this work, we identify the pitfalls of existing works under test-time distribution shifts and propose Federated Test-time Head Ensemble plus tuning(FedTHE+), which personalizes FL models with robustness to various test-time distribution shifts. We illustrate the advancement of FedTHE+ (and its computationally efficient variant FedTHE) over strong competitors, by training various neural architectures (CNN, ResNet, and Transformer) on CIFAR10 andImageNet with various test distributions. Along with this, we build a benchmark for assessing the performance and robustness of personalized FL methods during deployment. Code: https://github.com/LINs-lab/FedTHE. | 翻訳日:2023-06-26 17:54:25 公開日:2023-06-23 |
# 依存データを用いた制約付き非凸最適化のための一階法収束 Convergence of First-Order Methods for Constrained Nonconvex Optimization with Dependent Data ( http://arxiv.org/abs/2203.15797v2 ) ライセンス: Link先を確認 | Ahmet Alacaoglu, Hanbaek Lyu | (参考訳) 制約付き滑らかな非凸最適化のための一般依存データサンプリングスキームの下での古典的確率的投影勾配法の解析に着目する。
我々は、モローエンベロープの勾配と勾配写像のノルムで$\varepsilon$-near定常点を達成するために、収束$\tilde{O}(t^{-1/4})$と複雑性$\tilde{O}(\varepsilon^{-4})$の最悪のケース率を示す。
古典的な収束保証は、ターゲット分布からのデータサンプリングを必要とするが、条件分布の緩やかな混合条件しか必要とせず、これは幅広い種類のマルコフ連鎖サンプリングアルゴリズムに当てはまる。
これにより、制約のある滑らかな非凸最適化の既存の複雑さが改善され、より単純な解析で$\tilde{o}(\varepsilon^{-8})$から$\tilde{o}(\varepsilon^{-4})$への依存データが得られる。
本稿では,確率的近位勾配法,適応確率的勾配アルゴリズムAdaGrad,重球運動量を持つ確率的勾配アルゴリズムに対する依存データを用いた収束結果の導出によるアプローチの一般化について述べる。
応用として、適応的なステップサイズと最適収束率を持つ確率的射影勾配法に基づく従属データに対する最初のオンライン非負行列分解アルゴリズムを得る。 We focus on analyzing the classical stochastic projected gradient methods under a general dependent data sampling scheme for constrained smooth nonconvex optimization. We show the worst-case rate of convergence $\tilde{O}(t^{-1/4})$ and complexity $\tilde{O}(\varepsilon^{-4})$ for achieving an $\varepsilon$-near stationary point in terms of the norm of the gradient of Moreau envelope and gradient mapping. While classical convergence guarantee requires i.i.d. data sampling from the target distribution, we only require a mild mixing condition of the conditional distribution, which holds for a wide class of Markov chain sampling algorithms. This improves the existing complexity for the constrained smooth nonconvex optimization with dependent data from $\tilde{O}(\varepsilon^{-8})$ to $\tilde{O}(\varepsilon^{-4})$ with a significantly simpler analysis. We illustrate the generality of our approach by deriving convergence results with dependent data for stochastic proximal gradient methods, adaptive stochastic gradient algorithm AdaGrad and stochastic gradient algorithm with heavy ball momentum. As an application, we obtain first online nonnegative matrix factorization algorithms for dependent data based on stochastic projected gradient methods with adaptive step sizes and optimal rate of convergence. | 翻訳日:2023-06-26 17:54:03 公開日:2023-06-23 |
# グローバーウォークのための快適なグラフ構造 A comfortable graph structure for Grover walk ( http://arxiv.org/abs/2201.01926v3 ) ライセンス: Link先を確認 | Yusuke Higuchi, Mohamed Sabri and Etsuo Segawa | (参考訳) 有限内部グラフ上のグロバーウォークモデルを考えると、有限個の半無限長経路に連結され、各ステップでこれらの経路に沿った代替の流入を受ける。
長い時間スケールの後、このようなグロバーウォークの挙動は安定している、すなわち、このモデルが定常状態を持つことが分かっている。
本稿では, 内部グラフの表面における定常状態の散乱と, 内部におけるこの状態のエネルギーについて, キャラクタリゼーションを行う。
散乱に対しては、内部グラフが二成分であるか否かによって形状が変化する散乱行列を具体的に与える。
一方,量子ウォークのためのグラフの快適性関数を導入し,内部に何人の量子ウォーカーが留まるかを示し,内部グラフの組合せ特性の観点からウォーカーの快適性を示すことに成功している。 We consider a Grover walk model on a finite internal graph, which is connected with a finite number of semi-infinite length paths and receives the alternative inflows along these paths at each time step. After the long time scale, we know that the behavior of such a Grover walk should be stable, that is, this model has a stationary state. In this paper our objectives are to give some characterization upon the scattering of the stationary state on the surface of the internal graph and upon the energy of this state in the interior. For the scattering, we concretely give a scattering matrix, whose form is changed depending on whether the internal graph is bipartite or not. On the other hand, we introduce a comfortability function of a graph for the quantum walk, which shows how many quantum walkers can stay in the interior, and we succeed in showing the comfortability of the walker in terms of combinatorial properties of the internal graph. | 翻訳日:2023-06-26 17:53:12 公開日:2023-06-23 |
# ロバストかつ効率的なハミルトン学習 Robust and Efficient Hamiltonian Learning ( http://arxiv.org/abs/2201.00190v4 ) ライセンス: Link先を確認 | Wenjun Yu, Jinzhao Sun, Zeyao Han, Xiao Yuan | (参考訳) 量子技術の急速な発展に伴い、デジタルとアナログの量子システムのサイズは劇的に増大する。
量子ハードウェアの制御と理解をより良くするために、重要なタスクは相互作用を特徴づけること、すなわち、システムの静的特性と動的特性の両方を決定するハミルトニアンを学ぶことである。
従来のハミルトニアン学習法は高価なプロセストモグラフィーを必要とするか、ハミルトニアン構造の事前情報やシステムの基底状態や熱状態といった非現実的な仮定を採用する必要がある。
本研究では,これらの制約を軽度な仮定に基づいて回避する,堅牢で効率的なハミルトン学習法を提案する。
提案手法は,ハミルトニアンに関する情報や固有状態や熱状態を作成することなく,短時間のダイナミクスと局所操作のみを用いて,パウリ基底で疎いハミルトニアンを効率的に学習することができる。
この方法は、キュービット数に関してスケーラブルな複雑性と消滅する故障確率を有する。
一方、状態準備と測定誤差の存在を十分に考慮し、一定量の回路とショットノイズに対して弾力的に作用する。
本研究では,ランダムな相互作用強度と分子ハミルトニアンを有する横磁場イジングハミルトニアンのスケーリングと推定精度を,サイズや手作業によるノイズの増大とともに数値的に検証した。
これらすべての結果は、この方法のロバスト性と有効性を検証し、大規模量子システムのダイナミクスを体系的に理解する道を開いた。 With the fast development of quantum technology, the sizes of both digital and analog quantum systems increase drastically. In order to have better control and understanding of the quantum hardware, an important task is to characterize the interaction, i.e., to learn the Hamiltonian, which determines both static and dynamic properties of the system. Conventional Hamiltonian learning methods either require costly process tomography or adopt impractical assumptions, such as prior information on the Hamiltonian structure and the ground or thermal states of the system. In this work, we present a robust and efficient Hamiltonian learning method that circumvents these limitations based only on mild assumptions. The proposed method can efficiently learn any Hamiltonian that is sparse on the Pauli basis using only short-time dynamics and local operations without any information on the Hamiltonian or preparing any eigenstates or thermal states. The method has a scalable complexity and a vanishing failure probability regarding the qubit number. Meanwhile, it performs robustly given the presence of state preparation and measurement errors and resiliently against a certain amount of circuit and shot noise. We numerically test the scaling and the estimation accuracy of the method for transverse field Ising Hamiltonian with random interaction strengths and molecular Hamiltonians, both with varying sizes and manually added noise. All these results verify the robustness and efficacy of the method, paving the way for a systematic understanding of the dynamics of large quantum systems. | 翻訳日:2023-06-26 17:52:57 公開日:2023-06-23 |
# 量子モチーフクラスタリング Quantum Motif Clustering ( http://arxiv.org/abs/2111.13222v2 ) ライセンス: Link先を確認 | Chris Cade, Farrokh Labib and Ido Niesen | (参考訳) モチーフクラスタリングと呼ばれる高次パターンに基づくグラフクラスタリングのための3つの量子アルゴリズムを提案する。
1つはグローバー探索の直接的な応用を使い、もう2つは量子近似計数を使い、それら全ては様々な設定で最も速い古典的アルゴリズムよりもスピードアップのような二乗根を得る。
クラスタリングの文脈で近似計算を使用するために,一般の重み付きグラフでは,スペクトルクラスタリングの性能は,エッジ重みに一定の(相対的な)誤差が存在することによりほとんど変化しないことを示した。
最後に、モチーフクラスタリングの原型分析を拡張し、モチーフにおける複数の「アンカーノード」の役割と、このクラスタリング手法が捉えることができない関係のタイプをよりよく理解する。 We present three quantum algorithms for clustering graphs based on higher-order patterns, known as motif clustering. One uses a straightforward application of Grover search, the other two make use of quantum approximate counting, and all of them obtain square-root like speedups over the fastest classical algorithms in various settings. In order to use approximate counting in the context of clustering, we show that for general weighted graphs the performance of spectral clustering is mostly left unchanged by the presence of constant (relative) errors on the edge weights. Finally, we extend the original analysis of motif clustering in order to better understand the role of multiple `anchor nodes' in motifs and the types of relationships that this method of clustering can and cannot capture. | 翻訳日:2023-06-26 17:52:05 公開日:2023-06-23 |
# PU GNN:不均衡PUラベル付きグラフ注意ネットワークによるP2E MMORPGのチャージバックフラッド検出 PU GNN: Chargeback Fraud Detection in P2E MMORPGs via Graph Attention Networks with Imbalanced PU Labels ( http://arxiv.org/abs/2211.08604v7 ) ライセンス: Link先を確認 | Jiho Choi, Junghoon Park, Woocheol Kim, Jin-Hyeok Park, Yumin Suh, Minchang Sung | (参考訳) 近年のマルチプレイヤーオンラインロールプレイングゲーム(MMORPG)におけるプレイツーアーンシステム(P2E)の出現により、ゲーム内商品は、これまで以上に現実世界の価値と交換可能になった。
p2e mmorpgsの商品は、ブロックチェーンネットワークを介してbitcoin、ethereum、klaytnなどの暗号通貨と直接交換することができる。
従来のゲーム内商品とは異なり、一旦ブロックチェーンに書き込むと、P2E商品は支払い詐欺、キャンセル、返金などのチャージバック詐欺であってもゲーム運用チームによって復元できない。
そこで本研究では,p2eトークンのトランザクションパターンを用いて,pu損失を伴うグラフアテンションネットワークを活用した,新たなチャージバック詐欺予測手法pu gnnを提案する。
修正GraphSMOTEの導入により、提案モデルはチャージバック詐欺データセットにおけるラベルの不均衡分布を処理する。
実世界の3つのP2E MMORPGデータセットを用いた実験により,PU GNNは従来提案されていた手法よりも優れた性能を示した。 The recent advent of play-to-earn (P2E) systems in massively multiplayer online role-playing games (MMORPGs) has made in-game goods interchangeable with real-world values more than ever before. The goods in the P2E MMORPGs can be directly exchanged with cryptocurrencies such as Bitcoin, Ethereum, or Klaytn via blockchain networks. Unlike traditional in-game goods, once they had been written to the blockchains, P2E goods cannot be restored by the game operation teams even with chargeback fraud such as payment fraud, cancellation, or refund. To tackle the problem, we propose a novel chargeback fraud prediction method, PU GNN, which leverages graph attention networks with PU loss to capture both the players' in-game behavior with P2E token transaction patterns. With the adoption of modified GraphSMOTE, the proposed model handles the imbalanced distribution of labels in chargeback fraud datasets. The conducted experiments on three real-world P2E MMORPG datasets demonstrate that PU GNN achieves superior performances over previously suggested methods. | 翻訳日:2023-06-26 17:46:24 公開日:2023-06-23 |
# 線形遺伝的プログラミングのためのPhenotype Search Trajectory Networks Phenotype Search Trajectory Networks for Linear Genetic Programming ( http://arxiv.org/abs/2211.08516v2 ) ライセンス: Link先を確認 | Ting Hu and Gabriela Ochoa and Wolfgang Banzhaf | (参考訳) 遺伝子型からフェノタイプへのマッピングは、突然変異などの遺伝子型変異を表現型変化に変換する。
中立性は、一部の変異が表現型の変化を起こさないという観察である。
遺伝子型および表現型空間における探索軌跡の研究、特に中性突然変異は、進化の進行とそのアルゴリズム的振る舞いをよりよく理解するのに役立ちます。
本研究では,遺伝的プログラミングシステムの探索軌跡をグラフベースモデルとして視覚化し,ノードは遺伝子型/フェノタイプ,エッジは突然変異遷移を表す。
また,遺伝子型の存在量(中立性要件)やコルモゴロフ複雑性を含む表現型の特徴を定量的に測定した。
我々はこれらの定量化指標を探索軌跡の可視化と結びつけ、より複雑な表現型がより少ない遺伝子型によって過小評価されており、発見が困難であることを示す。
一方、より複雑な表現型は遺伝子型によって過剰に発現され、発見が容易であり、しばしば進化の踏み台となる。 Genotype-to-phenotype mappings translate genotypic variations such as mutations into phenotypic changes. Neutrality is the observation that some mutations do not lead to phenotypic changes. Studying the search trajectories in genotypic and phenotypic spaces, especially through neutral mutations, helps us to better understand the progression of evolution and its algorithmic behaviour. In this study, we visualise the search trajectories of a genetic programming system as graph-based models, where nodes are genotypes/phenotypes and edges represent their mutational transitions. We also quantitatively measure the characteristics of phenotypes including their genotypic abundance (the requirement for neutrality) and Kolmogorov complexity. We connect these quantified metrics with search trajectory visualisations, and find that more complex phenotypes are under-represented by fewer genotypes and are harder for evolution to discover. Less complex phenotypes, on the other hand, are over-represented by genotypes, are easier to find, and frequently serve as stepping-stones for evolution. | 翻訳日:2023-06-26 17:46:05 公開日:2023-06-23 |
# Transformer-to-CNN知識蒸留による大規模オーディオタギングの効率化 Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation ( http://arxiv.org/abs/2211.04772v3 ) ライセンス: Link先を確認 | Florian Schmid, Khaled Koutini and Gerhard Widmer | (参考訳) オーディオスペクトログラムトランスフォーマーモデルは、以前支配していた畳み込みニューラルネットワーク(cnns)を駆逐する、オーディオタグの分野を支配している。
彼らの優位性は、audiosetのような大規模データセットをスケールアップして活用する能力に基づいている。
しかし、トランスフォーマーはcnnと比較してモデルサイズと計算要求の点で要求されている。
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
提案するトレーニングスキーマとmobilenetv3に基づく効率的なcnn設計は、パラメータや計算効率、予測性能の観点から、以前のソリューションを上回っている。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供する。
ソースコード https://github.com/fschmid56/EfficientAT Audio Spectrogram Transformer models rule the field of Audio Tagging, outrunning previously dominating Convolutional Neural Networks (CNNs). Their superiority is based on the ability to scale up and exploit large-scale datasets such as AudioSet. However, Transformers are demanding in terms of model size and computational requirements compared to CNNs. We propose a training procedure for efficient CNNs based on offline Knowledge Distillation (KD) from high-performing yet complex transformers. The proposed training schema and the efficient CNN design based on MobileNetV3 results in models outperforming previous solutions in terms of parameter and computational efficiency and prediction performance. We provide models of different complexity levels, scaling from low-complexity models up to a new state-of-the-art performance of .483 mAP on AudioSet. Source Code available at: https://github.com/fschmid56/EfficientAT | 翻訳日:2023-06-26 17:45:48 公開日:2023-06-23 |
# 非マルコフ環境における強化学習 Reinforcement Learning in Non-Markovian Environments ( http://arxiv.org/abs/2211.01595v2 ) ライセンス: Link先を確認 | Siddharth Chandak, Pratik Shah, Vivek S Borkar, Parth Dodhia | (参考訳) 任意の非マルコフ環境における強化学習のためにvan royと共著者によって開発された新しいパラダイムに動機づけられ、q-learningアルゴリズムを適用した際の観測の非マルコフ性に起因する誤りを、関連する定式化し、明確にピン留めする。
この観察に基づいて,エージェント設計の基準は,ある条件法則に対してよい近似を求めるべきであることを示唆する。
古典的確率制御に着想を得て, 近似的統計量の再帰的計算に還元されることを示す。
これにより、エージェント設計のためのオートエンコーダベースのスキームが実現され、部分的に観察された強化学習環境上で数値的にテストされる。 Motivated by the novel paradigm developed by Van Roy and coauthors for reinforcement learning in arbitrary non-Markovian environments, we propose a related formulation and explicitly pin down the error caused by non-Markovianity of observations when the Q-learning algorithm is applied on this formulation. Based on this observation, we propose that the criterion for agent design should be to seek good approximations for certain conditional laws. Inspired by classical stochastic control, we show that our problem reduces to that of recursive computation of approximate sufficient statistics. This leads to an autoencoder-based scheme for agent design which is then numerically tested on partially observed reinforcement learning environments. | 翻訳日:2023-06-26 17:45:19 公開日:2023-06-23 |
# 変形可能な物体操作のための点雲からの時空間抽象化による計画 Planning with Spatial-Temporal Abstraction from Point Clouds for Deformable Object Manipulation ( http://arxiv.org/abs/2210.15751v2 ) ライセンス: Link先を確認 | Xingyu Lin, Carl Qi, Yunchu Zhang, Zhiao Huang, Katerina Fragkiadaki, Yunzhu Li, Chuang Gan, David Held | (参考訳) 長軸変形可能なオブジェクト操作の効果的な計画には、空間的および時間的レベルの適切な抽象化が必要である。
従来の手法は通常、短期水平タスクにフォーカスするか、フルステート情報が利用可能であるという強い仮定を行う。
本稿では,空間的抽象化(オブジェクトとその相互関係に関する推論)と時間的抽象化(低レベル動作ではなく,スキルによる推論)の両方を取り入れた空間的抽象化を用いたPlAnning with Spatial-Temporal Abstraction(PASTA)を提案する。
我々のフレームワークは、点雲のような高次元の3次元観測を潜在ベクトルの集合にマッピングし、潜在集合表現の上にスキルシーケンスを計画する。
本手法は,ナイフによる切削,押し押し,生地をローラーで広げるなど,複数の工具使用スキルを組み合わせることで,実世界において挑戦的な逐次変形可能な物体操作タスクを効果的に行うことができることを示す。 Effective planning of long-horizon deformable object manipulation requires suitable abstractions at both the spatial and temporal levels. Previous methods typically either focus on short-horizon tasks or make strong assumptions that full-state information is available, which prevents their use on deformable objects. In this paper, we propose PlAnning with Spatial-Temporal Abstraction (PASTA), which incorporates both spatial abstraction (reasoning about objects and their relations to each other) and temporal abstraction (reasoning over skills instead of low-level actions). Our framework maps high-dimension 3D observations such as point clouds into a set of latent vectors and plans over skill sequences on top of the latent set representation. We show that our method can effectively perform challenging sequential deformable object manipulation tasks in the real world, which require combining multiple tool-use skills such as cutting with a knife, pushing with a pusher, and spreading the dough with a roller. | 翻訳日:2023-06-26 17:45:05 公開日:2023-06-23 |
# PINO-CDEを用いた微分方程式群の解法 Solving Coupled Differential Equation Groups Using PINO-CDE ( http://arxiv.org/abs/2210.00222v2 ) ライセンス: Link先を確認 | Wenhao Ding, Qing He, Hanghang Tong, Qingjing Wang, Ping Wang | (参考訳) 多くの工学分野における基本的な数学ツールとして、結合微分方程式群は、複数の物理量を含む複素構造をモデル化するために広く使われている。
エンジニアは設計段階で常に構造パラメータを調整する。
ディープラーニング技術の台頭は、このタスクに新たな視点をもたらした。
残念ながら、既存のブラックボックスモデルは精度とロバスト性に乏しいが、単一出力演算子の回帰の高度な手法は同時に複数の量を扱うことはできない。
これらの課題に対処するために,結合微分方程式群(CDE)を解くためのディープラーニングフレームワークであるPINO-CDEと,性能向上のための方程式正規化アルゴリズムを提案する。
物理インフォームド・ニューラル演算子(PINO)の理論に基づいて、PINO-CDEは既存の文献のように数十のネットワークや数百のネットワークをトレーニングする代わりに、CDEのすべての量に対して単一のネットワークを使用する。
自動車軌道結合力学(VTCD)と4階建て建築物の信頼性評価(不確実性伝播)の2つの工学的応用例とPINO-CDEの柔軟性と実現可能性を示す。
VTCDの性能は、PINO-CDEが既存のソフトウェアとディープラーニングベースの手法をそれぞれ効率と精度で上回っていることを示している。
不確実性伝播タスクに対して、PINO-CDEは確率密度進化法(PDEM)を用いることで発生する時間の4分の1以下で高分解能な結果を提供する。
このフレームワークは、エンジニアリングダイナミクスとディープラーニング技術を統合し、CDEの解決と不確実性伝播の新しい概念を明らかにする。 As a fundamental mathmatical tool in many engineering disciplines, coupled differential equation groups are being widely used to model complex structures containing multiple physical quantities. Engineers constantly adjust structural parameters at the design stage, which requires a highly efficient solver. The rise of deep learning technologies has offered new perspectives on this task. Unfortunately, existing black-box models suffer from poor accuracy and robustness, while the advanced methodologies of single-output operator regression cannot deal with multiple quantities simultaneously. To address these challenges, we propose PINO-CDE, a deep learning framework for solving coupled differential equation groups (CDEs) along with an equation normalization algorithm for performance enhancing. Based on the theory of physics-informed neural operator (PINO), PINO-CDE uses a single network for all quantities in a CDEs, instead of training dozens, or even hundreds of networks as in the existing literature. We demonstrate the flexibility and feasibility of PINO-CDE for one toy example and two engineering applications: vehicle-track coupled dynamics (VTCD) and reliability assessment for a four-storey building (uncertainty propagation). The performance of VTCD indicates that PINO-CDE outperforms existing software and deep learning-based methods in terms of efficiency and precision, respectively. For the uncertainty propagation task, PINO-CDE provides higher-resolution results in less than a quarter of the time incurred when using the probability density evolution method (PDEM). This framework integrates engineering dynamics and deep learning technologies and may reveal a new concept for CDEs solving and uncertainty propagation. | 翻訳日:2023-06-26 17:44:47 公開日:2023-06-23 |
# 量子サブルーチン組成 Quantum Subroutine Composition ( http://arxiv.org/abs/2209.14146v2 ) ライセンス: Link先を確認 | Stacey Jeffery | (参考訳) アルゴリズム設計における重要なツールは、サブルーチンとして実行される他のアルゴリズムからアルゴリズムを構築する機能である。
量子アルゴリズムの場合、サブルーチンは異なる入力の重ね合わせで呼ばれ、それが物事を複雑にする。
例えば、サブルーチン$q$を呼び出し、入力$i$でサブルーチンをクエリする平均確率は$p_i$であり、入力$i$のサブルーチンのコストは$t_i$であり、すべてのサブルーチンクエリから期待されるコスト$q\sum_i p_i e[t_i]$となる。
このステートメントは古典的アルゴリズムでは明らかだが、量子アルゴリズムではそうではない。なぜなら、もし入力の重ね合わせで量子サブルーチンを実行するなら、重ね合わせのすべての分岐が次の演算を適用する前に終了するのを待つ必要があるからである。
すべてのクエリに対して$q_i$が$i$の平均クエリ重量であるなら、全ての量子サブルーチンクエリのコストは$Q\sum_i q_i E[T_i]$である。
ここで、特定のクエリに対する$i$に対するクエリの重み付けは、クエリの直前に測定した場合、入力レジスタで$i$を測定する確率です。
この結果は、arxiv:2208.13492で最近導入された多次元量子ウォーク技術を用いて証明する。
例えば、更新コストを$\sqrt{\sum_{u,v}\pi_u P_{u,v} E[T_{u,v}^2]}$に置き換えると、$T_{u,v}$はvertex $u$からvertex $v$に移動するコストである。
量子ウォークで量子サブルーチンを構成することができるのと同じ手法は、量子アルゴリズムで構成することもできる。 An important tool in algorithm design is the ability to build algorithms from other algorithms that run as subroutines. In the case of quantum algorithms, a subroutine may be called on a superposition of different inputs, which complicates things. For example, a classical algorithm that calls a subroutine $Q$ times, where the average probability of querying the subroutine on input $i$ is $p_i$, and the cost of the subroutine on input $i$ is $T_i$, incurs expected cost $Q\sum_i p_i E[T_i]$ from all subroutine queries. While this statement is obvious for classical algorithms, for quantum algorithms, it is much less so, since naively, if we run a quantum subroutine on a superposition of inputs, we need to wait for all branches of the superposition to terminate before we can apply the next operation. We nonetheless show an analogous quantum statement (*): If $q_i$ is the average query weight on $i$ over all queries, the cost from all quantum subroutine queries is $Q\sum_i q_i E[T_i]$. Here the query weight on $i$ for a particular query is the probability of measuring $i$ in the input register if we were to measure right before the query. We prove this result using the technique of multidimensional quantum walks, recently introduced in arXiv:2208.13492. We present a more general version of their quantum walk edge composition result, which yields variable-time quantum walks, generalizing variable-time quantum search, by, for example, replacing the update cost with $\sqrt{\sum_{u,v}\pi_u P_{u,v} E[T_{u,v}^2]}$, where $T_{u,v}$ is the cost to move from vertex $u$ to vertex $v$. The same technique that allows us to compose quantum subroutines in quantum walks can also be used to compose in any quantum algorithm, which is how we prove (*). | 翻訳日:2023-06-26 17:44:23 公開日:2023-06-23 |
# speedlimit: 量子化トランスフォーマーモデルのニューラルネットワークによる探索 SpeedLimit: Neural Architecture Search for Quantized Transformer Models ( http://arxiv.org/abs/2209.12127v2 ) ライセンス: Link先を確認 | Yuji Chai, Luke Bailey, Yunho Jin, Matthew Karle, Glenn G. Ko, David Brooks, Gu-Yeon Wei, H. T. Kung | (参考訳) トランスフォーマモデルの分野での研究は、主に精度や複雑度などのパフォーマンス指標の向上に重点を置いているが、業界における実用的な応用には、推論レイテンシの制約を厳格に考慮する必要があることが多い。
この課題に対処し,上限レイテンシ制約に固執しながら精度を最適化する新しいニューラルネットワーク探索(nas)手法であるspeedlimitを導入する。
本手法は8ビット整数量子化を検索プロセスに組み込んで,現在の最先端技術に勝る手法である。
以上の結果から,性能とレイテンシの最適なバランスを求めるための実現可能性と有効性について考察した。 While research in the field of transformer models has primarily focused on enhancing performance metrics such as accuracy and perplexity, practical applications in industry often necessitate a rigorous consideration of inference latency constraints. Addressing this challenge, we introduce SpeedLimit, a novel Neural Architecture Search (NAS) technique that optimizes accuracy whilst adhering to an upper-bound latency constraint. Our method incorporates 8-bit integer quantization in the search process to outperform the current state-of-the-art technique. Our results underline the feasibility and efficacy of seeking an optimal balance between performance and latency, providing new avenues for deploying state-of-the-art transformer models in latency-sensitive environments. | 翻訳日:2023-06-26 17:43:43 公開日:2023-06-23 |
# 分割データからシンプレクティック進化を学ぶための大ステップニューラルネットワーク Large-step neural network for learning the symplectic evolution from partitioned data ( http://arxiv.org/abs/2208.14148v2 ) ライセンス: Link先を確認 | Xin Li, Jian Li, Zhihong Jeff Xia and Nikolaos Georgakarakos | (参考訳) 本研究では,座標の予測を伴うハミルトン系の学習に焦点を当てる。
(q)と運動量
(p) シンプレクティックマッピングによって生成される変数。
chen & tao (2021) に基づいて、シンプレクティック写像は生成関数によって表現される。
予測期間を延長するため,時系列(q_i,p_i)を複数の分割に分割して新しい学習手法を開発した。
次に、第1のパーティション(すなわち初期条件)と残りのパーティションのそれぞれとの間の生成関数を近似するために、大ステップニューラルネットワーク(lsnn)を訓練する。
この分割手法により、LSNNはシステムの進化を予測する際の累積誤差を効果的に抑制できる。
次にLSNNを訓練し、2:3共鳴カイパーベルトの物体の動きを25,000 yrの長時間学習する。
その結果,これまでの研究で構築されたニューラルネットワークに対して,(1)ジャコビ積分の保存,(2)軌道進化の高精度予測という2つの重要な改善が得られた。
全体として、設計したLSNNは、より一般的なハミルトン系の長期的な進化の予測を大幅に改善する可能性を示唆する。 In this study, we focus on learning Hamiltonian systems, which involves predicting the coordinate (q) and momentum (p) variables generated by a symplectic mapping. Based on Chen & Tao (2021), the symplectic mapping is represented by a generating function. To extend the prediction time period, we develop a new learning scheme by splitting the time series (q_i, p_i) into several partitions. We then train a large-step neural network (LSNN) to approximate the generating function between the first partition (i.e. the initial condition) and each one of the remaining partitions. This partition approach makes our LSNN effectively suppress the accumulative error when predicting the system evolution. Then we train the LSNN to learn the motions of the 2:3 resonant Kuiper belt objects for a long time period of 25000 yr. The results show that there are two significant improvements over the neural network constructed in our previous work (Li et al. 2022): (1) the conservation of the Jacobi integral, and (2) the highly accurate predictions of the orbital evolution. Overall, we propose that the designed LSNN has the potential to considerably improve predictions of the long-term evolution of more general Hamiltonian systems. | 翻訳日:2023-06-26 17:43:28 公開日:2023-06-23 |
# マルチショットシャドウ推定の性能解析 Performance analysis of multi-shot shadow estimation ( http://arxiv.org/abs/2212.11068v2 ) ライセンス: Link先を確認 | You Zhou and Qing Liu | (参考訳) シャドウ推定は、統計的な保証で量子状態の多くの観測可能量を予測するための効率的な方法である。
マルチショットのシナリオでは、同じユニタリ進化の後、シーケンシャルに準備された状態の投影的測定をk$xで行い、ランダムにサンプリングされたユニタリのラウンドでこの手順を繰り返します。
その結果、合計で$MK$の計測値が得られた。
本稿では,観測可能な$o$の期待値の推定のばらつきを特徴とするマルチショットシナリオにおけるシャドウ推定の性能を解析する。
さらに、shadow-norm $\|o \|_{\mathrm{shadow}}$がhuang et.alに導入された。
~Nat。
Phys。
~2020\cite{huang2020predicting}] 分散は別のノルムにも関係しており、クロスシェードノルム $\|o \|_{\mathrm{xshadow}}$ と表記する。
ランダムなpauli と clifford の測定値の両方について、$\|o \|_{\mathrm{xshadow}}$ の上限を分析して示す。
特に、無作為なパウリ測定で観測可能なパウリの正確な分散式を解明する。
本研究はマルチショットシャドウ推定の応用について理論的指針を与える。 Shadow estimation is an efficient method for predicting many observables of a quantum state with a statistical guarantee. In the multi-shot scenario, one performs projective measurement on the sequentially prepared state for $K$ times after the same unitary evolution, and repeats this procedure for $M$ rounds of random sampled unitary. As a result, there are $MK$ times measurements in total. Here we analyze the performance of shadow estimation in this multi-shot scenario, which is characterized by the variance of estimating the expectation value of some observable $O$. We find that in addition to the shadow-norm $\|O \|_{\mathrm{shadow}}$ introduced in [Huang et.al.~Nat.~Phys.~2020\cite{huang2020predicting}], the variance is also related to another norm, and we denote it as the cross-shadow-norm $\|O \|_{\mathrm{Xshadow}}$. For both random Pauli and Clifford measurements, we analyze and show the upper bounds of $\|O \|_{\mathrm{Xshadow}}$. In particular, we figure out the exact variance formula for Pauli observable under random Pauli measurements. Our work gives theoretical guidance for the application of multi-shot shadow estimation. | 翻訳日:2023-06-26 17:35:41 公開日:2023-06-23 |
# 知識集約型多段階質問に対する連鎖的推論による検索 Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions ( http://arxiv.org/abs/2212.10509v2 ) ライセンス: Link先を確認 | Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal | (参考訳) プロンプトベースの大規模言語モデル(LLM)は、自然言語推論ステップや多段階質問応答(QA)のためのChains-of-Thoughts(CoT)を生成するのに驚くほど強力です。
しかし、LLMでは必要な知識が利用できないか、あるいはパラメータ内で最新でない場合、それらは苦労する。
質問を用いて外部知識ソースから関連テキストを検索することはLLMの助けとなるが、この一段階の検索・読み取りアプローチは多段階のQAには不十分である。
ここで、\textit{what to retrieve} は \textit{what have already been derived} に依存する。
そこで本研究では,CoTにおける検索とステップ(文)をインターリーブする多段階QAのための新しいアプローチであるIRCoTを提案する。
GPT3でIRCoTを使用することで、HotpotQA、2WikiMultihopQA、MuSiQue、IIRCの4つのデータセットでの検索(最大21ポイント)および下流QA(最大15ポイント)を大幅に改善する。
オフ・オブ・ディストリビューション(OOD)設定でも,Flan-T5-largeのようなより小さなモデルでも,追加のトレーニングを必要とせずに,同様の実質的な向上が観察できる。
IRCoTはモデル幻覚を減少させ、事実上より正確なCoT推論をもたらす。
コード、データ、プロンプトは \url{https://github.com/stonybrooknlp/ircot} で入手できる。 Prompting-based large language models (LLMs) are surprisingly powerful at generating natural language reasoning steps or Chains-of-Thoughts (CoT) for multi-step question answering (QA). They struggle, however, when the necessary knowledge is either unavailable to the LLM or not up-to-date within its parameters. While using the question to retrieve relevant text from an external knowledge source helps LLMs, we observe that this one-step retrieve-and-read approach is insufficient for multi-step QA. Here, \textit{what to retrieve} depends on \textit{what has already been derived}, which in turn may depend on \textit{what was previously retrieved}. To address this, we propose IRCoT, a new approach for multi-step QA that interleaves retrieval with steps (sentences) in a CoT, guiding the retrieval with CoT and in turn using retrieved results to improve CoT. Using IRCoT with GPT3 substantially improves retrieval (up to 21 points) as well as downstream QA (up to 15 points) on four datasets: HotpotQA, 2WikiMultihopQA, MuSiQue, and IIRC. We observe similar substantial gains in out-of-distribution (OOD) settings as well as with much smaller models such as Flan-T5-large without additional training. IRCoT reduces model hallucination, resulting in factually more accurate CoT reasoning. Code, data, and prompts are available at \url{https://github.com/stonybrooknlp/ircot} | 翻訳日:2023-06-26 17:35:19 公開日:2023-06-23 |
# 言語生成モデルに対する自然なバイアス A Natural Bias for Language Generation Models ( http://arxiv.org/abs/2212.09686v2 ) ライセンス: Link先を確認 | Clara Meister, Wojciech Stokowiec, Tiago Pimentel, Lei Yu, Laura Rimell, Adhiguna Kuncoro | (参考訳) ほんの数百のトレーニング更新の後、言語生成の標準確率モデルは、自然言語の多くの意味論や構文規則をまだ学ばない可能性が高いため、次のトークンの確率分布を推定することは困難である。
しかし、この時点でこれらのモデルでは、目標トレーニングコーパスのユニグラム分布を出力する、単純な損失最小化動作を特定している。
このようなヒューリスティックを使用することで、モデルの初期化と、貴重な計算リソースとモデルキャパシティの節約が可能になるか、という疑問が持ち上がります。
ここでは,モデルの最終線形層におけるバイアス項をlog-unigram分布で初期化するだけで,ユニグラム頻度統計を事前知識として反映するモジュールを分離して,標準ニューラルネットワーク生成モデルに効果的に付与できることを示す。
私たちはこの簡単なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、それを観察します。
(i)学習効率の向上。
(ii)全体的な性能が向上し、おそらく最も重要なことは
(iii)は,非周波数関連言語に特化するようモデルに促すことにより,強い周波数効果を歪めているように見える。 After just a few hundred training updates, a standard probabilistic model for language generation has likely not yet learnt many semantic or syntactic rules of natural language, making it difficult to estimate the probability distribution over next tokens. Yet around this point, these models have identified a simple, loss-minimising behaviour: to output the unigram distribution of the target training corpus. The use of such a heuristic raises the question: Can we initialise our models with this behaviour and save precious compute resources and model capacity? Here we show that we can effectively endow standard neural language generation models with a separate module that reflects unigram frequency statistics as prior knowledge, simply by initialising the bias term in a model's final linear layer with the log-unigram distribution. We use neural machine translation as a test bed for this simple technique and observe that it: (i) improves learning efficiency; (ii) achieves better overall performance; and perhaps most importantly (iii) appears to disentangle strong frequency effects by encouraging the model to specialise in non-frequency-related aspects of language. | 翻訳日:2023-06-26 17:34:52 公開日:2023-06-23 |
# DeepJoin: 事前トレーニングされた言語モデルによるテーブルディスカバリ DeepJoin: Joinable Table Discovery with Pre-trained Language Models ( http://arxiv.org/abs/2212.07588v2 ) ライセンス: Link先を確認 | Yuyang Dong, Chuan Xiao, Takuma Nozawa, Masafumi Enomoto, Masafumi Oyamada | (参考訳) データ分析タスクでデータエンリッチメントが有用であるため、結合可能なテーブル発見はデータレイク管理において重要な操作となっている。
既存のアプローチでは、統一ビューを作成するためにテーブルを結合する最も一般的な方法であるequi-join(リンク)、あるいはsemantic join(リンク)をターゲットにしている。
実行時間がクエリ列とターゲットテーブルレポジトリのサイズで線形である厳密なソリューションか、精度の欠如した近似ソリューションのどちらかである。
本稿では,正確かつ効率的な結合テーブル発見のための深層学習モデルであるdeepjoinを提案する。
提案手法は,プレトレーニング言語モデル(PLM)を取り入れた埋め込み型検索であり,等価結合とセマンティック結合の両方を提供する1つのフレームワークとして設計されている。
列の内容をテキストシーケンスに変換するためのコンテキスト化オプションセットを提案する。
PLMは列を読み出し、列をベクトルに埋め込むように微調整されるので、列がベクトル空間内で互いに近接しているときに結合可能であることが期待できる。
PLMの出力は長さが固定されているので、後続の探索手順は列サイズに依存しない。
最先端に近い近接探索アルゴリズムでは、検索時間はリポジトリサイズで対数的である。
モデルをトレーニングするために、トレーニングデータとデータ拡張を準備するためのテクニックを考案する。
実際のデータセットに関する実験は、コーパスの小さなサブセットでトレーニングすることで、Deepjoinが大きなデータセットに一般化し、その精度が他の近似解よりも一貫して優れていることを示す。
Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
さらに、GPUを搭載した場合、Deepjoinは既存のソリューションよりも最大2桁高速である。 Due to the usefulness in data enrichment for data analysis tasks, joinable table discovery has become an important operation in data lake management. Existing approaches target equi-joins, the most common way of combining tables for creating a unified view, or semantic joins, which tolerate misspellings and different formats to deliver more join results. They are either exact solutions whose running time is linear in the sizes of query column and target table repository or approximate solutions lacking precision. In this paper, we propose Deepjoin, a deep learning model for accurate and efficient joinable table discovery. Our solution is an embedding-based retrieval, which employs a pre-trained language model (PLM) and is designed as one framework serving both equi- and semantic joins. We propose a set of contextualization options to transform column contents to a text sequence. The PLM reads the sequence and is fine-tuned to embed columns to vectors such that columns are expected to be joinable if they are close to each other in the vector space. Since the output of the PLM is fixed in length, the subsequent search procedure becomes independent of the column size. With a state-of-the-art approximate nearest neighbor search algorithm, the search time is logarithmic in the repository size. To train the model, we devise the techniques for preparing training data as well as data augmentation. The experiments on real datasets demonstrate that by training on a small subset of a corpus, Deepjoin generalizes to large datasets and its precision consistently outperforms other approximate solutions'. Deepjoin is even more accurate than an exact solution to semantic joins when evaluated with labels from experts. Moreover, when equipped with a GPU, Deepjoin is up to two orders of magnitude faster than existing solutions. | 翻訳日:2023-06-26 17:34:32 公開日:2023-06-23 |
# 3次元医用画像におけるサンプルレベル分布検出の解法 Solving Sample-Level Out-of-Distribution Detection on 3D Medical Images ( http://arxiv.org/abs/2212.06506v2 ) ライセンス: Link先を確認 | Daria Frolova, Anton Vasiliuk, Mikhail Belyaev, Boris Shirokikh | (参考訳) ディープラーニング(DL)モデルは、データがトレーニングと異なる分布から来ると、パフォーマンスが悪くなります。
医療画像などの重要な応用において、アウト・オブ・ディストリビューション(OOD)検出はそのようなデータサンプルを識別し、モデルの信頼性を高める。
近年,2次元医用画像に有望な結果をもたらすDLベースのOOD検出技術が開発されている。
しかし、これらのアプローチのほとんどを3D画像に拡張することは、計算的に難解である。
さらに、現在の3dソリューションは、合成oodサンプルでさえも検出できる結果を達成するのに苦労している。
このような限られた性能は、DLがしばしば大容量画像を非効率に埋め込むことを示している。
元のCTやMRIスキャンの強度ヒストグラムを埋め込みとして用いることは、OOD検出を行うのに十分な記述である。
そこで本研究では,DLを必要としないヒストグラムに基づく手法を提案する。
我々の提案は2つある。
提案手法は,ほとんどの設定で1.0AUROCをスコア付けし,公開データセットの性能を評価する。
そして、タスク固有の知識を微調整したり活用することなく、医療的アウト・オブ・ディストリビューションの課題で2番目に得点します。
そこで本研究では,本手法が3次元医用画像のサンプルレベルのood検出を現在設定で解決していると結論づける。 Deep Learning (DL) models tend to perform poorly when the data comes from a distribution different from the training one. In critical applications such as medical imaging, out-of-distribution (OOD) detection helps to identify such data samples, increasing the model's reliability. Recent works have developed DL-based OOD detection that achieves promising results on 2D medical images. However, scaling most of these approaches on 3D images is computationally intractable. Furthermore, the current 3D solutions struggle to achieve acceptable results in detecting even synthetic OOD samples. Such limited performance might indicate that DL often inefficiently embeds large volumetric images. We argue that using the intensity histogram of the original CT or MRI scan as embedding is descriptive enough to run OOD detection. Therefore, we propose a histogram-based method that requires no DL and achieves almost perfect results in this domain. Our proposal is supported two-fold. We evaluate the performance on the publicly available datasets, where our method scores 1.0 AUROC in most setups. And we score second in the Medical Out-of-Distribution challenge without fine-tuning and exploiting task-specific knowledge. Carefully discussing the limitations, we conclude that our method solves the sample-level OOD detection on 3D medical images in the current setting. | 翻訳日:2023-06-26 17:34:05 公開日:2023-06-23 |
# day2dark: 無音の日光を超えた擬似教師付きアクティビティ認識 Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight ( http://arxiv.org/abs/2212.02053v2 ) ライセンス: Link先を確認 | Yunhua Zhang and Hazel Doughty and Cees G. M. Snoek | (参考訳) 本論文は,暗闇や日中の活動を認識することを目的とする。
最初のコントリビューションとして、最先端のアクティビティ認識器は日中は有効だが、暗闇では信頼できないことが確認できます。
主な原因は、ラベル付きダークビデオの可用性の制限と、低色のコントラストからの配信シフトである。
ラベル付きダークビデオの欠如を補うために,未ラベルおよびタスク非関連ダークビデオを用いて低照度でのアクティビティ認識を改善する擬似教師付き学習手法を導入する。
低色コントラストが視覚情報損失をもたらすため、照明に不変な音声に相補的な活動情報を統合することを提案する。
照明量によって音声や視覚的特徴の有用性が異なるため,我々は「暗黒適応型」音声視覚認識装置を第3のコントリビューションとして紹介する。
EPIC-Kitchens, Kinetics-Sound, Charadesの実験では, 画像強調, ドメイン適応, 代替オーディオ-視覚融合法よりも提案手法が優れていることが実証され, 閉塞に対する堅牢性も向上できる。 This paper strives to recognize activities in the dark, as well as in the day. As our first contribution, we establish that state-of-the-art activity recognizers are effective during the day, but not trustworthy in the dark. The main causes are the limited availability of labeled dark videos as well as the distribution shift from the lower color contrast. To compensate for the lack of labeled dark videos, our second contribution is to introduce a pseudo-supervised learning scheme, which utilizes unlabeled and task-irrelevant dark videos to improve an activity recognizer in low light. As the lower color contrast results in visual information loss, we propose to incorporate the complementary activity information within audio, which is invariant to illumination. Since the usefulness of audio and visual features differs depending on the amount of illumination, we introduce our `darkness-adaptive' audio-visual recognizer as the third contribution. Experiments on EPIC-Kitchens, Kinetics-Sound, and Charades demonstrate our proposals are superior to image enhancement, domain adaptation and alternative audio-visual fusion methods, and can even improve robustness to occlusions. | 翻訳日:2023-06-26 17:33:43 公開日:2023-06-23 |
# 量子ハミルトン・ヤコビ量子化と形状不変性 Quantum Hamilton-Jacobi Quantization and Shape Invariance ( http://arxiv.org/abs/2212.01871v3 ) ライセンス: Link先を確認 | Rathi Dasgupta and Asim Gangopadhyaya | (参考訳) 量子ハミルトン・ヤコビ量子化スキームは、量子力学系のポテンシャルの特異性構造を用いて固有スペクトルと固有関数を生成し、その効果はいくつかのよく知られた従来のポテンシャルに対して証明されている。
超対称性量子力学における最近の研究を用いて、全ての従来のポテンシャルと非破壊超対称性の加法的形状不変性が量子ハミルトン-ヤコビ形式論における可解性に十分な条件であることを証明した。 Quantum Hamilton-Jacobi quantization scheme uses the singularity structure of the potential of a quantum mechanical system to generate its eigenspectrum and eigenfunctions, and its efficacy has been demonstrated for several well known conventional potentials. Using a recent work in supersymmetric quantum mechanics, we prove that the additive shape invariance of all conventional potentials and unbroken supersymmetry are sufficient conditions for their solvability within the quantum Hamilton-Jacobi formalism. | 翻訳日:2023-06-26 17:33:21 公開日:2023-06-23 |
# 開量子系における非指数崩壊状態の探究 Probing the Non-exponential Decay Regime in Open Quantum Systems ( http://arxiv.org/abs/2211.11619v2 ) ライセンス: Link先を確認 | S. M. Wang, W. Nazarewicz, A. Volya, Y. G. Ma | (参考訳) 放射能の最も重要な法則は指数崩壊の法則である。
しかし、量子力学の領域では、この崩壊法則は厳密でも基本でもない。
指数的崩壊からの偏差は、崩壊過程の初期段階で実験的に観察されているが、長い間の非指数的挙動の証拠はほとんどない。
しかし、そのような長期の非指数性は、構造的干渉と状態の生成の記憶を保存する初期波動関数の非共鳴背景成分を調べるために理論的に期待されている。
本稿では, 閾値共鳴の減衰, 3体崩壊における粒子相関, 近距離共鳴の干渉など, 指数後崩壊状態の実験的研究に使用できる新しい観測器を提案する。
この研究で示された具体例は原子核に関するものであるが、非指数崩壊の性質は一般的なものであり、ハドロン、原子、分子、ナノ構造といった他の多体開量子系にも適用される。 The most important law of radioactivity is that of the exponential decay. In the realm of quantum mechanics, however, this decay law is neither rigorous nor fundamental. The deviations from the exponential decay have been observed experimentally at the early stage of a decay process, but there is little evidence for non-exponential behavior at long times. Yet such long-term non-exponentiality is expected theoretically to probe the non-resonant background components of the initial wave function which preserve the structural interference and the memory of how the state was created. In this paper, we propose new observables that can be used for experimental investigations of the post-exponential decay regime, including the decay of threshold resonances, particle correlations in three-body decays, and interference between near-lying resonances. While the specific examples presented in this work pertain to atomic nuclei, the properties of non-exponential decay are generic, i.e., they apply to other many-body open quantum systems, such as hadrons, atoms, molecules, and nanostructures. | 翻訳日:2023-06-26 17:32:42 公開日:2023-06-23 |
# DLKoopman:Koopman理論のためのディープラーニングソフトウェアパッケージ DLKoopman: A deep learning software package for Koopman theory ( http://arxiv.org/abs/2211.08992v2 ) ライセンス: Link先を確認 | Sourya Dey, Eric Davis | (参考訳) 我々は,線形空間への非線形力学系の符号化を学習し,同時に線形力学を学習する,Koopman理論のためのソフトウェアパッケージであるDLKoopmanを提案する。
以前のいくつかの取り組みは、エンコーディングを学習する能力を制限するか、特定のシステム向けに特別に設計されたものであるが、dlkoopmanは、あらゆる動的システムのデータ駆動学習と最適化に応用できる一般化されたツールである。
システムの個々の状態(スナップショット)からのデータに基づいてトレーニングしたり、未知の状態を予測したり、システムの軌道からデータをトレーニングしたり、新しい初期状態の未知の軌道を予測するために使用することができる。
DLKoopmanは'dlkoopman'としてPython Package Index(PyPI)で利用可能であり、豊富なドキュメントとチュートリアルを含んでいる。
このパッケージには、パフォーマンスを評価するための平均正規化絶対誤差と呼ばれる新しいメトリックや、パフォーマンスを改善するための使用可能なハイパーパラメータ探索モジュールが含まれている。 We present DLKoopman -- a software package for Koopman theory that uses deep learning to learn an encoding of a nonlinear dynamical system into a linear space, while simultaneously learning the linear dynamics. While several previous efforts have either restricted the ability to learn encodings, or been bespoke efforts designed for specific systems, DLKoopman is a generalized tool that can be applied to data-driven learning and optimization of any dynamical system. It can either be trained on data from individual states (snapshots) of a system and used to predict its unknown states, or trained on data from trajectories of a system and used to predict unknown trajectories for new initial states. DLKoopman is available on the Python Package Index (PyPI) as 'dlkoopman', and includes extensive documentation and tutorials. Additional contributions of the package include a novel metric called Average Normalized Absolute Error for evaluating performance, and a ready-to-use hyperparameter search module for improving performance. | 翻訳日:2023-06-26 17:32:26 公開日:2023-06-23 |
# 非可換幾何位相の粒子数閾値 Particle-Number Threshold for Non-Abelian Geometric Phases ( http://arxiv.org/abs/2301.11999v2 ) ライセンス: Link先を確認 | Julien Pinske, Vincent Burgtorf, and Stefan Scheel | (参考訳) 量子状態がゲージポテンシャルの影響を受けながら経路を横切るとき、それは単にスカラー量以上の幾何位相を得る。
この形の平行輸送によって実現できるユニタリ変換の多様性は、進化に関わる粒子の数に大きく依存する。
ここでは、量子状態の純粋に幾何学的な操作を行うシステムの能力を評価する粒子数しきい値(PNT)を導入する。
この閾値は、非アベリア幾何学的位相を生成するシステムのポテンシャルを完全に活用するために必要な最小の粒子数を与える。
したがって、PNTはホロノミック量子コンピュータのリソース要求を評価するのに有用かもしれない。
我々は、線形および非線形量子光学に関連するボソニック系に関する知見をベンチマークする。 When a quantum state traverses a path, while being under the influence of a gauge potential, it acquires a geometric phase that is often more than just a scalar quantity. The variety of unitary transformations that can be realised by this form of parallel transport depends crucially on the number of particles involved in the evolution. Here, we introduce a particle-number threshold (PNT) that assesses a system's capabilities to perform purely geometric manipulations of quantum states. This threshold gives the minimal number of particles necessary to fully exploit a system's potential to generate non-Abelian geometric phases. Therefore, the PNT might be useful for evaluating the resource demands of a holonomic quantum computer. We benchmark our findings on bosonic systems relevant to linear and nonlinear quantum optics. | 翻訳日:2023-06-26 17:26:27 公開日:2023-06-23 |
# 有限パルスによる2光子励起は量子ドットによって放出される純脱落誘起光子の劣化を解き放つ Two-photon excitation with finite pulses unlocks pure dephasing-induced degradation of entangled photons emitted by quantum dots ( http://arxiv.org/abs/2301.10820v3 ) ライセンス: Link先を確認 | Tim Seidelmann, Thomas K. Bracht, Barbara Ursula Lehner, Christian Schimpf, Michael Cosacchi, Moritz Cygorek, Alexei Vagov, Armando Rastelli, Doris E. Reiter, Vollrath Martin Axt | (参考訳) 半導体量子ドットは、特に偏光-絡み合った光子対を生成するためのプラットフォームとして出現している。
しかし,近年,最先端実験で用いられている2光子励起方式は,どの経路情報を導入することで達成可能な絡み合いの程度を制限できることが実証された。
本研究では,2光子励起と長手音響フォノンの強い量子ドットから放出される光子対への影響について検討した。
フォノンによる純脱落とフォノンによる一光子過程による消滅温度の限界下においても, フォノンはさらにエンタングルメントの達成度を減少させ, 再励起確率を増大させることがわかった。
また、コンカージェンスによって測定される絡み合いの度合いは、エキソトニックな微細構造分割が無く、より高い電子状態が到達できない場合でも、温度および/またはパルス持続時間の増加とともに減少する。
さらに、有限微細構造分割の場合、フォノンは異なるレーザ偏光に対する共起の差を大きくする。 Semiconductor quantum dots have emerged as an especially promising platform for the generation of polarization-entangled photon pairs. However, it was demonstrated recently that the two-photon excitation scheme employed in state-of-the-art experiments limits the achievable degree of entanglement by introducing which-path information. In this work, the combined impact of two-photon excitation and longitudinal acoustic phonons on photon pairs emitted by strongly-confining quantum dots is investigated. It is found that phonons further reduce the achievable degree of entanglement even in the limit of vanishing temperature due to phonon-induced pure dephasing and phonon-assisted one-photon processes, which increase the reexcitation probability. In addition, the degree of entanglement, as measured by the concurrence, decreases with rising temperature and/or pulse duration, even if the excitonic fine-structure splitting is absent and when higher electronic states are out of reach. Furthermore, in the case of finite fine-structure splittings, phonons enlarge the discrepancy in concurrence for different laser polarizations. | 翻訳日:2023-06-26 17:26:16 公開日:2023-06-23 |
# グラフニューラルネットワークの信号伝搬改善 Improving Signed Propagation for Graph Neural Networks ( http://arxiv.org/abs/2301.08918v4 ) ライセンス: Link先を確認 | Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim | (参考訳) 隣接ノードから情報を収集するメッセージパスグラフニューラルネットワーク(GNN)は、異種グラフ上で不適切なパフォーマンスを達成する。
この問題を解決するための様々なスキームが提案され、異種縁に署名された情報を伝播することが注目されている。
近年では、符号付き伝搬が常にバイナリクラスのシナリオでパフォーマンス改善につながるという理論的解析が提供されている。
しかし、事前解析がマルチクラスベンチマークデータセットとうまく一致しないことに気付きました。
メッセージパッシング(Message-passing):2つのノードが異なるクラスに属し、高い類似性を持つ場合、署名された伝搬は分離性を低下させることができる。
2) パラメータ更新: 署名された隣人の予測の不確実性(例えば衝突証拠)は、トレーニング中に増加し、アルゴリズムの安定性を阻害する。
本研究は,マルチクラスグラフに基づく署名伝達を改善するための2つの新しい手法を提案する。
提案手法はキャリブレーションとロバスト性を確保しつつ不確実性を低減させる。
6つのベンチマークグラフデータセットに対する広範な実験により,本定理の有効性を示す。 Message-passing Graph Neural Networks (GNNs), which collect information from adjacent nodes achieve dismal performance on heterophilic graphs. Various schemes have been proposed to solve this problem, and propagating signed information on heterophilic edges has gained great attention. Recently, some works provided theoretical analysis that signed propagation always leads to performance improvement under a binary class scenario. However, we notice that prior analyses do not align well with multi-class benchmark datasets. This paper provides a new understanding of signed propagation for multi-class scenarios and points out two drawbacks in terms of message-passing and parameter update: (1) Message-passing: if two nodes belong to different classes but have a high similarity, signed propagation can decrease the separability. (2) Parameter update: the prediction uncertainty (e.g., conflict evidence) of signed neighbors increases during training, which can impede the stability of the algorithm. Based on the observation, we introduce two novel strategies for improving signed propagation under multi-class graphs. The proposed scheme combines calibration to secure robustness while reducing uncertainty. We show the efficacy of our theorem through extensive experiments on six benchmark graph datasets. | 翻訳日:2023-06-26 17:25:50 公開日:2023-06-23 |
# チャネル量子臨界 Channeling quantum criticality ( http://arxiv.org/abs/2301.07141v4 ) ライセンス: Link先を確認 | Yijian Zou, Shengqi Sang, Timothy H. Hsieh | (参考訳) 我々は、局所的な量子チャネルによってモデル化されたデコヒーレンスが量子臨界状態に与える影響を分析し、結果の混合状態の絡み合いの普遍的性質をシステムと環境の両方とシステム内の両方で見出す。
レーニエントロピーは、共形場理論(CFT)において「$g$-function」で支配される昇華定数を持つ体積法スケーリングを示し、量子チャネル間の再正規化群(RG)フロー(もしくは「相転移」)の概念を定義することができる。
また、デコヒード状態におけるサブシステムのエントロピーは、サブシステムサイズに比例したサブリード対数スケーリングを持ち、CFTにおける境界条件変化作用素の相関関数と関連付ける。
最後に、混合状態内の量子相関の尺度であるサブシステム絡み合いの負性は、RGフローに基づくログスケーリングや領域法則を示すことができる。
チャネルが限界摂動に対応する場合、ログスケーリングの係数はデコヒーレンス強度で連続的に変化する。
我々はこれら全ての可能性について, 4つの強調水路の不動点を同定し, rg流を数値的に検証する横場イジングモデルの臨界基底状態について述べる。
この結果は,ノイズ量子シミュレータで実現される量子臨界状態と関係しており,予測したエンタングルメントスケーリングはシャドートモグラフィ法を用いて検証できる。 We analyze the effect of decoherence, modelled by local quantum channels, on quantum critical states and we find universal properties of the resulting mixed state's entanglement, both between system and environment and within the system. Renyi entropies exhibit volume law scaling with a subleading constant governed by a "$g$-function" in conformal field theory (CFT), allowing us to define a notion of renormalization group (RG) flow (or "phase transitions") between quantum channels. We also find that the entropy of a subsystem in the decohered state has a subleading logarithmic scaling with subsystem size, and we relate it to correlation functions of boundary condition changing operators in the CFT. Finally, we find that the subsystem entanglement negativity, a measure of quantum correlations within mixed states, can exhibit log scaling or area law based on the RG flow. When the channel corresponds to a marginal perturbation, the coefficient of the log scaling can change continuously with decoherence strength. We illustrate all these possibilities for the critical ground state of the transverse-field Ising model, in which we identify four RG fixed points of dephasing channels and verify the RG flow numerically. Our results are relevant to quantum critical states realized on noisy quantum simulators, in which our predicted entanglement scaling can be probed via shadow tomography methods. | 翻訳日:2023-06-26 17:25:33 公開日:2023-06-23 |
# 暗号通貨関連ソーシャルメディアキャンペーンのデータセット A Dataset of Coordinated Cryptocurrency-Related Social Media Campaigns ( http://arxiv.org/abs/2301.06601v3 ) ライセンス: Link先を確認 | Karolis Zilius, Tasos Spiliotopoulos, Aad van Moorsel | (参考訳) cryptoassetsの採用の高まりは、暗号通貨分野の新規で未熟な投資家の多くを惹きつけている。
これらの投資家は、オンラインで受け取った情報、特にソーシャルメディアの影響を受けない。
本稿では,暗号関連バウンティイベントのデータセットとそれに参加するユーザについて述べる。
これらのイベントはソーシャルメディアのキャンペーンをコーディネートし、トークンの価格に影響を与えるために暗号プロジェクトの周りに人工的な「ハイプ」を作成する。
データセットは、2014年5月から2022年12月までのBitcoinTalkオンラインフォーラムのBounties(Altcoins)サブフォーラムから収集された15.8Kのクロスメディアバウンティイベント、185Kの参加者、100万のフォーラムコメント、82万のソーシャルメディアURLで構成されている。
本稿では,データ収集手法とデータ処理手法について述べるとともに,データセットの基本的特徴について述べる。
さらに,様々な分野にまたがるデータセットが生み出す潜在的な研究機会について議論し,暗号通貨産業の運営方法と,その利用者との相互作用について,新たな知見を浮き彫りにする。 The rise in adoption of cryptoassets has brought many new and inexperienced investors in the cryptocurrency space. These investors can be disproportionally influenced by information they receive online, and particularly from social media. This paper presents a dataset of crypto-related bounty events and the users that participate in them. These events coordinate social media campaigns to create artificial "hype" around a crypto project in order to influence the price of its token. The dataset consists of information about 15.8K cross-media bounty events, 185K participants, 10M forum comments and 82M social media URLs collected from the Bounties(Altcoins) subforum of the BitcoinTalk online forum from May 2014 to December 2022. We describe the data collection and the data processing methods employed and we present a basic characterization of the dataset. Furthermore, we discuss potential research opportunities afforded by the dataset across many disciplines and we highlight potential novel insights into how the cryptocurrency industry operates and how it interacts with its audience. | 翻訳日:2023-06-26 17:25:05 公開日:2023-06-23 |
# 伝達学習によるネットワークスライシングによる分散深層強化学習 Network Slicing via Transfer Learning aided Distributed Deep Reinforcement Learning ( http://arxiv.org/abs/2301.03262v2 ) ライセンス: Link先を確認 | Tianlun Hu, Qi Liao, Qiang Liu and Georg Carle | (参考訳) ネットワークスライシングにおける動的かつ複雑な資源管理を扱うために、深層強化学習(DRL)がますます採用されている。
しかし、実ネットワークへのdrlポリシーの配置は、異種細胞条件によって複雑である。
本稿では, セル間リソース分割のためのエージェント間類似性解析を用いた, トランスファーラーニング(TL)支援マルチエージェントディープ強化学習(MADRL)アプローチを提案する。
まず,情報共有を伴う協調MADRL法を設計し,資源をスライスに分割し,セル間干渉を管理する。
第2に、各ローカルエージェント間で学習したDRLポリシーを転送し、ポリシー展開を高速化する統合TL手法を提案する。
本手法は,新しいドメインとタスク類似度測定手法と,どのドメインを転送するか,どのように転送するかという問題を解く知識伝達手法から構成される。
提案手法は,システムレベルシミュレータで大規模シミュレーションを行い,性能,収束速度,サンプル効率の点で最先端のソリューションよりも優れていることを示す。
さらに,TLを適用することで,TLのない座標MADRLアプローチよりも27%以上の利得が得られる。 Deep reinforcement learning (DRL) has been increasingly employed to handle the dynamic and complex resource management in network slicing. The deployment of DRL policies in real networks, however, is complicated by heterogeneous cell conditions. In this paper, we propose a novel transfer learning (TL) aided multi-agent deep reinforcement learning (MADRL) approach with inter-agent similarity analysis for inter-cell inter-slice resource partitioning. First, we design a coordinated MADRL method with information sharing to intelligently partition resource to slices and manage inter-cell interference. Second, we propose an integrated TL method to transfer the learned DRL policies among different local agents for accelerating the policy deployment. The method is composed of a new domain and task similarity measurement approach and a new knowledge transfer approach, which resolves the problem of from whom to transfer and how to transfer. We evaluated the proposed solution with extensive simulations in a system-level simulator and show that our approach outperforms the state-of-the-art solutions in terms of performance, convergence speed and sample efficiency. Moreover, by applying TL, we achieve an additional gain over 27% higher than the coordinate MADRL approach without TL. | 翻訳日:2023-06-26 17:24:26 公開日:2023-06-23 |
# 構造化医療記録を用いた自己教師付き時間-イベントモデリング Self-Supervised Time-to-Event Modeling with Structured Medical Records ( http://arxiv.org/abs/2301.03150v2 ) ライセンス: Link先を確認 | Ethan Steinberg, Yizhe Xu, Jason Fries, Nigam Shah | (参考訳) TTEモデル(Time-to-event Model)は、特定の事象が起こるまでの時間確率分布を推定するために医学やその他の分野で用いられる。
TTEモデルは、自然に検閲された観測を取り扱うなど、固定時間地平線を用いた分類よりも多くの利点を提供するが、より多くのパラメータが必要であり、ラベル付きデータを限定した環境でのトレーニングは困難である。
既存のアプローチ、例えば比例ハザードや障害時間の加速は、パラメータを減らすために分散仮定を採用するが、モデルの誤特定に弱い。
本研究は、電子健康記録(EHR)および健康保険請求におけるタイムスタンプイベントのコレクションに見られる時間構造を利用した自己管理モデルMOTOR(Many Outcome Time Oriented Representations)を用いて、これらの課題に対処する。
MOTORは、イベント発生時の確率分布を予測するTTE事前学習目標を使用しており、医学的な予測タスクのために学習を伝達するのに適している。
EHRで事前訓練し,最大5500万件の患者記録(9B臨床イベント)を請求し,2つのデータセットにまたがる19のタスクの微調整後のパフォーマンスを評価した。
MOTORを使用して構築されたタスク固有モデルは、最先端のC統計を4.6%改善し、サンプル効率を大幅に改善し、利用可能なタスクデータの5%しか使用せずに既存のメソッドに匹敵するパフォーマンスを実現した。 Time-to-event (TTE) models are used in medicine and other fields for estimating the probability distribution of the time until a specific event occurs. TTE models provide many advantages over classification using fixed time horizons, including naturally handling censored observations, but require more parameters and are challenging to train in settings with limited labeled data. Existing approaches, e.g. proportional hazards or accelerated failure time, employ distributional assumptions to reduce parameters but are vulnerable to model misspecification. In this work, we address these challenges with MOTOR (Many Outcome Time Oriented Representations), a self-supervised model that leverages temporal structure found in collections of timestamped events in electronic health records (EHR) and health insurance claims. MOTOR uses a TTE pretraining objective that predicts the probability distribution of times when events occur, making it well-suited to transfer learning for medical prediction tasks. Having pretrained on EHR and claims data of up to 55M patient records (9B clinical events), we evaluate performance after finetuning for 19 tasks across two datasets. Task-specific models built using MOTOR improve time-dependent C statistics by 4.6% over state-of-the-art while greatly improving sample efficiency, achieving comparable performance to existing methods using only 5% of available task data. | 翻訳日:2023-06-26 17:24:06 公開日:2023-06-23 |
# ヒューリスティック多エージェント計画によるエージェント協調の最適化 Optimizing Agent Collaboration through Heuristic Multi-Agent Planning ( http://arxiv.org/abs/2301.01246v3 ) ライセンス: Link先を確認 | Nitsan Soffair | (参考訳) QDec-POMDP問題に対処するSOTAアルゴリズム、QDec-FPとQDec-FPSは、異なるタイプの検知エージェントを含む問題に効果的に対処できない。
本稿では,あるエージェントが検知アクションを取らなかった場合,エージェントが同じ計画を採用するように要求することで,この問題に対処する新しいアルゴリズムを提案する。
このような状況下で,本アルゴリズムはQDec-FPとQDec-FPSの双方よりも性能が優れている。 The SOTA algorithms for addressing QDec-POMDP issues, QDec-FP and QDec-FPS, are unable to effectively tackle problems that involve different types of sensing agents. We propose a new algorithm that addresses this issue by requiring agents to adopt the same plan if one agent is unable to take a sensing action but the other can. Our algorithm performs significantly better than both QDec-FP and QDec-FPS in these types of situations. | 翻訳日:2023-06-26 17:23:35 公開日:2023-06-23 |
# 効率的かつロバストな量子度勾配による最大類似度推定ハミルトン学習 Maximum-Likelihood-Estimate Hamiltonian learning via efficient and robust quantum likelihood gradient ( http://arxiv.org/abs/2212.13718v2 ) ライセンス: Link先を確認 | Tian-Lun Zhao, Shi-Xin Hu and Yi Zhang | (参考訳) 近年の量子技術の発展を考えると、ターゲット量子多体系の物理的ハミルトニアンのモデル化は、ますます実用的で不可欠な研究の方向性になりつつある。
本稿では,最大推定,勾配降下,量子多体アルゴリズムを組み合わせた効率的な手法を提案する。
測定結果から, 対象モデルのハミルトニアンおよび密度作用素を, 量子度勾配に沿った一連の降下を通じて最適化し, 負のlog-likelihood関数に関して負の半定値であることが証明された。
このような最適化効率に加えて、我々の最大類似性評価ハミルトニアン学習は与えられた量子システムの局所性を尊重するので、利用可能な量子多体アルゴリズムを持つより大きなシステムにも容易に拡張できる。
従来の手法と比較すると,ノイズ,ゆらぎ,温度範囲に対する精度と全体的な安定性が示され,様々な例で示される。 Given the recent developments in quantum techniques, modeling the physical Hamiltonian of a target quantum many-body system is becoming an increasingly practical and vital research direction. Here, we propose an efficient strategy combining maximum likelihood estimation, gradient descent, and quantum many-body algorithms. Given the measurement outcomes, we optimize the target model Hamiltonian and density operator via a series of descents along the quantum likelihood gradient, which we prove is negative semi-definite with respect to the negative-log-likelihood function. In addition to such optimization efficiency, our maximum-likelihood-estimate Hamiltonian learning respects the locality of a given quantum system, therefore, extends readily to larger systems with available quantum many-body algorithms. Compared with previous approaches, it also exhibits better accuracy and overall stability toward noises, fluctuations, and temperature ranges, which we demonstrate with various examples. | 翻訳日:2023-06-26 17:23:26 公開日:2023-06-23 |
# 欠落値インプテーションに対する変換分布マッチング Transformed Distribution Matching for Missing Value Imputation ( http://arxiv.org/abs/2302.10363v2 ) ライセンス: Link先を確認 | He Zhao, Ke Sun, Amir Dezfouli, Edwin Bonilla | (参考訳) 我々は、多くの領域で重要な応用があるデータセット内の値の欠落を暗示する問題を考察する。
欠落した値インプテーションの鍵は、不完全なサンプルでデータ分布をキャプチャし、欠落した値をインプットすることです。
本稿では,値が不足している2つのデータ集合が同じデータ分布から来ているという事実を生かして,それらを深い可逆関数を通じて潜在空間に変換し,分布的にマッチングすることにより,サンプルの2つのバッチの欠落値を推測する。
変換を学習し、欠落した値を同時にインプットするために、単純で動機のよいアルゴリズムを提案する。
提案アルゴリズムは,不足値の生成によらず,微調整のためのハイパーパラメータを少なくし,高品質なインパルスを生成する。
多数のデータセットと競合するベンチマークアルゴリズムに対する大規模な実験により,本手法が最先端の性能を達成することを示す。 We study the problem of imputing missing values in a dataset, which has important applications in many domains. The key to missing value imputation is to capture the data distribution with incomplete samples and impute the missing values accordingly. In this paper, by leveraging the fact that any two batches of data with missing values come from the same data distribution, we propose to impute the missing values of two batches of samples by transforming them into a latent space through deep invertible functions and matching them distributionally. To learn the transformations and impute the missing values simultaneously, a simple and well-motivated algorithm is proposed. Our algorithm has fewer hyperparameters to fine-tune and generates high-quality imputations regardless of how missing values are generated. Extensive experiments over a large number of datasets and competing benchmark algorithms show that our method achieves state-of-the-art performance. | 翻訳日:2023-06-26 17:15:49 公開日:2023-06-23 |
# 文脈データからニューズベンダー決定:データ駆動アルゴリズムの実際の性能について From Contextual Data to Newsvendor Decisions: On the Actual Performance of Data-Driven Algorithms ( http://arxiv.org/abs/2302.08424v2 ) ライセンス: Link先を確認 | Omar Besbes, Will Ma, Omar Mouchtaki | (参考訳) 本研究では,過去データの関連性と量がどのようにデータ駆動型ポリシーの性能に影響するかを検討するために,文脈的意思決定の枠組みを検討する。
我々は、未成年者と未成年者とのトレードオフが必要な状況ニュースベンドル問題を分析し、不確定な需要に直面した。
我々は, ``close by'' の文脈で観察された過去の要求が分布によって近似し,データ駆動アルゴリズムの性能を文脈依存の最悪の場合の期待する後悔という概念を通して分析する。
我々は,過去のデータを文脈空間における類似性に応じて測定する,Weighted Empirical Risk Minimization(WERM)政策の幅広いクラスを分析した。
このクラスには、EMM、k-Nearest Neighbors、カーネルベースのポリシーなどの古典的なポリシーが含まれている。
我々の主要な方法論的貢献は、WERMポリシーの最悪の後悔を、特定のコンテキストの構成で正確に特徴づけることである。
我々の知る限りでは、過去の文献では濃度の不等式を通した上限に焦点をあてており、文脈的意思決定問題における厳密な性能保証に関する最初の理解を提供する。
代わりに最適化手法を採り、ニュースベンダー損失関数の構造を分離し、最悪の場合の分布に対する無限次元の最適化問題を単純な行探索に還元する。
これにより、以前の汎用的な境界によって難解な基本的な洞察が明らかにできます。
我々は、実際の保証された性能を文脈の関数として特徴付け、アルゴリズムの学習曲線に関する詳細な洞察を与える。 In this work, we explore a framework for contextual decision-making to study how the relevance and quantity of past data affects the performance of a data-driven policy. We analyze a contextual Newsvendor problem in which a decision-maker needs to trade-off between an underage and an overage cost in the face of uncertain demand. We consider a setting in which past demands observed under ``close by'' contexts come from close by distributions and analyze the performance of data-driven algorithms through a notion of context-dependent worst-case expected regret. We analyze the broad class of Weighted Empirical Risk Minimization (WERM) policies which weigh past data according to their similarity in the contextual space. This class includes classical policies such as ERM, k-Nearest Neighbors and kernel-based policies. Our main methodological contribution is to characterize exactly the worst-case regret of any WERM policy on any given configuration of contexts. To the best of our knowledge, this provides the first understanding of tight performance guarantees in any contextual decision-making problem, with past literature focusing on upper bounds via concentration inequalities. We instead take an optimization approach, and isolate a structure in the Newsvendor loss function that allows to reduce the infinite-dimensional optimization problem over worst-case distributions to a simple line search. This in turn allows us to unveil fundamental insights that were obfuscated by previous general-purpose bounds. We characterize actual guaranteed performance as a function of the contexts, as well as granular insights on the learning curve of algorithms. | 翻訳日:2023-06-26 17:15:05 公開日:2023-06-23 |
# タンパク質配列と小分子の線形スケーリング核は不確かさの定量化と解釈性の向上を提供しながらディープラーニングよりも優れている Linear-scaling kernels for protein sequences and small molecules outperform deep learning while providing uncertainty quantitation and improved interpretability ( http://arxiv.org/abs/2302.03294v2 ) ライセンス: Link先を確認 | Jonathan Parkinson and Wei Wang | (参考訳) ガウス過程(gaussian process, gp)は、不確実性の信頼できる定量化や解釈性の向上など、機械学習における回帰タスクにいくつかの利点を提供するベイズモデルである。
彼らの採用は、計算コストの過大さや、配列(アミノ酸やヌクレオチド配列など)やグラフ(小さな分子を表すものなど)の解析への適応の難しさによって先延ばしになっている。
本研究では,グラフやシーケンスサイズに線形にスケールする高速畳み込みカーネルと同様に,gpモデルに適合する効率的かつスケーラブルな手法を開発した。
xGPRと呼ばれるオープンソースのPythonライブラリを構築することで、これらの改善を実現しています。
本研究では,小分子,タンパク質配列,表データなど20種類のベンチマークにおいて,xgprの性能と各種ディープラーニングモデルの性能を比較した。
我々は,xGRPがより短いトレーニング時間で高い競争性能を発揮することを示す。
さらに、配列データとグラフデータのための新しいカーネルを開発し、xGPRがタンパク質や小分子のキー特性を予測するために畳み込みニューラルネットワークよりも一般的に優れていることを示す。
重要なことは、xGPRは典型的なディープラーニングモデルから入手できない不確実な情報を提供する。
さらにxGPRは、クラスタリングやデータの視覚化に使用できる入力データの表現を提供する。
これらの結果は、xGPRがタンパク質工学や薬物発見に広く役立つ強力で汎用的なツールを提供することを示した。 Gaussian process (GP) is a Bayesian model which provides several advantages for regression tasks in machine learning such as reliable quantitation of uncertainty and improved interpretability. Their adoption has been precluded by their excessive computational cost and by the difficulty in adapting them for analyzing sequences (e.g. amino acid and nucleotide sequences) and graphs (e.g. ones representing small molecules). In this study, we develop efficient and scalable approaches for fitting GP models as well as fast convolution kernels which scale linearly with graph or sequence size. We implement these improvements by building an open-source Python library called xGPR. We compare the performance of xGPR with the reported performance of various deep learning models on 20 benchmarks, including small molecule, protein sequence and tabular data. We show that xGRP achieves highly competitive performance with much shorter training time. Furthermore, we also develop new kernels for sequence and graph data and show that xGPR generally outperforms convolutional neural networks on predicting key properties of proteins and small molecules. Importantly, xGPR provides uncertainty information not available from typical deep learning models. Additionally, xGPR provides a representation of the input data that can be used for clustering and data visualization. These results demonstrate that xGPR provides a powerful and generic tool that can be broadly useful in protein engineering and drug discovery. | 翻訳日:2023-06-26 17:14:38 公開日:2023-06-23 |
# 線形相関雑音による勾配降下:理論と微分プライバシーへの応用 Gradient Descent with Linearly Correlated Noise: Theory and Applications to Differential Privacy ( http://arxiv.org/abs/2302.01463v2 ) ライセンス: Link先を確認 | Anastasia Koloskova, Ryan McKenna, Zachary Charles, Keith Rush, Brendan McMahan | (参考訳) 線形相関雑音下での勾配降下について検討する。
我々の研究は、DP-FTRLのような近年の差分プライバシー(DP)最適化の実践的手法によって動機付けられており、プライバシーの増幅技術(フェデレーション学習など)が実現できない環境では、高い性能を達成する。
これらの手法は、行列係数化機構を介してプライバシノイズを注入し、繰り返しのノイズを線形に相関させる。
本稿では,これらの手法の鍵面を蒸留し,線形相関雑音の影響を分離する簡易な設定法を提案する。
この設定における勾配降下の挙動を凸関数と非凸関数の両方に対して解析する。
本研究は従来より明らかに厳密であり,複数の重要な症例(反相関性摂動勾配降下を含む)を正確に回収する。
我々は,微分プライベート最適化のための新しい効率的な行列因子分解法を開発し,これらの因子分解の利点を理論的および経験的に強調する。 We study gradient descent under linearly correlated noise. Our work is motivated by recent practical methods for optimization with differential privacy (DP), such as DP-FTRL, which achieve strong performance in settings where privacy amplification techniques are infeasible (such as in federated learning). These methods inject privacy noise through a matrix factorization mechanism, making the noise linearly correlated over iterations. We propose a simplified setting that distills key facets of these methods and isolates the impact of linearly correlated noise. We analyze the behavior of gradient descent in this setting, for both convex and non-convex functions. Our analysis is demonstrably tighter than prior work and recovers multiple important special cases exactly (including anticorrelated perturbed gradient descent). We use our results to develop new, effective matrix factorizations for differentially private optimization, and highlight the benefits of these factorizations theoretically and empirically. | 翻訳日:2023-06-26 17:14:12 公開日:2023-06-23 |
# Image Shortcut Squeezing: 圧縮による摂動性アベイラビリティーの対策 Image Shortcut Squeezing: Countering Perturbative Availability Poisons with Compression ( http://arxiv.org/abs/2301.13838v2 ) ライセンス: Link先を確認 | Zhuoran Liu, Zhengyu Zhao, Martha Larson | (参考訳) 摂動性アベイラビリティ毒(PAP)は、モデルトレーニングに使用するのを防ぐため、画像に小さな変化を加える。
現在の研究は、PAPに対抗する実践的で効果的なアプローチは存在しないという信念を取り入れている。
本稿では,この信念を捨てる時が来たと論じる。
簡単な圧縮に基づく画像ショートカットスキーズ(ISS)に対して,12の最先端PAP手法が脆弱であることを示す広範な実験を行った。
例えば、ISS は CIFAR-10 モデルの精度を 811.73 %$ に復元し、以前の最良の前処理ベースの対策を 37.97 %$ で上回った。
ISSは(わずかに)敵の訓練より優れており、摂動規範の見当たらない一般化性が高く、効率も高い。
本研究により, pap摂動の特性は, 毒物生成に用いられるサロゲートモデルの種類に依存し, 特定のiss圧縮が特定のタイプのpap摂動に最適な性能をもたらす理由を明らかにした。
我々はさらに、より強く適応的な中毒をテストし、それがissに対する理想的な防御であることを示す。
以上の結果から,PAP法開発における分析の意義を確認するために,様々な(簡単な)対策を検討することの重要性が示唆された。 Perturbative availability poisons (PAPs) add small changes to images to prevent their use for model training. Current research adopts the belief that practical and effective approaches to countering PAPs do not exist. In this paper, we argue that it is time to abandon this belief. We present extensive experiments showing that 12 state-of-the-art PAP methods are vulnerable to Image Shortcut Squeezing (ISS), which is based on simple compression. For example, on average, ISS restores the CIFAR-10 model accuracy to $81.73\%$, surpassing the previous best preprocessing-based countermeasures by $37.97\%$ absolute. ISS also (slightly) outperforms adversarial training and has higher generalizability to unseen perturbation norms and also higher efficiency. Our investigation reveals that the property of PAP perturbations depends on the type of surrogate model used for poison generation, and it explains why a specific ISS compression yields the best performance for a specific type of PAP perturbation. We further test stronger, adaptive poisoning, and show it falls short of being an ideal defense against ISS. Overall, our results demonstrate the importance of considering various (simple) countermeasures to ensure the meaningfulness of analysis carried out during the development of PAP methods. | 翻訳日:2023-06-26 17:13:43 公開日:2023-06-23 |
# 混合精度浮動小数点アサインメントによる訓練 Training with Mixed-Precision Floating-Point Assignments ( http://arxiv.org/abs/2301.13464v2 ) ライセンス: Link先を確認 | Wonyeol Lee, Rahul Sharma, Alex Aiken | (参考訳) ディープニューラルネットワークのトレーニングでは、すべてのテンソルを高精度(例えば32ビットまたは16ビットフロート)に保つことはしばしば無駄である。
しかし、全てのテンソルを低い精度(例えば8ビットフロート)に保つと、許容できない精度を失う。
したがって、すべてのテンソル(訓練中)から高精度レベル(高いか低いか)へのマッピングである精度割当を使用することが重要であり、ほとんどのテンソルを低い精度で保持し、十分に正確なモデルをもたらす。
畳み込みニューラルネットワークの高精度割り当てを生成することにより,このメモリ精度トレードオフを探索する手法を提案する。
(i)少ないメモリ使用と
(ii)低精度浮動小数点訓練における事前作業が考慮した精度課題と比較して,畳み込みネットワークの精度が向上した。
CIFAR-10, CIFAR-100, ImageNet上で, 畳み込みネットワークを訓練し, 画像分類タスクの評価を行った。
本手法は,トレーニング精度を保ちながら,ベースライン精度よりも2倍のメモリ削減を実現し,精度のトレードオフによるさらなる削減を実現する。
トレーニングの発散の原因となる他のベースラインと比較して,本手法は発散を回避しつつ,類似あるいはより良いメモリ削減を実現する。 When training deep neural networks, keeping all tensors in high precision (e.g., 32-bit or even 16-bit floats) is often wasteful. However, keeping all tensors in low precision (e.g., 8-bit floats) can lead to unacceptable accuracy loss. Hence, it is important to use a precision assignment -- a mapping from all tensors (arising in training) to precision levels (high or low) -- that keeps most of the tensors in low precision and leads to sufficiently accurate models. We provide a technique that explores this memory-accuracy tradeoff by generating precision assignments for convolutional neural networks that (i) use less memory and (ii) lead to more accurate convolutional networks at the same time, compared to the precision assignments considered by prior work in low-precision floating-point training. We evaluate our technique on image classification tasks by training convolutional networks on CIFAR-10, CIFAR-100, and ImageNet. Our method typically provides > 2x memory reduction over a baseline precision assignment while preserving training accuracy, and gives further reductions by trading off accuracy. Compared to other baselines which sometimes cause training to diverge, our method provides similar or better memory reduction while avoiding divergence. | 翻訳日:2023-06-26 17:13:18 公開日:2023-06-23 |
# STEEL:特異性を考慮した強化学習 STEEL: Singularity-aware Reinforcement Learning ( http://arxiv.org/abs/2301.13152v4 ) ライセンス: Link先を確認 | Xiaohong Chen, Zhengling Qi, Runzhe Wan | (参考訳) バッチ強化学習(rl)は、事前に収集したデータを活用して、動的環境で期待される総報酬を最大化する最適なポリシーを見つけることを目的としている。
既存のアルゴリズムのほとんどすべてが、データ分散に関してターゲットポリシーによって引き起こされる分布の絶対的な連続的な仮定に依存しているため、バッチデータは測定値の変更を通じてターゲットポリシーの校正に使用できる。
しかし、絶対連続性仮定は実際には違反する可能性があり(例えば、非オーバーラップサポート)、特に状態作用空間が大きく連続している場合である。
本稿では,連続状態と動作を伴う無限水平マルコフ決定過程の設定において絶対連続性を必要としない新しいバッチRLアルゴリズムを提案する。
我々はアルゴリズムをSTEEL: SingulariTy-awarE rEinforcement Learningと呼んでいる。
このアルゴリズムは,最大平均不一致と分布的ロバストな最適化を併用し,特異性に起因するオフポリス評価の誤りを特徴付け,モデルの補間を可能にするオフポリシー評価の新しい誤り解析に動機づけられている。
悲観主義の考え方を利用して、いくつかの穏やかな条件下では、絶対連続性を課さずに提案したアルゴリズムに対する有限サンプル後悔保証を導出する。
既存のアルゴリズムと比較して、STEELは最小限のデータカバレッジ仮定しか必要とせず、バッチRLの適用性と堅牢性を大幅に改善する。
拡張シミュレーション研究とパーソナライズ価格に関する実実験は,バッチrlにおける特異性に対処する上で,提案手法の優れた性能を示すものである。 Batch reinforcement learning (RL) aims at leveraging pre-collected data to find an optimal policy that maximizes the expected total rewards in a dynamic environment. Nearly all existing algorithms rely on the absolutely continuous assumption on the distribution induced by target policies with respect to the data distribution, so that the batch data can be used to calibrate target policies via the change of measure. However, the absolute continuity assumption could be violated in practice (e.g., no-overlap support), especially when the state-action space is large or continuous. In this paper, we propose a new batch RL algorithm without requiring absolute continuity in the setting of an infinite-horizon Markov decision process with continuous states and actions. We call our algorithm STEEL: SingulariTy-awarE rEinforcement Learning. Our algorithm is motivated by a new error analysis on off-policy evaluation, where we use maximum mean discrepancy, together with distributionally robust optimization, to characterize the error of off-policy evaluation caused by the possible singularity and to enable model extrapolation. By leveraging the idea of pessimism and under some mild conditions, we derive a finite-sample regret guarantee for our proposed algorithm without imposing absolute continuity. Compared with existing algorithms, by requiring only minimal data-coverage assumption, STEEL significantly improves the applicability and robustness of batch RL. Extensive simulation studies and one real experiment on personalized pricing demonstrate the superior performance of our method in dealing with possible singularity in batch RL. | 翻訳日:2023-06-26 17:12:56 公開日:2023-06-23 |
# グラフ生成モデル評価のための曲率濾過 Curvature Filtrations for Graph Generative Model Evaluation ( http://arxiv.org/abs/2301.12906v2 ) ライセンス: Link先を確認 | Joshua Southern, Jeremy Wayland, Michael Bronstein, Bastian Rieck | (参考訳) グラフ生成モデル評価は、分布レベルでのグラフ間の理解の違いを必要とする。
これにより、グラフのサルエント属性を効率的に活用できるようになる。
曲線はグラフのそのような性質の1つを構成しており、最近グラフの特徴付けに有用であることが証明され始めている。
しかし、モデル評価における表現的性質、安定性、実用性はほとんど未解明のままである。
グラフ生成モデルを評価するためのロバストで表現豊かな記述子を得るために,グラフ曲率記述子とトポロジカルデータ解析の新しい手法を組み合わせる。 Graph generative model evaluation necessitates understanding differences between graphs on the distributional level. This entails being able to harness salient attributes of graphs in an efficient manner. Curvature constitutes one such property of graphs, and has recently started to prove useful in characterising graphs. Its expressive properties, stability, and practical utility in model evaluation remain largely unexplored, however. We combine graph curvature descriptors with emerging methods from topological data analysis to obtain robust, expressive descriptors for evaluating graph generative models. | 翻訳日:2023-06-26 17:12:30 公開日:2023-06-23 |
# 高性能Kerr量子電池 High-performance Kerr quantum battery ( http://arxiv.org/abs/2305.03202v2 ) ライセンス: Link先を確認 | Muhammad Shoufie Ukhtary, Ahmad R. T. Nugraha, Adam B. Cahaya, Andrivo Rusydi, Muhammad Aziz Majidi | (参考訳) 本稿では,2つの相互作用する量子発振器,すなわち充電器は高調波発振器であり,電池はKerr非線形性を含む非調和発振器からなるハイブリッド量子電池,いわゆるKerr量子電池の性能について検討する。
このようなセットアップは、エネルギーレベルとともに増加する量子発振器のエネルギーレベル間の不均一間隔を生成する。
我々は、Kerr量子電池は、キュービット電池よりも多くのエネルギーを蓄え、高調波発振器電池よりも早く最大蓄積エネルギーに達することを見出した。
特に、kerr量子バッテリの平均充電電力は、qubitバッテリよりも大きい。
さらに、kerr量子バッテリの蓄積エネルギーの大部分は、作業のために抽出することができる。
カー量子電池の全ての特性は非線形性の強さによって制御され、非線形性の強化は電池を高調波発振器から量子ビットに変換する。 We propose and investigate the performance of a hybrid quantum battery, the so-called Kerr quantum battery, which consists of two interacting quantum oscillators, i.e., the charger is a harmonic oscillator and the battery is an anharmonic oscillator involving the Kerr nonlinearity. Such a setup creates nonuniform spacing between energy levels of the quantum oscillator that increases with the energy level. We find that the Kerr quantum battery can store more energy than the qubit battery and reaches maximum stored energy faster than the harmonic oscillator battery. In particular, the average charging power of the Kerr quantum battery is larger than the qubit battery. Furthermore, most of the stored energy in the Kerr quantum battery can be extracted for work. All of the properties of the Kerr quantum battery are controlled by the strength of nonlinearity, in which the enhancement of the nonlinearity transforms the battery from a harmonic oscillator to a qubit. | 翻訳日:2023-06-26 17:07:06 公開日:2023-06-23 |
# 教師付きマルチモーダル学習における一様特徴学習について On Uni-Modal Feature Learning in Supervised Multi-Modal Learning ( http://arxiv.org/abs/2305.01233v3 ) ライセンス: Link先を確認 | Chenzhuang Du, Jiaye Teng, Tingle Li, Yichen Liu, Tianyuan Yuan, Yue Wang, Yang Yuan, Hang Zhao | (参考訳) 我々はマルチモーダルデータの特徴(すなわち学習表現)を抽象化する
1)ユニモーダルトレーニングから学べるユニモーダルの特徴,および
2) 相互モーダル相互作用からのみ学習できるペア機能。
マルチモーダルモデルは、一様特徴学習の保証に基づいて、相互モーダル相互作用の恩恵を受けることが期待される。
しかし,近年のマルチモーダル・レイト・フュージョン・トレーニングアプローチでは,各モダリティにおけるユニモーダル特徴の学習が不十分なままである。
この現象がモデルの一般化能力を損なうことを証明します。
そこで本研究では,Uni-Modal Ensemble (UME) とUni-Modal Teacher (UMT) から,Uni-Modal and paired feature の分布に応じて,教師付きマルチモーダルタスクを対象とした遅延融合学習手法を提案する。
簡単な誘導戦略により,VGG-Sound, Kinetics-400, UCF101, ModelNet40 など,様々なマルチモーダルデータセット上での遅延融合や中間融合手法に匹敵する結果が得られることを示す。 We abstract the features (i.e. learned representations) of multi-modal data into 1) uni-modal features, which can be learned from uni-modal training, and 2) paired features, which can only be learned from cross-modal interactions. Multi-modal models are expected to benefit from cross-modal interactions on the basis of ensuring uni-modal feature learning. However, recent supervised multi-modal late-fusion training approaches still suffer from insufficient learning of uni-modal features on each modality. We prove that this phenomenon does hurt the model's generalization ability. To this end, we propose to choose a targeted late-fusion learning method for the given supervised multi-modal task from Uni-Modal Ensemble(UME) and the proposed Uni-Modal Teacher(UMT), according to the distribution of uni-modal and paired features. We demonstrate that, under a simple guiding strategy, we can achieve comparable results to other complex late-fusion or intermediate-fusion methods on various multi-modal datasets, including VGG-Sound, Kinetics-400, UCF101, and ModelNet40. | 翻訳日:2023-06-26 17:06:51 公開日:2023-06-23 |
# 微分とKMS-対称量子マルコフ半群 Derivations and KMS-Symmetric Quantum Markov Semigroups ( http://arxiv.org/abs/2303.15949v2 ) ライセンス: Link先を確認 | Matthijs Vernooij and Melchior Wirth | (参考訳) 我々は、KMS対称量子マルコフ半群の$L^2$実装の生成元がヒルベルト双加群における値を持つ導出の正方形として表現できることを証明し、Cipriani と Sauvageot によるトランザクシャル対称半群に対する以前の結果と GNS 対称半群に対する二番目の著者について拡張する。
この結果は GNS ヒルベルト空間上の有界作用素の代数上の新しい完全正の写像の導入によるものである。
この変換は対称マルコフ作用素を対称マルコフ作用素に写像し、ヒルベルト双加群上の必要内積を得るのに必須である。 We prove that the generator of the $L^2$ implementation of a KMS-symmetric quantum Markov semigroup can be expressed as the square of a derivation with values in a Hilbert bimodule, extending earlier results by Cipriani and Sauvageot for tracially symmetric semigroups and the second-named author for GNS-symmetric semigroups. This result hinges on the introduction of a new completely positive map on the algebra of bounded operators on the GNS Hilbert space. This transformation maps symmetric Markov operators to symmetric Markov operators and is essential to obtain the required inner product on the Hilbert bimodule. | 翻訳日:2023-06-26 17:06:33 公開日:2023-06-23 |
# 断熱量子コンピューティングによる確率密度関数の決定 Determining probability density functions with adiabatic quantum computing ( http://arxiv.org/abs/2303.11346v2 ) ライセンス: Link先を確認 | Matteo Robbiati, Juan M. Cruz-Martinez and Stefano Carrazza | (参考訳) データサンプルからの確率密度関数の信頼できる決定は、科学的な応用において依然として重要なトピックである。
本研究では,断熱量子コンピューティングを用いた密度関数推定アルゴリズムの定義の可能性を検討する。
一次元分布のサンプルから始め、サンプルの経験的累積分布関数を断熱量子進化を用いて時間依存ハミルトニアンに写像する古典から量子へのデータ埋め込み手順を定義する。
得られたハミルトニアンは時間発展演算子を用いて量子回路に投影される。
最後に、パラメータシフト規則アルゴリズムを用いて、量子ハードウェアの微分を用いてサンプルの確率密度関数を求める。
既定義の既知分布と高エネルギー物理モンテカルロシミュレーションサンプルの数値計算に成功した。 A reliable determination of probability density functions from data samples is still a relevant topic in scientific applications. In this work we investigate the possibility of defining an algorithm for density function estimation using adiabatic quantum computing. Starting from a sample of a one-dimensional distribution, we define a classical-to-quantum data embedding procedure which maps the empirical cumulative distribution function of the sample into time dependent Hamiltonian using adiabatic quantum evolution. The obtained Hamiltonian is then projected into a quantum circuit using the time evolution operator. Finally, the probability density function of the sample is obtained using quantum hardware differentiation through the parameter shift rule algorithm. We present successful numerical results for predefined known distributions and high-energy physics Monte Carlo simulation samples. | 翻訳日:2023-06-26 17:05:46 公開日:2023-06-23 |
# contranerf: コントラスト学習による合成から現実へのニューラル・ラミアンス・フィールドの一般化 ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real Novel View Synthesis via Contrastive Learning ( http://arxiv.org/abs/2303.11052v3 ) ライセンス: Link先を確認 | Hao Yang, Lanqing Hong, Aoxue Li, Tianyang Hu, Zhenguo Li, Gim Hee Lee, Liwei Wang | (参考訳) 最近の多くの研究は、見えないシーンに対する一般化可能なNeRFベースの新規ビュー合成を研究しているが、多くの実践的応用において望まれる合成から現実への一般化はめったに考えられない。
本研究では,合成データを用いた新しい視点合成における合成データの効果を最初に検討し,合成データで学習されたモデルがよりシャープだが正確な体積密度を生み出す傾向があることを驚くほど観察した。
ボリューム密度が正しい画素については、細かな詳細情報が得られる。
そうでなければ、深刻な人工物が生産される。
本稿では,そのネガティブな効果を回避しつつ,合成データを用いる利点を維持するために,幾何学的制約を伴う多視点一貫した特徴を学習するために,幾何認識型コントラスト学習を導入することを提案する。
また,入力ビューにまたがる特徴を問合せすることで,特徴の幾何学的知覚をさらに高めるために,クロスビューに着目した。
提案手法は,PSNR,SSIM,LPIPSの手法により,より高品質で詳細な画像の描画が可能であり,既存の一般化可能な新規ビュー合成手法よりも優れていることを示す。
実データでトレーニングすると,本手法は最先端の結果も得る。 Although many recent works have investigated generalizable NeRF-based novel view synthesis for unseen scenes, they seldom consider the synthetic-to-real generalization, which is desired in many practical applications. In this work, we first investigate the effects of synthetic data in synthetic-to-real novel view synthesis and surprisingly observe that models trained with synthetic data tend to produce sharper but less accurate volume densities. For pixels where the volume densities are correct, fine-grained details will be obtained. Otherwise, severe artifacts will be produced. To maintain the advantages of using synthetic data while avoiding its negative effects, we propose to introduce geometry-aware contrastive learning to learn multi-view consistent features with geometric constraints. Meanwhile, we adopt cross-view attention to further enhance the geometry perception of features by querying features across input views. Experiments demonstrate that under the synthetic-to-real setting, our method can render images with higher quality and better fine-grained details, outperforming existing generalizable novel view synthesis methods in terms of PSNR, SSIM, and LPIPS. When trained on real data, our method also achieves state-of-the-art results. | 翻訳日:2023-06-26 17:05:34 公開日:2023-06-23 |
# 動的デカップリング列を用いたcs量子ビットの環境計測 Measuring the environment of a Cs qubit with dynamical decoupling sequences ( http://arxiv.org/abs/2303.06983v3 ) ライセンス: Link先を確認 | Sabrina Burgardt, Simon B. J\"ager, Julian Fe{\ss}, Silvia Hiebel, Imke Schneider, Artur Widera | (参考訳) 最大25個の光捕捉型中性cs原子からなる非相互作用アンサンブル上での動的デカップリングの実験的実装について報告する。
量子ビットは、2つの磁気非感受性csクロック状態である$\left|f=3, m_f=0 \right>$と$\left|f=4, m_f=0\right>$からなる。
Carr-Purcell-Meiboom-Gill (CPMG) 動的疎結合を用いた場合のコヒーレンス時間を大幅に向上させる。
10個の再焦点パルスを持つcpmgシーケンスは16.2(9)msのコヒーレンス時間を1桁以上178(2)msに増加させ、さらにフィルタ関数形式を利用し、cpmgシーケンスを用いてクビットコヒーレンスに影響する背景雑音床を測定し、パワーローノイズスペクトル $1/\omega^\alpha$ with $\mathit{\alpha} = 0.89(2)$を求める。
この発見は、トラップレーザーの強度におけるノイズの独立測定と非常によく一致している。
さらに、測定されたコヒーレンス進化は、異なる周波数で発生する低周波雑音の符号も示している。
以上の結果から,超低温の$^{87}$Rb浴に浸漬した個々のCs不純物系の単一原子ダイナミックデカップリングによる原子浴のノイズスペクトルが示唆された。 We report the experimental implementation of dynamical decoupling on a small, non-interacting ensemble of up to 25 optically trapped, neutral Cs atoms. The qubit consists of the two magnetic-insensitive Cs clock states $\left| F=3, m_F=0 \right>$ and $\left|F=4, m_F=0\right>$, which are coupled by microwave radiation. We observe a significant enhancement of the coherence time when employing Carr-Purcell-Meiboom-Gill (CPMG) dynamical decoupling. A CPMG sequence with ten refocusing pulses increases the coherence time of 16.2(9) ms by more than one order of magnitude to 178(2) ms. In addition, we make use of the filter function formalism and utilize the CPMG sequence to measure the background noise floor affecting the qubit coherence, finding a power-law noise spectrum $1/\omega^\alpha$ with $\mathit{\alpha} = 0.89(2)$. This finding is in very good agreement with an independent measurement of the noise in the intensity of the trapping laser. Moreover, the measured coherence evolutions also exhibit signatures of low-frequency noise originating at distinct frequencies. Our findings point toward noise spectroscopy of engineered atomic baths through single-atom dynamical decoupling in a system of individual Cs impurities immersed in an ultracold $^{87}$Rb bath. | 翻訳日:2023-06-26 17:05:12 公開日:2023-06-23 |
# SC-Block: エンティティ解決パイプライン内でのコントラストブロックの監視 SC-Block: Supervised Contrastive Blocking within Entity Resolution Pipelines ( http://arxiv.org/abs/2303.03132v2 ) ライセンス: Link先を確認 | Alexander Brinkmann, Roee Shraga, Christian Bizer | (参考訳) エンティティ解決の目標は、同じ現実世界のエンティティを表す複数のデータセット内のレコードを識別することだ。
しかし、データセットをまたいだすべてのレコードを比較することは計算集約的であり、長いランタイムに繋がる。
これらのランタイムを削減するために、エンティティレゾリューションパイプラインは2つの部分で構成されている: 候補レコードペアを選択するために計算コストの安いメソッドを適用するブロッカーと、より高価なメソッドを使用してこのセットからマッチングペアを識別するmatcherである。
本稿では,組込み空間における記録の位置決めに教師付きコントラスト学習を利用するブロック手法であるsc-blockと,候補集合ビルの近接探索を提案する。
SC-Blockを8つの最先端のブロッキング手法と比較した。
SC-Blockのトレーニング時間とエンティティ分解パイプライン全体の実行時間の短縮を関連付けるため、SC-Blockと4つのマッチングメソッドを完全なパイプラインに組み合わせる。
全体の実行時間を測定するため、99.5%の完全性を持つ候補集合を決定し、それらをマーカに渡す。
その結果、SC-Blockは、F1スコアを犠牲にすることなく、SC-Blockが他のブロッカを持つパイプラインに比べて1.5倍から2倍高速に実行できることがわかった。
ブロッカは比較的小さなデータセットを使用して評価されることが多い。
より困難な環境でランタイムを測定するために、多数の製品の提供をブロックする必要がある新しいベンチマークデータセットを導入します。
この大規模なベンチマークデータセットでは、SC-Blockと最高のパフォーマンスのマーカを使用するパイプラインは、同じマーカを持つ別のブロッカを使用するパイプラインよりも8倍高速に実行され、ランタイムを2.5時間から18分に短縮する。 The goal of entity resolution is to identify records in multiple datasets that represent the same real-world entity. However, comparing all records across datasets can be computationally intensive, leading to long runtimes. To reduce these runtimes, entity resolution pipelines are constructed of two parts: a blocker that applies a computationally cheap method to select candidate record pairs, and a matcher that afterwards identifies matching pairs from this set using more expensive methods. This paper presents SC-Block, a blocking method that utilizes supervised contrastive learning for positioning records in the embedding space, and nearest neighbour search for candidate set building. We benchmark SC-Block against eight state-of-the-art blocking methods. In order to relate the training time of SC-Block to the reduction of the overall runtime of the entity resolution pipeline, we combine SC-Block with four matching methods into complete pipelines. For measuring the overall runtime, we determine candidate sets with 99.5% pair completeness and pass them to the matcher. The results show that SC-Block is able to create smaller candidate sets and pipelines with SC-Block execute 1.5 to 2 times faster compared to pipelines with other blockers, without sacrificing F1 score. Blockers are often evaluated using relatively small datasets which might lead to runtime effects resulting from a large vocabulary size being overlooked. In order to measure runtimes in a more challenging setting, we introduce a new benchmark dataset that requires large numbers of product offers to be blocked. On this large-scale benchmark dataset, pipelines utilizing SC-Block and the best-performing matcher execute 8 times faster than pipelines utilizing another blocker with the same matcher reducing the runtime from 2.5 hours to 18 minutes, clearly compensating for the 5 minutes required for training SC-Block. | 翻訳日:2023-06-26 17:04:44 公開日:2023-06-23 |
# マルコフサンプリングスキームにおける確率的勾配の沈み込み Stochastic Gradient Descent under Markovian Sampling Schemes ( http://arxiv.org/abs/2302.14428v3 ) ライセンス: Link先を確認 | Mathieu Even | (参考訳) 最適化器がマルコフ型サンプリング方式にのみアクセス可能なバニラ確率勾配勾配の変動について検討する。
これらのスキームは、ランダムウォーカによる分散最適化(トークンアルゴリズム)から、RLおよびオンラインシステム識別問題まで幅広い応用を含んでいる。
下位のマルコフ連鎖と最適化された関数に可能な最小制限条件下での収束率の獲得に着目する。
まず,マルコフ連鎖の経路に沿った確率的勾配をサンプリングし,マルコフ連鎖の衝突時間の依存性を表わす手法の理論的下限を明らかにした。
次に、マルコフ連鎖 SGD (MC-SGD) を以前の作品(例えば、有界勾配や領域、無限状態空間)よりも遥かに穏やかな正則性仮定の下で研究する。
最終的に MC-SGD の代替として MC-SAG を導入し,マルコフ連鎖の打上げ時間にのみ依存するため,通信効率のよいトークンアルゴリズムが得られた。 We study a variation of vanilla stochastic gradient descent where the optimizer only has access to a Markovian sampling scheme. These schemes encompass applications that range from decentralized optimization with a random walker (token algorithms), to RL and online system identification problems. We focus on obtaining rates of convergence under the least restrictive assumptions possible on the underlying Markov chain and on the functions optimized. We first unveil the theoretical lower bound for methods that sample stochastic gradients along the path of a Markov chain, making appear a dependency in the hitting time of the underlying Markov chain. We then study Markov chain SGD (MC-SGD) under much milder regularity assumptions than prior works (e.g., no bounded gradients or domain, and infinite state spaces). We finally introduce MC-SAG, an alternative to MC-SGD with variance reduction, that only depends on the hitting time of the Markov chain, therefore obtaining a communication-efficient token algorithm. | 翻訳日:2023-06-26 17:04:09 公開日:2023-06-23 |
# 単一物体追跡における変圧器 : 実験的検討 Transformers in Single Object Tracking: An Experimental Survey ( http://arxiv.org/abs/2302.11867v3 ) ライセンス: Link先を確認 | Janani Thangavel, Thanikasalam Kokul, Amirthalingam Ramanan, and Subha Fernando | (参考訳) シングルオブジェクトトラッキングはコンピュータビジョンにおいてよく知られ、挑戦的な研究トピックである。
過去20年間、多くの研究者がこの問題を解くために様々なアルゴリズムを提案し、有望な結果を得た。
近年,トランスフォーマーをベースとしたトラッキング手法は,新たな視点を導入し,より優れたトラッキングロバスト性を実現することで,単一対象追跡の新しい時代を幕開けている。
本稿では,CNN-Transformerベースのトラッカー,2ストリームフルトランスフォーマーベースのトラッカー,ワンストリームワンステージフルトランスフォーマーベースのトラッカーに分類することで,トランスフォーマートラッキング手法の詳細な文献解析を行う。
さらに, 公開されているベンチマークデータセットを用いて, トラッキングの堅牢性と計算効率を評価する実験を行った。
さらに,特定の状況における強みや弱みを識別するために,異なる追跡シナリオにおける性能を測定した。
私たちの調査は、トランスフォーマー追跡アプローチの基盤となる原則、遭遇する課題、今後の方向性に関する洞察を提供します。 Single-object tracking is a well-known and challenging research topic in computer vision. Over the last two decades, numerous researchers have proposed various algorithms to solve this problem and achieved promising results. Recently, Transformer-based tracking approaches have ushered in a new era in single-object tracking by introducing new perspectives and achieving superior tracking robustness. In this paper, we conduct an in-depth literature analysis of Transformer tracking approaches by categorizing them into CNN-Transformer based trackers, Two-stream Two-stage fully-Transformer based trackers, and One-stream One-stage fully-Transformer based trackers. In addition, we conduct experimental evaluations to assess their tracking robustness and computational efficiency using publicly available benchmark datasets. Furthermore, we measure their performances on different tracking scenarios to identify their strengths and weaknesses in particular situations. Our survey provides insights into the underlying principles of Transformer tracking approaches, the challenges they encounter, and the future directions they may take. | 翻訳日:2023-06-26 17:03:49 公開日:2023-06-23 |
# DVFO:エネルギー効率の良いエッジクラウド協調推論のための学習ベースDVFS DVFO: Learning-Based DVFS for Energy-Efficient Edge-Cloud Collaborative Inference ( http://arxiv.org/abs/2306.01811v3 ) ライセンス: Link先を確認 | Ziyang Zhang, Yang Zhao, Huan Li, Changyao Lin, and Jie Liu | (参考訳) エッジ上の限られたリソースとディープニューラルネットワーク(DNN)モデルの特徴のため、エッジデバイスにおけるエネルギー消費とエンドツーエンドレイテンシの観点から、DNN推論性能を最適化することは大きな課題である。
動的電圧周波数スケーリング(DVFS)技術に加えて、エッジクラウドアーキテクチャは効率的なDNN推論のための協調的なアプローチを提供する。
しかし、現在のエッジクラウド協調推論手法は、エッジデバイス上で様々な計算資源を最適化していない。
そこで本稿では,dvfsとオフロードパラメータをdrl(deep reinforcement learning)で共最適化する,新しいdvfs対応エッジクラウド協調推論フレームワークであるdvfoを提案する。
具体的には、DVFOが自動的に最適化する
1)エッジデバイスのcpu、gpu、メモリ周波数、及び
2) 機能マップはクラウドサーバにオフロードされる。
さらに、DRL学習プロセスの高速化のための思考時移動同時機構と、ワークロードオフロードにおいて重要なDNN特徴マップを抽出する空間チャネルアテンション機構を活用する。
このアプローチは、様々なエッジクラウドネットワーク条件下で異なるDNNモデルの推論性能を改善する。
3つの異種エッジデバイス上での2つのデータセットと6つの広くデプロイされたDNNモデルによる広範囲な評価は、DVFOが最先端のスキームと比較して平均して33%のエネルギー消費を著しく減少させることを示している。
さらに、DVFOは最大28.6%-59.1%のレイテンシ削減を実現し、平均して1%の損失の精度を維持している。 Due to limited resources on edge and different characteristics of deep neural network (DNN) models, it is a big challenge to optimize DNN inference performance in terms of energy consumption and end-to-end latency on edge devices. In addition to the dynamic voltage frequency scaling (DVFS) technique, the edge-cloud architecture provides a collaborative approach for efficient DNN inference. However, current edge-cloud collaborative inference methods have not optimized various compute resources on edge devices. Thus, we propose DVFO, a novel DVFS-enabled edge-cloud collaborative inference framework, which co-optimizes DVFS and offloading parameters via deep reinforcement learning (DRL). Specifically, DVFO automatically co-optimizes 1) the CPU, GPU and memory frequencies of edge devices, and 2) the feature maps to be offloaded to cloud servers. In addition, it leverages a thinking-while-moving concurrent mechanism to accelerate the DRL learning process, and a spatial-channel attention mechanism to extract DNN feature maps of secondary importance for workload offloading. This approach improves inference performance for different DNN models under various edge-cloud network conditions. Extensive evaluations using two datasets and six widely-deployed DNN models on three heterogeneous edge devices show that DVFO significantly reduces the energy consumption by 33% on average, compared to state-of-the-art schemes. Moreover, DVFO achieves up to 28.6%-59.1% end-to-end latency reduction, while maintaining accuracy within 1% loss on average. | 翻訳日:2023-06-26 16:55:20 公開日:2023-06-23 |
# mlに基づく不安検出における騒音の影響の比較研究 Comparative Study on the Effects of Noise in ML-Based Anxiety Detection ( http://arxiv.org/abs/2306.01110v2 ) ライセンス: Link先を確認 | Samuel Schapiro, Abdul Alkurdi, Elizabeth Hsiao-Wecksler | (参考訳) ウェアラブルな健康デバイスは、継続的かつ非侵襲的な遠隔監視の新時代を支えている。
この技術の応用の一つは不安検出である。
コントロールされたラボ環境では、不安検出の多くの進歩が起きているが、ノイズはこれらの進歩が現実の状況に一般化することを妨げている。
我々は,騒音がモデル性能に与える影響を検証し,ノイズの多い実環境にロバストなモデルを開発し,それゆえ日常生活の混乱に合わせたモデルを開発することにより,この分野の進展を目指す。
本研究では,従来の手法が失敗した理由と方法を検討する。
ウェアラブルストレスと影響検出(wesad)データセットを用いて,3つの分類問題における生理的覚醒レベルを分類する機械学習モデルに対する,さまざまなノイズ強度の影響を比較した。
ノイズを導入する前に、私たちのベースラインモデルのパフォーマンスは98.7%に達し、schmidt 2018の80.3%と比較した。
本稿では,特徴抽出とモデルアーキテクチャの選択を慎重に評価することで,この相違点の可能性について論じる。
最後に、ノイズの導入後、各モデルアーキテクチャに対するノイズの影響を徹底的に分析する。 Wearable health devices are ushering in a new age of continuous and noninvasive remote monitoring. One application of this technology is in anxiety detection. Many advancements in anxiety detection have happened in controlled lab settings, but noise prevents these advancements from generalizing to real-world conditions. We seek to progress the field by studying how noise impacts model performance and developing models that are robust to noisy, real-world conditions and, hence, attuned to the commotion of everyday life. In this study we look to investigate why and how previous methods have failed. Using the wearable stress and affect detection (WESAD) dataset, we compare the effect of various intensities of noise on machine learning models classifying levels of physiological arousal in the three-class classification problem: baseline vs. stress vs. amusement. Before introducing noise, our baseline model performance reaches 98.7%, compared to Schmidt 2018's 80.3%. We discuss potential sources of this discrepancy in results through a careful evaluation of feature extraction and model architecture choices. Finally, after the introduction of noise, we provide a thorough analysis of the effect of noise on each model architecture. | 翻訳日:2023-06-26 16:54:51 公開日:2023-06-23 |
# 霧環境における予測複製のための運動の時間的側面の予測 Predicting Temporal Aspects of Movement for Predictive Replication in Fog Environments ( http://arxiv.org/abs/2306.00575v3 ) ライセンス: Link先を確認 | Emil Balitzki and Tobias Pfandzelter and David Bermbach | (参考訳) フォグ環境の利点を十分に活用するには,データローカリティの効率的な管理が不可欠である。
ブラインドあるいはリアクティブなデータレプリケーションは、フォグコンピューティングの可能性を生かし、クライアントが接続する場所とタイミングを予測するためのより高度なテクニックを必要とする。
空間的予測はかなり注目されているが、時間的予測は未定である。
本稿では,既存の空間予測モデルに時間的予測を組み込むことの利点を検討することで,このギャップに対処する。
また,予測レプリケーションの文脈において,ディープニューラルネットワークやマルコフモデルといった時空間予測モデルの包括的解析を行う。
本稿では,逐次および周期的ユーザ移動パターンを活用した時間予測のためのholt-winterの指数的平滑化を用いた新しいモデルを提案する。
実際のユーザトラジェクトリによるフォグネットワークシミュレーションでは,データ利用率を1%に抑えながら,過剰データの15%削減を実現している。 To fully exploit the benefits of the fog environment, efficient management of data locality is crucial. Blind or reactive data replication falls short in harnessing the potential of fog computing, necessitating more advanced techniques for predicting where and when clients will connect. While spatial prediction has received considerable attention, temporal prediction remains understudied. Our paper addresses this gap by examining the advantages of incorporating temporal prediction into existing spatial prediction models. We also provide a comprehensive analysis of spatio-temporal prediction models, such as Deep Neural Networks and Markov models, in the context of predictive replication. We propose a novel model using Holt-Winter's Exponential Smoothing for temporal prediction, leveraging sequential and periodical user movement patterns. In a fog network simulation with real user trajectories our model achieves a 15% reduction in excess data with a marginal 1% decrease in data availability. | 翻訳日:2023-06-26 16:54:34 公開日:2023-06-23 |
# 系列ラベル強化のためのBiLSTMの補助的特徴 Supplementary Features of BiLSTM for Enhanced Sequence Labeling ( http://arxiv.org/abs/2305.19928v4 ) ライセンス: Link先を確認 | Conglei Xu, Kun Shen, Hongguang Sun | (参考訳) シーケンスラベリングタスクは、与えられた文内の各単語に対する文表現の計算を必要とする。
一般的な方法は、双方向長短短期記憶(bilstm)層を組み込んでシーケンス構造情報を強化する。
しかし、Li (2020) は、シーケンスラベリングタスクの文表現を生成する BiLSTM の能力は本質的に制限されていることを示唆している。
この制限は主に、完全な文表現を定式化するために過去と将来の文表現からの断片の統合によって生じる。
本研究では,BiLSTMの第1および第2の細胞にみられる全文表現が,各細胞の個々の文表現を補うことができることを示した。
そこで我々は,BILSTMフレームワーク内の各セルの文表現に未来と過去の文表現を統合するグローバルコンテキスト機構を考案した。
BiLSTMにBERTモデルを組み込んで、名前付きエンティティ認識(NER)、音声(POS)タグ付けの一部、エンドツーエンドのアスペクトベース感情分析(E2E-ABSA)など、シーケンスラベリングタスクの9つのデータセットに対して、徹底的な実験を行う。
調査対象の全データセットに対して,F1スコアと精度が大幅に向上した。 Sequence labeling tasks require the computation of sentence representations for each word within a given sentence. A prevalent method incorporates a Bi-directional Long Short-Term Memory (BiLSTM) layer to enhance the sequence structure information. However, empirical evidence Li (2020) suggests that the capacity of BiLSTM to produce sentence representations for sequence labeling tasks is inherently limited. This limitation primarily results from the integration of fragments from past and future sentence representations to formulate a complete sentence representation. In this study, we observed that the entire sentence representation, found in both the first and last cells of BiLSTM, can supplement each the individual sentence representation of each cell. Accordingly, we devised a global context mechanism to integrate entire future and past sentence representations into each cell's sentence representation within the BiLSTM framework. By incorporating the BERT model within BiLSTM as a demonstration, and conducting exhaustive experiments on nine datasets for sequence labeling tasks, including named entity recognition (NER), part of speech (POS) tagging, and End-to-End Aspect-Based sentiment analysis (E2E-ABSA). We noted significant improvements in F1 scores and accuracy across all examined datasets. | 翻訳日:2023-06-26 16:54:18 公開日:2023-06-23 |
# Bayesian Implicit Neural Representation による圧縮 Compression with Bayesian Implicit Neural Representations ( http://arxiv.org/abs/2305.19185v2 ) ライセンス: Link先を確認 | Zongyu Guo, Gergely Flamich, Jiajun He, Zhibo Chen, Jos\'e Miguel Hern\'andez-Lobato | (参考訳) 多くの一般的なデータ型は、ピクセルの位置や画像の場合のrgb値など、座標を信号値にマッピングする関数として表現することができる。
このビューに基づいて、コンパクトニューラルネットワークを機能表現に過度に適合させ、ネットワーク重みを符号化することで、データを圧縮することができる。
しかし、現在のソリューションのほとんどは非効率であり、低ビット精度への量子化は再構成品質を実質的に低下させる。
この問題に対処するために、変分ベイズニューラルネットワークをデータに適用し、量子化やエントロピー符号化の代わりに相対エントロピー符号化を用いて近似後重みサンプルを圧縮する手法を提案する。
この戦略により、$\beta$-elboを最小化し、$\beta$を調整して所定のネットワークアーキテクチャの異なるレートディストリクトトレードオフを目標とするレートディストリクト性能の直接最適化が可能になる。
さらに, 先行体重分布を学習するための反復アルゴリズムを導入し, 変動後方の漸進的改良プロセスを採用し, 性能を著しく向上させる。
実験により,本手法は単純さを維持しつつ,画像および音声の圧縮に強い性能を発揮することが示された。 Many common types of data can be represented as functions that map coordinates to signal values, such as pixel locations to RGB values in the case of an image. Based on this view, data can be compressed by overfitting a compact neural network to its functional representation and then encoding the network weights. However, most current solutions for this are inefficient, as quantization to low-bit precision substantially degrades the reconstruction quality. To address this issue, we propose overfitting variational Bayesian neural networks to the data and compressing an approximate posterior weight sample using relative entropy coding instead of quantizing and entropy coding it. This strategy enables direct optimization of the rate-distortion performance by minimizing the $\beta$-ELBO, and target different rate-distortion trade-offs for a given network architecture by adjusting $\beta$. Moreover, we introduce an iterative algorithm for learning prior weight distributions and employ a progressive refinement process for the variational posterior that significantly enhances performance. Experiments show that our method achieves strong performance on image and audio compression while retaining simplicity. | 翻訳日:2023-06-26 16:53:55 公開日:2023-06-23 |
# ガイドアテンションによる次のアクティブオブジェクトベースエゴセントリックアクション予測の強化 Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention ( http://arxiv.org/abs/2305.12953v2 ) ライセンス: Link先を確認 | Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue | (参考訳) ファーストパーソンビデオにおける短期的アクション予測(STA)は、次のアクティブなオブジェクトインタラクションを理解し、将来のアクションを予測することを含む、困難なタスクである。
既存のアクション予測手法は、主にビデオクリップから抽出された機能を活用することに重点を置いているが、しばしばオブジェクトとその相互作用の重要性を見逃していた。
そこで本研究では,オブジェクト間の注意機構とビデオクリップから抽出した時空間的特徴を導出し,動きと文脈情報を強化し,さらにオブジェクト中心と動き中心の情報をデコードして,自己中心型ビデオにおけるSTAの問題に対処する手法を提案する。
GANO(Guided Attention for Next Active Objects)はマルチモーダルでエンドツーエンドのシングルトランスベースのネットワークである。
その結果、GANOは次のアクティブなオブジェクトラベルの予測方法、そのバウンディングボックスの位置、対応する将来のアクション、そしてオブジェクトに接触する時間において、既存の最先端メソッドよりも優れていることが示された。
アブレーション研究は,他の核融合法と比較して誘導注意機構の正の寄与を示した。
さらに、学習可能なオブジェクトトークンを興味のある埋め込み領域に付加するだけで、ganoの次のアクティブオブジェクトロケーションとクラスラベル予測結果を改善することができる。 Short-term action anticipation (STA) in first-person videos is a challenging task that involves understanding the next active object interactions and predicting future actions. Existing action anticipation methods have primarily focused on utilizing features extracted from video clips, but often overlooked the importance of objects and their interactions. To this end, we propose a novel approach that applies a guided attention mechanism between the objects, and the spatiotemporal features extracted from video clips, enhancing the motion and contextual information, and further decoding the object-centric and motion-centric information to address the problem of STA in egocentric videos. Our method, GANO (Guided Attention for Next active Objects) is a multi-modal, end-to-end, single transformer-based network. The experimental results performed on the largest egocentric dataset demonstrate that GANO outperforms the existing state-of-the-art methods for the prediction of the next active object label, its bounding box location, the corresponding future action, and the time to contact the object. The ablation study shows the positive contribution of the guided attention mechanism compared to other fusion methods. Moreover, it is possible to improve the next active object location and class label prediction results of GANO by just appending the learnable object tokens with the region of interest embeddings. | 翻訳日:2023-06-26 16:53:35 公開日:2023-06-23 |
# 非エルミート系における点ギャップ境界状態 Point-Gap Bound States in Non-Hermitian Systems ( http://arxiv.org/abs/2305.11227v2 ) ライセンス: Link先を確認 | Zixi Fang, Chen Fang, and Kai Zhang | (参考訳) 本稿では,1次元非エルミート系における不純物誘起境界状態について系統的に検討する。
不純物ポテンシャルと有界エネルギーの正確な関係を確立することにより、各点エネルギーギャップ内の有界状態を生成するために必要な最小不純物ポテンシャルを決定する。
ブロッホ・サドル点の欠如は不純物ポテンシャルの有限しきい値を必要とすることを示し、そうでなければ無限小不純物ポテンシャルは境界状態を生成する。
さらに、非零スペクトル巻線を持つ点ギャップに存在する境界状態は境界条件に感度を示し、境界が開いているときにエッジに向かって絞り込まれることを示し、点-ギャップトポロジーの観点からはバルク-バウンダリー対応を示す。 In this paper, we systematically investigate the impurity-induced bound states in 1D non-Hermitian systems. By establishing an exact relationship between impurity potential and bound-state energy, we determine the minimum impurity potential required to generate bound states within each point energy gap. We demonstrate that the absence of Bloch saddle points necessitates a finite threshold of impurity potential; otherwise, infinitesimal impurity potential can create bound states. Furthermore, we show that the bound states residing in the point gaps with nonzero spectral winding exhibit sensitivity to boundary conditions and will be squeezed towards the edges when the boundaries are opened, indicating the bulk-boundary correspondence in terms of point-gap topology. | 翻訳日:2023-06-26 16:53:10 公開日:2023-06-23 |
# 量子超越性の最も単純なモデルに向けて:-ボックストラップにおける原子ボゾンサンプリング Towards the simplest model of quantum supremacy: Atomic boson sampling in a box trap ( http://arxiv.org/abs/2305.08320v2 ) ライセンス: Link先を確認 | V. V. Kocharovsky, Vl. V. Kocharovsky, W. D. Shannon, S. V. Tarasov | (参考訳) 箱トラップに閉じ込められたボース・アインシュタイン凝縮(BEC)ガスの非凝縮分から相互作用する原子のボソンサンプリングを,多体系の計算#P硬度と量子超越性を研究するための新しいプラットフォームとして記述する。
新たに発見されたハフニアンマスター定理を用いて原子数の特性関数と統計量を計算する。
ブロッホ・メシア還元法を用いて、原子間相互作用は、サンプリング原子状態と相互作用する固有-スクイーズモードと固有-エネルギー準粒子の2つの等しく重要な物質がBECガスの挙動を決定する。
ガス中では,#p硬さの成分であるスクイーズと干渉の2つが自己生成しており,線形干渉計ではガウスボソンサンプリングとは対照的に,圧縮ボソンの外部源は不要である。 We describe boson sampling of interacting atoms from the noncondensed fraction of Bose-Einstein-condensed (BEC) gas confined in a box trap as a new platform for studying computational #P-hardness and quantum supremacy of many-body systems. We calculate the characteristic function and statistics of atom numbers via newly found hafnian master theorem. Using Bloch-Messiah reduction, we find that interatomic interactions give rise to two equally important entities - eigen-squeeze modes and eigen-energy quasiparticles - whose interplay with sampling atom states determines behavior of the BEC gas. We infer that two necessary ingredients of #P-hardness, squeezing and interference, are self-generated in the gas and, contrary to Gaussian boson sampling in linear interferometers, external sources of squeezed bosons are not required. | 翻訳日:2023-06-26 16:52:55 公開日:2023-06-23 |
# 量子秘密共有における新しい量子アドバンテージ A New Quantum Advantage in Quantum Secret Sharing ( http://arxiv.org/abs/2305.06062v2 ) ライセンス: Link先を確認 | Pahulpreet Singh, Indranil Chakrabarty | (参考訳) 本稿では,三成分状態の古典的限界を求め,再構成忠実性について閉じた表現を与えることにより,量子秘密共有のための資源特性化の過程をベンチマークする。
真の三部関係と、ディーラーと再構築者の間の二部チャネルの両方に依存する。
これにより、トリパーティイトリソース状態で得られる量子的優位性を予測できます。
この論文のもう一つの重要な貢献は、テレポーテーションとシークレットシェアリングの新しい相互運用性を見つけることである。 In this letter, we benchmark the process of resource characterisation for quantum secret sharing by obtaining the classical limit for the tripartite situation and then giving a closed expression for reconstruction fidelity. It depends on both the genuine tripartite correlation and the bipartite channel between the dealer and the reconstructor. This helps us to predict any quantum advantage we can have with tripartite resource states. Another paramount contribution of this paper is finding new interoperability between teleportation and secret sharing, which opens up new research avenues. | 翻訳日:2023-06-26 16:52:36 公開日:2023-06-23 |
# GIMLET:授業に基づくゼロショット学習のための統一グラフテキストモデル GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule Zero-Shot Learning ( http://arxiv.org/abs/2306.13089v2 ) ライセンス: Link先を確認 | Haiteng Zhao, Shengchao Liu, Chang Ma, Hannan Xu, Jie Fu, Zhi-Hong Deng, Lingpeng Kong, Qi Liu | (参考訳) 近年,分子特性の予測が注目されている。
主なボトルネックは、高価な実験実験によるラベルの不足である。
本研究は、この問題を緩和し、タスクのテキスト知識をより活用するために、ゼロショット設定で分子関連タスクを達成するために自然言語命令を用いることの可能性を検討する。
既存の分子テキストモデルは,命令の不適切な処理やグラフのキャパシティの制限などにより,この設定では性能に乏しいことが判明した。
これらの問題を解決するために,グラフデータとテキストデータの言語モデルを統合するGIMLETを提案する。
一般化された位置埋め込みを採用することにより、我々のモデルはグラフ構造と命令文の両方を追加のグラフ符号化モジュールなしでエンコードするように拡張される。
GIMLETはまた、アテンションメカニズムのタスク命令からグラフのエンコーディングを分離し、新しいタスク間のグラフ機能の一般化を強化する。
我々は、タスク記述から派生した命令を含む、2,000分子以上のタスクからなるデータセットを構築する。
我々は、GIMLETを分子タスクにプリトレーニングし、命令とともにモデルが幅広いタスクに効果的に転送できるようにする。
実験の結果、gimletは命令ベースのゼロショット学習において分子テキストベースラインを大きく上回り、toxcastやmmvなどのタスクでgnnモデルを監督する閉じた結果を得ることができた。 Molecule property prediction has gained significant attention in recent years. The main bottleneck is the label insufficiency caused by expensive lab experiments. In order to alleviate this issue and to better leverage textual knowledge for tasks, this study investigates the feasibility of employing natural language instructions to accomplish molecule-related tasks in a zero-shot setting. We discover that existing molecule-text models perform poorly in this setting due to inadequate treatment of instructions and limited capacity for graphs. To overcome these issues, we propose GIMLET, which unifies language models for both graph and text data. By adopting generalized position embedding, our model is extended to encode both graph structures and instruction text without additional graph encoding modules. GIMLET also decouples encoding of the graph from tasks instructions in the attention mechanism, enhancing the generalization of graph features across novel tasks. We construct a dataset consisting of more than two thousand molecule tasks with corresponding instructions derived from task descriptions. We pretrain GIMLET on the molecule tasks along with instructions, enabling the model to transfer effectively to a broad range of tasks. Experimental results demonstrate that GIMLET significantly outperforms molecule-text baselines in instruction-based zero-shot learning, even achieving closed results to supervised GNN models on tasks such as toxcast and muv. | 翻訳日:2023-06-26 16:47:14 公開日:2023-06-23 |
# 多変量データを用いたボラティリティ予測課題に対するディープラーニングモデルの比較 Comparing Deep Learning Models for the Task of Volatility Prediction Using Multivariate Data ( http://arxiv.org/abs/2306.12446v2 ) ライセンス: Link先を確認 | Wenbo Ge, Pooia Lalbakhsh, Leigh Isai, Artem Lensky, Hanna Suominen | (参考訳) 本研究では,多変量データを用いたボラティリティ予測作業において,複数の深層学習に基づく予測器を比較した。
論文は、よりシンプルで浅いものから、より深く、より複雑なアーキテクチャへの進歩まで、さまざまなモデルを評価します。
さらに、これらのモデルの性能は、古典的なGARCHモデルの単純な予測とバリエーションと比較される。
s&p500、nasdaq100、ゴールド、シルバー、オイルの5つの資産のボラティリティの予測は、ガーチモデル、多層パーセプトロン、リカレントニューラルネットワーク、時間的畳み込みネットワーク、時間的核融合トランスフォーマを使用して特に研究されている。
大部分のケースでは、時間的融合トランスフォーマーが続き、時間的畳み込みネットワークの変種が古典的アプローチや浅いネットワークよりも優れていた。
これらの実験は繰り返し行われ, 両モデル間の差は統計的に有意であり, 実用的応用への強い助長が得られた。 This study aims to compare multiple deep learning-based forecasters for the task of predicting volatility using multivariate data. The paper evaluates a range of models, starting from simpler and shallower ones and progressing to deeper and more complex architectures. Additionally, the performance of these models is compared against naive predictions and variations of classical GARCH models. The prediction of volatility for five assets, namely S&P500, NASDAQ100, gold, silver, and oil, is specifically addressed using GARCH models, Multi-Layer Perceptrons, Recurrent Neural Networks, Temporal Convolutional Networks, and the Temporal Fusion Transformer. In the majority of cases, the Temporal Fusion Transformer, followed by variants of the Temporal Convolutional Network, outperformed classical approaches and shallow networks. These experiments were repeated, and the differences observed between the competing models were found to be statistically significant, thus providing strong encouragement for their practical application. | 翻訳日:2023-06-26 16:46:41 公開日:2023-06-23 |
# 油圧機械遠隔操作のための強化学習型仮想固定器 Reinforcement Learning-based Virtual Fixtures for Teleoperation of Hydraulic Construction Machine ( http://arxiv.org/abs/2306.11897v2 ) ライセンス: Link先を確認 | Hyung Joo Lee and Sigrid Brell-Cokcan | (参考訳) 遠隔操作の利用は、オペレーターが遠隔地から安全に機械を制御できるため、建設業界にとって重要な側面である。
しかし、個々のジョイスティックを用いた遠隔操作は、操作者の多自由度による熟練度を達成するための広範な訓練を必要とする。
さらに、マシンの動作の検証は実行後にのみ可能であり、最適な制御が困難になる。
本研究は,タスクパフォーマンスを最適化するための強化学習に基づくアプローチを提案する。
学習を通じて獲得した制御ポリシーは、複数の関節を効率的に制御および調整するための指示を与えるために使用される。
提案手法の有効性を評価するために, 掘削孔にチゼルを挿入する典型的な施工作業において, その性能を評価することにより, brokk 170建設機械を用いてユーザ調査を行う。
提案フレームワークの有効性は,仮想フィクスチャの有無における参加者のパフォーマンスを比較して評価した。
本研究は,建設業における遠隔操作の促進に向けた枠組みの可能性を示すものである。 The utilization of teleoperation is a crucial aspect of the construction industry, as it enables operators to control machines safely from a distance. However, remote operation of these machines at a joint level using individual joysticks necessitates extensive training for operators to achieve proficiency due to their multiple degrees of freedom. Additionally, verifying the machine resulting motion is only possible after execution, making optimal control challenging. In addressing this issue, this study proposes a reinforcement learning-based approach to optimize task performance. The control policy acquired through learning is used to provide instructions on efficiently controlling and coordinating multiple joints. To evaluate the effectiveness of the proposed framework, a user study is conducted with a Brokk 170 construction machine by assessing its performance in a typical construction task involving inserting a chisel into a borehole. The effectiveness of the proposed framework is evaluated by comparing the performance of participants in the presence and absence of virtual fixtures. This study results demonstrate the proposed framework potential in enhancing the teleoperation process in the construction industry. | 翻訳日:2023-06-26 16:46:11 公開日:2023-06-23 |
# 球殻の重ね合わせにおける重力量子スイッチ Gravitational quantum switch on a superposition of spherical shells ( http://arxiv.org/abs/2306.10984v2 ) ライセンス: Link先を確認 | Nat\'alia S. M\'oller, Bruna Sahdo, Nelson Yokomizo | (参考訳) 異なる時空幾何学の量子重ね合わせを記述する状態の存在は、一般に量子重力の理論で期待される特徴である。
現象論的モデルは、不定順序のプロセスの発生を含む、ジオメトリーの重畳による影響の解析のために最近研究されている。
重力量子スイッチでは、特に、ターゲット系上の2つのエージェントによって適用される操作の順序は、幾何学の状態と絡み合っている。
球状質量殻の異なる配置によって生成される幾何学の重ね合わせを記述するモデルを検討し、重力量子スイッチの実装のためのプロトコルをそのような系で定式化できることを示す。
重ね合わせのジオメトリは、所定の半径外の外部領域において同一であり、そのような半径内で異なる。
外界領域は、内部領域における幾何学の重ね合わせを調査できる古典的なフレームを提供する。
エージェントの1つは内部領域を横断し、量子スイッチの実装のリソースとして探索される幾何学と絡み合う。
このプロトコルの新たな特徴は、非等尺幾何学の重ね合わせ、一定の幾何学を持つ領域の存在、および幾何学の重ね合わせを経験するエージェントが自由落下であるという事実であり、その実験室から得られる大域幾何学に関する情報を妨げている。 The existence of states describing quantum superpositions of distinct spacetime geometries is a feature that is generally expected in theories of quantum gravity. Phenomenological models have recently been explored for the analysis of possible effects due to a superposition of geometries, including the occurrence of processes with indefinite order. In a gravitational quantum switch, in particular, the order of operations applied by two agents on a target system is entangled with the state of the geometry. We consider a model describing the superposition of geometries produced by distinct arrangements of spherical mass shells, and show that a protocol for the implementation of a gravitational quantum switch can be formulated in such a system. The geometries in superposition are identical in an exterior region outside a given radius, and differ within such a radius. The exterior region provides a classical frame from which the superposition of geometries in the interior region can be probed. One of the agents crosses the interior region and becomes entangled with the geometry, which is explored as a resource for the implementation of the quantum switch. Novel features of the protocol include the superposition of nonisometric geometries, the existence of a region with a definite geometry, and the fact that the agent that experiences the superposition of geometries is in free fall, preventing information on the global geometry to be obtained from within its laboratory. | 翻訳日:2023-06-26 16:45:53 公開日:2023-06-23 |
# 3dvrスケッチによる3d形状のプロトタイピングと探索 3D VR Sketch Guided 3D Shape Prototyping and Exploration ( http://arxiv.org/abs/2306.10830v2 ) ライセンス: Link先を確認 | Ling Luo, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, Yulia Gryaditskaya | (参考訳) 3D形状モデリングは労働集約的で時間を要するため、長年の専門知識を必要とする。
近年,3次元形状モデリングを容易にするために,2次元スケッチやテキスト入力を3次元形状生成ネットワークの条件モダリティとして検討している。
しかし、テキストには十分な細かな情報がなく、幾何学よりもカテゴリや外観を記述するのに適しており、2dのスケッチは曖昧であり、複雑な3d形状を2dで描くにはさらなる実践が必要である。
代わりに、3dで直接描画される仮想現実のスケッチを探索する。
スケッチは初心者によって作成され、アートトレーニングなしで作成され、物理的に証明可能な3D形状の再構築を目指していると仮定する。
このようなスケッチは、潜在的に曖昧であるため、入力スケッチ構造に従う複数の3次元形状の生成の問題に取り組む。
トレーニングデータのサイズが限られているため,本手法を慎重に設計し,段階的にモデルを訓練し,マルチモーダル3次元形状表現を活用する。
生成した3次元形状の可算性を保証するために, 3次元形状の潜在空間分布をモデル化する正規化流れを利用する。
入力スケッチに対する生成した3Dモデルの忠実さを促進するために,トレーニングプロセスの異なる段階に展開する専用損失を提案する。
私たちはコードを一般公開する予定です。 3D shape modeling is labor-intensive and time-consuming and requires years of expertise. Recently, 2D sketches and text inputs were considered as conditional modalities to 3D shape generation networks to facilitate 3D shape modeling. However, text does not contain enough fine-grained information and is more suitable to describe a category or appearance rather than geometry, while 2D sketches are ambiguous, and depicting complex 3D shapes in 2D again requires extensive practice. Instead, we explore virtual reality sketches that are drawn directly in 3D. We assume that the sketches are created by novices, without any art training, and aim to reconstruct physically-plausible 3D shapes. Since such sketches are potentially ambiguous, we tackle the problem of the generation of multiple 3D shapes that follow the input sketch structure. Limited in the size of the training data, we carefully design our method, training the model step-by-step and leveraging multi-modal 3D shape representation. To guarantee the plausibility of generated 3D shapes we leverage the normalizing flow that models the distribution of the latent space of 3D shapes. To encourage the fidelity of the generated 3D models to an input sketch, we propose a dedicated loss that we deploy at different stages of the training process. We plan to make our code publicly available. | 翻訳日:2023-06-26 16:45:31 公開日:2023-06-23 |
# 回帰型物理インフォームドニューラルネットワーク(reg-pinns)による磁気ポーズ追跡 Regression-based Physics Informed Neural Networks (Reg-PINNs) for Magnetopause Tracking ( http://arxiv.org/abs/2306.09621v3 ) ライセンス: Link先を確認 | Po-Han Hou and Jih-Hong Shue | (参考訳) 磁気浮上位置の研究の最終的な目標は、その位置を正確に決定することである。
従来の経験的計算手法と、現在普及している機械学習アプローチの両方が、有望な結果を示している。
本研究では,物理に基づく数値計算とバニラ機械学習を組み合わせた回帰型物理情報ニューラルネットワーク(Reg-PINN)を提案する。
この新しい世代の物理学インフォームドニューラルネットワークは、ニューラルネットワークの収束と一般化能力の向上を支援するために従来の経験モデルを取り込んで、通常の微分方程式と偏微分方程式の解法に制限された従来の方法の限界を克服する。
以下、Shue et alと比較する。
1998年,本モデルは根平均二乗誤差の約30%の低減を達成している。
この研究で提示された方法論は宇宙研究に応用できるだけでなく、様々な分野、特に経験モデルに関する研究でも参照できる。 The ultimate goal of studying the magnetopause position is to accurately determine its location. Both traditional empirical computation methods and the currently popular machine learning approaches have shown promising results. In this study, we propose a Regression-based Physics-Informed Neural Networks (Reg-PINNs) that combines physics-based numerical computation with vanilla machine learning. This new generation of Physics Informed Neural Networks overcomes the limitations of previous methods restricted to solving ordinary and partial differential equations by incorporating conventional empirical models to aid the convergence and enhance the generalization capability of the neural network. Compared to Shue et al. [1998], our model achieves a reduction of approximately 30% in root mean square error. The methodology presented in this study is not only applicable to space research but can also be referenced in studies across various fields, particularly those involving empirical models. | 翻訳日:2023-06-26 16:44:45 公開日:2023-06-23 |
# Virtual Quantum Device (VQD): 量子コンピュータの詳細なエミュレーションのためのツール The Virtual Quantum Device (VQD): A tool for detailed emulation of quantum computers ( http://arxiv.org/abs/2306.07342v2 ) ライセンス: Link先を確認 | Cica Gustiani, Tyson Jones, Simon C. Benjamin | (参考訳) 我々はQuEST量子エミュレータに基づくシステムであるVirtual Quantum Device (VQD) プラットフォームを提案する。
vqdを使用することで、非専門家のユーザーは特定の量子コンピュータに詳細なエラーモデル、個性ゲートセット、コネクティビティをエミュレートすることができる。
プラットフォームには直感的なインターフェース、強力な視覚化、複雑な量子アルゴリズムやさまざまな量子コンピューティングハードウェアにおけるアイデアの効率的なテストと最適化のための高性能な計算との互換性がある。
我々は、閉じ込められたイオン、窒素空孔中心、中性原子配列、シリコン量子ドットスピン、超伝導デバイスに対応する5種類のVQDを作成し、探索する。
それぞれが、調整されたパラメータセットを通じて、高度に設定可能である。
各仮想デバイスの重要な特徴を実演し,ツールの有用性の実例を示し,各デバイス固有の属性を強調する。
多様な量子ハードウェアのユーザフレンドリなカプセル化された記述を提供することで、VQDプラットフォームは研究者に、現実的な環境でアルゴリズムやプロトコルを迅速に探索する機能を提供する。 We present the Virtual Quantum Device (VQD) platform, a system based on the QuEST quantum emulator. Through the use of VQDs, non-expert users can emulate specific quantum computers with detailed error models, bespoke gate sets and connectivities. The platform boasts an intuitive interface, powerful visualisation, and compatibility with high-performance computation for effective testing and optimisation of complex quantum algorithms or ideas across a range of quantum computing hardware. We create and explore five families of VQDs corresponding to trapped ions, nitrogen-vacancy-centres, neutral atom arrays, silicon quantum dot spins, and superconducting devices. Each is highly configurable through a set of tailored parameters. We showcase the key characteristics of each virtual device, providing practical examples of the tool's usefulness and highlighting each device's specific attributes. By offering user-friendly encapsulated descriptions of diverse quantum hardware, the VQD platform offers researchers the ability to rapidly explore algorithms and protocols in a realistic setting; meanwhile hardware experts can create their own VQDs to compare with their experiments. | 翻訳日:2023-06-26 16:44:30 公開日:2023-06-23 |
# 集束電子ビーム蒸着コバルトナノマグネットの走査型nv磁気測定 Scanning NV magnetometry of focused-electron-beam-deposited cobalt nanomagnets ( http://arxiv.org/abs/2306.06650v2 ) ライセンス: Link先を確認 | Liza \v{Z}aper, Peter Rickhaus, Marcus Wyss, Boris Gross, Martino Poggio, and Floris Braakman | (参考訳) 集束電子ビーム誘起堆積は、スピン量子ビット制御のためのナノマグネットを単一ステップでパターン化するための有望な技術である。
このようなプロセスでコバルトナノ磁性体を作製し、電子ビームリソグラフィーで得られるものと同等以上のコバルト含有量と飽和磁化を得る。
透過型電子顕微鏡を用いてナノマグネットを特徴付け, 走査型nv磁力計を用いてその成層磁場を撮像し, マイクロ磁気シミュレーションとよく一致した。
磁力計は磁区とハロー側膜の存在を明らかにしており、これはこの製造技術に共通している。
最後に,電子スピン量子ビットについて,これらの側方デポジットによる無秩序成層場の存在下での劣化時間を推定する。 Focused-electron-beam-induced deposition is a promising technique for patterning nanomagnets for spin qubit control in a single step. We fabricate cobalt nanomagnets in such a process, obtaining cobalt contents and saturation magnetizations comparable to or higher than those typically obtained using electron-beam lithography. We characterize the nanomagnets using transmission electron microscopy and image their stray magnetic field using scanning NV magnetometry, finding good agreement with micromagnetic simulations. The magnetometry reveals the presence of magnetic domains and halo side-deposits, which are common for this fabrication technique. Finally, we estimate dephasing times for electron spin qubits in the presence of disordered stray fields due to these side-deposits. | 翻訳日:2023-06-26 16:44:14 公開日:2023-06-23 |
# beyond weights:pure synaptic-delay trainingを用いたスパイクニューラルネットワークのディープラーニング Beyond Weights: Deep learning in Spiking Neural Networks with pure synaptic-delay training ( http://arxiv.org/abs/2306.06237v2 ) ライセンス: Link先を確認 | Edoardo W. Grappolini and Anand Subramoney | (参考訳) 生物学的証拠は、短時間から中程度の時間スケールでのシナプス遅延の適応が脳内の学習において重要な役割を担っていることを示唆している。
生物学に触発されて,シナプス重みがトレーニングされていないがランダムに選択された固定値に保たれている場合でも,シナプス遅延を用いた課題解決の可能性と能力について検討する。
後方伝搬によるフィードフォワードスパイクネットワークの遅延をONLYでトレーニングすることで,従来の重量トレーニングに匹敵する性能が得られることを示す。
さらに、重みを三元値にさらに制約することは、シナプス遅延のみを使用してタスクを解決するネットワークの能力に大きな影響を与えない。
mnistおよびファッションmnistデータセットにおける遅延のみトレーニングのタスク性能を予備実験で実証する。
これは、スパイクニューラルネットワークのトレーニングのための新しいパラダイムを示し、計算に重みを使用するモデルよりも効率の良いモデルのステージを設定する。 Biological evidence suggests that adaptation of synaptic delays on short to medium timescales plays an important role in learning in the brain. Inspired by biology, we explore the feasibility and power of using synaptic delays to solve challenging tasks even when the synaptic weights are not trained but kept at randomly chosen fixed values. We show that training ONLY the delays in feed-forward spiking networks using backpropagation can achieve performance comparable to the more conventional weight training. Moreover, further constraining the weights to ternary values does not significantly affect the networks' ability to solve the tasks using only the synaptic delays. We demonstrate the task performance of delay-only training on MNIST and Fashion-MNIST datasets in preliminary experiments. This demonstrates a new paradigm for training spiking neural networks and sets the stage for models that can be more efficient than the ones that use weights for computation. | 翻訳日:2023-06-26 16:43:59 公開日:2023-06-23 |
# DeepGraviLens: 重力レンズデータの分類のためのマルチモーダルアーキテクチャ DeepGraviLens: a Multi-Modal Architecture for Classifying Gravitational Lensing Data ( http://arxiv.org/abs/2205.00701v4 ) ライセンス: Link先を確認 | Nicol\`o Oreste Pinciroli Vago, Piero Fraternali | (参考訳) 重力レンズ(Gravitational Lensing)は、巨大な物体によって生じる相対論的効果で、周囲の時空を曲げる。
これは天体物理学において深く研究されたトピックであり、理論的相対論的な結果の検証と、それ以外は見えないようなかすかな天体の研究を可能にする。
近年,輝度変動時系列画像を用いたデータセットにおけるレンズ効果の検出により,重力レンズ現象の分析を支援する機械学習手法が提案されている。
しかし、最先端のアプローチでは画像のみを考慮し、時系列データを無視するか、最も難しいデータセットで比較的低い精度を達成する。
本稿では1つの非レンズ系と3つのレンズ系に属する時空間データを分類する新しいマルチモーダルネットワークであるDeepGraviLensを紹介する。
これは、考慮されたデータセットに応じて、アート精度の現在の状態を$\approx 3\%$から$\approx 11\%$に上回る。
このような改良により、次の天体物理調査におけるレンズ天体の分析が加速され、例えばベラ・C・ルービン天文台から収集されたペタバイトのデータを利用することができる。 Gravitational lensing is the relativistic effect generated by massive bodies, which bend the space-time surrounding them. It is a deeply investigated topic in astrophysics and allows validating theoretical relativistic results and studying faint astrophysical objects that would not be visible otherwise. In recent years Machine Learning methods have been applied to support the analysis of the gravitational lensing phenomena by detecting lensing effects in data sets consisting of images associated with brightness variation time series. However, the state-of-art approaches either consider only images and neglect time-series data or achieve relatively low accuracy on the most difficult data sets. This paper introduces DeepGraviLens, a novel multi-modal network that classifies spatio-temporal data belonging to one non-lensed system type and three lensed system types. It surpasses the current state of the art accuracy results by $\approx 3\%$ to $\approx 11\%$, depending on the considered data set. Such an improvement will enable the acceleration of the analysis of lensed objects in upcoming astrophysical surveys, which will exploit the petabytes of data collected, e.g., from the Vera C. Rubin Observatory. | 翻訳日:2023-06-26 15:01:46 公開日:2023-06-23 |
# カタストロフィック・フォーミングを伴わない事前学習言語モデルのジェンダーフェアネスの改善 Improving Gender Fairness of Pre-Trained Language Models without Catastrophic Forgetting ( http://arxiv.org/abs/2110.05367v2 ) ライセンス: Link先を確認 | Zahra Fatemi, Chen Xing, Wenhao Liu, Caiming Xiong | (参考訳) 事前学習された言語モデルのジェンダーバイアスに対処する既存の研究は、通常、小さな性中立なデータセットを構築し、そのようなデータを用いてモデル上で第2フェーズ事前トレーニングを行う。
しかし、男女中立データの限られたサイズと集中的な焦点を考えると、第二期事前トレーニング中に破滅的な忘れが生じる。
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本研究では, GLUE の一般的な NLP タスクで評価することで, 破滅的な忘れが生じることを実証的に示す。
そこで本研究では,前訓練モデルの性公平性を改善するための新しい方法である性平等プロンプト(geep)を提案する。
GEEPは事前学習されたモデルを凍結し、性中立データを用いて性別関連プロンプトを学習する。
実験の結果,GEEPはジェンダーフェアネスのタスクにおいてSOTAのパフォーマンスを達成できるだけでなく,GLUEの性能も向上することがわかった。 Existing studies addressing gender bias of pre-trained language models, usually build a small gender-neutral data set and conduct a second phase pre-training on the model with such data. However, given the limited size and concentrated focus of the gender-neutral data, catastrophic forgetting would occur during second-phase pre-training. Forgetting information in the original training data may damage the model's downstream performance by a large margin. In this work, we empirically show that catastrophic forgetting occurs in such methods by evaluating them with general NLP tasks in GLUE. Then, we propose a new method, GEnder Equality Prompt (GEEP), to improve gender fairness of pre-trained models with less forgetting. GEEP freezes the pre-trained model and learns gender-related prompts with gender-neutral data. Empirical results show that GEEP not only achieves SOTA performances on gender fairness tasks, but also forgets less and performs better on GLUE by a large margin. | 翻訳日:2023-06-26 15:01:26 公開日:2023-06-23 |
# 都市全体のクラウドモビリティ予測におけるコンテキスト一般化可能性の探索:分析フレームワークとベンチマーク Exploring Context Generalizability in Citywide Crowd Mobility Prediction: An Analytic Framework and Benchmark ( http://arxiv.org/abs/2106.16046v4 ) ライセンス: Link先を確認 | Liyue Chen, Xiaoxiang Wang, Leye Wang | (参考訳) コンテキスト機能は、都市全体の群衆移動予測モデルを構築するための重要なデータソースである。
しかしながら、コンテキストを適用することの難しさは、コンテキストの特徴(天気、休日、関心点など)の未知の一般化可能性と、さまざまなシナリオにわたるコンテキストモデリング技術にある。
本稿では,コンテキストの一般化性を評価するための統合分析フレームワークと大規模ベンチマークを提案する。
ベンチマークには、クラウドモビリティデータ、コンテキストデータ、高度な予測モデルが含まれている。
我々は,自転車交通,メトロ旅客交通,電気自動車の充電需要など,複数のクラウドモビリティ予測タスクにおいて包括的な実験を行う。
以上の結果から,(1)既存の文脈モデリング手法では,文脈的特徴の活用が必ずしも適切な予測に至らず,特に,休日と時間的位置の組み合わせは,他の文脈的特徴の組み合わせよりもより一般化可能な有益な情報を提供する。
2) コンテキストモデリング手法では, 生の文脈特徴をディープ予測モデルに組み込むゲート単位を用いることで, 一般化性が向上する。
また,クラウドモビリティ予測アプリケーションを構築する上でのコンテキスト要因の導入についても提案する。
以上の結果から,新しいコンテキストモデリングソリューションの開発に向け,今後の研究努力を要請する。 Contextual features are important data sources for building citywide crowd mobility prediction models. However, the difficulty of applying context lies in the unknown generalizability of contextual features (e.g., weather, holiday, and points of interests) and context modeling techniques across different scenarios. In this paper, we present a unified analytic framework and a large-scale benchmark for evaluating context generalizability. The benchmark includes crowd mobility data, contextual data, and advanced prediction models. We conduct comprehensive experiments in several crowd mobility prediction tasks such as bike flow, metro passenger flow, and electric vehicle charging demand. Our results reveal several important observations: (1) Using more contextual features may not always result in better prediction with existing context modeling techniques; in particular, the combination of holiday and temporal position can provide more generalizable beneficial information than other contextual feature combinations. (2) In context modeling techniques, using a gated unit to incorporate raw contextual features into the deep prediction model has good generalizability. Besides, we offer several suggestions about incorporating contextual factors for building crowd mobility prediction applications. From our findings, we call for future research efforts devoted to developing new context modeling solutions. | 翻訳日:2023-06-26 15:01:05 公開日:2023-06-23 |
# OTOV2: 自動、ジェネリック、ユーザフレンドリー OTOV2: Automatic, Generic, User-Friendly ( http://arxiv.org/abs/2303.06862v2 ) ライセンス: Link先を確認 | Tianyi Chen, Luming Liang, Tianyu Ding, Zhihui Zhu, Ilya Zharkov | (参考訳) 構造的プルーニングによる既存のモデル圧縮手法は、通常複雑な多段処理を必要とする。
各ステージは、多くのエンジニアリング活動とエンドユーザからのドメイン知識を必要としており、より広いシナリオへのアプリケーションの適用を妨げている。
汎用dnnをスクラッチから1回だけ自動で訓練・圧縮し、よりコンパクトなモデルを作り、微調整することなく競合性能を発揮できる第2世代の列車用オンス(otov2)を提案する。
otov2は、さまざまなディープラーニングアプリケーションに自動的かつプラグイン可能で、ユーザによるほとんど最小限のエンジニアリング作業を必要とする。
方法論的には、OTOv2は2つの大きな改善を提案する。
(i)自律性:一般的なDNNの依存関係を自動的に活用し、トレーニング可能な変数をゼロ不変群(ZIG)に分割し、圧縮モデルを構築する。
(二)二重半空間射影勾配(DHSPG):構造的疎結合問題をより確実に解くための新しい最適化手法。
VGG,ResNet,CARN,ConvNeXt,DenseNet,StackedUnetsなど,さまざまなモデルアーキテクチャ上でのOTOv2の汎用性と自律性を示す。
CIFAR10/100、DIV2K、Fashion-MNIST、SVNH、ImageNetなどのベンチマークデータセットとともに、その有効性は、最先端技術よりも競合的あるいはそれ以上に実行することによって検証される。
ソースコードはhttps://github.com/tianyic/only_train_onceで入手できる。 The existing model compression methods via structured pruning typically require complicated multi-stage procedures. Each individual stage necessitates numerous engineering efforts and domain-knowledge from the end-users which prevent their wider applications onto broader scenarios. We propose the second generation of Only-Train-Once (OTOv2), which first automatically trains and compresses a general DNN only once from scratch to produce a more compact model with competitive performance without fine-tuning. OTOv2 is automatic and pluggable into various deep learning applications, and requires almost minimal engineering efforts from the users. Methodologically, OTOv2 proposes two major improvements: (i) Autonomy: automatically exploits the dependency of general DNNs, partitions the trainable variables into Zero-Invariant Groups (ZIGs), and constructs the compressed model; and (ii) Dual Half-Space Projected Gradient (DHSPG): a novel optimizer to more reliably solve structured-sparsity problems. Numerically, we demonstrate the generality and autonomy of OTOv2 on a variety of model architectures such as VGG, ResNet, CARN, ConvNeXt, DenseNet and StackedUnets, the majority of which cannot be handled by other methods without extensive handcrafting efforts. Together with benchmark datasets including CIFAR10/100, DIV2K, Fashion-MNIST, SVNH and ImageNet, its effectiveness is validated by performing competitively or even better than the state-of-the-arts. The source code is available at https://github.com/tianyic/only_train_once. | 翻訳日:2023-06-26 14:57:50 公開日:2023-06-23 |
# 伝統的な中国語サポートの改善のためのBLOOMの事前学習の拡張:モデル,方法,結果 Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results ( http://arxiv.org/abs/2303.04715v2 ) ライセンス: Link先を確認 | Philipp Ennen, Po-Chun Hsu, Chan-Jan Hsu, Chang-Le Liu, Yen-Chen Wu, Yin-Hsiang Liao, Chin-Tung Lin, Da-Shan Shiu, Wei-Yun Ma | (参考訳) 本稿では,従来の中国語のサポート強化を特徴とする多言語言語モデルBLOOM-zhを提案する。
BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。
発表モデルから,新聞記事,書籍,百科事典,教育資料,音声言語など,さまざまな領域をカバーし,従来の中国語や英語で74億トークンを追加することで,BLOOMの事前学習を拡大した。
BLOOM-zhの特性を示すために、既存のベンチマークシナリオと新しく作成されたベンチマークシナリオの両方を用いて性能を評価する。
BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れている。
すべてのモデルを研究コミュニティにリリースします。 In this paper we present the multilingual language model BLOOM-zh that features enhanced support for Traditional Chinese. BLOOM-zh has its origins in the open-source BLOOM models presented by BigScience in 2022. Starting from released models, we extended the pre-training of BLOOM by additional 7.4 billion tokens in Traditional Chinese and English covering a variety of domains such as news articles, books, encyclopedias, educational materials as well as spoken language. In order to show the properties of BLOOM-zh, both existing and newly created benchmark scenarios are used for evaluating the performance. BLOOM-zh outperforms its predecessor on most Traditional Chinese benchmarks while maintaining its English capability. We release all our models to the research community. | 翻訳日:2023-06-26 14:57:22 公開日:2023-06-23 |
# 未来を予測するために過去を要約する: 自然言語によるマルチモーダルオブジェクトインタラクションの強化 Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction ( http://arxiv.org/abs/2301.09209v3 ) ライセンス: Link先を確認 | Razvan-George Pasca, Alexey Gavryushin, Yen-Ling Kuo, Luc Van Gool, Otmar Hilliges, Xi Wang | (参考訳) エゴセントリックビデオにおけるオブジェクトインタラクションの予測について検討する。
このタスクは、過去のアクションがオブジェクトに生成した時空間コンテキストの理解を必要とする。
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで言語の表現力を利用する。
TransFusionは、トレーニング済みの画像キャプションとビジョン言語モデルを利用して、過去のビデオフレームからアクションコンテキストを抽出する。
このアクションコンテキストと次のビデオフレームは、マルチモーダル融合モジュールによって処理され、次のオブジェクトの相互作用を予測する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
大きな事前訓練された言語モデルには、常識と一般化機能が追加されている。
Ego4D と EPIC-KITCHENS-100 の実験により, マルチモーダル核融合モデルの有効性が示された。
また、視覚が十分であると思われるタスクで言語ベースのコンテキスト要約を使用することの利点も強調している。
提案手法は,Ego4Dテストセット全体のmAPにおいて,相対的に40.4%向上する。
EPIC-KITCHENS-100実験によるTransFusionの有効性を検証した。
ビデオとコードはhttps://eth-ait.github.io/transfusion-proj/で入手できる。 We study object interaction anticipation in egocentric videos. This task requires an understanding of the spatiotemporal context formed by past actions on objects, coined action context. We propose TransFusion, a multimodal transformer-based architecture. It exploits the representational power of language by summarising the action context. TransFusion leverages pre-trained image captioning and vision-language models to extract the action context from past video frames. This action context together with the next video frame is processed by the multimodal fusion module to forecast the next object interaction. Our model enables more efficient end-to-end learning. The large pre-trained language models add common sense and a generalisation capability. Experiments on Ego4D and EPIC-KITCHENS-100 show the effectiveness of our multimodal fusion model. They also highlight the benefits of using language-based context summaries in a task where vision seems to suffice. Our method outperforms state-of-the-art approaches by 40.4% in relative terms in overall mAP on the Ego4D test set. We validate the effectiveness of TransFusion via experiments on EPIC-KITCHENS-100. Video and code are available at https://eth-ait.github.io/transfusion-proj/. | 翻訳日:2023-06-26 14:57:08 公開日:2023-06-23 |
# 多視点勾配イルミネーションによる快楽性ニューラルヒューマンアセット Relightable Neural Human Assets from Multi-view Gradient Illuminations ( http://arxiv.org/abs/2212.07648v3 ) ライセンス: Link先を確認 | Taotao Zhou, Kai He, Di Wu, Teng Xu, Qixuan Zhang, Kuixiang Shao, Wenzheng Chen, Lan Xu, Jingyi Yu | (参考訳) 人間のモデリングとリライティングはコンピュータビジョンとグラフィックの2つの基本的な問題であり、高品質なデータセットは関連する研究を大いに促進する。
しかし、既存のヒトデータセットのほとんどは、同じ照明下で撮影されたマルチビューの人間イメージのみを提供する。
タスクのモデリングには有用だが、リライト問題に簡単には使われない。
両分野の研究を促進するために,本論文では,2000以上の高品質な人的資産をマルチビューとマルチイルミネーションの両方で取得した,新しい3次元人的データセットであるUltraStageを提案する。
具体的には、それぞれの例について、1つの白色光と2つの勾配照明で照らされた32の周囲ビューを提供する。
通常のマルチビュー画像に加えて、グラデーションイルミネーションは、詳細な表面正常および空間変動する物質マップの復元に役立ち、様々な照明応用を可能にする。
ニューラル表現の最近の進歩に触発されて、我々はそれぞれの例を任意の照明条件下で新しいビュー合成を可能にするニューラルヒューマンアセットに解釈する。
我々の神経質な人的資産は極めて高い捕獲性能を達成でき、顔のしわや布の折りなどの細部を表現できることを示す。
また、単一画像リライトタスクにおけるUltraStageの検証、ニューラルネットワークのトレーニング、ニューラルネットワークの仮想リライトデータ、および先行技術よりもリアルなレンダリング改善を示す。
ultrastageは、さまざまなヒューマンモデリングとレンダリングタスクにおける重要な将来の開発を刺激するために、コミュニティに公開される予定だ。
データセットはhttps://miaoing.github.io/RNHAで公開されている。 Human modeling and relighting are two fundamental problems in computer vision and graphics, where high-quality datasets can largely facilitate related research. However, most existing human datasets only provide multi-view human images captured under the same illumination. Although valuable for modeling tasks, they are not readily used in relighting problems. To promote research in both fields, in this paper, we present UltraStage, a new 3D human dataset that contains more than 2,000 high-quality human assets captured under both multi-view and multi-illumination settings. Specifically, for each example, we provide 32 surrounding views illuminated with one white light and two gradient illuminations. In addition to regular multi-view images, gradient illuminations help recover detailed surface normal and spatially-varying material maps, enabling various relighting applications. Inspired by recent advances in neural representation, we further interpret each example into a neural human asset which allows novel view synthesis under arbitrary lighting conditions. We show our neural human assets can achieve extremely high capture performance and are capable of representing fine details such as facial wrinkles and cloth folds. We also validate UltraStage in single image relighting tasks, training neural networks with virtual relighted data from neural assets and demonstrating realistic rendering improvements over prior arts. UltraStage will be publicly available to the community to stimulate significant future developments in various human modeling and rendering tasks. The dataset is available at https://miaoing.github.io/RNHA. | 翻訳日:2023-06-26 14:56:08 公開日:2023-06-23 |
# 確率帯域におけるSPRTに基づく効率的なベストアーム同定 SPRT-based Efficient Best Arm Identification in Stochastic Bandits ( http://arxiv.org/abs/2207.11158v3 ) ライセンス: Link先を確認 | Arpan Mukherjee and Ali Tajer | (参考訳) 本稿では,確率的マルチアームバンディットにおける最適腕識別(BAI)問題について検討する。
指数的ブレイディット族(英語版)の一般類を考える。
指数関数的なバンディット群に対する既存のアルゴリズムは計算上の課題に直面している。
これらの課題を軽減するため、BAI問題を逐次合成仮説テストタスクとして検討・分析し、シーケンシャルテストに有効な可能性比に基づくテストを採用するフレームワークを提案する。
このテスト統計に基づいて、腕選択のための正準逐次確率比テストを利用するBAIアルゴリズムが設計され、指数的ブレイディットの族に対するトラクタブル解析が可能である。
このアルゴリズムは,(1)サンプルの複雑さは漸近的に最適であり,(2)$\delta-$PACであることが保証されている。
既存の効率的なアプローチはガウス的設定に焦点を合わせており、最も良く挑戦的な腕と見なされる腕に対してトンプソンサンプリングを必要とする。
さらに本論文は,既存の手法で挑戦者を識別する計算コストを解析的に定量化する。
最後に,解析を支援する数値実験を行った。 This paper investigates the best arm identification (BAI) problem in stochastic multi-armed bandits in the fixed confidence setting. The general class of the exponential family of bandits is considered. The existing algorithms for the exponential family of bandits face computational challenges. To mitigate these challenges, the BAI problem is viewed and analyzed as a sequential composite hypothesis testing task, and a framework is proposed that adopts the likelihood ratio-based tests known to be effective for sequential testing. Based on this test statistic, a BAI algorithm is designed that leverages the canonical sequential probability ratio tests for arm selection and is amenable to tractable analysis for the exponential family of bandits. This algorithm has two key features: (1) its sample complexity is asymptotically optimal, and (2) it is guaranteed to be $\delta-$PAC. Existing efficient approaches focus on the Gaussian setting and require Thompson sampling for the arm deemed the best and the challenger arm. Additionally, this paper analytically quantifies the computational expense of identifying the challenger in an existing approach. Finally, numerical experiments are provided to support the analysis. | 翻訳日:2023-06-26 14:54:57 公開日:2023-06-23 |
# 都市保健Nexusのデコード:都市間特徴に基づく解釈可能な機械学習イルミネート Decoding Urban-health Nexus: Interpretable Machine Learning Illuminates Cancer Prevalence based on Intertwined City Features ( http://arxiv.org/abs/2306.11847v2 ) ライセンス: Link先を確認 | Chenyue Liu, Ali Mostafavi | (参考訳) 本研究は,社会階層間の相互作用,構築された環境特性,および地域レベルでのがんの有病率を決定する環境ハザード曝露の特徴について検討する。
米国内の5つの大都市圏(シカゴ、ダラス、ヒューストン、ロサンゼルス、ニューヨーク)のデータを利用して、研究はXGBoost機械学習モデルを実装し、がんの流行の程度を予測し、異なる特徴の重要性を評価する。
以上の結果から, 年齢, マイノリティ, 人口密度ががん罹患率に最も影響を及ぼす要因の1つであることが示唆された。
我々はさらに,グリーンスペース,先進地域,総排出量に焦点をあてて,がんの有病率を低減できる都市開発と設計戦略を探求する。
因果推論に基づく一連の実験的評価の結果, 緑地の増加と先進地域の減少, 総排出量の削減は, がんの有病率を緩和する可能性が示唆された。
この研究と知見は、都市の特徴と地域保健の相互作用をよりよく理解し、また、都市統合型デザインのための解釈可能な機械学習モデルが公衆衛生を促進する価値を示している。
この発見はまた、統合型都市デザイン戦略による都市の健康格差に対処するための多面的なアプローチの必要性を強調しながら、都市計画とデザインに効果的な洞察を提供する。 This study investigates the interplay among social demographics, built environment characteristics, and environmental hazard exposure features in determining community level cancer prevalence. Utilizing data from five Metropolitan Statistical Areas in the United States: Chicago, Dallas, Houston, Los Angeles, and New York, the study implemented an XGBoost machine learning model to predict the extent of cancer prevalence and evaluate the importance of different features. Our model demonstrates reliable performance, with results indicating that age, minority status, and population density are among the most influential factors in cancer prevalence. We further explore urban development and design strategies that could mitigate cancer prevalence, focusing on green space, developed areas, and total emissions. Through a series of experimental evaluations based on causal inference, the results show that increasing green space and reducing developed areas and total emissions could alleviate cancer prevalence. The study and findings contribute to a better understanding of the interplay among urban features and community health and also show the value of interpretable machine learning models for integrated urban design to promote public health. The findings also provide actionable insights for urban planning and design, emphasizing the need for a multifaceted approach to addressing urban health disparities through integrated urban design strategies. | 翻訳日:2023-06-26 14:45:43 公開日:2023-06-23 |
# ExpPoint-MAE: 自己管理型クラウドトランスの解釈性と性能向上 ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers ( http://arxiv.org/abs/2306.10798v2 ) ライセンス: Link先を確認 | Ioannis Romanelis and Vlassis Fotis and Konstantinos Moustakas and Adrian Munteanu | (参考訳) 本稿では,点クラウド領域における自己超越によって達成された変圧器の特性について考察する。
具体的には,Masked Autoencodingの有効性を事前学習方式として評価し,Momentum Contrastを代替として検討する。
本研究では,データ量が学習特徴に与える影響について検討し,変圧器のドメイン間挙動の類似性を明らかにする。
総合的な視認を通じて,トランスフォーマーが意味的に有意味な領域に順応することを学び,事前学習が基礎となる幾何学をよりよく理解することを示す。
さらに,微調整プロセスとその学習表現への影響について検討した。
それに基づいて,モデルやトレーニングパイプラインに修正を加えることなく,ベースラインを一貫して上回るフリーズ戦略を考案し,トランスフォーマーモデル間の分類作業において最先端の結果を得る。 In this paper we delve into the properties of transformers, attained through self-supervision, in the point cloud domain. Specifically, we evaluate the effectiveness of Masked Autoencoding as a pretraining scheme, and explore Momentum Contrast as an alternative. In our study we investigate the impact of data quantity on the learned features, and uncover similarities in the transformer's behavior across domains. Through comprehensive visualiations, we observe that the transformer learns to attend to semantically meaningful regions, indicating that pretraining leads to a better understanding of the underlying geometry. Moreover, we examine the finetuning process and its effect on the learned representations. Based on that, we devise an unfreezing strategy which consistently outperforms our baseline without introducing any other modifications to the model or the training pipeline, and achieve state-of-the-art results in the classification task among transformer models. | 翻訳日:2023-06-26 14:45:18 公開日:2023-06-23 |
# チェーン・オブ・マインド(chain-of-thought)を通した人間のループ Human-in-the-Loop through Chain-of-Thought ( http://arxiv.org/abs/2306.07932v2 ) ライセンス: Link先を確認 | Zefan Cai, Baobao Chang, Wenjuan Han | (参考訳) 強力な言語モデルの出現とChain-of- Thoughtプロンプトによって、自動化が一様になる一方で、長期的な論理的推論や多段階論理的推論において、その弱点が示されることもある。
例えば、ユーザーは人間の関与なしに複雑な数学的問題に対して望ましい回答を得るとは限らない。
そこで本研究では,理論理論における部分論理の手動補正がllmの推論性能をいかに向上させるかを検討するために,ループ内ヒューマン・イン・ザ・ループシステムである手作業補正システム(mcs)を提案する。
一歩前進して、人間をループに乗せたシステムを考えると、人間に性能を向上させるだけでなく、コストも抑えることになる。
そこで,本稿では,古典経済学理論を基礎として,費用対効果分析モデル(CAMLOP)を提案し,実用性とそれに対応するコストを分析し,定量化し,バランスをとる。
MCSとCAMLOPを12のデータセットで実験する。
w.r.t のコストとユーティリティは、強力なベースラインよりも優れていることを証明している。 While the emergence of powerful language models along with Chain-of-thought prompting has made automation more and more omnipresent, it sometimes demonstrates its weakness in long-term or multi-step logical reasoning. For example, users don't always get desirable answers for complex mathematical problems without human involvement. Against this background, we present the Manual Correction System (MCS) -- a human-in-the-loop system enhanced by Chain-of-Thought prompting, which explores how manual correction of sub-logics in rationales can improve LLM's reasoning performance. Moving one step forward, considering a system with human-in-the-loop involves more than having humans improve performance but also controlling the cost. Therefore, we post a Cost-utility Analysis Model for Human-in-the-Loop systems (CAMLOP) based on classical economics theory to analyze, quantify and balance the utility and the corresponding cost. We conduct experiments of MCS and CAMLOP with twelve datasets. A significant advantage w.r.t cost and utility proves its superiority over strong baselines. | 翻訳日:2023-06-26 14:45:03 公開日:2023-06-23 |
# ゼロショット画像分類を改善するビジュアルグラウンド記述 Visually-Grounded Descriptions Improve Zero-Shot Image Classification ( http://arxiv.org/abs/2306.06077v2 ) ライセンス: Link先を確認 | Michael Ogezi, Bradley Hauer, Grzegorz Kondrak | (参考訳) CLIPのような言語ビジョンモデルはゼロショットイメージ分類(ZSIC)のようなゼロショットビジョンタスクにおいて大きな進歩を遂げている。
しかし、特定の表現力のあるクラス記述を生成することは大きな課題である。
既存のアプローチは粒度とラベルの曖昧さの問題に悩まされている。
これらの課題に対処するため,視覚的なクラス記述を生成するために,現代言語モデルと意味的知識ベースを活用した新しい手法であるV-GLOSS: Visual Glossesを提案する。
我々は、ImageNetやSTL-10を含むベンチマークZSICデータセット上で、最先端の結果を達成し、V-GLOSSの有効性を実証する。
さらに,V-GLOSSが生成したクラス記述を持つ銀のデータセットを導入し,視覚タスクにその有用性を示す。
コードとデータセットを利用可能にします。 Language-vision models like CLIP have made significant progress in zero-shot vision tasks, such as zero-shot image classification (ZSIC). However, generating specific and expressive class descriptions remains a major challenge. Existing approaches suffer from granularity and label ambiguity issues. To tackle these challenges, we propose V-GLOSS: Visual Glosses, a novel method leveraging modern language models and semantic knowledge bases to produce visually-grounded class descriptions. We demonstrate V-GLOSS's effectiveness by achieving state-of-the-art results on benchmark ZSIC datasets including ImageNet and STL-10. In addition, we introduce a silver dataset with class descriptions generated by V-GLOSS, and show its usefulness for vision tasks. We make available our code and dataset. | 翻訳日:2023-06-26 14:44:39 公開日:2023-06-23 |
# LEACE: 閉形式の完全線形概念消去 LEACE: Perfect linear concept erasure in closed form ( http://arxiv.org/abs/2306.03819v2 ) ライセンス: Link先を確認 | Nora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell, Edward Raff, Stella Biderman | (参考訳) 概念消去は、特定の特徴を表現から削除することを目的としている。
公平性(例えば、分類器が性別や人種を使用するのを防ぐ)や解釈性(例えば、モデルの振る舞いの変化を観察するための概念を削除する)を改善することができる。
そこで我々は,LEAst-squares Concept Erasure (LEACE)を導入し,すべての線形分類器が可能な限り少ない値で表現を変更しながら概念を検出することを確実に防止する閉形式手法を提案する。
我々は,ネットワークの各層から対象概念情報を消去する「概念スクラブ」と呼ばれる新しい手法を用いて,大規模言語モデルに適用する。
提案手法は,音声情報への言語モデルの依存度を計測し,BERT埋め込みにおける性別バイアスを低減するという2つの課題について実証する。
コードはhttps://github.com/eleutherai/concept-erasureで入手できる。 Concept erasure aims to remove specified features from a representation. It can improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). We introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while changing the representation as little as possible, as measured by a broad class of norms. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure. | 翻訳日:2023-06-26 14:44:25 公開日:2023-06-23 |
# FedSelect: 個人化フェデレーション学習におけるファインチューニングパラメータの選択 FedSelect: Customized Selection of Parameters for Fine-Tuning during Personalized Federated Learning ( http://arxiv.org/abs/2306.13264v1 ) ライセンス: Link先を確認 | Rishub Tamirisa, John Won, Chengjun Lu, Ron Arel, Andy Zhou | (参考訳) 近年のFL(Federated Learning)は,ローカルデータに対するクライアントパラメータの微調整や,ローカルタスクのパーソナライズアーキテクチャによるクライアントレベルのパフォーマンス向上を目指している。
このようなパーソナライズのための既存の方法は、グローバルモデルを作成するか、ローカルクライアントディストリビューション上でグローバルモデルを微調整する。
しかし、これらの既存の手法は重要なグローバル知識の保持を犠牲にしてパーソナライズするか、または微調整のためのネットワーク層を予め設定し、クライアントモデル内でグローバル知識を最適に格納する。
抽選券仮説に則って,我々はまず,パラメータの残りを凍結しながら,局所的な微調整に最適なクライアントサブネットワークを求める仮説を提示する。
次に,個人化のための最適パラメータと,トレーニング中のグローバルアグリゲーションのための他のパラメータを同時に発見することで,クライアントサブネットワーク構造とパラメータの両方を直接パーソナライズする手法であるfederselectを提案する。
CIFAR-10で有望な結果が得られることを示す。 Recent advancements in federated learning (FL) seek to increase client-level performance by fine-tuning client parameters on local data or personalizing architectures for the local task. Existing methods for such personalization either prune a global model or fine-tune a global model on a local client distribution. However, these existing methods either personalize at the expense of retaining important global knowledge, or predetermine network layers for fine-tuning, resulting in suboptimal storage of global knowledge within client models. Enlightened by the lottery ticket hypothesis, we first introduce a hypothesis for finding optimal client subnetworks to locally fine-tune while leaving the rest of the parameters frozen. We then propose a novel FL framework, FedSelect, using this procedure that directly personalizes both client subnetwork structure and parameters, via the simultaneous discovery of optimal parameters for personalization and the rest of parameters for global aggregation during training. We show that this method achieves promising results on CIFAR-10. | 翻訳日:2023-06-26 13:57:51 公開日:2023-06-23 |
# 合成データシャッフルはデータ不均一性下での連合学習の収束を加速する Synthetic data shuffling accelerates the convergence of federated learning under data heterogeneity ( http://arxiv.org/abs/2306.13263v1 ) ライセンス: Link先を確認 | Bo Li, Yasin Esfandiari, Mikkel N. Schmidt, Tommy S. Alstr{\o}m, Sebastian U. Stich | (参考訳) フェデレーション学習では、データの異質性は重要な課題である。
簡単な解決策は、クライアントのデータをシャッフルして、分布を均質化することです。
しかし、これはデータアクセス権に違反する可能性があり、シャッフルがフェデレーション最適化アルゴリズムの収束を加速させる方法と方法が理論的によく理解されていない。
本稿では,クライアント間でデータの一部をシャッフルする場合に,収束率におけるデータ不均一性とパラメータとの正確な対応性を確立する。
シャッフル法により,シャッフル率に対する勾配差が2次的に減少し,収束が加速することを示す。
この理論に触発されて,局所的に生成された合成データをシャッフルすることでデータアクセス権問題に対処する実践的アプローチを提案する。
実験結果から,合成データのシャッフルにより,既存の複数のフェデレート学習アルゴリズムの性能が大幅に向上することが示された。 In federated learning, data heterogeneity is a critical challenge. A straightforward solution is to shuffle the clients' data to homogenize the distribution. However, this may violate data access rights, and how and when shuffling can accelerate the convergence of a federated optimization algorithm is not theoretically well understood. In this paper, we establish a precise and quantifiable correspondence between data heterogeneity and parameters in the convergence rate when a fraction of data is shuffled across clients. We prove that shuffling can quadratically reduce the gradient dissimilarity with respect to the shuffling percentage, accelerating convergence. Inspired by the theory, we propose a practical approach that addresses the data access rights issue by shuffling locally generated synthetic data. The experimental results show that shuffling synthetic data improves the performance of multiple existing federated learning algorithms by a large margin. | 翻訳日:2023-06-26 13:57:32 公開日:2023-06-23 |
# 縮退ギャップによってパラメータ化される高速最大$k$-plexアルゴリズム A Fast Maximum $k$-Plex Algorithm Parameterized by the Degeneracy Gap ( http://arxiv.org/abs/2306.13258v1 ) ライセンス: Link先を確認 | Zhengren Wang, Yi Zhou, Chunyu Luo, Mingyu Xiao | (参考訳) グラフが与えられると、$k$-plex は、各頂点が集合内の少なくとも$k-1$の他の頂点に隣接しない頂点集合である。
与えられたグラフから最大$k$-plexを求める最大$k$-plex問題は、グラフ検索やコミュニティ検出のようなアプリケーションにおいて、重要だが計算上困難な問題である。
これまでのところ、効率に関する十分な理論的説明のない経験的アルゴリズムは数多く存在する。
このギャップを、入力インスタンスの新たなパラメータである$g_k(G)$、与えられたグラフの縮退境界と最大$k$-plexのサイズの間のギャップを定義し、$g_k(G)$でパラメータ化された正確なアルゴリズムを提示することによって橋渡ししようとする。
言い換えれば、入力グラフのサイズで時間多項式を実行し、$g_k(G)$で指数関数的に$k$を定数とするアルゴリズムを設計する。
通常、$g_k(G)$は、実世界のグラフにおいて$O(\log{(|V|)})$で束縛され、アルゴリズムが多項式時間で実行されることを示す。
また,大規模実験を行い,そのアルゴリズムが最先端の解法と競合することを示した。
さらに、15ドルや20ドルといった大きな$kの値の場合、我々のアルゴリズムは既存のアルゴリズムよりも優れた性能を持つ。 Given a graph, the $k$-plex is a vertex set in which each vertex is not adjacent to at most $k-1$ other vertices in the set. The maximum $k$-plex problem, which asks for the largest $k$-plex from a given graph, is an important but computationally challenging problem in applications like graph search and community detection. So far, there is a number of empirical algorithms without sufficient theoretical explanations on the efficiency. We try to bridge this gap by defining a novel parameter of the input instance, $g_k(G)$, the gap between the degeneracy bound and the size of maximum $k$-plex in the given graph, and presenting an exact algorithm parameterized by $g_k(G)$. In other words, we design an algorithm with running time polynomial in the size of input graph and exponential in $g_k(G)$ where $k$ is a constant. Usually, $g_k(G)$ is small and bounded by $O(\log{(|V|)})$ in real-world graphs, indicating that the algorithm runs in polynomial time. We also carry out massive experiments and show that the algorithm is competitive with the state-of-the-art solvers. Additionally, for large $k$ values such as $15$ and $20$, our algorithm has superior performance over existing algorithms. | 翻訳日:2023-06-26 13:57:18 公開日:2023-06-23 |
# 過パラメータ線形モデルを用いた多クラス分類の高精度漸近的一般化 Precise Asymptotic Generalization for Multiclass Classification with Overparameterized Linear Models ( http://arxiv.org/abs/2306.13255v1 ) ライセンス: Link先を確認 | David X. Wu, Anant Sahai | (参考訳) subramanian et al で導入されたガウス共変量双レベルモデルの下での多クラス分類のための超パラメータ線形モデルの漸近的一般化について検討した。
~'22,データポイント数,機能数,クラス数がすべて一緒になる。
subramanian et al で示される予想を完全に解決する。
~'22 一般化の予測された体制に一致する。
さらに、新しい下限は情報理論的な強い会話に似ており、誤分類率は漸近的に 0 または 1 になる。
この密接な結果から,min-norm補間分類器は,min-norm補間レグレッサが最適であることが知られている場合,非補間分類器と比較して漸近的に最適であることがわかった。
厳密な解析の鍵はハンソン・ライトの不等式の新しい変種であり、スパースラベルの多重クラス問題に広く有用である。
アプリケーションとして,同タイプの解析を用いて,関連するマルチラベル分類問題を同一のバイレベルアンサンブルで解析できることを示す。 We study the asymptotic generalization of an overparameterized linear model for multiclass classification under the Gaussian covariates bi-level model introduced in Subramanian et al.~'22, where the number of data points, features, and classes all grow together. We fully resolve the conjecture posed in Subramanian et al.~'22, matching the predicted regimes for generalization. Furthermore, our new lower bounds are akin to an information-theoretic strong converse: they establish that the misclassification rate goes to 0 or 1 asymptotically. One surprising consequence of our tight results is that the min-norm interpolating classifier can be asymptotically suboptimal relative to noninterpolating classifiers in the regime where the min-norm interpolating regressor is known to be optimal. The key to our tight analysis is a new variant of the Hanson-Wright inequality which is broadly useful for multiclass problems with sparse labels. As an application, we show that the same type of analysis can be used to analyze the related multilabel classification problem under the same bi-level ensemble. | 翻訳日:2023-06-26 13:56:52 公開日:2023-06-23 |
# グルーキングが長くなる前に予測:グルークしたモデルの損失景観を考察 Predicting Grokking Long Before it Happens: A look into the loss landscape of models which grok ( http://arxiv.org/abs/2306.13253v1 ) ライセンス: Link先を確認 | Pascal Jr. Tikeng Notsawo and Hattie Zhou and Mohammad Pezeshki and Irina Rish and Guillaume Dumas | (参考訳) 本稿では,ニューラルネットワークにおけるグロッキング発生の予測に焦点をあてて,過失や記憶の徴候が観測された後に,完全一般化が出現する現象について述べる。
グローキングは特定のハイパーパラメータでしか観測できないと報告されている。
これにより、グロッキングにつながるパラメータを特定することが重要になる。
しかし、グロッキングは多数のエポックの後に起こるため、それにつながるハイパーパラメータの探索は時間がかかる。
本稿では,多数のエポックを訓練することなくグロッキングを予測するための低コストな手法を提案する。
基本的には,最初の数回の時間軸の学習曲線を研究することによって,グロッキングが後に起こるかどうかを予測できることを示す。
具体的には、特定の振動が初期エポックで発生した場合、モデルがより長い時間トレーニングされた場合、グロッキングが起こると期待できる。
本研究では,フーリエ変換を適用した学習曲線のスペクトルシグネチャを用いて低周波成分の振幅を定量化し,その振動の存在を検出する。
また,これらの振動の原因を説明し,損失景観を特徴付ける実験も実施する。 This paper focuses on predicting the occurrence of grokking in neural networks, a phenomenon in which perfect generalization emerges long after signs of overfitting or memorization are observed. It has been reported that grokking can only be observed with certain hyper-parameters. This makes it critical to identify the parameters that lead to grokking. However, since grokking occurs after a large number of epochs, searching for the hyper-parameters that lead to it is time-consuming. In this paper, we propose a low-cost method to predict grokking without training for a large number of epochs. In essence, by studying the learning curve of the first few epochs, we show that one can predict whether grokking will occur later on. Specifically, if certain oscillations occur in the early epochs, one can expect grokking to occur if the model is trained for a much longer period of time. We propose using the spectral signature of a learning curve derived by applying the Fourier transform to quantify the amplitude of low-frequency components to detect the presence of such oscillations. We also present additional experiments aimed at explaining the cause of these oscillations and characterizing the loss landscape. | 翻訳日:2023-06-26 13:56:31 公開日:2023-06-23 |
# オンライン議論における創発的影響ネットワーク Emergent Influence Networks in Good-Faith Online Discussions ( http://arxiv.org/abs/2306.13250v1 ) ライセンス: Link先を確認 | Henry K. Dambanemuya, Daniel Romero, Em\H{o}ke-\'Agnes Horv\'at | (参考訳) 市役所型討論会はますますオンライン化が進んでいる。
しかし、どの議論が成功するかを決定する重要な社会的ダイナミクスについて、私たちはほとんど知らない。
本研究は、他人の議論に対する反応を通じて生み出した議論ネットワークにおける自分の立場が、未熟なオンライン討論における説得力に与える影響について考察する。
本稿では,ネットワーク分析と機械学習の組み合わせを用いて,ネットワーク位置が説得力に与える影響を測定する新しい枠組みを提案する。
言語的側面が説得力に与える影響を調査する既存研究を補完して,議論ネットワークにおけるユーザの立場がオンライン上での説得力に影響を与えることを示す。
さらに、説得の成功の認識は、この支配的なネットワークポジションをさらに増加させる。
本研究は、オンライン談話の複雑な社会的ダイナミクスに関する重要な洞察を提供し、議論ネットワークにおける影響力のある立場とデジタル空間における説得的戦略の間の相互作用を理解しようとする組織や個人に実践的な洞察を提供する。 Town hall-type debates are increasingly moving online, irrevocably transforming public discourse. Yet, we know relatively little about crucial social dynamics that determine which arguments are more likely to be successful. This study investigates the impact of one's position in the discussion network created via responses to others' arguments on one's persuasiveness in unfacilitated online debates. We propose a novel framework for measuring the impact of network position on persuasiveness, using a combination of social network analysis and machine learning. Complementing existing studies investigating the effect of linguistic aspects on persuasiveness, we show that the user's position in a discussion network influences their persuasiveness online. Moreover, the recognition of successful persuasion further increases this dominant network position. Our findings offer important insights into the complex social dynamics of online discourse and provide practical insights for organizations and individuals seeking to understand the interplay between influential positions in a discussion network and persuasive strategies in digital spaces. | 翻訳日:2023-06-26 13:56:12 公開日:2023-06-23 |
# 量子メルリン・アーサーと相対位相のない証明 Quantum Merlin-Arthur and proofs without relative phase ( http://arxiv.org/abs/2306.13247v1 ) ライセンス: Link先を確認 | Roozbeh Bassirian, Bill Fefferman, Kunal Marwaha | (参考訳) 量子証明が相対位相を持たないQMAの変種(非負の振幅、大域的な位相まで)を研究する。
完全性だけを変更すると、このクラスは QMA [arXiv:1410.2882] に等しいが、完全性と音性の両方が修正される場合、クラス(Jeronimo と Wu によって QMA+ と命名される)はより強力である。
定数ギャップのある QMA+ は NEXP に等しいが、ある** の定数ギャップを持つ QMA+ は QMA に等しいことを示す。
1つの解釈は、マーリンの「欺く」能力は、QMA(2)$\subseteq$ NEXP であるため、少なくとも絡み合いから生じるものである。 We study a variant of QMA where quantum proofs have no relative phase (i.e. non-negative amplitudes, up to a global phase). If only completeness is modified, this class is equal to QMA [arXiv:1410.2882]; but if both completeness and soundness are modified, the class (named QMA+ by Jeronimo and Wu) can be much more powerful. We show that QMA+ with some constant gap is equal to NEXP, yet QMA+ with some *other* constant gap is equal to QMA. One interpretation is that Merlin's ability to "deceive" originates from relative phase at least as much as from entanglement, since QMA(2) $\subseteq$ NEXP. | 翻訳日:2023-06-26 13:55:56 公開日:2023-06-23 |
# 量子化学における結合クラスター理論のホモトピー継続法 Homotopy continuation methods for coupled-cluster theory in quantum chemistry ( http://arxiv.org/abs/2306.13299v1 ) ライセンス: Link先を確認 | Fabian M. Faulstich and Andre Laestadius | (参考訳) ホモトピー法は結合クラスタ多項式方程式によって提供される多数の解を理解する強力なツールであることが証明されている。
この試みは、精巧な数値と数学的研究の両方を行った量子化学者によって先駆けられた。
近年、応用数学の観点から、トポロジカル次数論と代数指向ツールの両方を用いて、これらのアプローチに対する新たな関心が高まっている。
この記事では、後者の開発について概説する。 Homotopy methods have proven to be a powerful tool for understanding the multitude of solutions provided by the coupled-cluster polynomial equations. This endeavor has been pioneered by quantum chemists that have undertaken both elaborate numerical as well as mathematical investigations. Recently, from the perspective of applied mathematics, new interest in these approaches has emerged using both topological degree theory and algebraically oriented tools. This article provides an overview of describing the latter development. | 翻訳日:2023-06-26 13:47:44 公開日:2023-06-23 |
# LLMを用いた質的研究の探索 Exploring Qualitative Research Using LLMs ( http://arxiv.org/abs/2306.13298v1 ) ライセンス: Link先を確認 | Muneera Bano, Didar Zowghi, Jon Whittle | (参考訳) AI駆動型大規模言語モデル(LLM)の出現は、定性的研究における彼らの役割について議論を呼んだ。
これらは人間の理解を深めるツールだと考える人もいれば、規律の核となる価値に対する脅威だと認識する人もいる。
本研究は,人間とLLMの理解能力を比較し,比較することを目的とした。
私たちは、まず人間のアナリストによって分類されたalexaアプリレビューのサンプルを実験しました。
LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
結果と人間の分類と推論を比較した。
研究によると、ヒトとChatGPT3.5の分類は3分の1で有意な一致を示し、GPT4の分類は4分の1以上でわずかに低かった。
2つのAIモデルは高いアライメントを示し、半数以上のケースで観察された。
しかし,3つの手法にまたがるコンセンサスは,分類の約5分の1にのみ見られた。
人間とLLMの推論と比較すると、人間のアナリストは個々の経験に大きく依存しているようだ。
予想通り、LDMはアプリレビューにある特定の単語の選択と、アプリ自体の機能的コンポーネントに基づいて、彼らの推論に基づいています。
本研究は, 競争関係よりも相乗効果を示唆し, 効果的な人間LLMコラボレーションの可能性を強調した。
研究者はLLMの役割を継続的に評価し、AIと人間が共同で質的研究を行う未来を育む必要がある。 The advent of AI driven large language models (LLMs) have stirred discussions about their role in qualitative research. Some view these as tools to enrich human understanding, while others perceive them as threats to the core values of the discipline. This study aimed to compare and contrast the comprehension capabilities of humans and LLMs. We conducted an experiment with small sample of Alexa app reviews, initially classified by a human analyst. LLMs were then asked to classify these reviews and provide the reasoning behind each classification. We compared the results with human classification and reasoning. The research indicated a significant alignment between human and ChatGPT 3.5 classifications in one third of cases, and a slightly lower alignment with GPT4 in over a quarter of cases. The two AI models showed a higher alignment, observed in more than half of the instances. However, a consensus across all three methods was seen only in about one fifth of the classifications. In the comparison of human and LLMs reasoning, it appears that human analysts lean heavily on their individual experiences. As expected, LLMs, on the other hand, base their reasoning on the specific word choices found in app reviews and the functional components of the app itself. Our results highlight the potential for effective human LLM collaboration, suggesting a synergistic rather than competitive relationship. Researchers must continuously evaluate LLMs role in their work, thereby fostering a future where AI and humans jointly enrich qualitative research. | 翻訳日:2023-06-26 13:47:35 公開日:2023-06-23 |
# 変数共分散規則化は表現学習を改善する Variance-Covariance Regularization Improves Representation Learning ( http://arxiv.org/abs/2306.13292v1 ) ライセンス: Link先を確認 | Jiachen Zhu, Ravid Shwartz-Ziv, Yubei Chen, Yann LeCun | (参考訳) トランスファーラーニングは、機械学習領域における重要なアプローチとして現れ、あるドメインから派生した知識を適用して、その後のタスクのパフォーマンスを向上させる。
後続のタスクに関する情報が限られていることを考えると、強い伝達学習アプローチでは、最初の事前学習段階で様々な特徴を捉えるようモデルに求めている。
しかし、最近の研究では、十分な正規化がなければ、ネットワークは主に事前訓練損失関数を減らす機能に集中する傾向があることを示唆している。
この傾向は、目標タスクに対する不適切な特徴学習と一般化能力を損なう可能性がある。
本稿では,学習ネットワークの特徴の多様性向上を目的とした正規化手法である可変共分散正規化(VCR)を提案する。
近年の自己指導型学習手法の進歩から着想を得た本手法では,高い分散性と最小の共分散を示す学習表現が促進され,ネットワークが損失低減機能にのみ焦点を絞ることを防止する。
本手法の有効性を包括的実験と学習表現に関する詳細な分析研究によって実証的に検証した。
さらに,本手法に付随する計算オーバーヘッドを最小限に抑える効率的な実装戦略を開発する。
この結果から,VCRは,教師付き学習と自己教師型学習の両方において,伝達学習性能を向上させるための強力かつ効率的な手法であることが示唆された。 Transfer learning has emerged as a key approach in the machine learning domain, enabling the application of knowledge derived from one domain to improve performance on subsequent tasks. Given the often limited information about these subsequent tasks, a strong transfer learning approach calls for the model to capture a diverse range of features during the initial pretraining stage. However, recent research suggests that, without sufficient regularization, the network tends to concentrate on features that primarily reduce the pretraining loss function. This tendency can result in inadequate feature learning and impaired generalization capability for target tasks. To address this issue, we propose Variance-Covariance Regularization (VCR), a regularization technique aimed at fostering diversity in the learned network features. Drawing inspiration from recent advancements in the self-supervised learning approach, our approach promotes learned representations that exhibit high variance and minimal covariance, thus preventing the network from focusing solely on loss-reducing features. We empirically validate the efficacy of our method through comprehensive experiments coupled with in-depth analytical studies on the learned representations. In addition, we develop an efficient implementation strategy that assures minimal computational overhead associated with our method. Our results indicate that VCR is a powerful and efficient method for enhancing transfer learning performance for both supervised learning and self-supervised learning, opening new possibilities for future research in this domain. | 翻訳日:2023-06-26 13:47:13 公開日:2023-06-23 |
# 逆気象条件下での自律走行におけるセグメンテーションモデル(SAM)のロバスト性 Robustness of Segment Anything Model (SAM) for Autonomous Driving in Adverse Weather Conditions ( http://arxiv.org/abs/2306.13290v1 ) ライセンス: Link先を確認 | Xinru Shan, Chaoning Zhang | (参考訳) セグメント・エナジー・モデル(sam)は近年、その驚くべき性能でかなりの関心を集め、コンピュータビジョンの基礎モデルとして登場した。
下流のさまざまなタスクに統合され、強力なゼロショット転送能力を示している。
その優れた性能から、特に悪天候下での運転のような困難なシナリオにおいて、視覚タスクのパフォーマンスを改善するためにSAMを自律運転に適用したいという強い願望がある。
しかし、悪天候下での強靭性は不確かである。
本研究では,SAMの自律運転への適用について検討し,悪天候下でのロバスト性について検討する。
この研究は、自動運転ビジョンタスクに統合する前に、課題シナリオにおけるSAMの堅牢性を理解することを目的としており、将来のアプリケーションに貴重な洞察を提供する。 Segment Anything Model (SAM) has gained considerable interest in recent times for its remarkable performance and has emerged as a foundational model in computer vision. It has been integrated in diverse downstream tasks, showcasing its strong zero-shot transfer capabilities. Given its impressive performance, there is a strong desire to apply SAM in autonomous driving to improve the performance of vision tasks, particularly in challenging scenarios such as driving under adverse weather conditions. However, its robustness under adverse weather conditions remains uncertain. In this work, we investigate the application of SAM in autonomous driving and specifically explore its robustness under adverse weather conditions. Overall, this work aims to enhance understanding of SAM's robustness in challenging scenarios before integrating it into autonomous driving vision tasks, providing valuable insights for future applications. | 翻訳日:2023-06-26 13:46:51 公開日:2023-06-23 |
# スケルトンガイドを用いた3次元行動認識のためのシーンフロー学習 Learning Scene Flow With Skeleton Guidance For 3D Action Recognition ( http://arxiv.org/abs/2306.13285v1 ) ライセンス: Link先を確認 | Vasileios Magoulianitis, Athanasios Psaltis | (参考訳) 既存の3次元動作認識法の中では,人間の行動に豊富な動作情報手段を伝達しながらも,3次元フローが不十分である。
おそらく、ノイズに対する感受性は難解であり、深層モデルの学習プロセスに挑戦する。
本研究は,深部時空間モデルによる3次元流れ列の利用を実証し,さらにスケルトン領域から誘導される2段階の空間的注意機構を提案する。
この目的に向けて、各関節に対する情報度スコアを推定するために、最も識別性の高い動作力学を学習するために、拡張された深部骨格モデルも導入された。
その後,2つのモデルの間で,高次相互モーダル相関を学習するための遅延融合方式が採用された。
現在最大かつ最も挑戦的なデータセットであるNTU RGB+Dの実験結果は、提案手法の有効性を示し、最先端の結果を達成する。 Among the existing modalities for 3D action recognition, 3D flow has been poorly examined, although conveying rich motion information cues for human actions. Presumably, its susceptibility to noise renders it intractable, thus challenging the learning process within deep models. This work demonstrates the use of 3D flow sequence by a deep spatiotemporal model and further proposes an incremental two-level spatial attention mechanism, guided from skeleton domain, for emphasizing motion features close to the body joint areas and according to their informativeness. Towards this end, an extended deep skeleton model is also introduced to learn the most discriminant action motion dynamics, so as to estimate an informativeness score for each joint. Subsequently, a late fusion scheme is adopted between the two models for learning the high level cross-modal correlations. Experimental results on the currently largest and most challenging dataset NTU RGB+D, demonstrate the effectiveness of the proposed approach, achieving state-of-the-art results. | 翻訳日:2023-06-26 13:46:38 公開日:2023-06-23 |
# on-policy policygradient methodにおけるディスカウントファクタミスマッチの補正 Correcting discount-factor mismatch in on-policy policy gradient methods ( http://arxiv.org/abs/2306.13284v1 ) ライセンス: Link先を確認 | Fengdi Che, Gautham Vasan, A. Rupam Mahmood | (参考訳) ポリシー勾配定理は、アクション値、アクション可能性の勾配、および \emph{discounted stationary distribution} と呼ばれる割引を含む状態分布という3つの因子の観点で、ポリシー勾配の便利な形式を与える。
しかし、ポリシー勾配定理に基づくオンポリシー手法は、技術的に不正確であり、一部の環境において退化学習行動を引き起こす可能性がある状態分布のディスカウント因子を無視している。
既存の解はこの差を、勾配推定の因子として$\gamma^t$を用いて補正する。
しかし、この解は広く採用されておらず、後の状態が以前の状態と類似したタスクではうまく機能しない。
既存の勾配推定器に差し込むことのできる割引された定常分布を考慮した新しい分布補正を提案する。
我々の補正は,低分散の$\gamma^t$補正に伴う性能劣化を回避する。
重要なことは、修正されていない推定器と比較して、我々のアルゴリズムは、特定の環境における準最適ポリシーを回避し、いくつかのOpenAIジムとDeepMindスイートベンチマークで元のパフォーマンスに一貫した一致または超過する状態強調を提供する。 The policy gradient theorem gives a convenient form of the policy gradient in terms of three factors: an action value, a gradient of the action likelihood, and a state distribution involving discounting called the \emph{discounted stationary distribution}. But commonly used on-policy methods based on the policy gradient theorem ignores the discount factor in the state distribution, which is technically incorrect and may even cause degenerate learning behavior in some environments. An existing solution corrects this discrepancy by using $\gamma^t$ as a factor in the gradient estimate. However, this solution is not widely adopted and does not work well in tasks where the later states are similar to earlier states. We introduce a novel distribution correction to account for the discounted stationary distribution that can be plugged into many existing gradient estimators. Our correction circumvents the performance degradation associated with the $\gamma^t$ correction with a lower variance. Importantly, compared to the uncorrected estimators, our algorithm provides improved state emphasis to evade suboptimal policies in certain environments and consistently matches or exceeds the original performance on several OpenAI gym and DeepMind suite benchmarks. | 翻訳日:2023-06-26 13:46:20 公開日:2023-06-23 |
# 自動mr画像診断における入力分布シフトに対する正規化スキームの感度とロバスト性について On Sensitivity and Robustness of Normalization Schemes to Input Distribution Shifts in Automatic MR Image Diagnosis ( http://arxiv.org/abs/2306.13276v1 ) ライセンス: Link先を確認 | Divyam Madaan, Daniel Sodickson, Kyunghyun Cho, Sumit Chopra | (参考訳) MRI(MRI)はMRIパイプラインで再構成した画像に優れた軟質のコントラストが示されており、ヒトの放射線技師が容易に多くの病態を判別できるため、医療画像の標準として金色であると考えられている。
最近では、これらの再構成画像を入力として、複数の疾患の診断において、Deep Learning(DL)モデルも最先端のパフォーマンスを達成した。
しかし、複雑なハードウェアの使用と多数のスキャナパラメータの調整を必要とするMRIパイプライン内の画像再構成プロセスは、様々な形態のノイズの影響を受けやすいため、画像内の任意のアーティファクトが生じる。
さらに、ノイズの分布は定常的ではなく、マシン内、マシン間、患者間で変化し、画像内のさまざまなアーティファクトに繋がる。
残念なことに、DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、これらのさまざまなアーティファクトに対して非常に敏感です。
これらのモデルのさまざまなアーティファクトに対する堅牢性の欠如は、安全が重要となる医療応用における使用を妨げる。
本研究は,MRデータ取得の複雑さに起因する多種多様なアーティファクトの存在下で,これらのモデルの一般化性能の向上に焦点を当てる。
本実験では,医療画像解析のためのdlモデルのトレーニングにおいて広く用いられているバッチ正規化が,これらの変化環境における性能低下の重要な原因であると考えられる。
そこで本研究では,グループ正規化やレイヤ正規化(LN)といった他の正規化手法を用いて,様々な画像アーチファクトに対してモデル性能にロバスト性を注入する手法を提案する。
系統的な実験を通して、GNとLNは様々なMRアーチファクトと分布シフトに対してより良い精度を提供することを示す。 Magnetic Resonance Imaging (MRI) is considered the gold standard of medical imaging because of the excellent soft-tissue contrast exhibited in the images reconstructed by the MRI pipeline, which in-turn enables the human radiologist to discern many pathologies easily. More recently, Deep Learning (DL) models have also achieved state-of-the-art performance in diagnosing multiple diseases using these reconstructed images as input. However, the image reconstruction process within the MRI pipeline, which requires the use of complex hardware and adjustment of a large number of scanner parameters, is highly susceptible to noise of various forms, resulting in arbitrary artifacts within the images. Furthermore, the noise distribution is not stationary and varies within a machine, across machines, and patients, leading to varying artifacts within the images. Unfortunately, DL models are quite sensitive to these varying artifacts as it leads to changes in the input data distribution between the training and testing phases. The lack of robustness of these models against varying artifacts impedes their use in medical applications where safety is critical. In this work, we focus on improving the generalization performance of these models in the presence of multiple varying artifacts that manifest due to the complexity of the MR data acquisition. In our experiments, we observe that Batch Normalization, a widely used technique during the training of DL models for medical image analysis, is a significant cause of performance degradation in these changing environments. As a solution, we propose to use other normalization techniques, such as Group Normalization and Layer Normalization (LN), to inject robustness into model performance against varying image artifacts. Through a systematic set of experiments, we show that GN and LN provide better accuracy for various MR artifacts and distribution shifts. | 翻訳日:2023-06-26 13:46:00 公開日:2023-06-23 |
# 継続学習は長期学習を改善するか?
統一フレームワークに向けて Can Continual Learning Improve Long-Tailed Recognition? Toward a Unified Framework ( http://arxiv.org/abs/2306.13275v1 ) ライセンス: Link先を確認 | Mahdiyar Molahasani, Michael Greenspan, Ali Etemad | (参考訳) LTR(Long-Tailed Recognition)問題は非常に不均衡なデータセットから学習の文脈で発生し、異なるクラス間のサンプルの数が大幅に減少する。
LTR法は、より大きなヘッドセットと小さなテールセットの両方からなるデータセットを正確に学習することを目的としている。
本稿では,損失関数の強い凸性の仮定の下で,全データセットで学習した学習者の重みは,頭上で厳密に訓練された同じ学習者の重みの上限内にあるという定理を提案する。
次に、頭部と尾の学習を2つの別々かつ逐次ステップとして扱うことにより、連続学習(cl)法は、頭部を忘れずに尾を学習する学習者の重みを効果的に更新することができると主張する。
まず,おもちゃのMNIST-LTデータセットについて,様々な実験を行った。
次に、2つの標準LTRベンチマーク(CIFAR100-LTとCIFAR10-LT)の多重不均衡変動に対する複数のCL戦略の有効性を評価し、LTRに適したベースラインやアプローチソリューションと比較して、標準CL手法が高い性能向上を達成することを示す。
また,自然に不均衡なcaltech256データセット上でclを探索することにより,実世界のデータに対するcl手法の適用性を評価し,最先端の分類器に対するその優位性を実証する。
我々の研究はLTRとCLを統一するだけでなく、LTRの課題にもっと効果的に取り組むためにCL手法の進歩を活用する道を開く。 The Long-Tailed Recognition (LTR) problem emerges in the context of learning from highly imbalanced datasets, in which the number of samples among different classes is heavily skewed. LTR methods aim to accurately learn a dataset comprising both a larger Head set and a smaller Tail set. We propose a theorem where under the assumption of strong convexity of the loss function, the weights of a learner trained on the full dataset are within an upper bound of the weights of the same learner trained strictly on the Head. Next, we assert that by treating the learning of the Head and Tail as two separate and sequential steps, Continual Learning (CL) methods can effectively update the weights of the learner to learn the Tail without forgetting the Head. First, we validate our theoretical findings with various experiments on the toy MNIST-LT dataset. We then evaluate the efficacy of several CL strategies on multiple imbalanced variations of two standard LTR benchmarks (CIFAR100-LT and CIFAR10-LT), and show that standard CL methods achieve strong performance gains in comparison to baselines and approach solutions that have been tailor-made for LTR. We also assess the applicability of CL techniques on real-world data by exploring CL on the naturally imbalanced Caltech256 dataset and demonstrate its superiority over state-of-the-art classifiers. Our work not only unifies LTR and CL but also paves the way for leveraging advances in CL methods to tackle the LTR challenge more effectively. | 翻訳日:2023-06-26 13:45:30 公開日:2023-06-23 |
# 実行時ドメイン破壊時の変動要因予測 Variational Counterfactual Prediction under Runtime Domain Corruption ( http://arxiv.org/abs/2306.13271v1 ) ライセンス: Link先を確認 | Hechuan Wen, Tong Chen, Li Kheng Chai, Shazia Sadiq, Junbin Gao, Hongzhi Yin | (参考訳) これまで、観測データに基づく因果効果推定のための様々なニューラルメソッドが提案されてきたが、デフォルトの仮定はトレーニングと推論(すなわちランタイム)の段階での変数の分散と可用性である。
しかし、分散シフト(すなわちドメインシフト)は実行中に起こり、変数のアクセシビリティが損なわれることから大きな課題が発生する。
これは一般的に、プライバシと倫理上の懸念の増加によって引き起こされ、ランタイムデータ全体において任意の変数が使用不能になり、インプテーションが非現実的になる。
ドメインシフトとアクセシブル変数の同時発生は、訓練された対実予測器の一般化を著しく損なう。
ランタイムドメインの腐敗に対抗するために、ドメイン適応の概念の下での偽の予測を仮定します。
具体的には、ソースドメインエラーとドメイン間分布距離の和により、ターゲットドメイン(すなわち実行時共変器)のエラーw.r.tを上界する。
さらに, VEGAN と名づけられた対向的に統一された変分因果効果モデルを構築し, 2段階の対向領域適応方式により, 処理群と制御群との潜時分布の差を低減し, その後の訓練と実行変数間の差を緩和する。
VEGANは、ベンチマークデータセット上でのランタイムドメインの破損の存在下で、個々のレベルの処理効果の推定において、他の最先端のベースラインよりも優れていることを示す。 To date, various neural methods have been proposed for causal effect estimation based on observational data, where a default assumption is the same distribution and availability of variables at both training and inference (i.e., runtime) stages. However, distribution shift (i.e., domain shift) could happen during runtime, and bigger challenges arise from the impaired accessibility of variables. This is commonly caused by increasing privacy and ethical concerns, which can make arbitrary variables unavailable in the entire runtime data and imputation impractical. We term the co-occurrence of domain shift and inaccessible variables runtime domain corruption, which seriously impairs the generalizability of a trained counterfactual predictor. To counter runtime domain corruption, we subsume counterfactual prediction under the notion of domain adaptation. Specifically, we upper-bound the error w.r.t. the target domain (i.e., runtime covariates) by the sum of source domain error and inter-domain distribution distance. In addition, we build an adversarially unified variational causal effect model, named VEGAN, with a novel two-stage adversarial domain adaptation scheme to reduce the latent distribution disparity between treated and control groups first, and between training and runtime variables afterwards. We demonstrate that VEGAN outperforms other state-of-the-art baselines on individual-level treatment effect estimation in the presence of runtime domain corruption on benchmark datasets. | 翻訳日:2023-06-26 13:45:03 公開日:2023-06-23 |
# 6次元物体ポーズ推定のための形状-constraint recurrent flow Shape-Constraint Recurrent Flow for 6D Object Pose Estimation ( http://arxiv.org/abs/2306.13266v1 ) ライセンス: Link先を確認 | Yang Hai, Rui Song, Jiaojiao Li, Yinlin Hu | (参考訳) 最近の6dオブジェクトポーズ法は、2d光学フローを使用して結果を洗練している。
しかし、一般的な光学フロー法は、マッチング中にターゲットの3次元形状情報を考慮しないため、6次元オブジェクトのポーズ推定では効果が低い。
本研究では,6次元オブジェクトポーズ推定のための形状制約リカレントマッチングフレームワークを提案する。
まず, ターゲットの3次元形状を暗黙的に埋め込んだ初期ポーズと現在推定されているポーズとの2次元再投影の変位に基づいて, ポーズ誘起流れを計算する。
次に、このポーズ誘起フローを用いて、以下のマッチングイテレーションの相関マップを構築し、マッチング空間を大幅に削減し、より学習しやすくする。
さらに,現在の推定フローに基づいてオブジェクトのポーズを学習するネットワークを用いて,次のイテレーションでのポーズ誘発フローの計算を容易にし,オブジェクトのポーズのエンドツーエンドシステムを生成する。
最後に、光学的流れと物体のポーズを同時に反復的に最適化する。
提案手法は,3つの挑戦的6次元オブジェクトポーズデータセットを用いて評価し,精度と効率の両面で高い性能を示すことを示す。 Most recent 6D object pose methods use 2D optical flow to refine their results. However, the general optical flow methods typically do not consider the target's 3D shape information during matching, making them less effective in 6D object pose estimation. In this work, we propose a shape-constraint recurrent matching framework for 6D object pose estimation. We first compute a pose-induced flow based on the displacement of 2D reprojection between the initial pose and the currently estimated pose, which embeds the target's 3D shape implicitly. Then we use this pose-induced flow to construct the correlation map for the following matching iterations, which reduces the matching space significantly and is much easier to learn. Furthermore, we use networks to learn the object pose based on the current estimated flow, which facilitates the computation of the pose-induced flow for the next iteration and yields an end-to-end system for object pose. Finally, we optimize the optical flow and object pose simultaneously in a recurrent manner. We evaluate our method on three challenging 6D object pose datasets and show that it outperforms the state of the art significantly in both accuracy and efficiency. | 翻訳日:2023-06-26 13:44:37 公開日:2023-06-23 |
# 非教師なし変形型超音波画像登録と血管分割への応用 Unsupervised Deformable Ultrasound Image Registration and Its Application for Vessel Segmentation ( http://arxiv.org/abs/2306.13329v1 ) ライセンス: Link先を確認 | FNU Abhimanyu, Andrew L. Orekhov, Ananya Bal, John Galeotti, Howie Choset | (参考訳) 本稿では,超音波画像のオンラインレートでの変形可能な登録のためのディープラーニングモデルを提案する。
その名前が示すように、U-RAFTは光の流れを推定するための畳み込みニューラルネットワークであるRAFTに基づいている。
しかし、U-RAFTは教師なしで訓練でき、船体セグメンテーションモデルを訓練するための合成画像を生成することができる。
U-RAFTを訓練するための異なる損失関数の登録品質を提案し比較する。
また,ロボットが強制制御スキャンを行うことで,人工変形画像を生成することで,手作業によるラベル付けを必要とせず,大腿血管分割訓練データセットのサイズを大幅に拡大できることを示す。
我々はシリコーンヒト組織ファントムとin-vivoブタ画像の両方にアプローチを検証した。
U-RAFTは, ファントムデータセットとブタデータセットの実際の超音波画像に対して, 98%と81%の構造類似度指数(SSIM)の合成超音波画像を生成する。
また,U-RAFTからの合成デフォルメ画像は,船体セグメンテーションモデルのためのデータ拡張手法として有効であることを示す。 This paper presents a deep-learning model for deformable registration of ultrasound images at online rates, which we call U-RAFT. As its name suggests, U-RAFT is based on RAFT, a convolutional neural network for estimating optical flow. U-RAFT, however, can be trained in an unsupervised manner and can generate synthetic images for training vessel segmentation models. We propose and compare the registration quality of different loss functions for training U-RAFT. We also show how our approach, together with a robot performing force-controlled scans, can be used to generate synthetic deformed images to significantly expand the size of a femoral vessel segmentation training dataset without the need for additional manual labeling. We validate our approach on both a silicone human tissue phantom as well as on in-vivo porcine images. We show that U-RAFT generates synthetic ultrasound images with 98% and 81% structural similarity index measure (SSIM) to the real ultrasound images for the phantom and porcine datasets, respectively. We also demonstrate that synthetic deformed images from U-RAFT can be used as a data augmentation technique for vessel segmentation models to improve intersection-over-union (IoU) segmentation performance | 翻訳日:2023-06-26 13:38:36 公開日:2023-06-23 |
# 微分表示型測光ステレオ Differentiable Display Photometric Stereo ( http://arxiv.org/abs/2306.13325v1 ) ライセンス: Link先を確認 | Seokjun Choi, Seungwoo Yoon, Giljoo Nam, Seungyong Lee, Seung-Hawn Baek | (参考訳) フォトメトリックステレオは、光度条件の変化を利用してピクセルごとの表面正常を再構成する。
従来のモニタを照明源として使用するディスプレイフォトメトリックステレオの概念は、かさばり、使いづらい従来の設定でしばしば発生する制限を克服する可能性がある。
本稿では,市販のモニターとカメラを用いた高忠実度ノーマルリコンストラクションを実現するため,DDPS(diffariable Display Photometric Stereo)を提案する。
ddpsは、フォトメトリックステレオにおける批判的だがしばしば無視される課題に対処している。
本稿では,フォトメトリックステレオ再構成法と基底照明画像形成を併用する微分可能なフレームワークを提案する。
これにより、ディスプレイパターンの学習が容易になり、自動微分による高品質な正常な再構築につながる。
エンドツーエンドの最適化に固有の合成ドメインギャップに対処し、3Dプリントオブジェクトからなる実世界の測光ステレオトレーニングデータセットを提案する。
さらに,光度ステレオの異常な性質を低減するために,モニタから放射される線形偏光を利用して,撮像画像中の拡散反射とスペクトル反射を光学的に分離する。
DDPSは、ターゲット設定に最適化されたディスプレイパターンを学習することができ、初期化に堅牢であることを示す。
本研究では,3次元プリントオブジェクトにおけるDDPSの評価を行い,DPSが効果的な測光ステレオ再構成を実現することを実証した。 Photometric stereo leverages variations in illumination conditions to reconstruct per-pixel surface normals. The concept of display photometric stereo, which employs a conventional monitor as an illumination source, has the potential to overcome limitations often encountered in bulky and difficult-to-use conventional setups. In this paper, we introduce Differentiable Display Photometric Stereo (DDPS), a method designed to achieve high-fidelity normal reconstruction using an off-the-shelf monitor and camera. DDPS addresses a critical yet often neglected challenge in photometric stereo: the optimization of display patterns for enhanced normal reconstruction. We present a differentiable framework that couples basis-illumination image formation with a photometric-stereo reconstruction method. This facilitates the learning of display patterns that leads to high-quality normal reconstruction through automatic differentiation. Addressing the synthetic-real domain gap inherent in end-to-end optimization, we propose the use of a real-world photometric-stereo training dataset composed of 3D-printed objects. Moreover, to reduce the ill-posed nature of photometric stereo, we exploit the linearly polarized light emitted from the monitor to optically separate diffuse and specular reflections in the captured images. We demonstrate that DDPS allows for learning display patterns optimized for a target configuration and is robust to initialization. We assess DDPS on 3D-printed objects with ground-truth normals and diverse real-world objects, validating that DDPS enables effective photometric-stereo reconstruction. | 翻訳日:2023-06-26 13:38:17 公開日:2023-06-23 |
# インテリジェント車両を用いた自動車レーダ自動校正 Automated Automotive Radar Calibration With Intelligent Vehicles ( http://arxiv.org/abs/2306.13323v1 ) ライセンス: Link先を確認 | Alexander Tsaregorodtsev, Michael Buchholz, Vasileios Belagiannis | (参考訳) 自動車用レーダセンサーは広く採用され、自動クルーズ制御や衝突回避タスクに使用されているが、車両以外の用途は限られている。
3D空間で複数の目標を解決できるため、レーダーは環境認識を改善するためにも使用できる。
しかし、この応用には正確なキャリブレーションが必要であり、これは通常、時間と労力のかかる作業である。
そこで本研究では,新しい仮説フィルタリング手法に基づく自動車用レーダーセンサの地中キャリブレーションの自動化と地中キャリブレーションについて述べる。
本手法では,車両の外部改造を必要とせず,自動走行車から得られる位置情報を利用する。
この位置データはフィルターされたセンサーデータと組み合わせてキャリブレーション仮説を生成する。
その後のフィルタリングと最適化は正しい校正を回復する。
本手法は,実地試験現場のデータを用いた評価により,インフラセンサの自動校正が可能となり,協調運転シナリオが可能となる。 While automotive radar sensors are widely adopted and have been used for automatic cruise control and collision avoidance tasks, their application outside of vehicles is still limited. As they have the ability to resolve multiple targets in 3D space, radars can also be used for improving environment perception. This application, however, requires a precise calibration, which is usually a time-consuming and labor-intensive task. We, therefore, present an approach for automated and geo-referenced extrinsic calibration of automotive radar sensors that is based on a novel hypothesis filtering scheme. Our method does not require external modifications of a vehicle and instead uses the location data obtained from automated vehicles. This location data is then combined with filtered sensor data to create calibration hypotheses. Subsequent filtering and optimization recovers the correct calibration. Our evaluation on data from a real testing site shows that our method can correctly calibrate infrastructure sensors in an automated manner, thus enabling cooperative driving scenarios. | 翻訳日:2023-06-26 13:37:56 公開日:2023-06-23 |
# 最小kochen-specker問題に対するsatソルバと計算機代数学攻撃 A SAT Solver and Computer Algebra Attack on the Minimum Kochen-Specker Problem ( http://arxiv.org/abs/2306.13319v1 ) ライセンス: Link先を確認 | Zhengyu Li, Curtis Bright, Vijay Ganesh | (参考訳) 量子力学における基礎的な結果の1つはkochen-specker(ks)定理であり、量子力学と一致する予測を持つ理論は文脈的、すなわち量子観測は既存の値を明らかにするものとしては理解できないと述べる。
この定理はKSベクトル系と呼ばれる数学的対象の存在に基づいている。
多くのKSベクトル系が存在することが知られているが、最小のKSベクトル系を見つけるという問題は、先進的な科学者や数学者による大きな試みにもかかわらず、55年以上も頑固に開かれている。
本稿では,SATソルバと計算機代数システム(CAS)を組み合わせた新しい手法を提案する。
提案手法は,KS系におけるベクトルの最小値の上限を22から24に改善し,従来の最適計算法に比べて約35,000倍効率が向上した。
効率の向上は、SATソルバの強力な組合せ探索と学習能力と、CASの等方性のない排他的生成手法を併用できるという事実から導かれる。
最小KSベクトルシステムの探求は、文脈性の実験的なテスト、ゼロエラー古典通信、次元目撃、特定の量子暗号プロトコルのセキュリティなど、無数の応用によって動機付けられている。
我々の知る限りでは、これは量子基礎の領域における問題への新しいSAT+CASシステムの最初の応用である。 One of the foundational results in quantum mechanics is the Kochen-Specker (KS) theorem, which states that any theory whose predictions agree with quantum mechanics must be contextual, i.e., a quantum observation cannot be understood as revealing a pre-existing value. The theorem hinges on the existence of a mathematical object called a KS vector system. While many KS vector systems are known to exist, the problem of finding the minimum KS vector system has remained stubbornly open for over 55 years, despite significant attempts by leading scientists and mathematicians. In this paper, we present a new method based on a combination of a SAT solver and a computer algebra system (CAS) to address this problem. Our approach improves the lower bound on the minimum number of vectors in a KS system from 22 to 24, and is about 35,000 times more efficient compared to the previous best computational methods. The increase in efficiency derives from the fact we are able to exploit the powerful combinatorial search-with-learning capabilities of a SAT solver together with the isomorph-free exhaustive generation methods of a CAS. The quest for the minimum KS vector system is motivated by myriad applications such as simplifying experimental tests of contextuality, zero-error classical communication, dimension witnessing, and the security of certain quantum cryptographic protocols. To the best of our knowledge, this is the first application of a novel SAT+CAS system to a problem in the realm of quantum foundations. | 翻訳日:2023-06-26 13:37:42 公開日:2023-06-23 |
# カットエッジNLP変換器とLSTMを用いたテキスト要約 Abstractive Text Summarization for Resumes With Cutting Edge NLP Transformers and LSTM ( http://arxiv.org/abs/2306.13315v1 ) ライセンス: Link先を確認 | \"Oyk\"u Berfin Mercan, Sena Nur Cavsak, Aysu Deliahmetoglu (Intern), Senem Tanberk | (参考訳) テキスト要約は、大量のテキスト情報を簡潔でコヒーレントな要約に凝縮することを目的とした自然言語処理の基本的なタスクである。
コンテンツの指数的増加とキー情報を効率的に抽出する必要性により,近年,テキスト要約が注目されている。
本研究では,オープンソースデータセット(Xsum,CNN/Daily Mail,Amazon Fine Food Review,News Summary)とプレトレーニング済みT5,Pegasus,BART,BART-Largeモデルのパフォーマンスを評価した。
この履歴データセットは、言語、教育、経験、個人情報、スキルなどの多くの情報で構成されており、このデータは75の履歴書を含んでいる。
本研究の目的は履歴文の分類であった。
LSTM、事前訓練モデル、微調整モデルなどの様々な手法を履歴書のデータセットを用いて評価した。
履歴データセットを微調整したBART-Largeモデルは最高の性能を示した。 Text summarization is a fundamental task in natural language processing that aims to condense large amounts of textual information into concise and coherent summaries. With the exponential growth of content and the need to extract key information efficiently, text summarization has gained significant attention in recent years. In this study, LSTM and pre-trained T5, Pegasus, BART and BART-Large model performances were evaluated on the open source dataset (Xsum, CNN/Daily Mail, Amazon Fine Food Review and News Summary) and the prepared resume dataset. This resume dataset consists of many information such as language, education, experience, personal information, skills, and this data includes 75 resumes. The primary objective of this research was to classify resume text. Various techniques such as LSTM, pre-trained models, and fine-tuned models were assessed using a dataset of resumes. The BART-Large model fine-tuned with the resume dataset gave the best performance. | 翻訳日:2023-06-26 13:37:17 公開日:2023-06-23 |
# リレーショナルトリプル抽出のための相互指導型ファウショット学習 Mutually Guided Few-shot Learning for Relational Triple Extraction ( http://arxiv.org/abs/2306.13310v1 ) ライセンス: Link先を確認 | Chengmei Yang, Shuai Jiang, Bowei He, Chen Ma, and Lianghua He | (参考訳) 多くのエンティティ関連性トリプルを含む知識グラフ(KG)は、下流アプリケーションに豊富な情報を提供する。
構造化されていないテキストからトリプルを抽出することは広く研究されているが、そのほとんどは多数のラベル付きインスタンスを必要とする。
ラベル付きデータが少ないと、パフォーマンスは劇的に低下します。
この問題に対処するため,Mutually Guided Few-shot Learning framework for Relational Triple extract (MG-FTE)を提案する。
具体的には、まず関係を分類するエンティティ誘導関係プロトデコーダと、その分類関係に基づいてエンティティを抽出する関係誘導関係プロトデコーダとからなる。
本稿では,エンティティ抽出と関係分類の両方の性能を高めるために,エンティティと関係の接続を図り,プロトレベルの融合モジュールを設計する。
さらに、新しいクロスドメインの複数ショットトリプル抽出タスクを導入する。
FewRel 1.0(単一ドメイン)では12.6F1、FewRel 2.0(クロスドメイン)では20.5F1のスコアで多くの最先端手法よりも優れていた。 Knowledge graphs (KGs), containing many entity-relation-entity triples, provide rich information for downstream applications. Although extracting triples from unstructured texts has been widely explored, most of them require a large number of labeled instances. The performance will drop dramatically when only few labeled data are available. To tackle this problem, we propose the Mutually Guided Few-shot learning framework for Relational Triple Extraction (MG-FTE). Specifically, our method consists of an entity-guided relation proto-decoder to classify the relations firstly and a relation-guided entity proto-decoder to extract entities based on the classified relations. To draw the connection between entity and relation, we design a proto-level fusion module to boost the performance of both entity extraction and relation classification. Moreover, a new cross-domain few-shot triple extraction task is introduced. Extensive experiments show that our method outperforms many state-of-the-art methods by 12.6 F1 score on FewRel 1.0 (single-domain) and 20.5 F1 score on FewRel 2.0 (cross-domain). | 翻訳日:2023-06-26 13:36:58 公開日:2023-06-23 |
# コンフォーメータトランスデューサ音声認識システムにおける効率的かつコンパクトなコンテクスト表現に向けて Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems ( http://arxiv.org/abs/2306.13307v1 ) ライセンス: Link先を確認 | Mingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin, Yutao Xie, Xie Chen, Xunying Liu | (参考訳) 現在のasrシステムは、主に発話レベルで訓練され、評価される。
長距離横断発話コンテキストを組み込むことができる。
重要なタスクは、最も関連する履歴コンテキストの適切なコンパクト表現を導出することである。
従来のlstm-rnn符号化履歴に基づく研究とは対照的に、より長い範囲のコンテキストからの情報を減衰させるlstm-rnn符号化履歴や、トランスフォーマーコンテキスト埋め込みのフレームレベル結合などとは対照的に、よりコンパクトな低次元クロス発話コンテキスト特徴をコンフォーメータトランスデューサエンコーダで学習し、先行発話履歴ベクトルを効率的にキャッシュする特別に設計された注意プーリング層を用いて学習する。
1000時間Gigaspeechコーパスの実験では、提案されたコンフォーマー・トランスデューサは、音声内部コンテキストを使用してベースラインを上回り、開発データとテストデータに対して統計的に有意なWERの0.7%から0.5%の絶対値(4.3%から3.1%の相対値)を減少させる。 Current ASR systems are mainly trained and evaluated at the utterance level. Long range cross utterance context can be incorporated. A key task is to derive a suitable compact representation of the most relevant history contexts. In contrast to previous researches based on either LSTM-RNN encoded histories that attenuate the information from longer range contexts, or frame level concatenation of transformer context embeddings, in this paper compact low-dimensional cross utterance contextual features are learned in the Conformer-Transducer Encoder using specially designed attention pooling layers that are applied over efficiently cached preceding utterances history vectors. Experiments on the 1000-hr Gigaspeech corpus demonstrate that the proposed contextualized streaming Conformer-Transducers outperform the baseline using utterance internal context only with statistically significant WER reductions of 0.7% to 0.5% absolute (4.3% to 3.1% relative) on the dev and test data. | 翻訳日:2023-06-26 13:36:37 公開日:2023-06-23 |
# ToolQA:外部ツールを用いたLCM質問回答用データセット ToolQA: A Dataset for LLM Question Answering with External Tools ( http://arxiv.org/abs/2306.13304v1 ) ライセンス: Link先を確認 | Yuchen Zhuang, Yue Yu, Kuan Wang, Haotian Sun, Chao Zhang | (参考訳) 大規模言語モデル(llm)は様々なnlpタスクにおいて印象的なパフォーマンスを示しているが、幻覚や弱い数値推論といった課題に苦しめられている。
これらの課題を克服するために、LLMの質問応答能力を高めるために外部ツールを使用することができる。
しかし、現在の評価方法は、llmsの内部知識を用いて回答できる質問と、ツールの使用を通じて外部情報を必要とする質問とを区別しない。
この問題に対処するため,質問応答に外部ツールを使用するLLMの能力を忠実に評価するToolQAというデータセットを導入した。
ToolQAの開発には、データセットキュレーションのためのスケーラブルで自動化されたプロセスと、質問に答えるために外部知識とのインタラクション用に設計された13の特別なツールが含まれていました。
重要なことは、ベンチマークデータとLLMの事前学習データの重複を最小限に抑え、LLMのツール使用推論能力をより正確に評価できるようにすることである。
既存のツール用LDMの詳細な診断を行い,その強度,弱点,潜在的な改善点を明らかにした。
本研究は,LSMの評価のための新しい評価基準を設定し,今後の進歩に向けた新たな方向性を提案する。
当社のデータとコードはGitHub上の広範な科学コミュニティで自由に利用できます。 Large Language Models (LLMs) have demonstrated impressive performance in various NLP tasks, but they still suffer from challenges such as hallucination and weak numerical reasoning. To overcome these challenges, external tools can be used to enhance LLMs' question-answering abilities. However, current evaluation methods do not distinguish between questions that can be answered using LLMs' internal knowledge and those that require external information through tool use. To address this issue, we introduce a new dataset called ToolQA, which is designed to faithfully evaluate LLMs' ability to use external tools for question answering. Our development of ToolQA involved a scalable, automated process for dataset curation, along with 13 specialized tools designed for interaction with external knowledge in order to answer questions. Importantly, we strive to minimize the overlap between our benchmark data and LLMs' pre-training data, enabling a more precise evaluation of LLMs' tool-use reasoning abilities. We conducted an in-depth diagnosis of existing tool-use LLMs to highlight their strengths, weaknesses, and potential improvements. Our findings set a new benchmark for evaluating LLMs and suggest new directions for future advancements. Our data and code are freely available to the broader scientific community on GitHub. | 翻訳日:2023-06-26 13:36:18 公開日:2023-06-23 |
# 自動運転の新技術の概要 An Overview about Emerging Technologies of Autonomous Driving ( http://arxiv.org/abs/2306.13302v1 ) ライセンス: Link先を確認 | Yu Huang, Yue Chen, Zijiang Yang | (参考訳) 2004年にDARPAがグランドチャレンジを始め、2007年にアーバンチャレンジを開始して以来、自動運転はAIアプリケーションの最も活発な分野となっている。
本稿では,自動運転技術とオープン問題の技術的側面について概説する。
本稿では,認識,マッピングとローカライゼーション,予測,計画と制御,シミュレーション,V2X,安全性など,自動運転システムの主要な分野について検討する。
特に私たちは,ロングテールの自動運転問題を解決するための一般的なプラットフォームであるdata closed loopのフレームワークで,これらすべての問題を詳しく説明しています。 Since DARPA started Grand Challenges in 2004 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. This paper gives an overview about technical aspects of autonomous driving technologies and open problems. We investigate the major fields of self-driving systems, such as perception, mapping and localization, prediction, planning and control, simulation, V2X and safety etc. Especially we elaborate on all these issues in a framework of data closed loop, a popular platform to solve the long tailed autonomous driving problems. | 翻訳日:2023-06-26 13:36:00 公開日:2023-06-23 |
# 胸部X線画像による胸部骨折の深部観察学習 Deep Omni-supervised Learning for Rib Fracture Detection from Chest Radiology Images ( http://arxiv.org/abs/2306.13301v1 ) ライセンス: Link先を確認 | Zhizhong Chai, Luyang Luo, Huangjing Lin, Pheng-Ann Heng, and Hao Chen | (参考訳) ディープラーニング(DL)に基づくリブ骨折検出は、死亡の予防と患者の予後改善に重要な役割を果たしている。
通常、dlベースのオブジェクト検出モデルの開発には、大量のバウンディングボックスアノテーションが必要です。
しかし、医療データの注釈付けは時間と専門知識を要し、大量の細かなアノテーションを得ることは極めて不可能である。
これは、放射線学者のラベル付け負担を軽減するために、ラベル効率のよい検出モデルを開発する必要性が強まる。
この課題に対処するために、オブジェクト検出の文献は、弱教師付きおよび半教師付きアプローチの増加を目撃しているが、完全なラベル付き、弱ラベル付き、未ラベルの様々な形式のデータを活用する統一されたフレームワークはいまだに欠けている。
本稿では,可能な限り利用可能な監視を活用すべく,新しい全教師付き物体検出ネットワーク orf-netv2 を提案する。
具体的には、特定の種類の監督で訓練された各ブランチに、マルチブランチ全監督検出ヘッドを導入する。
次に,弱ラベルデータと無ラベルデータから柔軟かつロバストに学習できるように,協調学習に基づく動的ラベル割当戦略を提案する。
胸部CTとX線の両方に3つの胸骨骨折データセットを付加し, 広範囲な評価を行った。
ORF-Netv2は3つのデータセットでそれぞれ34.7、44.7、19.4のmAPを達成し、それぞれ3.8、4.8、および5.0のmAPによるボックスアノテーションのみを使用するベースライン検出器を上回っている。
さらに、ORF-Netv2は、様々なシナリオにおいて、他の競合するラベル効率の手法よりも一貫して優れており、ラベル効率の高い破壊検出のための有望な枠組みを示している。 Deep learning (DL)-based rib fracture detection has shown promise of playing an important role in preventing mortality and improving patient outcome. Normally, developing DL-based object detection models requires huge amount of bounding box annotation. However, annotating medical data is time-consuming and expertise-demanding, making obtaining a large amount of fine-grained annotations extremely infeasible. This poses pressing need of developing label-efficient detection models to alleviate radiologists' labeling burden. To tackle this challenge, the literature of object detection has witnessed an increase of weakly-supervised and semi-supervised approaches, yet still lacks a unified framework that leverages various forms of fully-labeled, weakly-labeled, and unlabeled data. In this paper, we present a novel omni-supervised object detection network, ORF-Netv2, to leverage as much available supervision as possible. Specifically, a multi-branch omni-supervised detection head is introduced with each branch trained with a specific type of supervision. A co-training-based dynamic label assignment strategy is then proposed to enable flexibly and robustly learning from the weakly-labeled and unlabeled data. Extensively evaluation was conducted for the proposed framework with three rib fracture datasets on both chest CT and X-ray. By leveraging all forms of supervision, ORF-Netv2 achieves mAPs of 34.7, 44.7, and 19.4 on the three datasets, respectively, surpassing the baseline detector which uses only box annotations by mAP gains of 3.8, 4.8, and 5.0, respectively. Furthermore, ORF-Netv2 consistently outperforms other competitive label-efficient methods over various scenarios, showing a promising framework for label-efficient fracture detection. | 翻訳日:2023-06-26 13:35:51 公開日:2023-06-23 |
# クラスアクティベーションマップを用いた葉上の病変検出 Lesion Detection on Leaves using Class Activation Maps ( http://arxiv.org/abs/2306.13366v1 ) ライセンス: Link先を確認 | Enes Sadi Uysal, Deniz Sen, Ahmet Haydar Ornek, Ahmet Emin Yetkin | (参考訳) 植物葉の損傷検出は植物病理学や農業研究において重要な課題である。
病変の特定は、植物病の重症度を評価し、疾病対策や治療戦略に関する情報的判断を可能にする。
病変を検出するために、よく知られた物体検出器を提案する研究がある。
しかし、病変などの小さな物体を検出するための物体検出器の訓練は問題となる。
本研究では,ResNet-18分類器によって生成されたクラスアクティベーションマップを用いた植物葉の病変検出手法を提案する。
テストセットでは,葉の病変位置の予測において0.45成功率を達成した。
本研究では,resnet分類器が生成するcamsを利用して,植物葉の病変検出のための新しい手法を提案する。 Lesion detection on plant leaves is a critical task in plant pathology and agricultural research. Identifying lesions enables assessing the severity of plant diseases and making informed decisions regarding disease control measures and treatment strategies. To detect lesions, there are studies that propose well-known object detectors. However, training object detectors to detect small objects such as lesions can be problematic. In this study, we propose a method for lesion detection on plant leaves utilizing class activation maps generated by a ResNet-18 classifier. In the test set, we achieved a 0.45 success rate in predicting the locations of lesions in leaves. Our study presents a novel approach for lesion detection on plant leaves by utilizing CAMs generated by a ResNet classifier while eliminating the need for a lesion annotation process. | 翻訳日:2023-06-26 13:27:25 公開日:2023-06-23 |
# 学習した準曲面を持つニューラル360$^\circ$構造光 Neural 360$^\circ$ Structured Light with Learned Metasurfaces ( http://arxiv.org/abs/2306.13361v1 ) ライセンス: Link先を確認 | Eunsue Choi, Gyeongtae Kim, Jooyeong Yun, Yujin Jeon, Junseok Rho, Seung-Hwan Baek | (参考訳) 構造光は3Dイメージング、LiDAR、ホログラム光投射に役立っていることが証明されている。
準波長サイズのナノ構造からなる準曲面は180$^\circ$ field-of-view (FoV) 構造光を促進し、回折光学素子のような従来の光学系に固有の制限されたFoVを回避する。
しかし、現存するメタサーフェスフェシリット構造光は、エンドアプリケーションの目的を考慮しない周期ドットのようなヒューリスティックなパターン設計のため、下流タスクにおいて副最適性能を示す。
本稿では,学習した準曲面によって駆動されるニューラル360$^\circ$構造光について述べる。
本稿では,計算効率が180$^\circ$の波動伝播モデルとタスク固有の再構成器を包含する微分可能な枠組みを提案し,メタサーフェスの透過チャネルと反射チャネルの両方を利用する。
微分可能なフレームワーク内での1次オプティマイザを活用することで、準曲面設計を最適化し、ニューラルな360$^\circ$構造光を実現する。
我々はホログラフィック光投影と3次元イメージングにニューラル360$^\circ$構造光を利用した。
具体的には,rayleigh-sommerfeld伝播よりも5万ドル高速で計算的に評価可能な伝播モデルにより,複素パターンの最初の360$^\circ$光投射を実証する。
3次元イメージングでは、ヒューリスティックに設計された構造化光と比較して、rmseの深さ推定精度を5.9$\times$で向上する。
neural 360$^\circ$ structured lightは、ロボティクス、拡張現実システム、人間とコンピュータのインタラクションのためのロバストな360$^\circ$画像とディスプレイを約束する。 Structured light has proven instrumental in 3D imaging, LiDAR, and holographic light projection. Metasurfaces, comprised of sub-wavelength-sized nanostructures, facilitate 180$^\circ$ field-of-view (FoV) structured light, circumventing the restricted FoV inherent in traditional optics like diffractive optical elements. However, extant metasurface-facilitated structured light exhibits sub-optimal performance in downstream tasks, due to heuristic pattern designs such as periodic dots that do not consider the objectives of the end application. In this paper, we present neural 360$^\circ$ structured light, driven by learned metasurfaces. We propose a differentiable framework, that encompasses a computationally-efficient 180$^\circ$ wave propagation model and a task-specific reconstructor, and exploits both transmission and reflection channels of the metasurface. Leveraging a first-order optimizer within our differentiable framework, we optimize the metasurface design, thereby realizing neural 360$^\circ$ structured light. We have utilized neural 360$^\circ$ structured light for holographic light projection and 3D imaging. Specifically, we demonstrate the first 360$^\circ$ light projection of complex patterns, enabled by our propagation model that can be computationally evaluated 50,000$\times$ faster than the Rayleigh-Sommerfeld propagation. For 3D imaging, we improve depth-estimation accuracy by 5.09$\times$ in RMSE compared to the heuristically-designed structured light. Neural 360$^\circ$ structured light promises robust 360$^\circ$ imaging and display for robotics, extended-reality systems, and human-computer interactions. | 翻訳日:2023-06-26 13:27:15 公開日:2023-06-23 |
# キャッチ画像検索の一般化 Catching Image Retrieval Generalization ( http://arxiv.org/abs/2306.13357v1 ) ライセンス: Link先を確認 | Maksim Zhdanov, Ivan Karpukhin | (参考訳) オーバーフィットと一般化の概念は、機械学習モデルを評価する上で不可欠である。
本研究では、一般的なRecall@Kメトリックがデータセット内のクラス数に依存することを示し、一般化を推定する能力を制限する。
この問題を解決するために,検索性能を測定し,Recall@Kと異なり一般化を推定する新しい指標を提案する。
提案手法を一般的な画像検索手法に適用し,ディープラーニングの一般化に関する新たな知見を提供する。 The concepts of overfitting and generalization are vital for evaluating machine learning models. In this work, we show that the popular Recall@K metric depends on the number of classes in the dataset, which limits its ability to estimate generalization. To fix this issue, we propose a new metric, which measures retrieval performance, and, unlike Recall@K, estimates generalization. We apply the proposed metric to popular image retrieval methods and provide new insights about deep metric learning generalization. | 翻訳日:2023-06-26 13:26:47 公開日:2023-06-23 |
# 作業の準確率分布に対する時間-逆対称性に関する一考察 A note on the time-reversal symmetry for the quasiprobability distributions of work ( http://arxiv.org/abs/2306.13353v1 ) ライセンス: Link先を確認 | Gianluca Francica | (参考訳) 本稿では,作業の準確率分布の時間反転について述べる。 In this short note we discuss the time-reversal of a quasiprobability distribution of work. | 翻訳日:2023-06-26 13:26:40 公開日:2023-06-23 |
# 多目的最適化に基づく薬物標的同定のためのネットワーク制御原理 Multi-objective optimization based network control principles for identifying personalized drug targets with cancer ( http://arxiv.org/abs/2306.13349v1 ) ライセンス: Link先を確認 | Jing Liang, Zhuo Hu, Zong-Wei Li, Kang-Jia Qiao, Wei-Feng Guo | (参考訳) 個人患者の高次元パーソナライズされたゲノムプロファイルからパーソナライズドドラッグターゲット(PDT)を特定するための効率的なモデルを開発することは大きな課題である。
最近の構造的ネットワーク制御の原則は、パーソナライズされた遺伝子相互作用ネットワーク(PGIN)において最適なドライバ遺伝子群を選択することによって、PDTを発見する新しいアプローチを導入した。
しかし、現在の手法のほとんどは、最小のドライバノードセットによるシステム制御にのみ焦点を合わせており、pginにおける治療薬ターゲット識別のための複数のドライバーノードセットの存在を無視している。
そこで本稿では,最小ドライバノードと最大既知薬物ターゲット情報を考慮して,多目的最適化に基づく構造的ネットワーク制御原理(moncp)を提案する。
MONCPを解くために、多くの制約変数で離散多目的最適化問題を定式化し、マルチタスクフレームワークとランキングベースの適合関数法を適用してLSCV-MCEAと呼ばれる新しい進化的最適化モデルを開発した。
The Cancer Genome Atlas databaseによる乳癌または肺癌患者のゲノムデータを用いてLSCV-MCEAの有効性を検証した。
実験の結果,LSCV-MCEAは,他の先進的な方法と比較して,Curve スコアが最も高い領域の PDT をより効果的に同定し,臨床的にアノテートされた組合せ薬を予測できることが示唆された。
一方、LSCV-MCEAはアルゴリズムの収束と多様性の観点から、他の進化的最適化手法よりも効果的にMONCPを解くことができる。
特に、LSCV-MCEAはBRCA癌患者の疾患信号を効率的に検出することができる。
本研究は,多目的最適化が構造的ネットワーク制御原理を効果的に解決し,癌精密医学における腫瘍異種性を理解するための新たな視点を提供することを示す。 It is a big challenge to develop efficient models for identifying personalized drug targets (PDTs) from high-dimensional personalized genomic profile of individual patients. Recent structural network control principles have introduced a new approach to discover PDTs by selecting an optimal set of driver genes in personalized gene interaction network (PGIN). However, most of current methods only focus on controlling the system through a minimum driver-node set and ignore the existence of multiple candidate driver-node sets for therapeutic drug target identification in PGIN. Therefore, this paper proposed multi-objective optimization-based structural network control principles (MONCP) by considering minimum driver nodes and maximum prior-known drug-target information. To solve MONCP, a discrete multi-objective optimization problem is formulated with many constrained variables, and a novel evolutionary optimization model called LSCV-MCEA was developed by adapting a multi-tasking framework and a rankings-based fitness function method. With genomics data of patients with breast or lung cancer from The Cancer Genome Atlas database, the effectiveness of LSCV-MCEA was validated. The experimental results indicated that compared with other advanced methods, LSCV-MCEA can more effectively identify PDTs with the highest Area Under the Curve score for predicting clinically annotated combinatorial drugs. Meanwhile, LSCV-MCEA can more effectively solve MONCP than other evolutionary optimization methods in terms of algorithm convergence and diversity. Particularly, LSCV-MCEA can efficiently detect disease signals for individual patients with BRCA cancer. The study results show that multi-objective optimization can solve structural network control principles effectively and offer a new perspective for understanding tumor heterogeneity in cancer precision medicine. | 翻訳日:2023-06-26 13:26:39 公開日:2023-06-23 |
# 不確実性制御と最適サンプリングによる融点計算のための物理インフォームドAI法 A physics-informed AI method for calculating melting points with uncertainty control and optimal sampling ( http://arxiv.org/abs/2306.13345v1 ) ライセンス: Link先を確認 | Olga Klimanova, Timofei Miryashkin, Alexander Shapeev | (参考訳) NPTアンサンブルにおける共存シミュレーションに基づいて,融点の自動計算を行う人工知能(AI)手法を提案する。
原子間相互作用モデルに基づき、シミュレーションを行う原子の数と温度について決定を行い、収集されたデータに基づいて不確実性とともに融点を予測し、より多くのデータで体系的に改善することができる。
固液共存進化の物理モデルを統合することで、AI手法の精度が向上し、最適な意思決定が予測の不確実性を効果的に低減できることを示す。
提案手法を検証するため,論文から得られた約20個の融点計算との比較を行った。
注目すべきは、約3分の1のケースにおいて重要な偏差を観測し、材料資産計算のための正確で信頼性の高いAIベースのアルゴリズムの必要性を強調することである。 We present an artificial intelligence (AI) method for automatically computing the melting point based on coexistence simulations in the NPT ensemble. Given the interatomic interaction model, the method makes decisions regarding the number of atoms and temperature at which to conduct simulations, and based on the collected data predicts the melting point along with the uncertainty, which can be systematically improved with more data. We demonstrate how incorporating physical models of the solid-liquid coexistence evolution enhances the AI method's accuracy and enables optimal decision-making to effectively reduce predictive uncertainty. To validate our approach, we compare our results with approximately 20 melting point calculations from the literature. Remarkably, we observe significant deviations in about one-third of the cases, underscoring the need for accurate and reliable AI-based algorithms for materials property calculations. | 翻訳日:2023-06-26 13:26:10 公開日:2023-06-23 |
# TrustGuard: 動的サポートを備えたGNNベースのロバストと説明可能な信頼評価 TrustGuard: GNN-based Robust and Explainable Trust Evaluation with Dynamicity Support ( http://arxiv.org/abs/2306.13339v1 ) ライセンス: Link先を確認 | Jie Wang, Zheng Yan, Jiahe Lan, Elisa Bertino, Witold Pedrycz | (参考訳) 信頼評価は、エンティティ間の信頼関係を評価し、意思決定を促進する。
機械学習(ML)は、その学習能力による信頼評価の大きな可能性を示している。
近年、新しいMLパラダイムであるグラフニューラルネットワーク(GNN)は、グラフデータを扱う上で優位性を示している。
これにより,信頼関係をグラフとしてモデル化できるため,信頼評価の活用を研究者が検討する動機となった。
しかし,gnnを用いた現在の信頼評価手法では,信頼の動的な性質を完全に満足できず,信頼評価に対する攻撃の悪影響を見落とし,評価結果に対する説得力のある説明が得られていない。
本稿では,信頼の動的性を支援するgnnベースの信頼評価モデルであるtrustguardを提案する。
具体的には、TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層構造で設計されている。
このうち、空間集約層を局所信頼関係の堅牢な集約のための防衛機構に差し込むことができ、時間集約層は時間的パターンの効果的な学習のための注意機構を適用する。
2つの実世界のデータセットに対する大規模な実験によると、TrustGuardは、攻撃があっても、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れている。
特にTrustGuardは、空間的視点と時間的視点の両方を可視化することで評価結果を説明することができる。 Trust evaluation assesses trust relationships between entities and facilitates decision-making. Machine Learning (ML) shows great potential for trust evaluation owing to its learning capabilities. In recent years, Graph Neural Networks (GNNs), as a new ML paradigm, have demonstrated superiority in dealing with graph data. This has motivated researchers to explore their use in trust evaluation, as trust relationships among entities can be modeled as a graph. However, current trust evaluation methods that employ GNNs fail to fully satisfy the dynamicity nature of trust, overlook the adverse effects of attacks on trust evaluation, and cannot provide convincing explanations on evaluation results. To address these problems, in this paper, we propose TrustGuard, a GNN-based accurate trust evaluation model that supports trust dynamicity, is robust against typical attacks, and provides explanations through visualization. Specifically, TrustGuard is designed with a layered architecture that contains a snapshot input layer, a spatial aggregation layer, a temporal aggregation layer, and a prediction layer. Among them, the spatial aggregation layer can be plugged into a defense mechanism for a robust aggregation of local trust relationships, and the temporal aggregation layer applies an attention mechanism for effective learning of temporal patterns. Extensive experiments on two real-world datasets show that TrustGuard outperforms state-of-the-art GNN-based trust evaluation models with respect to trust prediction across single-timeslot and multi-timeslot, even in the presence of attacks. In particular, TrustGuard can explain its evaluation results by visualizing both spatial and temporal views. | 翻訳日:2023-06-26 13:25:55 公開日:2023-06-23 |
# 高精度・高密度コントラスト表現学習のためのパッチ対応のないパッチレベルコントラスト Patch-Level Contrasting without Patch Correspondence for Accurate and Dense Contrastive Representation Learning ( http://arxiv.org/abs/2306.13337v1 ) ライセンス: Link先を確認 | Shaofeng Zhang, Feng Zhu, Rui Zhao, Junchi Yan | (参考訳) 本稿では, 高精度で高密度な視覚表現を学習するための, 自己教師型学習フレームワークADCLRを提案する。
空間感性情報を抽出するために、ADCLRはグローバルコントラストに加えてコントラストのためのクエリパッチを導入している。
従来の高密度コントラスト法と比較して、ADCLRは主に3つのメリットがある。
一 グローバル識別及び空間感応表現の両立を図ること。
二 モデル効率(グローバルコントラストベースラインに加えて余分なパラメータを含まないこと。)及び
三 通信不要で、従って実施し易いこと。
提案手法は,コントラスト手法の最先端性能を実現する。
分類タスクでは、VT-Sの場合、ADCLRはイメージネットの77.5%のトップ-1精度を線形プローブで達成し、プラグインとして考案されたテクニックを使わずにベースライン(DINO)を0.5%上回った。
ViT-B の場合、ADCLR は 79.8%、84.0% の精度を ImageNet 上で線形プローブとファインチューンで達成し、iBOT を 0.3%、精度 0.2% で上回っている。
MS-COCOでは、ADCLRはオブジェクト検出における44.3%のAP、インスタンスセグメンテーションにおける39.7%のAPを大幅に改善し、以前のSOTAメソッドであるSelfPatchの2.2%と1.2%を上回った。
ADE20KではADCLRがSelfPatchを1.0% mIoU, 1.2% mAccで上回る We propose ADCLR: A ccurate and D ense Contrastive Representation Learning, a novel self-supervised learning framework for learning accurate and dense vision representation. To extract spatial-sensitive information, ADCLR introduces query patches for contrasting in addition with global contrasting. Compared with previous dense contrasting methods, ADCLR mainly enjoys three merits: i) achieving both global-discriminative and spatial-sensitive representation, ii) model-efficient (no extra parameters in addition to the global contrasting baseline), and iii) correspondence-free and thus simpler to implement. Our approach achieves new state-of-the-art performance for contrastive methods. On classification tasks, for ViT-S, ADCLR achieves 77.5% top-1 accuracy on ImageNet with linear probing, outperforming our baseline (DINO) without our devised techniques as plug-in, by 0.5%. For ViT-B, ADCLR achieves 79.8%, 84.0% accuracy on ImageNet by linear probing and finetune, outperforming iBOT by 0.3%, 0.2% accuracy. For dense tasks, on MS-COCO, ADCLR achieves significant improvements of 44.3% AP on object detection, 39.7% AP on instance segmentation, outperforming previous SOTA method SelfPatch by 2.2% and 1.2%, respectively. On ADE20K, ADCLR outperforms SelfPatch by 1.0% mIoU, 1.2% mAcc on the segme | 翻訳日:2023-06-26 13:25:29 公開日:2023-06-23 |
# 複数VAVオープンオフィスにおけるHVACシステムのエネルギー最適化 : 深層強化学習アプローチ Energy Optimization for HVAC Systems in Multi-VAV Open Offices: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2306.13333v1 ) ライセンス: Link先を確認 | Hao Wang, Xiwen Chen, Natan Vital, Edward.Duffy, Abolfazl Razi | (参考訳) 地球規模のエネルギーの32%以上が商業ビルや住宅ビルで使われており、ビル・エナジー・マネジメント(BEM)への伝統的なアプローチを再検討する必要がある。
商業部門全体のエネルギーコストの約40%をhvacシステムが占めており、少数の制御可能かつアクセス可能な要素のみを使用するオープンプランオフィスのhvacエネルギー最適化のために、マルチインプットマルチアウトプットアーキテクチャを備えた、低複雑さのdrlベースモデルを提案する。
本ソリューションの有効性は,実ビルにおける既存の空調スケジュールに基づくベースラインシステムと比較し,全エネルギー消費と熱快適度を広範囲に分析することにより評価した。
本手法は, 所望温度範囲の最低値(<1%) で, 省エネ効果の37%を達成できることを示す。
性能の優れたネットワークを訓練し、その低複雑さアーキテクチャの多様な条件をカバーするのに5エポック(エポックあたり約7.75分)の合計40分しかかからないため、建築設備、気象条件、占有率などの変更に容易に対応できる。
さらに,制御戦略のスムーズさを強制することにより,HVACユニットの頻繁かつ不快なオン/オフ遷移を抑えることで,システムに対する不快感や潜在的ダメージを回避する。
本モデルの汎用性は, 異なる建築モデルに適用し, 様々な気象条件下で検証した。 With more than 32% of the global energy used by commercial and residential buildings, there is an urgent need to revisit traditional approaches to Building Energy Management (BEM). With HVAC systems accounting for about 40% of the total energy cost in the commercial sector, we propose a low-complexity DRL-based model with multi-input multi-output architecture for the HVAC energy optimization of open-plan offices, which uses only a handful of controllable and accessible factors. The efficacy of our solution is evaluated through extensive analysis of the overall energy consumption and thermal comfort levels compared to a baseline system based on the existing HVAC schedule in a real building. This comparison shows that our method achieves 37% savings in energy consumption with minimum violation (<1%) of the desired temperature range during work hours. It takes only a total of 40 minutes for 5 epochs (about 7.75 minutes per epoch) to train a network with superior performance and covering diverse conditions for its low-complexity architecture; therefore, it easily adapts to changes in the building setups, weather conditions, occupancy rate, etc. Moreover, by enforcing smoothness on the control strategy, we suppress the frequent and unpleasant on/off transitions on HVAC units to avoid occupant discomfort and potential damage to the system. The generalizability of our model is verified by applying it to different building models and under various weather conditions. | 翻訳日:2023-06-26 13:25:01 公開日:2023-06-23 |
# 超音波画像における呼吸運動補償のための教師なし変形画像登録 Unsupervised Deformable Image Registration for Respiratory Motion Compensation in Ultrasound Images ( http://arxiv.org/abs/2306.13332v1 ) ライセンス: Link先を確認 | FNU Abhimanyu, Andrew L. Orekhov, John Galeotti, Howie Choset | (参考訳) 本稿では,超音波画像の変形可能な登録のための新しいディープラーニングモデルと,このモデルの教師なし学習手法を提案する。
我々のネットワークは、全対フィールド変換(RAFT)と空間トランスフォーマーネットワーク(STN)を用いて、オンラインレート(約30Hz)で変位場を生成し、ピクセルの動きを正確に追跡する。
本手法は,U-RAFT (unsupervised recurrent all-pairs field transforms) と呼ぶ。
本研究では,U-RAFTを用いて超音波画像の連続したピクセルの追跡を行い,肺超音波画像の呼吸運動をキャンセルする。
本手法をin-vivo porcine lung videoで実証する。
呼吸運動補償戦略を用いて,ブタのデータセットの平均ピクセル移動量は76%減少した。
U-RAFTは、変形可能な組織の超音波画像において呼吸や心拍などの様々な動きを補償するための有望なツールであると考えています。 In this paper, we present a novel deep-learning model for deformable registration of ultrasound images and an unsupervised approach to training this model. Our network employs recurrent all-pairs field transforms (RAFT) and a spatial transformer network (STN) to generate displacement fields at online rates (apprx. 30 Hz) and accurately track pixel movement. We call our approach unsupervised recurrent all-pairs field transforms (U-RAFT). In this work, we use U-RAFT to track pixels in a sequence of ultrasound images to cancel out respiratory motion in lung ultrasound images. We demonstrate our method on in-vivo porcine lung videos. We show a reduction of 76% in average pixel movement in the porcine dataset using respiratory motion compensation strategy. We believe U-RAFT is a promising tool for compensating different kinds of motions like respiration and heartbeat in ultrasound images of deformable tissue. | 翻訳日:2023-06-26 13:24:37 公開日:2023-06-23 |
# 電力グリッドにおける強制振動源位置の高次モチーフに基づく時系列分類 Higher-order Motif-based Time Series Classification for Forced Oscillation Source Location in Power Grids ( http://arxiv.org/abs/2306.13397v1 ) ライセンス: Link先を確認 | Long Huo and Xin Chen | (参考訳) 時系列モチーフは、時系列データの高次構造を発見するために用いられる。
時系列のモチーフに基づいて,動的系時系列の高次時間構造を特徴づけるモチーフ埋め込み相関場(MECF)を提案する。
MECFに基づく教師なし学習アプローチは、電力グリッドに有害な周期的障害である強制発振(FO)の発生源の特定に応用される。
FOソースの配置はシステムの安定性に不可欠である。
フーリエ解析と比較して、MECFに基づく教師なし学習は、単一FO、共振を持つFO、複数のソースFOを含む様々なFO状況下で適用可能である。
MECFベースの教師なし学習は、システムモデルや型学の事前知識を必要としない、データ駆動型アプローチである。
英国の高電圧送電網での試験は、MECFベースの教師なし学習の有効性を示している。
さらに,MECFに基づく教師なし学習によるFO源の位置推定における結合強度と測定ノイズの影響について検討した。 Time series motifs are used for discovering higher-order structures of time series data. Based on time series motifs, the motif embedding correlation field (MECF) is proposed to characterize higher-order temporal structures of dynamical system time series. A MECF-based unsupervised learning approach is applied in locating the source of the forced oscillation (FO), a periodic disturbance that detrimentally impacts power grids. Locating the FO source is imperative for system stability. Compared with the Fourier analysis, the MECF-based unsupervised learning is applicable under various FO situations, including the single FO, FO with resonance, and multiple sources FOs. The MECF-based unsupervised learning is a data-driven approach without any prior knowledge requirement of system models or typologies. Tests on the UK high-voltage transmission grid illustrate the effectiveness of MECF-based unsupervised learning. In addition, the impacts of coupling strength and measurement noise on locating the FO source by the MECF-based unsupervised learning are investigated. | 翻訳日:2023-06-26 13:19:20 公開日:2023-06-23 |
# 移動した没入境界を持つ系の物理インフォームドニューラルネットワークモデリング:プラグングフォイルを過ぎる非定常流れへの適用 Physics-informed neural networks modeling for systems with moving immersed boundaries: application to an unsteady flow past a plunging foil ( http://arxiv.org/abs/2306.13395v1 ) ライセンス: Link先を確認 | Rahul Sundar, Dipanjan Majumdar, Didier Lucor and Sunetra Sarkar | (参考訳) 近年、物理情報ニューラルネットワーク(PINN)は、様々な前方および逆問題の解決と流体力学応用におけるクエリの容易化のために広く研究されている。
しかし、羽ばたき翼などの移動体を通過する非定常流に対するピンの作業は少ない。
初期の研究は主に、複数の移動体や変形構造を扱うために制限された参照フレームへの移動に依存していた。
そこで本研究では,非定常流れを移動する物体の代理モデルを構築するための境界認識フレームワークについて検討した。
具体的には,Immersed boundary method (IBM) シミュレーションデータから同時に圧力回復と速度再構成を行った。
ibmのデータに対して速度再構成の有効性が検証されてきたが、さらに一歩進めて、回復した圧力を任意のラグランジュオイラー(ale)ベースの解法と比較した。
このフレームワークでは、2つのPINNバージョンがある。
(i)移動バウンダリ対応標準Navier-StokesベースPINN(MB-PINN)及び
(II) 移動バウンダリ対応IBMベースPINN (MB-IBM-PINN) を策定した。
MB-IBM-PINNにおける物理損失の流体-固体分配は, トレーニング中の固体点の影響を調べるために許されている。
これにより、MB-IBM-PINNは、特定の損失重み付け条件下でのMB-PINNの性能と一致させることができる。
MB-PINN は MB-IBM-PINN より優れていることが判明した。
MB-PINNのデータ効率を向上させるため,物理に基づくデータサンプリング手法も検討されている。
物理制約緩和と物理に基づくサンプリングの適切な組み合わせは、固定的なトレーニング予算の下で、すべてのデータポイントを使用する場合に匹敵するモデル性能を達成することができる。 Recently, physics informed neural networks (PINNs) have been explored extensively for solving various forward and inverse problems and facilitating querying applications in fluid mechanics applications. However, work on PINNs for unsteady flows past moving bodies, such as flapping wings is scarce. Earlier studies mostly relied on transferring to a body attached frame of reference which is restrictive towards handling multiple moving bodies or deforming structures. Hence, in the present work, an immersed boundary aware framework has been explored for developing surrogate models for unsteady flows past moving bodies. Specifically, simultaneous pressure recovery and velocity reconstruction from Immersed boundary method (IBM) simulation data has been investigated. While, efficacy of velocity reconstruction has been tested against the fine resolution IBM data, as a step further, the pressure recovered was compared with that of an arbitrary Lagrange Eulerian (ALE) based solver. Under this framework, two PINN variants, (i) a moving-boundary-enabled standard Navier-Stokes based PINN (MB-PINN), and, (ii) a moving-boundary-enabled IBM based PINN (MB-IBM-PINN) have been formulated. A fluid-solid partitioning of the physics losses in MB-IBM-PINN has been allowed, in order to investigate the effects of solid body points while training. This enables MB-IBM-PINN to match with the performance of MB-PINN under certain loss weighting conditions. MB-PINN is found to be superior to MB-IBM-PINN when {\it a priori} knowledge of the solid body position and velocity are available. To improve the data efficiency of MB-PINN, a physics based data sampling technique has also been investigated. It is observed that a suitable combination of physics constraint relaxation and physics based sampling can achieve a model performance comparable to the case of using all the data points, under a fixed training budget. | 翻訳日:2023-06-26 13:19:05 公開日:2023-06-23 |
# mme:マルチモーダル大規模言語モデルのための総合評価ベンチマーク MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2306.13394v1 ) ライセンス: Link先を確認 | Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Rongrong Ji | (参考訳) MLLM(Multimodal Large Language Model)は、マルチモーダルなタスクを実行するための強力なLLMに依存しており、画像に基づいた詩を書くなど、近年の研究において驚くべき創発的な能力を示している。
しかし、これらのケーススタディは、総合的な評価を欠いて、MLLMの性能を完全に反映することは困難である。
本稿では、この空白を埋め、最初のmllm評価ベンチマークmmeを提示する。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
評価に公開データセットを直接使用することから生じるデータ漏洩を避けるため、インストラクション・アンサーペアのアノテーションはすべて手動で設計されている。
簡潔な命令設計により、迅速なエンジニアリングに苦しむのではなく、MLLMを適切に比較することができる。
また、このような指示により、量的統計も容易に行うことができる。
これまでに10個のMLLMを総合的に評価した結果,既存のMLLMには改善の余地がまだ大きいだけでなく,その後のモデル最適化の可能性も明らかとなった。 Multimodal Large Language Model (MLLM) relies on the powerful LLM to perform multimodal tasks, showing amazing emergent abilities in recent studies, such as writing poems based on an image. However, it is difficult for these case studies to fully reflect the performance of MLLM, lacking a comprehensive evaluation. In this paper, we fill in this blank, presenting the first MLLM Evaluation benchmark MME. It measures both perception and cognition abilities on a total of 14 subtasks. In order to avoid data leakage that may arise from direct use of public datasets for evaluation, the annotations of instruction-answer pairs are all manually designed. The concise instruction design allows us to fairly compare MLLMs, instead of struggling in prompt engineering. Besides, with such an instruction, we can also easily carry out quantitative statistics. A total of 10 advanced MLLMs are comprehensively evaluated on our MME, which not only suggests that existing MLLMs still have a large room for improvement, but also reveals the potential directions for the subsequent model optimization. | 翻訳日:2023-06-26 13:18:11 公開日:2023-06-23 |
# DiffInfinite: Parallel Random Patch Diffusionによる大きなマスク画像合成 DiffInfinite: Large Mask-Image Synthesis via Parallel Random Patch Diffusion in Histopathology ( http://arxiv.org/abs/2306.13384v1 ) ライセンス: Link先を確認 | Marco Aversa, Gabriel Nobis, Miriam H\"agele, Kai Standvoss, Mihaela Chirica, Roderick Murray-Smith, Ahmed Alaa, Lukas Ruff, Daniela Ivanova, Wojciech Samek, Frederick Klauschen, Bruno Sanguinetti, Luis Oala | (参考訳) 長距離相関構造情報を保存しながら任意に大きな組織像を生成する階層拡散モデルdiffinfiniteを提案する。
提案手法は,まず合成セグメンテーションマスクを生成し,その後高忠実度生成拡散過程の条件として用いる。
提案手法は,任意の画像サイズにスケールアップできるが,高速トレーニングには小さなパッチのみが必要である。
さらに、タイリングアーチファクトを回避しつつ、従来の大容量生成方法よりも効率的に並列化することができる。
このトレーニングでは、分類器なしのガイダンスを活用して、小さな、わずかに注釈付けされたデータセットを、ラベルのないデータで拡張する。
本手法は, 大規模情報, 高価な手動アノテーション, 保護データ処理など, 病理画像学の実践における固有の課題を軽減する。
DiffInfinite Dataの生物学的妥当性は、経験豊富な10人の病理学者による調査および下流セグメンテーションタスクで検証された。
さらに,このモデルでは,患者データの保護に有用な反コピー指標を強く評価する。 We present DiffInfinite, a hierarchical diffusion model that generates arbitrarily large histological images while preserving long-range correlation structural information. Our approach first generates synthetic segmentation masks, subsequently used as conditions for the high-fidelity generative diffusion process. The proposed sampling method can be scaled up to any desired image size while only requiring small patches for fast training. Moreover, it can be parallelized more efficiently than previous large-content generation methods while avoiding tiling artefacts. The training leverages classifier-free guidance to augment a small, sparsely annotated dataset with unlabelled data. Our method alleviates unique challenges in histopathological imaging practice: large-scale information, costly manual annotation, and protective data handling. The biological plausibility of DiffInfinite data is validated in a survey by ten experienced pathologists as well as a downstream segmentation task. Furthermore, the model scores strongly on anti-copying metrics which is beneficial for the protection of patient data. | 翻訳日:2023-06-26 13:17:25 公開日:2023-06-23 |
# 人間の入力による世界的解釈可能なモデルの作成 Co-creating a globally interpretable model with human input ( http://arxiv.org/abs/2306.13381v1 ) ライセンス: Link先を確認 | Rahul Nair | (参考訳) 共同解釈モデルの作成を目的とした,人間-aiコラボレーションの集約について検討する。
このモデルはブール決定規則(Boolean decision rules)の形式で、人間の入力は論理的な条件や部分的なテンプレートの形で提供される。
このモデルの構築に焦点を合わせることで、共同意思決定に関して異なる視点が得られます。
これまでの取り組みでは、意思決定ロジックよりも結果の集約に重点を置いてきた。
提案手法を2つの例で示すとともに,アプローチの有用性と課題を強調した。 We consider an aggregated human-AI collaboration aimed at generating a joint interpretable model. The model takes the form of Boolean decision rules, where human input is provided in the form of logical conditions or as partial templates. This focus on the combined construction of a model offers a different perspective on joint decision making. Previous efforts have typically focused on aggregating outcomes rather than decisions logic. We demonstrate the proposed approach through two examples and highlight the usefulness and challenges of the approach. | 翻訳日:2023-06-26 13:16:52 公開日:2023-06-23 |
# cvpr'2023 aqtcチャレンジの第1位:時空間視覚言語アライメントを用いた機能-相互作用中心アプローチ First Place Solution to the CVPR'2023 AQTC Challenge: A Function-Interaction Centric Approach with Spatiotemporal Visual-Language Alignment ( http://arxiv.org/abs/2306.13380v1 ) ライセンス: Link先を確認 | Tom Tongjia Chen, Hongshan Yu, Zhengeng Yang, Ming Li, Zechuan Li, Jingwen Wang, Wei Miao, Wei Sun, Chen Chen | (参考訳) AQTC(Affordance-Centric Question-driven Task Completion)は、ビデオから知識を取得し、包括的で体系的な指示をユーザに与えるために提案されている。
しかし、既存の手法では、時空間的視覚信号と言語信号の整合の必要性や、人間と物体間の重要な相互作用情報を無視している。
これらの制約に対処するため,我々は,安定で信頼性の高いマルチモーダルデータを提供し,有効な時空間的視覚・テキストアライメントを容易にする,大規模事前学習された視覚言語モデルとビデオ言語モデルを組み合わせることを提案する。
また,人-物間相互作用情報を収集し,提示されたシナリオを理解する能力をさらに増強する,新たな手-物-相互作用(HOI)アグリゲーションモジュールを提案する。
本手法はcvpr'2023 aqtcチャレンジで78.7\%のリコール@1スコアで1位となった。
コードはhttps://github.com/tomchen-ctj/CVPR23-LOVEU-AQTCで公開されている。 Affordance-Centric Question-driven Task Completion (AQTC) has been proposed to acquire knowledge from videos to furnish users with comprehensive and systematic instructions. However, existing methods have hitherto neglected the necessity of aligning spatiotemporal visual and linguistic signals, as well as the crucial interactional information between humans and objects. To tackle these limitations, we propose to combine large-scale pre-trained vision-language and video-language models, which serve to contribute stable and reliable multimodal data and facilitate effective spatiotemporal visual-textual alignment. Additionally, a novel hand-object-interaction (HOI) aggregation module is proposed which aids in capturing human-object interaction information, thereby further augmenting the capacity to understand the presented scenario. Our method achieved first place in the CVPR'2023 AQTC Challenge, with a Recall@1 score of 78.7\%. The code is available at https://github.com/tomchen-ctj/CVPR23-LOVEU-AQTC. | 翻訳日:2023-06-26 13:16:45 公開日:2023-06-23 |
# 化学特許における反応抽出のための応力試験BERTアナフォラ分解モデル Stress Testing BERT Anaphora Resolution Models for Reaction Extraction in Chemical Patents ( http://arxiv.org/abs/2306.13379v1 ) ライセンス: Link先を確認 | Chieling Yueh, Evangelos Kanoulas, Bruno Martins, Camilo Thorne, Saber Akhondi | (参考訳) 化学特許の大量発行と、その情報のタイムリーな取得の重要性により、化学特許から情報を抽出する自動化がもたらされる。
アナフォラ分解能は包括的情報抽出の重要な要素であり、反応の抽出に重要である。
化学特許には、共参照、変換、関連する反応、働き、含みの5つのアナフォリックな関係がある。
本研究の目的は, 化学特許における反応テキストに対するアナフォラ分解モデルの性能が, ノイズフリーでノイズの多い環境でどのように異なるか, そして, モデルのノイズに対するロバスト性をどの程度改善できるかを検討することである。 The high volume of published chemical patents and the importance of a timely acquisition of their information gives rise to automating information extraction from chemical patents. Anaphora resolution is an important component of comprehensive information extraction, and is critical for extracting reactions. In chemical patents, there are five anaphoric relations of interest: co-reference, transformed, reaction associated, work up, and contained. Our goal is to investigate how the performance of anaphora resolution models for reaction texts in chemical patents differs in a noise-free and noisy environment and to what extent we can improve the robustness against noise of the model. | 翻訳日:2023-06-26 13:16:26 公開日:2023-06-23 |
# 中性原子デバイスを用いたMISの分解能に対するグラフ局所性の影響の探索 Exploring the impact of graph locality for the resolution of MIS with neutral atom devices ( http://arxiv.org/abs/2306.13373v1 ) ライセンス: Link先を確認 | Constantin Dalyac, Louis-Paul Henry, Minhyuk Kim, Jaewook Ahn, Lo\"ic Henriet | (参考訳) 過去数年間、多くの量子アルゴリズムが難しい組合せ問題に取り組むために提案されてきた。
特に、最大独立集合 (MIS) は、Rydberg 原子配列に自然に符号化できる既知のNPハード問題である。
グラフを中性原子のアンサンブルで表すことで、ライドバーグ力学を利用して制約とMISの解を自然にエンコードすることができる。
しかし、2d機能を持つ標準デバイス上で直接 ``vertex-to-atom" をマッピングできるグラフのクラスは、現時点では単位円グラフに限られている。
この設定では、グラフの本質的な空間的局所性は、$\epsilon$-approximate解を保証する古典多項式時間近似スキーム(PTAS)によって利用することができる。
本研究では,より複雑なグラフのクラスを埋め込むために,原子の3次元配置を用いた最近の進歩について述べる。
古典的効率のよい$\varepsilon$近似スキームが存在しない量子コンピュータにおける組合せタスクに取り組むための重要なステップを示す実験的および理論的結果を報告する。 In the past years, many quantum algorithms have been proposed to tackle hard combinatorial problems. In particular, the Maximum Independent Set (MIS) is a known NP-hard problem that can be naturally encoded in Rydberg atom arrays. By representing a graph with an ensemble of neutral atoms one can leverage Rydberg dynamics to naturally encode the constraints and the solution to MIS. However, the classes of graphs that can be directly mapped ``vertex-to-atom" on standard devices with 2D capabilities are currently limited to Unit-Disk graphs. In this setting, the inherent spatial locality of the graphs can be leveraged by classical polynomial-time approximation schemes (PTAS) that guarantee an $\epsilon$-approximate solution. In this work, we build upon recent progress made for using 3D arrangements of atoms to embed more complex classes of graphs. We report experimental and theoretical results which represent important steps towards tackling combinatorial tasks on quantum computers for which no classical efficient $\varepsilon$-approximation scheme exists. | 翻訳日:2023-06-26 13:16:10 公開日:2023-06-23 |
# 測定に基づく量子コンピューティングにおける3ビットDeutsch-Jozsa Three-qubit Deutsch-Jozsa in measurement-based quantum computing ( http://arxiv.org/abs/2306.13372v1 ) ライセンス: Link先を確認 | M. Schwetz and R. M. Noack | (参考訳) 量子アルゴリズムを定式化する代替パラダイムである測定ベース量子コンピューティング(MBQC)は、量子アルゴリズムにおける絡み合いの役割に関する理論的洞察と同様に、潜在的に柔軟で効率的な実装をもたらす。
最近開発されたZX計算を用いて、量子回路をMBQC実装として再構成する一般的なスキームを概説する。
2キュービットのDeutsch-Jozsaアルゴリズムを用いて手法を解析した後、3キュービットのDeutsch-Jozsaアルゴリズムの一般的なMBQC実装を符号化したZXグラフ図を導出する。
このグラフは、アルゴリズムの実行にシングルキュービットの計測を使用する11キュービットのクラスタ状態を記述する。
特に測定のための軸の選択の集合は、オラクルの任意の実現の実装に使うことができる。
さらに,アルゴリズムの等価な格子クラスタ状態も導出する。 Measurement-based quantum computing (MBQC), an alternate paradigm for formulating quantum algorithms, can lead to potentially more flexible and efficient implementations as well as to theoretical insights on the role of entanglement in a quantum algorithm. Using the recently developed ZX-calculus, we outline a general scheme for reformulating quantum circuits as MBQC implementations. After illustrating the method using the two-qubit Deutsch-Jozsa algorithm, we derive a ZX graph-diagram that encodes a general MBQC implementation for the three-qubit Deutsch-Jozsa algorithm. This graph describes an 11-qubit cluster state on which single-qubit measurements are used to execute the algorithm. Particular sets of choices of the axes for the measurements can be used to implement any realization of the oracle. In addition, we derive an equivalent lattice cluster state for the algorithm. | 翻訳日:2023-06-26 13:15:52 公開日:2023-06-23 |
# 乱流モデル不確実性推定のための物理制約ランダムフォレスト Physics-constrained Random Forests for Turbulence Model Uncertainty Estimation ( http://arxiv.org/abs/2306.13370v1 ) ライセンス: Link先を確認 | Marcel Matha and Christian Morsbach | (参考訳) 産業設計の仮想認証を実現するためには,シミュレーション駆動プロセスの不確かさの定量化が重要である。
本稿では,乱流モデルのエピステミック不確実性を考慮した物理制約手法について論じる。
ユーザ入力を排除するため,データ駆動型機械学習戦略を取り入れた。
さらに,正確なデータが不足している場合の予測信頼度を事前推定する手法の開発に焦点をあてた。 To achieve virtual certification for industrial design, quantifying the uncertainties in simulation-driven processes is crucial. We discuss a physics-constrained approach to account for epistemic uncertainty of turbulence models. In order to eliminate user input, we incorporate a data-driven machine learning strategy. In addition to it, our study focuses on developing an a priori estimation of prediction confidence when accurate data is scarce. | 翻訳日:2023-06-26 13:15:37 公開日:2023-06-23 |
# 有界時系列予測時の変動境界の追従について On tracking varying bounds when forecasting bounded time series ( http://arxiv.org/abs/2306.13428v1 ) ライセンス: Link先を確認 | Amandine Pierrot and Pierre Pinson | (参考訳) 連続的だが有界なランダム変数が時間とともに変化する未観測境界を持つ新しいフレームワークを考える。
一変量時系列の文脈では、有界確率変数の分布のパラメータとして境界を考える。
本稿では,オンライン最大確率推定の限界を追跡するための拡張ログ類似度推定と設計アルゴリズムを提案する。
その結果得られる最適化問題は凸ではないため、準凸最適化のための正規化勾配降下(ngd)に関する最近の理論結果を利用して、最終的にオンライン正規化勾配降下アルゴリズムを導出する。
シミュレーション研究と実世界の風力予測問題の両方に基づいて,提案手法の動作を解説し,議論する。 We consider a new framework where a continuous, though bounded, random variable has unobserved bounds that vary over time. In the context of univariate time series, we look at the bounds as parameters of the distribution of the bounded random variable. We introduce an extended log-likelihood estimation and design algorithms to track the bound through online maximum likelihood estimation. Since the resulting optimization problem is not convex, we make use of recent theoretical results on Normalized Gradient Descent (NGD) for quasiconvex optimization, to eventually derive an Online Normalized Gradient Descent algorithm. We illustrate and discuss the workings of our approach based on both simulation studies and a real-world wind power forecasting problem. | 翻訳日:2023-06-26 13:08:22 公開日:2023-06-23 |
# 量子モンテカルロによるスピン偏極電子液体の相関エネルギー Correlation energy of the spin-polarized electron liquid by quantum Monte Carlo ( http://arxiv.org/abs/2306.13426v1 ) ライセンス: Link先を確認 | Sam Azadi and N.D. Drummond and Sam. M. Vinko | (参考訳) Slater-Jastrow-backflow 実験波動関数を用いた変分および拡散量子モンテカルロ法を用いてスピン偏極3次元均一電子流体の研究を行った。
基底状態VMC と DMC エネルギーを密度範囲$0.5 \leq r_\text{s} \leq 20$で報告する。
3つの系サイズ(n=113,259,387)で計算された粒子当たりのツイスト平均エネルギーを無限大の熱力学的限界まで外挿することにより、有限サイズの誤差を正す。
非均一電子系に対する局所スピン密度近似相関関数のパラメータ化には、熱力学限界におけるDMCエネルギーを用いる。 Variational and diffusion quantum Monte Carlo (VMC and DMC) methods with Slater-Jastrow-backflow trial wave functions are used to study the spin-polarized three-dimensional uniform electron fluid. We report ground state VMC and DMC energies in the density range $0.5 \leq r_\text{s} \leq 20$. Finite-size errors are corrected using canonical-ensemble twist-averaged boundary conditions and extrapolation of the twist-averaged energy per particle calculated at three system sizes (N=113, 259, and 387) to the thermodynamic limit of infinite system size. The DMC energies in the thermodynamic limit are used to parameterize a local spin density approximation correlation function for inhomogeneous electron systems. | 翻訳日:2023-06-26 13:08:10 公開日:2023-06-23 |
# 軽量オートエンコーダによるダウンリンクNOMAコンステレーション設計 A Weighted Autoencoder-Based Approach to Downlink NOMA Constellation Design ( http://arxiv.org/abs/2306.13423v1 ) ライセンス: Link先を確認 | Vukan Ninkovic, Dejan Vukobratovic, Adriano Pastore, Carles Anton-Haro | (参考訳) ディープオートエンコーダ(AE)を用いた通信システムのエンドツーエンド設計は、その柔軟性と優れた性能から注目されている。
シングルユーザー送信の他に、AEベースの設計は、例えば非直交多重アクセス(NOMA)のために星座を設計するためのマルチユーザー設定で最近検討されている。
本稿では,AEトレーニングにおける重み付き損失関数の導入により,AEに基づくダウンリンクNOMAの設計をさらに進める。
重み係数を変更することで、チャンネル品質に関する明示的な情報に頼ることなく、コンステレーション設計を柔軟に調整し、異なるユーザのエラー確率のバランスをとることができる。
SICNetデコーダと組み合わせて、提案した重み付きAEベースのフレームワークを用いて、達成可能なレベルの大幅な改善と、異なるユーザのエラー確率の柔軟な制御を示す。 End-to-end design of communication systems using deep autoencoders (AEs) is gaining attention due to its flexibility and excellent performance. Besides single-user transmission, AE-based design is recently explored in multi-user setup, e.g., for designing constellations for non-orthogonal multiple access (NOMA). In this paper, we further advance the design of AE-based downlink NOMA by introducing weighted loss function in the AE training. By changing the weight coefficients, one can flexibly tune the constellation design to balance error probability of different users, without relying on explicit information about their channel quality. Combined with the SICNet decoder, we demonstrate a significant improvement in achievable levels and flexible control of error probability of different users using the proposed weighted AE-based framework. | 翻訳日:2023-06-26 13:07:55 公開日:2023-06-23 |
# 自己回帰による長距離言語モデリング Long-range Language Modeling with Self-retrieval ( http://arxiv.org/abs/2306.13421v1 ) ライセンス: Link先を確認 | Ohad Rubin and Jonathan Berant | (参考訳) Retrieval-augmented Language Model (LM) は近年注目されている。
しかし、通常、レトリバーはLMのネイティブコンポーネントとして共同で訓練されるのではなく、既に事前訓練されたLMに追加され、LMとレトリバーが互いに適応する能力を制限する。
本研究では,長いテキストをモデル化する作業のために,検索拡張LMをスクラッチから共同で訓練するためのアーキテクチャと訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。
最近生成された長いドキュメントのテキストチャンクが与えられた後、LMはクエリ表現を計算し、それを使ってドキュメントの以前のチャンクを検索する。
取得したチャンクからの情報はLM表現に融合され、次のターゲットチャンクを予測する。
参照lmによれば、私たちはレトリバーコンポーネントをセマンティックな目標でトレーニングし、次のチャンクの確率を高めるチャンクの取得を目標としています。
我々は,4つの長距離言語モデリングタスク,書籍,コード,数学的記述についてRTPを評価し,RTPが検索品質を向上し,強いベースラインよりも難易度が高いことを示す。 Retrieval-augmented language models (LMs) have received much attention recently. However, typically the retriever is not trained jointly as a native component of the LM, but added to an already-pretrained LM, which limits the ability of the LM and the retriever to adapt to one another. In this work, we propose the Retrieval-Pretrained Transformer (RPT), an architecture and training procedure for jointly training a retrieval-augmented LM from scratch for the task of modeling long texts. Given a recently generated text chunk in a long document, the LM computes query representations, which are then used to retrieve earlier chunks in the document, located potentially tens of thousands of tokens before. Information from retrieved chunks is fused into the LM representations to predict the next target chunk. We train the retriever component with a semantic objective, where the goal is to retrieve chunks that increase the probability of the next chunk, according to a reference LM. We evaluate RPT on four long-range language modeling tasks, spanning books, code, and mathematical writing, and demonstrate that RPT improves retrieval quality and subsequently perplexity across the board compared to strong baselines. | 翻訳日:2023-06-26 13:07:41 公開日:2023-06-23 |
# unseen triplesに向けて - シーングラフ生成のための効果的なテキスト-イメージ-ジョイント学習 Towards Unseen Triples: Effective Text-Image-joint Learning for Scene Graph Generation ( http://arxiv.org/abs/2306.13420v1 ) ライセンス: Link先を確認 | Qianji Di, Wenxi Ma, Zhongang Qi, Tianxiang Hou, Ying Shan, Hanzi Wang | (参考訳) scene graph generation (sgg) は、画像内のオブジェクトとその接続を構造的にかつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアスデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
しかし、たとえこれらのモデルが特定のデータセットに適合するとしても、トレーニングセットに含まれない未発見のトリプルを解決するのは難しいかもしれない。
ほとんどの方法はトリプルを供給し、統計的機械学習に基づいて全体的な特徴を学ぶ傾向がある。
このようなモデルは、トレーニングセットのオブジェクトと述語がテストセットの新たなトリプルと異なる組み合わせになっているため、見当たらないトリプルを予測するのが困難である。
本研究では,未認識のトリプルを解消し,sggモデルの一般化能力を向上させるためのtisggモデルを提案する。
本稿では,対象と述語カテゴリを特徴レベルで別々に学習し,それらを対応する視覚特徴と整合させることにより,モデルがもはや3重マッチングに制限されないようにする,jfl(joint fearture learning)モジュールとfkr(factual knowledge basedfine)モジュールを提案する。
また,ロングテール問題も一般化能力に影響を及ぼすため,キャラタ誘導サンプリング(cgs)と情報再重み付け(ir)モジュールを含む新しいバランスのとれた学習戦略をデザインし,各述語に対してその特徴に応じた学習方法を提供する。
大規模な実験により,我々のモデルは最先端の性能を達成できた。
TISGGは、Visual GenomeデータセットのPredClsサブタスクで、zR@20(ゼロショットリコール)の11.7%のパフォーマンスを向上する。 Scene Graph Generation (SGG) aims to structurally and comprehensively represent objects and their connections in images, it can significantly benefit scene understanding and other related downstream tasks. Existing SGG models often struggle to solve the long-tailed problem caused by biased datasets. However, even if these models can fit specific datasets better, it may be hard for them to resolve the unseen triples which are not included in the training set. Most methods tend to feed a whole triple and learn the overall features based on statistical machine learning. Such models have difficulty predicting unseen triples because the objects and predicates in the training set are combined differently as novel triples in the test set. In this work, we propose a Text-Image-joint Scene Graph Generation (TISGG) model to resolve the unseen triples and improve the generalisation capability of the SGG models. We propose a Joint Fearture Learning (JFL) module and a Factual Knowledge based Refinement (FKR) module to learn object and predicate categories separately at the feature level and align them with corresponding visual features so that the model is no longer limited to triples matching. Besides, since we observe the long-tailed problem also affects the generalization ability, we design a novel balanced learning strategy, including a Charater Guided Sampling (CGS) and an Informative Re-weighting (IR) module, to provide tailor-made learning methods for each predicate according to their characters. Extensive experiments show that our model achieves state-of-the-art performance. In more detail, TISGG boosts the performances by 11.7% of zR@20(zero-shot recall) on the PredCls sub-task on the Visual Genome dataset. | 翻訳日:2023-06-26 13:07:21 公開日:2023-06-23 |
# PP-GAN : GAN付きランドマークエクストラクタを用いた韓国文字からID写真へのスタイル移行 PP-GAN : Style Transfer from Korean Portraits to ID Photos Using Landmark Extractor with GAN ( http://arxiv.org/abs/2306.13418v1 ) ライセンス: Link先を確認 | Jongwook Si and Sungyoung Kim | (参考訳) スタイル転送の目的は、他の画像のスタイルを転送しながら、画像の内容を維持することである。
しかし、従来のスタイル転送の研究は、画像の同一性を維持するのに不可欠な目、鼻、口などの顔のランドマークを維持する上で大きな制限がある。
朝鮮の肖像画では、ほとんどの人が男性専用の頭飾りである「Gat」を着用している。
ID写真の毛髪とは異なる特徴を持つため、"Gat"の転送は困難である。
この問題に対処するため,本研究では,顔のアイデンティティを保ちながら「ガット」を含むスタイル転送を行うディープラーニングネットワークを提案する。
既存のスタイル転送手法とは異なり,提案手法はテクスチャ,衣装,およびスタイルイメージ上の"Gat"を保存することを目的としている。
Generative Adversarial Networkは提案したネットワークのバックボーンを形成する。
予め訓練したVGG-16の各ブロックと層の特徴に基づいて,色,テクスチャ,強度を異なる方法で抽出し,顔のランドマークマスクを用いてトレーニングに必要な要素のみを保存した。
頭部の領域は「Gat」を転送するために眼窩を用いて提示された。
また,顔の同一性は保持され,グラムマトリクスに基づくスタイル相関が検討された。
提案手法は, 従来の研究よりも優れた移動・保存性能を示した。 The objective of a style transfer is to maintain the content of an image while transferring the style of another image. However, conventional research on style transfer has a significant limitation in preserving facial landmarks, such as the eyes, nose, and mouth, which are crucial for maintaining the identity of the image. In Korean portraits, the majority of individuals wear "Gat", a type of headdress exclusively worn by men. Owing to its distinct characteristics from the hair in ID photos, transferring the "Gat" is challenging. To address this issue, this study proposes a deep learning network that can perform style transfer, including the "Gat", while preserving the identity of the face. Unlike existing style transfer approaches, the proposed method aims to preserve texture, costume, and the "Gat" on the style image. The Generative Adversarial Network forms the backbone of the proposed network. The color, texture, and intensity were extracted differently based on the characteristics of each block and layer of the pre-trained VGG-16, and only the necessary elements during training were preserved using a facial landmark mask. The head area was presented using the eyebrow area to transfer the "Gat". Furthermore, the identity of the face was retained, and style correlation was considered based on the Gram matrix. The proposed approach demonstrated superior transfer and preservation performance compared to previous studies. | 翻訳日:2023-06-26 13:06:51 公開日:2023-06-23 |
# CLUE: オフライン強化学習のための校正潜在ガイダンス CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.13412v1 ) ライセンス: Link先を確認 | Jinxin Liu, Lipeng Zu, Li He, Donglin Wang | (参考訳) オフライン強化学習(rl)は、事前収集およびラベル付きデータセットから最適なポリシーを学習することを目的としている。
しかし、オフラインRLは、オフラインデータの遷移ごとに外因的な報酬を指定/手作りする大きな負担を被っている。
労働集約的ラベリングの救済策として,少数の専門家データを用いたオフラインrlタスクの付与と,限られた専門家データによる内在的な報酬の促進を提案する。
これを実現するために,条件付き変分オートエンコーダを用いて潜在空間を学習し,内在的な報酬を潜在空間上で直接評価できるような潜在空間を学習する,\textbf{c}alibrated \textbf{l}atent g\textbf{u}idanc\textbf{e} (clue) を導入する。
CLUEのキーとなる考え方は、専門家データの埋め込みをキャリブレーションされた文脈表現に強制することで、本質的な報酬を専門家の意図と一致させることである。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
実験的に、CLUEはスパース逆オフラインRL性能を効果的に改善し、最先端のオフラインILベースラインより優れ、静的な報酬なしオフラインデータから多様なスキルを発見できることがわかった。 Offline reinforcement learning (RL) aims to learn an optimal policy from pre-collected and labeled datasets, which eliminates the time-consuming data collection in online RL. However, offline RL still bears a large burden of specifying/handcrafting extrinsic rewards for each transition in the offline data. As a remedy for the labor-intensive labeling, we propose to endow offline RL tasks with a few expert data and utilize the limited expert data to drive intrinsic rewards, thus eliminating the need for extrinsic rewards. To achieve that, we introduce \textbf{C}alibrated \textbf{L}atent g\textbf{U}idanc\textbf{E} (CLUE), which utilizes a conditional variational auto-encoder to learn a latent space such that intrinsic rewards can be directly qualified over the latent space. CLUE's key idea is to align the intrinsic rewards consistent with the expert intention via enforcing the embeddings of expert data to a calibrated contextual representation. We instantiate the expert-driven intrinsic rewards in sparse-reward offline RL tasks, offline imitation learning (IL) tasks, and unsupervised offline RL tasks. Empirically, we find that CLUE can effectively improve the sparse-reward offline RL performance, outperform the state-of-the-art offline IL baselines, and discover diverse skills from static reward-free offline data. | 翻訳日:2023-06-26 13:06:26 公開日:2023-06-23 |
# 中間スーパービジョンのないニューラルアルゴリズム推論 Neural Algorithmic Reasoning Without Intermediate Supervision ( http://arxiv.org/abs/2306.13411v1 ) ライセンス: Link先を確認 | Gleb Rodionov, Liudmila Prokhorenkova | (参考訳) ニューラルネットワークの推論は、ソートや最短経路など、古典的なアルゴリズムの実行を模倣するモデルの構築に焦点を当てた、機械学習の新しい分野である。
主な課題の1つは、アウト・オブ・ディストリビューションデータ、特にはるかに大きな入力サイズで一般化できるアルゴリズムを学習することである。
この問題に関する最近の研究は、学習アルゴリズムの利点を段階的に証明し、モデルが元のアルゴリズムのすべての中間ステップにアクセスできるようにする。
本研究では,中間監督に訴えることなく,入力出力ペアからのみニューラルネットワークの推論を学ぶことに焦点を当てる。
我々は,単純かつ効果的なアーキテクチャ改善を提案し,アルゴリズムの軌道にアクセスせずにモデルの中間計算を正す自己教師付き目標を構築する。
提案手法は,clrsアルゴリズム推論ベンチマークによるタスクの軌道教師付き対応と競合することを実証し,ソートなどいくつかの問題に対して新たな最先端結果を達成し,大幅な改善が得られた。
したがって、中間的監督のない学習は、神経推論のさらなる研究にとって有望な方向である。 Neural Algorithmic Reasoning is an emerging area of machine learning focusing on building models which can imitate the execution of classic algorithms, such as sorting, shortest paths, etc. One of the main challenges is to learn algorithms that are able to generalize to out-of-distribution data, in particular with significantly larger input sizes. Recent work on this problem has demonstrated the advantages of learning algorithms step-by-step, giving models access to all intermediate steps of the original algorithm. In this work, we instead focus on learning neural algorithmic reasoning only from the input-output pairs without appealing to the intermediate supervision. We propose simple but effective architectural improvements and also build a self-supervised objective that can regularise intermediate computations of the model without access to the algorithm trajectory. We demonstrate that our approach is competitive to its trajectory-supervised counterpart on tasks from the CLRS Algorithmic Reasoning Benchmark and achieves new state-of-the-art results for several problems, including sorting, where we obtain significant improvements. Thus, learning without intermediate supervision is a promising direction for further research on neural reasoners. | 翻訳日:2023-06-26 13:05:54 公開日:2023-06-23 |
# glocal"ペアワイズ融合による説明可能な生涯ストリーム学習 Explainable Lifelong Stream Learning Based on "Glocal" Pairwise Fusion ( http://arxiv.org/abs/2306.13410v1 ) ライセンス: Link先を確認 | Chu Kiong Loo, Wei Shiung Liew, Stefan Wermter | (参考訳) リアルタイムデバイス上での連続学習アプリケーションは、携帯電話、消費者向けロボット、スマートアプライアンスで使用されている。
このようなデバイスは処理能力とメモリストレージ能力に制限があるが、continual learningは長期間にわたってデータを取得する。
必然的に、生涯学習アルゴリズムは、優れたパフォーマンスを提供しながら、そのような制約の下で操作できなければならない。
本研究では,いくつかの重要な特徴を取り入れたExplainable Lifelong Learning(ExLL)モデルを提案する。
1) サンプルやリソースの少ないストリーミングデータから,ひとつのパスで学ぶことを学ぶこと。
2 必要に応じて拡大し、ストリーミングデータを類似性により分離可能なグループにクラスタ化し、破滅的な忘れ物に対してデータを保存する自己組織型プロトタイプベースのアーキテクチャ。
3) クラスタを説明可能なif-thenルールに変換するための解釈可能なアーキテクチャ,および推論と類似し,異なるものに関してモデル予測を正当化する。
4)大域的および局所的なレベルでの推論は、ペア的決定融合プロセスを用いて推論の精度を高め、したがって ``glocal pairwise fusion' となる。
openloris、f-siol-310を用いて、画像認識のための現代オンライン学習アルゴリズムとexllを比較し、ビデオストリーム、低サンプル学習、スケール能力、不均衡データストリームの連続学習シナリオを評価するためにデータセットを配置する。
アルゴリズムは、精度、パラメータの数、実行時要求の実験で評価される。
ExLLはテストシナリオの大部分で,すべてのアルゴリズムの精度を向上する。 Real-time on-device continual learning applications are used on mobile phones, consumer robots, and smart appliances. Such devices have limited processing and memory storage capabilities, whereas continual learning acquires data over a long period of time. By necessity, lifelong learning algorithms have to be able to operate under such constraints while delivering good performance. This study presents the Explainable Lifelong Learning (ExLL) model, which incorporates several important traits: 1) learning to learn, in a single pass, from streaming data with scarce examples and resources; 2) a self-organizing prototype-based architecture that expands as needed and clusters streaming data into separable groups by similarity and preserves data against catastrophic forgetting; 3) an interpretable architecture to convert the clusters into explainable IF-THEN rules as well as to justify model predictions in terms of what is similar and dissimilar to the inference; and 4) inferences at the global and local level using a pairwise decision fusion process to enhance the accuracy of the inference, hence ``Glocal Pairwise Fusion.'' We compare ExLL against contemporary online learning algorithms for image recognition, using OpenLoris, F-SIOL-310, and Places datasets to evaluate several continual learning scenarios for video streams, low-sample learning, ability to scale, and imbalanced data streams. The algorithms are evaluated for their performance in accuracy, number of parameters, and experiment runtime requirements. ExLL outperforms all algorithms for accuracy in the majority of the tested scenarios. | 翻訳日:2023-06-26 13:05:33 公開日:2023-06-23 |
# 量子リード・ソロモン符号からの量子削除符号 Quantum Deletion Codes Derived From Quantum Reed-Solomon Codes ( http://arxiv.org/abs/2306.13399v1 ) ライセンス: Link先を確認 | Manabu Hagiwara | (参考訳) 本稿では,複数の削除誤りを訂正できる量子符号の構成法を提案する。
交互サンドイッチマッピングとブロックエラーロケータという2つの新しいアロゴリズムを導入することにより,誤り訂正を消去するために削除誤り訂正を削減した。
従来のquantum deletion error-correcting codeとは異なり、このアプローチでは柔軟なコードレートが可能であり、削除数を知る必要がなくなる。 This manuscript presents a construction method for quantum codes capable of correcting multiple deletion errors. By introducing two new alogorithms, the alternating sandwich mapping and the block error locator, the proposed method reduces deletion error correction to erasure error correction. Unlike previous quantum deletion error-correcting codes, our approach enables flexible code rates and eliminates the requirement of knowing the number of deletions. | 翻訳日:2023-06-26 13:05:10 公開日:2023-06-23 |
# 3DSAM-adapter:医用画像分割のためのSAMの2Dから3Dへの完全適応 3DSAM-adapter: Holistic Adaptation of SAM from 2D to 3D for Promptable Medical Image Segmentation ( http://arxiv.org/abs/2306.13465v1 ) ライセンス: Link先を確認 | Shizhan Gong, Yuan Zhong, Wenao Ma, Jinpeng Li, Zhao Wang, Jingyang Zhang, Pheng-Ann Heng, Qi Dou | (参考訳) segment anything model (sam) は一般意味セマンティクスセグメンテーションにおいて、日々のイメージに強い一般化能力を持つ印象的な結果を得たが、医用画像セグメンテーションのパフォーマンスは、特に小サイズ、不規則な形状、低コントラストのオブジェクトを含む腫瘍セグメンテーションタスクを扱う場合、あまり正確で安定ではない。
特に、オリジナルのsamアーキテクチャは2次元自然画像用に設計されているため、ボリューム医療データから3d空間情報を効果的に抽出することはできない。
本稿では,医療用画像分割のための2dから3dにsamを変換する新しい適応法を提案する。
アーキテクチャ修正のための全体設計スキームを通じて、SAMをボリューム入力をサポートするために転送し、事前訓練されたパラメータの大半を再利用するために保持する。
微調整プロセスはパラメータ効率良く実施され、事前学習されたパラメータのほとんどは凍結され、わずかな軽量な空間アダプターが導入されただけで調整される。
自然データと医学データとの領域差と2dと3dの空間配置の差とは関係なく、自然画像で訓練されたトランスフォーマーは、軽量な適応だけで体積医療画像に存在する空間パターンを効果的に捉えることができる。
4つのオープンソースの腫瘍セグメンテーションデータセットについて実験を行い、ワンクリックプロンプトで、このモデルは4つのタスクのうち3つ(特に8.25%、29.87%、および10.11%)のうち、腎臓腫瘍、膵臓腫瘍、大腸癌セグメンテーションにおいて、ドメイン最先端の医用画像セグメンテーションモデルを上回ることができる。
また,提案手法を既存の一般的なアダプタと比較し,ほとんどのデータセットで大幅な性能向上が見られた。 Despite that the segment anything model (SAM) achieved impressive results on general-purpose semantic segmentation with strong generalization ability on daily images, its demonstrated performance on medical image segmentation is less precise and not stable, especially when dealing with tumor segmentation tasks that involve objects of small sizes, irregular shapes, and low contrast. Notably, the original SAM architecture is designed for 2D natural images, therefore would not be able to extract the 3D spatial information from volumetric medical data effectively. In this paper, we propose a novel adaptation method for transferring SAM from 2D to 3D for promptable medical image segmentation. Through a holistically designed scheme for architecture modification, we transfer the SAM to support volumetric inputs while retaining the majority of its pre-trained parameters for reuse. The fine-tuning process is conducted in a parameter-efficient manner, wherein most of the pre-trained parameters remain frozen, and only a few lightweight spatial adapters are introduced and tuned. Regardless of the domain gap between natural and medical data and the disparity in the spatial arrangement between 2D and 3D, the transformer trained on natural images can effectively capture the spatial patterns present in volumetric medical images with only lightweight adaptations. We conduct experiments on four open-source tumor segmentation datasets, and with a single click prompt, our model can outperform domain state-of-the-art medical image segmentation models on 3 out of 4 tasks, specifically by 8.25%, 29.87%, and 10.11% for kidney tumor, pancreas tumor, colon cancer segmentation, and achieve similar performance for liver tumor segmentation. We also compare our adaptation method with existing popular adapters, and observed significant performance improvement on most datasets. | 翻訳日:2023-06-26 12:59:19 公開日:2023-06-23 |
# 量子機械学習を理解するには Understanding quantum machine learning also requires rethinking generalization ( http://arxiv.org/abs/2306.13461v1 ) ライセンス: Link先を確認 | Elies Gil-Fuster, Jens Eisert, Carlos Bravo-Prieto | (参考訳) 量子機械学習モデルは、少ないデータでトレーニングしても、一般化性能を成功させた。
本研究では、系統的ランダム化実験を通じて、一般化を理解する伝統的なアプローチではそのような量子モデルの振る舞いを説明できないことを示す。
我々の実験は、最先端の量子ニューラルネットワークがトレーニングデータのランダムな状態とランダムなラベル付けに正確に適合していることを明らかにした。
ランダムデータを記憶するこの能力は、vc次元、ラデマッハ複雑性、およびそれらの一様相対性といった複雑性尺度に基づく問題化アプローチにおいて、小さな一般化誤差という現在の概念に欠点がある。
我々は、量子ニューラルネットワークが任意のラベルを量子状態に適合させ、記憶能力を示す理論的な構成で実験結果を補完する。
本研究の結果は, トレーニングデータが少ない場合のみ, モデルファミリの特性のみに基づく保証を除外して, 良好な一般化の可能性を阻害するものではない。
これらの知見は、従来の量子機械学習の一般化の理解における根本的な課題を明らかにし、機械学習タスクのための量子モデルの設計におけるパラダイムシフトの必要性を強調している。 Quantum machine learning models have shown successful generalization performance even when trained with few data. In this work, through systematic randomization experiments, we show that traditional approaches to understanding generalization fail to explain the behavior of such quantum models. Our experiments reveal that state-of-the-art quantum neural networks accurately fit random states and random labeling of training data. This ability to memorize random data defies current notions of small generalization error, problematizing approaches that build on complexity measures such as the VC dimension, the Rademacher complexity, and all their uniform relatives. We complement our empirical results with a theoretical construction showing that quantum neural networks can fit arbitrary labels to quantum states, hinting at their memorization ability. Our results do not preclude the possibility of good generalization with few training data but rather rule out any possible guarantees based only on the properties of the model family. These findings expose a fundamental challenge in the conventional understanding of generalization in quantum machine learning and highlight the need for a paradigm shift in the design of quantum models for machine learning tasks. | 翻訳日:2023-06-26 12:58:39 公開日:2023-06-23 |
# 半透過的最大度推定による学習記述型画像キャプション Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation ( http://arxiv.org/abs/2306.13460v1 ) ライセンス: Link先を確認 | Zihao Yue, Anwen Hu, Liang Zhang, Qin Jin | (参考訳) 画像キャプションは自然言語で視覚的なコンテンツを記述することを目的としている。
「絵は千語の価値ある」ため、画像には様々な正しい記述がある可能性がある。
しかし、最大確率推定を訓練対象とし、その予測がラベルとミスマッチするたびに、キャプションモデルにペナルティが課される。
例えば、ラベルよりもリッチなセマンティクスを表現する単語を予測する場合、簡潔さ最適化と呼ばれるより簡潔な表現を好むようにペナル化され最適化される。
対照的に、ラベルよりも簡潔な予測はリッチネス最適化につながる。
このような矛盾する最適化方向は、最終的にモデルが一般的な記述を生成することになる。
本研究では,簡潔さの最適化をブロックしながらリッチネスの最適化を可能にする半透過最大推定法(smile)を導入することで,より詳細なキャプションを生成することができる。
MSCOCOとFlickr30Kの2つの主流画像キャプションデータセットに対する大規模な実験により、SMILEは生成されたキャプションの記述性を著しく向上することが示された。
SMILEの動作をより深く理解するための詳細な調査も行っている。 Image captioning aims to describe visual content in natural language. As 'a picture is worth a thousand words', there could be various correct descriptions for an image. However, with maximum likelihood estimation as the training objective, the captioning model is penalized whenever its prediction mismatches with the label. For instance, when the model predicts a word expressing richer semantics than the label, it will be penalized and optimized to prefer more concise expressions, referred to as conciseness optimization. In contrast, predictions that are more concise than labels lead to richness optimization. Such conflicting optimization directions could eventually result in the model generating general descriptions. In this work, we introduce Semipermeable MaxImum Likelihood Estimation (SMILE), which allows richness optimization while blocking conciseness optimization, thus encouraging the model to generate longer captions with more details. Extensive experiments on two mainstream image captioning datasets MSCOCO and Flickr30K demonstrate that SMILE significantly enhances the descriptiveness of generated captions. We further provide in-depth investigations to facilitate a better understanding of how SMILE works. | 翻訳日:2023-06-26 12:58:22 公開日:2023-06-23 |
# 気象・昆虫学的データを用いたタミルナドゥのデングアウトブレイク予測 Enhanced Dengue Outbreak Prediction in Tamilnadu using Meteorological and Entomological data ( http://arxiv.org/abs/2306.13456v1 ) ライセンス: Link先を確認 | Varalakshmi M (VIT Vellore, India) and Daphne Lopez (VIT Vellore, India) | (参考訳) 本稿では,デング発生に対する気候データとベクター幼虫指数の影響について考察する。
様々なLSTMモデルの比較研究の後、2014年から2020年までのタミル・ナドゥ州で収集された時系列気候データと健康データを分析するために、双方向・スタックドLSTMネットワークが選択された。
VBDコントロールの指標である蚊幼虫指数を含めることで、モデルの予測精度を著しく向上させる。 This paper focuses on studying the impact of climate data and vector larval indices on dengue outbreak. After a comparative study of the various LSTM models, Bidirectional Stacked LSTM network is selected to analyze the time series climate data and health data collected for the state of Tamil Nadu (India), for the period 2014 to 2020. Prediction accuracy of the model is significantly improved by including the mosquito larval index, an indication of VBD control measure. | 翻訳日:2023-06-26 12:58:05 公開日:2023-06-23 |
# DreamEditor: テキスト駆動の3Dシーン編集 DreamEditor: Text-Driven 3D Scene Editing with Neural Fields ( http://arxiv.org/abs/2306.13455v1 ) ライセンス: Link先を確認 | Jingyu Zhuang, Chen Wang, Lingjie Liu, Liang Lin, Guanbin Li | (参考訳) ニューラルフィールドは、視覚合成とシーン再構成において素晴らしい進歩を遂げている。
しかしながら、これらのニューラルフィールドの編集は、幾何学とテクスチャ情報の暗黙的なエンコーディングのため、依然として困難である。
本稿では,ユーザがテキストプロンプトを用いて制御されたニューラルネットワークの編集を行うことができる新しいフレームワークであるDreamEditorを提案する。
シーンをメッシュベースのニューラルネットワークとして表現することで、dreameditorは特定の領域内でローカライズされた編集を可能にする。
DreamEditorは、事前訓練されたテキスト間拡散モデルのテキストエンコーダを使用して、テキストプロンプトのセマンティクスに基づいて編集される領域を自動的に識別する。
その後、dreameditorは編集領域を最適化し、その形状とテクスチャをスコア蒸留サンプリング[29]によりテキストプロンプトに調整する。
広範な実験により、dreameditorは、与えられたテキストプロンプトに従って現実世界のシーンのニューラルフィールドを正確に編集でき、無関係な領域における一貫性を確保している。
DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。 Neural fields have achieved impressive advancements in view synthesis and scene reconstruction. However, editing these neural fields remains challenging due to the implicit encoding of geometry and texture information. In this paper, we propose DreamEditor, a novel framework that enables users to perform controlled editing of neural fields using text prompts. By representing scenes as mesh-based neural fields, DreamEditor allows localized editing within specific regions. DreamEditor utilizes the text encoder of a pretrained text-to-Image diffusion model to automatically identify the regions to be edited based on the semantics of the text prompts. Subsequently, DreamEditor optimizes the editing region and aligns its geometry and texture with the text prompts through score distillation sampling [29]. Extensive experiments have demonstrated that DreamEditor can accurately edit neural fields of real-world scenes according to the given text prompts while ensuring consistency in irrelevant areas. DreamEditor generates highly realistic textures and geometry, significantly surpassing previous works in both quantitative and qualitative evaluations. | 翻訳日:2023-06-26 12:57:55 公開日:2023-06-23 |
# 時間的メッシュブレンドと対応のためのグラフニューラルネットワークアプローチ A Graph Neural Network Approach for Temporal Mesh Blending and Correspondence ( http://arxiv.org/abs/2306.13452v1 ) ライセンス: Link先を確認 | Aalok Gangopadhyay, Abhinav Narayan Harish, Prajwal Singh, Shanmuganathan Raman | (参考訳) 本研究では,メッシュが対応しないシナリオにおいて,メッシュブレンディング問題を解決するための自己教師付きディープラーニングフレームワークを提案する。
この問題を解決するために,拡張グラフを処理して対応を推定する新しいグラフニューラルネットワークであるRed-Blue MPNNを開発した。
我々は,特定の条件を満たすときの正確な対応を見つけるために,新しい条件修正方式を設計した。
さらに、アライメントされたメッシュと時間値を入力とし、その情報を融合してさらに処理し、所望の結果を生成するグラフニューラルネットワークを開発する。
モーションキャプチャデータセットとヒューマンメッシュ設計ソフトウェアを用いて,動作中の人間のメッシュの時系列からなる大規模合成データセットを作成する。
その結果, 複雑な入力により, 身体部位の現実的な変形を生じさせることがわかった。 We have proposed a self-supervised deep learning framework for solving the mesh blending problem in scenarios where the meshes are not in correspondence. To solve this problem, we have developed Red-Blue MPNN, a novel graph neural network that processes an augmented graph to estimate the correspondence. We have designed a novel conditional refinement scheme to find the exact correspondence when certain conditions are satisfied. We further develop a graph neural network that takes the aligned meshes and the time value as input and fuses this information to process further and generate the desired result. Using motion capture datasets and human mesh designing software, we create a large-scale synthetic dataset consisting of temporal sequences of human meshes in motion. Our results demonstrate that our approach generates realistic deformation of body parts given complex inputs. | 翻訳日:2023-06-26 12:57:38 公開日:2023-06-23 |
# マルチバンド系における非アベリア・アハロノフ・ボーム効果の微分散乱断面積 Differential scattering cross section of the non-Abelian Aharonov-Bohm effect in multiband systems ( http://arxiv.org/abs/2306.13448v1 ) ライセンス: Link先を確認 | R\'obert N\'emeth, J\'ozsef Cserti | (参考訳) 我々は,非可換リー群に対応するゲージ場上の粒子の散乱という,等方的多バンド系における非アベリア・アハロノフ・ボーム効果の統一的処理を開発する。
このような系の散乱状態の複素輪郭積分表現を示し、それらの漸近形式を用いて微分散乱断面積を計算する。
断面の角度依存性は、元々アハラノフとボームが独創的な論文で得たものと同じであるが、今回は入射平面波の偏光に依存する。
この理論の適用として、波動関数の輪郭積分を明示的に行い、凝縮物や粒子物理学に関連する3つの非自明な等方性多バンド系に対する対応する断面を計算する。
散乱の性質についてより深い知見を得るため、異なる入射波の確率分布と電流分布をプロットする。
本稿では,Abelian AB効果に関する最近の知見を一般化し,正確に解けるAB散乱問題を拡張した。 We develop a unified treatment of the non-Abelian Aharonov-Bohm (AB) effect in isotropic multiband systems, namely, the scattering of particles on a gauge field corresponding to a noncommutative Lie group. We present a complex contour integral representation of the scattering states for such systems, and, using their asymptotic form, we calculate the differential scattering cross section. The angular dependence of the cross section turns out to be the same as that obtained originally by Aharonov and Bohm in their seminal paper, but this time it depends on the polarization of the incoming plane wave. As an application of our theory, we perform the contour integrals for the wave functions explicitly and calculate the corresponding cross section for three non-trivial isotropic multiband systems relevant to condensed matter and particle physics. To have a deeper insight into the nature of the scattering, we plot the probability and current distributions for different incoming waves. This paper is a generalization of our recent results on the Abelian AB effect providing an extension of exactly solvable AB scattering problems. | 翻訳日:2023-06-26 12:57:24 公開日:2023-06-23 |
# 鏡視下ダークコーナーのアーティファクト除去: 友人か敵か? Dermoscopic Dark Corner Artifacts Removal: Friend or Foe? ( http://arxiv.org/abs/2306.13446v1 ) ライセンス: Link先を確認 | Samuel William Pewton, Bill Cassidy, Connah Kendrick, Moi Hoon Yap | (参考訳) 皮膚がんの分類において最も重要な障害の1つは、アーティファクトの存在である。
本稿では, 深層学習二分分類タスクの性能に及ぼす皮膚科医の使用によるダークコーナーアーティファクトの影響について検討する。
以前の研究は、モデルに理想的な条件を作ることを意図して、ダークコーナーのアーティファクトを取り除き、塗りつぶそうとした。
しかし、ダークコーナーのアーティファクトをラベル付けしたデータセットの不足と詳細な分析と議論のため、このような研究は決定的でないことが示されている。
これらの問題に対処するために,公開されているデータセットから10,250個の皮膚病変画像をラベル付けし,メラノーマと非メラノーマと同等数のバランスのとれたデータセットを導入する。
トレーニングセットは、アーティファクトのない6126イメージを含み、テストセットは、ダークコーナーアーティファクトを備えた4124イメージからなる。
本研究では,深層学習法における暗黒コーナーアーチファクトの効果に関する新たな理解を提供するため,3つの実験を行った。
以上の結果から,トレーニングセットに重畳された合成ダークコーナーアーティファクトの導入により,モデル性能,特に真の負の速度が向上することが示唆された。
これは,ダークコーナーアーティファクトがトレーニングセットに導入された際に,それをメラノーマとして扱うのではなく,ダークコーナーアーティファクトを無視することを深層学習が学んだことを示している。
さらに,熱マップの異なる領域における輝度強度の根平均2乗測度を用いて,ネットワーク焦点を示す熱マップを定量化する手法を提案する。
本稿では再現性を重視した新しい皮膚病変解析ガイドラインを提供する。 One of the more significant obstacles in classification of skin cancer is the presence of artifacts. This paper investigates the effect of dark corner artifacts, which result from the use of dermoscopes, on the performance of a deep learning binary classification task. Previous research attempted to remove and inpaint dark corner artifacts, with the intention of creating an ideal condition for models. However, such research has been shown to be inconclusive due to lack of available datasets labelled with dark corner artifacts and detailed analysis and discussion. To address these issues, we label 10,250 skin lesion images from publicly available datasets and introduce a balanced dataset with an equal number of melanoma and non-melanoma cases. The training set comprises 6126 images without artifacts, and the testing set comprises 4124 images with dark corner artifacts. We conduct three experiments to provide new understanding on the effects of dark corner artifacts, including inpainted and synthetically generated examples, on a deep learning method. Our results suggest that introducing synthetic dark corner artifacts which have been superimposed onto the training set improved model performance, particularly in terms of the true negative rate. This indicates that deep learning learnt to ignore dark corner artifacts, rather than treating it as melanoma, when dark corner artifacts were introduced into the training set. Further, we propose a new approach to quantifying heatmaps indicating network focus using a root mean square measure of the brightness intensity in the different regions of the heatmaps. This paper provides a new guideline for skin lesions analysis with an emphasis on reproducibility. | 翻訳日:2023-06-26 12:57:05 公開日:2023-06-23 |
# 軌道サンプリングによるニューラルネットワークアンサンブルのミニバッチトレーニング Minibatch training of neural network ensembles via trajectory sampling ( http://arxiv.org/abs/2306.13442v1 ) ライセンス: Link先を確認 | Jamie F. Mair, Luke Causer, Juan P. Garrahan | (参考訳) ほとんどの反復型ニューラルネットワークトレーニング手法では、データの小さなランダムなサブセット(あるいはミニバッチ)に対する損失関数の見積を使用してパラメータを更新することで、トレーニングデータセットの(非常に大きな)サイズからトレーニング時間を分離する。
ここでは,ニューラルネットアンサンブル(NNE)をトラジェクトリ法により高効率に訓練するためにも,ミニバッチアプローチが利用できることを示す。
MNISTデータセット内の画像を分類するためにNNEを訓練することで、このアプローチを説明する。
この方法では、トレーニング時間を改善し、データセットのサイズと平均的なミニバッチサイズの比率としてスケールすることが可能であり、mnistの場合、典型的には2桁の数値改善を与える。
NNEの表現に長い軌跡を用いることの利点は、推論精度の向上と、ミニバッチ更新に必要なサンプルの更新コストの削減である。 Most iterative neural network training methods use estimates of the loss function over small random subsets (or minibatches) of the data to update the parameters, which aid in decoupling the training time from the (often very large) size of the training datasets. Here, we show that a minibatch approach can also be used to train neural network ensembles (NNEs) via trajectory methods in a highly efficent manner. We illustrate this approach by training NNEs to classify images in the MNIST datasets. This method gives an improvement to the training times, allowing it to scale as the ratio of the size of the dataset to that of the average minibatch size which, in the case of MNIST, gives a computational improvement typically of two orders of magnitude. We highlight the advantage of using longer trajectories to represent NNEs, both for improved accuracy in inference and reduced update cost in terms of the samples needed in minibatch updates. | 翻訳日:2023-06-26 12:56:37 公開日:2023-06-23 |
# 公平なオンラインアロケーションを実現するためのデータ品質の取引価格 Trading-off price for data quality to achieve fair online allocation ( http://arxiv.org/abs/2306.13440v1 ) ライセンス: Link先を確認 | Mathieu Molina, Nicolas Gast, Patrick Loiseau, Vianney Perchet | (参考訳) オンラインアロケーションの問題は、長期的公正なペナルティの対象となる。
しかし、既存の作業とは対照的に、意思決定者が保護された属性を観察しているとは考えません。
代わりに、異なる品質のソースからデータを評価するのに役立つデータを購入することができるため、ある程度のコストでフェアネスペナルティを低減できる。
我々は、この問題を、各アームがデータソースの選択に対応し、オンラインアロケーション問題と組み合わせたマルチアームバンディット問題としてモデル化する。
両問題を共同で解くアルゴリズムを提案し,$\mathcal{o}(\sqrt{t})$ で区切られた後悔を示す。
重要な困難は、ソースを選択することで得られる報酬がフェアネスペナルティによって相関し、(確率的な設定にもかかわらず)ランダム化の必要性が生じることである。
本アルゴリズムは,ソース選択前に利用可能な文脈情報を考慮して,多種多様なフェアネス概念に適応できる。
また、いくつかの例では、使用済みの見積もりをオンザフライで学習できることも示しています。 We consider the problem of online allocation subject to a long-term fairness penalty. Contrary to existing works, however, we do not assume that the decision-maker observes the protected attributes -- which is often unrealistic in practice. Instead they can purchase data that help estimate them from sources of different quality; and hence reduce the fairness penalty at some cost. We model this problem as a multi-armed bandit problem where each arm corresponds to the choice of a data source, coupled with the online allocation problem. We propose an algorithm that jointly solves both problems and show that it has a regret bounded by $\mathcal{O}(\sqrt{T})$. A key difficulty is that the rewards received by selecting a source are correlated by the fairness penalty, which leads to a need for randomization (despite a stochastic setting). Our algorithm takes into account contextual information available before the source selection, and can adapt to many different fairness notions. We also show that in some instances, the estimates used can be learned on the fly. | 翻訳日:2023-06-26 12:56:22 公開日:2023-06-23 |
# クビットチャネル上の高次元エンタングルメントの実験的利点 Experimental higher-dimensional entanglement advantage over qubit channel ( http://arxiv.org/abs/2306.13495v1 ) ライセンス: Link先を確認 | Yu Guo, Hao Tang, Jef Pauwels, Emmanuel Zambrini Cruzeiro, Xiao-Min Hu, Bi-Heng Liu, Yu-Feng Huang, Chuan-Feng Li, Guang-Can Guo, and Armin Tavakoli | (参考訳) 共有絡み合いは、限られた量子チャネル上で相互作用するシステム間の古典的な相関を促進する。
このような相関関係を作るために、自然な道はチャネルと同じ次元の絡み合いを使うことであり、これは有名な高密度符号化プロトコルと同様のユニタリ符号化をもたらす。
対照的に、チャネルよりも大きいエンタングルメント次元を使用し、不可逆な量子演算によって古典情報を符号化することにより、そのような量子プロトコルを全て上回ることを示す。
我々は,単一光子の個別かつ独立的に制御される経路にシステムを符号化することにより,状態識別とランダムアクセス符号化をハイブリダイズするタスクでこれを示す。
この実験では、4次元の絡み合い、量子圧縮操作、高次元の絡み合い射影など、パスモードの単一光子量子演算のためのいくつかの高品質なビルディングブロックが組み合わされ、合計プロトコルの忠実度は97.0\%$である。
これは、高次元の絡み合いを収穫し、関連する量子デバイスの詳細なモデリングに頼ることなく、低次元の量子通信を改善するための概念実証を構成する。 Shared entanglement boosts classical correlations between systems that interact over a limited quantum channel. To create such correlations, a natural avenue is to use entanglement of the same dimension as the channel, as this leads to unitary encodings similar to the celebrated dense coding protocol. In contrast, we demonstrate that by using an entanglement dimension larger than that of the channel and encoding classical information via irreversible quantum operations, one can outperform every such quantum protocol. We showcase this in a task that hybridizes state discrimination and random access coding, implemented by encoding the systems in distinct and independently controlled paths of a single photon. The experiment combines several high-quality building blocks for path-mode single-photon quantum operations: four-dimensional entanglement, quantum compression operations and high-dimensional entangled projections, achieving a total protocol fidelity of over $97.0\%$. It constitutes a proof-of-concept for harvesting higher-dimensional entanglement to improve low-dimensional quantum communication without relying on detailed modeling of the involved quantum devices. | 翻訳日:2023-06-26 12:48:25 公開日:2023-06-23 |
# オンチップナノワイヤプラズモニック導波路を用いた量子乱数生成 Quantum random number generation using an on-chip nanowire plasmonic waveguide ( http://arxiv.org/abs/2306.13490v1 ) ライセンス: Link先を確認 | C. Strydom, S. Soleymani, \c{S}. K. \"Ozdemir and M. S. Tame | (参考訳) 量子乱数生成器は、量子力学の本質的なランダム性を利用して、真の予測不可能な乱数を生成する。
様々な種類の量子乱数生成器がフォトニクスを用いて実現されているが、プラズモニクスによって提供される高磁場閉じ込めを利用して、デバイスフットプリントを桁違いに小さくすることができるものはほとんどない。
ここでは、オンチップのナノワイヤプラズモン導波路を光学時変に基づく量子乱数生成装置に統合する。
損失にもかかわらず、低光度で14.4mbits/sのランダム数生成速度を達成し、後処理なしで業界標準試験に合格した。
光強度を増大させることで、生成速度を41.4Mbits/sに向上することができ、その結果、すべてのテストにシャッフルを要した。
これは、以前の作業と比べて、生成率とデバイスサイズが大幅に増加し、減少する順序である。
本実験では,オンチップ・ナノスケール・プラズモニック成分の量子乱数生成系への統合が成功したことを示す。
これはコンパクトでスケーラブルな量子乱数生成の新しい機会をもたらす可能性がある。 Quantum random number generators employ the inherent randomness of quantum mechanics to generate truly unpredictable random numbers, which are essential in cryptographic applications. While a great variety of quantum random number generators have been realised using photonics, few exploit the high-field confinement offered by plasmonics, which enables device footprints an order of magnitude smaller in size. Here we integrate an on-chip nanowire plasmonic waveguide into an optical time-of-arrival based quantum random number generation setup. Despite loss, we achieve a random number generation rate of 14.4 Mbits/s using low light intensity, with the generated bits passing industry standard tests without post-processing. By increasing the light intensity, we were then able to increase the generation rate to 41.4 Mbits/s, with the resulting bits only requiring a shuffle to pass all tests. This is an order of magnitude increase in the generation rate and decrease in the device size compared to previous work. Our experiment demonstrates the successful integration of an on-chip nanoscale plasmonic component into a quantum random number generation setup. This may lead to new opportunities in compact and scalable quantum random number generation. | 翻訳日:2023-06-26 12:48:05 公開日:2023-06-23 |
# 古典的高調波発振器の代数解 Algebraic solution for the classical harmonic oscillator ( http://arxiv.org/abs/2306.13488v1 ) ライセンス: Link先を確認 | Murilo B. Alves | (参考訳) 調和発振器は、多くの応用を持つ物理学で最も研究されている系の1つである。
量子力学コースで最初に解決された問題の1つは、解析的および代数的アプローチで単純な調和振動子のエネルギースペクトルを計算することである。
代数解では、ハミルトニアンを分解するために生成および消滅作用素が導入された。
この研究は、古典力学の文脈における単純な調和振動子の代数的解を示し、ハミルトン形式を探求する。
この解では、古典的問題に便利な標準座標と量子力学の対応する演算子との類似性が強調される。
さらに、提示された代数解は、古典調和振動子の量子化のための簡単な手順を提供し、量子力学の対応問題を解くために一般的に用いられる演算子定義を動機付け、正当化する。 The harmonic oscillator is one of the most studied systems in Physics with a myriad of applications. One of the first problems solved in a Quantum Mechanics course is calculating the energy spectrum of the simple harmonic oscillator with analytic and algebraic approaches. In the algebraic solution, creation and annihilation operators are introduced to factorize the Hamiltonian. This work presents an algebraic solution for the simple harmonic oscillator in the context of Classical Mechanics, exploring the Hamiltonian formalism. In this solution, similarities between the canonical coordinates in a convenient basis for the classical problem and the corresponding operators in Quantum Mechanics are highlighted. Moreover, the presented algebraic solution provides a straightforward procedure for the quantization of the classical harmonic oscillator, motivating and justifying some operator definitions commonly used to solve the correspondent problem in Quantum Mechanics. | 翻訳日:2023-06-26 12:47:47 公開日:2023-06-23 |
# 量子力学におけるガリレオ相対性と経路積分形式 Galilean Relativity and the Path Integral Formalism in Quantum Mechanics ( http://arxiv.org/abs/2306.13487v1 ) ライセンス: Link先を確認 | Charles Torre | (参考訳) ニュートン力学における閉系はガリレオ相対性理論に従う。
しかし、ニュートン力学の通常のラグランジアンは、運動量とポテンシャルエネルギーの差から形成されるが、ガリレオ変換の全群の下で不変ではない。
量子力学において、ガリレオブーストは波動関数に対する非自明な変換規則とガリレオ対称性群の「射影表現」を必要とする。
ファインマンの経路積分形式論を用いると、後者の結果はラグランジアンの非不変性と同値であることが分かる。
したがって、経路積分法を用いて、量子力学における特定の対称性群の表現は古典ラグランジアンの変換特性の観点で簡単に理解することができる。
ここで報告された主な結果は、特に古典力学、量子力学、数学物理学の学生や教師に、先進的および初期大学院レベルでアクセスでき、量子力学の経路積分形式主義、相対性理論、ラグランジアン力学、古典力学および量子力学における対称性の表現のようなトピックを探求したい人々にとって有用な説明を提供する。 Closed systems in Newtonian mechanics obey the principle of Galilean relativity. However, the usual Lagrangian for Newtonian mechanics, formed from the difference of kinetic and potential energies, is not invariant under the full group of Galilean transformations. In quantum mechanics Galilean boosts require a non-trivial transformation rule for the wave function and a concomitant "projective representation" of the Galilean symmetry group. Using Feynman's path integral formalism this latter result can be shown to be equivalent to the non-invariance of the Lagrangian. Thus, using path integral methods, the representation of certain symmetry groups in quantum mechanics can be simply understood in terms of the transformation properties of the classical Lagrangian and conversely. The main results reported here should be accessible to students and teachers of physics -- particularly classical mechanics, quantum mechanics, and mathematical physics -- at the advanced undergraduate and beginning graduate levels, providing a useful exposition for those wanting to explore topics such as the path integral formalism for quantum mechanics, relativity principles, Lagrangian mechanics, and representations of symmetries in classical and quantum mechanics. | 翻訳日:2023-06-26 12:47:34 公開日:2023-06-23 |
# アナログ回路検証のための適応計画探索アルゴリズム Adaptive Planning Search Algorithm for Analog Circuit Verification ( http://arxiv.org/abs/2306.13484v1 ) ライセンス: Link先を確認 | Cristian Manolache, Cristina Andronache, Alexandru Caranica, Horia Cucu, Andi Buzo, Cristian Diaconu, Georg Pelz | (参考訳) 集積回路検証は近年かなりの関心を集めている。
これらの回路は年々複雑化しているため、適切な機能を保証するために、プレシリコン(プレSI)検証がより重要になる。
そこで本研究では,手動によるIC検証に必要な時間を削減するために,シミュレーションの少ない機械学習(ML)アプローチを提案する。
この方法は、ガウス過程(gp)サロゲートモデルを訓練するために、動作条件設定(occs)の初期評価セットに依存する。
代理モデルを用いることで、より複雑なOCCを提案することができる。
この手順を数回の反復で繰り返すと、合成回路と実回路の両方において、回路の応答のgp推定がより良くなり、特定の回路応答において最悪のケースや故障が発見される可能性が高まる。
そこで,提案手法は,OCCを全回路の仕様に近く提供し,実回路の応答の1つに対する故障(特定違反)を特定することができることを示す。 Integrated circuit verification has gathered considerable interest in recent times. Since these circuits keep growing in complexity year by year, pre-Silicon (pre-SI) verification becomes ever more important, in order to ensure proper functionality. Thus, in order to reduce the time needed for manually verifying ICs, we propose a machine learning (ML) approach, which uses less simulations. This method relies on an initial evaluation set of operating condition configurations (OCCs), in order to train Gaussian process (GP) surrogate models. By using surrogate models, we can propose further, more difficult OCCs. Repeating this procedure for several iterations has shown better GP estimation of the circuit's responses, on both synthetic and real circuits, resulting in a better chance of finding the worst case, or even failures, for certain circuit responses. Thus, we show that the proposed approach is able to provide OCCs closer to the specifications for all circuits and identify a failure (specification violation) for one of the responses of a real circuit. | 翻訳日:2023-06-26 12:47:12 公開日:2023-06-23 |
# 線型フェルミオン部分を持つ指数関数に対するバリアン・ブレジン分解の一般化 Generalization of Balian-Brezin decomposition for exponentials with linear fermionic part ( http://arxiv.org/abs/2306.13481v1 ) ライセンス: Link先を確認 | M. A. Seifi Mirjafarlou, A. Jafarizadeh, M. A. Rajabpour | (参考訳) フェルミオンガウス状態は、その興味深い性質、特にウィックの定理により、かなりの注意を払っている。
フェルミオンガウス作用素と状態の性質を一般化した balian と brezin の仕事により、これらの発見をさらに拡張し、ガウス作用素を線型成分に組み込む。
colpa が導入した手法を利用して解析を合理化し,線形項を含む指数関数を包含する balian-brezin decomposition (bbd) の包括的拡張を提案する。
さらに,線形部分をもつガウス状態を導入し,対応する重なり公式を導出する。
さらに、ウィックの定理を線形項を含むシナリオを包含するために一般化し、1点および2点相関関数に関連する一般的な期待値の表現を容易にする。
また、$\mathfrak{so}(N)$ Lie algebra 内の BCH (Zassenhaus) 公式に対処する際の BB 分解の適用性に関する簡単な注釈も提供する。 Fermionic Gaussian states have garnered considerable attention due to their intriguing properties, most notably Wick's theorem. Expanding upon the work of Balian and Brezin, who generalized properties of fermionic Gaussian operators and states, we further extend their findings to incorporate Gaussian operators with a linear component. Leveraging a technique introduced by Colpa, we streamline the analysis and present a comprehensive extension of the Balian-Brezin decomposition (BBD) to encompass exponentials involving linear terms. Furthermore, we introduce Gaussian states featuring a linear part and derive corresponding overlap formulas. Additionally, we generalize Wick's theorem to encompass scenarios involving linear terms, facilitating the expression of generic expectation values in relation to one and two-point correlation functions. We also provide a brief commentary on the applicability of the BB decomposition in addressing the BCH (Zassenhaus) formulas within the $\mathfrak{so}(N)$ Lie algebra. | 翻訳日:2023-06-26 12:46:55 公開日:2023-06-23 |
# ディープニューラルネットワークによる効率的なオンライン処理 Efficient Online Processing with Deep Neural Networks ( http://arxiv.org/abs/2306.13474v1 ) ライセンス: Link先を確認 | Lukas Hedegaard | (参考訳) ディープニューラルネットワーク(dnn)の能力と採用は、非常に高いペースで増加している – ビジョンモデルがビデオ内の人間の行動を正確に分類し、医療スキャンにおいて人間の専門家よりも正確にがん組織を識別する。
彼らの用途は誇張されているが、モデルのサイズと計算の複雑さは暗くなっている。
トレーニングおよびサービスモデルの経済的コストと負の環境外部性は、財政的生存可能性や気候活動目標と明らかに不一致している。
この論文は、予測性能のさらなる向上を追求する代わりに、ニューラルネットワーク効率の改善に特化している。
特に、コアコントリビューションは、オンライン推論の効率面に対処する。
ここでは、連続推論ネットワーク(CIN)の概念を4つの出版物で提案し、検討する。
CINは、時空間データのオフライン処理のために開発された最先端の手法を拡張し、トレーニング済みの重みを再利用し、オンラインでの処理効率を桁違いに向上させる。
これらの進歩はボトムアップな計算の再編成と公平なアーキテクチャ変更によって達成される。
オンライン推論の利点は、3D CNN、ST-GCN、Transformer Encodersなど、広く使われているネットワークアーキテクチャをCINに書き換えることによって示される。
直交的寄与は、複数の軽量導出モデルへの大きなソースモデルの同時適応と計算的加速に取り組む。
ファジブルアダプターネットワークと構造化プルーニングをベースとした構造化プルーニングアダプタは、プルーニングによる微調整に比べて学習重量を著しく少なくして、アグレッシブプルーニング時の予測精度に優れる。 The capabilities and adoption of deep neural networks (DNNs) grow at an exhilarating pace: Vision models accurately classify human actions in videos and identify cancerous tissue in medical scans as precisely than human experts; large language models answer wide-ranging questions, generate code, and write prose, becoming the topic of everyday dinner-table conversations. Even though their uses are exhilarating, the continually increasing model sizes and computational complexities have a dark side. The economic cost and negative environmental externalities of training and serving models is in evident disharmony with financial viability and climate action goals. Instead of pursuing yet another increase in predictive performance, this dissertation is dedicated to the improvement of neural network efficiency. Specifically, a core contribution addresses the efficiency aspects during online inference. Here, the concept of Continual Inference Networks (CINs) is proposed and explored across four publications. CINs extend prior state-of-the-art methods developed for offline processing of spatio-temporal data and reuse their pre-trained weights, improving their online processing efficiency by an order of magnitude. These advances are attained through a bottom-up computational reorganization and judicious architectural modifications. The benefit to online inference is demonstrated by reformulating several widely used network architectures into CINs, including 3D CNNs, ST-GCNs, and Transformer Encoders. An orthogonal contribution tackles the concurrent adaptation and computational acceleration of a large source model into multiple lightweight derived models. Drawing on fusible adapter networks and structured pruning, Structured Pruning Adapters achieve superior predictive accuracy under aggressive pruning using significantly fewer learned weights compared to fine-tuning with pruning. | 翻訳日:2023-06-26 12:46:36 公開日:2023-06-23 |
# 高次元観測による潜時部分群シフトの予測 Prediction under Latent Subgroup Shifts with High-Dimensional Observations ( http://arxiv.org/abs/2306.13472v1 ) ライセンス: Link先を確認 | William I. Walker, Arthur Gretton, Maneesh Sahani | (参考訳) 本研究では、遅延シフト適応を用いたグラフィカルモデルにおける新しい予測手法、すなわち、観測されていない待ち時間変数の分布において、ソース環境とターゲット環境が異なる場合を提案する。
これまでの研究では、ソース環境において適切な依存性を持つ"概念"変数と"プロキシ"変数が観測される限り、潜時関連分布変化を識別でき、ターゲット予測が正確に適応できることが示されている。
しかしながら、観測が複雑で高次元である場合、基礎となる潜在性がカテゴリー的であっても、実用的な推定手法はうまくスケールしない。
本稿では、画像観察から低次元の離散潜伏者を復元するための確率的非教師付き学習フレームワークRPM(認識パラメトリッドモデル)を構築した。
潜伏シフト問題に適用し,新しい形式のrpmはソース環境における因果潜在構造を同定し,ターゲットの予測に適切に適応する。
本研究では,予測器とプロキシが高次元画像である場合,従来の手法ではスケールできない状況において結果を示す。 We introduce a new approach to prediction in graphical models with latent-shift adaptation, i.e., where source and target environments differ in the distribution of an unobserved confounding latent variable. Previous work has shown that as long as "concept" and "proxy" variables with appropriate dependence are observed in the source environment, the latent-associated distributional changes can be identified, and target predictions adapted accurately. However, practical estimation methods do not scale well when the observations are complex and high-dimensional, even if the confounding latent is categorical. Here we build upon a recently proposed probabilistic unsupervised learning framework, the recognition-parametrised model (RPM), to recover low-dimensional, discrete latents from image observations. Applied to the problem of latent shifts, our novel form of RPM identifies causal latent structure in the source environment, and adapts properly to predict in the target. We demonstrate results in settings where predictor and proxy are high-dimensional images, a context to which previous methods fail to scale. | 翻訳日:2023-06-26 12:46:11 公開日:2023-06-23 |
# 超低温領域における二分子衝突のロバストコヒーレント制御 Robust Coherent Control of Bimolecular Collisions beyond the Ultracold Regime ( http://arxiv.org/abs/2306.13470v1 ) ライセンス: Link先を確認 | Adrien Devolder, Paul Brumer and Timur Tscherbul | (参考訳) 超低温状態以外の二分子衝突の量子コヒーレント制御は、全散乱断面積への異なる部分波の寄与の非コヒーレントな付加により大きな課題に直面する。
これらの寄与は、衝突エネルギーが増加するにつれてますます多くなり、全体的な制御が失われる。
本稿では,最近発見された部分波位相ロック(pwpl)効果を利用して,すべての部分波寄与の振動を同期させることにより,この限界を克服する。
厳密な量子散乱計算を用いて、PWPLは5000個の部分波の寄与を伴っても極低温状態から遠く離れたイオン原子衝突におけるスピン交換のコヒーレント制御を可能にすることを示した。
予測される制御範囲は、低温原子-イオンハイブリッド実験において測定可能である。 Quantum coherent control of bimolecular collisions beyond the ultracold regime can face a major challenge due to the incoherent addition of different partial wave contributions to the total scattering cross section. These contributions become increasingly numerous as the collision energy increases, leading to a loss of overall control. Here, we overcome this limitation by leveraging the recently discovered Partial Wave Phase Locking (PWPL) effect, which synchronizes the oscillations of all partial wave contributions. By using rigorous quantum scattering calculations, we demonstrate that PWPL enables coherent control of spin exchange in ion-atom collisions, far outside the ultracold regime, even with as many as 5000 partial wave contributions. The predicted extent of control is sufficient to be measurable in cold atom-ion hybrid experiments. | 翻訳日:2023-06-26 12:45:53 公開日:2023-06-23 |
# 変換器を用いたamr解析におけるグラフ情報の導入 Incorporating Graph Information in Transformer-based AMR Parsing ( http://arxiv.org/abs/2306.13467v1 ) ライセンス: Link先を確認 | Pavlo Vasylenko, Pere-Llu\'is Huguet Cabot, Abelardo Carlos Mart\'inez Lorenzo, Roberto Navigli | (参考訳) 抽象的意味表現(英:Abstract Meaning Representation, AMR)は、あるテキストを表すセマンティックグラフの抽象化を提供することを目的としたセマンティック解析形式である。
現在のアプローチは、BARTやT5といった自動回帰言語モデルに基づいており、Teacher Forcingを通じて微調整され、文からAMRグラフの線形化バージョンを得る。
本稿では,トランスフォーマーアーキテクチャの修正を探求するモデルと手法である leakdistill について述べる。構造アダプタを用いて,学習表現にグラフ情報を明示的に組み込むことにより,amr解析性能を向上させる。
実験では, 単語-ノードアライメントを用いて, 学習時にグラフ構造情報をエンコーダに埋め込むことにより, 付加データを用いなくても, 自己知識蒸留により, 最先端のAMR解析が可能であることを示した。
コードは \url{http://www.github.com/sapienzanlp/leakdistill} でリリースします。 Abstract Meaning Representation (AMR) is a Semantic Parsing formalism that aims at providing a semantic graph abstraction representing a given text. Current approaches are based on autoregressive language models such as BART or T5, fine-tuned through Teacher Forcing to obtain a linearized version of the AMR graph from a sentence. In this paper, we present LeakDistill, a model and method that explores a modification to the Transformer architecture, using structural adapters to explicitly incorporate graph information into the learned representations and improve AMR parsing performance. Our experiments show how, by employing word-to-node alignment to embed graph structural information into the encoder at training time, we can obtain state-of-the-art AMR parsing through self-knowledge distillation, even without the use of additional data. We release the code at \url{http://www.github.com/sapienzanlp/LeakDistill}. | 翻訳日:2023-06-26 12:45:38 公開日:2023-06-23 |
# 農業ロボットの精密噴霧のための植物形状特徴を利用した植物植物のセグメンテーションと追跡 Segmentation and Tracking of Vegetable Plants by Exploiting Vegetable Shape Feature for Precision Spray of Agricultural Robots ( http://arxiv.org/abs/2306.13518v1 ) ライセンス: Link先を確認 | Nan Hu and Daobilige Su and Shuo Wang and Xuechang Wang and Huiyu Zhong and Zimeng Wang and Yongliang Qiao and Yu Tan | (参考訳) 農業用ロボットの普及に伴い、従来の手作業による肥料や農薬の散布は徐々に農業用ロボットに置き換えられている。
植物農場におけるロボットの精密噴霧適用においては, 事例区分による正確な植物表現の抽出とロバストな植物追跡が重要である。
本報告では, 野菜の密着性トラッキングに関して, 連続画像における類似の色やテクスチャと野菜を関連付けるという課題を解決するために, 複数植物のセグメンテーション・トラッキングにおいて, マルチプルオブジェクトトラッキング・セグメンテーション(MOTS)の新たな手法を提案する。
本手法では,各野菜の独特の特徴を表現し,同じ野菜を異なる画像で関連付けるため,輪郭とブロブの特徴を抽出する。
各野菜にユニークなidを割り当てることで、ロボットは農場の列に沿って横断しながら、各野菜を正確に1回だけスプレーできる。
アブレーション研究を含む包括的実験を行い、2つの最先端mots法よりも優れた性能を示す。
従来のmots法と比較して,提案手法では,カメラの視野から外れた物体を再識別し,ロボットが往復するときにのみ各野菜を噴霧させることが重要となるデータアソシエーション戦略を用いて再出現させることができる。
レタス農場で試験されているが、ブロッコリーやカノーラなどの他の類似野菜にも適用できる。
この論文のコードとデータセットは、コミュニティの利益のために公開されています。 With the increasing deployment of agricultural robots, the traditional manual spray of liquid fertilizer and pesticide is gradually being replaced by agricultural robots. For robotic precision spray application in vegetable farms, accurate plant phenotyping through instance segmentation and robust plant tracking are of great importance and a prerequisite for the following spray action. Regarding the robust tracking of vegetable plants, to solve the challenging problem of associating vegetables with similar color and texture in consecutive images, in this paper, a novel method of Multiple Object Tracking and Segmentation (MOTS) is proposed for instance segmentation and tracking of multiple vegetable plants. In our approach, contour and blob features are extracted to describe unique feature of each individual vegetable, and associate the same vegetables in different images. By assigning a unique ID for each vegetable, it ensures the robot to spray each vegetable exactly once, while traversing along the farm rows. Comprehensive experiments including ablation studies are conducted, which prove its superior performance over two State-Of-The-Art (SOTA) MOTS methods. Compared to the conventional MOTS methods, the proposed method is able to re-identify objects which have gone out of the camera field of view and re-appear again using the proposed data association strategy, which is important to ensure each vegetable be sprayed only once when the robot travels back and forth. Although the method is tested on lettuce farm, it can be applied to other similar vegetables such as broccoli and canola. Both code and the dataset of this paper is publicly released for the benefit of the community: https://github.com/NanH5837/LettuceMOTS. | 翻訳日:2023-06-26 12:39:25 公開日:2023-06-23 |
# 分岐型ニューラルネットワークのためのバイナリドメイン一般化 Binary domain generalization for sparsifying binary neural networks ( http://arxiv.org/abs/2306.13515v1 ) ライセンス: Link先を確認 | Riccardo Schiavone, Francesco Galati and Maria A. Zuluaga | (参考訳) バイナリニューラルネットワーク(BNN)は、リソース制約のあるデバイスにおいて、ディープニューラルネットワーク(DNN)ベースのアプリケーションを開発、デプロイするための魅力的なソリューションである。
その成功にもかかわらず、BNNは依然として、完全精度DNNに対する既存のプルーニング手法がBNNに直接適用できないという事実によって説明できるような、固定的で限られた圧縮要因に悩まされている。
実際、BNNの重み付けは性能劣化を招き、BNNの標準的な二項化領域がタスクに適していないことを示唆している。
本研究は, プレニング技術に対して堅牢な標準バイナリドメインを拡張し, 圧縮性を向上し, 大幅な性能損失を回避する, 新たな汎用バイナリドメインを提案する。
提案する二分領域への全精度ネットワークの重み付けを定量化するための閉形式解を示す。
最後に,他のプルーニング戦略と組み合わせることが可能な手法の柔軟性を示す。
CIFAR-10とCIFAR-100の実験により、新しいアプローチは、性能を維持しながら、メモリ使用量と実行時のレイテンシを低減した効率的なスパースネットワークを生成することができることを示した。 Binary neural networks (BNNs) are an attractive solution for developing and deploying deep neural network (DNN)-based applications in resource constrained devices. Despite their success, BNNs still suffer from a fixed and limited compression factor that may be explained by the fact that existing pruning methods for full-precision DNNs cannot be directly applied to BNNs. In fact, weight pruning of BNNs leads to performance degradation, which suggests that the standard binarization domain of BNNs is not well adapted for the task. This work proposes a novel more general binary domain that extends the standard binary one that is more robust to pruning techniques, thus guaranteeing improved compression and avoiding severe performance losses. We demonstrate a closed-form solution for quantizing the weights of a full-precision network into the proposed binary domain. Finally, we show the flexibility of our method, which can be combined with other pruning strategies. Experiments over CIFAR-10 and CIFAR-100 demonstrate that the novel approach is able to generate efficient sparse networks with reduced memory usage and run-time latency, while maintaining performance. | 翻訳日:2023-06-26 12:38:52 公開日:2023-06-23 |
# DISCO-10M: 大規模音楽データセット DISCO-10M: A Large-Scale Music Dataset ( http://arxiv.org/abs/2306.13512v1 ) ライセンス: Link先を確認 | Luca A. Lanzend\"orfer, Florian Gr\"otschla, Emil Funke, Roger Wattenhofer | (参考訳) 音楽データセットは、音楽のための機械学習の研究を進める上で重要な役割を果たす。
しかし、既存の音楽データセットはサイズ、アクセシビリティ、オーディオリソースの不足に苦しんでいる。
これらの欠点に対処するために,従来で最大の楽曲データセットを桁違いに超える,斬新で広範な音楽データセットdisCO-10Mを提案する。
高品質なデータを保証するため,マルチステージフィルタリングプロセスを実装した。
このプロセスには、テキスト記述とオーディオ埋め込みに基づく類似性が含まれている。
さらに, DisCO-10M と併用して事前計算した CLAP 埋め込みを提供し, 様々な下流タスクへの直接適用を容易にする。
これらの埋め込みは、提供されたデータに基づく機械学習アプリケーションの効率的な探索を可能にする。
DISCO-10Mでは、音楽のための新しい機械学習モデルの開発を促進するために、新しい研究の民主化と促進を目的としている。 Music datasets play a crucial role in advancing research in machine learning for music. However, existing music datasets suffer from limited size, accessibility, and lack of audio resources. To address these shortcomings, we present DISCO-10M, a novel and extensive music dataset that surpasses the largest previously available music dataset by an order of magnitude. To ensure high-quality data, we implement a multi-stage filtering process. This process incorporates similarities based on textual descriptions and audio embeddings. Moreover, we provide precomputed CLAP embeddings alongside DISCO-10M, facilitating direct application on various downstream tasks. These embeddings enable efficient exploration of machine learning applications on the provided data. With DISCO-10M, we aim to democratize and facilitate new research to help advance the development of novel machine learning models for music. | 翻訳日:2023-06-26 12:38:30 公開日:2023-06-23 |
# デジタルアイデンティティシステムへの市民参加 Onboarding Citizens to Digital Identity Systems ( http://arxiv.org/abs/2306.13511v1 ) ライセンス: Link先を確認 | Tasos Spiliotopoulos, Al Tariq Sheik, Debora Gottardello, Robert Dover | (参考訳) デジタルアイデンティティ(DI)技術は、シームレスなサービスの提供を通じて市民の生活の質を高め、公共サービスの有効性を改善し、全体的な経済的競争力を高める可能性がある。
しかし、disへのアクセスの欠如はこれらの利点を制限し、不平等なアクセスは、これらの利益を社会的グループに均等に分散させ、既存の緊張感をエスカレートさせる可能性がある。
アクセシブルでユーザフレンドリで効率的なオンボーディングは、公平なアクセスとDI技術の広範な採用を保証する上で重要な役割を担います。
本稿は,全国のdiシステムへの市民参加に使用できる物理的場所(実験センター)の開発を提案し,その技術による市民の最初の印象を肯定的に形作るとともに,その導入を促進する。
そこで本研究では,DI搭載モデル体験センターの設計,開発,運用に必要な考慮事項を包括的に特定し,対処するための多分野研究アプローチについて概説する。 Digital Identity (DI) technologies have the potential to enhance the quality of life of citizens through the provision of seamless services, improve the effectiveness of public services, and increase overall economic competitiveness. However, lack of access to DIs can limit these benefits, while unequal access can lead to uneven distribution of these benefits across social groups and escalate existing tensions. Accessible, user-friendly and efficient onboarding can play a key role in ensuring equitable access and wide adoption of DI technologies. This paper proposes the development of physical locations (Experience Centres) that can be used for citizen onboarding to national DI systems, positively shaping citizens' first impression with the technology and, in turn, promoting adoption. To this end, we outline a multidisciplinary research approach for identifying and addressing the considerations necessary for designing, developing and operating a model Experience Centre for DI onboarding in an inclusive manner. | 翻訳日:2023-06-26 12:38:19 公開日:2023-06-23 |
# 補助ロボットアームのためのaiエンハンスド共有制御の検討 Exploring AI-enhanced Shared Control for an Assistive Robotic Arm ( http://arxiv.org/abs/2306.13509v1 ) ライセンス: Link先を確認 | Max Pascher, Kirill Kronhardt1, Jan Freienstein, Jens Gerken | (参考訳) 補助技術、特に補助ロボットアームは、運動障害を持つ人々が自己決定的な生活を生きられる可能性を持っている。
近年、キノヴァのjacoロボットアームなど、エンドユーザーが利用できるシステムが増えてきている。
しかし、それらは主に複雑な手動コントロールを必要とし、ユーザを圧倒する可能性がある。
その結果、研究者たちはそのようなロボットを自律的に動作させる方法を模索した。
しかし、少なくともこの特定のユーザーグループでは、このようなアプローチは無駄であることが示されている。
ここでは、自律ロボットが対向する高いレベルの自律性を達成するために、ユーザーはコントロールを維持したい。
本研究では,アートインテリジェンス(AI)を共有制御パラダイムに統合する方法について検討する。
特に,人間とロボットのインタフェースに対する要求事項と,人間のループをいかに保ちながら,精神的負荷と必要な運動能力を大幅に削減できるかに注目した。 Assistive technologies and in particular assistive robotic arms have the potential to enable people with motor impairments to live a self-determined life. More and more of these systems have become available for end users in recent years, such as the Kinova Jaco robotic arm. However, they mostly require complex manual control, which can overwhelm users. As a result, researchers have explored ways to let such robots act autonomously. However, at least for this specific group of users, such an approach has shown to be futile. Here, users want to stay in control to achieve a higher level of personal autonomy, to which an autonomous robot runs counter. In our research, we explore how Artifical Intelligence (AI) can be integrated into a shared control paradigm. In particular, we focus on the consequential requirements for the interface between human and robot and how we can keep humans in the loop while still significantly reducing the mental load and required motor skills. | 翻訳日:2023-06-26 12:38:02 公開日:2023-06-23 |
# 分布データセットにおける主成分分析の2つの導出 Two derivations of Principal Component Analysis on datasets of distributions ( http://arxiv.org/abs/2306.13503v1 ) ライセンス: Link先を確認 | Vlad Niculae | (参考訳) 本稿では,主成分分析(PCA)を点ではなく分布からなるデータセット上で定式化し,その位置と共分散を特徴とする。
点上の通常のPCAは、分散最大化原理と再構成誤差の最小化により等価に導出できるのと同じように、これらの両視点から分布PCAに対する閉形式解を導出する。 In this brief note, we formulate Principal Component Analysis (PCA) over datasets consisting not of points but of distributions, characterized by their location and covariance. Just like the usual PCA on points can be equivalently derived via a variance-maximization principle and via a minimization of reconstruction error, we derive a closed-form solution for distributional PCA from both of these perspectives. | 翻訳日:2023-06-26 12:37:48 公開日:2023-06-23 |
# 知識注入自己注意変圧器 Knowledge-Infused Self Attention Transformers ( http://arxiv.org/abs/2306.13501v1 ) ライセンス: Link先を確認 | Kaushik Roy, Yuxin Zi, Vignesh Narayanan, Manas Gaur, Amit Sheth | (参考訳) トランスフォーマーベースの言語モデルは、複雑な依存関係やコンテキスト情報をセルフアテンションメカニズムを使ってキャプチャする能力によって、さまざまな自然言語処理タスクで素晴らしい成功を収めています。
しかし、制限がないわけではない。
これらの制限には、不適切な出力を高い信頼性で生成する幻覚や、人間のユーザにとって不安全で安全でないアウトプットを生成するアライメントの問題が含まれる。
これらの制限は、データにのみ暗黙的かつ欠落したコンテキストがないことに起因する。
これに対処するため、研究者はこれらのモデルを知識グラフからの外部知識で拡張し、必要な追加コンテキストを提供する。
しかし,既存手法のアドホックな性質は,変圧器の多数の可動部や部品に対する知識注入の効果を適切に解析することが困難である。
本稿では,トランスベースモデルの異なる構成要素に知識を注入する体系的手法を提案する。
自己着脱機構やエンコーダ層,あるいは知識注入が適用可能な入力埋め込み層など,トランスフォーマーアーキテクチャ内の特定のコンポーネントを識別するためのモジュールフレームワークが提案されている。
さらに、GLUE(General Language Understanding Evaluation)ベンチマークタスクについて広範な実験を行い、その結果を報告する。
この体系的アプローチは、言語モデルアーキテクチャに知識を組み込むためのより原則的なアプローチを促進することを目的としている。 Transformer-based language models have achieved impressive success in various natural language processing tasks due to their ability to capture complex dependencies and contextual information using self-attention mechanisms. However, they are not without limitations. These limitations include hallucinations, where they produce incorrect outputs with high confidence, and alignment issues, where they generate unhelpful and unsafe outputs for human users. These limitations stem from the absence of implicit and missing context in the data alone. To address this, researchers have explored augmenting these models with external knowledge from knowledge graphs to provide the necessary additional context. However, the ad-hoc nature of existing methods makes it difficult to properly analyze the effects of knowledge infusion on the many moving parts or components of a transformer. This paper introduces a systematic method for infusing knowledge into different components of a transformer-based model. A modular framework is proposed to identify specific components within the transformer architecture, such as the self-attention mechanism, encoder layers, or the input embedding layer, where knowledge infusion can be applied. Additionally, extensive experiments are conducted on the General Language Understanding Evaluation (GLUE) benchmark tasks, and the findings are reported. This systematic approach aims to facilitate more principled approaches to incorporating knowledge into language model architectures. | 翻訳日:2023-06-26 12:37:40 公開日:2023-06-23 |
# 外乱検出のためのカスケードサブスペースクラスタリング Cascade Subspace Clustering for Outlier Detection ( http://arxiv.org/abs/2306.13500v1 ) ライセンス: Link先を確認 | Qi Yang and Hao Zhu | (参考訳) スパースとローランクの表現に基づく多くの手法が、正しい外れ値検出の保証とともに開発された。
自己表現は、部分空間内の点が常に部分空間内の他の点の線型結合として表現できることを意味する。
適切なマルコフ連鎖は自己表現で定義することができ、不整数と外れ値の違いを認識することができる。
しかし,不整合検出にはまだ意味のある自己表現の復元誤差は無視され,勾配の上昇に触発されて,複数の弱い「外部検出」を反復的に一つの強みに結合する新しい外部検出フレームワークが提案される。
各段階では,elastic-netに基づく自己表現を構築し,その上で適切なマルコフ連鎖を定義して異常値を検出する。
自己表現の残余は、次の弱い外れ値検出器を学ぶために次の段階で使用される。
そのような舞台は何度も繰り返される。
そして、最終決定は、前回のすべての結果によって生成される。
画像および話者データセットにおける実験結果は、最先端のスパースおよび低ランクの異常検出法においてその優位性を示している。 Many methods based on sparse and low-rank representation been developed along with guarantees of correct outlier detection. Self-representation states that a point in a subspace can always be expressed as a linear combination of other points in the subspace. A suitable Markov Chain can be defined on the self-representation and it allows us to recognize the difference between inliers and outliers. However, the reconstruction error of self-representation that is still informative to detect outlier detection, is neglected.Inspired by the gradient boosting, in this paper, we propose a new outlier detection framework that combines a series of weak "outlier detectors" into a single strong one in an iterative fashion by constructing multi-pass self-representation. At each stage, we construct a self-representation based on elastic-net and define a suitable Markov Chain on it to detect outliers. The residual of the self-representation is used for the next stage to learn the next weaker outlier detector. Such a stage will repeat many times. And the final decision of outliers is generated by the previous all results. Experimental results on image and speaker datasets demonstrate its superiority with respect to state-of-the-art sparse and low-rank outlier detection methods. | 翻訳日:2023-06-26 12:37:18 公開日:2023-06-23 |
# 最大交絡状態に対する定値自己試験と単射影測定 Constant-sized self-tests for maximally entangled states and single projective measurements ( http://arxiv.org/abs/2306.13498v1 ) ライセンス: Link先を確認 | Jurij Vol\v{c}i\v{c} | (参考訳) 自己テストは、測定された古典統計に依存する量子システムの強力な認証である。
本稿では,少数の入力と出力を持つ2部構成ベルシナリオにおける自己検査について考察するが,量子状態と任意に大きな次元の測定を行う。
コントリビューションは2つです。
まず、すべての最大絡み合った状態が、パーティ毎に4つのバイナリ測定で自己テストできることが示される。
この結果はman\v{c}inska-prakash-schafhauser(2021年)の初期の業績を拡張し、奇数次元のみの最大絡み合い状態に適用する。
第二に、各二分射影測定は各パーティーごとに5つの二分測度で自己検査できることが示される。
同様のステートメントは、2つ以上のアウトプットを持つ射影計測の自己テストにも当てはまる。
これらの結果は、同一性のスカラー倍に追加される射影の四重項の表現理論によって実現される。
既約表現の構造、スペクトル特徴の分析、ポストホック自己テストは、少ない入力と出力で新しい自己テストを構築するための主要な方法である。 Self-testing is a powerful certification of quantum systems relying on measured, classical statistics. This paper considers self-testing in bipartite Bell scenarios with small number of inputs and outputs, but with quantum states and measurements of arbitrarily large dimension. The contributions are twofold. Firstly, it is shown that every maximally entangled state can be self-tested with four binary measurements per party. This result extends the earlier work of Man\v{c}inska-Prakash-Schafhauser (2021), which applies to maximally entangled states of odd dimensions only. Secondly, it is shown that every single binary projective measurement can be self-tested with five binary measurements per party. A similar statement holds for self-testing of projective measurements with more than two outputs. These results are enabled by the representation theory of quadruples of projections that add to a scalar multiple of the identity. Structure of irreducible representations, analysis of their spectral features and post-hoc self-testing are the primary methods for constructing the new self-tests with small number of inputs and outputs. | 翻訳日:2023-06-26 12:36:57 公開日:2023-06-23 |
# 特徴量による高次不変形シンボル可観測物の検索 Retrieval of Boost Invariant Symbolic Observables via Feature Importance ( http://arxiv.org/abs/2306.13496v1 ) ライセンス: Link先を確認 | Jose M Munoz and Ilyes Batatia and Christoph Ortner and Francesco Romeo | (参考訳) 高エネルギー物理学におけるジェットタギングのディープラーニングアプローチは、重要な識別可能な情報を抽出するのが難しい大量の情報を処理するブラックボックスとして特徴づけられる。
本稿では,与えられたタスクで最も重要な特徴を表現する単純な解析式を直接解析できる,不変多項式の強化という,ディープラーニングのアプローチの代替案を提案する。
さらに,本手法は,物理的に有意な可観測性を示す最小の特徴セットを持つ極端に低次元の分類器を提供し,その結果アルゴリズムの実行を高速化し,全情報を用いたアルゴリズムに比較的近い性能で実現することを示す。 Deep learning approaches for jet tagging in high-energy physics are characterized as black boxes that process a large amount of information from which it is difficult to extract key distinctive observables. In this proceeding, we present an alternative to deep learning approaches, Boost Invariant Polynomials, which enables direct analysis of simple analytic expressions representing the most important features in a given task. Further, we show how this approach provides an extremely low dimensional classifier with a minimum set of features representing %effective discriminating physically relevant observables and how it consequently speeds up the algorithm execution, with relatively close performance to the algorithm using the full information. | 翻訳日:2023-06-26 12:36:39 公開日:2023-06-23 |
# マイトショット政策模倣における微調整とメタラーニングの有効性の比較 Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot Policy Imitation ( http://arxiv.org/abs/2306.13554v1 ) ライセンス: Link先を確認 | Massimiliano Patacchiola, Mingfei Sun, Katja Hofmann, Richard E. Turner | (参考訳) 本稿では,オフラインロールアウトの制限セットにアクセスして,ターゲットポリシーを模倣する学習を含む,制御問題に対するマイテーション学習について検討する。
この設定は、ロボット工学や制御アプリケーションとの関連性にもかかわらず、比較的過小評価されている。
数少ない模倣に取り組むために開発された最先端の手法は、メタラーニングに依存しており、タスク(多くのターゲットポリシーとベース環境のバリエーションからのロールアウト)を介してディストリビューションにアクセスする必要があるため、トレーニングは高価である。
この制限を考えると、私たちは、単一のデータセットで事前トレーニングし、未認識のドメイン固有データで微調整するメソッド群である、微調整という別のアプローチを調査します。
近年の研究では、特にデータがドメイン外である場合において、微調整器は、わずかな画像分類タスクでメタリーナーを上回ることが示されている。
ここでは,このことが制御問題にどの程度当てはまるかを評価し,二つの段階に依存する単純かつ効果的なベースラインを提案する。
(i)強化学習(ソフトアクタ-クリティックなど)によるオンラインベースポリシーのトレーニングを単一ベース環境で行うこと。
(ii)ターゲットポリシーのいくつかのオフラインロールアウトにおける行動クローンによるベースポリシーの微調整。
単純さにもかかわらず、このベースラインは様々な条件でメタ学習手法と競合し、元の環境の目に見えないバリエーションに基づいて訓練されたターゲットポリシーを模倣することができる。
提案手法は,複雑なメタトレーニングプロトコルを必要としないため,実用的で実装が容易である。
さらに,openai-gym mujoco環境の154の変種と,事前学習されたターゲットポリシとロールアウトを組み合わせた,イムジョコ(imitation mujoco)と呼ばれるオープンソースデータセットをリリースする。 In this paper we explore few-shot imitation learning for control problems, which involves learning to imitate a target policy by accessing a limited set of offline rollouts. This setting has been relatively under-explored despite its relevance to robotics and control applications. State-of-the-art methods developed to tackle few-shot imitation rely on meta-learning, which is expensive to train as it requires access to a distribution over tasks (rollouts from many target policies and variations of the base environment). Given this limitation we investigate an alternative approach, fine-tuning, a family of methods that pretrain on a single dataset and then fine-tune on unseen domain-specific data. Recent work has shown that fine-tuners outperform meta-learners in few-shot image classification tasks, especially when the data is out-of-domain. Here we evaluate to what extent this is true for control problems, proposing a simple yet effective baseline which relies on two stages: (i) training a base policy online via reinforcement learning (e.g. Soft Actor-Critic) on a single base environment, (ii) fine-tuning the base policy via behavioral cloning on a few offline rollouts of the target policy. Despite its simplicity this baseline is competitive with meta-learning methods on a variety of conditions and is able to imitate target policies trained on unseen variations of the original environment. Importantly, the proposed approach is practical and easy to implement, as it does not need any complex meta-training protocol. As a further contribution, we release an open source dataset called iMuJoCo (iMitation MuJoCo) consisting of 154 variants of popular OpenAI-Gym MuJoCo environments with associated pretrained target policies and rollouts, which can be used by the community to study few-shot imitation learning and offline reinforcement learning. | 翻訳日:2023-06-26 12:30:39 公開日:2023-06-23 |
# マルチモーダル大規模言語モデルに関する調査 A Survey on Multimodal Large Language Models ( http://arxiv.org/abs/2306.13549v1 ) ライセンス: Link先を確認 | Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen | (参考訳) マルチモーダル言語モデル(MLLM)は近年,強力な大規模言語モデル(LLM)を脳として,マルチモーダルタスクを実行するためのホットスポットとして注目されている。
MLLMの驚くべき創発的な能力、例えば画像に基づく物語を書くことや、OCRのない数学推論は、伝統的な手法ではまれであり、人工知能への潜在的な道のりを示唆している。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
まず, mllm の定式化と関連する概念の明確化について述べる。
次に、M-IT(Multimodal Instruction Tuning)、Multimodal In-Context Learning(M-ICL)、Multimodal Chain of Thought(M-CoT)、LLM-Aided Visual Reasoning(LAVR)といった重要な技術と応用について議論する。
最後に,既存の課題を議論し,有望な研究の方向性を指摘する。
MLLMの時代が始まったばかりであるという事実を踏まえ、私たちはこの調査を更新し続け、さらなる研究を促すことを期待します。
最新の論文を収集するGitHubリンクはhttps://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsにある。 Multimodal Large Language Model (MLLM) recently has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as writing stories based on images and OCR-free math reasoning, are rare in traditional methods, suggesting a potential path to artificial general intelligence. In this paper, we aim to trace and summarize the recent progress of MLLM. First of all, we present the formulation of MLLM and delineate its related concepts. Then, we discuss the key techniques and applications, including Multimodal Instruction Tuning (M-IT), Multimodal In-Context Learning (M-ICL), Multimodal Chain of Thought (M-CoT), and LLM-Aided Visual Reasoning (LAVR). Finally, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the latest papers is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models. | 翻訳日:2023-06-26 12:30:05 公開日:2023-06-23 |
# マルチルーム迷路環境における階層構造の推定 Inferring Hierarchical Structure in Multi-Room Maze Environments ( http://arxiv.org/abs/2306.13546v1 ) ライセンス: Link先を確認 | Daria de Tinguy, Toon Van de Maele, Tim Verbelen, Bart Dhoedt | (参考訳) 認知地図は、環境内の空間的および概念的関係を表現することによって柔軟な行動を促進する上で重要な役割を果たす。
環境の基盤構造を学習し、推測する能力は、効率的な探索と航海に不可欠である。
本稿では,画素に基づく観測から世界の構造を推測する課題に対処する階層的アクティブ推論モデルを提案する。
本稿では,認知マップ,アロセンティブ,エゴセントリックな世界モデルからなる3層階層型階層モデルを提案する。
これにより、部屋構成のミニグリッド環境における効率的な探索と目標指向探索が可能になる。 Cognitive maps play a crucial role in facilitating flexible behaviour by representing spatial and conceptual relationships within an environment. The ability to learn and infer the underlying structure of the environment is crucial for effective exploration and navigation. This paper introduces a hierarchical active inference model addressing the challenge of inferring structure in the world from pixel-based observations. We propose a three-layer hierarchical model consisting of a cognitive map, an allocentric, and an egocentric world model, combining curiosity-driven exploration with goal-oriented behaviour at the different levels of reasoning from context to place to motion. This allows for efficient exploration and goal-directed search in room-structured mini-grid environments. | 翻訳日:2023-06-26 12:29:41 公開日:2023-06-23 |
# 変分リー群演算子を用いたマニフォールドコントラスト学習 Manifold Contrastive Learning with Variational Lie Group Operators ( http://arxiv.org/abs/2306.13544v1 ) ライセンス: Link先を確認 | Kion Fallah, Alec Helbling, Kyle A. Johnsen, Christopher J. Rozell | (参考訳) ディープニューラルネットワークの自己教師付き学習は、ダウンストリームタスクに転送される表現を学習するための一般的なパラダイムとなっている。
生体視覚の腹側流れのモデルと同様に、これらのネットワークはペナルティメート層の表現における圏多様体の分離につながることが観察されている。
この観察は表現学習の多様体仮説と一致するが、現在の自己教師付きアプローチはこの多様体を明示的にモデル化する能力に制限がある。
実際、現在のアプローチは学習中に事前に特定された「正のペア」の集合からのみ拡張を適用する。
本研究では,sparsity-promoting priorを持つ係数によってパラメータ化されたリー群演算子を用いて,潜在多様体を直接モデル化するコントラスト学習手法を提案する。
これらの係数上の変分分布は多様体の生成モデルを提供し、対照的な訓練と下流のタスクの両方に適用可能な特徴拡張を与えるサンプルを提供する。
さらに、学習された係数分布は、恒等性を保ちながら多様体上の各点において変換が最も可能性が高い量化を与える。
画像データセットの自己教師付きベンチマークと下流の半教師付きタスクの利点を実証する。
前者の場合、提案手法は、射影ヘッドの有無にかかわらず、実効的に多様体的特徴拡張を適用でき、学習を改善できることを実証する。
後者の場合、学習したリー群演算子から採取した特徴拡張により、ラベルの少ない場合の分類性能が向上することを示した。 Self-supervised learning of deep neural networks has become a prevalent paradigm for learning representations that transfer to a variety of downstream tasks. Similar to proposed models of the ventral stream of biological vision, it is observed that these networks lead to a separation of category manifolds in the representations of the penultimate layer. Although this observation matches the manifold hypothesis of representation learning, current self-supervised approaches are limited in their ability to explicitly model this manifold. Indeed, current approaches often only apply augmentations from a pre-specified set of "positive pairs" during learning. In this work, we propose a contrastive learning approach that directly models the latent manifold using Lie group operators parameterized by coefficients with a sparsity-promoting prior. A variational distribution over these coefficients provides a generative model of the manifold, with samples which provide feature augmentations applicable both during contrastive training and downstream tasks. Additionally, learned coefficient distributions provide a quantification of which transformations are most likely at each point on the manifold while preserving identity. We demonstrate benefits in self-supervised benchmarks for image datasets, as well as a downstream semi-supervised task. In the former case, we demonstrate that the proposed methods can effectively apply manifold feature augmentations and improve learning both with and without a projection head. In the latter case, we demonstrate that feature augmentations sampled from learned Lie group operators can improve classification performance when using few labels. | 翻訳日:2023-06-26 12:29:27 公開日:2023-06-23 |
# ねじりグラフニューラルネットワーク Torsion Graph Neural Networks ( http://arxiv.org/abs/2306.13541v1 ) ライセンス: Link先を確認 | Cong Shen, Xiang Liu, Jiawei Luo and Kelin Xia | (参考訳) 幾何学的深層学習モデル(gdl)は非ユークリッドデータの解析に大きな可能性を示している。
これらは、非ユークリッドデータの幾何学的およびトポロジカルな情報をエンドツーエンドのディープラーニングアーキテクチャに組み込むために開発された。
グラフニューラルネットワーク(GNN)における離散リッチ曲率の最近の成功に触発されて,解析ねじり強化グラフニューラルネットワークモデルであるTorGNNを提案する。
基本的な考え方は、解析的トーションに基づく重み公式でグラフ局所構造を特徴づけることである。
数学的には、解析的ねじれはホモトピー同値であるが同相でない空間を区別できる位相不変量である。
我々のTorGNNでは,各エッジに対して対応する局所単体複合体を同定し,解析的ねじれ(この局所単体複合体)を計算し,さらにメッセージパッシングプロセスにおいて重み(このエッジ)として利用する。
我々のTorGNNモデルは、16種類のネットワークからのリンク予測タスクと3種類のネットワークからのノード分類タスクに基づいて検証される。
我々のTorGNNは両方のタスクにおいて優れた性能を達成でき、様々な最先端モデルより優れていることが判明した。
これは解析的ねじれがグラフ構造のキャラクタリゼーションにおいて非常に効率的な位相不変量であることを示し、gnnの性能を著しく向上させる。 Geometric deep learning (GDL) models have demonstrated a great potential for the analysis of non-Euclidian data. They are developed to incorporate the geometric and topological information of non-Euclidian data into the end-to-end deep learning architectures. Motivated by the recent success of discrete Ricci curvature in graph neural network (GNNs), we propose TorGNN, an analytic Torsion enhanced Graph Neural Network model. The essential idea is to characterize graph local structures with an analytic torsion based weight formula. Mathematically, analytic torsion is a topological invariant that can distinguish spaces which are homotopy equivalent but not homeomorphic. In our TorGNN, for each edge, a corresponding local simplicial complex is identified, then the analytic torsion (for this local simplicial complex) is calculated, and further used as a weight (for this edge) in message-passing process. Our TorGNN model is validated on link prediction tasks from sixteen different types of networks and node classification tasks from three types of networks. It has been found that our TorGNN can achieve superior performance on both tasks, and outperform various state-of-the-art models. This demonstrates that analytic torsion is a highly efficient topological invariant in the characterization of graph structures and can significantly boost the performance of GNNs. | 翻訳日:2023-06-26 12:28:42 公開日:2023-06-23 |
# PathMLP: 高次ホモフィリーに向けたスムースパス PathMLP: Smooth Path Towards High-order Homophily ( http://arxiv.org/abs/2306.13532v1 ) ライセンス: Link先を確認 | Chenxuan Xie, Jiajun Zhou, Shengbo Gong, Jiacheng Wan, Jiaxu Qian, Shanqing Yu, Qi Xuan and Xiaoniu Yang | (参考訳) 実世界のグラフはヘテロフィリが増加しており、ノードはもはや同じラベルを持つノードに接続されない傾向にあり、古典的なグラフニューラルネットワーク(GNN)のホモフィリな仮定に挑戦し、その性能を妨げる。
興味深いことに、異種データの高次情報は高いホモフィリーを示しており、ノード表現学習に高次情報を巻き込む動機となっている。
しかしながら、gnnでは、主にモデル深度の増大とメッセージパッシング機構の変更を通じて、高次情報を取得する慣例が一般的であり、ある程度有効ではあるが、3つの欠点がある。
1) 過度なモデル深度と伝播時間による過度なスムーシング
2 高次情報は、十分に活用されていない。
3) 計算効率が低い。
本研究では,高次ホモフィリーを含む滑らかな経路を抽出するための類似性に基づく経路サンプリング戦略を設計する。
そこで本研究では,多層パーセプトロン(mlp)に基づく軽量モデルであるpathmlpを提案する。
広範な実験により,本手法は20のデータセットのうち16のベースラインを上回っており,ヘテロフィリー問題の軽減効果と優越性が示された。
また,本手法は過剰吸入に免疫があり,高い計算効率を有する。 Real-world graphs exhibit increasing heterophily, where nodes no longer tend to be connected to nodes with the same label, challenging the homophily assumption of classical graph neural networks (GNNs) and impeding their performance. Intriguingly, we observe that certain high-order information on heterophilous data exhibits high homophily, which motivates us to involve high-order information in node representation learning. However, common practices in GNNs to acquire high-order information mainly through increasing model depth and altering message-passing mechanisms, which, albeit effective to a certain extent, suffer from three shortcomings: 1) over-smoothing due to excessive model depth and propagation times; 2) high-order information is not fully utilized; 3) low computational efficiency. In this regard, we design a similarity-based path sampling strategy to capture smooth paths containing high-order homophily. Then we propose a lightweight model based on multi-layer perceptrons (MLP), named PathMLP, which can encode messages carried by paths via simple transformation and concatenation operations, and effectively learn node representations in heterophilous graphs through adaptive path aggregation. Extensive experiments demonstrate that our method outperforms baselines on 16 out of 20 datasets, underlining its effectiveness and superiority in alleviating the heterophily problem. In addition, our method is immune to over-smoothing and has high computational efficiency. | 翻訳日:2023-06-26 12:28:03 公開日:2023-06-23 |
# WBCAtt: 詳細な形態的属性を付加した白血球データセット WBCAtt: A White Blood Cell Dataset Annotated with Detailed Morphological Attributes ( http://arxiv.org/abs/2306.13531v1 ) ライセンス: Link先を確認 | Satoshi Tsutsui, Winnie Pang, Bihan Wen | (参考訳) 顕微鏡レベルでの血液検査は臨床診断において基本的な役割を担い、幅広い医療条件に影響を与える。
例えば、我々の血液の重要な成分である白血球(WBC)の詳細な研究は、白血病や貧血などの血液関連疾患の診断に不可欠である。
WBC画像を含む複数のデータセットが提案されているが、主に細胞分類に焦点を当てており、医療領域における説明可能な人工知能(XAI)の重要性にもかかわらず、そのような分類を説明するために必要な形態的詳細を欠いていることが多い。
本稿では,WBC画像に対する包括的なアノテーションを導入することで,この制限に対処する。
病理学者とのコラボレーション,文献レビュー,顕微鏡画像の手動検査を通じて,細胞とその成分(核,細胞質,顆粒)に関連する11の形態学的特性を同定した。
そして、これらの属性で1万のWBC画像を注釈付けしました。
さらに,これらの属性を画像から予測する実験を行い,基本的なwbc分類以上の知見を提供する。
このような広範なアノテーションを提供する最初のパブリックデータセットとして、属性アノテーションの恩恵を受ける特定のアプリケーションについても説明します。
全体として、我々のデータセットは、WBC認識モデルを解釈する方法を舗装し、病理学と血液学の分野でXAIをさらに前進させます。 The examination of blood samples at a microscopic level plays a fundamental role in clinical diagnostics, influencing a wide range of medical conditions. For instance, an in-depth study of White Blood Cells (WBCs), a crucial component of our blood, is essential for diagnosing blood-related diseases such as leukemia and anemia. While multiple datasets containing WBC images have been proposed, they mostly focus on cell categorization, often lacking the necessary morphological details to explain such categorizations, despite the importance of explainable artificial intelligence (XAI) in medical domains. This paper seeks to address this limitation by introducing comprehensive annotations for WBC images. Through collaboration with pathologists, a thorough literature review, and manual inspection of microscopic images, we have identified 11 morphological attributes associated with the cell and its components (nucleus, cytoplasm, and granules). We then annotated ten thousand WBC images with these attributes. Moreover, we conduct experiments to predict these attributes from images, providing insights beyond basic WBC classification. As the first public dataset to offer such extensive annotations, we also illustrate specific applications that can benefit from our attribute annotations. Overall, our dataset paves the way for interpreting WBC recognition models, further advancing XAI in the fields of pathology and hematology. | 翻訳日:2023-06-26 12:27:21 公開日:2023-06-23 |
# 文書画像におけるグラフィカル物体検出のためのDECRとR-CNNのパフォーマンスギャップのブリッジ Bridging the Performance Gap between DETR and R-CNN for Graphical Object Detection in Document Images ( http://arxiv.org/abs/2306.13526v1 ) ライセンス: Link先を確認 | Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Marcus Liwicki and Muhammad Zeshan Afzal | (参考訳) 本稿では,DTRとR-CNNのパフォーマンスギャップを図形オブジェクト検出のために橋渡しする重要なステップを踏む。
既存のグラフィカルオブジェクト検出アプローチは、CNNベースのオブジェクト検出手法の最近の拡張を享受し、目覚ましい進歩を遂げた。
近年、変圧器を用いた検出器は汎用オブジェクト検出性能を大幅に向上させ、オブジェクトクエリを用いた非最大抑制(nms)などの手作り機能や後処理ステップの必要性をなくしている。
しかし,このような改良されたトランスフォーマーベース検出アルゴリズムの有効性は,グラフィカルオブジェクト検出の問題に対してはまだ検証されていない。
基本的に、DETRの最新の進歩に触発されて、グラフィカルオブジェクト検出にわずかな修正を加えた既存の検出変換器を採用した。
ポイントやアンカーボックス、アンカーに正のノイズや負のノイズを追加してパフォーマンスを向上させるなど、さまざまな方法でオブジェクトクエリを修正します。
これらの変更により、サイズやアスペクト比の異なるオブジェクトの処理性が向上し、オブジェクトの位置やサイズの小さなバリエーションに対する堅牢性が向上し、オブジェクトと非オブジェクトのイメージ識別が向上した。
我々は、PubTables、TableBank、NTable、PubLaynetの4つのグラフデータセットに対するアプローチを評価した。
detrにクエリの変更を統合することで、以前の作業よりも優れ、tablebank、publaynet、pubtablesでそれぞれ96.9\%、95.7\%、99.3\%のマップで最新の結果が得られる。
その結果,変換器を用いた手法は,他のアプリケーションと類似した文書解析に有効であることが示唆された。
本研究は,文書画像解析における検出トランスフォーマの利用研究に注目が集まることを願っている。 This paper takes an important step in bridging the performance gap between DETR and R-CNN for graphical object detection. Existing graphical object detection approaches have enjoyed recent enhancements in CNN-based object detection methods, achieving remarkable progress. Recently, Transformer-based detectors have considerably boosted the generic object detection performance, eliminating the need for hand-crafted features or post-processing steps such as Non-Maximum Suppression (NMS) using object queries. However, the effectiveness of such enhanced transformer-based detection algorithms has yet to be verified for the problem of graphical object detection. Essentially, inspired by the latest advancements in the DETR, we employ the existing detection transformer with few modifications for graphical object detection. We modify object queries in different ways, using points, anchor boxes and adding positive and negative noise to the anchors to boost performance. These modifications allow for better handling of objects with varying sizes and aspect ratios, more robustness to small variations in object positions and sizes, and improved image discrimination between objects and non-objects. We evaluate our approach on the four graphical datasets: PubTables, TableBank, NTable and PubLaynet. Upon integrating query modifications in the DETR, we outperform prior works and achieve new state-of-the-art results with the mAP of 96.9\%, 95.7\% and 99.3\% on TableBank, PubLaynet, PubTables, respectively. The results from extensive ablations show that transformer-based methods are more effective for document analysis analogous to other applications. We hope this study draws more attention to the research of using detection transformers in document image analysis. | 翻訳日:2023-06-26 12:26:59 公開日:2023-06-23 |
# ランダム回転によるガウス化の収束速度について On the Convergence Rate of Gaussianization with Random Rotations ( http://arxiv.org/abs/2306.13520v1 ) ライセンス: Link先を確認 | Felix Draxler, Lars K\"uhmichel, Armand Rousselot, Jens M\"uller, Christoph Schn\"orr, Ullrich K\"othe | (参考訳) ガウス化はバックプロパゲーションなしで訓練できる単純な生成モデルである。
低次元データで有望な性能を示している。
しかし、次元が大きくなるにつれて収束速度が遅くなることが観測されている。
本稿では,必要な層数がガウス入力の次元と線形にスケールできることを解析的に示す。
これはモデルが次元間の依存性をキャプチャできないためであると主張する。
経験的に、任意の入力$p(x)$に対して同じ線形増加コストを求めるが、いくつかの分布に対して好ましいスケーリングを観察する。
我々は、さらなる研究のために潜在的なスピードアップと課題を定式化する。 Gaussianization is a simple generative model that can be trained without backpropagation. It has shown compelling performance on low dimensional data. As the dimension increases, however, it has been observed that the convergence speed slows down. We show analytically that the number of required layers scales linearly with the dimension for Gaussian input. We argue that this is because the model is unable to capture dependencies between dimensions. Empirically, we find the same linear increase in cost for arbitrary input $p(x)$, but observe favorable scaling for some distributions. We explore potential speed-ups and formulate challenges for further research. | 翻訳日:2023-06-26 12:26:28 公開日:2023-06-23 |
# 強結合状態におけるJaynes-Cummingsモデルの量子相転移 Quantum phase transition of the Jaynes-Cummings model in the strong-coupling regime ( http://arxiv.org/abs/2306.13519v1 ) ライセンス: Link先を確認 | Cheng Liu, Jin-Feng Huang | (参考訳) 強結合を持つ量子ラビモデルにおいて,2段階系の遷移周波数を操作し,janeys-cummingsモデル(jc)の量子相転移を実験的に示す手法を提案する。
変調周波数と振幅をチューニングすることにより、回転項の有効結合強度と有効空洞(原子遷移)周波数の比は、逆回転項を無視しながら、深い結合状態に入ることができる。
これにより、深い強度のJCモデルが得られる。
有効真空ラビ周波数は、元の真空ラビ周波数と比較して2桁に増大する。
本手法は,原子空洞共鳴とオフ共振の場合の両方で動作し,広い範囲で有効である。
量子相転移の出現は基底状態の非ゼロ平均空洞光子によって示される。
また、位相図が原子キャビティのデチューニングと変調パラメータに依存することも示す。
使用されるパラメータはすべて、現在の実験技術の範囲内にある。
本手法は,有限成分系の臨界現象を古典的場制限を必要とせずに探究するための新しいメカニズムを提供し,超強結合状態において発生する強結合状態における基本量子現象の研究の扉を開く。 We propose an experimentally feasible scheme to show the quantum phase transition of the Janeys-Cummings (JC) model by manipulating the transition frequency of a two-level system in a quantum Rabi model with strong coupling. By tunning the modulation frequency and amplitude, the ratio of the effective coupling strength of the rotating terms to the effective cavity (atomic transition) frequency can enter the deep-strong coupling regime, while the counter-rotating terms can be neglected. Thus a deep-strong JC model is obtained. The effective vacuum Rabi frequency is increased by two orders of magnitude compared to the original vacuum Rabi frequency. Our scheme works in both atom-cavity resonance and off-resonance cases, and it is valid in a broad range. The emerge of the quantum phase transition is indicated by the non-zero average cavity photons of the ground state. We also show the dependence of the phase diagram on the atom-cavity detuning and modulation parameters. All the parameters used are within the reach of current experiment technology. Our scheme provides a new mechanism for investigating the critical phenomena of finite component system without requiring classical field limit and opens a door for studying fundamental quantum phenomena in strong coupling regime that occurs in ultrastrong even deep-strong coupling regime. | 翻訳日:2023-06-26 12:26:18 公開日:2023-06-23 |
# ラベル・画像翻訳のための半ペアアプローチ A Semi-Paired Approach For Label-to-Image Translation ( http://arxiv.org/abs/2306.13585v1 ) ライセンス: Link先を確認 | George Eskandar, Shuai Zhang, Mohamed Abdelsamad, Mark Youssef, Diandian Guo, Bin Yang | (参考訳) データ効率、あるいはラベル付きデータから一般化する能力は、ディープラーニングにおいて依然として大きな課題である。
半教師付き学習は、大量のラベル付きデータの必要性を緩和する従来の認識タスクで栄えているが、画像から画像への変換(i2i)タスクでは未熟である。
本稿では,意味的ラベルマップからフォトリアリスティックな画像を生成するi2iのサブタスクである,ラベル間変換のための最初の半教師付き(セミペア)フレームワークを提案する。
半ペア画像設定では、小さなペアデータとより大きなペア画像とラベルのセットにアクセスすることができる。
従来のような事前テキストタスクとして幾何変換を使用する代わりに、逆生成器としてペアデータ上の条件判別器を利用する入力再構成タスクを利用する。
本稿では,この共有ネットワークのための学習アルゴリズムを提案し,非表現クラスに着目した希少クラスサンプリングアルゴリズムを提案する。
3つの標準ベンチマークの実験により、提案モデルは最先端の教師なしおよび半教師付きアプローチと、はるかに少ないペアサンプルを用いて完全に教師付きアプローチより優れていることが示された。 Data efficiency, or the ability to generalize from a few labeled data, remains a major challenge in deep learning. Semi-supervised learning has thrived in traditional recognition tasks alleviating the need for large amounts of labeled data, yet it remains understudied in image-to-image translation (I2I) tasks. In this work, we introduce the first semi-supervised (semi-paired) framework for label-to-image translation, a challenging subtask of I2I which generates photorealistic images from semantic label maps. In the semi-paired setting, the model has access to a small set of paired data and a larger set of unpaired images and labels. Instead of using geometrical transformations as a pretext task like previous works, we leverage an input reconstruction task by exploiting the conditional discriminator on the paired data as a reverse generator. We propose a training algorithm for this shared network, and we present a rare classes sampling algorithm to focus on under-represented classes. Experiments on 3 standard benchmarks show that the proposed model outperforms state-of-the-art unsupervised and semi-supervised approaches, as well as some fully supervised approaches while using a much smaller number of paired samples. | 翻訳日:2023-06-26 12:20:02 公開日:2023-06-23 |
# 経験的エントロピー最適輸送のための低複雑性適応 Lower Complexity Adaptation for Empirical Entropic Optimal Transport ( http://arxiv.org/abs/2306.13580v1 ) ライセンス: Link先を確認 | Michel Groppe and Shayan Hundrieser | (参考訳) エントロピック最適輸送 (eot) は非正規化最適輸送 (ot) に代わる有効かつ計算可能な代替手段であり、大規模データ解析に多様な応用を提供する。
本研究では、EOTコストの経験的プラグイン推定器に対する新しい統計的境界を導出し、エントロピー正規化パラメータ$\epsilon$とサンプルサイズ$n$の統計性能が2つの確率測度の単純さにのみ依存していることを示す。
例えば、十分な滑らかなコストの下では、パラメトリックレート $n^{-1/2}$ と因子 $\epsilon^{-d/2}$ が得られ、ここでは$d$ は2つの人口測度の最小次元である。
これは、経験的EOTが、非正規化OTに対して最近特定されたホールマーク特徴である低い複雑性適応原理にも準拠していることを確認する。
この理論の結果として、ユークリッド空間上の測度に対する経験的エントロピーGromov-Wasserstein距離とその非正規化バージョンもこの原理に従うことを示した。
また,モンテカルロシミュレーションを用いて計算の側面を考察し,その知見を補完する。
本手法は経験的プロセス理論を用い, 1 つの関数クラス上の eot の双対定式化に依存する。
解析に不可欠なのは、関数クラスのエントロピーコスト変換は、その均一な計量エントロピーを多く増加させないという観察である。 Entropic optimal transport (EOT) presents an effective and computationally viable alternative to unregularized optimal transport (OT), offering diverse applications for large-scale data analysis. In this work, we derive novel statistical bounds for empirical plug-in estimators of the EOT cost and show that their statistical performance in the entropy regularization parameter $\epsilon$ and the sample size $n$ only depends on the simpler of the two probability measures. For instance, under sufficiently smooth costs this yields the parametric rate $n^{-1/2}$ with factor $\epsilon^{-d/2}$, where $d$ is the minimum dimension of the two population measures. This confirms that empirical EOT also adheres to the lower complexity adaptation principle, a hallmark feature only recently identified for unregularized OT. As a consequence of our theory, we show that the empirical entropic Gromov-Wasserstein distance and its unregularized version for measures on Euclidean spaces also obey this principle. Additionally, we comment on computational aspects and complement our findings with Monte Carlo simulations. Our techniques employ empirical process theory and rely on a dual formulation of EOT over a single function class. Crucial to our analysis is the observation that the entropic cost-transformation of a function class does not increase its uniform metric entropy by much. | 翻訳日:2023-06-26 12:19:40 公開日:2023-06-23 |
# 逆数生成ネットワークに対するペナルティ勾配正規化 Penalty Gradient Normalization for Generative Adversarial Networks ( http://arxiv.org/abs/2306.13576v1 ) ライセンス: Link先を確認 | Tian Xia | (参考訳) 本稿では,鋭い勾配空間に起因する生成逆ネットワーク(gans)のトレーニング不安定性に取り組むため,pgnと呼ばれる新しい正規化法を提案する。
勾配ペナルティやスペクトル正規化のような既存の研究とは異なり、提案されたPGNは、判別器関数にペナルティ勾配ノルム制約のみを課し、判別器の容量を増大させる。
さらに、提案したペナルティ勾配正規化は、変更の少ない異なる異なるGANアーキテクチャに適用することができる。
3つのデータセットに対する大規模な実験により、GANがペナルティ勾配正規化で訓練された場合、Frechet InceptionとDistanceとInception Scoreの両方の点で既存の手法よりも優れていることが示された。 In this paper, we propose a novel normalization method called penalty gradient normalization (PGN) to tackle the training instability of Generative Adversarial Networks (GANs) caused by the sharp gradient space. Unlike existing work such as gradient penalty and spectral normalization, the proposed PGN only imposes a penalty gradient norm constraint on the discriminator function, which increases the capacity of the discriminator. Moreover, the proposed penalty gradient normalization can be applied to different GAN architectures with little modification. Extensive experiments on three datasets show that GANs trained with penalty gradient normalization outperform existing methods in terms of both Frechet Inception and Distance and Inception Score. | 翻訳日:2023-06-26 12:19:16 公開日:2023-06-23 |
# mlpのスケーリング: 帰納的バイアスの話 Scaling MLPs: A Tale of Inductive Bias ( http://arxiv.org/abs/2306.13575v1 ) ライセンス: Link先を確認 | Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann | (参考訳) 本研究では、ディープラーニングにおける最も基本的な構成要素である多層パーセプトロン(MLP)を再検討し、視覚タスクにおけるその性能の限界について検討する。
MLPに対する経験的洞察は、複数の理由から重要である。
1) 変圧器による畳み込みモデルによる近年の物語「非帰納的バイアスは良い」を考えると、この仮説の限界を探求するのは自然である。
そのために、MPPは理想的なテストベッドを提供し、誘導バイアスが全くない。
2) MLPは, より複雑なアーキテクチャで観察される経験的現象を説明するプロキシとして機能し, 数学的単純さから, 深層学習理論文学の主役に過ぎなかった。
驚くべきことに、MLPの実験的なデータポイントは、特に大規模な事前学習プロトコルと組み合わせた場合、文献では非常に見つからない。
mlpは実践モデルによって示された経験的進歩を反映していますか?
それとも理論家は、MLPをプロキシとしての役割を再考する必要があるのだろうか?
これら2つの側面に洞察を与えます。
CIFAR10では93%, CIFAR100では79%, TinyImageNetでは69%) MLPの性能が大幅に向上し, 帰納バイアスの欠如が実際に補償可能であることを示す。
我々は、mlpが現代の相手の行動を忠実に模倣しているのを観察し、学習環境のいくつかの要素は、驚くほど、あるいは予期せぬ行動を示す。
計算効率が本質的に高いため、学術研究者にとって大きな事前学習実験がより利用できるようになる。
私たちの実験はすべて、1つのGPU上で実行されました。 In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative "less inductive bias is better", popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, being completely free of any inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (93% on CIFAR10, 79% on CIFAR100, 69% on TinyImageNet), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however surprisingly exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU. | 翻訳日:2023-06-26 12:19:02 公開日:2023-06-23 |
# 縦型キャビティ・キュービットカップリングに基づくフォトニック和経路絡み合い器 A photonic which-path entangler based on longitudinal cavity-qubit coupling ( http://arxiv.org/abs/2306.13573v1 ) ライセンス: Link先を確認 | Z. McIntyre and W. A. Coish | (参考訳) 変調された縦キャビティ-キュービットカップリングは、マルチフォトンのウェーブパックが取る経路を制御するために使用され、量子ビット-who-path (qwp) の絡み合った状態となる。
QWP状態の場合、干渉計(量子クラム・ラオ境界)の精度に対する基本的な限界は、NOON状態または同じ平均光子数を持つ絡み合ったコヒーレント状態よりも優れている。
QWP状態は、離散的および連続変数自由度に対向する戦略を用いて、長距離多部絡みを発生させることもできる。 A modulated longitudinal cavity-qubit coupling can be used to control the path taken by a multiphoton wavepacket, resulting in a qubit--which-path (QWP) entangled state. For QWP states, the fundamental limit to precision in interferometry (the quantum Cram\'er-Rao bound) is better than for either NOON states or entangled coherent states having the same average photon number. QWP states can also be used to generate long-range multipartite entanglement using strategies for interfacing discrete- and continuous-variable degrees-of-freedom. | 翻訳日:2023-06-26 12:18:34 公開日:2023-06-23 |
# アーキテクチャに関する考え Thoughts on Architecture ( http://arxiv.org/abs/2306.13572v1 ) ライセンス: Link先を確認 | Paul S. Rosenbloom | (参考訳) 建築という用語は、ギリシア語の起源とその建物やコンピュータへの応用から、より最近の心の表象へと大きく進化してきた。
この記事では、これら各段階に導入された一連の関連する区別と、これら3つすべてにまたがるアーキテクチャの定義と、一般的なアーキテクチャ、特に認知アーキテクチャのための認知アーキテクチャからの3つの主要な問題の再検討という観点から、この歴史からの教訓を考察する。 The term architecture has evolved considerably from its original Greek roots and its application to buildings and computers to its more recent manifestation for minds. This article considers lessons from this history, in terms of a set of relevant distinctions introduced at each of these stages and a definition of architecture that spans all three, and a reconsideration of three key issues from cognitive architectures for architectures in general and cognitive architectures more particularly. | 翻訳日:2023-06-26 12:18:20 公開日:2023-06-23 |
# 3次元マルチパーソン動作予測のためのMI-Motionデータセットとベンチマーク The MI-Motion Dataset and Benchmark for 3D Multi-Person Motion Prediction ( http://arxiv.org/abs/2306.13566v1 ) ライセンス: Link先を確認 | Xiaogang Peng, Xiao Zhou, Yikai Luo, Hao Wen, Yu Ding, Zizhao Wu | (参考訳) 3D多対人動作予測は、個人行動や人との相互作用をモデル化する難しいタスクである。
このタスクへのアプローチの出現にもかかわらず、標準化されたトレーニング設定とベンチマークデータセットが欠如しているため、それらを比較することは困難である。
本稿では,モーションキャプチャシステムによって収集され,ゲームエンジンを用いて洗練合成された複数の個体の骨格配列を含むマルチパーソンインタラクションモーション(mi-motion)データセットを提案する。
データセットには、人の骨格ポーズを相互作用させる167kフレームが含まれ、5つの異なる活動シーンに分類される。
複数対人動作予測の研究を容易にするため,短期,長期,超長期の予測という3つの設定で予測手法の性能を評価するベンチマークも提供する。
さらに,多人数動作予測における競合結果を示すグラフ畳み込みネットワークを活用した新しいベースライン手法を提案する。
提案したMI-Motionベンチマークデータセットとベースラインは,この分野における今後の研究を促進し,最終的には多人数インタラクションの理解とモデリングが向上すると考えている。 3D multi-person motion prediction is a challenging task that involves modeling individual behaviors and interactions between people. Despite the emergence of approaches for this task, comparing them is difficult due to the lack of standardized training settings and benchmark datasets. In this paper, we introduce the Multi-Person Interaction Motion (MI-Motion) Dataset, which includes skeleton sequences of multiple individuals collected by motion capture systems and refined and synthesized using a game engine. The dataset contains 167k frames of interacting people's skeleton poses and is categorized into 5 different activity scenes. To facilitate research in multi-person motion prediction, we also provide benchmarks to evaluate the performance of prediction methods in three settings: short-term, long-term, and ultra-long-term prediction. Additionally, we introduce a novel baseline approach that leverages graph and temporal convolutional networks, which has demonstrated competitive results in multi-person motion prediction. We believe that the proposed MI-Motion benchmark dataset and baseline will facilitate future research in this area, ultimately leading to better understanding and modeling of multi-person interactions. | 翻訳日:2023-06-26 12:18:12 公開日:2023-06-23 |
# 航空データを用いた住宅用太陽電位の推定 Estimating Residential Solar Potential Using Aerial Data ( http://arxiv.org/abs/2306.13564v1 ) ライセンス: Link先を確認 | Ross Goroshin, Alex Wilson, Andrew Lamb, Betty Peng, Brandon Ewonus, Cornelius Ratsch, Jordan Raisher, Marisa Leung, Max Burq, Thomas Colthurst, William Rucklidge, Carl Elkin | (参考訳) project sunroofは高品質の航空データを用いて住宅の太陽ポテンシャルを推定している。
つまり、ソーラーパネルを屋根に設置すれば、建物によって取得できる太陽エネルギー(およびそれに伴う財政的節約)の可能性を見積もっている。
残念ながら、そのカバレッジは高解像度のデジタルサーフェスマップ(DSM)データがないために制限されている。
我々は,広範に利用可能な低解像度データを拡張し,sunroofのカバー範囲を劇的に増加させることで,このギャップを埋めるディープラーニングアプローチを提案する。
また、Sunroof処理パイプラインのアルゴリズムコンポーネントを深層学習に置き換えることで、精度をさらに向上する取り組みも進行中である。 Project Sunroof estimates the solar potential of residential buildings using high quality aerial data. That is, it estimates the potential solar energy (and associated financial savings) that can be captured by buildings if solar panels were to be installed on their roofs. Unfortunately its coverage is limited by the lack of high resolution digital surface map (DSM) data. We present a deep learning approach that bridges this gap by enhancing widely available low-resolution data, thereby dramatically increasing the coverage of Sunroof. We also present some ongoing efforts to potentially improve accuracy even further by replacing certain algorithmic components of the Sunroof processing pipeline with deep learning. | 翻訳日:2023-06-26 12:17:52 公開日:2023-06-23 |
# safe pattern pruningによる予測パターンマイニングモデルの効率的なモデル選択 Efficient Model Selection for Predictive Pattern Mining Model by Safe Pattern Pruning ( http://arxiv.org/abs/2306.13561v1 ) ライセンス: Link先を確認 | Takumi Yoshida, Hiroyuki Hanada, Kazuya Nakagawa, Kouichi Taji, Koji Tsuda, Ichiro Takeuchi | (参考訳) 予測パターンマイニング(英: Predictive pattern mining)は、入力が集合、グラフ、シーケンスなどの構造化データで表されるときに予測モデルを構築するために用いられるアプローチである。
予測パターンマイニングの背景にある主な考え方は、モデルの特徴として構造化データに存在するサブセット、サブグラフ、サブシーケンス(パターンとして参照)といったサブ構造を考慮し、予測モデルを構築することである。
予測パターンマイニングにおける最大の課題は、構造化データの複雑さを伴うパターン数の指数関数的増加である。
本研究では,予測パターンマイニングにおけるパターン番号の爆発に対処するために,セーフパターンプルーニング(SPP)法を提案する。
また、実際のデータ分析において、モデル構築プロセス全体を通して効果的に活用する方法についても論じる。
提案手法の有効性を実証するために,集合,グラフ,シーケンスを含む回帰および分類問題に関する数値実験を行った。 Predictive pattern mining is an approach used to construct prediction models when the input is represented by structured data, such as sets, graphs, and sequences. The main idea behind predictive pattern mining is to build a prediction model by considering substructures, such as subsets, subgraphs, and subsequences (referred to as patterns), present in the structured data as features of the model. The primary challenge in predictive pattern mining lies in the exponential growth of the number of patterns with the complexity of the structured data. In this study, we propose the Safe Pattern Pruning (SPP) method to address the explosion of pattern numbers in predictive pattern mining. We also discuss how it can be effectively employed throughout the entire model building process in practical data analysis. To demonstrate the effectiveness of the proposed method, we conduct numerical experiments on regression and classification problems involving sets, graphs, and sequences. | 翻訳日:2023-06-26 12:17:42 公開日:2023-06-23 |
# リアルタイム手書き文字認識のための畳み込みニューラルネットワークのFPGA実装 FPGA Implementation of Convolutional Neural Network for Real-Time Handwriting Recognition ( http://arxiv.org/abs/2306.13557v1 ) ライセンス: Link先を確認 | Shichen (Justin) Qiao, Haining Qiu, Lingkai (Harry) Zhao, Qikun Liu, Eric J. Hoffman | (参考訳) 機械学習(ML)は、最近コンピュータサイエンスの急激な分野となった。
コンピュータハードウェアエンジニアとして、人気のあるソフトウェアmlアーキテクチャのハードウェア実装に熱心で、パフォーマンス、信頼性、リソース使用量を最適化しています。
本稿では,Altera DE1 FPGA Kitを用いて手書き文字と数字を認識できる高構成のリアルタイムデバイスを設計した。
我々は,IEEE-75432ビット浮動小数点標準,ビデオグラフィックスアレー(VGA)表示プロトコル,UART(Universal Asynchronous Receiver-Transmitter)プロトコル,I2C(Inter-Integrated Circuit)プロトコルなど,さまざまな技術標準に従った。
これらは互換性、再利用性、検証の単純さにおいて設計を大幅に改善しました。
これらの標準に従い、我々は32ビット浮動小数点(FP)命令セットアーキテクチャ(ISA)を設計した。
画像処理,行列乗算,ML分類,ユーザインタフェースを管理する5段階RISCプロセッサをSystem Verilogで開発した。
リニア分類(LC)、784-64-10完全連結ニューラルネットワーク(NN)、ReLUアクティベーション層と36のクラス(数字は10、ケースインセンティブ文字は26)を備えたLeNetライクな畳み込みニューラルネットワーク(CNN)の3つの異なるMLアーキテクチャの実装と評価を行った。
トレーニングプロセスはPythonスクリプトで行われ、その結果のカーネルと重みはhexファイルに格納され、FPGAのSRAMユニットにロードされる。
畳み込み、プーリング、データ管理、その他さまざまなml機能は、我々のカスタムアセンブリ言語のファームウェアによって導かれました。
本稿では,高レベル設計ブロック図,各システムverilogモジュール間のインタフェース,ソフトウェアとファームウェアコンポーネントの実装詳細,潜在的影響に関するさらなる議論について述べる。 Machine Learning (ML) has recently been a skyrocketing field in Computer Science. As computer hardware engineers, we are enthusiastic about hardware implementations of popular software ML architectures to optimize their performance, reliability, and resource usage. In this project, we designed a highly-configurable, real-time device for recognizing handwritten letters and digits using an Altera DE1 FPGA Kit. We followed various engineering standards, including IEEE-754 32-bit Floating-Point Standard, Video Graphics Array (VGA) display protocol, Universal Asynchronous Receiver-Transmitter (UART) protocol, and Inter-Integrated Circuit (I2C) protocols to achieve the project goals. These significantly improved our design in compatibility, reusability, and simplicity in verifications. Following these standards, we designed a 32-bit floating-point (FP) instruction set architecture (ISA). We developed a 5-stage RISC processor in System Verilog to manage image processing, matrix multiplications, ML classifications, and user interfaces. Three different ML architectures were implemented and evaluated on our design: Linear Classification (LC), a 784-64-10 fully connected neural network (NN), and a LeNet-like Convolutional Neural Network (CNN) with ReLU activation layers and 36 classes (10 for the digits and 26 for the case-insensitive letters). The training processes were done in Python scripts, and the resulting kernels and weights were stored in hex files and loaded into the FPGA's SRAM units. Convolution, pooling, data management, and various other ML features were guided by firmware in our custom assembly language. This paper documents the high-level design block diagrams, interfaces between each System Verilog module, implementation details of our software and firmware components, and further discussions on potential impacts. | 翻訳日:2023-06-26 12:17:27 公開日:2023-06-23 |
# ベイズニューラルネットワークの逆ロバスト性証明 Adversarial Robustness Certification for Bayesian Neural Networks ( http://arxiv.org/abs/2306.13614v1 ) ライセンス: Link先を確認 | Matthew Wicker, Andrea Patane, Luca Laurenti, Marta Kwiatkowska | (参考訳) 逆入力摂動に対するベイズニューラルネットワーク(BNN)のロバスト性を検証する問題について検討する。
入力点のコンパクトな集合 $T \subseteq \mathbb{R}^m$ と出力点の集合 $S \subseteq \mathbb{R}^n$ が与えられたとき、BNNに対する強靭性の2つの概念、確率的堅牢性と決定的堅牢性を定義する。
確率的堅牢性(probabilistic robustness)は、T$のすべての点に対して、後部からサンプリングされたBNNの出力が$S$である確率である。
一方、決定堅牢性はBNNの最適決定を考慮し、与えられた損失関数に対するBNNの最適決定が$T$のすべての点に対して$S$であるかどうかをチェックする。
これらのロバスト性特性の正確な計算は、bnnの確率的かつ非凸性のために難しいが、効率的に形式的に結合するための統一計算フレームワークを提案する。
提案手法は, 重み区間サンプリング, 積分, および境界伝播法に基づいており, 多数のパラメータを持つbnnに適用でき, bnnの訓練に使用される(近似)推論法とは独立して適用できる。
本手法は,産業回帰ベンチマーク,mnist,トラヒックサイン認識,空中衝突回避など,様々な回帰・分類タスクにおける本手法の有効性を評価し,bnn予測のロバスト性と不確実性を検証できることを実証する。 We study the problem of certifying the robustness of Bayesian neural networks (BNNs) to adversarial input perturbations. Given a compact set of input points $T \subseteq \mathbb{R}^m$ and a set of output points $S \subseteq \mathbb{R}^n$, we define two notions of robustness for BNNs in an adversarial setting: probabilistic robustness and decision robustness. Probabilistic robustness is the probability that for all points in $T$ the output of a BNN sampled from the posterior is in $S$. On the other hand, decision robustness considers the optimal decision of a BNN and checks if for all points in $T$ the optimal decision of the BNN for a given loss function lies within the output set $S$. Although exact computation of these robustness properties is challenging due to the probabilistic and non-convex nature of BNNs, we present a unified computational framework for efficiently and formally bounding them. Our approach is based on weight interval sampling, integration, and bound propagation techniques, and can be applied to BNNs with a large number of parameters, and independently of the (approximate) inference method employed to train the BNN. We evaluate the effectiveness of our methods on various regression and classification tasks, including an industrial regression benchmark, MNIST, traffic sign recognition, and airborne collision avoidance, and demonstrate that our approach enables certification of robustness and uncertainty of BNN predictions. | 翻訳日:2023-06-26 12:09:57 公開日:2023-06-23 |
# CERN, ALICE実験におけるゼロDegree線量計の粒子応答シミュレーションのための機械学習手法 Machine Learning methods for simulating particle response in the Zero Degree Calorimeter at the ALICE experiment, CERN ( http://arxiv.org/abs/2306.13606v1 ) ライセンス: Link先を確認 | Jan Dubi\'nski, Kamil Deja, Sandro Wenzel, Przemys{\l}aw Rokita, Tomasz Trzci\'nski | (参考訳) 現在、CERN GRIDの計算能力の半分以上が高エネルギー物理シミュレーションに使われている。
大型ハドロン衝突型加速器(LHC)の最新情報により、より効率的なシミュレーション手法の開発の必要性が高まっている。
特に、既存のモンテカルロに基づく方法が大きな計算負荷を課す中性子ゼロ度カロリメータの高速シミュレーションの要求がある。
機械学習を利用した問題に対する代替手法を提案する。
本ソリューションでは,ニューラルネットワーク分類器と生成モデルを用いて,カロリメータの応答を直接シミュレートする。
特に,変分自己エンコーダと生成逆数ネットワークの性能について検討し,新たな正規化ネットワークとシンプルで効果的な後処理ステップによってGANアーキテクチャを拡張した。
提案手法は,シミュレーションの忠実度を維持しながら,シミュレーション速度を2桁に向上させる。 Currently, over half of the computing power at CERN GRID is used to run High Energy Physics simulations. The recent updates at the Large Hadron Collider (LHC) create the need for developing more efficient simulation methods. In particular, there exists a demand for a fast simulation of the neutron Zero Degree Calorimeter, where existing Monte Carlo-based methods impose a significant computational burden. We propose an alternative approach to the problem that leverages machine learning. Our solution utilises neural network classifiers and generative models to directly simulate the response of the calorimeter. In particular, we examine the performance of variational autoencoders and generative adversarial networks, expanding the GAN architecture by an additional regularisation network and a simple, yet effective postprocessing step. Our approach increases the simulation speed by 2 orders of magnitude while maintaining the high fidelity of the simulation. | 翻訳日:2023-06-26 12:09:23 公開日:2023-06-23 |
# PAC強化学習のためのアクティブカバレッジ Active Coverage for PAC Reinforcement Learning ( http://arxiv.org/abs/2306.13601v1 ) ライセンス: Link先を確認 | Aymen Al-Marjani, Andrea Tirinzoni, Emilie Kaufmann | (参考訳) 優れたカバレッジ特性を持つデータの収集と活用は、報酬のない探索やオフライン学習を含む強化学習(RL)のさまざまな側面において重要な役割を果たす。
しかし、"良いカバレッジ"という概念は、あるコンテキストに適したデータが他のコンテキストには当てはまらないため、手元にあるアプリケーションに依存します。
本稿では,マルコフ決定過程(MDP)におけるアクティブカバレッジの問題を定式化し,その目的は,所定のサンプリング要求を満たすために環境と対話することである。
このフレームワークは、望ましいカバレッジプロパティを指定するのに十分柔軟であり、オンライン探索に関わるあらゆる問題に適用できる。
私たちの主な貢献は、アクティブカバレッジのサンプル複雑性に対するインスタンス依存の下限と、それとほぼ一致する単純なゲーム理論アルゴリズムであるcovgameです。
次に、異なるPAC RLタスクを解決するために、CovGameをビルディングブロックとして使用できることを示す。
特に、インスタンス依存のサンプル複雑性を持つPAC報酬のない探索のための単純なアルゴリズムを得るが、「探索し易い」特定のMDPではミニマックスよりも低い。
この探索アルゴリズムを政策空間における暗黙の排除を行う新しい手法と組み合わせることで、インスタンス依存のサンプル複雑性がポリシー値間のギャップでスケールする最良の政治識別のための計算効率の良いアルゴリズムを得る。 Collecting and leveraging data with good coverage properties plays a crucial role in different aspects of reinforcement learning (RL), including reward-free exploration and offline learning. However, the notion of "good coverage" really depends on the application at hand, as data suitable for one context may not be so for another. In this paper, we formalize the problem of active coverage in episodic Markov decision processes (MDPs), where the goal is to interact with the environment so as to fulfill given sampling requirements. This framework is sufficiently flexible to specify any desired coverage property, making it applicable to any problem that involves online exploration. Our main contribution is an instance-dependent lower bound on the sample complexity of active coverage and a simple game-theoretic algorithm, CovGame, that nearly matches it. We then show that CovGame can be used as a building block to solve different PAC RL tasks. In particular, we obtain a simple algorithm for PAC reward-free exploration with an instance-dependent sample complexity that, in certain MDPs which are "easy to explore", is lower than the minimax one. By further coupling this exploration algorithm with a new technique to do implicit eliminations in policy space, we obtain a computationally-efficient algorithm for best-policy identification whose instance-dependent sample complexity scales with gaps between policy values. | 翻訳日:2023-06-26 12:09:09 公開日:2023-06-23 |
# 注意機構におけるマージン最大化 Margin Maximization in Attention Mechanism ( http://arxiv.org/abs/2306.13596v1 ) ライセンス: Link先を確認 | Davoud Ataee Tarzanagh, Yingcong Li, Xuechen Zhang, Samet Oymak | (参考訳) 注意機構はトランスフォーマーアーキテクチャの中心的な構成要素であり、大きな言語モデルの驚くべき成功につながった。
しかし、注意機構の根底にある理論原理は、特に非凸最適化力学の理解が不十分である。
本研究では,seminal softmax-attention model $f(\boldsymbol{x})=\langle \boldsymbol{xv}, \textt{softmax}(\boldsymbol{xwp})\rangle$,ただし$\boldsymbol{x}$はトークンシーケンスであり、$(\boldsymbol{v},\boldsymbol{w},\boldsymbol{p})$は可変パラメータである。
我々は、$\boldsymbol{p}$ あるいは $\boldsymbol{W}$ の勾配勾配が、最適でないものから $\textit{locally-optimal}$ トークンを分離する最大マルジン解に収束することを証明している。
これは明らかにトークン分離機構として注意を定式化する。
注目すべきは、我々の結果は一般的なデータに適用でき、$\textit{optimality}$を値埋め込みの$\boldsymbol{Xv}$と問題幾何学で正確に特徴付けることである。
また,非線形予測ヘッドにおいても注意の限界を最大化する広い正規化経路解析を提供する。
ロジスティック損失とともに$\boldsymbol{v}$と$\boldsymbol{p}$を最適化するとき、正規化パスがそれぞれのハードマージンSVMソリューションに方向収束する条件を特定し、$\boldsymbol{v}$はラベルに基づいて入力特徴を分離する。
興味深いことに、$\boldsymbol{p}$のsvm定式化は$\boldsymbol{v}$のサポートベクトル幾何に影響されている。
最後に, 数値実験により理論的知見を検証し, 洞察を与える。 Attention mechanism is a central component of the transformer architecture which led to the phenomenal success of large language models. However, the theoretical principles underlying the attention mechanism are poorly understood, especially its nonconvex optimization dynamics. In this work, we explore the seminal softmax-attention model $f(\boldsymbol{X})=\langle \boldsymbol{Xv}, \texttt{softmax}(\boldsymbol{XWp})\rangle$, where, $\boldsymbol{X}$ is the token sequence and $(\boldsymbol{v},\boldsymbol{W},\boldsymbol{p})$ are tunable parameters. We prove that running gradient descent on $\boldsymbol{p}$, or equivalently $\boldsymbol{W}$, converges in direction to a max-margin solution that separates $\textit{locally-optimal}$ tokens from non-optimal ones. This clearly formalizes attention as a token separation mechanism. Remarkably, our results are applicable to general data and precisely characterize $\textit{optimality}$ of tokens in terms of the value embeddings $\boldsymbol{Xv}$ and problem geometry. We also provide a broader regularization path analysis that establishes the margin maximizing nature of attention even for nonlinear prediction heads. When optimizing $\boldsymbol{v}$ and $\boldsymbol{p}$ simultaneously with logistic loss, we identify conditions under which the regularization paths directionally converge to their respective hard-margin SVM solutions where $\boldsymbol{v}$ separates the input features based on their labels. Interestingly, the SVM formulation of $\boldsymbol{p}$ is influenced by the support vector geometry of $\boldsymbol{v}$. Finally, we verify our theoretical findings via numerical experiments and provide insights. | 翻訳日:2023-06-26 12:08:45 公開日:2023-06-23 |
# リアルタイムスエップ検出のためのオートエンコーダ Autoencoders for Real-Time SUEP Detection ( http://arxiv.org/abs/2306.13595v1 ) ライセンス: Link先を確認 | Simranjit Singh Chhibra, Nadezda Chernyavskaya, Benedikt Maier, Maurzio Pierini and Syed Hasan | (参考訳) ダークセクターを疑似等角力学で固定することで、大型ハドロン衝突器(Large Hadron Collider)でソフト・アンクラスタド・エナジー・パターン(SUEP)を生成できる: ダークシャワーやダークハドロンの高多重度生産につながる陽子-陽子衝突におけるダーククォークの生成。
最後の実験的署名は、数百mevの逆エネルギーを持つ異常に多数の軟質標準模型粒子による球対称なエネルギー沈着である。
SUEP探索の背景は、グルーオングルーオン融合によって生成される場合、マルチジェットQCDイベントである。
我々は,大型ハドロン衝突型加速器におけるコンパクト・ムーン・ソレノイド実験の高レベルトリガーシステムにおいて,QCDジェットを拒絶し,SUEPを含む異常シグネチャをリアルタイムに同定する,ディープラーニングに基づく異常検出手法を開発した。
深部畳み込み型ニューラルオートエンコーダネットワークは、内部トラッカー、電磁カロリーメータ、ハドロンカロリーメータサブ検出器を3チャンネル画像データとして、QCDイベントを用いて訓練されている。
タスクの最大の課題に取り組むために、データのスパース性のために、合計300k画像ピクセルの 0.5% はゼロではない値を持ち、非標準損失関数であるDice Loss の逆が利用されてきた。
QCDジェットの空間特性を学習した訓練されたオートエンコーダは、SuEPイベントの40%を検出でき、QCDイベントの誤タグレートは2%以下である。
モデル推論時間はIntel CoreTM i5-9600KFプロセッサを用いて測定され、約20msであることが判明し、これはハイレベルトリガーシステムのO(100)msの遅延を完全に満足している。 Confining dark sectors with pseudo-conformal dynamics can produce Soft Unclustered Energy Patterns, or SUEPs, at the Large Hadron Collider: the production of dark quarks in proton-proton collisions leading to a dark shower and the high-multiplicity production of dark hadrons. The final experimental signature is spherically-symmetric energy deposits by an anomalously large number of soft Standard Model particles with a transverse energy of a few hundred MeV. The dominant background for the SUEP search, if it gets produced via gluon-gluon fusion, is multi-jet QCD events. We have developed a deep learning-based Anomaly Detection technique to reject QCD jets and identify any anomalous signature, including SUEP, in real-time in the High-Level Trigger system of the Compact Muon Solenoid experiment at the Large Hadron Collider. A deep convolutional neural autoencoder network has been trained using QCD events by taking transverse energy deposits in the inner tracker, electromagnetic calorimeter, and hadron calorimeter sub-detectors as 3-channel image data. To tackle the biggest challenge of the task, due to the sparse nature of the data: only ~0.5% of the total ~300 k image pixels have non-zero values, a non-standard loss function, the inverse of the so-called Dice Loss, has been exploited. The trained autoencoder with learned spatial features of QCD jets can detect 40% of the SUEP events, with a QCD event mistagging rate as low as 2%. The model inference time has been measured using the Intel CoreTM i5-9600KF processor and found to be ~20 ms, which perfectly satisfies the High-Level Trigger system's latency of O(100) ms. Given the virtue of the unsupervised learning of the autoencoders, the trained model can be applied to any new physics model that predicts an experimental signature anomalous to QCD jets. | 翻訳日:2023-06-26 12:08:03 公開日:2023-06-23 |
# TACOformer:マルチモーダル感情認識のためのTokenチャネル合成クロスアテンション TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition ( http://arxiv.org/abs/2306.13592v1 ) ライセンス: Link先を確認 | Xinda Li | (参考訳) 近年,生理的信号に基づく感情認識が,集中研究の分野として浮上している。
マルチモーダル・マルチチャネル生理信号の利用は,その相補性から感情認識システムの性能を著しく向上させた。
しかし、感情に関連したセマンティクス情報を異なるモダリティから効果的に統合し、モダリティ間の依存関係を捉えることは難しい課題である。
多くの既存のマルチモーダル融合法は、異なるモダリティのマルチチャネル信号のトークン対トケンまたはチャネル対チャネル相関を無視しており、モデルの分類能力はある程度制限されている。
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,マルチモーダル融合を実現するために,token-channel compound (taco) と呼ばれる統一クロスアテンションモジュールを導入して,チャネルレベルとトークンレベルのモダリティ間の依存関係を同時にモデル化する。
さらに,脳波信号チャネルの空間分布に関する情報を保存する2次元位置符号化法を提案し,融合モジュールに先立つ2つのトランスエンコーダを用いて,脳波信号と周辺生理信号からの長期的時間依存性をそれぞれ捉える。
感情データセットDEAPとDreamerの被験者非依存実験は、提案モデルが最先端のパフォーマンスを達成することを示す。 Recently, emotion recognition based on physiological signals has emerged as a field with intensive research. The utilization of multi-modal, multi-channel physiological signals has significantly improved the performance of emotion recognition systems, due to their complementarity. However, effectively integrating emotion-related semantic information from different modalities and capturing inter-modal dependencies remains a challenging issue. Many existing multimodal fusion methods ignore either token-to-token or channel-to-channel correlations of multichannel signals from different modalities, which limits the classification capability of the models to some extent. In this paper, we propose a comprehensive perspective of multimodal fusion that integrates channel-level and token-level cross-modal interactions. Specifically, we introduce a unified cross attention module called Token-chAnnel COmpound (TACO) Cross Attention to perform multimodal fusion, which simultaneously models channel-level and token-level dependencies between modalities. Additionally, we propose a 2D position encoding method to preserve information about the spatial distribution of EEG signal channels, then we use two transformer encoders ahead of the fusion module to capture long-term temporal dependencies from the EEG signal and the peripheral physiological signal, respectively. Subject-independent experiments on emotional dataset DEAP and Dreamer demonstrate that the proposed model achieves state-of-the-art performance. | 翻訳日:2023-06-26 12:07:23 公開日:2023-06-23 |
# 無相互作用測定の流体力学的類似 A hydrodynamic analog of interaction-free measurement ( http://arxiv.org/abs/2306.13590v1 ) ライセンス: Link先を確認 | Valeri Frumkin and John W. M. Bush | (参考訳) 相互作用のない測定は、量子粒子が移動しない経路に沿って物体を検出することを可能にする。
したがって、これは量子現象の最も迷いの1つである。
ここでは, 流体表面を自転する液滴を自転する流体を, 自作の波で誘導する流体力学的パイロット波を用いたインタラクションフリー計測の古典的な例を示す。
我々は、相互作用のない量子測定の既存の合理的化は、波状に導かれる粒子によって、我々の流体力学系における古典的な記述を可能にする。 Interaction-free measurement allows for quantum particles to detect objects along paths they never traveled. As such, it represents one of the most beguiling of quantum phenomena. Here, we present a classical analog of interaction-free measurement using the hydrodynamic pilot-wave system, in which a droplet self-propels across a vibrating fluid surface, guided by a wave of its own making. We argue that existing rationalizations of interaction-free quantum measurement in terms of particles being guided by wave forms allow for a classical description manifest in our hydrodynamic system, wherein the measurement is decidedly not interaction-free. | 翻訳日:2023-06-26 12:06:58 公開日:2023-06-23 |
# システムレベル自然言語フィードバック System-Level Natural Language Feedback ( http://arxiv.org/abs/2306.13588v1 ) ライセンス: Link先を確認 | Weizhe Yuan, Kyunghyun Cho, Jason Weston | (参考訳) 自然言語(NL)フィードバックには、ユーザエクスペリエンスに関する豊富な情報が含まれている。
既存の研究は、フィードバックを使って特定の例を洗練し、システム全体のアプリケーションを無視して、インスタンスレベルのアプローチにフォーカスしている。
本稿では,NLフィードバックのシステムレベルの使用を解放するための一般的なフレームワークを提案する。
より優れたモデルを生成するために、フィードバックを使って、ヒューマン・イン・ザ・ループ・プロセスでシステムレベルの設計決定をフォーマル化する方法を紹介します。
特にこれは次の通りである。
(i)タスクのメートル法設計、及び
(ii) モデル応答を洗練するための言語モデルプロンプト設計。
本手法は,検索クエリ生成と対話応答生成を改善するための2つのケーススタディを行い,システムレベルのフィードバックの有効性を実証する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせにより、さらなる利得が得られ、人間の記述されたインスタンスレベルのフィードバックは、GPT-3.5のフィードバックよりも、より基礎的な改善をもたらす。 Natural language (NL) feedback contains rich information about the user experience. Existing studies focus on an instance-level approach, where feedback is used to refine specific examples, disregarding its system-wide application. This paper proposes a general framework for unlocking the system-level use of NL feedback. We show how to use feedback to formalize system-level design decisions in a human-in-the-loop-process -- in order to produce better models. In particular this is done through: (i) metric design for tasks; and (ii) language model prompt design for refining model responses. We conduct two case studies of this approach for improving search query generation and dialog response generation, demonstrating the effectiveness of the use of system-level feedback. We show the combination of system-level feedback and instance-level feedback brings further gains, and that human written instance-level feedback results in more grounded refinements than GPT-3.5 written ones, underlying the importance of human feedback for building systems. | 翻訳日:2023-06-26 12:06:47 公開日:2023-06-23 |
# マルウェアの正反対例の作成 Creating Valid Adversarial Examples of Malware ( http://arxiv.org/abs/2306.13587v1 ) ライセンス: Link先を確認 | Matou\v{s} Koz\'ak, Martin Jure\v{c}ek, Mark Stamp, Fabio Di Troia | (参考訳) 機械学習は、世界レベルの結果のため、多くのタスクのゴートアプローチとしてますます人気になっています。
その結果、アンチウイルス開発者は自身の製品に機械学習モデルを組み込んでいる。
これらのモデルはマルウェア検出能力を向上する一方で、敵攻撃の影響を受けやすいという欠点もある。
この脆弱性はホワイトボックス設定で多くのモデルで実証されているが、ブラックボックス攻撃はマルウェア検出の領域で実際により適用可能である。
本稿では,強化学習アルゴリズムを用いたマルウェア例の生成法を提案する。
強化学習エージェントは、一連の機能保存修正を利用して、有効な逆例を作成する。
近似ポリシ最適化 (PPO) アルゴリズムを用いて, 勾配ブースト決定木 (GBDT) モデルに対して53.84%の回避率を達成した。
PPOエージェントは以前にGBDT分類器に対して訓練され、ニューラルネットワークベースの分類器MalConvに対して11.41%の回避率、トップアンチウイルスプログラムに対して平均2.31%の回避率を得た。
さらに, 機能保存可能な可搬性修飾のランダムな適用は, 先行するアンチウイルスエンジンの回避に成功し, 平均回避率は11.65%であった。
これらの結果は、マルウェア検出システムで使用される機械学習ベースのモデルは、敵の攻撃に対して脆弱であり、これらのシステムを保護するためにはより優れた保護が必要であることを示唆している。 Machine learning is becoming increasingly popular as a go-to approach for many tasks due to its world-class results. As a result, antivirus developers are incorporating machine learning models into their products. While these models improve malware detection capabilities, they also carry the disadvantage of being susceptible to adversarial attacks. Although this vulnerability has been demonstrated for many models in white-box settings, a black-box attack is more applicable in practice for the domain of malware detection. We present a generator of adversarial malware examples using reinforcement learning algorithms. The reinforcement learning agents utilize a set of functionality-preserving modifications, thus creating valid adversarial examples. Using the proximal policy optimization (PPO) algorithm, we achieved an evasion rate of 53.84% against the gradient-boosted decision tree (GBDT) model. The PPO agent previously trained against the GBDT classifier scored an evasion rate of 11.41% against the neural network-based classifier MalConv and an average evasion rate of 2.31% against top antivirus programs. Furthermore, we discovered that random application of our functionality-preserving portable executable modifications successfully evades leading antivirus engines, with an average evasion rate of 11.65%. These findings indicate that machine learning-based models used in malware detection systems are vulnerable to adversarial attacks and that better safeguards need to be taken to protect these systems. | 翻訳日:2023-06-26 12:06:31 公開日:2023-06-23 |
# netbooster: 深い巨人の肩の上に立つことで、小さなディープラーニングを力づける NetBooster: Empowering Tiny Deep Learning By Standing on the Shoulders of Deep Giants ( http://arxiv.org/abs/2306.13586v1 ) ライセンス: Link先を確認 | Zhongzhi Yu, Yonggan Fu, Jiayi Yuan, Haoran You, Yingyan Lin | (参考訳) 多数のインテリジェントなInternet-of-Thingsデバイスにディープラーニングをデプロイするという、相当な需要によって、小さなディープラーニングが注目を集めている。
しかしながら、小さなニューラルネットワーク(tnn)のモデル容量が限られているため、大規模なデータセットとダウンストリームタスクの両方において、小さなディープラーニングのポテンシャルを解き放つことは依然として困難である。
そこで我々はNetBoosterというフレームワークを提案し,TNNのアーキテクチャを拡張型コントラクション戦略により拡張することで,最小限のディープラーニングを実現する。
大規模な実験によると、NetBoosterは最先端の小さなディープラーニングソリューションを一貫して上回っている。 Tiny deep learning has attracted increasing attention driven by the substantial demand for deploying deep learning on numerous intelligent Internet-of-Things devices. However, it is still challenging to unleash tiny deep learning's full potential on both large-scale datasets and downstream tasks due to the under-fitting issues caused by the limited model capacity of tiny neural networks (TNNs). To this end, we propose a framework called NetBooster to empower tiny deep learning by augmenting the architectures of TNNs via an expansion-then-contraction strategy. Extensive experiments show that NetBooster consistently outperforms state-of-the-art tiny deep learning solutions. | 翻訳日:2023-06-26 12:06:08 公開日:2023-06-23 |
# ProRes: ユニバーサルイメージ復元のための劣化対応ビジュアルプロンプト ProRes: Exploring Degradation-aware Visual Prompt for Universal Image Restoration ( http://arxiv.org/abs/2306.13653v1 ) ライセンス: Link先を確認 | Jiaqi Ma, Tianheng Cheng, Guoli Wang, Qian Zhang, Xinggang Wang, Lefei Zhang | (参考訳) 画像復元は劣化した画像を再構築することを目的としている。
既存の作業はタスク固有のメソッドの設計に重点を置いており、ユニバーサルメソッドに対する不適切な試みがある。
しかし、複数のタスクをひとつの普遍的アーキテクチャに統合することは、制御不能で望ましくない予測に悩まされる。
これらの課題に対処するために,画像復元作業のためのユニバーサルアーキテクチャにおける迅速な学習について検討する。
本稿では,画像の劣化,例えばノイズやぼやきといった様々な種類の画像を統一的な視覚プロンプトに符号化する劣化認識視覚プロンプトを提案する。
これらの分解アウェアプロンプトは画像処理を制御し、カスタマイズされた画像復元のための重み付けの組み合わせを可能にする。
次に,劣化を検知した視覚的プロンプトを利用して,画像復元のための制御可能で普遍的なモデルproresを構築し,広範囲な画像復元タスクに適用する。
proresはタスク固有の設計なしでvanilla vision transformer (vit)を活用する。
さらに、事前訓練されたProResは、数枚の画像で効率的にプロンプトチューニングすることで、新しいタスクに容易に適応できる。
ベルとホイッスルがなければ、ProResはタスク固有の手法と競合する性能を達成し、新しいタスクに対する制御可能な復元と適応の能力を示すことができる。
コードとモデルは \url{https://github.com/leonmakise/ProRes} でリリースされる。 Image restoration aims to reconstruct degraded images, e.g., denoising or deblurring. Existing works focus on designing task-specific methods and there are inadequate attempts at universal methods. However, simply unifying multiple tasks into one universal architecture suffers from uncontrollable and undesired predictions. To address those issues, we explore prompt learning in universal architectures for image restoration tasks. In this paper, we present Degradation-aware Visual Prompts, which encode various types of image degradation, e.g., noise and blur, into unified visual prompts. These degradation-aware prompts provide control over image processing and allow weighted combinations for customized image restoration. We then leverage degradation-aware visual prompts to establish a controllable and universal model for image restoration, called ProRes, which is applicable to an extensive range of image restoration tasks. ProRes leverages the vanilla Vision Transformer (ViT) without any task-specific designs. Furthermore, the pre-trained ProRes can easily adapt to new tasks through efficient prompt tuning with only a few images. Without bells and whistles, ProRes achieves competitive performance compared to task-specific methods and experiments can demonstrate its ability for controllable restoration and adaptation for new tasks. The code and models will be released in \url{https://github.com/leonmakise/ProRes}. | 翻訳日:2023-06-26 12:00:32 公開日:2023-06-23 |
# 自分のデータを持ってこい!
大規模言語モデルの自己監督評価 Bring Your Own Data! Self-Supervised Evaluation for Large Language Models ( http://arxiv.org/abs/2306.13651v1 ) ライセンス: Link先を確認 | Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping and Tom Goldstein | (参考訳) 大規模言語モデル(LLM)の台頭と多様なドメインへのユビキタスな展開により、現実的なデータに対する言語モデルの振る舞いを測定することが不可欠である。
例えば、クライアント対応のチャットボットをデプロイする企業は、モデルを誇張されたクライアント要求に応答しないようにしなければならない。
現在の評価では、人間によるラベル付き小さなドメイン特化データセットを用いてこの問題にアプローチしている。
これらの評価セットはしばしば狭く単純化された分布からサンプリングされ、データソースは無意識にトレーニングセットにリークされ、誤った評価につながる可能性がある。
これらの欠点を回避すべく,入力テキストの感度や変換の不均一性を解析し,llmの自己教師あり評価のための枠組みを提案する。
自己教師付き評価は、野生またはライブモデルデプロイメント中に収集されたデータセット上のLCMの挙動を直接監視することができる。
我々は,文法構造やトークン化エラーに対する感受性に加えて,クローズドブック知識,毒性,長期コンテキスト依存を測定するための自己指導型評価戦略を実証する。
類似の人ラベルベンチマークと比較すると、自己監督評価と人監督評価の相関が強いことが分かる。
自己管理パラダイムは、ラベル付きデータに依存する現在の評価戦略を補完する。 With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data. | 翻訳日:2023-06-26 12:00:11 公開日:2023-06-23 |
# GKD:自己回帰シーケンスモデルのための一般化知識蒸留 GKD: Generalized Knowledge Distillation for Auto-regressive Sequence Models ( http://arxiv.org/abs/2306.13649v1 ) ライセンス: Link先を確認 | Rishabh Agarwal, Nino Vieillard, Piotr Stanczyk, Sabela Ramos, Matthieu Geist, Olivier Bachem | (参考訳) 知識蒸留は、ニューラルネットワークの推論コストとメモリフットプリントを削減するために一般的に使用される。
しかし, 生成言語モデル (lms) のような自己回帰モデルに対する現在の蒸留法では, (1) 訓練中の出力シーケンスと展開中の生徒が生成するシーケンスとの分布ミスマッチ, (2) 生徒モデルが教師の分布に適合するほど表現力に乏しいモデル未特定化, という2つの問題に苦しめられている。
これらの課題に対処するため,一般知識蒸留(GKD)を提案する。
GKDは、学生のトレーニング中に出力シーケンスをサンプリングすることで、分布ミスマッチを緩和する。
さらに、GKDは、教師の分布下にある可能性のある学生からサンプルを生成することに焦点を当てた、逆KLのような代替分岐を最適化することで、モデル過小評価を扱う。
GKDは, 要約, 機械翻訳, 算術的推論タスクにおいて, LLMを蒸留するための一般的な手法よりも優れていることを示す。 Knowledge distillation is commonly used for compressing neural networks to reduce their inference cost and memory footprint. However, current distillation methods for auto-regressive models, such as generative language models (LMs), suffer from two key issues: (1) distribution mismatch between output sequences during training and the sequences generated by the student during its deployment, and (2) model under-specification, where the student model may not be expressive enough to fit the teacher's distribution. To address these issues, we propose Generalized Knowledge Distillation (GKD). GKD mitigates distribution mismatch by sampling output sequences from the student during training. Furthermore, GKD handles model under-specification by optimizing alternative divergences, such as reverse KL, that focus on generating samples from the student that are likely under the teacher's distribution. We demonstrate that GKD outperforms commonly-used approaches for distilling LLMs on summarization, machine translation, and arithmetic reasoning tasks. | 翻訳日:2023-06-26 11:59:49 公開日:2023-06-23 |
# 完全単一光子源 Perfect single-photon sources ( http://arxiv.org/abs/2306.13646v1 ) ライセンス: Link先を確認 | Sana Khalid and Fabrice P. Laussy | (参考訳) 非相関光子を背景とする単一光子源(SPS)の形で「ガッペドコヒーレント状態」を導入するが、時間間隔$t_\mathrm{G}$よりも2つの光子が時間に近づくことができないことを要求している。
正確な光子ストリームを生成する明確な量子メカニズムはまだ特定されていないが、数値シミュレーションは、まず相関のない(ポアソニアン)信号を生成し、リスト内の各光子に対して、そのような時間ギャップを追加するか、$t_\mathrm{g}$ 以下の光子から時間に近い全ての連続光子を取り除くかのどちらかによって容易に達成される。
本稿では,このような仮説信号の統計的特性について考察する。
これは、連続波(定常波)とパルス単一光子源の間のきれいで自然な接続を提供し、また、そのような光源が単一光子放出の点において完璧であるという意味にも依存する。 We introduce the "gapped coherent state" in the form of a single-photon source (SPS) that consists of uncorrelated photons as a background, except that we demand that no two photons can be closer in time than a time gap $t_\mathrm{G}$. While no obvious quantum mechanism is yet identified to produce exactly such a photon stream, a numerical simulation is easily achieved by first generating an uncorrelated (Poissonian) signal and then for each photon in the list, either adding such a time gap or removing all successive photons that are closer in time from any photon that is kept than $t_\mathrm{G}$. We study the statistical properties of such a hypothetical signal, which exhibits counter-intuitive features. This provides a neat and natural connection between continuous-wave (stationary) and pulsed single-photon sources, with also a bearing on what it means for such sources to be perfect in terms of single-photon emission. | 翻訳日:2023-06-26 11:59:28 公開日:2023-06-23 |
# lightglue: 光速での局所的な機能マッチング LightGlue: Local Feature Matching at Light Speed ( http://arxiv.org/abs/2306.13643v1 ) ライセンス: Link先を確認 | Philipp Lindenberger, Paul-Edouard Sarlin, Marc Pollefeys | (参考訳) 画像の局所的な特徴にマッチするように学習するディープニューラルネットワークであるlightglueを紹介する。
スパースマッチングにおける最先端技術であるSuperGlueの複数の設計決定を再考し、単純だが効果的な改善を導出する。
累積的に、lightglueをより効率的にします - メモリと計算の両面で、より正確で、トレーニングがずっと簡単です。
1つの重要な特性は、LightGlueが問題の難しさに適応していることである。例えば、視覚的な重複や外観の変化の制限により、直感的に一致しやすい画像対に対して、推論がはるかに高速である。
これにより、3D再構成のような遅延に敏感なアプリケーションにディープマーカをデプロイするエキサイティングな展望が開ける。
コードとトレーニングされたモデルはhttps://github.com/cvg/LightGlue.comで公開されている。 We introduce LightGlue, a deep neural network that learns to match local features across images. We revisit multiple design decisions of SuperGlue, the state of the art in sparse matching, and derive simple but effective improvements. Cumulatively, they make LightGlue more efficient - in terms of both memory and computation, more accurate, and much easier to train. One key property is that LightGlue is adaptive to the difficulty of the problem: the inference is much faster on image pairs that are intuitively easy to match, for example because of a larger visual overlap or limited appearance change. This opens up exciting prospects for deploying deep matchers in latency-sensitive applications like 3D reconstruction. The code and trained models are publicly available at https://github.com/cvg/LightGlue. | 翻訳日:2023-06-26 11:59:08 公開日:2023-06-23 |
# ランダム化決定規則に基づく生成逆数ネットワークのための新しいパラダイム A New Paradigm for Generative Adversarial Networks based on Randomized Decision Rules ( http://arxiv.org/abs/2306.13641v1 ) ライセンス: Link先を確認 | Sehwan Kim, Qifan Song, and Faming Liang | (参考訳) generative adversarial network(gan)は、最近文献に、生成モデルのトレーニングのための新しい機械学習方法として紹介された。
非パラメトリッククラスタリングや非パラメトリック条件独立テストのような統計学に多くの応用がある。
しかし、モード崩壊の問題により、GANのトレーニングは極めて困難であり、これは生成されたデータ間の多様性の欠如を表している。
本稿では,GANがこの問題に苦しむ理由を特定し,それに対応するために,ランダム化決定規則に基づく新しいGANの定式化を提案する。
この新しい定式化では、判別器は不動点に収束し、生成器はナッシュ平衡での分布に収束する。
判別器を発電機の後方分布のハイパーパラメータとして扱うことにより,経験的なベイズ様の方法でganを訓練することを提案する。
具体的には,確率勾配マルコフ連鎖モンテカルロ(mcmc)アルゴリズムを用いた識別器上での後方分布から生成器をシミュレートし,確率勾配降下と生成器のシミュレーションを用いて判別器を更新する。
提案手法をnash平衡に収束させる。
画像生成とは別に,提案手法を非パラメトリッククラスタリングおよび非パラメトリック条件独立試験に適用する。
補足材料には、数値結果の一部が提示される。 The Generative Adversarial Network (GAN) was recently introduced in the literature as a novel machine learning method for training generative models. It has many applications in statistics such as nonparametric clustering and nonparametric conditional independence tests. However, training the GAN is notoriously difficult due to the issue of mode collapse, which refers to the lack of diversity among generated data. In this paper, we identify the reasons why the GAN suffers from this issue, and to address it, we propose a new formulation for the GAN based on randomized decision rules. In the new formulation, the discriminator converges to a fixed point while the generator converges to a distribution at the Nash equilibrium. We propose to train the GAN by an empirical Bayes-like method by treating the discriminator as a hyper-parameter of the posterior distribution of the generator. Specifically, we simulate generators from its posterior distribution conditioned on the discriminator using a stochastic gradient Markov chain Monte Carlo (MCMC) algorithm, and update the discriminator using stochastic gradient descent along with simulations of the generators. We establish convergence of the proposed method to the Nash equilibrium. Apart from image generation, we apply the proposed method to nonparametric clustering and nonparametric conditional independence tests. A portion of the numerical results is presented in the supplementary material. | 翻訳日:2023-06-26 11:58:53 公開日:2023-06-23 |
# 原子核デジタル双生児の適応制約を考慮した最適センサ配置 Optimal Sensor Placement with Adaptive Constraints for Nuclear Digital Twins ( http://arxiv.org/abs/2306.13637v1 ) ライセンス: Link先を確認 | Niharika Karnik, Mohammad G. Abdo, Carlos E. Estrada Perez, Jun Soo Yoo, Joshua J. Cogliati, Richard S. Skifton, Pattrick Calderoni, Steven L. Brunton, and Krithika Manohar | (参考訳) 原子炉の厳しい運転条件と物理的制約を考えると、核の用途は大量のセンサーで物理的資産を供給できない。
そのため、所与の空間制限内でのセンサー配置を慎重に決定し、原子炉の流れ場を再構築し、核デジタル双極子を作れるようにすることが重要である。
所定のセンサー位置、原子炉内の制限領域、特定の領域に割り当てられた一定数のセンサー、または互いに所定の距離に位置するセンサーなど、様々な設計上の考慮が課される。
センサ配置の最適化手順に制約を組み込むデータ駆動手法を開発し,再構成誤差を最小限に抑える。
提案手法では,グリッド上のセンサ位置を最適化し,ユーザ定義の制約に固執する。
我々は、ランダムに生成された状態空間システムに対して、ある数のセンサを選択するための全ての可能な構成を計算し、アルゴリズムのほぼ最適性を示す。
本研究は, アイダホ国立研究所(inl)の過渡反応試験施設(treat)の中性子効果を再現するために電気的に加熱される, 配管外試験およびインスツルメンテーション過渡水照射装置(opti-twist)の試作船について実証した。
その結果、OPTI-TWIST内の温度のセンサによる再構成は誤差を最小限に抑え、ノイズによる不確実性の確率的境界を提供し、最終的にデジタル双対と実験施設間の通信に使用される。 Given harsh operating conditions and physical constraints in reactors, nuclear applications cannot afford to equip the physical asset with a large array of sensors. Therefore, it is crucial to carefully determine the placement of sensors within the given spatial limitations, enabling the reconstruction of reactor flow fields and the creation of nuclear digital twins. Various design considerations are imposed, such as predetermined sensor locations, restricted areas within the reactor, a fixed number of sensors allocated to a specific region, or sensors positioned at a designated distance from one another. We develop a data-driven technique that integrates constraints into an optimization procedure for sensor placement, aiming to minimize reconstruction errors. Our approach employs a greedy algorithm that can optimize sensor locations on a grid, adhering to user-defined constraints. We demonstrate the near optimality of our algorithm by computing all possible configurations for selecting a certain number of sensors for a randomly generated state space system. In this work, the algorithm is demonstrated on the Out-of-Pile Testing and Instrumentation Transient Water Irradiation System (OPTI-TWIST) prototype vessel, which is electrically heated to mimic the neutronics effect of the Transient Reactor Test facility (TREAT) at Idaho National Laboratory (INL). The resulting sensor-based reconstruction of temperature within the OPTI-TWIST minimizes error, provides probabilistic bounds for noise-induced uncertainty and will finally be used for communication between the digital twin and experimental facility. | 翻訳日:2023-06-26 11:58:32 公開日:2023-06-23 |
# OpenMask3D: Open-Vocabulary 3D Instance Segmentation OpenMask3D: Open-Vocabulary 3D Instance Segmentation ( http://arxiv.org/abs/2306.13631v1 ) ライセンス: Link先を確認 | Ay\c{c}a Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann | (参考訳) オープン語彙3Dインスタンスセグメンテーションの課題を紹介する。
従来の3Dインスタンスセグメンテーションのアプローチは、既存の3Dアノテーション付きデータセットに大きく依存しており、オブジェクトカテゴリのクローズドセットに制限されている。
これは、さまざまなオブジェクトに関連する新しいオープンボキャブラリクエリによって導かれるタスクを実行する必要がある実生活アプリケーションにとって重要な制限である。
近年,各場面における問合せ可能な特徴を学習することで,オープンな3Dシーン理解手法が出現している。
このような表現は、セマンティックセグメンテーションを実行するために直接使われるが、既存のメソッドはオブジェクトインスタンスを識別する能力に制限がある。
本研究では,この制限に対処し,オープンな3DインスタンスセグメンテーションのためのゼロショットアプローチであるOpenMask3Dを提案する。
予測されたクラス非依存の3Dインスタンスマスクによってガイドされた我々のモデルは、CLIPベースの画像埋め込みのマルチビュー融合を通じて、マスクごとの機能を集約する。
我々は、OpenMask3Dの性能を評価するためにScanNet200データセットの実験およびアブレーション研究を行い、オープン語彙の3Dインスタンスセグメンテーションタスクに関する洞察を提供する。
提案手法は,特に長尾分布において,他の開語彙よりも優れていることを示す。
さらに、OpenMask3Dは、近接語彙アプローチの限界を超えて、セマンティクス、幾何学、余裕、材料プロパティといったオブジェクトプロパティを記述する自由形式のクエリに基づいたオブジェクトインスタンスのセグメンテーションを可能にする。 We introduce the task of open-vocabulary 3D instance segmentation. Traditional approaches for 3D instance segmentation largely rely on existing 3D annotated datasets, which are restricted to a closed-set of object categories. This is an important limitation for real-life applications where one might need to perform tasks guided by novel, open-vocabulary queries related to objects from a wide variety. Recently, open-vocabulary 3D scene understanding methods have emerged to address this problem by learning queryable features per each point in the scene. While such a representation can be directly employed to perform semantic segmentation, existing methods have limitations in their ability to identify object instances. In this work, we address this limitation, and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D instance segmentation. Guided by predicted class-agnostic 3D instance masks, our model aggregates per-mask features via multi-view fusion of CLIP-based image embeddings. We conduct experiments and ablation studies on the ScanNet200 dataset to evaluate the performance of OpenMask3D, and provide insights about the open-vocabulary 3D instance segmentation task. We show that our approach outperforms other open-vocabulary counterparts, particularly on the long-tail distribution. Furthermore, OpenMask3D goes beyond the limitations of close-vocabulary approaches, and enables the segmentation of object instances based on free-form queries describing object properties such as semantics, geometry, affordances, and material properties. | 翻訳日:2023-06-26 11:58:05 公開日:2023-06-23 |
# オフラインスキルグラフ(OSG):オフライン強化学習スキルを用いた学習と計画のためのフレームワーク Offline Skill Graph (OSG): A Framework for Learning and Planning using Offline Reinforcement Learning Skills ( http://arxiv.org/abs/2306.13630v1 ) ライセンス: Link先を確認 | Ben-ya Halevy, Yehudit Aperstein, Dotan Di Castro | (参考訳) 強化学習は競争ゲームの成功によって幅広い関心を集めている。
しかし、日常的な応用(例えば、産業、家庭、医療など)における採用は限られている。
本稿では,オフラインスキルよりも計画し,現実環境における複雑なタスクを解決するためのフレームワークを提案することで,この制限に対処する。
我々のフレームワークは3つのモジュールから構成されており、エージェントが以前に収集したデータから学習し、それを一般化して長期的タスクを解くことができる。
複雑なタスクを解決するのに必要なロボットアームでテストすることで,我々のアプローチを実証する。 Reinforcement Learning has received wide interest due to its success in competitive games. Yet, its adoption in everyday applications is limited (e.g. industrial, home, healthcare, etc.). In this paper, we address this limitation by presenting a framework for planning over offline skills and solving complex tasks in real-world environments. Our framework is comprised of three modules that together enable the agent to learn from previously collected data and generalize over it to solve long-horizon tasks. We demonstrate our approach by testing it on a robotic arm that is required to solve complex tasks. | 翻訳日:2023-06-26 11:57:36 公開日:2023-06-23 |
# L00Lとp00pの絡み合い L00L and p00p entanglement ( http://arxiv.org/abs/2306.13620v1 ) ライセンス: Link先を確認 | Dylan Danese, Sabine Wollmann, Saroch Leedumrongwatthanakun, Will McCutcheon, Manuel Erhard, William N. Plick, and Mehul Malik | (参考訳) 1つの光子が基本(gauss)モードを持ち、もう1つの光子が非零アジムタール(\ell$)またはラジアル(p$)成分を持つ高次lgモードを持つラゲール・ガウシアン(lg)の非平衡2光子エンタングルメントの生成を実証する。
N00N$ state nomenclatureからキューを受け取り、これらのタイプの状態を$LOOL$ (L00L) または $p00p$-entangled と呼ぶ。
それらはlgモード空間で1つの光子を移動させ、ビームスプリッターで第2の(当初は無相関な)光子と結合し、その次に偶然検出することで生成される。
2光子コヒーレンスを検証するために、2光子 ``twisted' 量子消光器を実証し、そこでは香港・ウー・マンデル干渉を2つの区別可能な光子間で再現し、LG重畳基底に投影する。
絡み合いの証人を用いて、生成された$LOOL$と$p00p$の状態は、それぞれの理想の最大絡み合い状態に対して95.31\%と89.80\%の忠実さを持つ。
基本的な興味の他に、この種の絡み合いは、平均的な量子物理学者の面白い骨をくすぐることに大きな影響を与える可能性が高い。 We demonstrate the generation of unbalanced two-photon entanglement in the Laguerre-Gaussian (LG) transverse-spatial degree-of-freedom, where one photon carries a fundamental (Gauss) mode and the other a higher-order LG mode with a non-zero azimuthal ($\ell$) or radial ($p$) component. Taking a cue from the $N00N$ state nomenclature, we call these types of states $LOOL$ (L00L) or $p00p$-entangled. They are generated by shifting one photon in the LG mode space and combining it with a second (initially uncorrelated) photon at a beamsplitter, followed by coincidence detection. In order to verify two-photon coherence, we demonstrate a two-photon ``twisted'' quantum eraser, where Hong-Ou-Mandel interference is recovered between two distinguishable photons by projecting them into a rotated LG superposition basis. Using an entanglement witness, we find that our generated $LOOL$ and $p00p$ states have fidelities of 95.31\% and 89.80\% to their respective ideal maximally entangled states. Besides being of fundamental interest, this type of entanglement will likely have a significant impact on tickling the average quantum physicist's funny bone. | 翻訳日:2023-06-26 11:57:26 公開日:2023-06-23 |
# 線形QAOAに基づく分解アルゴリズムの落とし穴 Pitfalls of the sublinear QAOA-based factorization algorithm ( http://arxiv.org/abs/2303.04656v4 ) ライセンス: Link先を確認 | S.V. Grebnev, M.A. Gavreev, E.O. Kiktenko, A.P. Guglya, A.R. Efimov, A.K. Fedorov | (参考訳) 量子コンピューティングデバイスは、広く普及している公開鍵暗号ツールの中心である素因数分解問題を解決する上で強力であると考えられている。
しかし、Shorの量子因数分解アルゴリズムの実装には、数値サイズと線形にスケールする重要なリソースが必要であり、量子エラー補正に必要なオーバーヘッドを考慮すると、2048ビットのRSA鍵を8時間で分解するには2000万の物理量子ビットが必要である。
yanらによる最近の提案
al.は、部分線形量子資源を用いて因子分解問題を解決する可能性を主張する。
我々の研究で示すように、この提案はシュノーラーの格子に基づくアプローチを利用するアルゴリズムの古典的な部分の計算複雑性の体系的な解析を欠いている。
提案する量子分解アルゴリズムに対する追加資源分析の必要性を示すいくつかの例を示す。 Quantum computing devices are believed to be powerful in solving the prime factorization problem, which is at the heart of widely deployed public-key cryptographic tools. However, the implementation of Shor's quantum factorization algorithm requires significant resources scaling linearly with the number size; taking into account an overhead that is required for quantum error correction the estimation is that 20 millions of (noisy) physical qubits are required for factoring 2048-bit RSA key in 8 hours. Recent proposal by Yan et. al. claims a possibility of solving the factorization problem with sublinear quantum resources. As we demonstrate in our work, this proposal lacks systematic analysis of the computational complexity of the classical part of the algorithm, which exploits the Schnorr's lattice-based approach. We provide several examples illustrating the need in additional resource analysis for the proposed quantum factorization algorithm. | 翻訳日:2023-06-26 10:15:37 公開日:2023-06-23 |
# 適応的光学クラスタリングに基づく強化連合学習法 Reinforcement Federated Learning Method Based on Adaptive OPTICS Clustering ( http://arxiv.org/abs/2306.12859v2 ) ライセンス: Link先を確認 | Tianyu Zhao, Junping Du, Yingxia Shao, and Zeli Guan | (参考訳) フェデレーション学習(Federated Learning)は、データプライバシ保護とデータ共有コンピューティングのバランスを実現する分散機械学習技術である。
データプライバシを保護するために、フェデレーション付き学習は、参加デバイス上でローカルに分散トレーニングを実行し、ローカルモデルをグローバルモデルに集約することにより、共有モデルを学ぶ。
フェデレーション学習には問題があり、すなわち、異なるユーザ端末間でのデータの非独立的かつ同一の分散によって生じる負の影響がある。
この問題を軽減するために,適応型OPTICSクラスタリングに基づく強化されたフェデレーションアグリゲーション手法を提案する。
具体的には、クラスタリング環境をマルコフ決定過程として認識し、パラメータ探索方向の調整過程をモデル化し、最適な cla-teringパラメータを見つけ、最適なフェデレーション集計法を実現する。
本稿では,連合学習のための適応型OPTICSクラスタリングアルゴリズムを提案する。
このアルゴリズムは、OPTICSクラスタリングと適応学習技術を組み合わせて、異なるユーザ端末間で非独立で同一の分散データの問題に効果的に対処することができる。
クラスタリング環境をマルコフ決定プロセスとして認識することで,人工的な支援なしにOPTICSクラスタの最適なパラメータを見つけ,最適な連合集約法と優れた性能を実現することが目的である。
本手法の信頼性と実用性は, 実験データから検証され, 有効性と優越性が確認された。 Federated learning is a distributed machine learning technology, which realizes the balance between data privacy protection and data sharing computing. To protect data privacy, feder-ated learning learns shared models by locally executing distributed training on participating devices and aggregating local models into global models. There is a problem in federated learning, that is, the negative impact caused by the non-independent and identical distribu-tion of data across different user terminals. In order to alleviate this problem, this paper pro-poses a strengthened federation aggregation method based on adaptive OPTICS clustering. Specifically, this method perceives the clustering environment as a Markov decision process, and models the adjustment process of parameter search direction, so as to find the best clus-tering parameters to achieve the best federated aggregation method. The core contribution of this paper is to propose an adaptive OPTICS clustering algorithm for federated learning. The algorithm combines OPTICS clustering and adaptive learning technology, and can effective-ly deal with the problem of non-independent and identically distributed data across different user terminals. By perceiving the clustering environment as a Markov decision process, the goal is to find the best parameters of the OPTICS cluster without artificial assistance, so as to obtain the best federated aggregation method and achieve better performance. The reliability and practicability of this method have been verified on the experimental data, and its effec-tiveness and superiority have been proved. | 翻訳日:2023-06-26 10:14:35 公開日:2023-06-23 |
# Otter-Knowledge:薬物発見のための異なるソースから学習したマルチモーダル知識グラフのベンチマーク Otter-Knowledge: benchmarks of multimodal knowledge graph representation learning from different sources for drug discovery ( http://arxiv.org/abs/2306.12802v2 ) ライセンス: Link先を確認 | Hoang Thanh Lam, Marco Luca Sbodio, Marcos Mart\'inez Galindo, Mykhaylo Zayats, Ra\'ul Fern\'andez-D\'iaz, V\'ictor Valls, Gabriele Picco, Cesar Berrospi Ramis, Vanessa L\'opez | (参考訳) 表現学習における最近の研究は、タンパク質や分子のデータベースを利用して、教師なし学習技術を通じて、薬物やタンパク質の構造に関する知識を取得する。
これらの事前訓練された表現は、薬物と標的タンパク質の親和性を予測するなど、その後のタスクの精度を著しく向上させることが証明されている。
本研究では,様々な情報源やモダリティからの知識グラフをシーケンスやSMILES表現に組み込むことで,その表現をさらに強化し,確立したベンチマークデータセットの最先端結果が得られることを示す。
30万以上のトリプルを包含する7つの公開ソースから得られた前処理および統合データを提供する。
さらに,このデータに基づく事前学習モデルと,治療データコモンズ(tdc)ベンチマークで見いだされた薬物標的結合親和性予測のための3つのベンチマークデータセットの性能評価結果について報告する。
さらに、ベンチマークデータセットでモデルをトレーニングするためのソースコードを公開しています。
モデル事前学習とベンチマーク結果のためのクリーンなデータを伴う事前学習モデルをリリースする目的は、知識強化表現学習の研究を促進することである。 Recent research in representation learning utilizes large databases of proteins or molecules to acquire knowledge of drug and protein structures through unsupervised learning techniques. These pre-trained representations have proven to significantly enhance the accuracy of subsequent tasks, such as predicting the affinity between drugs and target proteins. In this study, we demonstrate that by incorporating knowledge graphs from diverse sources and modalities into the sequences or SMILES representation, we can further enrich the representation and achieve state-of-the-art results on established benchmark datasets. We provide preprocessed and integrated data obtained from 7 public sources, which encompass over 30M triples. Additionally, we make available the pre-trained models based on this data, along with the reported outcomes of their performance on three widely-used benchmark datasets for drug-target binding affinity prediction found in the Therapeutic Data Commons (TDC) benchmarks. Additionally, we make the source code for training models on benchmark datasets publicly available. Our objective in releasing these pre-trained models, accompanied by clean data for model pretraining and benchmark results, is to encourage research in knowledge-enhanced representation learning. | 翻訳日:2023-06-26 10:14:11 公開日:2023-06-23 |
# optiforest: 異常検出のための最適孤立林 OptIForest: Optimal Isolation Forest for Anomaly Detection ( http://arxiv.org/abs/2306.12703v2 ) ライセンス: Link先を確認 | Haolong Xiang, Xuyun Zhang, Hongsheng Hu, Lianyong Qi, Wanchun Dou, Mark Dras, Amin Beheshti and Xiaolong Xu | (参考訳) 異常検出は、サイバーセキュリティにおける侵入検知、金融リスク検出、人間の健康モニタリングなど、様々な分野において重要な役割を担っている。
様々な異常検出手法が提案されており、分離林機構に基づくカテゴリーは、その単純さ、有効性、効率性から際立っている。
分離された森の大半はバイナリ構造を使っているが、LSHiForestフレームワークは、マルチフォークの分離ツリー構造がより良い検出性能をもたらすことを示した。
しかし,枝分かれ要因に関して,孤立林に最適な樹木構造について,根本的かつ実践的に重要な疑問に答える理論的研究はない。
本稿では,この問いに回答し,分離木に対する最適分岐係数を決定するための分離効率の理論を定式化する。
理論的基盤を基礎として,クラスタリングに基づく学習をハッシュに組み込むことで,データからより多くの情報を学習し,より優れたアイソレーション品質を実現する。
このアプローチの理論的根拠は、OptIForestのバイアス低減によって達成されるより優れたバイアス分散トレードオフに依存します。
比較・アブレーション研究のための一連のベンチマークデータセットに関する広範囲な実験により,本手法は,ディープラーニングに基づく手法を含む最先端技術よりも,より効率的に,かつロバストに検出性能を発揮できることが証明された。 Anomaly detection plays an increasingly important role in various fields for critical tasks such as intrusion detection in cybersecurity, financial risk detection, and human health monitoring. A variety of anomaly detection methods have been proposed, and a category based on the isolation forest mechanism stands out due to its simplicity, effectiveness, and efficiency, e.g., iForest is often employed as a state-of-the-art detector for real deployment. While the majority of isolation forests use the binary structure, a framework LSHiForest has demonstrated that the multi-fork isolation tree structure can lead to better detection performance. However, there is no theoretical work answering the fundamentally and practically important question on the optimal tree structure for an isolation forest with respect to the branching factor. In this paper, we establish a theory on isolation efficiency to answer the question and determine the optimal branching factor for an isolation tree. Based on the theoretical underpinning, we design a practical optimal isolation forest OptIForest incorporating clustering based learning to hash which enables more information to be learned from data for better isolation quality. The rationale of our approach relies on a better bias-variance trade-off achieved by bias reduction in OptIForest. Extensive experiments on a series of benchmarking datasets for comparative and ablation studies demonstrate that our approach can efficiently and robustly achieve better detection performance in general than the state-of-the-arts including the deep learning based methods. | 翻訳日:2023-06-26 10:13:37 公開日:2023-06-23 |
# 単語モデルから世界モデルへ:自然言語から思考の確率的言語への翻訳 From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought ( http://arxiv.org/abs/2306.12672v2 ) ライセンス: Link先を確認 | Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum | (参考訳) 言語は下流の思考にどのように影響しますか?
特に、人間はどのようにして言語から意味を作るのか?そして、より人間的な方法で考える機械を構築するために、言語的意味の理論をどのように活用できるのか?
本稿では、ニューラルネットワークモデルと有理推論の確率論的モデルを組み合わせた言語インフォームド思考のための計算フレームワーク、有理意味構築を提案する。
我々は、自然言語から確率的思考言語(PLoT)への文脈感応的なマッピングとして、言語の意味を定式化した。
我々は、確率的プログラムによる思考、コモンセンス推論のための表現表現、そして、自然言語の発話から確率的プログラミング言語におけるコード表現への広範な包括的翻訳をサポートする大規模言語モデル(LLM)による構築をモデル化する。
認知科学の4つの中核領域、確率論的推論、論理的推論、論理的推論、視覚的および物理的推論、社会的推論の例を通して、我々の枠組みを説明する。
各プログラムのベイジアン推論はコヒーレントでロバストなコモンセンス推論をサポートするのに対し,LLMは現実的に適切な言語的意味を捉えた文脈依存翻訳を生成する。
認知に動機づけられた記号モジュール(物理シミュレーター、グラフィックスエンジン、計画アルゴリズム)を統合し、言語から統一された常識的思考インターフェースを提供する。
最後に,言語が世界モデルの構築をいかに進めるかを考察する。
この研究が認知モデルとAIシステムへのロードマップを提供し、近代的および古典的な計算的視点の両方の洞察を合成することを期待しています。 How does language inform our downstream thinking? In particular, how do humans make meaning from language--and how can we leverage a theory of linguistic meaning to build machines that think in more human-like ways? In this paper, we propose rational meaning construction, a computational framework for language-informed thinking that combines neural language models with probabilistic models for rational inference. We frame linguistic meaning as a context-sensitive mapping from natural language into a probabilistic language of thought (PLoT)--a general-purpose symbolic substrate for generative world modeling. Our architecture integrates two computational tools that have not previously come together: we model thinking with probabilistic programs, an expressive representation for commonsense reasoning; and we model meaning construction with large language models (LLMs), which support broad-coverage translation from natural language utterances to code expressions in a probabilistic programming language. We illustrate our framework through examples covering four core domains from cognitive science: probabilistic reasoning, logical and relational reasoning, visual and physical reasoning, and social reasoning. In each, we show that LLMs can generate context-sensitive translations that capture pragmatically-appropriate linguistic meanings, while Bayesian inference with the generated programs supports coherent and robust commonsense reasoning. We extend our framework to integrate cognitively-motivated symbolic modules (physics simulators, graphics engines, and planning algorithms) to provide a unified commonsense thinking interface from language. Finally, we explore how language can drive the construction of world models themselves. We hope this work will provide a roadmap towards cognitive models and AI systems that synthesize the insights of both modern and classical computational perspectives. | 翻訳日:2023-06-26 10:13:14 公開日:2023-06-23 |
# セミインプシティデノイング拡散モデル(SIDDM) Semi-Implicit Denoising Diffusion Models (SIDDMs) ( http://arxiv.org/abs/2306.12511v2 ) ライセンス: Link先を確認 | Yanwu Xu, Mingming Gong, Shaoan Xie, Wei Wei, Matthias Grundmann, kayhan Batmanghelich, Tingbo Hou | (参考訳) 生成モデルの普及にもかかわらず、サンプルの多様性や品質を損なうことなく推論中に高速なサンプリングを実現することは依然として困難である。
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
DDGAN(Denoising Diffusion Generative Adversarial Networks)は、拡散過程におけるより大きなジャンプのためにGANモデルを統合することにより、この制限を回避することを試みた。
しかし、DDGANは大規模なデータセットに適用する場合、スケーラビリティの制限に直面した。
これらの制約に対処するために、暗黙的および明示的な要因をマッチングすることで問題に取り組む新しいアプローチを導入する。
より具体的には、ノイズデータの限界分布と前方拡散の明示的な条件分布とを一致させるために暗黙モデルを利用する手法である。
この組み合わせにより、ジョイント・デノイジング分布を効果的に一致させることができる。
DDPMと異なり、DDGANと似ているが、逆ステップではパラメトリック分布を強制しないため、推論中に大きなステップを踏むことができる。
ddpmと似ているが、ddganとは異なり、拡散過程の正確な形を利用する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに非常に優れた結果が得られることを示す。 Despite the proliferation of generative models, achieving fast sampling during inference without compromising sample diversity and quality remains challenging. Existing models such as Denoising Diffusion Probabilistic Models (DDPM) deliver high-quality, diverse samples but are slowed by an inherently high number of iterative steps. The Denoising Diffusion Generative Adversarial Networks (DDGAN) attempted to circumvent this limitation by integrating a GAN model for larger jumps in the diffusion process. However, DDGAN encountered scalability limitations when applied to large datasets. To address these limitations, we introduce a novel approach that tackles the problem by matching implicit and explicit factors. More specifically, our approach involves utilizing an implicit model to match the marginal distributions of noisy data and the explicit conditional distribution of the forward diffusion. This combination allows us to effectively match the joint denoising distributions. Unlike DDPM but similar to DDGAN, we do not enforce a parametric distribution for the reverse step, enabling us to take large steps during inference. Similar to the DDPM but unlike DDGAN, we take advantage of the exact form of the diffusion process. We demonstrate that our proposed method obtains comparable generative performance to diffusion-based models and vastly superior results to models with a small number of sampling steps. | 翻訳日:2023-06-26 10:12:45 公開日:2023-06-23 |
# MimiC: 中央アップデートのミスによるフェデレーション学習でクライアントのドロップアウトを回避 MimiC: Combating Client Dropouts in Federated Learning by Mimicking Central Updates ( http://arxiv.org/abs/2306.12212v2 ) ライセンス: Link先を確認 | Yuchang Sun and Yuyi Mao and Jun Zhang | (参考訳) フェデレーション学習(federated learning, fl)は、プライバシ保護による協調学習のための有望なフレームワークであり、モデルトレーニングタスクをクライアントに分散し、モデル更新のみをサーバに収集する。
しかし、モバイルエッジネットワークにデプロイされる場合、クライアントは予測不可能な可用性を持ち、トレーニングプロセスから抜け出し、FLの収束を妨げる可能性がある。
この論文はそのような批判的な課題に取り組む。
具体的には、任意のクライアントドロップアウトを持つ古典的FedAvgアルゴリズムの収束性について検討する。
フェデレーション学習率の一般的な選択により、フェデブグは、集約された中央更新と所望の中央更新の相違によって引き起こされる大域的損失関数の静止点の周りで振動する。
この新たな観察に動機づけられ、サーバが受信した各モデル更新を前のものに基づいて修正するミイムと呼ばれる新しいトレーニングアルゴリズムを設計した。
受信したモデル更新の修正提案は、ドロップアウトクライアントに関係なく、想像上の中央更新を模倣する。
MimiCの理論解析は、集約された更新と中央更新のばらつきが適切な学習率によって減少し、収束することを示している。
さらにシミュレーションの結果、MimiCは安定収束性能を維持し、ベースライン法よりも優れたモデルを学ぶことを示した。 Federated learning (FL) is a promising framework for privacy-preserving collaborative learning, where model training tasks are distributed to clients and only the model updates need to be collected at a server. However, when being deployed at mobile edge networks, clients may have unpredictable availability and drop out of the training process, which hinders the convergence of FL. This paper tackles such a critical challenge. Specifically, we first investigate the convergence of the classical FedAvg algorithm with arbitrary client dropouts. We find that with the common choice of a decaying learning rate, FedAvg oscillates around a stationary point of the global loss function, which is caused by the divergence between the aggregated and desired central update. Motivated by this new observation, we then design a novel training algorithm named MimiC, where the server modifies each received model update based on the previous ones. The proposed modification of the received model updates mimics the imaginary central update irrespective of dropout clients. The theoretical analysis of MimiC shows that divergence between the aggregated and central update diminishes with proper learning rates, leading to its convergence. Simulation results further demonstrate that MimiC maintains stable convergence performance and learns better models than the baseline methods. | 翻訳日:2023-06-26 10:12:23 公開日:2023-06-23 |
# 高次元システムにおけるN-wise量子不整合性 Genuine N-wise Quantum Incompatibility in a High-Dimensional System ( http://arxiv.org/abs/2306.12122v2 ) ライセンス: Link先を確認 | Xiaolin Zhang, Rui Qu, Zehong Chang, Yunlong Wang, Zhenyu Guo, Min An, Hong Gao, Fuli Li and Pei Zhang | (参考訳) 量子不適合性(quantum incompatibility)は、いくつかの量子測定が同時に実行できない現象であり、様々な量子情報タスクで用いられる。
しかし、与えられた複数の高次元の測定セットが特定の非互換構造を尊重するかどうかを証明することは依然として困難である。
そこで本研究では,複雑な相性構造をペアワイズ構造に分解し,ノイズロバスト性を用いて非相性構造を目撃する修正量子状態識別プロトコルを提案する。
本手法は,クトリット系における4ドル非バイアス塩基の非互換構造を実験的に検証することにより,真正のn$-wise非互換構造および特定の一般互換性構造を検出することができる。
実験結果から,本手法は高次元マルチ計測シナリオにおける不整合構造を観察するための直接的かつ直感的なツールであることが示された。 Quantum incompatibility is referred as the phenomenon that some quantum measurements cannot be performed simultaneously, and is also used in various quantum information tasks. However, it is still a challenge to certify whether a given set of multiple high-dimensional measurements respects a specific structure of incompatibility. To address this problem, we propose a modified quantum state discrimination protocol that decomposes complex compatibility structures into pair-wise ones and employs noise robustness to witness incompatibility structures. Our method is capable of detecting genuine $n$-wise incompatibility and some specific general compatibility structures, as demonstrated by our experimental verification of incompatibility structures of $4$ mutually unbiased bases in a qutrit system. The experimental results show that our approach is a direct and intuitive tool to witness incompatibility structures in high-dimensional multi-measurement scenarios. | 翻訳日:2023-06-26 10:12:01 公開日:2023-06-23 |
# 潜時拡散モデルを用いたテキスト駆動型フォリー音生成 Text-Driven Foley Sound Generation With Latent Diffusion Model ( http://arxiv.org/abs/2306.10359v3 ) ライセンス: Link先を確認 | Yi Yuan, Haohe Liu, Xubo Liu, Xiyuan Kang, Peipei Wu, Mark D.Plumbley, Wenwu Wang | (参考訳) Foley Sound Generationはマルチメディアコンテンツのための背景音の合成を目的としている。
従来のモデルは通常、ラベルを入力として大規模な開発セット(シングルナンバーやワンホットベクトルなど)を使用する。
本研究では,テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
データ不足の問題を緩和するため,本モデルはまず,大規模データセットを事前学習し,コントラスト言語-オーディオ関連(clap)手法を用いた転送学習により,このタスクを微調整した。
テキストエンコーダによって抽出された特徴埋め込みは,生成モデルの性能に大きな影響を与える可能性がある。
したがって、エンコーダの後、トレーニング可能な層を導入し、エンコーダによって生成されたテキスト埋め込みを改善する。
また、複数の候補音声クリップを同時に生成し、候補クリップの埋め込みと対象テキストラベルの埋め込みとの類似度スコアで決定される最良波形を選択することにより、生成された波形をさらに洗練する。
提案手法を用いて,DCASEチャレンジ2023タスク7に提出されたシステムのうち,${1}^{st}$をランク付けする。
アブレーション実験の結果,提案手法は音響発生性能を著しく向上させることが示された。
提案するシステムの実装コードはオンラインで公開されている。 Foley sound generation aims to synthesise the background sound for multimedia content. Previous models usually employ a large development set with labels as input (e.g., single numbers or one-hot vector). In this work, we propose a diffusion model based system for Foley sound generation with text conditions. To alleviate the data scarcity issue, our model is initially pre-trained with large-scale datasets and fine-tuned to this task via transfer learning using the contrastive language-audio pertaining (CLAP) technique. We have observed that the feature embedding extracted by the text encoder can significantly affect the performance of the generation model. Hence, we introduce a trainable layer after the encoder to improve the text embedding produced by the encoder. In addition, we further refine the generated waveform by generating multiple candidate audio clips simultaneously and selecting the best one, which is determined in terms of the similarity score between the embedding of the candidate clips and the embedding of the target text label. Using the proposed method, our system ranks ${1}^{st}$ among the systems submitted to DCASE Challenge 2023 Task 7. The results of the ablation studies illustrate that the proposed techniques significantly improve sound generation performance. The codes for implementing the proposed system are available online. | 翻訳日:2023-06-26 10:11:07 公開日:2023-06-23 |