このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230908となっている論文です。

PDF登録状況(公開日: 20230908)

TitleAuthorsAbstract論文公表日・翻訳日
# 自律型サイバーオペレーションエージェントを目指して : レッドケースを探る

Towards Autonomous Cyber Operation Agents: Exploring the Red Case ( http://arxiv.org/abs/2309.02247v2 )

ライセンス: Link先を確認
Li Li, Jean-Pierre S. El Rami, Ryan Kerr, Adrian Taylor, Grant Vandenberghe, (参考訳) 近年,RL,特にDRLアルゴリズムを用いてエージェントを代表環境において訓練するサイバーネットワーク運用のための自律エージェントの開発に,強化・強化学習(RL/DRL)が適用されている。 トレーニング環境は、エージェントが学び、達成することを目的とした、高い忠実度でCyOpsをシミュレートする必要があります。 優れたシミュレータは、サイバー環境の極端な複雑さのために達成し難い。 トレーニングされたエージェントは、運用中のサイバーネットワークが常に変化するため、ネットワークのバリエーションに対して一般化可能でなければならない。 この作業でこれらの2つの問題について議論するために、レッドエージェントのケースが取られます。 我々は,Cyber Gym for Intelligent Learning (CyGIL)テストベッドで予備実験を行った。

Recently, reinforcement and deep reinforcement learning (RL/DRL) have been applied to develop autonomous agents for cyber network operations(CyOps), where the agents are trained in a representative environment using RL and particularly DRL algorithms. The training environment must simulate CyOps with high fidelity, which the agent aims to learn and accomplish. A good simulator is hard to achieve due to the extreme complexity of the cyber environment. The trained agent must also be generalizable to network variations because operational cyber networks change constantly. The red agent case is taken to discuss these two issues in this work. We elaborate on their essential requirements and potential solution options, illustrated by some preliminary experimentations in a Cyber Gym for Intelligent Learning (CyGIL) testbed.
翻訳日:2024-03-25 23:19:21 公開日:2023-09-08
# Caveat (IoT) Emptor: IoTデバイス存在の透明性を目指して(フルバージョン)

Caveat (IoT) Emptor: Towards Transparency of IoT Device Presence (Full Version) ( http://arxiv.org/abs/2309.03574v2 )

ライセンス: Link先を確認
Sashidhar Jakkamsetti, Youngil Kim, Gene Tsudik, (参考訳) 多くのタイプのIoTデバイスが、さまざまな設定や日常生活のさまざまな側面に浸透しているため、その存在と機能に対する認識が、大きな懸念の源となっている。 隠れたIoTデバイスは、近くの未確認ユーザを(センサーを介して)スヌープし、アクティベーションを通じて、ユーザが知らない環境に影響を与えることができる。 これはそれぞれ、プライバシとセキュリティ/安全の問題を引き起こす。 隠れたIoTデバイスの危険性は認識されており、以前の調査では、トラフィック分析や特殊なハードウェアを使用してデバイスを探索することに基づいて、何らかの緩和策が示唆されていた。 このようなアプローチは部分的に有効だが、IoTデバイスの透明性に対する包括的なアプローチは今のところ存在しない。 この論文は、最近のプライバシー規制(GDPRとCCPA)によって推進され、PAISA: Privacy-Agile IoT Sensing and Actuation(プライバシ-アジャイルIoTセンシングとアクティベーション)と呼ばれるIoTデバイスのための、プライバシ-アジャイルのルート・オブ・トラストアーキテクチャをモチベートし、構築する。 IoTデバイスの存在と機能について、タイムリーでセキュアな発表を保証します。 PAISAには2つのコンポーネントがある。ひとつはIoTデバイス上のコンポーネントで、すべてのデバイスソフトウェアが侵害されたとしても、その存在を定期的に発表することを保証する。 PAISAは一般的な既製のTrusted Execution Environment (TEE) -- ARM TrustZoneを使用している。 この作業には、IEEE 802.11 WiFiビーコンを介して発表を行うIoTデバイスと、発表をキャプチャして処理するAndroidスマートフォンベースのアプリが含まれている。 PAISA設計とプロトタイプのセキュリティと性能について論じる。

As many types of IoT devices worm their way into numerous settings and many aspects of our daily lives, awareness of their presence and functionality becomes a source of major concern. Hidden IoT devices can snoop (via sensing) on nearby unsuspecting users, and impact the environment where unaware users are present, via actuation. This prompts, respectively, privacy and security/safety issues. The dangers of hidden IoT devices have been recognized and prior research suggested some means of mitigation, mostly based on traffic analysis or using specialized hardware to uncover devices. While such approaches are partially effective, there is currently no comprehensive approach to IoT device transparency. Prompted in part by recent privacy regulations (GDPR and CCPA), this paper motivates and constructs a privacy-agile Root-of-Trust architecture for IoT devices, called PAISA: Privacy-Agile IoT Sensing and Actuation. It guarantees timely and secure announcements about IoT devices' presence and their capabilities. PAISA has two components: one on the IoT device that guarantees periodic announcements of its presence even if all device software is compromised, and the other that runs on the user device, which captures and processes announcements. Notably, PAISA requires no hardware modifications; it uses a popular off-the-shelf Trusted Execution Environment (TEE) -- ARM TrustZone. This work also comprises a fully functional (open-sourced) prototype implementation of PAISA, which includes: an IoT device that makes announcements via IEEE 802.11 WiFi beacons and an Android smartphone-based app that captures and processes announcements. Both security and performance of PAISA design and prototype are discussed.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-08
# 透過シールド:スペクター時代の記憶破壊の系統的解析

Penetrating Shields: A Systematic Analysis of Memory Corruption Mitigations in the Spectre Era ( http://arxiv.org/abs/2309.04119v1 )

ライセンス: Link先を確認
Weon Taek Na, Joel S. Emer, Mengjia Yan, (参考訳) 本稿では,メモリ破損の脆弱性とマイクロアーキテクチャー側チャネルの脆弱性を含む相乗的脅威モデルについて,初めて体系的解析を行った。 我々は、投機的実行攻撃を利用した投機的シールドバイパス攻撃を調査し、メモリ破損対策(例えば、シールド)のセキュリティに重要な秘密を漏らし、漏洩した秘密を用いて緩和機構をバイパスし、制御フローハイジャックのようなメモリ破損対策を成功させる。 まず、ハードウェアとソフトウェアの共同設計ソリューションに焦点を当てた、最先端のメモリ破損対策の分類を体系化することから始める。 この分類は、分析する20のスキームのうち10の潜在的に脆弱な防御策を特定するのに役立ちます。 次に,潜在的に脆弱な10の防御を解析し,対応可能な対策を推論するグラフベースモデルを構築した。 最後に,すでに配備されている緩和機構と2つの最先端の学術的提案を対象とする概念実証攻撃を提案する。

This paper provides the first systematic analysis of a synergistic threat model encompassing memory corruption vulnerabilities and microarchitectural side-channel vulnerabilities. We study speculative shield bypass attacks that leverage speculative execution attacks to leak secrets that are critical to the security of memory corruption mitigations (i.e., the shields), and then use the leaked secrets to bypass the mitigation mechanisms and successfully conduct memory corruption exploits, such as control-flow hijacking. We start by systematizing a taxonomy of the state-of-the-art memory corruption mitigations focusing on hardware-software co-design solutions. The taxonomy helps us to identify 10 likely vulnerable defense schemes out of 20 schemes that we analyze. Next, we develop a graph-based model to analyze the 10 likely vulnerable defenses and reason about possible countermeasures. Finally, we present three proof-of-concept attacks targeting an already-deployed mitigation mechanism and two state-of-the-art academic proposals.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-08
# ブロックチェーンによる機密データのプライバシ保護共有のためのデータガバナンス

Blockchain-enabled Data Governance for Privacy-Preserved Sharing of Confidential Data ( http://arxiv.org/abs/2309.04125v1 )

ライセンス: Link先を確認
Jingchi Zhang, Anwitaman Datta, (参考訳) 従来のクラウドストレージシステムでは、ユーザはその利便性から恩恵を受けると同時に、特定のセキュリティやプライバシの問題のリスクも負う。 データ共有機能を維持しながら機密性を確保するために、Ciphertext-Policy Attribute-based Encryption (CP-ABE)スキームを使用して、クラウドサービスのきめ細かいアクセス制御を実現する。 しかし、既存のアプローチは、違法な認可、鍵の開示、プライバシーの漏洩という3つの重大な懸念によって損なわれている。 これを解決するために、ブロックチェーン技術と属性ベースの暗号化を活用して、プライバシの漏洩やクレデンシャルな誤用を防止するブロックチェーンベースのデータガバナンスシステムを提案する。 まず、当社のAABE暗号化システムは、個人情報のプライバシーを保護し、アクセスポリシーを隠蔽し、不正な当局に対してデータの共有を保護しながら、多目的のユースケースを処理できる。 第二に、データ暗号化にAdvanced Encryption Standard (AES)を適用することで、システム全体を効率よく、現実の条件に応答させることができる。 さらに、暗号化されたデータはIPFSのような分散ストレージシステムに格納される。 第三に、ログインしたオンチェーンデータを通じて、違法な認証活動を容易に特定できる。 システム設計の他に,提案システムの堅牢性を示すためのセキュリティ証明も提供する。

In a traditional cloud storage system, users benefit from the convenience it provides but also take the risk of certain security and privacy issues. To ensure confidentiality while maintaining data sharing capabilities, the Ciphertext-Policy Attribute-based Encryption (CP-ABE) scheme can be used to achieve fine-grained access control in cloud services. However, existing approaches are impaired by three critical concerns: illegal authorization, key disclosure, and privacy leakage. To address these, we propose a blockchain-based data governance system that employs blockchain technology and attribute-based encryption to prevent privacy leakage and credential misuse. First, our ABE encryption system can handle multi-authority use cases while protecting identity privacy and hiding access policy, which also protects data sharing against corrupt authorities. Second, applying the Advanced Encryption Standard (AES) for data encryption makes the whole system efficient and responsive to real-world conditions. Furthermore, the encrypted data is stored in a decentralized storage system such as IPFS, which does not rely on any centralized service provider and is, therefore, resilient against single-point failures. Third, illegal authorization activity can be readily identified through the logged on-chain data. Besides the system design, we also provide security proofs to demonstrate the robustness of the proposed system.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-08
# 連続認証のための2次元ダイナミックフュージョン

Two-Dimensional Dynamic Fusion for Continuous Authentication ( http://arxiv.org/abs/2309.04128v1 )

ライセンス: Link先を確認
Nuttapong Attrapadung, Goichiro Hanaoka, Haochen M. Kotoi-Xie, Takahiro Matsuda, Takumi Moriyama, Takao Murakami, Hidenori Nakamura, Jacob C. N. Schuldt, Masaaki Tokuyama, Jing Zhang, (参考訳) ユーザを継続的に監視し、認証することで、モバイルデバイスのセキュリティとユーザビリティを高めるために、継続的認証が広く研究されている。 近年の研究では、取得したバイオメトリックデータのいくつかが低品質である場合でも、高い精度で連続的な認証を行うためのマルチバイオメトリックフュージョンが採用されている。 しかし、既存の連続核融合アプローチは、常に活性化されているすべての分類器に依存しており、モバイルデバイスには適さない可能性があるため、リソースが豊富である。 本稿では,マルチバイオメトリック連続認証の新しいアプローチとして,二次元ダイナミックフュージョンを提案する。 我々の重要な洞察は、マルチバイオメトリック連続認証は、分類器や時間とともに2次元のマッチングスコアを計算することである。 そこで本研究では,認証を行うコンテキストに基づいて分類器の集合を動的に選択し,複数分類器融合とマルチサンプル融合によりマッチングスコアを融合する。 実験により,本手法は既存の融合法よりも資源使用量と精度のバランスが良いことを示す。 特に,本手法は,マルチサンプル融合を応用したスコア計算の精度が,既存手法よりも高いことを示す。

Continuous authentication has been widely studied to provide high security and usability for mobile devices by continuously monitoring and authenticating users. Recent studies adopt multibiometric fusion for continuous authentication to provide high accuracy even when some of captured biometric data are of a low quality. However, existing continuous fusion approaches are resource-heavy as they rely on all classifiers being activated all the time and may not be suitable for mobile devices. In this paper, we propose a new approach to multibiometric continuous authentication: two-dimensional dynamic fusion. Our key insight is that multibiometric continuous authentication calculates two-dimensional matching scores over classifiers and over time. Based on this, we dynamically select a set of classifiers based on the context in which authentication is taking place, and fuse matching scores by multi-classifier fusion and multi-sample fusion. Through experimental evaluation, we show that our approach provides a better balance between resource usage and accuracy than the existing fusion methods. In particular, we show that our approach provides higher accuracy than the existing methods with the same number of score calculations by adopting multi-sample fusion.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-08
# 統合性と信頼のための傾斜モード型

Graded Modal Types for Integrity and Confidentiality ( http://arxiv.org/abs/2309.04324v1 )

ライセンス: Link先を確認
Daniel Marshall, Dominic Orchard, (参考訳) グラニュルプログラミング言語の基盤となっているようなグレード型システムは、プログラムの振る舞いの様々な異なる特性を、付加的な情報を持つアノテーション型によって追跡できるようにします。 このような特性の例としては、グレードされた型に関する先行研究でよく用いられる情報フロー制御があり、非干渉プロパティの自動検証と強制を可能にするセキュリティレベルの格子によって、型をグレードする。 これらは一般的にセキュリティの特定の側面、すなわち機密性に焦点が当てられている。 信頼された出力が信頼できない入力に依存してはならないことを示すプロパティであるIntegrationityは、この文脈では検討されていない。 この短い論文は、この省略を是正することを目的としている。 機密性や整合性が何らかの意味で二重性であることはよく知られているが、セキュリティ格子の順序を逆転させるだけでは、少なくとも我々の設定では、一つのシステムで両方のプロパティを組み合わせることに満足できないことが判明した。 状況は、線形型と一意型の両方をグレードフレームワークに組み込むという最近の作業と類似しており、このフレーミングを使用して、相互に整合性と機密性の両方を強制できることを示しています。 主要な考え方は、機密性を追跡するための既存の格付けされたコモナドが、新しいモダリティに対する相対的なモナドとして機能し、信頼できる情報から民間への情報の流れを許すような、整合性に注釈付けされたモダリティの風味を追加することである。

Graded type systems, such as the one underlying the Granule programming language, allow various different properties of a program's behaviour to be tracked via annotating types with additional information, which we call grades. One example of such a property, often used as a case study in prior work on graded types, is information flow control, in which types are graded by a lattice of security levels allowing noninterference properties to be automatically verified and enforced. These typically focus on one particular aspect of security, however, known as confidentiality; public outputs are prohibited from depending on private inputs. Integrity, a property specifying that trusted outputs must not depend on untrusted inputs, has not been examined in this context. This short paper aims to remedy this omission. It is well-known that confidentiality and integrity are in some sense dual properties, but simply reversing the ordering of the security lattice turns out to be unsatisfactory for the purpose of combining both kinds of property in a single system, at least in our setting. We analogize the situation to recent work on embedding both linear and uniqueness types in a graded framework, and use this framing to demonstrate that we can enforce both integrity and confidentiality alongside one another. The main idea is to add an additional flavour of modality annotated for integrity, such that the existing graded comonad for tracking confidentiality now also acts as a relative monad over the new modality, with rules allowing information to flow from trusted to public to private.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-08
# セキュア無線通信システムのためのSTAR-RIS-Assisted-Full-Duplex Jamming設計

STAR-RIS-Assisted-Full-Duplex Jamming Design for Secure Wireless Communications System ( http://arxiv.org/abs/2309.04566v1 )

ライセンス: Link先を確認
Yun Wen, Gaojie Chen, Sisai Fang, Zheng Chu, Pei Xiao, Rahim Tafazolli, (参考訳) 物理層セキュリティ(PLS)技術は、非合法デバイスから重要で機密性の高い情報を保護するセキュアな通信を提供することによって、次世代無線ネットワークにおいて重要な役割を果たすことが期待されている。 本稿では,エネルギ分割 (ES) モデルとモード切替 (MS) モデルの下で動作可能な再構成可能な知的表面 (STARRIS) を同時送信・反射することでジャミング信号を送信し,盗聴者による望ましくない受信に干渉する通信方式を提案する。 我々は,FDビームフォーミングベクトル,ESRISの振幅と位相シフト係数,MS-RISのモード選択と位相シフト係数を共同最適化することにより,秘密容量の最大化を目指す。 上述の最適化により、提案手法は、望まれる受信機における自己干渉(SI)を同時に排除しつつ、盗聴器の妨害信号に集中させることができる。 複数変数のカップリング効果に対処するために,反復最適化アルゴリズムを提案する。 さらに、ES-RISのビームフォーミング最適化、振幅、位相シフト最適化、MS-RISの位相シフト最適化のための連続凸近似(SCA)方式により、問題の非凸性を扱う。 さらに,MS-RISのモード最適化の2次的性質によって生じる難しさを克服するために,半定緩和(SDR)とガウスランダム化(Gussian randomization)プロセスを採用する。 シミュレーションの結果,従来の自己干渉キャンセル技術と比較して,2種類のSTAR-RISをセキュアな通信に適応させることの有効性が検証された。

Physical layer security (PLS) technologies are expected to play an important role in the next-generation wireless networks, by providing secure communication to protect critical and sensitive information from illegitimate devices. In this paper, we propose a novel secure communication scheme where the legitimate receiver use full-duplex (FD) technology to transmit jamming signals with the assistance of simultaneous transmitting and reflecting reconfigurable intelligent surface (STARRIS) which can operate under the energy splitting (ES) model and the mode switching (MS) model, to interfere with the undesired reception by the eavesdropper. We aim to maximize the secrecy capacity by jointly optimizing the FD beamforming vectors, amplitudes and phase shift coefficients for the ESRIS, and mode selection and phase shift coefficients for the MS-RIS. With above optimization, the proposed scheme can concentrate the jamming signals on the eavesdropper while simultaneously eliminating the self-interference (SI) in the desired receiver. To tackle the coupling effect of multiple variables, we propose an alternating optimization algorithm to solve the problem iteratively. Furthermore, we handle the non-convexity of the problem by the the successive convex approximation (SCA) scheme for the beamforming optimizations, amplitudes and phase shifts optimizations for the ES-RIS, as well as the phase shifts optimizations for the MS-RIS. In addition, we adopt a semi-definite relaxation (SDR) and Gaussian randomization process to overcome the difficulty introduced by the binary nature of mode optimization of the MS-RIS. Simulation results validate the performance of our proposed schemes as well as the efficacy of adapting both two types of STAR-RISs in enhancing secure communications when compared to the traditional selfinterference cancellation technology.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-08
# ブールプログラムの差分私的検証の複雑さ

The Complexity of Verifying Boolean Programs as Differentially Private ( http://arxiv.org/abs/2309.04642v1 )

ライセンス: Link先を確認
Mark Bun, Marco Gaboardi, Ludmila Glinskih, (参考訳) ブール値に作用する時間型プログラムの差分プライバシーの検証と確率的選択の複雑さについて検討する。 このクラスのプログラムは有限状態離散時間マルコフ連鎖(DTMC)と解釈できる。 プライバシパラメータの特定の値に対して、プログラムが差分プライベートかどうかを決定する問題は、PSPACE完全であることを示す。 この問題がPSPACEにあることを示すため、DTMCの計算確率に対する古典的な結果に適応する。 PSPACE-hardnessを示すために、プログラムがほぼ確実に終了するかどうかをチェックする問題から減算を用いる。 また、プログラムが提供するプライバシパラメータを近似する問題はPSPACEハードであることを示す。 さらに, 差分プライバシーの緩和, R'enyi差分プライバシー, 集中型差分プライバシー, 集中型差分プライバシーなど, 類似の問題の複雑さについても検討した。 これらの概念に対して、プログラムがプライベートかどうかを判断する問題のギャップ変換を考察し、それらすべてがPSPACE完全であることを示す。

We study the complexity of the problem of verifying differential privacy for while-like programs working over boolean values and making probabilistic choices. Programs in this class can be interpreted into finite-state discrete-time Markov Chains (DTMC). We show that the problem of deciding whether a program is differentially private for specific values of the privacy parameters is PSPACE-complete. To show that this problem is in PSPACE, we adapt classical results about computing hitting probabilities for DTMC. To show PSPACE-hardness we use a reduction from the problem of checking whether a program almost surely terminates or not. We also show that the problem of approximating the privacy parameters that a program provides is PSPACE-hard. Moreover, we investigate the complexity of similar problems also for several relaxations of differential privacy: R\'enyi differential privacy, concentrated differential privacy, and truncated concentrated differential privacy. For these notions, we consider gap-versions of the problem of deciding whether a program is private or not and we show that all of them are PSPACE-complete.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-08
# 多様体学習とそのマルチメディアへの応用に関する調査

A survey of manifold learning and its applications for multimedia ( http://arxiv.org/abs/2310.12986v1 )

ライセンス: Link先を確認
Hannes Fassold(参考訳) Manifold Learningは、機械学習の新たな研究領域である。 本稿では,マルチメディアにおける多様体学習とその重要な応用分野への応用について紹介する。

Manifold learning is an emerging research domain of machine learning. In this work, we give an introduction into manifold learning and how it is employed for important application fields in multimedia.
翻訳日:2024-01-15 16:42:38 公開日:2023-09-08
# リンク非依存ホッケーリンク登録

Rink-Agnostic Hockey Rink Registration ( http://arxiv.org/abs/2401.01003v1 )

ライセンス: Link先を確認
Jia Cheng Shang, Yuhao Chen, Mohammad Javad Shafiee, David A. Clausi(参考訳) ホッケーリンク登録はスポーツ分析を支援し自動化するのに有用なツールである。 プレイヤー追跡と組み合わせると、放送されたビデオフレームをリンクのオーバーヘッドテンプレートに警告できるホモグラフィマトリックスを推定することで、リンク上のプレイヤーの位置情報を提供することができる。 しかし、既存のほとんどの技術は正確な真実情報を必要としており、アノテートするのに何時間もかかり、訓練されたリンクタイプでのみ機能する。 そこで本論文では,頭上リンクテンプレートとビデオフレームのみを入力として,視覚と見えないリンクタイプの両方に適用可能な汎用リンク登録パイプラインを提案する。 我々のパイプラインは、この能力を実現し、非NHLトレーニングデータの欠如を克服するために、ドメイン適応技術、半教師付き学習、および合成データを使用する。 提案手法はnhl (source) と non-nhl (target)rink data の両方で評価され, nhlrinks の競合性能を維持しつつ, nhlrinks を非nhlrink に一般化できることを示した。

Hockey rink registration is a useful tool for aiding and automating sports analysis. When combined with player tracking, it can provide location information of players on the rink by estimating a homography matrix that can warp broadcast video frames onto an overhead template of the rink, or vice versa. However, most existing techniques require accurate ground truth information, which can take many hours to annotate, and only work on the trained rink types. In this paper, we propose a generalized rink registration pipeline that, once trained, can be applied to both seen and unseen rink types with only an overhead rink template and the video frame as inputs. Our pipeline uses domain adaptation techniques, semi-supervised learning, and synthetic data during training to achieve this ability and overcome the lack of non-NHL training data. The proposed method is evaluated on both NHL (source) and non-NHL (target) rink data and the results demonstrate that our approach can generalize to non-NHL rinks, while maintaining competitive performance on NHL rinks.
翻訳日:2024-01-15 12:19:41 公開日:2023-09-08
# Xtextに基づくテキストDSLのための高速プロトタイピング言語ワークベンチ:ビジョンと進歩

A Rapid Prototyping Language Workbench for Textual DSLs based on Xtext: Vision and Progress ( http://arxiv.org/abs/2309.04347v1 )

ライセンス: Link先を確認
Weixing Zhang, Jan-Philipp Stegh\"ofer, Regina Hebig, Daniel Str\"uber(参考訳) メタモデルベースのdsl開発 xtextのような言語ワークベンチでは、言語エンジニアは文法の詳細よりもメタモデルとドメイン概念に集中できます。 しかし、メタモデルから生成される文法は、しばしば手作業による修正を必要とします。 特に、迅速なプロトタイピングと言語の進化に関しては、文法が繰り返し生成されます。 前回の作業では、最適化ルールを使用して生成された文法を自動的に改善するグラマーオプティマイザが導入された。 しかし、最適化ルールは手動で設定する必要があるため、ユーザフレンドリーさや利便性が欠如している。 本稿では,GrammarOptimizerの文法最適化ルールを統合し,メタモデルに基づく言語の迅速なプロトタイピングと進化をサポートする言語ワークベンチに向けたビジョンと現状について述べる。 最適化ルールの視覚的な構成と文法最適化の効果のリアルタイムプレビューを提供し、文法最適化の制限に対処する。 さらに、モデルインスタンスの例に基づいた文法の推論をサポートし、言語スタイルの選択も提供する。 これらの機能は、XtextでメタモデルベースのDSL開発を自動化し、反復的な開発と迅速なプロトタイピングで言語エンジニアを支援することを目的としています。 本稿では,この言語ワークベンチの可能性と応用,および既存の言語ワークベンチのギャップを埋める方法について論じる。

Metamodel-based DSL development in language workbenches like Xtext allows language engineers to focus more on metamodels and domain concepts rather than grammar details. However, the grammar generated from metamodels often requires manual modification, which can be tedious and time-consuming. Especially when it comes to rapid prototyping and language evolution, the grammar will be generated repeatedly, this means that language engineers need to repeat such manual modification back and forth. Previous work introduced GrammarOptimizer, which automatically improves the generated grammar using optimization rules. However, the optimization rules need to be configured manually, which lacks user-friendliness and convenience. In this paper, we present our vision for and current progress towards a language workbench that integrates GrammarOptimizer's grammar optimization rules to support rapid prototyping and evolution of metamodel-based languages. It provides a visual configuration of optimization rules and a real-time preview of the effects of grammar optimization to address the limitations of GrammarOptimizer. Furthermore, it supports the inference of a grammar based on examples from model instances and offers a selection of language styles. These features aim to enhance the automation level of metamodel-based DSL development with Xtext and assist language engineers in iterative development and rapid prototyping. Our paper discusses the potential and applications of this language workbench, as well as how it fills the gaps in existing language workbenches.
翻訳日:2023-10-23 08:24:01 公開日:2023-09-08
# Seeding Contradiction: フルカバレッジテストスイートを生成する高速メソッド

Seeding Contradiction: a fast method for generating full-coverage test suites ( http://arxiv.org/abs/2309.04232v1 )

ライセンス: Link先を確認
Li Huang, Bertrand Meyer, Manuel Oriol(参考訳) プログラムの進化を管理するための重要なリソースである回帰テストスイートは、100%のカバレッジを達成するか、あるいは非常に近いものにする必要がある。 手動でテストスイートを開発するのは難しくないが、既存の自動化メソッドはしばしば非効率である。 この記事では、'Seeding Contradiction'というメソッドがプログラムのすべての基本ブロックに誤った命令を挿入し、SMTベースのHoareスタイルの証明器がプログラムの各ブランチとテストスイートのコレクションから反例を生成することを可能にする。 メソッドは静的で、高速に動作し、優れたカバレッジを実現する。

The regression test suite, a key resource for managing program evolution, needs to achieve 100% coverage, or very close, to be useful. Devising a test suite manually is unacceptably tedious, but existing automated methods are often inefficient. The method described in this article, ``Seeding Contradiction'', inserts incorrect instructions into every basic block of the program, enabling an SMT-based Hoare-style prover to generate a counterexample for every branch of the program and, from the collection of all such counterexamples, a test suite. The method is static, works fast, and achieves excellent coverage.
翻訳日:2023-10-23 08:23:21 公開日:2023-09-08
# 実世界の医療IoTアプリケーションをテストする - 経験と教訓

Testing Real-World Healthcare IoT Application: Experiences and Lessons Learned ( http://arxiv.org/abs/2309.04230v1 )

ライセンス: Link先を確認
Hassan Sartaj, Shaukat Ali, Tao Yue, and Kjetil Moberg(参考訳) Healthcare Internet of Things(IoT)アプリケーションは、信頼性を確保するために厳格なテストが必要です。 このようなアプリケーションは一般的に、REST APIを通じて、さまざまなサードパーティのヘルスケアアプリケーションや医療機器と統合されます。 このヘルスケアIoTアプリケーションの統合ネットワークは、複雑で相互依存的な構造を持つREST APIにつながります。 実世界の医療用IoTアプリケーション上で、最先端のREST APIテスティングアプローチ(RESTest)の産業評価を報告する。 私たちは、医療用IoTアプリケーションの41のAPIエンドポイントからなる6つのREST APIを実験することで、REST API障害、アプリケーションの障害、REST APIカバレッジに関するRESTestのテスト戦略の有効性を分析します。 結果は、RESTestを使って約56%のカバレッジを持つ異なるREST APIでいくつかの障害が見つかることを示している。 さらに、9つの潜在的な欠陥が特定される。 実験から得られたエビデンスを用いて,得られた経験と教訓を提供する。

Healthcare Internet of Things (IoT) applications require rigorous testing to ensure their dependability. Such applications are typically integrated with various third-party healthcare applications and medical devices through REST APIs. This integrated network of healthcare IoT applications leads to REST APIs with complicated and interdependent structures, thus creating a major challenge for automated system-level testing. We report an industrial evaluation of a state-of-the-art REST APIs testing approach (RESTest) on a real-world healthcare IoT application. We analyze the effectiveness of RESTest's testing strategies regarding REST APIs failures, faults in the application, and REST API coverage, by experimenting with six REST APIs of 41 API endpoints of the healthcare IoT application. Results show that several failures are discovered in different REST APIs with ~56% coverage using RESTest. Moreover, nine potential faults are identified. Using the evidence collected from the experiments, we provide our experiences and lessons learned.
翻訳日:2023-10-23 08:23:08 公開日:2023-09-08
# HITA: ヘルスケアIoTアプリケーションのシステムレベルのテストのためのアーキテクチャ

HITA: An Architecture for System-level Testing of Healthcare IoT Applications ( http://arxiv.org/abs/2309.04223v1 )

ライセンス: Link先を確認
Hassan Sartaj, Shaukat Ali, Tao Yue, and Kjetil Moberg(参考訳) 医療用モノのインターネット(IoT_アプリケーション)のシステムレベルのテストでは、統合医療機器とサードパーティアプリケーションによるテストインフラストラクチャを作成する必要がある。 このようなテストインフラストラクチャを構築する上で重要な課題は、異なるベンダの新たな医療機器と、異なるアーキテクチャに従う異なるサードパーティ組織が提供する新しいサービスを追加して、医療用IoTアプリケーションが継続的に進化することです。 さらに、さまざまな種類の医療機器でテストインフラストラクチャを作成するのは、時間がかかり、費用がかかり、事実上不可能である。 Oslo Cityの医療部門は、さまざまな医療用IoTアプリケーションで作業しながら、これらの課題に直面した。 本稿では,医療用iotアプリケーションのテストインフラストラクチャを構築するための実世界ソフトウェアアーキテクチャ(hita)を提案する。 HITAが達成した品質要件とHITAの一部として開発する作業製品の現状について論じる。 また、HITAに関連する建築工事から学んだ経験や教訓も紹介する。

System-level testing of healthcare Internet of Things (IoT_ applications requires creating a test infrastructure with integrated medical devices and third-party applications. A significant challenge in creating such test infrastructure is that healthcare IoT applications evolve continuously with the addition of new medical devices from different vendors and new services offered by different third-party organizations following different architectures. Moreover, creating test infrastructure with a large number of different types of medical devices is time-consuming, financially expensive, and practically infeasible. Oslo City healthcare department faced these challenges while working with various healthcare IoT applications. This paper presents a real-world software architecture (HITA) to create a test infrastructure for healthcare IoT applications. We discuss the quality requirements achieved by HITA and the status of work products developing as a part of HITA. We also present our experiences and lessons learned from the architectural work related to HITA.
翻訳日:2023-10-23 08:22:55 公開日:2023-09-08
# ロングテールからの教訓:ソフトウェアエコシステム全体の安全でない依存関係の更新を分析する

Lessons from the Long Tail: Analysing Unsafe Dependency Updates across Software Ecosystems ( http://arxiv.org/abs/2309.04197v1 )

ライセンス: Link先を確認
Supatsara Wattanakriengkrai, Raula Gaikovina Kula, Christoph Treude, Kenichi Matsumoto(参考訳) アプリケーションにサードパーティの依存関係を採用するリスクは、悪意のあるコードを注入するための入り口として機能する可能性があることです。 産業と研究のコミュニティからの多くのイニシアチブは、最も重要な依存関係(すなわち、エコシステム内で最も依存しているもの)に焦点を当てているが、エコシステムの他の部分が同じ運命に苦しむかどうかについてはほとんど知られていない。 私たちのビジョンは、エコシステム全体で安全な実践を促進し、確立することにあります。 本稿では,本研究では,88,416件のプルリクエスト(prs)を対象とする3つの代表的サンプルに基づく予備データを提示し,安全でない依存関係更新(すなわち,実行時に安全でないリスクを負うプル要求)を特定することにより,依存関係更新の安全性が極めて高いライブラリに限定されないことを明確に示す。 ロングテールに注意を引くために,我々は,これらの安全でない活動に対する保護策をさらに探究する6つの重要な研究課題からなる研究課題を提案する。 これには、トップクラスのライブラリだけでなく、エコシステム全体にわたって、安全でない依存関係更新に対処するためのベストプラクティスの開発が含まれる。

A risk in adopting third-party dependencies into an application is their potential to serve as a doorway for malicious code to be injected (most often unknowingly). While many initiatives from both industry and research communities focus on the most critical dependencies (i.e., those most depended upon within the ecosystem), little is known about whether the rest of the ecosystem suffers the same fate. Our vision is to promote and establish safer practises throughout the ecosystem. To motivate our vision, in this paper, we present preliminary data based on three representative samples from a population of 88,416 pull requests (PRs) and identify unsafe dependency updates (i.e., any pull request that risks being unsafe during runtime), which clearly shows that unsafe dependency updates are not limited to highly impactful libraries. To draw attention to the long tail, we propose a research agenda comprising six key research questions that further explore how to safeguard against these unsafe activities. This includes developing best practises to address unsafe dependency updates not only in top-tier libraries but throughout the entire ecosystem.
翻訳日:2023-10-23 08:22:42 公開日:2023-09-08
# 2023年の消滅するフレームワークの現状

The State of Disappearing Frameworks in 2023 ( http://arxiv.org/abs/2309.04188v1 )

ライセンス: Link先を確認
Juho Veps\"al\"ainen, Arto Hellas, Petri Vuorimaa(参考訳) 消滅するフレームワークは、web開発の新しいタイプの考え方を表している。 現在の主流のJavaScriptフレームワークでは、ユーザエクスペリエンスを犠牲にして開発者エクスペリエンスに注力しています。 失明するフレームワークは、クライアントにJavaScriptを少しでもゼロにすることを目指して焦点を移す。 本稿では,2023年中頃の生態系で利用可能な選択肢を考察し,その特徴と特徴を特徴付け,そのトレンドの最先端の展望を提供する。 フレームワークはコンパイラに依存しており、しばしばプログレッシブエンハンスメントをサポートし、ほとんどの場合、静的出力をサポートしていることが分かりました。 astroのようなソリューションはuiライブラリに依存しないが、markoのような他のソリューションはより意見が分かれている。

Disappearing frameworks represent a new type of thinking for web development. In the current mainstream JavaScript frameworks, the focus has been on developer experience at the cost of user experience. Disappearing frameworks shift the focus by aiming to deliver as little, even zero, JavaScript to the client. In this paper, we look at the options available in the ecosystem in mid-2023 and characterize them in terms of functionality and features to provide a state-of-the-art view of the trend. We found that the frameworks rely heavily on compilers, often support progressive enhancement, and most of the time support static output. While solutions like Astro are UI library agnostic, others, such as Marko, are more opinionated.
翻訳日:2023-10-23 08:22:21 公開日:2023-09-08
# 強化学習による適応型REST APIテスト

Adaptive REST API Testing with Reinforcement Learning ( http://arxiv.org/abs/2309.04583v1 )

ライセンス: Link先を確認
Myeongsoo Kim, Saurabh Sinha, Alessandro Orso(参考訳) 現代のWebサービスはますますREST APIに依存している。 これらのapiを効果的にテストするには、シーケンシャル作成のためのapi操作の選択、潜在的に大きなパラメータセットから各操作のパラメータの選択、事実上無限のパラメータ入力空間からの値のサンプリングなど、探究すべき広大な検索スペースがあるため、難しい。 現在のテストツールは、効率的な探索機構、全ての操作とパラメータを等しく扱うこと(すなわち、その重要性や複雑さを考慮しない)、優先順位付け戦略を欠いている。 さらに、これらのツールは、応答スキーマが仕様になかったり、変種を示すのに苦労している。 これらの制限に対処するために、強化学習を取り入れて探索中の操作やパラメータを優先順位付けする、アダプティブなREST APIテスト手法を提案する。 提案手法は,要求データと応答データを動的に解析し,動的APIフィードバックを効率的に処理するためのサンプリングベースの戦略を採用する。 私たちは10のRESTfulサービス上で、コードカバレッジ、リクエストの生成、オペレーションのカバー、サービス障害のトリガに関して、最先端のRESTテストツールと比較し、そのテクニックを評価しました。 また, 優先順位付け, 動的フィードバック分析, サンプリングについてアブレーション研究を行い, それぞれの効果を評価した。 我々の研究結果は、既存のREST APIテストツールよりも有効性、効率、フォールトフィニング能力で優れていることを示している。

Modern web services increasingly rely on REST APIs. Effectively testing these APIs is challenging due to the vast search space to be explored, which involves selecting API operations for sequence creation, choosing parameters for each operation from a potentially large set of parameters, and sampling values from the virtually infinite parameter input space. Current testing tools lack efficient exploration mechanisms, treating all operations and parameters equally (i.e., not considering their importance or complexity) and lacking prioritization strategies. Furthermore, these tools struggle when response schemas are absent in the specification or exhibit variants. To address these limitations, we present an adaptive REST API testing technique that incorporates reinforcement learning to prioritize operations and parameters during exploration. Our approach dynamically analyzes request and response data to inform dependent parameters and adopts a sampling-based strategy for efficient processing of dynamic API feedback. We evaluated our technique on ten RESTful services, comparing it against state-of-the-art REST testing tools with respect to code coverage achieved, requests generated, operations covered, and service failures triggered. Additionally, we performed an ablation study on prioritization, dynamic feedback analysis, and sampling to assess their individual effects. Our findings demonstrate that our approach outperforms existing REST API testing tools in terms of effectiveness, efficiency, and fault-finding ability.
翻訳日:2023-10-23 08:09:58 公開日:2023-09-08
# 静的サイト生成におけるエッジコンピューティングの意義

Implications of Edge Computing for Static Site Generation ( http://arxiv.org/abs/2309.05669v1 )

ライセンス: Link先を確認
Juho Veps\"al\"ainen and Arto Hellas and Petri Vuorimaa(参考訳) 静的サイト生成(SSG)は、ホストが容易なパフォーマンスの高いWebサイトを作成するための一般的な技術である。 多くのSSGツールが存在し、アプローチはJamstackのような新しいアプローチによって補完され、ユーザビリティが拡張された。 エッジコンピューティングは、静的な背景の上に動的サイトを作成し、ユーザに近い動的リソースを提供することで、ssgの有用性をさらに拡張する新しいオプションである。 本稿では,エッジコンピューティング分野における最近の発展の影響について考察し,SSGへの影響について考察する。

Static site generation (SSG) is a common technique in the web development space to create performant websites that are easy to host. Numerous SSG tools exist, and the approach has been complemented by newer approaches, such as Jamstack, that extend its usability. Edge computing represents a new option to extend the usefulness of SSG further by allowing the creation of dynamic sites on top of a static backdrop, providing dynamic resources close to the user. In this paper, we explore the impact of the recent developments in the edge computing space and consider its implications for SSG.
翻訳日:2023-10-23 08:00:57 公開日:2023-09-08
# シンプレクティック固有値の不等式における等式

Equality in some symplectic eigenvalue inequalities ( http://arxiv.org/abs/2309.04562v1 )

ライセンス: Link先を確認
Hemant K. Mishra(参考訳) 過去10年間、多くの研究がシンプレクティック固有値のいくつかの性質を調査してきた。 注目すべきは、シンプレクティック固有値に関する結果は、適切な解釈を持つエルミート行列の固有値と類似していることである。 特に有名な固有値不等式に対するシンプレクティックアナログは、ワイルの不等式、リドスキーの不等式、シュール・ホーン不等式などの今日知られている。 本稿では,上記の不等式に対するシンプレクティックアナログの等式に対する必要十分条件を提案する。 これらのシンプレクティック固有値の等式条件は、固有値の既知の等式条件と類似している。

In the last decade, numerous works have investigated several properties of symplectic eigenvalues. Remarkably, the results on symplectic eigenvalues have been found to be analogous to those of eigenvalues of Hermitian matrices with appropriate interpretations. In particular, symplectic analogs of famous eigenvalue inequalities are known today such as Weyl's inequalities, Lidskii's inequalities, and Schur-Horn majorization inequalities. In this paper, we provide necessary and sufficient conditions for equality in the symplectic analogs of the aforementioned inequalities. These equality conditions for symplectic eigenvalues are analogous to the known equality conditions for eigenvalues.
翻訳日:2023-10-01 13:03:57 公開日:2023-09-08
# 第1章 コンピュータ・デモグラフィーと健康

Book Chapter in Computational Demography and Health ( http://arxiv.org/abs/2309.13056v1 )

ライセンス: Link先を確認
Zack W. Almquist, Courtney Allen, Ihsan Kahveci(参考訳) コンピュータ、データ入力、生成、分析ツールの最近の発展は、現代のデモグラフィーと健康研究の風景を変えてきた。 これらの変化は、この分野における計算デモグラフィ、ビッグデータ、精密健康と呼ばれるようになった。 この新たな学際研究は、社会科学者、物理科学者、エンジニア、データ科学者、疾病専門家を含む。 この作業は、管理データの使用方法を変え、調査を行い、ビッグデータ(携帯電話、アプリなどからの電子的トレースデータ)を介して複雑な行動研究を可能にする。 この章では、新興分野の新しいデータソース、メソッド、アプリケーションについてレビューする。

Recent developments in computing, data entry and generation, and analytic tools have changed the landscape of modern demography and health research. These changes have come to be known as computational demography, big data, and precision health in the field. This emerging interdisciplinary research comprises social scientists, physical scientists, engineers, data scientists, and disease experts. This work has changed how we use administrative data, conduct surveys, and allow for complex behavioral studies via big data (electronic trace data from mobile phones, apps, etc.). This chapter reviews this emerging field's new data sources, methods, and applications.
翻訳日:2023-10-01 12:24:16 公開日:2023-09-08
# 生成AIの時代における著作権の原点と将来

Originality and the Future of Copyright in an Age of Generative AI ( http://arxiv.org/abs/2309.13055v1 )

ライセンス: Link先を確認
Paulius Jurcys, Mark Fenwick(参考訳) この論文は、生成型AIツールで作品が作成されたときの人間の著者の疑問について考察する。

This papers explores the question of human authorship when works are created with generative AI tools.
翻訳日:2023-10-01 12:24:06 公開日:2023-09-08
# データコモンズ

Data Commons ( http://arxiv.org/abs/2309.13054v1 )

ライセンス: Link先を確認
Ramanathan V. Guha, Prashanth Radhakrishnan, Bo Xu, Wei Sun, Carolyn Au, Ajai Tirumali, Muhammad J. Amjad, Samantha Piekos, Natalie Diaz, Jennifer Chen, Julia Wu, Prem Ramaswami, James Manyika(参考訳) オープンソースのデータ(例えば、アメリカ合衆国国勢調査局(census)、世界保健機関(who)、気候変動に関する政府間パネル(ipcc))は、さまざまな分野の政策立案者、学生、研究者にとって重要な資源である。 異なるソースからのデータを組み合わせるには、ユーザーはスキーマ、フォーマット、仮定などの違いを精査する必要がある。 このデータラングリングは時間がかかり、面倒で、すべてのユーザが繰り返す必要があります。 Data Commons(DC)の目標は、このデータを理解し、それを社会的な課題や機会を解決するために利用する人々にとって、公開データをアクセスしやすく役立てることです。 データ処理を行い、標準的なスキーマとCloud APIを通じて処理データを広く利用します。 Data Commonsは、共通のスキーマでデータをパブリッシュし、Data Commons APIを使用して相互運用する、サイトの分散ネットワークである。 異なるData Commonsのデータを簡単に結合できる。 これらのデータコモンの集合は単一の知識グラフと見なすことができる。 この知識グラフは、大規模言語モデルの進歩を利用した自然言語質問を用いて検索することができる。 本稿では,データコモンズのアーキテクチャ,主要なデプロイメント,今後の作業の方向性について述べる。

Publicly available data from open sources (e.g., United States Census Bureau (Census), World Health Organization (WHO), Intergovernmental Panel on Climate Change (IPCC)) are vital resources for policy makers, students and researchers across different disciplines. Combining data from different sources requires the user to reconcile the differences in schemas, formats, assumptions, and more. This data wrangling is time consuming, tedious and needs to be repeated by every user of the data. Our goal with Data Commons (DC) is to help make public data accessible and useful to those who want to understand this data and use it to solve societal challenges and opportunities. We do the data processing and make the processed data widely available via standard schemas and Cloud APIs. Data Commons is a distributed network of sites that publish data in a common schema and interoperate using the Data Commons APIs. Data from different Data Commons can be joined easily. The aggregate of these Data Commons can be viewed as a single Knowledge Graph. This Knowledge Graph can then be searched over using Natural Language questions utilizing advances in Large Language Models. This paper describes the architecture of Data Commons, some of the major deployments and highlights directions for future work.
翻訳日:2023-10-01 12:24:03 公開日:2023-09-08
# AdBooster: 安定拡散露光によるパーソナライズされた広告創造

AdBooster: Personalized Ad Creative Generation using Stable Diffusion Outpainting ( http://arxiv.org/abs/2309.11507v1 )

ライセンス: Link先を確認
Veronika Shilova, Ludovic Dos Santos, Flavian Vasile, Ga\"etan Racic, Ugo Tanielian(参考訳) デジタル広告において、最適項目(勧告)と最良の創造的プレゼンテーション(創造的最適化)の選択は伝統的に別分野とみなされてきた。 しかし、どちらもユーザーの満足度に大きく寄与し、特にビジュアルクリエイティビティの場合、アイテムの関連性とプレゼンテーションの両方に依存しているという仮定を基礎としている。 そこで,本稿では,ユーザの興味を組み込んだ創造的生成のための生成モデルの利用を提案する「itshape generative creative optimization(gco)」と,安定した拡散アウトパインアーキテクチャに基づくパーソナライズされた広告創造者のためのモデル「itshape adbooster」を紹介する。 このモデルは、微調整時と生成時の両方にユーザーの興味を取り入れている。 AdBoosterのパフォーマンスをさらに向上するため、自動データ拡張パイプラインも導入しています。 シミュレーションデータに関する実験を通じて,AdBoosterが既定の製品イメージよりも関連性の高い創造物を生成できることの有効性を検証し,ユーザエンゲージメントを高める可能性を示した。

In digital advertising, the selection of the optimal item (recommendation) and its best creative presentation (creative optimization) have traditionally been considered separate disciplines. However, both contribute significantly to user satisfaction, underpinning our assumption that it relies on both an item's relevance and its presentation, particularly in the case of visual creatives. In response, we introduce the task of {\itshape Generative Creative Optimization (GCO)}, which proposes the use of generative models for creative generation that incorporate user interests, and {\itshape AdBooster}, a model for personalized ad creatives based on the Stable Diffusion outpainting architecture. This model uniquely incorporates user interests both during fine-tuning and at generation time. To further improve AdBooster's performance, we also introduce an automated data augmentation pipeline. Through our experiments on simulated data, we validate AdBooster's effectiveness in generating more relevant creatives than default product images, showing its potential of enhancing user engagement.
翻訳日:2023-09-24 03:54:40 公開日:2023-09-08
# 大規模言語モデルを用いた表メタデータとビジネス用語のマッチング

Matching Table Metadata with Business Glossaries Using Large Language Models ( http://arxiv.org/abs/2309.11506v1 )

ライセンス: Link先を確認
Elita Lobo, Oktie Hassanzadeh, Nhan Pham, Nandana Mihindukulasooriya, Dharmashankar Subramanian, Horst Samulowitz(参考訳) エンタープライズはしばしば、大きなデータベースやエンタープライズデータレイクという形で構造化されたデータの大規模なコレクションを所有します。 このようなデータコレクションには、制限されたメタデータと厳格なアクセスポリシが付属しており、データコンテンツへのアクセスを制限できるため、古典的な検索および分析ソリューションの適用が制限される。 結果として、利用可能なメタデータを効果的に活用できるソリューションが必要である。 本稿では,データラベルと記述を含むビジネス用語集とテーブルメタデータをマッチングする問題について検討する。 結果として得られるマッチングにより、データコンテンツへのアクセスを要求しなくても、検索および分析に利用可能な、または、キュレートされたビジネス用語集を使用できる。 この問題に対する1つの解決策は、最も近い一致を見つけるために、列名と用語集記述(またはそれらのベクトル埋め込み)に手作業で定義された規則や類似性尺度を使用することである。 しかし、このようなアプローチは手動のラベル付けによって調整される必要があり、単純で複雑な記述と長い記述の組み合わせを含む多くのビジネス用語集を扱うことができない。 本研究では,大規模言語モデル(LLM)の力を利用して,手動チューニングを必要としない汎用的なマッチング手法を設計し,列名と用語集の複雑な関係を同定する。 LLMを2つの方法で利用する手法を提案する。 a) マッチングを支援するカラム名の追加コンテキストを生成することにより b) LLMを用いて,列名と用語的記述の間に関係があるかどうかを直接推測することにより 予備実験の結果,提案手法の有効性が示された。

Enterprises often own large collections of structured data in the form of large databases or an enterprise data lake. Such data collections come with limited metadata and strict access policies that could limit access to the data contents and, therefore, limit the application of classic retrieval and analysis solutions. As a result, there is a need for solutions that can effectively utilize the available metadata. In this paper, we study the problem of matching table metadata to a business glossary containing data labels and descriptions. The resulting matching enables the use of an available or curated business glossary for retrieval and analysis without or before requesting access to the data contents. One solution to this problem is to use manually-defined rules or similarity measures on column names and glossary descriptions (or their vector embeddings) to find the closest match. However, such approaches need to be tuned through manual labeling and cannot handle many business glossaries that contain a combination of simple as well as complex and long descriptions. In this work, we leverage the power of large language models (LLMs) to design generic matching methods that do not require manual tuning and can identify complex relations between column names and glossaries. We propose methods that utilize LLMs in two ways: a) by generating additional context for column names that can aid with matching b) by using LLMs to directly infer if there is a relation between column names and glossary descriptions. Our preliminary experimental results show the effectiveness of our proposed methods.
翻訳日:2023-09-24 03:54:21 公開日:2023-09-08
# オンライン無限次元回帰:学習線形作用素

Online Infinite-Dimensional Regression: Learning Linear Operators ( http://arxiv.org/abs/2309.06548v1 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) オンライン環境における2つの無限次元ヒルベルト空間間の二乗損失下での線形作用素の学習問題を考察する。 一様有界な$p$-schattenノルムを持つ線型作用素のクラスは、任意の$p \in [1, \infty)$に対してオンライン学習可能である。 一方、作用素ノルムに関する一様有界線型作用素のクラスがオンライン学習可能であることを示すことによって、不可能な結果が証明される。 さらに,オンライン学習可能だが一様収束が成立しない有界線形作用素のクラスを識別することにより,オンライン一様収束とオンライン学習可能性の分離を示す。 最後に,不合理な結果と一様収束と学習可能性の分離が,無知のPAC設定にも有効であることを示す。

We consider the problem of learning linear operators under squared loss between two infinite-dimensional Hilbert spaces in the online setting. We show that the class of linear operators with uniformly bounded $p$-Schatten norm is online learnable for any $p \in [1, \infty)$. On the other hand, we prove an impossibility result by showing that the class of uniformly bounded linear operators with respect to the operator norm is \textit{not} online learnable. Moreover, we show a separation between online uniform convergence and online learnability by identifying a class of bounded linear operators that is online learnable but uniform convergence does not hold. Finally, we prove that the impossibility result and the separation between uniform convergence and learnability also hold in the agnostic PAC setting.
翻訳日:2023-09-17 14:01:42 公開日:2023-09-08
# 知識蒸留と潜在拡散モデルによる脳波からの視覚脳表現の復号

Decoding visual brain representations from electroencephalography through Knowledge Distillation and latent diffusion models ( http://arxiv.org/abs/2309.07149v1 )

ライセンス: Link先を確認
Matteo Ferrante, Tommaso Boccato, Stefano Bargione, Nicola Toschi(参考訳) 視覚表現を人間の脳活動から復号することは、特に脳-コンピューターインタフェースの文脈において、活発な研究領域として現れてきた。 本研究では,画像自体を見た被験者の脳波(eeg)データを用いて,imagenetデータセットから画像の分類と再構成を行う革新的な手法を提案する。 被験者6名の脳波記録を分析した結果,それぞれ40種類の意味カテゴリーにまたがる50枚の画像が得られた。 これらの脳波の読み出しは、その後、畳み込みニューラルネットワーク(CNN)のトレーニングに使用されるスペクトログラムに変換され、CLIP(Contrastive Language- Image Pre-Training)ベースの画像分類教師ネットワークに基づく知識蒸留と統合された。 この戦略により、標準cnnおよび様々なrnnベースのベンチマークを著しく上回る80%のtop-5精度を達成することができた。 さらに,事前学習した潜在拡散モデルに基づく画像再構成機構を導入し,脳波活動が誘発された画像の推定を可能とした。 したがって、我々のアーキテクチャは、神経活動から画像をデコードするだけでなく、脳波のみから信頼できる画像再構成を提供する。 私たちの研究は、神経信号と視覚認知をつなぐための重要な一歩を示しています。

Decoding visual representations from human brain activity has emerged as a thriving research domain, particularly in the context of brain-computer interfaces. Our study presents an innovative method that employs to classify and reconstruct images from the ImageNet dataset using electroencephalography (EEG) data from subjects that had viewed the images themselves (i.e. "brain decoding"). We analyzed EEG recordings from 6 participants, each exposed to 50 images spanning 40 unique semantic categories. These EEG readings were converted into spectrograms, which were then used to train a convolutional neural network (CNN), integrated with a knowledge distillation procedure based on a pre-trained Contrastive Language-Image Pre-Training (CLIP)-based image classification teacher network. This strategy allowed our model to attain a top-5 accuracy of 80%, significantly outperforming a standard CNN and various RNN-based benchmarks. Additionally, we incorporated an image reconstruction mechanism based on pre-trained latent diffusion models, which allowed us to generate an estimate of the images which had elicited EEG activity. Therefore, our architecture not only decodes images from neural activity but also offers a credible image reconstruction from EEG only, paving the way for e.g. swift, individualized feedback experiments. Our research represents a significant step forward in connecting neural signals with visual cognition.
翻訳日:2023-09-17 13:40:12 公開日:2023-09-08
# NewB:政治バイアス検出のための20万以上の文

NewB: 200,000+ Sentences for Political Bias Detection ( http://arxiv.org/abs/2006.03051v2 )

ライセンス: Link先を確認
Jerry Wei(参考訳) 我々は、ドナルド・トランプに関する11のニュースソースから20万文以上のテキストコーパスであるNewspaper Bias Dataset(NewB)を提示する。 以前のデータセットでは、文をリベラルか保守的かのどちらかに分類しているが、newbは11の人気のあるメディアソースの政治的見解をカバーし、従来のバイナリ分類システムよりも微妙な政治的視点を捉えている。 我々は、11の新聞から与えられた文のニュースソースを予測するために、2つの最先端のディープラーニングモデルをトレーニングし、反復ニューラルネットワークが33.3%、61.4%、77.6%のトップ1、トップ3、トップ5のアキュラシーを達成し、それぞれ18.3%、42.6%、60.8%のベースラインロジスティック回帰モデルのアキュラシーを著しく上回ります。 論文のニュースソースラベルを用いて、私たちのモデルで上位n-gramを分析し、メディアソースによるトランプの描写に関する有意義な洞察を得る。我々のデータセットの公開は、自然言語処理を使用してより複雑な政治的バイアスを分析するためのさらなる研究を促進することを願っている。 私たちのデータセットはhttps://github.com/JerryWeiAI/NewB.orgにポストされます。

We present the Newspaper Bias Dataset (NewB), a text corpus of more than 200,000 sentences from eleven news sources regarding Donald Trump. While previous datasets have labeled sentences as either liberal or conservative, NewB covers the political views of eleven popular media sources, capturing more nuanced political viewpoints than a traditional binary classification system does. We train two state-of-the-art deep learning models to predict the news source of a given sentence from eleven newspapers and find that a recurrent neural network achieved top-1, top-3, and top-5 accuracies of 33.3%, 61.4%, and 77.6%, respectively, significantly outperforming a baseline logistic regression model's accuracies of 18.3%, 42.6%, and 60.8%. Using the news source label of sentences, we analyze the top n-grams with our model to gain meaningful insight into the portrayal of Trump by media sources.We hope that the public release of our dataset will encourage further research in using natural language processing to analyze more complex political biases. Our dataset is posted at https://github.com/JerryWeiAI/NewB .
翻訳日:2023-09-13 18:36:32 公開日:2023-09-08
# tspm+ : 臨床データから推移的シーケンシャルパターンをマイニングする高性能アルゴリズム

tSPM+; a high-performance algorithm for mining transitive sequential patterns from clinical data ( http://arxiv.org/abs/2309.05671v1 )

ライセンス: Link先を確認
Jonas H\"ugel and Ulrich Sax and Shawn N. Murphy and Hossein Estiri(参考訳) 患者から収集された大規模臨床データセットの可用性の高まりは、異なる分析アルゴリズムを用いて複雑な疾患の計算的特徴付けに新たな道を開くことができる。 大きな臨床データセットから知識を抽出する有望な新しい方法の1つは、機械学習ワークフローと統合された時間パターンマイニングである。 しかし、これらの時間パターンのマイニングは計算集約的な作業であり、記憶障害がある。 時間シーケンスパターンマイニング(tSPM)アルゴリズムのような現在のアルゴリズムはすでに有望な結果を提供しているが、まだ最適化の余地は残っていない。 本稿では,tSPMアルゴリズムの高性能実装であるtSPM+アルゴリズムについて述べる。 tSPM+アルゴリズムは最大980倍の高速化と最大48倍のメモリ消費向上を実現している。 また、既存の機械学習ワークフローに簡単に統合するためのウィグレットを提供し、マイニングされた時間シーケンスを使用して、WHOの定義に従って、COVID-19後患者とその症状を識別する。

The increasing availability of large clinical datasets collected from patients can enable new avenues for computational characterization of complex diseases using different analytic algorithms. One of the promising new methods for extracting knowledge from large clinical datasets involves temporal pattern mining integrated with machine learning workflows. However, mining these temporal patterns is a computational intensive task and has memory repercussions. Current algorithms, such as the temporal sequence pattern mining (tSPM) algorithm, are already providing promising outcomes, but still leave room for optimization. In this paper, we present the tSPM+ algorithm, a high-performance implementation of the tSPM algorithm, which adds a new dimension by adding the duration to the temporal patterns. We show that the tSPM+ algorithm provides a speed up to factor 980 and a up to 48 fold improvement in memory consumption. Moreover, we present a docker container with an R-package, We also provide vignettes for an easy integration into already existing machine learning workflows and use the mined temporal sequences to identify Post COVID-19 patients and their symptoms according to the WHO definition.
翻訳日:2023-09-13 16:01:07 公開日:2023-09-08
# circles: クラス数の多いマルチクラス化問題のモデル間比較

Circles: Inter-Model Comparison of Multi-Classification Problems with High Number of Classes ( http://arxiv.org/abs/2309.05672v1 )

ライセンス: Link先を確認
Nina Mir, Ragaad AlTarawneh, Shah Rukh Humayoun(参考訳) 機械学習の最近の進歩は、画像データセットのような数百のクラスを扱う分類モデルを作成する動機となった。 しかし,類数の多い分類モデルの可視化と,その分類問題におけるモデル間比較は,非常に大きな分類カテゴリの問題に対処するための分類モデルの利用が増えているにもかかわらず,文献ではあまり注目されていない2つの分野である。 本稿では,対話型視覚分析ツールCirclesについて,多数の分類モデルと1つの視点での1Kクラスとの視覚的モデル間比較を行う。 視覚クラッターの厄介な問題を軽減するために、モデル間比較タスクで放射状線配置を同心点に選んだ。 プロトタイプは1kクラス9モデルの結果を示します

The recent advancements in machine learning have motivated researchers to generate classification models dealing with hundreds of classes such as in the case of image datasets. However, visualization of classification models with high number of classes and inter-model comparison in such classification problems are two areas that have not received much attention in the literature, despite the ever-increasing use of classification models to address problems with very large class categories. In this paper, we present our interactive visual analytics tool, called Circles, that allows a visual inter-model comparison of numerous classification models with 1K classes in one view. To mitigate the tricky issue of visual clutter, we chose concentric a radial line layout for our inter-model comparison task. Our prototype shows the results of 9 models with 1K classes
翻訳日:2023-09-13 15:48:48 公開日:2023-09-08
# 信頼性とフルレントな大言語モデルに向けて:QAシステムにおけるフィードバック学習ループの導入

Towards Reliable and Fluent Large Language Models: Incorporating Feedback Learning Loops in QA Systems ( http://arxiv.org/abs/2309.06384v1 )

ライセンス: Link先を確認
Dongyub Lee, Taesun Whang, Chanhee Lee, Heuiseok Lim(参考訳) 大規模言語モデル(LLM)は、様々な日常アプリケーションで汎用ツールとして登場した。 しかし、その実用性と信頼性を損なう問題に苦しめられている。 これには、誤った参照(引用)の取り込み、幻覚情報の生成(正確性)、重要な詳細(頻度)の過剰または欠落を含むことが含まれる。 これらの懸念を改善するために,本研究ではいくつかの重要な貢献を行う。 まず、QAシステムにおいてLLMが生成する応答の引用、正当性、および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築する。 第2に,批判モデルを利用して生成したテキストの異質な側面に対するリアルタイムフィードバックを提供する自動フィードバック機構を提案する。 第3に,この批判モデルを用いたフィードバック学習ループを導入し,応答生成に責任のあるLLMの性能を反復的に改善する。 提案手法の有効性を実証し,高い正確度を維持しつつ,4%の精度向上と約8%のmauve指標のフルーエンシー向上を含む,chatgptの引用度とフルエンシー指標の大幅な改善を示した。

Large language models (LLMs) have emerged as versatile tools in various daily applications. However, they are fraught with issues that undermine their utility and trustworthiness. These include the incorporation of erroneous references (citation), the generation of hallucinated information (correctness), and the inclusion of superfluous or omission of crucial details (fluency). To ameliorate these concerns, this study makes several key contributions. First, we build a dataset to train a critic model capable of evaluating the citation, correctness, and fluency of responses generated by LLMs in QA systems. Second, we propose an automated feedback mechanism that leverages the critic model to offer real-time feedback on heterogeneous aspects of generated text. Third, we introduce a feedback learning loop that uses this critic model to iteratively improve the performance of the LLM responsible for response generation. Experimental results demonstrate the efficacy of our approach, showing substantial improvements in citation and fluency metrics for ChatGPT, including a 4% precision increase in citation and an approximately 8% enhancement in the MAUVE metric for fluency, while maintaining high levels of correctness.
翻訳日:2023-09-13 12:01:05 公開日:2023-09-08
# 病理組織学的癌検出のためのハイブリッド古典量子深層学習モデルの敵対的攻撃

Adversarial attacks on hybrid classical-quantum Deep Learning models for Histopathological Cancer Detection ( http://arxiv.org/abs/2309.06377v1 )

ライセンス: Link先を確認
Biswaraj Baral, Reek Majumdar, Bhavika Bhalgamiya, and Taposh Dutta Roy(参考訳) 病理組織学的癌検出における量子機械学習の有効な応用について述べる。 この研究は、古典量子深層学習モデルの2つの主要な応用を強調している。 最初の応用は、量子伝達学習戦略を用いた病理組織学的癌検出のための分類モデルの構築である。 第2のアプリケーションは、様々な敵攻撃に対するこのモデルの性能をテストすることである。 単一転送学習モデルを用いるのではなく、複数の転送学習モデル、特にresnet18、vgg-16、inception-v3、alexnetを特徴抽出器としてテストし、いくつかの量子回路ベースの変分量子回路(vqc)と高表現性で統合する。 その結果, 古典モデルとハイブリッド古典量子トランスファー学習モデルの比較分析を行い, 逆行性攻撃による病理組織学的癌検出について検討した。 ペニレーンのデフォルト量子シミュレータを用いて,古典モデルと古典量子モデルのハイブリッドモデルを比較した。 また,いくつかの逆行性攻撃による病理組織学的癌検出では,Hybrid Classical-Quantum (HCQ) モデルが従来の画像分類モデルよりも精度が高かった。

We present an effective application of quantum machine learning in histopathological cancer detection. The study here emphasizes two primary applications of hybrid classical-quantum Deep Learning models. The first application is to build a classification model for histopathological cancer detection using the quantum transfer learning strategy. The second application is to test the performance of this model for various adversarial attacks. Rather than using a single transfer learning model, the hybrid classical-quantum models are tested using multiple transfer learning models, especially ResNet18, VGG-16, Inception-v3, and AlexNet as feature extractors and integrate it with several quantum circuit-based variational quantum circuits (VQC) with high expressibility. As a result, we provide a comparative analysis of classical models and hybrid classical-quantum transfer learning models for histopathological cancer detection under several adversarial attacks. We compared the performance accuracy of the classical model with the hybrid classical-quantum model using pennylane default quantum simulator. We also observed that for histopathological cancer detection under several adversarial attacks, Hybrid Classical-Quantum (HCQ) models provided better accuracy than classical image classification models.
翻訳日:2023-09-13 11:59:29 公開日:2023-09-08
# 推薦生態系のモデリング:メカニズム設計・強化学習・生成モデルにおける研究課題

Modeling Recommender Ecosystems: Research Challenges at the Intersection of Mechanism Design, Reinforcement Learning and Generative Models ( http://arxiv.org/abs/2309.06375v1 )

ライセンス: Link先を確認
Craig Boutilier, Martin Mladenov, Guy Tennenholtz(参考訳) 現代のレコメンダシステムは、ユーザ、コンテンツプロバイダ、広告主、その他のアクタの振る舞いを結合する複雑なエコシステムの中心にある。 それにもかかわらず、レコメンダラー研究の大多数(そしてあらゆる輸入の最も実用的なレコメンダ)の焦点は、個々のユーザーになされたレコメンデーションのローカルで明快な最適化である。 これは、リコメンデーターがユーザーのために生成できる長期的なユーティリティーにかなりのコストがかかる。 システム内のすべてのアクターのインセンティブと行動、そしてレコメンダのポリシーによって引き起こされる相互作用を明示的にモデル化することは、システムがこれらのアクターにもたらす価値を最大化し、全体のエコシステム「健康」を改善するために必要である、と我々は主張する。 Doing so requires: optimization over long horizons using techniques such as reinforcement learning; making inevitable tradeoffs in the utility that can be generated for different actors using the methods of social choice; reducing information asymmetry, while accounting for incentives and strategic behavior, using the tools of mechanism design; better modeling of both user and item-provider behaviors by incorporating notions from behavioral economics and psychology; and exploiting recent advances in generative and foundation models to make these mechanisms interpretable and actionable. 我々は、これらの要素を包含する概念的枠組みを提案し、これらの異なる分野の交点に現れる多くの研究課題を明確化する。

Modern recommender systems lie at the heart of complex ecosystems that couple the behavior of users, content providers, advertisers, and other actors. Despite this, the focus of the majority of recommender research -- and most practical recommenders of any import -- is on the local, myopic optimization of the recommendations made to individual users. This comes at a significant cost to the long-term utility that recommenders could generate for its users. We argue that explicitly modeling the incentives and behaviors of all actors in the system -- and the interactions among them induced by the recommender's policy -- is strictly necessary if one is to maximize the value the system brings to these actors and improve overall ecosystem "health". Doing so requires: optimization over long horizons using techniques such as reinforcement learning; making inevitable tradeoffs in the utility that can be generated for different actors using the methods of social choice; reducing information asymmetry, while accounting for incentives and strategic behavior, using the tools of mechanism design; better modeling of both user and item-provider behaviors by incorporating notions from behavioral economics and psychology; and exploiting recent advances in generative and foundation models to make these mechanisms interpretable and actionable. We propose a conceptual framework that encompasses these elements, and articulate a number of research challenges that emerge at the intersection of these different disciplines.
翻訳日:2023-09-13 11:59:07 公開日:2023-09-08
# 有毒ウサギの穴を壊す:palm 2ガードレールの調査

Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails ( http://arxiv.org/abs/2309.06415v1 )

ライセンス: Link先を確認
Adel Khorramrouz and Sujan Dutta and Arka Dutta and Ashiqur R. KhudaBukhsh(参考訳) 本稿では,新しい毒性ウサギ穴の枠組みを用いて,PALM2の安全性フィードバックのロバスト性評価を行う。 ステレオタイプから始めて、このフレームワークは PaLM 2 にステレオタイプよりも有害なコンテンツを生成するよう指示する。 その後のイテレーションごとに、PaLM 2の安全ガードレールが安全違反を起こすまで、PaLM 2に以前のイテレーションよりも有害なコンテンツを生成するよう指示している。 当社の実験では,PALM2の安全ガードレールは安全性が低いと評価されていない,非常に乱暴な反ユダヤ主義,イスラム嫌悪主義,人種差別主義,ホモホビア主義,異義主義的な内容がいくつか見出されている。

This paper conducts a robustness audit of the safety feedback of PaLM 2 through a novel toxicity rabbit hole framework introduced here. Starting with a stereotype, the framework instructs PaLM 2 to generate more toxic content than the stereotype. Every subsequent iteration it continues instructing PaLM 2 to generate more toxic content than the previous iteration until PaLM 2 safety guardrails throw a safety violation. Our experiments uncover highly disturbing antisemitic, Islamophobic, racist, homophobic, and misogynistic (to list a few) generated content that PaLM 2 safety guardrails do not evaluate as highly unsafe.
翻訳日:2023-09-13 11:50:58 公開日:2023-09-08
# 新型コロナウイルスについて何の質問があるのか? 質問分類データセット

What Are People Asking About COVID-19? A Question Classification Dataset ( http://arxiv.org/abs/2005.12522v3 )

ライセンス: Link先を確認
Jerry Wei, Chengyu Huang, Soroush Vosoughi, Jason Wei(参考訳) 我々は、13のソースから1,690件のCOVID-19に関する質問セットであるCOVID-Qを紹介し、この質問は15の質問カテゴリと207の質問クラスタに注釈付けします。 今回のデータセットで最も一般的な質問は、COVID-19の感染、予防、社会的影響についてであり、複数のソースに現れた質問の多くは、CDCやFDAなどの信頼できる組織のFAQのウェブサイトから回答されなかった。 データセットはhttps://github.com/JerryWeiAI/COVID-Q.comに公開しています。 質問を15のカテゴリに分類するために、BERTベースラインは、カテゴリ毎に20の例でトレーニングされた時点で58.1%の精度を記録し、質問クラスタリングタスクではBERT+トリプルト損失ベースラインが49.5%の精度を達成した。 COVID-Qは、応用システム開発や、モデル評価のためのドメイン固有のリソースとして、直接的な利用に役立つことを期待しています。

We present COVID-Q, a set of 1,690 questions about COVID-19 from 13 sources, which we annotate into 15 question categories and 207 question clusters. The most common questions in our dataset asked about transmission, prevention, and societal effects of COVID, and we found that many questions that appeared in multiple sources were not answered by any FAQ websites of reputable organizations such as the CDC and FDA. We post our dataset publicly at https://github.com/JerryWeiAI/COVID-Q. For classifying questions into 15 categories, a BERT baseline scored 58.1% accuracy when trained on 20 examples per category, and for a question clustering task, a BERT + triplet loss baseline achieved 49.5% accuracy. We hope COVID-Q can help either for direct use in developing applied systems or as a domain-specific resource for model evaluation.
翻訳日:2023-09-12 23:57:53 公開日:2023-09-08
# 時間差学習の制御論的解析

Control Theoretic Analysis of Temporal Difference Learning ( http://arxiv.org/abs/2112.14417v6 )

ライセンス: Link先を確認
Donghwan Lee and Do Wan Kim(参考訳) この原稿の目的は、時間差学習アルゴリズム(td)の制御論的解析を行うことである。 td-learningは強化学習の領域の基盤となり、マルコフ決定過程において与えられたポリシーに関連する価値関数を近似する手法を提供する。 TD-ラーニングの理論的理解に寄与したいくつかの既存の研究にもかかわらず、研究者がその統計的効率に関する具体的な保証を確立できたのは近年である。 本稿では,線形システム制御の分野から確立された概念を活用し,TD学習を解析するための有限時間制御理論フレームワークを提案する。 そこで本研究では,TD学習の力学と強化学習のより広い展望について,制御理論から導出した簡単な解析ツールを用いて考察する。

The goal of this manuscript is to conduct a controltheoretic analysis of Temporal Difference (TD) learning algorithms. TD-learning serves as a cornerstone in the realm of reinforcement learning, offering a methodology for approximating the value function associated with a given policy in a Markov Decision Process. Despite several existing works that have contributed to the theoretical understanding of TD-learning, it is only in recent years that researchers have been able to establish concrete guarantees on its statistical efficiency. In this paper, we introduce a finite-time, control-theoretic framework for analyzing TD-learning, leveraging established concepts from the field of linear systems control. Consequently, this paper provides additional insights into the mechanics of TD learning and the broader landscape of reinforcement learning, all while employing straightforward analytical tools derived from control theory.
翻訳日:2023-09-12 23:41:20 公開日:2023-09-08
# 一般化カーネル正規化最小正方形

Generalized Kernel Regularized Least Squares ( http://arxiv.org/abs/2209.14355v4 )

ライセンス: Link先を確認
Qing Chang, Max Goplerud(参考訳) Kernel Regularized Least Squares (KRLS) は、変数間の複雑な関係を持つモデルを柔軟に推定する一般的な方法である。 しかし、多くの研究者にとって有用性には2つの理由がある。 第一に、既存のアプローチは非フレキシブルであり、KRLSをランダム効果、非正規化固定効果、非ガウス結果などの理論的な動機付けされた拡張と組み合わせることができない。 第二に、控えめな大きさのデータセットでは、推定は非常に計算集約的です。 本稿では、一般化KRLS(gKRLS)を導入することにより、両方の問題に対処する。 KRLSを階層モデルとして再構成することで、ランダム効果、スプライン、非正規化固定効果とともにKRLSを使用できるような、容易に推論およびモジュラーモデルの構築が可能になる。 また,予測品質の制限を伴いながら,推定を劇的に高速化するためにランダムスケッチを実装した。 我々は、gKRLSが1分以内で数万の観測結果を持つデータセットに適合できることを実証した。 さらに、モデルに何十回も適合する必要のある最先端技術(メタラーナーなど)を素早く推定することができる。

Kernel Regularized Least Squares (KRLS) is a popular method for flexibly estimating models that may have complex relationships between variables. However, its usefulness to many researchers is limited for two reasons. First, existing approaches are inflexible and do not allow KRLS to be combined with theoretically-motivated extensions such as random effects, unregularized fixed effects, or non-Gaussian outcomes. Second, estimation is extremely computationally intensive for even modestly sized datasets. Our paper addresses both concerns by introducing generalized KRLS (gKRLS). We note that KRLS can be re-formulated as a hierarchical model thereby allowing easy inference and modular model construction where KRLS can be used alongside random effects, splines, and unregularized fixed effects. Computationally, we also implement random sketching to dramatically accelerate estimation while incurring a limited penalty in estimation quality. We demonstrate that gKRLS can be fit on datasets with tens of thousands of observations in under one minute. Further, state-of-the-art techniques that require fitting the model over a dozen times (e.g. meta-learners) can be estimated quickly.
翻訳日:2023-09-12 23:10:46 公開日:2023-09-08
# ニューラルインシシデント関数を持つ単一画像からの多眼的3次元頭部画像

Multi-NeuS: 3D Head Portraits from Single Image with Neural Implicit Functions ( http://arxiv.org/abs/2209.04436v2 )

ライセンス: Link先を確認
Egor Burkov, Ruslan Rakhimov, Aleksandr Safin, Evgeny Burnaev, Victor Lempitsky(参考訳) 人間の頭部のテクスチャ化された3次元メッシュを1つか2つの視点から再構築する手法を提案する。 このような少数ショットの再構成は制約が低いため、従来の3D再構成アルゴリズムに課せ難い事前知識が必要である。 この研究では、最近導入された3D表現 $\unicode{x2013}$ Neural implicit function $\unicode{x2013}$を頼りにしています。 すなわち、最先端のニューラルネットワーク暗黙関数であるNeuSを拡張して、クラスの複数のオブジェクト(私たちの場合、人間の頭)を同時に表現する。 基盤となるニューラルネットアーキテクチャは、これらのオブジェクト間の共通点を学び、目に見えないものに一般化するために設計されている。 私たちのモデルは、わずか100本のスマートフォンビデオで訓練され、スキャンされた3dデータを必要としない。 その後、新作のヘッドをマイナショットモードまたはワンショットモードにフィットさせ、良好な結果が得られる。

We present an approach for the reconstruction of textured 3D meshes of human heads from one or few views. Since such few-shot reconstruction is underconstrained, it requires prior knowledge which is hard to impose on traditional 3D reconstruction algorithms. In this work, we rely on the recently introduced 3D representation $\unicode{x2013}$ neural implicit functions $\unicode{x2013}$ which, being based on neural networks, allows to naturally learn priors about human heads from data, and is directly convertible to textured mesh. Namely, we extend NeuS, a state-of-the-art neural implicit function formulation, to represent multiple objects of a class (human heads in our case) simultaneously. The underlying neural net architecture is designed to learn the commonalities among these objects and to generalize to unseen ones. Our model is trained on just a hundred smartphone videos and does not require any scanned 3D data. Afterwards, the model can fit novel heads in the few-shot or one-shot modes with good results.
翻訳日:2023-09-12 23:09:42 公開日:2023-09-08
# PopArt: 効率的なスパース回帰と最適スパース線形帯域の実験的設計

PopArt: Efficient Sparse Regression and Experimental Design for Optimal Sparse Linear Bandits ( http://arxiv.org/abs/2210.15345v2 )

ライセンス: Link先を確認
Kyoungseok Jang, Chicheng Zhang, Kwang-Sung Jun(参考訳) 疎線形帯域では、学習エージェントが順次アクションを選択し、報酬フィードバックを受け取り、報酬関数はアクションの共変量の数座標に線形に依存する。 これは多くの現実世界のシーケンシャルな意思決定問題に適用できる。 本稿では,多くの問題に対するlasso(tibshirani, 1996)と比較して,より厳密な$\ell_1$リカバリ保証を享受するpopartと呼ばれる簡易かつ計算効率のよいスパース線形推定法を提案する。 我々の境界は自然に凸であり、計算的に解ける実験的な設計基準を動機付けている。 新たな推定法と設計基準に基づき, 与えられたアクションセットの幾何について, 芸術的状態(Hao et al., 2020)の残酷な上界の改善を享受する, 疎線形バンディットアルゴリズムを導出する。 最後に, 前処理における上下境界のギャップを埋めるデータポーア方式において, 疎線形包帯に対して, 一致した下界を証明した。

In sparse linear bandits, a learning agent sequentially selects an action and receive reward feedback, and the reward function depends linearly on a few coordinates of the covariates of the actions. This has applications in many real-world sequential decision making problems. In this paper, we propose a simple and computationally efficient sparse linear estimation method called PopArt that enjoys a tighter $\ell_1$ recovery guarantee compared to Lasso (Tibshirani, 1996) in many problems. Our bound naturally motivates an experimental design criterion that is convex and thus computationally efficient to solve. Based on our novel estimator and design criterion, we derive sparse linear bandit algorithms that enjoy improved regret upper bounds upon the state of the art (Hao et al., 2020), especially w.r.t. the geometry of the given action set. Finally, we prove a matching lower bound for sparse linear bandits in the data-poor regime, which closes the gap between upper and lower bounds in prior work.
翻訳日:2023-09-12 23:00:40 公開日:2023-09-08
# 潜時列としての言語:半教師付きパラフレーズ生成のための深潜時変数モデル

Language as a Latent Sequence: deep latent variable models for semi-supervised paraphrase generation ( http://arxiv.org/abs/2301.02275v2 )

ライセンス: Link先を確認
Jialin Yu, Alexandra I. Cristea, Anoushka Harit, Zhongtian Sun, Olanrewaju Tahir Aduragba, Lei Shi, Noura Al Moubayed(参考訳) 本稿では,半教師付きparaphrase生成のための深い潜在変数モデルについて検討し,未ラベルデータに対する目標ペアの欠如を潜在型paraphraseシーケンスとしてモデル化する。 本稿では,観測されたテキストに対して潜在シーケンス推論を行う可変シーケンス自動エンコーディング再構成(vsar)という,新しい教師なしモデルを提案する。 また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。 VSARとDDL(DDL+VSAR)を組み合わせることで、半教師付き学習を行うことができる。 それでも、結合モデルはコールドスタートの問題に苦しんでいる。 この問題をさらに解決するために,重量初期化ソリューションを改良し,知識強化学習(krl)と呼ばれる新しい2段階学習方式を提案する。 実験結果から,コンプリートデータにおける最先端の教師付きベースラインに対して,コンプリートモデルが競合性能をもたらすことが示唆された。 さらに、ラベル付きペアのほんの一部しか利用できないシナリオでは、我々の結合モデルは、強い教師付きモデルベースライン(ddl)をかなりのマージン(p <.05; wilcoxon test)で一貫して上回っています。 私たちのコードは"https://github.com/jialin-yu/latent-sequence-paraphrase"で公開されています。

This paper explores deep latent variable models for semi-supervised paraphrase generation, where the missing target pair for unlabelled data is modelled as a latent paraphrase sequence. We present a novel unsupervised model named variational sequence auto-encoding reconstruction (VSAR), which performs latent sequence inference given an observed text. To leverage information from text pairs, we additionally introduce a novel supervised model we call dual directional learning (DDL), which is designed to integrate with our proposed VSAR model. Combining VSAR with DDL (DDL+VSAR) enables us to conduct semi-supervised learning. Still, the combined model suffers from a cold-start problem. To further combat this issue, we propose an improved weight initialisation solution, leading to a novel two-stage training scheme we call knowledge-reinforced-learning (KRL). Our empirical evaluations suggest that the combined model yields competitive performance against the state-of-the-art supervised baselines on complete data. Furthermore, in scenarios where only a fraction of the labelled pairs are available, our combined model consistently outperforms the strong supervised model baseline (DDL) by a significant margin (p <.05; Wilcoxon test). Our code is publicly available at "https://github.com/jialin-yu/latent-sequence-paraphrase".
翻訳日:2023-09-12 22:43:07 公開日:2023-09-08
# PECAN: バックドア攻撃に対する決定論的認証

PECAN: A Deterministic Certified Defense Against Backdoor Attacks ( http://arxiv.org/abs/2301.11824v2 )

ライセンス: Link先を確認
Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni(参考訳) ニューラルネットワークは、攻撃者がトレーニングセットを悪意を持って毒殺し、テスト入力にトリガーを挿入して被害者モデルの予測を変更するバックドア中毒攻撃に対して脆弱である。 既存のバックドア攻撃の防御は、正式な保証を提供しないか、コスト対計算と非効率な確率的保証を提供する。 PECANは,バックドア攻撃に対する効果的かつ認証されたアプローチである。 pecanの鍵となる洞察は、データを分離した分割でトレーニングされた一連のニューラルネットワークに、市販のテスト時間回避認証技術を適用することだ。 PECANを画像分類とマルウェア検出データセットで評価する。 以上の結果から,PECANは,(1)防衛力と効率の両面で最先端のバックドアディフェンスを著しく上回り,(2)実際のバックドアアタックでは,文献からのベースラインの範囲と比較して,桁違いに攻撃成功率を低下させることができることがわかった。

Neural networks are vulnerable to backdoor poisoning attacks, where the attackers maliciously poison the training set and insert triggers into the test input to change the prediction of the victim model. Existing defenses for backdoor attacks either provide no formal guarantees or come with expensive-to-compute and ineffective probabilistic guarantees. We present PECAN, an efficient and certified approach for defending against backdoor attacks. The key insight powering PECAN is to apply off-the-shelf test-time evasion certification techniques on a set of neural networks trained on disjoint partitions of the data. We evaluate PECAN on image classification and malware detection datasets. Our results demonstrate that PECAN can (1) significantly outperform the state-of-the-art certified backdoor defense, both in defense strength and efficiency, and (2) on real back-door attacks, PECAN can reduce attack success rate by order of magnitude when compared to a range of baselines from the literature.
翻訳日:2023-09-12 22:32:06 公開日:2023-09-08
# 高次元変分推論のための射影積分更新

Projective Integral Updates for High-Dimensional Variational Inference ( http://arxiv.org/abs/2301.08374v2 )

ライセンス: Link先を確認
Jed A. Duersch(参考訳) 変分推論(英: variational inference)は、ベイズ推論の近似フレームワークであり、予測の量化の不確実性を改善するために、完全な後方に立つパラメータに対する単純な分布を最適化する。 トレーニングデータに一貫性のあるモデルのバリエーションをキャプチャすることで、パラメータの感度を下げることで、より堅牢な予測が可能になる。 本研究は,任意の対数密度を与えられた基底から関数の線形結合として表現できる場合に適用可能な変分推論のための不動点最適化を導入する。 そのような場合、オプティマイザは射影積分更新の固定点となる。 基底が各パラメータの単変分数にまたがるとき、実現可能な密度はガウスであり、射影積分の更新によって準ニュートン変分ベイズ(QNVB)が得られる。 その他のベースやアップデートも可能だ。 これらの更新は高次元積分を必要とするため、まず平均場分布に対する効率的な準ランダム二次列を提案する。 列の各イテレートは、2つの評価点を含み、すべての不定二次を正しく積分し、平均場因子が対称であればすべての不定立方体を含む。 より重要なことに、短い部分列上の平均的な結果は、多変量二次のより広い空間上の周期的完全性を達成する。 対応する変分更新は、すべての多変量基底関数の半分以上の誤差項を除去するために、標準(二階ではない)のバックプロパゲーションによる4つの損失評価を必要とする。 この積分法は、他の文脈で有用な確率的ブロックされた平均場二次体を最初に提案することによって動機付けられる。 QNVBのPyTorch実装は、競合する方法よりも訓練中のモデルの不確実性をよりよく制御できる。 実験は、複数の学習問題やアーキテクチャに対して優れた一般化性を示す。

Variational inference is an approximation framework for Bayesian inference that seeks to improve quantified uncertainty in predictions by optimizing a simplified distribution over parameters to stand in for the full posterior. Capturing model variations that remain consistent with training data enables more robust predictions by reducing parameter sensitivity. This work introduces a fixed-point optimization for variational inference that is applicable when every feasible log density can be expressed as a linear combination of functions from a given basis. In such cases, the optimizer becomes a fixed-point of projective integral updates. When the basis spans univariate quadratics in each parameter, feasible densities are Gaussian and the projective integral updates yield quasi-Newton variational Bayes (QNVB). Other bases and updates are also possible. As these updates require high-dimensional integration, this work first proposes an efficient quasirandom quadrature sequence for mean-field distributions. Each iterate of the sequence contains two evaluation points that combine to correctly integrate all univariate quadratics and, if the mean-field factors are symmetric, all univariate cubics. More importantly, averaging results over short subsequences achieves periodic exactness on a much larger space of multivariate quadratics. The corresponding variational updates require 4 loss evaluations with standard (not second-order) backpropagation to eliminate error terms from over half of all multivariate quadratic basis functions. This integration technique is motivated by first proposing stochastic blocked mean-field quadratures, which may be useful in other contexts. A PyTorch implementation of QNVB allows for better control over model uncertainty during training than competing methods. Experiments demonstrate superior generalizability for multiple learning problems and architectures.
翻訳日:2023-09-12 22:30:50 公開日:2023-09-08
# 確率バッチを用いた医用画像分割のためのアクティブラーニング

Active learning for medical image segmentation with stochastic batches ( http://arxiv.org/abs/2301.07670v2 )

ライセンス: Link先を確認
M\'elanie Gaillochet, Christian Desrosiers, and Herv\'e Lombaert(参考訳) 学習ベースのアルゴリズムのパフォーマンスは、トレーニングに使用するラベル付きデータ量によって向上する。 しかし,手動のアノテートは,専門知識の不足や集中的な手作業の必要から,医用画像のセグメンテーション作業では特に困難である。 手動ラベリングを減らすために、アクティブラーニング(al)は、ラベルなしのセットから最も有益なサンプルをターゲットとし、ラベル付きトレーニングセットに注釈と追加を行う。 一方,能動学習は医用画像のセグメンテーションにおいて非常に望ましい課題であるにもかかわらず,ほとんどの能動学習は自然画像の分類や限定的なセグメンテーションに焦点を当ててきた。 一方、不確実性に基づくALアプローチは、最適化されたバッチクエリ戦略を提供するが、多様性に基づく手法は計算コストが高い傾向にある。 ランダムサンプリングは, 学習条件やサンプリング条件の相違により, 性能が著しく向上することが証明された。 本研究の目的は,ランダムサンプリングによって提供される多様性と速度を生かして,医用画像のセグメンテーションにおける不確実性に基づくal法の選択を改善することである。 より具体的には、alにおけるサンプリング中の確率的バッチ(sb)の原使用を通して、サンプルの代わりにバッチのレベルでの不確実性を計算することを提案する。 確率的バッチクエリは、あらゆる不確実性ベースのメトリック上で使用できる、シンプルで効果的なアドオンである。 2つの医用画像セグメンテーションデータセットに関する広範な実験により,従来の不確実性に基づくサンプリング手法を一貫して改善した。 そこで本手法は医用画像セグメンテーションの強力なベースラインとして機能する。 コードはhttps://github.com/Minimel/StochasticBatchAL.gitで入手できる。

The performance of learning-based algorithms improves with the amount of labelled data used for training. Yet, manually annotating data is particularly difficult for medical image segmentation tasks because of the limited expert availability and intensive manual effort required. To reduce manual labelling, active learning (AL) targets the most informative samples from the unlabelled set to annotate and add to the labelled training set. On the one hand, most active learning works have focused on the classification or limited segmentation of natural images, despite active learning being highly desirable in the difficult task of medical image segmentation. On the other hand, uncertainty-based AL approaches notoriously offer sub-optimal batch-query strategies, while diversity-based methods tend to be computationally expensive. Over and above methodological hurdles, random sampling has proven an extremely difficult baseline to outperform when varying learning and sampling conditions. This work aims to take advantage of the diversity and speed offered by random sampling to improve the selection of uncertainty-based AL methods for segmenting medical images. More specifically, we propose to compute uncertainty at the level of batches instead of samples through an original use of stochastic batches (SB) during sampling in AL. Stochastic batch querying is a simple and effective add-on that can be used on top of any uncertainty-based metric. Extensive experiments on two medical image segmentation datasets show that our strategy consistently improves conventional uncertainty-based sampling methods. Our method can hence act as a strong baseline for medical image segmentation. The code is available on: https://github.com/Minimel/StochasticBatchAL.git.
翻訳日:2023-09-12 22:29:57 公開日:2023-09-08
# 相対論的デジタルツイン:IoTを未来に持ち込む

Relativistic Digital Twin: Bringing the IoT to the Future ( http://arxiv.org/abs/2301.07390v2 )

ライセンス: Link先を確認
Luca Sciullo, Alberto De Marchi, Angelo Trotta, Federico Montori, Luciano Bononi, Marco Di Felice(参考訳) 複雑なIoTエコシステムは、予測分析を実行し、何のシナリオをシミュレートするために、物理資産のDigital Twins(DT)の使用を必要とすることが多い。 DTはIoTデバイスを複製し、行動の変化に時間をかけて適応することができる。 しかし、IoTのDTは一般的に、異なるシナリオにシームレスに適応することが可能になるため、特定のユースケースに合わせて調整される。 さらに、IoTの断片化は、複数のデータフォーマットとIoTネットワークプロトコルの使用を特徴とする異種シナリオでのDTのデプロイ方法に、さらなる課題をもたらす。 本稿では、IoTエンティティの汎用DTを自動的に生成し、実際のオブジェクトを常に観察することで、時間とともに行動モデルを調整するRelativistic Digital Twin(RDT)フレームワークを提案する。 このフレームワークはWeb of Things(WoT)を通じたオブジェクト表現に依存しており、各IoTデバイスとDTに標準化されたインターフェースを提供する。 この目的のために、W3C WoT標準を拡張し、行動モデルの概念を包含し、新しい語彙を通してThing Description (TD)で定義した。 最後に, 室内温度の予測能力を備えたスマートホームシナリオのDTと, 屋外シナリオにおける軌道の予測能力を備えた実世界のドローンのDTの2つの相反する使用事例について, その正しさと学習性能を評価するために, RDTフレームワークを評価した。

Complex IoT ecosystems often require the usage of Digital Twins (DTs) of their physical assets in order to perform predictive analytics and simulate what-if scenarios. DTs are able to replicate IoT devices and adapt over time to their behavioral changes. However, DTs in IoT are typically tailored to a specific use case, without the possibility to seamlessly adapt to different scenarios. Further, the fragmentation of IoT poses additional challenges on how to deploy DTs in heterogeneous scenarios characterized by the usage of multiple data formats and IoT network protocols. In this paper, we propose the Relativistic Digital Twin (RDT) framework, through which we automatically generate general-purpose DTs of IoT entities and tune their behavioral models over time by constantly observing their real counterparts. The framework relies on the object representation via the Web of Things (WoT), to offer a standardized interface to each of the IoT devices as well as to their DTs. To this purpose, we extended the W3C WoT standard in order to encompass the concept of behavioral model and define it in the Thing Description (TD) through a new vocabulary. Finally, we evaluated the RDT framework over two disjoint use cases to assess its correctness and learning performance, i.e., the DT of a simulated smart home scenario with the capability of forecasting the indoor temperature, and the DT of a real-world drone with the capability of forecasting its trajectory in an outdoor scenario.
翻訳日:2023-09-12 22:29:31 公開日:2023-09-08
# 変分ベイズ系統パラメータ推定における事前密度学習

Prior Density Learning in Variational Bayesian Phylogenetic Parameters Inference ( http://arxiv.org/abs/2302.02522v3 )

ライセンス: Link先を確認
Amine M. Remita, Golrokh Vitae and Abdoulaye Banir\'e Diallo(参考訳) 変分推論の進歩はベイズ推定問題に有望な経路を与えている。 これらの進歩により、変異型系統推論はマルコフ連鎖モンテカルロ法に代わる手法となり、系統的後方を近似する。 しかし、そのような手法の主な欠点の1つは、現在のデータ分布から離れた場合、後部近似に偏りが生じるような、固定分布による事前のモデル化である。 本稿では,勾配に基づく手法とニューラルネットワークに基づくパラメータ化を用いて,そのパラメータを学習することにより,事前密度の剛性を緩和する手法と実装フレームワークを提案する。 本手法をマルコフ連鎖置換モデルを用いて分岐長と進化パラメータ推定に適用した。 シミュレーションの結果,この手法は分岐長と進化モデルパラメータの推定に有効であることがわかった。 また、フレキシブルな事前モデルが事前定義された事前モデルよりも優れた結果をもたらすことも示している。 最後に,ニューラルネットワークの利用により,事前密度パラメータの最適化の初期化が向上することを示す。

The advances in variational inference are providing promising paths in Bayesian estimation problems. These advances make variational phylogenetic inference an alternative approach to Markov Chain Monte Carlo methods for approximating the phylogenetic posterior. However, one of the main drawbacks of such approaches is modelling the prior through fixed distributions, which could bias the posterior approximation if they are distant from the current data distribution. In this paper, we propose an approach and an implementation framework to relax the rigidity of the prior densities by learning their parameters using a gradient-based method and a neural network-based parameterization. We applied this approach for branch lengths and evolutionary parameters estimation under several Markov chain substitution models. The results of performed simulations show that the approach is powerful in estimating branch lengths and evolutionary model parameters. They also show that a flexible prior model could provide better results than a predefined prior model. Finally, the results highlight that using neural networks improves the initialization of the optimization of the prior density parameters.
翻訳日:2023-09-12 22:20:51 公開日:2023-09-08
# 分散マルチエージェントナビゲーションのためのオンライン制御バリア機能

Online Control Barrier Functions for Decentralized Multi-Agent Navigation ( http://arxiv.org/abs/2303.04313v2 )

ライセンス: Link先を確認
Zhan Gao and Guang Yang and Amanda Prorok(参考訳) 制御バリア関数(CBF)は、連続ドメインにおける安全なマルチエージェントナビゲーションを可能にする。 しかし、結果として生じるナビゲーション性能は、下層のハイパーパラメータに非常に敏感である。 伝統的なアプローチでは、固定されたCBF(パラメータがアプリロリにチューニングされる)を考えるため、通常、散らばったり非常にダイナミックな環境ではうまく機能しない:保守的なパラメータ値は非効率なエージェントの軌跡、あるいは目標位置に到達するのに失敗する。 これらの課題を克服するため,本論文では,ハイパーパラメータをリアルタイムに調整するオンラインCBFを提案する。 CBFとナビゲーション性能の明確な関係はモデル化が難しいため、強化学習を利用してCBFチューニングポリシーをモデル無しで学習する。 グラフニューラルネットワーク(GNN)でポリシーをパラメータ化するため、パラメータ値を局所的に調整し、エージェント間の保守的かつ攻撃的な行動の程度を変える分散エージェントコントローラを合成することができる。 シミュレーションと実世界の実験が示すのは (i)オンラインCBFは、固定CBFでは不可能なナビゲーションシナリオを解くことができる。 (ii)他のエージェントや環境の変化に適応することで、ナビゲーション性能を向上させる。

Control barrier functions (CBFs) enable guaranteed safe multi-agent navigation in the continuous domain. The resulting navigation performance, however, is highly sensitive to the underlying hyperparameters. Traditional approaches consider fixed CBFs (where parameters are tuned apriori), and hence, typically do not perform well in cluttered and highly dynamic environments: conservative parameter values can lead to inefficient agent trajectories, or even failure to reach goal positions, whereas aggressive parameter values can lead to infeasible controls. To overcome these issues, in this paper, we propose online CBFs, whereby hyperparameters are tuned in real-time, as a function of what agents perceive in their immediate neighborhood. Since the explicit relationship between CBFs and navigation performance is hard to model, we leverage reinforcement learning to learn CBF-tuning policies in a model-free manner. Because we parameterize the policies with graph neural networks (GNNs), we are able to synthesize decentralized agent controllers that adjust parameter values locally, varying the degree of conservative and aggressive behaviors across agents. Simulations as well as real-world experiments show that (i) online CBFs are capable of solving navigation scenarios that are infeasible for fixed CBFs, and (ii), that they improve navigation performance by adapting to other agents and changes in the environment.
翻訳日:2023-09-12 22:10:52 公開日:2023-09-08
# 強化学習を伴わない逆強化学習

Inverse Reinforcement Learning without Reinforcement Learning ( http://arxiv.org/abs/2303.14623v3 )

ライセンス: Link先を確認
Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu(参考訳) 逆強化学習(Inverse Reinforcement Learning、IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的とした、模倣学習のための強力なテクニックセットである。 残念なことに、従来のIRL法は計算の弱点に悩まされており、サブルーチンとしてハード強化学習(RL)問題を繰り返し解決する必要がある。 これは還元の観点から直観に反する:我々は、模倣学習の簡単な問題をrlのより難しい問題を反復的に解くまで削減した。 別の研究のスレッドは、強いポリシーが時間を費やす状態の分布のサイド情報へのアクセスは、RL問題を解く際のサンプルと計算の複雑さを劇的に減らすことを証明している。 本研究では,RLサブルーチンのグローバル探索成分を緩和し,理論上の指数的高速化を実現するために,専門家の状態分布を利用する,より情報に富んだ模倣学習の削減を初めて示す。 実際、継続的制御タスクの先行技術を大幅にスピードアップすることができることが分かりました。

Inverse Reinforcement Learning (IRL) is a powerful set of techniques for imitation learning that aims to learn a reward function that rationalizes expert demonstrations. Unfortunately, traditional IRL methods suffer from a computational weakness: they require repeatedly solving a hard reinforcement learning (RL) problem as a subroutine. This is counter-intuitive from the viewpoint of reductions: we have reduced the easier problem of imitation learning to repeatedly solving the harder problem of RL. Another thread of work has proved that access to the side-information of the distribution of states where a strong policy spends time can dramatically reduce the sample and computational complexities of solving an RL problem. In this work, we demonstrate for the first time a more informed imitation learning reduction where we utilize the state distribution of the expert to alleviate the global exploration component of the RL subroutine, providing an exponential speedup in theory. In practice, we find that we are able to significantly speed up the prior art on continuous control tasks.
翻訳日:2023-09-12 22:03:12 公開日:2023-09-08
# CC3D:合成3Dシーンのレイアウトコンディション生成

CC3D: Layout-Conditioned Generation of Compositional 3D Scenes ( http://arxiv.org/abs/2303.12074v2 )

ライセンス: Link先を確認
Sherwin Bahmani, Jeong Joon Park, Despoina Paschalidou, Xingguang Yan, Gordon Wetzstein, Leonidas Guibas, Andrea Tagliasacchi(参考訳) 本研究では,2次元意味シーンレイアウトを条件とした複雑な3次元シーンを合成する条件付き生成モデルcc3dを提案する。 多くの既存の3D GANと異なり、複数のオブジェクトで複雑なシーンを生成することに重点を置いており、3Dシーンの構成的性質をモデル化している。 より強力な幾何学的帰納バイアスを持つ新しい3次元場表現を3次元レイアウトベースで開発することにより、より制御可能な生成プロセスを実現するとともに、効率的かつ高品質な3D GANを開発した。 合成3D-FRONTと実世界のKITTI-360データセットについて評価した結果, 従来よりも視覚的, 幾何学的品質が向上した場面が得られた。

In this work, we introduce CC3D, a conditional generative model that synthesizes complex 3D scenes conditioned on 2D semantic scene layouts, trained using single-view images. Different from most existing 3D GANs that limit their applicability to aligned single objects, we focus on generating complex scenes with multiple objects, by modeling the compositional nature of 3D scenes. By devising a 2D layout-based approach for 3D synthesis and implementing a new 3D field representation with a stronger geometric inductive bias, we have created a 3D GAN that is both efficient and of high quality, while allowing for a more controllable generation process. Our evaluations on synthetic 3D-FRONT and real-world KITTI-360 datasets demonstrate that our model generates scenes of improved visual and geometric quality in comparison to previous works.
翻訳日:2023-09-12 22:02:08 公開日:2023-09-08
# SURFSUP:新しい表面の流体シミュレーションを学習する

SURFSUP: Learning Fluid Simulation for Novel Surfaces ( http://arxiv.org/abs/2304.06197v2 )

ライセンス: Link先を確認
Arjun Mani, Ishaan Preetam Chandratreya, Elliot Creager, Carl Vondrick, Richard Zemel(参考訳) 複雑なシーンにおける流体の力学のモデリングは、設計、グラフィックス、ロボット工学の応用に不可欠である。 学習に基づく手法は高速で微分可能な流体シミュレータを提供するが、ほとんどの先行研究では、訓練中に見えない真に新しい表面と流体がどのように相互作用するかを正確にモデル化できない。 我々は,メッシュや粒子の明示的な表現ではなく,符号付き距離関数(SDF)を用いて暗黙的にオブジェクトを表現するフレームワークであるSURFSUPを紹介する。 この連続的な幾何学表現により、流体-物体間相互作用のより正確なシミュレーションが可能となり、同時に計算の効率も向上する。 さらに、単純な形状のプリミティブで訓練されたSURFSUPは、複雑な現実世界のシーンやオブジェクトに対してさえ、かなりアウトオブディストリビューションを一般化する。 最後に, 流体の流れを制御できるシンプルな物体を設計するために, モデルに逆転できることを示す。

Modeling the mechanics of fluid in complex scenes is vital to applications in design, graphics, and robotics. Learning-based methods provide fast and differentiable fluid simulators, however most prior work is unable to accurately model how fluids interact with genuinely novel surfaces not seen during training. We introduce SURFSUP, a framework that represents objects implicitly using signed distance functions (SDFs), rather than an explicit representation of meshes or particles. This continuous representation of geometry enables more accurate simulation of fluid-object interactions over long time periods while simultaneously making computation more efficient. Moreover, SURFSUP trained on simple shape primitives generalizes considerably out-of-distribution, even to complex real-world scenes and objects. Finally, we show we can invert our model to design simple objects to manipulate fluid flow.
翻訳日:2023-09-12 21:49:57 公開日:2023-09-08
# 文脈対応チャート要素検出

Context-Aware Chart Element Detection ( http://arxiv.org/abs/2305.04151v2 )

ライセンス: Link先を確認
Pengyu Yan, Saleem Ahmed, David Doermann(参考訳) チャートデータ抽出の前提条件として、チャートの基本要素の正確な検出が不可欠で必須である。 一般的な画像領域におけるオブジェクト検出とは対照的に、チャートは高度に構造化されたデータ視覚化フォーマットであるため、チャート要素検出はコンテキスト情報に大きく依存する。 そこで本稿では,視覚的コンテキスト拡張と位置的コンテキストエンコーディングからなるローカル・グローバルコンテキスト融合モジュールをCascade R-CNNフレームワークに統合することで,コンテキスト認識チャート要素検出のための新しい手法CACHEDを提案する。 本手法のより広い適用性を実現するため,既存のチャート要素の分類を洗練し,プロット要素を除いたチャート基本要素の18クラスを標準化した。 チャート要素を更新したCACHED法は,実験で最先端の性能を実現し,チャート要素検出におけるコンテキストの重要性を強調した。 提案手法をバープロット検出タスクに拡張し, PMCテストデータセット上で最良の結果を得る。

As a prerequisite of chart data extraction, the accurate detection of chart basic elements is essential and mandatory. In contrast to object detection in the general image domain, chart element detection relies heavily on context information as charts are highly structured data visualization formats. To address this, we propose a novel method CACHED, which stands for Context-Aware Chart Element Detection, by integrating a local-global context fusion module consisting of visual context enhancement and positional context encoding with the Cascade R-CNN framework. To improve the generalization of our method for broader applicability, we refine the existing chart element categorization and standardized 18 classes for chart basic elements, excluding plot elements. Our CACHED method, with the updated category of chart elements, achieves state-of-the-art performance in our experiments, underscoring the importance of context in chart element detection. Extending our method to the bar plot detection task, we obtain the best result on the PMC test dataset.
翻訳日:2023-09-12 21:42:12 公開日:2023-09-08
# 暗黒におけるインスタンスセグメンテーション

Instance Segmentation in the Dark ( http://arxiv.org/abs/2304.14298v2 )

ライセンス: Link先を確認
Linwei Chen, Ying Fu, Kaixuan Wei, Dezhi Zheng, Felix Heide(参考訳) 既存のインスタンスセグメンテーション技術は主に高可視性入力に適しているが、非常に低照度環境では性能が著しく低下する。 本稿では,暗黒領域におけるインスタンスセグメンテーションを深く検討し,低光度推論精度を大幅に向上させる手法をいくつか紹介する。 提案手法は,低照度画像のノイズがニューラルネットワークの特徴マップに高周波障害をもたらすことを観測し,性能を著しく低下させる。 この「フィーチャーノイズ」を抑えるために,適応重み付けされたダウンサンプリング層,スムーズな指向の畳み込みブロック,乱れ抑制学習に依存する新しい学習手法を提案する。 これらのコンポーネントは、ダウンサンプリングや畳み込み操作時の特徴ノイズを効果的に低減し、モデルが外乱不変特徴を学習できるようにする。 さらに、高ビット深度raw画像は、通常のカメラsrgb出力よりも低照度でよりリッチなシーン情報を保存できるため、raw入力アルゴリズムの使用を支援する。 分析の結果,高ビット深度は低照度インスタンスセグメンテーションにおいて重要であることが示された。 注釈付き生データセットの不足を軽減するため、低照度生合成パイプラインを利用して現実的な低照度データを生成する。 さらに, この方向のさらなる研究を促進するために, 実世界の低照度インスタンスセグメンテーションデータセットを, インスタンスレベルのアノテーションを用いた2万組以上の低照度/通常照度画像から取得する。 注目すべきは、画像前処理がなければ、インスタンスセグメンテーションを非常に低い光(最先端の競合他社よりも4~\% AP)で満足できる性能を実現し、一方で、将来的な研究の新たな機会を開くことである。

Existing instance segmentation techniques are primarily tailored for high-visibility inputs, but their performance significantly deteriorates in extremely low-light environments. In this work, we take a deep look at instance segmentation in the dark and introduce several techniques that substantially boost the low-light inference accuracy. The proposed method is motivated by the observation that noise in low-light images introduces high-frequency disturbances to the feature maps of neural networks, thereby significantly degrading performance. To suppress this ``feature noise", we propose a novel learning method that relies on an adaptive weighted downsampling layer, a smooth-oriented convolutional block, and disturbance suppression learning. These components effectively reduce feature noise during downsampling and convolution operations, enabling the model to learn disturbance-invariant features. Furthermore, we discover that high-bit-depth RAW images can better preserve richer scene information in low-light conditions compared to typical camera sRGB outputs, thus supporting the use of RAW-input algorithms. Our analysis indicates that high bit-depth can be critical for low-light instance segmentation. To mitigate the scarcity of annotated RAW datasets, we leverage a low-light RAW synthetic pipeline to generate realistic low-light data. In addition, to facilitate further research in this direction, we capture a real-world low-light instance segmentation dataset comprising over two thousand paired low/normal-light images with instance-level pixel-wise annotations. Remarkably, without any image preprocessing, we achieve satisfactory performance on instance segmentation in very low light (4~\% AP higher than state-of-the-art competitors), meanwhile opening new opportunities for future research.
翻訳日:2023-09-12 21:41:35 公開日:2023-09-08
# ヌル状態を持つ無調和発振器の解法:ハミルトンブートストラップとダイソン・シュウィンガー方程式

Solving anharmonic oscillator with null states: Hamiltonian bootstrap and Dyson-Schwinger equations ( http://arxiv.org/abs/2305.15992v2 )

ライセンス: Link先を確認
Yongwei Guo, Wenliang Li(参考訳) 基本的な量子力学モデルとして、アンハーモニック発振器はブートストラップ法によって最近再訪されている。 効果的なアプローチは、エルミート理論における正則性制約を利用することである。 エルミート理論と非エルミート理論の両方に適用できる、ヌル状態条件に基づく別の道が存在する。 本研究では,小結合展開に基づくクォート発振器の解析ブートストラップ実験を行う。 ハミルトニアン形式論では、ディラックのラダー作用素のアンハーモニック一般化を得る。 さらに、シュロディンガー方程式は、非調和なラグ作用素によって生成されるヌル状態条件と解釈できる。 これは、ダイナミックスがnullnessの原則に組み込まれる明示的な例である。 ラグランジュ形式論において、ヌル状態の存在はダイソン・シュウィンガー方程式の不確定性を効果的に排除し、n$-point green 関数を体系的に決定できることを示した。

As basic quantum mechanical models, anharmonic oscillators are recently revisited by bootstrap methods. An effective approach is to make use of the positivity constraints in Hermitian theories. There exists an alternative avenue based on the null state condition, which applies to both Hermitian and non-Hermitian theories. In this work, we carry out an analytic bootstrap study of the quartic oscillator based on the small coupling expansion. In the Hamiltonian formalism, we obtain the anharmonic generalization of Dirac's ladder operators. Furthermore, the Schrodinger equation can be interpreted as a null state condition generated by an anharmonic ladder operator. This provides an explicit example in which dynamics is incorporated into the principle of nullness. In the Lagrangian formalism, we show that the existence of null states can effectively eliminate the indeterminacy of the Dyson-Schwinger equations and systematically determine $n$-point Green's functions.
翻訳日:2023-09-12 21:30:53 公開日:2023-09-08
# 概念中心変換器:共有グローバルワークスペース内のオブジェクト中心概念学習によるモデル解釈可能性の向上

Concept-Centric Transformers: Enhancing Model Interpretability through Object-Centric Concept Learning within a Shared Global Workspace ( http://arxiv.org/abs/2305.15775v2 )

ライセンス: Link先を確認
Jinyung Hong, Keun Hee Park, Theodore P. Pavlic(参考訳) AIモデルの「ブラックボックス」特性を説明するため、ポストホックや本質的に解釈可能なモデルなどの多くのアプローチが提案され、トレーニングされたモデルが予測に使用する人間の理解可能な特徴や概念を識別する実証可能な説明が提案されている。 しかし,計算モジュール間の通信や座標を効果的に行う解釈可能なモデルの構成は,あまり注目されていない。 最近提案された共有グローバルワークスペース理論により、分散モジュールのネットワークは、通信制約によってモジュール間の特殊化、構成性、同期が促進されるため、帯域幅制限のワーキングメモリと情報を共有できることを示した。 そこで,このような共有作業記憶を実現することで,本質的に解釈可能なモデルを構築し,解釈性と性能を向上させることを考える。 そこで本研究では,概念中心トランスフォーマを提案する。 一 入力特徴から意味概念を抽出するための対象中心型アーキテクチャ 二 学習概念と入力埋め込みの相互注意機構 三 人間のアナリストがモデルの分類推論の説明を直接評価できるようにするための標準分類及び追加説明損失 CIFAR100(スーパークラス)、CUB-200-2011(バード種)、ImageNetなど、さまざまなデータセットの分類タスクに関する既存の概念ベース手法に対して、我々のアプローチを検証し、これらのモデルが全ての問題において選択された方法よりも優れた分類精度を実現するとともに、より一貫した概念ベースの分類出力の説明を生成することを示す。

To explain "black-box" properties of AI models, many approaches, such as post hoc and intrinsically interpretable models, have been proposed to provide plausible explanations that identify human-understandable features/concepts that a trained model uses to make predictions, and attention mechanisms have been widely used to aid in model interpretability by visualizing that information. However, the problem of configuring an interpretable model that effectively communicates and coordinates among computational modules has received less attention. A recently proposed shared global workspace theory demonstrated that networks of distributed modules can benefit from sharing information with a bandwidth-limited working memory because the communication constraints encourage specialization, compositionality, and synchronization among the modules. Inspired by this, we consider how such shared working memories can be realized to build intrinsically interpretable models with better interpretability and performance. Toward this end, we propose Concept-Centric Transformers, a simple yet effective configuration of the shared global workspace for interpretability consisting of: i) an object-centric-based architecture for extracting semantic concepts from input features, ii) a cross-attention mechanism between the learned concept and input embeddings, and iii) standard classification and additional explanation losses to allow human analysts to directly assess an explanation for the model's classification reasoning. We test our approach against other existing concept-based methods on classification tasks for various datasets, including CIFAR100 (super-classes), CUB-200-2011 (bird species), and ImageNet, and we show that our model achieves better classification accuracy than all selected methods across all problems but also generates more consistent concept-based explanations of classification output.
翻訳日:2023-09-12 21:30:38 公開日:2023-09-08
# 後継・先駆的探究

Successor-Predecessor Intrinsic Exploration ( http://arxiv.org/abs/2305.15277v2 )

ライセンス: Link先を確認
Changmin Yu, Neil Burgess, Maneesh Sahani, Sam Gershman(参考訳) 探索は強化学習、特に外部報酬が希薄な環境では不可欠である。 ここでは,エージェントが自己生成した内在的な報酬によって外部の報酬を過度に増強する,内在的な報酬による探索に焦点を当てる。 内在的な報酬の研究には長い歴史があるが、既存の手法では、状態の将来の見通しに基づく内在的な報酬の構成に焦点をあて、遷移系列の振り返り構造に含まれる情報を無視している。 ここでは,局地的な情報ではなく,グローバルな情報に基づく効率的な探索を容易にするために,エージェントが振り返り情報を利用して構造認識による爆発行動を生成することを論じる。 本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。 本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。 また, 深層強化学習エージェントにSPIEを実装し, 既存のスパース・リワード・アタリゲームに比べて, 実験性能が向上することを示す。

Exploration is essential in reinforcement learning, particularly in environments where external rewards are sparse. Here we focus on exploration with intrinsic rewards, where the agent transiently augments the external rewards with self-generated intrinsic rewards. Although the study of intrinsic rewards has a long history, existing methods focus on composing the intrinsic reward based on measures of future prospects of states, ignoring the information contained in the retrospective structure of transition sequences. Here we argue that the agent can utilise retrospective information to generate explorative behaviour with structure-awareness, facilitating efficient exploration based on global instead of local information. We propose Successor-Predecessor Intrinsic Exploration (SPIE), an exploration algorithm based on a novel intrinsic reward combining prospective and retrospective information. We show that SPIE yields more efficient and ethologically plausible exploratory behaviour in environments with sparse rewards and bottleneck states than competing methods. We also implement SPIE in deep reinforcement learning agents, and show that the resulting agent achieves stronger empirical performance than existing methods on sparse-reward Atari games.
翻訳日:2023-09-12 21:30:07 公開日:2023-09-08
# 予測を個人化するアノテーションインプテーション:分布ダイナミクスとモデル予測に関する初期研究

Annotation Imputation to Individualize Predictions: Initial Studies on Distribution Dynamics and Model Predictions ( http://arxiv.org/abs/2305.15070v2 )

ライセンス: Link先を確認
London Lowmanstone, Ruyuan Wan, Risako Owan, Jaehyung Kim, Dongyeop Kang(参考訳) クラウドソーシングによるデータアノテートには時間と費用がかかる。 これらのコストのため、データセットの作成者は、データの小さなサブセットだけをアノテータにラベル付けすることが多い。 これにより、少数のアノテーションによってマークされた例でデータセットがスパースされる。 このプロセスの欠点は、アノテータが特定の例をラベル付けできなければ、それに対する彼らの見解が失われてしまうことだ。 これは、単一の正しいラベルが存在しない主観的なNLPデータセットに特に関係している。 そこで本研究では,すべての例に対する注釈者の意見を生成するためにインプテーション法を用いることを提案し,注釈者の視点を一切残さないデータセットを作成する。 次に、インプットされたデータセットのデータを使用してモデルをトレーニングし、プロンプトし、レスポンスと個々のアノテーションの分布を予測します。 その結果,計算方法の選択がソフトラベルの変化や分布に大きく影響していることが判明した。 命令は元のデータセットの予測にノイズをもたらすが、プロンプト、特に低応答レートアノテータのショットを強化する可能性を示している。 すべてのコードとデータを公開しました。

Annotating data via crowdsourcing is time-consuming and expensive. Due to these costs, dataset creators often have each annotator label only a small subset of the data. This leads to sparse datasets with examples that are marked by few annotators. The downside of this process is that if an annotator doesn't get to label a particular example, their perspective on it is missed. This is especially concerning for subjective NLP datasets where there is no single correct label: people may have different valid opinions. Thus, we propose using imputation methods to generate the opinions of all annotators for all examples, creating a dataset that does not leave out any annotator's view. We then train and prompt models, using data from the imputed dataset, to make predictions about the distribution of responses and individual annotations. In our analysis of the results, we found that the choice of imputation method significantly impacts soft label changes and distribution. While the imputation introduces noise in the prediction of the original dataset, it has shown potential in enhancing shots for prompts, particularly for low-response-rate annotators. We have made all of our code and data publicly available.
翻訳日:2023-09-12 21:29:49 公開日:2023-09-08
# 超高忠実複合量子相ゲート

Ultrahigh-fidelity composite quantum phase gates ( http://arxiv.org/abs/2306.10340v2 )

ライセンス: Link先を確認
Hayk L. Gevorgyan and Nikolay V. Vitanov(参考訳) 4つの基本量子相ゲート(Z、S、T、一般相ゲート)に対する複合パルス(CP)配列が提示される。 CP配列は最大18個のパルスを含み、パルス振幅と持続時間において最大8つの実験誤差を補償することができる。 短いcpシーケンス(最大8パルス)を解析的に計算し、より長いパルスを数値的に計算する。 その結果,cpsの極めて高い柔軟性と,エラーに対する堅牢性が示され,他のコヒーレント制御手法では同時に実現できない3つの特徴が得られた。 これらのCP系列、特にZ、S、Tゲートは、量子情報アプリケーションにおいて非常に有用な量子制御ツールとなり得る。

A number of composite pulse (CP) sequences for four basic quantum phase gates -- the Z, S, T and general phase gates -- are presented. The CP sequences contain up to 18 pulses and can compensate up to eight orders of experimental errors in the pulse amplitude and duration. The short CP sequences (up to 8 pulses) are calculated analytically and the longer ones numerically. The results demonstrate the remarkable flexibility of CPs accompanied by extreme accuracy and robustness to errors -- three features that cannot be simultaneously achieved by any other coherent control technique. These CP sequences, in particular the Z, S and T gates, can be very useful quantum control tools in quantum information applications, because they provide a variety of options to find the optimal balance between ultrahigh fidelity, error range and speed, which may be different in different physical applications.
翻訳日:2023-09-12 21:24:06 公開日:2023-09-08
# 大規模言語モデルの時代に忘れられる権利:含意、課題、解決策

Right to be Forgotten in the Era of Large Language Models: Implications, Challenges, and Solutions ( http://arxiv.org/abs/2307.03941v2 )

ライセンス: Link先を確認
Dawen Zhang, Pamela Finckenberg-Broman, Thong Hoang, Shidong Pan, Zhenchang Xing, Mark Staples, Xiwei Xu(参考訳) 忘れられる権利(rtbf)は、google spain sl、google inc. v aepd、mario costeja gonz\'alezの裁定によって最初に確立され、後に欧州連合の一般データ保護規則(gdpr)の下で消去する権利として含まれ、個人が個人に個人データを削除する権利が組織によって削除された。 特に検索エンジンに関しては,個人がクエリ結果から情報を除外するための要求を組織に送信することができる。 それは技術の進化の結果、重要な創発的な権利であった。 近年,Large Language Models (LLM) が開発され,チャットボットでの利用により,LLM対応ソフトウェアシステムが普及している。 しかし、RTBFから除外されることはない。 検索エンジンが使用するインデックス化手法と比較して、LLMは情報を全く異なる方法で保存し処理する。 これはRTBFへの準拠に新たな課題をもたらす。 本稿では,これらの課題を考察し,差分プライバシー,機械学習,モデル編集,プロンプトエンジニアリングなど,rtbfの技術的ソリューションの実装方法について考察する。 aiの急速な進歩と、この強力な技術を制御する必要性の増加により、rtbfの事例から学ぶことは、技術実務家、法律専門家、組織、当局にとって貴重な教訓となる。

The Right to be Forgotten (RTBF) was first established as the result of the ruling of Google Spain SL, Google Inc. v AEPD, Mario Costeja Gonz\'alez, and was later included as the Right to Erasure under the General Data Protection Regulation (GDPR) of European Union to allow individuals the right to request personal data be deleted by organizations. Specifically for search engines, individuals can send requests to organizations to exclude their information from the query results. It was a significant emergent right as the result of the evolution of technology. With the recent development of Large Language Models (LLMs) and their use in chatbots, LLM-enabled software systems have become popular. But they are not excluded from the RTBF. Compared with the indexing approach used by search engines, LLMs store, and process information in a completely different way. This poses new challenges for compliance with the RTBF. In this paper, we explore these challenges and provide our insights on how to implement technical solutions for the RTBF, including the use of differential privacy, machine unlearning, model editing, and prompt engineering. With the rapid advancement of AI and the increasing need of regulating this powerful technology, learning from the case of RTBF can provide valuable lessons for technical practitioners, legal experts, organizations, and authorities.
翻訳日:2023-09-12 19:28:28 公開日:2023-09-08
# 連続可変系における状態伝達のためのノイズデカップリング

Noise Decoupling for State Transfer in Continuous Variable Systems ( http://arxiv.org/abs/2307.02059v2 )

ライセンス: Link先を確認
Fattah Sakuldee, Behnam Tonekaboni(参考訳) 連続変数を用いた状態伝達問題に対して,一意演算のランダムな混合によって与えられる雑音チャネルの玩具モデルを考える。 送信ノードと受信ノードの間の経路をインターベンションできると仮定して、生成および消滅演算子の線形多項式と二次多項式によって生成されたノイズチャネルを制御し、同一チャネルを実現するため、ノイズデカップリングという用語が提案される。 ランダムな定音の場合、一般ノイズプロファイルでは目標状態が回復でき、ノイズと比較して介入が速い場合にはデカップリングを行うことができる。 送信機の状態は、目標状態の畳み込みと、ノイズと操作スキームを特徴付けるフィルタ関数として記述できることを示す。 また,同様の解析を高階多項式生成器の場合にも拡張可能であることも簡単に議論する。 最後に,数値計算によりプロトコルを実証する。

We consider a toy model of noise channels, given by a random mixture of unitary operations, for state transfer problems with continuous variables. Assuming that the path between the transmitter node and the receiver node can be intervened, we propose a noise decoupling protocol to manipulate the noise channels generated by linear and quadratic polynomials of creation and annihilation operators, to achieve an identity channel, hence the term noise decoupling. For random constant noise, the target state can be recovered while for the general noise profile, the decoupling can be done when the interventions are fast compared to the noise. We show that the state at the transmitter can be written as a convolution of the target state and a filter function characterizing the noise and the manipulation scheme. We also briefly discuss that a similar analysis can be extended to the case of higher-order polynomial generators. Finally, we demonstrate the protocols by numerical calculations.
翻訳日:2023-09-12 19:28:03 公開日:2023-09-08
# ガイド付きAPSFとグラディエント適応畳み込みを用いた夜間ヘイズ画像の可視性向上

Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradient Adaptive Convolution ( http://arxiv.org/abs/2308.01738v3 )

ライセンス: Link先を確認
Yeying Jin, Beibei Lin, Wending Yan, Wei Ye, Yuan Yuan and Robby T. Tan(参考訳) 暗い夜のシーンの視認性は、低光度、激しい輝き、光散乱、多色光源の存在など、複数の要因によってしばしば低下する。 既存の夜間の消光法は、しばしば光や低照度の条件を扱うのに苦労し、過度に暗い視界または抑圧されていない光の出力をもたらす。 本稿では,明度を抑え,低照度領域を増大させることにより,夜間の暗視画像からの視認性を高める。 我々のフレームワークは、発光効果を扱うために、蛍光光対から学習する。 具体的には、夜間画像の光源を検出するために光源認識ネットワークを提案し、次にAPSF(Angular Point Spread Function)誘導光描画を行う。 私たちのフレームワークは、レンダリングされたイメージでトレーニングされ、グロー抑制につながります。 さらに,グラデーション適応畳み込みを利用して,エッジやテクスチャをぼんやりとしたシーンで捉える。 抽出されたエッジとテクスチャを活用することで,重要な構造的詳細を失うことなく,シーンのコントラストを高める。 低光強度を高めるために,ネットワークは注意マップを学習し,ガンマ補正によって調整する。 この注目は、低照度領域に高い値と、光沢領域に低い値を持つ。 リアルタイムヘイズ画像の広範囲評価を行い,本手法の有効性を実証した。 実験により,GTA5夜間ヘイズデータセットのPSNRは30.38dBで,最先端の手法よりも13$\%高い性能を示した。 私たちのデータとコードは、 \url{https://github.com/jinyeying/nighttime_dehaze} で利用可能です。

Visibility in hazy nighttime scenes is frequently reduced by multiple factors, including low light, intense glow, light scattering, and the presence of multicolored light sources. Existing nighttime dehazing methods often struggle with handling glow or low-light conditions, resulting in either excessively dark visuals or unsuppressed glow outputs. In this paper, we enhance the visibility from a single nighttime haze image by suppressing glow and enhancing low-light regions. To handle glow effects, our framework learns from the rendered glow pairs. Specifically, a light source aware network is proposed to detect light sources of night images, followed by the APSF (Angular Point Spread Function)-guided glow rendering. Our framework is then trained on the rendered images, resulting in glow suppression. Moreover, we utilize gradient-adaptive convolution, to capture edges and textures in hazy scenes. By leveraging extracted edges and textures, we enhance the contrast of the scene without losing important structural details. To boost low-light intensity, our network learns an attention map, then adjusted by gamma correction. This attention has high values on low-light regions and low values on haze and glow regions. Extensive evaluation on real nighttime haze images, demonstrates the effectiveness of our method. Our experiments demonstrate that our method achieves a PSNR of 30.38dB, outperforming state-of-the-art methods by 13$\%$ on GTA5 nighttime haze dataset. Our data and code is available at: \url{https://github.com/jinyeying/nighttime_dehaze}.
翻訳日:2023-09-12 19:08:15 公開日:2023-09-08
# Les Houchs氏が大規模かつ無限の幅でのディープラーニングの講義を語る

Les Houches Lectures on Deep Learning at Large & Infinite Width ( http://arxiv.org/abs/2309.01592v2 )

ライセンス: Link先を確認
Yasaman Bahri, Boris Hanin, Antonin Brossollet, Vittorio Erba, Christian Keup, Rosalba Pacelli, James B. Simon(参考訳) 2022年 les houches summer school on statistical physics and machine learning で発表されたこれらの講義は、無限幅限界と深層ニューラルネットワークの大幅レジームに焦点を当てている。 対象とするトピックには、これらのネットワークの様々な統計的および動的特性が含まれる。 特に、講義者はランダム深層ニューラルネットワークの性質、トレーニングされたディープニューラルネットワーク、線形モデル、カーネル、および無限幅極限で発生するガウス過程の接続、そして、初期化とトレーニング後の大規模だが有限幅ネットワークの摂動的かつ非摂動的処理について論じる。

These lectures, presented at the 2022 Les Houches Summer School on Statistical Physics and Machine Learning, focus on the infinite-width limit and large-width regime of deep neural networks. Topics covered include various statistical and dynamical properties of these networks. In particular, the lecturers discuss properties of random deep neural networks; connections between trained deep neural networks, linear models, kernels, and Gaussian processes that arise in the infinite-width limit; and perturbative and non-perturbative treatments of large but finite-width networks, at initialization and after training.
翻訳日:2023-09-12 18:30:01 公開日:2023-09-08
# 新型コロナウイルス検出システム:cough音声信号の音響的特徴に基づくシステム性能の比較分析

COVID-19 Detection System: A Comparative Analysis of System Performance Based on Acoustic Features of Cough Audio Signals ( http://arxiv.org/abs/2309.04505v1 )

ライセンス: Link先を確認
Asmaa Shati, Ghulam Mubashar Hassan and Amitava Datta(参考訳) 風邪やインフルエンザ、喘息、COVID-19など幅広い呼吸器疾患が世界中の人々の日常生活に影響を与えている。 医療分野では、様々な呼吸器疾患や肺疾患の診断に呼吸器音が広く用いられている。 このような音の伝統的な診断には、人間の専門知識に依存する費用がかかる専門知識が必要である。 近年,呼吸状態の検出プロセスの自動化にコークス録音が用いられている。 本研究では, 機械学習モデル(ML)モデルの性能向上に寄与する各種音響特性について, コークス信号からCOVID-19を検出することを目的とした。 本研究では,メル周波数ケプストラム係数(mfcc),クロマ,スペクトルコントラストの3つの特徴抽出手法を2つのmlアルゴリズム,サポートベクターマシン(svm)と多層パーセプトロン(mlp)を用いて検討し,効率的な新型コロナウイルス検出システムを提案する。 提案システムは,新型コロナウイルス検出のためのCOUGHVIDおよびVirufyデータセット上での最先端の分類性能を示す。

A wide range of respiratory diseases, such as cold and flu, asthma, and COVID-19, affect people's daily lives worldwide. In medical practice, respiratory sounds are widely used in medical services to diagnose various respiratory illnesses and lung disorders. The traditional diagnosis of such sounds requires specialized knowledge, which can be costly and reliant on human expertise. Recently, cough audio recordings have been used to automate the process of detecting respiratory conditions. This research aims to examine various acoustic features that enhance the performance of machine learning (ML) models in detecting COVID-19 from cough signals. This study investigates the efficacy of three feature extraction techniques, including Mel Frequency Cepstral Coefficients (MFCC), Chroma, and Spectral Contrast features, on two ML algorithms, Support Vector Machine (SVM) and Multilayer Perceptron (MLP), and thus proposes an efficient COVID-19 detection system. The proposed system produces a practical solution and demonstrates higher state-of-the-art classification performance on COUGHVID and Virufy datasets for COVID-19 detection.
翻訳日:2023-09-12 18:10:40 公開日:2023-09-08
# 強化を用いた視覚領域概念の合成学習

Compositional Learning of Visually-Grounded Concepts Using Reinforcement ( http://arxiv.org/abs/2309.04504v1 )

ライセンス: Link先を確認
Zijun Lin, Haidi Azaman, M Ganesh Kumar, Cheston Tan(参考訳) 深層強化学習エージェントは、指示に基づくナビゲーションタスクを適切に解決するために、何百万ものエピソードを訓練する必要があります。 さらに、命令の新たな組み合わせに一般化する能力は明らかでない。 しかし、興味深いことに、子供たちは言語ベースの命令を分解し、クエリの組み合わせを事前に見ていない場合でも参照したオブジェクトにナビゲートすることができる。 そこで我々は,3つの3次元環境を構築し,RLエージェントが空間ナビゲーションタスクにおける新しい組み合わせを解決するために,カラー形状に基づく組合せ命令をどのように学習し,構成するかを調査した。 まず,エージェントが合成学習を行うことができるか,凍ったテキストエンコーダ(クリップ,バートなど)を利用して少ないエピソードで単語の組み合わせを学ぶことができるかを検討する。 次に,エージェントが形状や色の概念を別々に事前学習されると,指示の見当たらない組み合わせを解決するのに必要な訓練エピソードが20倍減少することを示す。 最後に,新しいカラーシェープ1-シェープ2ビジュアルオブジェクトの組み合わせでゼロショットの評価を行うと,概念と構成学習に事前学習したエージェントは高い報酬が得られることを示す。 以上の結果から,強化学習による単語群構築におけるエージェントの能力向上に必要な基礎と,新たな組み合わせへのゼロショット一般化能力を強調した。

Deep reinforcement learning agents need to be trained over millions of episodes to decently solve navigation tasks grounded to instructions. Furthermore, their ability to generalize to novel combinations of instructions is unclear. Interestingly however, children can decompose language-based instructions and navigate to the referred object, even if they have not seen the combination of queries prior. Hence, we created three 3D environments to investigate how deep RL agents learn and compose color-shape based combinatorial instructions to solve novel combinations in a spatial navigation task. First, we explore if agents can perform compositional learning, and whether they can leverage on frozen text encoders (e.g. CLIP, BERT) to learn word combinations in fewer episodes. Next, we demonstrate that when agents are pretrained on the shape or color concepts separately, they show a 20 times decrease in training episodes needed to solve unseen combinations of instructions. Lastly, we show that agents pretrained on concept and compositional learning achieve significantly higher reward when evaluated zero-shot on novel color-shape1-shape2 visual object combinations. Overall, our results highlight the foundations needed to increase an agent's proficiency in composing word groups through reinforcement learning and its ability for zero-shot generalization to new combinations.
翻訳日:2023-09-12 18:10:20 公開日:2023-09-08
# 最大二軸問題の量子アルゴリズム

Quantum Algorithm for Maximum Biclique Problem ( http://arxiv.org/abs/2309.04503v1 )

ライセンス: Link先を確認
Xiaofan Li, Prasenjit Mitra, Rui Zhou, and Wolfgang Nejdl(参考訳) 例えば、eコマース取引における異常の検出、生物学におけるタンパク質とタンパク質の相互作用の識別、ソーシャルネットワークのレコメンデーションアルゴリズムの有効性の改善などである。 しかし、この問題の本質的なNP硬度は、この問題を著しく複雑にしている。 既存のアルゴリズムの時間的複雑さが、アプリケーションのシナリオを制約する主なボトルネックである。 この課題に対処するために、量子コンピューティングアプローチを前例のない形で探求する。 NPハード問題に対処するための重要な方向性として、効率的な量子アルゴリズムが現在、サイバーセキュリティなどの実践的な分野で既に実証されている、集中的な調査の段階にある。 しかし、グラフデータベースの量子アルゴリズムの分野では、複雑なグラフトポロジーの量子表現がもたらす課題のために、ほとんど作業が行われていない。 本研究では,量子コンピュータ上の二部グラフの符号化の複雑さについて検討する。 n個の頂点を持つ二部グラフが与えられると、時間複雑性o^*(2^(n/2))を持つ画期的なアルゴリズム qmbs が提案される。 さらに,最大頂点双斜問題と最大バランス双斜問題に合わせた2つの変種を詳述した。 提案するアルゴリズムの実用的性能と有効性を検証するため,ibm量子シミュレータを用いた原理実証実験を行い,本手法の検証を行った。

Identifying a biclique with the maximum number of edges bears considerable implications for numerous fields of application, such as detecting anomalies in E-commerce transactions, discerning protein-protein interactions in biology, and refining the efficacy of social network recommendation algorithms. However, the inherent NP-hardness of this problem significantly complicates the matter. The prohibitive time complexity of existing algorithms is the primary bottleneck constraining the application scenarios. Aiming to address this challenge, we present an unprecedented exploration of a quantum computing approach. Efficient quantum algorithms, as a crucial future direction for handling NP-hard problems, are presently under intensive investigation, of which the potential has already been proven in practical arenas such as cybersecurity. However, in the field of quantum algorithms for graph databases, little work has been done due to the challenges presented by the quantum representation of complex graph topologies. In this study, we delve into the intricacies of encoding a bipartite graph on a quantum computer. Given a bipartite graph with n vertices, we propose a ground-breaking algorithm qMBS with time complexity O^*(2^(n/2)), illustrating a quadratic speed-up in terms of complexity compared to the state-of-the-art. Furthermore, we detail two variants tailored for the maximum vertex biclique problem and the maximum balanced biclique problem. To corroborate the practical performance and efficacy of our proposed algorithms, we have conducted proof-of-principle experiments utilizing IBM quantum simulators, of which the results provide a substantial validation of our approach to the extent possible to date.
翻訳日:2023-09-12 18:09:57 公開日:2023-09-08
# ビジョン応用のためのマルチスケールデータサンプリングの有効性について

On the Efficacy of Multi-scale Data Samplers for Vision Applications ( http://arxiv.org/abs/2309.04502v1 )

ライセンス: Link先を確認
Elvis Nunez, Thomas Merth, Anish Prabhu, Mehrdad Farajtabar, Mohammad Rastegari, Sachin Mehta, Maxwell Horton(参考訳) マルチスケールの解像度トレーニングは、分類や検出を含む複数のビジョンタスクで採用が増加している。 より小さな解像度でのトレーニングは、精度の低下を犠牲にして高速なトレーニングを可能にする。 逆に、より大きな解像度でのトレーニングはパフォーマンスを向上させることが示されているが、メモリの制約によってしばしば実現不可能である。 本稿では,マルチスケール学習手順の特性を実証的に検討する。 我々は,各トレーニングイテレーションでランダムに入力解像度をサンプリングし,その解像度に応じてバッチサイズを動的に調整する可変バッチサイズマルチスケールデータサンプリング器に着目した。 このようなサンプルは、バッチサイズと解像度を固定した標準的なトレーニング以上のモデル精度を改善することが示されているが、なぜそうなのかは明らかではない。 ResNet-101で広範な実験を行い、複数のアーキテクチャ、タスク、データセットにまたがる結論を検証することにより、これらのデータサンプリングの特性を探求する。 マルチスケールサンプルは暗黙的なデータ正規化器として動作し、トレーニング速度を加速することを示す。 シングルスケール・サンプラーでトレーニングされたモデルと比較すると,マルチスケール・サンプラーでトレーニングされたモデルでは精度が保たれ,あるいは向上する一方で,スケーリングやデータ分散シフトに対してより堅牢であることが示された。 さらに,マルチスケールの可変バッチサンプリングを簡単なカリキュラムで拡張し,学習過程を通じて分解能を段階的に向上させ,30%以上の計算量削減を可能にした。 マルチスケールトレーニングの利点は検出やインスタンスセグメンテーションのタスクにまで拡張され,トレーニングFLOPの37%の削減と,Mask R-CNNモデルを用いたMS-COCOの3~4%のmAP増加が観察された。

Multi-scale resolution training has seen an increased adoption across multiple vision tasks, including classification and detection. Training with smaller resolutions enables faster training at the expense of a drop in accuracy. Conversely, training with larger resolutions has been shown to improve performance, but memory constraints often make this infeasible. In this paper, we empirically study the properties of multi-scale training procedures. We focus on variable batch size multi-scale data samplers that randomly sample an input resolution at each training iteration and dynamically adjust their batch size according to the resolution. Such samplers have been shown to improve model accuracy beyond standard training with a fixed batch size and resolution, though it is not clear why this is the case. We explore the properties of these data samplers by performing extensive experiments on ResNet-101 and validate our conclusions across multiple architectures, tasks, and datasets. We show that multi-scale samplers behave as implicit data regularizers and accelerate training speed. Compared to models trained with single-scale samplers, we show that models trained with multi-scale samplers retain or improve accuracy, while being better-calibrated and more robust to scaling and data distribution shifts. We additionally extend a multi-scale variable batch sampler with a simple curriculum that progressively grows resolutions throughout training, allowing for a compute reduction of more than 30%. We show that the benefits of multi-scale training extend to detection and instance segmentation tasks, where we observe a 37% reduction in training FLOPs along with a 3-4% mAP increase on MS-COCO using a Mask R-CNN model.
翻訳日:2023-09-12 18:09:30 公開日:2023-09-08
# 3次元設計データの幾何学的特徴と工学的性能を考慮した重み付き教師なし領域適応

Weighted Unsupervised Domain Adaptation Considering Geometry Features and Engineering Performance of 3D Design Data ( http://arxiv.org/abs/2309.04499v1 )

ライセンス: Link先を確認
Seungyeon Shin, Namwoo Kang(参考訳) 製造における製品設計プロセスは、目標エンジニアリング性能を達成するために反復的な設計モデリングと分析を伴うが、このような反復的なプロセスは時間がかかり、計算コストがかかる。 近年,設計最適化を高速化する深層学習に基づく工学性能予測モデルが提案されている。 しかし、トレーニングデータの予測のみを保証し、新しいドメインデータに適用すると不正確になる可能性がある。 特に、3dデザインデータは複雑な特徴を持ち、様々な分布を持つ領域が存在する。 このように、深層学習の利用には、データ収集と訓練の負担による制限がある。 本稿では3次元設計データの幾何学的特徴と工学的性能を考慮した二重非教師付きドメイン適応手法を提案する。 ディープラーニングベースのエンジニアリングパフォーマンス予測に特化している。 仮説の相違を利用してドメイン不変の特徴を敵の訓練戦略により抽出し、抽出した特徴を用いて多出力回帰タスクを行い、工学的性能を予測する。 特に、負の転送を避けるために、3次元設計データに適したソースインスタンス重み付け手法を提案する。 工学構造の幾何学的特徴と工学的性能に基づく2重重み付け戦略が訓練プロセスに組み込まれている。 提案モデルは, 最大von mises応力の大きさと3次元路面車輪の位置を予測するために, 車輪衝撃解析問題を用いて実験を行った。 このメカニズムは、重み付けされたマルチソースドメイン知識に基づいて、ラベルなしのターゲットドメインのターゲットリスクを低減し、従来の有限要素分析を効率的に置き換えることができる。

The product design process in manufacturing involves iterative design modeling and analysis to achieve the target engineering performance, but such an iterative process is time consuming and computationally expensive. Recently, deep learning-based engineering performance prediction models have been proposed to accelerate design optimization. However, they only guarantee predictions on training data and may be inaccurate when applied to new domain data. In particular, 3D design data have complex features, which means domains with various distributions exist. Thus, the utilization of deep learning has limitations due to the heavy data collection and training burdens. We propose a bi-weighted unsupervised domain adaptation approach that considers the geometry features and engineering performance of 3D design data. It is specialized for deep learning-based engineering performance predictions. Domain-invariant features can be extracted through an adversarial training strategy by using hypothesis discrepancy, and a multi-output regression task can be performed with the extracted features to predict the engineering performance. In particular, we present a source instance weighting method suitable for 3D design data to avoid negative transfers. The developed bi-weighting strategy based on the geometry features and engineering performance of engineering structures is incorporated into the training process. The proposed model is tested on a wheel impact analysis problem to predict the magnitude of the maximum von Mises stress and the corresponding location of 3D road wheels. This mechanism can reduce the target risk for unlabeled target domains on the basis of weighted multi-source domain knowledge and can efficiently replace conventional finite element analysis.
翻訳日:2023-09-12 18:09:03 公開日:2023-09-08
# NTKとNNGPの接続:カーネルレジームにおけるニューラルネットワーク学習ダイナミクスの統一理論フレームワーク

Connecting NTK and NNGP: A Unified Theoretical Framework for Neural Network Learning Dynamics in the Kernel Regime ( http://arxiv.org/abs/2309.04522v1 )

ライセンス: Link先を確認
Yehonatan Avidan, Qianyi Li, Haim Sompolinsky(参考訳) 近年、ニューラルネットワークは機械学習に革命をもたらしたが、学習プロセスのための完全な理論的枠組みはまだ欠落している。 無限に広いネットワークでかなりの進歩を遂げた。 この方法では、ネットワークの出力がカーネルを使って記述される2つの異なる理論的枠組みが使われている: 1つのフレームワークは線形化された勾配降下ダイナミクスを仮定するニューラルネットワーク接核(ntk)に基づいており、ニューラルネットワークガウス過程(nngp)カーネルはベイズフレームワークを仮定している。 しかし、両者の関係はいまだ解明されていない。 この研究はマルコフ近位学習モデルを用いてこれらの2つの異なる理論を統一し、ランダムに初期化された無限大深層ネットワークのアンサンブルで力学を学習する。 学習前後のネットワーク入力出力関数の正確な解析式を導出し、NTKとNNGPの両方のカーネルを導出できる新しい時間依存ニューラルダイナミックカーネル(NDK)を導入する。 異なる時間スケールで特徴付けられる2つの学習段階:勾配駆動学習と拡散学習。 最初の勾配駆動学習フェーズでは、力学は決定論的勾配降下に支配され、NTK理論によって記述される。 このフェーズは拡散学習段階を経て、ネットワークパラメータが解空間をサンプリングし、最終的にnngpに対応する平衡分布に近づく。 合成データセットとベンチマークデータセットの数値評価を組み合わせることで,初期化,正規化,ネットワーク深さ,および早期停止や表現ドリフトといった現象に対する新たな知見が得られる。 この研究はNTK理論とNNGP理論のギャップを埋め、無限の幅制限でディープニューラルネットワークの学習過程を理解するための包括的なフレームワークを提供する。

Artificial neural networks have revolutionized machine learning in recent years, but a complete theoretical framework for their learning process is still lacking. Substantial progress has been made for infinitely wide networks. In this regime, two disparate theoretical frameworks have been used, in which the network's output is described using kernels: one framework is based on the Neural Tangent Kernel (NTK) which assumes linearized gradient descent dynamics, while the Neural Network Gaussian Process (NNGP) kernel assumes a Bayesian framework. However, the relation between these two frameworks has remained elusive. This work unifies these two distinct theories using a Markov proximal learning model for learning dynamics in an ensemble of randomly initialized infinitely wide deep networks. We derive an exact analytical expression for the network input-output function during and after learning, and introduce a new time-dependent Neural Dynamical Kernel (NDK) from which both NTK and NNGP kernels can be derived. We identify two learning phases characterized by different time scales: gradient-driven and diffusive learning. In the initial gradient-driven learning phase, the dynamics is dominated by deterministic gradient descent, and is described by the NTK theory. This phase is followed by the diffusive learning stage, during which the network parameters sample the solution space, ultimately approaching the equilibrium distribution corresponding to NNGP. Combined with numerical evaluations on synthetic and benchmark datasets, we provide novel insights into the different roles of initialization, regularization, and network depth, as well as phenomena such as early stopping and representational drift. This work closes the gap between the NTK and NNGP theories, providing a comprehensive framework for understanding the learning process of deep neural networks in the infinite width limit.
翻訳日:2023-09-12 18:00:26 公開日:2023-09-08
# カオスの確率制御における分離計測とフィードバック駆動の絡み合い遷移

Separate measurement- and feedback-driven entanglement transitions in the stochastic control of chaos ( http://arxiv.org/abs/2309.04520v1 )

ライセンス: Link先を確認
Conner LeMaire, Andrew A. Allocca, J. H. Pixley, Thomas Iadecola, Justin H. Wilson(参考訳) 我々はベルヌーイ写像の量子アナログにおける測定誘起絡み合いと制御相転移について古典的に着想を得た制御プロトコルを用いて検討した。 エンタングルゲートがクリフォード群に制限されるとき、分離エンタングルメント(p_\mathrm{ent}$)と制御(p_\mathrm{ctrl}$)の遷移が出現し、2つの異なる普遍性クラスが現れる。 制御遷移は古典写像 (ランダムウォーク) と一致する臨界指数 $\nu$ と $z$ を持ち、エンタングルメント遷移はクリフォードハイブリッド力学における計測誘起相転移と類似した指数を持つことが示されている。 これは同じモデルにおける一般エンタングリングゲートの場合と異なり、$p_\mathrm{ent} = p_\mathrm{ctrl}$と普遍性はランダムウォークによって制御される。

We study measurement-induced entanglement and control phase transitions in a quantum analog of the Bernoulli map subjected to a classically-inspired control protocol. When entangling gates are restricted to the Clifford group, separate entanglement ($p_\mathrm{ent}$) and control ($p_\mathrm{ctrl}$) transitions emerge, revealing two distinct universality classes. The control transition has critical exponents $\nu$ and $z$ consistent with the classical map (a random walk) while the entanglement transition is revealed to have similar exponents as the measurement-induced phase transition in Clifford hybrid dynamics. This is distinct from the case of generic entangling gates in the same model, where $p_\mathrm{ent} = p_\mathrm{ctrl}$ and universality is controlled by the random walk.
翻訳日:2023-09-12 17:59:53 公開日:2023-09-08
# 音響言語モデルの事前学習によるエンドツーエンド音声認識と拡散除去

End-to-End Speech Recognition and Disfluency Removal with Acoustic Language Model Pretraining ( http://arxiv.org/abs/2309.04516v1 )

ライセンス: Link先を確認
Saksham Bassi, Giulio Duregon, Siddhartha Jalagam, David Roth(参考訳) 近年、不均一な会話音声の転写におけるsotaは、2段階モデルが好まれており、転写とクリーニングの段階が分かれている。 大規模言語モデルの事前学習が語彙モデルに与えた表現上の優位性から,従来のエンドツーエンドの分散除去の試みは不足していると考えられる。 最近まで、大規模な音声データセットの高次元性と限られた可用性は、効果的な音声表現を学習するための大規模自己教師型事前学習目標の開発を阻害し、語彙トークンの事前訓練表現を利用する2段階アプローチに相対的な優位性をもたらした。 近年の大規模オーディオプリトレーニングの成功を踏まえて,2段階モデルとエンド・ツー・エンドモデルの性能比較を行い,弱自己教師付き目標を用いて事前学習した音声モデルが,同様に訓練された2段階モデルの性能に匹敵するか,さらに,事前訓練対象の選択が不整合除去タスクに適応するモデルの能力に実質的に影響することを見出した。

The SOTA in transcription of disfluent and conversational speech has in recent years favored two-stage models, with separate transcription and cleaning stages. We believe that previous attempts at end-to-end disfluency removal have fallen short because of the representational advantage that large-scale language model pretraining has given to lexical models. Until recently, the high dimensionality and limited availability of large audio datasets inhibited the development of large-scale self-supervised pretraining objectives for learning effective audio representations, giving a relative advantage to the two-stage approach, which utilises pretrained representations for lexical tokens. In light of recent successes in large scale audio pretraining, we revisit the performance comparison between two-stage and end-to-end model and find that audio based language models pretrained using weak self-supervised objectives match or exceed the performance of similarly trained two-stage models, and further, that the choice of pretraining objective substantially effects a model's ability to be adapted to the disfluency removal task.
翻訳日:2023-09-12 17:59:33 公開日:2023-09-08
# 畳み込み型ばらつきボトルネックを用いたプライバシー保護連合学習

Privacy Preserving Federated Learning with Convolutional Variational Bottlenecks ( http://arxiv.org/abs/2309.04515v1 )

ライセンス: Link先を確認
Daniel Scheliga, Patrick M\"ader, Marco Seeland(参考訳) 勾配反転攻撃(gradient inversion attack)は、勾配の漏洩を利用して、おそらくプライベートなトレーニングデータを再構築するため、連合学習におけるユビキタスな脅威である。 近年,変分モデルに基づくPRECODE(PRivacy EnhanCing mODulE)を導入して,モデルユーティリティを損なうことなく勾配漏れを防止する手法が提案されている。 さらなる解析は行わず、PreCODEは勾配反転攻撃を防げることを示した。 本稿では,複数の貢献を行う。 まず, 勾配反転攻撃に対するプリコードの影響を調べ, その基礎となる動作原理を明らかにする。 変動モデリングは,ニューラルネットワークにおけるPreCODEとその後の階層の勾配に確率性をもたらすことを示す。 これらの層の確率勾配は、反復的な勾配反転攻撃が収束することを防ぐ。 次に,攻撃最適化中に確率的勾配を意図的に省略することにより,プリコードのプライバシー保護効果を無効にする攻撃を定式化する。 PreCODEのプライバシー保護効果を維持するため,ネットワークの早期に変動モデリングを行う必要があることを明らかにした。 しかしながら、PreCODEの初期配置は、モデルユーティリティの削減と追加モデルパラメータの爆発的な数のために、一般的には実現不可能である。 そこで,第3の貢献として,ニューラルネットワークにおいて,このような欠点に苦しむことなく早期に配置可能な,新たなプライバシモジュールである畳み込み型変分ボトルネック(cvb)を提案する。 3つのセレントモデルアーキテクチャと6つの画像分類データセットに関する広範な実証研究を行った。 提案したCVBでは,全てのアーキテクチャが勾配リーク攻撃の影響を受けやすいことが判明した。 プライバシを効果的に保護するために,プリコードと比較して,学習可能なパラメータの削減と計算コストと通信コストの削減が期待できる。

Gradient inversion attacks are an ubiquitous threat in federated learning as they exploit gradient leakage to reconstruct supposedly private training data. Recent work has proposed to prevent gradient leakage without loss of model utility by incorporating a PRivacy EnhanCing mODulE (PRECODE) based on variational modeling. Without further analysis, it was shown that PRECODE successfully protects against gradient inversion attacks. In this paper, we make multiple contributions. First, we investigate the effect of PRECODE on gradient inversion attacks to reveal its underlying working principle. We show that variational modeling introduces stochasticity into the gradients of PRECODE and the subsequent layers in a neural network. The stochastic gradients of these layers prevent iterative gradient inversion attacks from converging. Second, we formulate an attack that disables the privacy preserving effect of PRECODE by purposefully omitting stochastic gradients during attack optimization. To preserve the privacy preserving effect of PRECODE, our analysis reveals that variational modeling must be placed early in the network. However, early placement of PRECODE is typically not feasible due to reduced model utility and the exploding number of additional model parameters. Therefore, as a third contribution, we propose a novel privacy module -- the Convolutional Variational Bottleneck (CVB) -- that can be placed early in a neural network without suffering from these drawbacks. We conduct an extensive empirical study on three seminal model architectures and six image classification datasets. We find that all architectures are susceptible to gradient leakage attacks, which can be prevented by our proposed CVB. Compared to PRECODE, we show that our novel privacy module requires fewer trainable parameters, and thus computational and communication costs, to effectively preserve privacy.
翻訳日:2023-09-12 17:58:57 公開日:2023-09-08
# 深層学習を用いた脳画像合成手法の体系的レビュー

Systematic Review of Techniques in Brain Image Synthesis using Deep Learning ( http://arxiv.org/abs/2309.04511v1 )

ライセンス: Link先を確認
Shubham Singh, Ammar Ranapurwala, Mrunal Bewoor, Sheetal Patil, Satyam Rai(参考訳) 本稿では,脳画像合成における深層学習技術の利用に焦点をあてた医用画像の現状について述べる。 診断精度を向上させるための医用画像合成の必要性と、これらの進歩を可能にするための深層学習の役割が強調されている。 本稿では,2次元から3次元の立体構造,MRI合成,トランスフォーマの利用など,脳画像合成のための様々な手法と手法について検討する。 また、精度の高いトレーニングデータを取得し、脳の超音波問題に対処するなど、これらの手法で直面する制限や課題にも対処する。 本研究は、この分野の将来の可能性と、深層学習技術を用いた医用画像のさらなる進歩の機会を探ることによって結論付ける。 トランスフォーマの意義と医療画像分野に革命をもたらす可能性を強調した。 さらに,本分野で直面する欠点や限界に対する潜在的な解決策についても論じる。 このレビューは、研究者にこの分野の現状に関する最新のリファレンスを提供し、さらなる研究を刺激し、現在の医療画像とディープラーニング技術が提供する将来の可能性とのギャップを埋めることを目的としている。

This review paper delves into the present state of medical imaging, with a specific focus on the use of deep learning techniques for brain image synthesis. The need for medical image synthesis to improve diagnostic accuracy and decrease invasiveness in medical procedures is emphasized, along with the role of deep learning in enabling these advancements. The paper examines various methods and techniques for brain image synthesis, including 2D to 3D constructions, MRI synthesis, and the use of transformers. It also addresses limitations and challenges faced in these methods, such as obtaining well-curated training data and addressing brain ultrasound issues. The review concludes by exploring the future potential of this field and the opportunities for further advancements in medical imaging using deep learning techniques. The significance of transformers and their potential to revolutionize the medical imaging field is highlighted. Additionally, the paper discusses the potential solutions to the shortcomings and limitations faced in this field. The review provides researchers with an updated reference on the present state of the field and aims to inspire further research and bridge the gap between the present state of medical imaging and the future possibilities offered by deep learning techniques.
翻訳日:2023-09-12 17:58:04 公開日:2023-09-08
# 一般化可能なメモリプルーニングを用いたベイズ最適化の計算時間短縮

Decreasing the Computing Time of Bayesian Optimization using Generalizable Memory Pruning ( http://arxiv.org/abs/2309.04510v1 )

ライセンス: Link先を確認
Alexander E. Siemenn, Tonio Buonassisi(参考訳) ベイズ最適化(BO)は、高次元または大規模なデータセットを処理する際に長い計算時間に悩まされる。 これらの長い計算時間は、実験数と多項式時間の複雑さを持つガウス過程代理モデルの結果である。 BOを高次元または大規模データセット上で実行することは、この時間の複雑さのスケーリングによって困難になり、実験を妨げる。 代替代用代用代用モデルはBO手順の計算利用を減らすために開発されたが、これらの方法は継承代用代用関数の数学的変更を必要とする。 本稿では,任意のサロゲートモデルと取得関数で使用可能な,メモリプルーニングとバウンド最適化の一般化可能なBOラッパーを実証する。 このメモリプルーニング手法を用いて,boの実験当たりの壁時計計算時間を,多項式増加パターンから収束性能を犠牲にすることなく増大しない傾向のノコギリパターンへ減少させることを示した。 さらに,2つのユニークなデータセット,2つのユニークな代理モデル,4つのユニークな獲得関数にまたがるアプローチの一般化可能性について述べる。 すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。

Bayesian optimization (BO) suffers from long computing times when processing highly-dimensional or large data sets. These long computing times are a result of the Gaussian process surrogate model having a polynomial time complexity with the number of experiments. Running BO on high-dimensional or massive data sets becomes intractable due to this time complexity scaling, in turn, hindering experimentation. Alternative surrogate models have been developed to reduce the computing utilization of the BO procedure, however, these methods require mathematical alteration of the inherit surrogate function, pigeonholing use into only that function. In this paper, we demonstrate a generalizable BO wrapper of memory pruning and bounded optimization, capable of being used with any surrogate model and acquisition function. Using this memory pruning approach, we show a decrease in wall-clock computing times per experiment of BO from a polynomially increasing pattern to a sawtooth pattern that has a non-increasing trend without sacrificing convergence performance. Furthermore, we illustrate the generalizability of the approach across two unique data sets, two unique surrogate models, and four unique acquisition functions. All model implementations are run on the MIT Supercloud state-of-the-art computing hardware.
翻訳日:2023-09-12 17:57:44 公開日:2023-09-08
# 音のパワー(TPoS):安定拡散による音声反応性ビデオ生成

The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion ( http://arxiv.org/abs/2309.04509v1 )

ライセンス: Link先を確認
Yujin Jeong, Wonjeong Ryoo, Seunghyun Lee, Dabin Seo, Wonmin Byeon, Sangpil Kim and Jinkyu Kim(参考訳) 近年、ビデオ生成は顕著な生成ツールとなり、注目されている。 しかし、音声からビデオへの生成には、時間的意味論や大きさといった独特の特徴があるにもかかわらず、ほとんど考慮されていない。 そこで本研究では,時間的意味と大きさの両方を含む音声入力を組み込むための音響パワー(tpos)モデルを提案する。 ビデオフレームを生成するために、tposはテキスト意味情報を持つ潜在安定拡散モデルを使用し、事前学習したオーディオエンコーダから逐次音声埋め込みによって導かれる。 結果として、この方法は、オーディオ反応性ビデオコンテンツを生成する。 様々なタスクにおけるTPoSの有効性を実証し、その結果をオーディオ・ビデオ生成分野における最先端技術と比較する。 その他の例はhttps://ku-vai.github.io/TPoS/で公開されている。

In recent years, video generation has become a prominent generative tool and has drawn significant attention. However, there is little consideration in audio-to-video generation, though audio contains unique qualities like temporal semantics and magnitude. Hence, we propose The Power of Sound (TPoS) model to incorporate audio input that includes both changeable temporal semantics and magnitude. To generate video frames, TPoS utilizes a latent stable diffusion model with textual semantic information, which is then guided by the sequential audio embedding from our pretrained Audio Encoder. As a result, this method produces audio reactive video contents. We demonstrate the effectiveness of TPoS across various tasks and compare its results with current state-of-the-art techniques in the field of audio-to-video generation. More examples are available at https://ku-vai.github.io/TPoS/
翻訳日:2023-09-12 17:57:14 公開日:2023-09-08
# IoT大気汚染モニタリングシステムにおける校正のための空間時間グラフ注意フィルタ

Spatial-Temporal Graph Attention Fuser for Calibration in IoT Air Pollution Monitoring Systems ( http://arxiv.org/abs/2309.04508v1 )

ライセンス: Link先を確認
Keivan Faghih Niresi, Mengjie Zhao, Hugo Bissig, Henri Baumann, and Olga Fink(参考訳) 大気汚染モニタリングにおけるIoT(Internet of Things)センサーの利用が大幅に増加し、低コストなセンサが配備された。 この進歩にもかかわらず、これらのセンサーを制御されていない環境条件で正確に調整することは依然として困難である。 そこで本研究では,グラフニューラルネットワーク,特にグラフアテンションネットワークモジュールを活用して,センサアレイからのデータを融合することでキャリブレーションプロセスを改善する新しい手法を提案する。 本実験により,IoT大気汚染監視プラットフォームにおけるセンサの校正精度を大幅に向上させる手法の有効性を実証した。

The use of Internet of Things (IoT) sensors for air pollution monitoring has significantly increased, resulting in the deployment of low-cost sensors. Despite this advancement, accurately calibrating these sensors in uncontrolled environmental conditions remains a challenge. To address this, we propose a novel approach that leverages graph neural networks, specifically the graph attention network module, to enhance the calibration process by fusing data from sensor arrays. Through our experiments, we demonstrate the effectiveness of our approach in significantly improving the calibration accuracy of sensors in IoT air pollution monitoring platforms.
翻訳日:2023-09-12 17:57:00 公開日:2023-09-08
# 経路シグネチャを用いた減価-現実的金融価格経路の生成

Generating drawdown-realistic financial price paths using path signatures ( http://arxiv.org/abs/2309.04507v1 )

ライセンス: Link先を確認
Emiel Lemahieu, Kris Boudt, Maarten Wyns(参考訳) 経験的データに近いデップダウンを伴う金融価格データのシーケンスをシミュレーションするための新しい生成的機械学習手法を提案する。 価格引下げ保険オプションやポートフォリオ引下げ管理戦略の開発のようなアプリケーションは、多くの引下げ現実的なパスを要求する。 歴史的シナリオは戦略を効果的に訓練し、バックテストするには不十分であり、標準的なパラメトリックモンテカルロは引き落としを適切に保存していない。 我々は,変分オートエンコーダ生成モデルとドローダウン復元損失関数を組み合わせた非パラメトリックモンテカルロ手法を提案する。 数値複雑性と非微分可能性の問題を克服するため、文献で知られている経路のモーメントの線形関数としてドローダウンを近似した。 ドローダウン関数の要求正則性と近似の整合性を証明する。 さらに,分数ブラウンおよび経験データに対する線形回帰を用いた近接数値近似を求める。 経路のモーメントの線形結合は、数学的に非自明なドローダウン関数の平滑化をもたらし、学習目的にドローダウン評価指標を組み込むことでドローダウン現実価格経路をシミュレートする手段を与える。 最後に、株式、債券、不動産および商品ポートフォリオの混合に関する数値実験を行い、多くのデットダウン現実主義的経路を得る。

A novel generative machine learning approach for the simulation of sequences of financial price data with drawdowns quantifiably close to empirical data is introduced. Applications such as pricing drawdown insurance options or developing portfolio drawdown control strategies call for a host of drawdown-realistic paths. Historical scenarios may be insufficient to effectively train and backtest the strategy, while standard parametric Monte Carlo does not adequately preserve drawdowns. We advocate a non-parametric Monte Carlo approach combining a variational autoencoder generative model with a drawdown reconstruction loss function. To overcome issues of numerical complexity and non-differentiability, we approximate drawdown as a linear function of the moments of the path, known in the literature as path signatures. We prove the required regularity of drawdown function and consistency of the approximation. Furthermore, we obtain close numerical approximations using linear regression for fractional Brownian and empirical data. We argue that linear combinations of the moments of a path yield a mathematically non-trivial smoothing of the drawdown function, which gives one leeway to simulate drawdown-realistic price paths by including drawdown evaluation metrics in the learning objective. We conclude with numerical experiments on mixed equity, bond, real estate and commodity portfolios and obtain a host of drawdown-realistic paths.
翻訳日:2023-09-12 17:56:50 公開日:2023-09-08
# 教師なしゲーズ対応コントラスト学習と主観的条件

Unsupervised Gaze-aware Contrastive Learning with Subject-specific Condition ( http://arxiv.org/abs/2309.04506v1 )

ライセンス: Link先を確認
Lingyu Du, Xucong Zhang, Guohao Lan(参考訳) 外観に基づく視線推定は、単一の汎用カメラを入力デバイスとして用いることで、多くのアプリケーションで大きな可能性を秘めている。 しかし、その成功は、収集が貧弱で費用がかかる大規模な well-annotated gaze データセットの可用性に大きく依存している。 この課題を緩和するために,ラベルのない顔画像を利用して,教師なしの方法で被写体間の一般的な視線認識表現を学習する,コンガゼ(congaze)を提案する。 具体的には,視線特徴の保存と視線一貫性の維持のために,視線固有のデータ拡張を導入し,効果的な対比的視線表現学習に不可欠であることが証明された。 さらに,共有特徴抽出器に視線認識と汎用表現の学習を促す,新しい主題条件投影モジュールを考案した。 3つの公的な視線推定データセットの実験により、ConGazeは既存の教師なし学習ソリューションを6.7%から22.5%で上回り、教師付き学習ベースであるクロスデータセット評価よりも15.1%から24.6%改善した。

Appearance-based gaze estimation has shown great promise in many applications by using a single general-purpose camera as the input device. However, its success is highly depending on the availability of large-scale well-annotated gaze datasets, which are sparse and expensive to collect. To alleviate this challenge we propose ConGaze, a contrastive learning-based framework that leverages unlabeled facial images to learn generic gaze-aware representations across subjects in an unsupervised way. Specifically, we introduce the gaze-specific data augmentation to preserve the gaze-semantic features and maintain the gaze consistency, which are proven to be crucial for effective contrastive gaze representation learning. Moreover, we devise a novel subject-conditional projection module that encourages a share feature extractor to learn gaze-aware and generic representations. Our experiments on three public gaze estimation datasets show that ConGaze outperforms existing unsupervised learning solutions by 6.7% to 22.5%; and achieves 15.1% to 24.6% improvement over its supervised learning-based counterpart in cross-dataset evaluations.
翻訳日:2023-09-12 17:56:27 公開日:2023-09-08
# 深度3次元視覚接地における両眼融合の3つの改善方法

Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding ( http://arxiv.org/abs/2309.04561v1 )

ライセンス: Link先を確認
Ozan Unal, Christos Sakaridis, Suman Saha, Fisher Yu and Luc Van Gool(参考訳) 3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。 自律型屋内ロボティクスからAR/VRまで幅広い応用により、このタスクは最近人気が高まっている。 3次元視覚接地に取り組む一般的な定式化は、接地・検出であり、境界ボックスを介して局在化が行われる。 しかし、物理的相互作用を必要とする実生活アプリケーションの場合、バウンディングボックスはオブジェクトの幾何学を十分に記述していない。 そこで我々は,3次元の密接な接地,すなわち参照型3次元インスタンスセグメンテーションの問題に取り組む。 本論文では,3つの新規なスタンドアロンモジュールを特徴とする高密度3次元接地ネットワークであるconcretenetを提案する。 まず,文間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いて視点依存発話を解消する。 concreteNet は ScanRefer のオンラインベンチマークで、50% IoU で 9.43% の精度でランクインし、ICCV 3rd Workshop on Language for 3D Scenes "3D Object Localization" で優勝した。

3D visual grounding is the task of localizing the object in a 3D scene which is referred by a description in natural language. With a wide range of applications ranging from autonomous indoor robotics to AR/VR, the task has recently risen in popularity. A common formulation to tackle 3D visual grounding is grounding-by-detection, where localization is done via bounding boxes. However, for real-life applications that require physical interactions, a bounding box insufficiently describes the geometry of an object. We therefore tackle the problem of dense 3D visual grounding, i.e. referral-based 3D instance segmentation. We propose a dense 3D grounding network ConcreteNet, featuring three novel stand-alone modules which aim to improve grounding performance for challenging repetitive instances, i.e. instances with distractors of the same semantic class. First, we introduce a bottom-up attentive fusion module that aims to disambiguate inter-instance relational cues, next we construct a contrastive training scheme to induce separation in the latent space, and finally we resolve view-dependent utterances via a learned global camera token. ConcreteNet ranks 1st on the challenging ScanRefer online benchmark by a considerable +9.43% accuracy at 50% IoU and has won the ICCV 3rd Workshop on Language for 3D Scenes "3D Object Localization" challenge.
翻訳日:2023-09-12 17:51:00 公開日:2023-09-08
# 注意型ディープニューラルネットワークによる太陽フレア予測に向けて

Towards Interpretable Solar Flare Prediction with Attention-based Deep Neural Networks ( http://arxiv.org/abs/2309.04558v1 )

ライセンス: Link先を確認
Chetraj Pandey, Anli Ji, Rafal A. Angryk, Berkay Aydin(参考訳) 太陽フレア予測は宇宙天気予報の中心的な問題であり、最近の機械学習とディープラーニングの発展により、データ駆動型太陽フレア予測における複雑なモデルの採用が加速された。 本研究では,標準畳み込みニューラルネットワーク(CNN)パイプラインの改良として注目に基づくディープラーニングモデルを構築し,今後24時間以内に$\geq$M1.0級フレアが発生するためのフルディスクバイナリフレア予測を行った。 そこで本研究では,全ディスク線(LoS)磁気グラムから生成された圧縮画像を収集した。 データ提供型オーバーサンプリングを用いてクラス不均衡問題に対処し,評価指標としてtrue skill statistic (tss) とheidke skill score (hss) を用いた。 さらに,入力磁気図上にアテンションマップをオーバーレイすることで,モデルに焦点を絞った重要な領域を可視化し,最終的な決定を導いた。 本研究の意義は次のとおりである。 (i) 平均的TSS=0.54$\pm$0.03 および HSS=0.37$\pm$0.07 を達成する運用予測のための注意ベースのフルディスクフレア予測器の実装に成功した。 (ii)フルディスクモデルはフルディスク磁図画像から活性領域に対応する特徴を識別できることを実証した。 以上の結果から,本モデルではアデプティブ・スキルで近縁なフレアを予測できる可能性が示唆され,その予測は関連する活動領域(AR)や,フルディスク磁気グラムのAR特性に基づく。

Solar flare prediction is a central problem in space weather forecasting and recent developments in machine learning and deep learning accelerated the adoption of complex models for data-driven solar flare forecasting. In this work, we developed an attention-based deep learning model as an improvement over the standard convolutional neural network (CNN) pipeline to perform full-disk binary flare predictions for the occurrence of $\geq$M1.0-class flares within the next 24 hours. For this task, we collected compressed images created from full-disk line-of-sight (LoS) magnetograms. We used data-augmented oversampling to address the class imbalance issue and used true skill statistic (TSS) and Heidke skill score (HSS) as the evaluation metrics. Furthermore, we interpreted our model by overlaying attention maps on input magnetograms and visualized the important regions focused on by the model that led to the eventual decision. The significant findings of this study are: (i) We successfully implemented an attention-based full-disk flare predictor ready for operational forecasting where the candidate model achieves an average TSS=0.54$\pm$0.03 and HSS=0.37$\pm$0.07. (ii) we demonstrated that our full-disk model can learn conspicuous features corresponding to active regions from full-disk magnetogram images, and (iii) our experimental evaluation suggests that our model can predict near-limb flares with adept skill and the predictions are based on relevant active regions (ARs) or AR characteristics from full-disk magnetograms.
翻訳日:2023-09-12 17:50:34 公開日:2023-09-08
# カーネル回帰のための後悔-最適フェデレート転送学習とアメリカのオプション価格設定への応用

Regret-Optimal Federated Transfer Learning for Kernel Regression with Applications in American Option Pricing ( http://arxiv.org/abs/2309.04557v1 )

ライセンス: Link先を確認
Xuwei Yang and Anastasis Kratsios and Florian Krach and Matheus Grasselli and Aurelien Lucchi(参考訳) そこで、中央プランナーが同じ学習モデルである$f_{\theta}$に対して${\cal d}_1,\dots,{\cal d}_n$というデータセットにアクセスできるフェデレーション転送学習のための最適な反復スキームを提案する。 我々の目的は、生成されたパラメータ$\{\theta_i(t)\}_{t=0}^T$を特別なパラメータ$\theta^\star_{1},\ldots,\theta^\star_N$から全ての$T$反復に対して累積偏差を最小化し、停止時にアルゴリズムが生成したモデル$f_{\theta(T)}$の損失関数を尊重することである。 それぞれのイテレーション(全体)において、それぞれの特化モデル(ノード/エージェント)と中央プランナー(サーバ)間の連続的な通信のみを許可します。 モデル $f_{\theta}$ が有限ランクのカーネル回帰である場合、我々は後悔最適化アルゴリズムの明示的な更新を導出する。 後悔-最適アルゴリズム内で対称性を活用することにより、より少ない基本演算で実行されるほぼ後悔-最適ヒューリスティックがさらに発展し、$p$はパラメータ空間の次元である。 さらに、全てのトレーニングセットにおいて、少なくとも$\varepsilon>0$で$q$のトレーニングペアを摂る相手が、$\mathcal{O}(\varepsilon q \bar{N}^{1/2})$以上の後悔を減らせることができないことを示す。 理論的な結果を検証するために,ランダムに生成された有限ランクカーネルを用いて,アメリカのオプション価格の文脈で数値実験を行った。

We propose an optimal iterative scheme for federated transfer learning, where a central planner has access to datasets ${\cal D}_1,\dots,{\cal D}_N$ for the same learning model $f_{\theta}$. Our objective is to minimize the cumulative deviation of the generated parameters $\{\theta_i(t)\}_{t=0}^T$ across all $T$ iterations from the specialized parameters $\theta^\star_{1},\ldots,\theta^\star_N$ obtained for each dataset, while respecting the loss function for the model $f_{\theta(T)}$ produced by the algorithm upon halting. We only allow for continual communication between each of the specialized models (nodes/agents) and the central planner (server), at each iteration (round). For the case where the model $f_{\theta}$ is a finite-rank kernel regression, we derive explicit updates for the regret-optimal algorithm. By leveraging symmetries within the regret-optimal algorithm, we further develop a nearly regret-optimal heuristic that runs with $\mathcal{O}(Np^2)$ fewer elementary operations, where $p$ is the dimension of the parameter space. Additionally, we investigate the adversarial robustness of the regret-optimal algorithm showing that an adversary which perturbs $q$ training pairs by at-most $\varepsilon>0$, across all training sets, cannot reduce the regret-optimal algorithm's regret by more than $\mathcal{O}(\varepsilon q \bar{N}^{1/2})$, where $\bar{N}$ is the aggregate number of training pairs. To validate our theoretical findings, we conduct numerical experiments in the context of American option pricing, utilizing a randomly generated finite-rank kernel.
翻訳日:2023-09-12 17:50:06 公開日:2023-09-08
# 極端に量子ゲートの制御を求める

Extremum seeking control of quantum gates ( http://arxiv.org/abs/2309.04553v1 )

ライセンス: Link先を確認
Erfan Abbasgholinejad, Haoqin Deng, John Gamble, J. Nathan Kutz, Erik Nielsen, Neal Pisenti, Ningzhi Xie(参考訳) 量子計算に役立てるためには、ゲート演算を長期間にわたって高い忠実度で維持する必要がある。 デコヒーレンスに加えて、制御ハードウェアのドリフトが遅くなるとゲートが不正確なため、asで構築された量子コンピュータの動作品質は時間とともに変化する。 本稿では,データ駆動による安定化制御手法を実証し,最大探索制御(ESC)と直接ランダム化ベンチマーク(DRB)を組み合わせることにより,未知の制御パラメータ変動の下で2量子ゲートを安定化させる。 本研究は, 物理的実数論的シミュレーションを用いて, 閉じ込められたイオン量子コンピュータの文脈における制御戦略を考察する。 そして、この制御戦略を最先端の商用トラップイオン量子コンピュータで実験的に実証する。

To be useful for quantum computation, gate operations must be maintained at high fidelities over long periods of time. In addition to decoherence, slow drifts in control hardware leads to inaccurate gates, causing the quality of operation of as-built quantum computers to vary over time. Here, we demonstrate a data-driven approach to stabilized control, combining extremum-seeking control (ESC) with direct randomized benchmarking (DRB) to stabilize two-qubit gates under unknown control parameter fluctuations. As a case study, we consider these control strategies in the context of a trapped ion quantum computer using physically-realistic simulation. We then experimentally demonstrate this control strategy on a state-of-the-art, commercial trapped-ion quantum computer.
翻訳日:2023-09-12 17:49:22 公開日:2023-09-08
# LLMによるEHRからの証拠の回収:可能性と課題

Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges ( http://arxiv.org/abs/2309.04550v1 )

ライセンス: Link先を確認
Hiba Ahsan, Denis Jered McInerney, Jisoo Kim, Christopher Potter, Geoffrey Young, Silvio Amir, Byron C. Wallace(参考訳) 非構造化電子健康記録(EHR)データはしばしば、放射線学者の診断を知らせる画像データに補完する重要な情報を含んでいる。 しかし、個々の患者に頻繁に関連する時間制約や大量のメモは、そのようなデータを手動で読み取って、実際は不可能な証拠を特定する。 現代の大規模言語モデル(llms)は、非構造化ehlデータと対話するための柔軟な手段を提供し、与えられたクエリに関連する非構造化証拠を効率的に検索し要約するメカニズムを提供する。 本研究では,この目的のためにLLM (Flan-T5 XXL) を提案し,評価する。 具体的には、ゼロショット環境では、患者が特定の状態のリスクがあるかどうかをLLMに推測するよう指示する。 手動による評価のために、このLSMベースのアプローチは、標準情報検索ベースラインに一貫して好まれる出力を提供するが、重要な課題も強調する: LLMは、証拠を幻覚させる傾向がある。 しかしながら、出力に対するモデルの信頼度がllmが幻覚状態にあるときを示す可能性があることを示す結果を提供し、これに対処する手段を提供する可能性がある。

Unstructured Electronic Health Record (EHR) data often contains critical information complementary to imaging data that would inform radiologists' diagnoses. However, time constraints and the large volume of notes frequently associated with individual patients renders manual perusal of such data to identify relevant evidence infeasible in practice. Modern Large Language Models (LLMs) provide a flexible means of interacting with unstructured EHR data, and may provide a mechanism to efficiently retrieve and summarize unstructured evidence relevant to a given query. In this work, we propose and evaluate an LLM (Flan-T5 XXL) for this purpose. Specifically, in a zero-shot setting we task the LLM to infer whether a patient has or is at risk of a particular condition; if so, we prompt the model to summarize the supporting evidence. Enlisting radiologists for manual evaluation, we find that this LLM-based approach provides outputs consistently preferred to a standard information retrieval baseline, but we also highlight the key outstanding challenge: LLMs are prone to hallucinating evidence. However, we provide results indicating that model confidence in outputs might indicate when LLMs are hallucinating, potentially providing a means to address this.
翻訳日:2023-09-12 17:49:10 公開日:2023-09-08
# エッジアシストのlidar認識をロスポイントクラウド圧縮に堅牢にするポスター

Poster: Making Edge-assisted LiDAR Perceptions Robust to Lossy Point Cloud Compression ( http://arxiv.org/abs/2309.04549v1 )

ライセンス: Link先を確認
Jin Heo, Gregorie Phillips, Per-Erik Brodin, Ada Gavrilovska(参考訳) リアルタイム光検出・測光(LiDAR)の知覚、たとえば3Dオブジェクトの検出と同時位置決めとマッピングは、限られたリソースを持つモバイルデバイスに計算集約され、しばしばエッジ上でオフロードされる。 LiDARの知覚をオフロードするには、生のセンサーデータを圧縮する必要がある。 ロスシー圧縮はLiDAR点雲の品質を劣化させ、その結果知覚性能が低下する。 本研究では,lidar点雲の品質を改善し,圧縮損失による知覚性能の損失を軽減する補間アルゴリズムを提案する。 このアルゴリズムは点雲の範囲画像(ri)表現をターゲットとし、深さ勾配に基づいてriの点を補間する。 既存の画像補間アルゴリズムと比較して,本アルゴリズムは補間riから点雲を再構成した場合の質的結果を示す。 予備結果は、現在の作業の次のステップについても述べる。

Real-time light detection and ranging (LiDAR) perceptions, e.g., 3D object detection and simultaneous localization and mapping are computationally intensive to mobile devices of limited resources and often offloaded on the edge. Offloading LiDAR perceptions requires compressing the raw sensor data, and lossy compression is used for efficiently reducing the data volume. Lossy compression degrades the quality of LiDAR point clouds, and the perception performance is decreased consequently. In this work, we present an interpolation algorithm improving the quality of a LiDAR point cloud to mitigate the perception performance loss due to lossy compression. The algorithm targets the range image (RI) representation of a point cloud and interpolates points at the RI based on depth gradients. Compared to existing image interpolation algorithms, our algorithm shows a better qualitative result when the point cloud is reconstructed from the interpolated RI. With the preliminary results, we also describe the next steps of the current work.
翻訳日:2023-09-12 17:48:49 公開日:2023-09-08
# 挑戦シーンのオートエクスプロイアの検討

Examining Autoexposure for Challenging Scenes ( http://arxiv.org/abs/2309.04542v1 )

ライセンス: Link先を確認
SaiKiran Tedla, Beixuan Yang, Michael S. Brown(参考訳) 自動露光(autoexposure、ae)は、カメラシステムによって適切に露光された画像を確保するために適用される重要なステップである。 現在のaeアルゴリズムは、常に照明を施した明るい環境では有効であるが、照明が突然変化する明るい光源やシーンの環境ではいまだに苦戦している。 新たなaeアルゴリズムの開発において、特に時変ライティングを伴う環境に挑戦するための大きなハードルは、適切な画像データセットの欠如である。 この問題に対処するために、我々は新しい4D露光データセットを入手した。これは、動く物体、明るい光、および様々な照明を持つ時間列上の大きな解空間(シャッター速度は1/500から15秒)を提供する。 さらに私たちは、aeアルゴリズムをデータセットとプラグイン・アンド・プレイで使用できるようにするソフトウェアプラットフォームも設計しました。 当社のデータセットとアソシエイトプラットフォームは,異なるaeアルゴリズムの繰り返し評価を可能にし,より優れたae手法を開発するための十分な出発点を提供します。 我々は,我々のデータセットを用いて既存のAE戦略をいくつか検討し,照明条件に挑戦する簡単なサリエンシ手法を好んでいることを示す。

Autoexposure (AE) is a critical step applied by camera systems to ensure properly exposed images. While current AE algorithms are effective in well-lit environments with constant illumination, these algorithms still struggle in environments with bright light sources or scenes with abrupt changes in lighting. A significant hurdle in developing new AE algorithms for challenging environments, especially those with time-varying lighting, is the lack of suitable image datasets. To address this issue, we have captured a new 4D exposure dataset that provides a large solution space (i.e., shutter speed range from (1/500 to 15 seconds) over a temporal sequence with moving objects, bright lights, and varying lighting. In addition, we have designed a software platform to allow AE algorithms to be used in a plug-and-play manner with the dataset. Our dataset and associate platform enable repeatable evaluation of different AE algorithms and provide a much-needed starting point to develop better AE methods. We examine several existing AE strategies using our dataset and show that most users prefer a simple saliency method for challenging lighting conditions.
翻訳日:2023-09-12 17:48:32 公開日:2023-09-08
# R'enyi-Holevo不等式と$\alpha$-$z$-R'enyi相対エントロピー

R\'enyi-Holevo inequality from $\alpha$-$z$-R\'enyi relative entropies ( http://arxiv.org/abs/2309.04539v1 )

ライセンス: Link先を確認
Diego G. Bussandri, Grzegorz Rajchel-Mieldzio\'c, Pedro W. Lamberti, Karol \.Zyczkowski(参考訳) 量子システムによる古典情報の伝送における境界について検討する。 我々の焦点は、任意の量子距離測度から単一レターのホールボ様不等式を与える一般化されたホールボ定理にある。 R'enyi 相対エントロピーやサンドイッチされた R'enyi 相対エントロピーなどの既知量からなる $\alpha$-$z$-R'enyi 相対エントロピーを導入することにより、ホレヴォ-R'enyi の不等式を確立する。 この結果、$\alpha$-mutual情報に対する量子境界が導かれ、通信チャネルの性能に対する新たな洞察と、メモリレスマルチレター通信チャネルにおける信頼性関数の基本的限界が示唆される。

We investigate bounds in the transmission of classical information through quantum systems. Our focus lies in the generalized Holevo theorem, which provides a single-letter Holevo-like inequality from arbitrary quantum distance measures. Through the introduction of the $\alpha$-$z$-R\'enyi relative entropies, which comprise known relevant quantities such as the R\'enyi relative entropy and the sandwiched R\'enyi relative entropy, we establish the Holevo-R\'enyi inequality. This result leads to a quantum bound for the $\alpha$-mutual information, suggesting new insights into communication channel performance and the fundamental limits for reliability functions in memoryless multi-letter communication channels.
翻訳日:2023-09-12 17:48:11 公開日:2023-09-08
# 一次元量子イジングモデルによる量子信号処理

Quantum Signal Processing with the one-dimensional quantum Ising model ( http://arxiv.org/abs/2309.04538v1 )

ライセンス: Link先を確認
V. M. Bastidas, S. Zeytino\u{g}lu, Z. M. Rossi, I. L. Chuang, and W. J. Munro(参考訳) 量子信号処理(QSP)は、量子システムの特性を操作および決定するための有望なフレームワークとして登場した。 QSPは既存の量子アルゴリズムを統一するだけでなく、新しい量子アルゴリズムを発見するツールも提供する。 量子信号処理は、量子化可能な単一または複数量子ビット系に適用でき、特別な不変2次元部分空間内でのシステム進化のSU$(2)$構造を利用することができる。 量子アルゴリズムの文脈では、このsu$(2)$構造は、短期の量子デバイスでは実装が難しい非常に非局所的な進化演算子を通して、人工的に系に課される。 本研究では,超越体イジングモデルをシミュレートできる量子デバイスの物理力学に関連する無限次元オンザガーリー代数のqspプロトコルを提案する。 この目的のために、ハイゼンベルク図形のQSP列を考えると、運動量空間の創発的なSU$(2)$構造を利用して、オンサーガー代数のQSP列を合成することができる。 本報告では,qsp手法と雑音中規模量子プロトコルとの具体的な接続を示す。 我々は、時空双対量子回路や量子シミュレーションから量子制御まで幅広い分野におけるアプローチの例と応用について述べる。

Quantum Signal Processing (QSP) has emerged as a promising framework to manipulate and determine properties of quantum systems. QSP not only unifies most existing quantum algorithms but also provides tools to discover new ones. Quantum signal processing is applicable to single- or multi-qubit systems that can be qubitized so one can exploit the SU$(2)$ structure of system evolution within special invariant two-dimensional subspaces. In the context of quantum algorithms, this SU$(2)$ structure is artificially imposed on the system through highly nonlocal evolution operators that are difficult to implement on near-term quantum devices. In this work, we propose QSP protocols for the infinite-dimensional Onsager Lie Algebra, which is relevant to the physical dynamics of quantum devices that can simulate the transverse field Ising model. To this end, we consider QSP sequences in the Heisenberg picture, allowing us to exploit the emergent SU$(2)$ structure in momentum space and synthesize QSP sequences for the Onsager algebra. Our results demonstrate a concrete connection between QSP techniques and Noisy Intermediate Scale quantum protocols. We provide examples and applications of our approach in diverse fields ranging from space-time dual quantum circuits and quantum simulation, to quantum control.
翻訳日:2023-09-12 17:47:51 公開日:2023-09-08
# 薄いシリンダー上の$\nu{=}5/2$ Moore-Read状態の変形フレドキンモデル

Deformed Fredkin model for the $\nu{=}5/2$ Moore-Read state on thin cylinders ( http://arxiv.org/abs/2309.04527v1 )

ライセンス: Link先を確認
Cristian Voinea, Songyang Pu, Ammar Kirmani, Pouyan Ghaemi, Armin Rahmani and Zlatko Papi\'c(参考訳) そこで本研究では, 十分に薄いシリンダーの周長$\lesssim 7$の量子ホール状態に対するフラストレーションフリーモデルを提案する。 ムーア・リード・ハミルトニアンはランダウ準位における電子の三重項間の複雑な長距離相互作用を伴っているが、実効モデルは変形フレドキンゲートを持つより単純な1次元の量子ビット鎖である。 フレッドキンモデルの基底状態はムーア・リード波動関数と高い重なり合いを持ち、後者の絡み合い特性を正確に再現することを示す。 さらに, このモデルでは, 系の異方性の急激な変化によって引き起こされる幾何学的クエンチに対するムーア・リード状態の動的応答を捉える。 クエンチ力学の基盤となるメカニズムを解明し、線形化されたバイメトリック場理論と一致することを示す。 ここで導入された最小限のモデルは、基底状態に効率的な回路近似を導出し、IBM量子プロセッサに実装することで、ムーア・リード状態の量子シミュレーションに向けた第一歩として直接実装することができる。

We propose a frustration-free model for the Moore-Read quantum Hall state on sufficiently thin cylinders with circumferences $\lesssim 7$ magnetic lengths. While the Moore-Read Hamiltonian involves complicated long-range interactions between triplets of electrons in a Landau level, our effective model is a simpler one-dimensional chain of qubits with deformed Fredkin gates. We show that the ground state of the Fredkin model has high overlap with the Moore-Read wave function and accurately reproduces the latter's entanglement properties. Moreover, we demonstrate that the model captures the dynamical response of the Moore-Read state to a geometric quench, induced by suddenly changing the anisotropy of the system. We elucidate the underlying mechanism of the quench dynamics and show that it coincides with the linearized bimetric field theory. The minimal model introduced here can be directly implemented as a first step towards quantum simulation of the Moore-Read state, as we demonstrate by deriving an efficient circuit approximation to the ground state and implementing it on IBM quantum processor.
翻訳日:2023-09-12 17:47:31 公開日:2023-09-08
# 高密度単一フラックス量子ビット制御のための小型パルススケジューリング

Compact Pulse Schedules for High-Fidelity Single-Flux Quantum Qubit Control ( http://arxiv.org/abs/2309.04606v1 )

ライセンス: Link先を確認
Ross Shillito, Florian Hopfmueller, Bohdan Kulchytskyy, Pooya Ronagh(参考訳) 従来のマイクロ波パルスを用いた超電導量子ビットの制御手法では、漏れの除去とゲート忠実度の向上を支援するためにパルス整形の場が出現している。 しかし、マイクロ波制御エレクトロニクスのスケーリングという課題は、単一流束量子(SFQ)パルスのような代替手法を探求する機会を生み出した。 SFQパルスで制御される量子ビットに対して、バイナリ制御シーケンスを最適化することで高忠実度ゲートを実現することができる。 SFQ ドライバが制御するトランスモンキュービットである adiabatic gate (DRAG) フレームワークによるデリバティブ除去の概念を拡張し、22ビット以下で保存できるパルスシーケンスを提案し、ゲート忠実度は 99.99% を超える。 この控えめなメモリ要件は、SFQコプロセッサのフットプリントと電力消費を減らすのに役立ち、スケーラビリティとコスト効率の本来の利点を保っている。

In the traditional approach to controlling superconducting qubits using microwave pulses, the field of pulse shaping has emerged in order to assist in the removal of leakage and increase gate fidelity. However, the challenge of scaling microwave control electronics has created an opportunity to explore alternative methods such as single-flux quantum (SFQ) pulses. For qubits controlled by SFQ pulses, high fidelity gates can be achieved by optimizing the binary control sequence. We extend the notion of the derivative removal by adiabatic gate (DRAG) framework a transmon qubit controlled by SFQ drivers and propose pulse sequences that can be stored in 22 bits or fewer, with gate fidelities exceeding 99.99%. This modest memory requirement could help reduce the footprint of the SFQ coprocessors and power dissipation while preserving their inherent advantages of scalability and cost-effectiveness.
翻訳日:2023-09-12 17:39:00 公開日:2023-09-08
# コンピューティングインフラにおける総環境影響評価

Evaluating Total Environmental Impact for a Computing Infrastructure ( http://arxiv.org/abs/2309.04605v1 )

ライセンス: Link先を確認
Adrian Jackson (1), Jon Hays (2), Alex Owen (2), Nicholas Walton (3), Alison Packer (4), Anish Mudaraddi (4) ((1) EPCC, The University of Edinburgh (2) School of Physical and Chemical Sciences, Queen Mary University of London (3) Institute of Astronomy, University of Cambridge, (4) Scientific Computing, STFC, Rutherford Appleton Laboratory)(参考訳) 本稿では,デジタル研究基盤の気候・炭素の影響を,所定のスナップショット期間で評価するプロジェクトの結果について概説する。 我々は,その影響を計算するための炭素モデルと,その影響を定量化するために収集されたデータについて概説する。 本研究は,ハードウェアの活性炭と具体化炭素の両方における潜在的影響の変動を考察し,スナップショット期間における炭素等価気候影響の程度を推定する。

In this paper we outline the results of a project to evaluate the total climate/carbon impact of a digital research infrastructure for a defined snapshot period. We outline the carbon model used to calculate the impact and the data collected to quantify that impact for a defined set of resources. We discuss the variation in potential impact across both the active and embodied carbon for computing hardware and produce a range of estimates on the amount of carbon equivalent climate impact for the snapshot period.
翻訳日:2023-09-12 17:38:43 公開日:2023-09-08
# キュディ検出器のアンルー現象と熱化

Unruh phenomena and thermalization for qudit detectors ( http://arxiv.org/abs/2309.04598v1 )

ライセンス: Link先を確認
Caroline Lima, Everett Patterson, Erickson Tjoa, Robert B. Mann(参考訳) 量子化スカラー場に結合したqudit検出器のunruh現象と標準のqubitベースのunruh-dewitt検出器の応答を比較した。 高次元qudit検出器モデルのunruh熱性指標としての詳細なバランス条件の有用性には限界があることを示した。 これは、2レベル量子ビットモデルとは対照的に、quditがそのエネルギーレベルの間に複数の遷移チャネルを持つという事実に遡ることができる。 これらの制限は、$SU(2)$のスピン-1表現と、パウリ観測可能空間(ハイゼンベルク・ワイル作用素)の非エルミート一般化に基づく2種類のクォート検出器モデルを用いて説明する。

We study Unruh phenomena for a qudit detector coupled to a quantized scalar field, comparing its response to that of a standard qubit-based Unruh-DeWitt detector. We show that there are limitations to the utility of the detailed balance condition as an indicator for Unruh thermality of higher-dimensional qudit detector models. This can be traced to the fact that a qudit has multiple possible transition channels between its energy levels, in contrast to the 2-level qubit model. We illustrate these limitations using two types of qutrit detector models based on the spin-1 representations of $SU(2)$ and the non-Hermitian generalization of the Pauli observables (the Heisenberg-Weyl operators).
翻訳日:2023-09-12 17:38:35 公開日:2023-09-08
# 分子グラフ事前学習のためのモチーフ対応属性マスキング

Motif-aware Attribute Masking for Molecular Graph Pre-training ( http://arxiv.org/abs/2309.04589v1 )

ライセンス: Link先を確認
Eric Inae, Gang Liu, Meng Jiang(参考訳) 属性再構成は、グラフニューラルネットワークの事前トレーニングにおけるノードまたはエッジの特徴を予測するために使用される。 多数の分子が与えられ、下流の様々な特性予測タスクに伝達し、化学、生医学、物質科学に欠かせない構造的知識を捉えることを学ぶ。 属性マスキングを行うノードをランダムに選択する以前の戦略は、ローカルの隣人の情報を利用するが、これらの隣人の過度な信頼は、モデルが高レベルなサブ構造から学ぶ能力を阻害する。 例えば、このモデルはベンゼン環内の3つの炭素原子を他の3つに基づいて予測することからはほとんど学ばないが、官能基間の相互結合、あるいは化学モチーフからさらに学べる。 本研究では,隣接するモチーフの原子情報を活用することで,モチーフ間構造を捕捉するためのモチーフ対応属性マスキング戦略を提案する。 各グラフが分離モチーフに分解されると、サンプルモチーフ内の各ノードの特徴がマスクされる。 次にグラフデコーダは、再建のためのモチーフ内の各ノードのマスク特徴を予測する。 我々は8つの分子特性予測データセットに対するアプローチを評価し,その利点を実証する。

Attribute reconstruction is used to predict node or edge features in the pre-training of graph neural networks. Given a large number of molecules, they learn to capture structural knowledge, which is transferable for various downstream property prediction tasks and vital in chemistry, biomedicine, and material science. Previous strategies that randomly select nodes to do attribute masking leverage the information of local neighbors However, the over-reliance of these neighbors inhibits the model's ability to learn from higher-level substructures. For example, the model would learn little from predicting three carbon atoms in a benzene ring based on the other three but could learn more from the inter-connections between the functional groups, or called chemical motifs. In this work, we propose and investigate motif-aware attribute masking strategies to capture inter-motif structures by leveraging the information of atoms in neighboring motifs. Once each graph is decomposed into disjoint motifs, the features for every node within a sample motif are masked. The graph decoder then predicts the masked features of each node within the motif for reconstruction. We evaluate our approach on eight molecular property prediction datasets and demonstrate its advantages.
翻訳日:2023-09-12 17:38:21 公開日:2023-09-08
# 動的メッシュアウェア放射場

Dynamic Mesh-Aware Radiance Fields ( http://arxiv.org/abs/2309.04581v1 )

ライセンス: Link先を確認
Yi-Ling Qiao, Alexander Gao, Yiran Xu, Yue Feng, Jia-Bin Huang, Ming C. Lin(参考訳) 光リアリスティックなニューラル・ラジエンス・フィールド(nerf)ボリュームに多角形メッシュのアセットを埋め込んでレンダリングし、そのダイナミクスをnerfと物理的に一貫した方法でシミュレートすることは、nerfを従来のグラフィックパイプラインに統合するシステムの観点からは未検討である。 本稿では,メッシュとNeRFの双方向結合をレンダリングおよびシミュレーション時に設計する。 まず,メッシュとnerfの光移動方程式を概観し,任意の数のバウンスでキャスティング線に沿って放射率とスループットを更新する効率的なアルゴリズムに蒸留する。 パストレーサが想定する直線色空間と標準のNeRFが使用するsRGB色空間との差を解消するために,高ダイナミックレンジ(HDR)画像を用いてNeRFを訓練する。 また、NeRF上に光源を推定し、影を鋳造する戦略も提示する。 最後に, 布, 剛体, 軟体をサポートする高性能物理シミュレータと, ハイブリッド表面体積公式を効率的に統合する方法について考察する。 フルレンダリングとシミュレーションシステムは、gpu上でインタラクティブなレートで実行することができる。 本研究では,メッシュ挿入の視覚的リアリズムの代替として,反射・屈折面の出現や動的シーンからの拡散面の照明に影響を及ぼす,体積型NeRF媒体から表面への現実的な光輸送を可能にするハイブリッドシステムを提案する。

Embedding polygonal mesh assets within photorealistic Neural Radience Fields (NeRF) volumes, such that they can be rendered and their dynamics simulated in a physically consistent manner with the NeRF, is under-explored from the system perspective of integrating NeRF into the traditional graphics pipeline. This paper designs a two-way coupling between mesh and NeRF during rendering and simulation. We first review the light transport equations for both mesh and NeRF, then distill them into an efficient algorithm for updating radiance and throughput along a cast ray with an arbitrary number of bounces. To resolve the discrepancy between the linear color space that the path tracer assumes and the sRGB color space that standard NeRF uses, we train NeRF with High Dynamic Range (HDR) images. We also present a strategy to estimate light sources and cast shadows on the NeRF. Finally, we consider how the hybrid surface-volumetric formulation can be efficiently integrated with a high-performance physics simulator that supports cloth, rigid and soft bodies. The full rendering and simulation system can be run on a GPU at interactive rates. We show that a hybrid system approach outperforms alternatives in visual realism for mesh insertion, because it allows realistic light transport from volumetric NeRF media onto surfaces, which affects the appearance of reflective/refractive surfaces and illumination of diffuse surfaces informed by the dynamic scene.
翻訳日:2023-09-12 17:38:03 公開日:2023-09-08
# 量子古典フロンティアにおけるゾンビ猫--分子中の量子コヒーレンスのウィグナー・ムーアと半古典的極限ダイナミクス

Zombie Cats on the Quantum-Classical Frontier: Wigner-Moyal and Semiclassical Limit Dynamics of Quantum Coherence in Molecules ( http://arxiv.org/abs/2309.04580v1 )

ライセンス: Link先を確認
Austin T. Green, Craig C. Martens(参考訳) 本稿では,多状態量子系の密度行列の非対角的要素である量子コヒーレンスの時間発展について,ウィグナー・モラル形式論の観点から検討する。 このアプローチは量子力学の正確な位相空間表現を提供する。 2つの電子状態を持つ分子における核波束のコヒーレント進化を考える。 調和ポテンシャルについては、完全な量子的記述と半古典的記述の両方に完全に可溶である。 一般システムにおける半古典的コヒーレンス処理の重大な欠陥を強調し、モヤル展開において質的精度でさえより高い項を必要とすることを示す。 このモデルは、分子シュロディンガーの猫状態の実験的な例を提供する。 量子進化の正確な2つの状態の生きた猫と死んだ猫は、半古典的な限界の中で「ゾムビー」の猫に崩壊する。 モヤル補正の包含は、実験的に観察可能な猫の忠実な生存と死の表現を復元する。

In this paper, we investigate the time evolution of quantum coherence -- the off-diagonal elements of the density matrix of a multistate quantum system -- from the perspective of the Wigner-Moyal formalism. This approach provides an exact phase space representation of quantum mechanics. We consider the coherent evolution of nuclear wavepackets in a molecule with two electronic states. For harmonic potentials, the problem is exactly soluble for both fully quantum and semiclassical descriptions. We highlight serious deficiencies of the semiclassical treatment of coherence for general systems and illustrate how even qualitative accuracy requires higher terms in the Moyal expansion to be included. The model provides an experimentally relevant example of a molecular Schrodinger's cat state. The alive and dead cats of the exact two state quantum evolution collapses into a ``zombie'' cat in the semiclassical limit -- an averaged behavior, neither alive nor dead, leading to significant errors. The inclusion of the Moyal correction restores a faithful simultaneously alive and dead representation of the cat that is experimentally observable.
翻訳日:2023-09-12 17:37:38 公開日:2023-09-08
# egofalls - エゴセントリックカメラを用いた視覚聴覚データセットと転倒検出ベンチマーク

EGOFALLS: A visual-audio dataset and benchmark for fall detection using egocentric cameras ( http://arxiv.org/abs/2309.04579v1 )

ライセンス: Link先を確認
Xueyi Wang(参考訳) 転倒は重大であり、高齢者のような脆弱な人口にとって致命的である。 これまでの研究は、単一のセンサー、画像、加速度計によるデータキャプチャによるフォールの検出に対処してきた。 本研究では,エゴセントリックカメラで撮影した映像から抽出したマルチモーダルディスクリプタを利用する。 提案手法は,抽出した記述子上に構築した遅延決定融合層を含む。 さらに,提案手法を評価するためのデータセットを新たに収集した。 この種の公開データセットとしてはこれが初めてのものだと考えています。 データセットは、14人の被験者による10,948のビデオサンプルからなる。 個々の特徴抽出器の性能,視覚情報の融合,視覚情報と音声情報の融合を評価するため,アブレーション実験を行った。 さらに,内部および外部のクロスバリデーション実験を行った。 その結果,遅延決定融合による音声情報と視覚情報の融合により検出性能が向上し,転倒防止・緩和に有望なツールとなることが示された。

Falls are significant and often fatal for vulnerable populations such as the elderly. Previous works have addressed the detection of falls by relying on data capture by a single sensor, images or accelerometers. In this work, we rely on multimodal descriptors extracted from videos captured by egocentric cameras. Our proposed method includes a late decision fusion layer that builds on top of the extracted descriptors. Furthermore, we collect a new dataset on which we assess our proposed approach. We believe this is the first public dataset of its kind. The dataset comprises 10,948 video samples by 14 subjects. We conducted ablation experiments to assess the performance of individual feature extractors, fusion of visual information, and fusion of both visual and audio information. Moreover, we experimented with internal and external cross-validation. Our results demonstrate that the fusion of audio and visual information through late decision fusion improves detection performance, making it a promising tool for fall prevention and mitigation.
翻訳日:2023-09-12 17:37:21 公開日:2023-09-08
# mask2anomaly:ユニバーサルオープンセットセグメンテーションのためのマスクトランスフォーマー

Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation ( http://arxiv.org/abs/2309.04573v1 )

ライセンス: Link先を確認
Shyam Nandan Rai, Fabio Cermelli, Barbara Caputo, Carlo Masone(参考訳) 未知または異常なオブジェクトインスタンスのセグメンテーションは、自動運転アプリケーションにおいて重要なタスクであり、伝統的にピクセル単位の分類問題としてアプローチされている。 しかし、文脈意味論を考慮せずに各ピクセルを個別に推論すると、オブジェクトの境界や多数の偽陽性に高い不確実性をもたらす。 本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。 マスクベース手法であるMask2Anomalyは,異常セグメンテーション,オープンセットセマンティックセグメンテーション,オープンセットパノプティクスセグメンテーションを併用するマスク分類アーキテクチャの実現可能性を示した。 Mask2Anomalyには、異常/未知のオブジェクトの検出を改善するために設計されたいくつかの技術的ノベルティが含まれている。 一 前景及び背景地域に個別に焦点をあてるグローバルマスク付注意モジュール 二 異常と既知のクラスの間のマージンを最大化するマスクコントラスト学習 三 偽陽性を減少させるマスク改善液、及び iv)マスク構造特性に基づく未知のインスタンスをマイニングするための新しいアプローチ。 包括的質的・質的評価により,mask2anomalyは,異常セグメンテーション,オープンセット意味セグメンテーション,オープンセットパオプティクスセグメンテーションのベンチマークにおいて,新たな最先端結果を達成する。

Segmenting unknown or anomalous object instances is a critical task in autonomous driving applications, and it is approached traditionally as a per-pixel classification problem. However, reasoning individually about each pixel without considering their contextual semantics results in high uncertainty around the objects' boundaries and numerous false positives. We propose a paradigm change by shifting from a per-pixel classification to a mask classification. Our mask-based method, Mask2Anomaly, demonstrates the feasibility of integrating a mask-classification architecture to jointly address anomaly segmentation, open-set semantic segmentation, and open-set panoptic segmentation. Mask2Anomaly includes several technical novelties that are designed to improve the detection of anomalies/unknown objects: i) a global masked attention module to focus individually on the foreground and background regions; ii) a mask contrastive learning that maximizes the margin between an anomaly and known classes; iii) a mask refinement solution to reduce false positives; and iv) a novel approach to mine unknown instances based on the mask-architecture properties. By comprehensive qualitative and qualitative evaluation, we show Mask2Anomaly achieves new state-of-the-art results across the benchmarks of anomaly segmentation, open-set semantic segmentation, and open-set panoptic segmentation.
翻訳日:2023-09-12 17:37:07 公開日:2023-09-08
# LLMに基づく自律エージェントによるグラフ学習のパワーの解放

Unleashing the Power of Graph Learning through LLM-based Autonomous Agents ( http://arxiv.org/abs/2309.04565v1 )

ライセンス: Link先を確認
Lanning Wei, Zhiqiang He, Huan Zhao, Quanming Yao(参考訳) グラフ構造化データは現実世界のアプリケーションに広く存在し応用されているが、これらの多様なデータや学習タスクを効率的にグラフ上で扱うことは困難である。 複雑なグラフ学習タスクに直面すると、専門家は近年、多様なグラフニューラルネットワーク(GNN)を設計している。 彼らはまた、データ固有のソリューションを自動的に生成するために、AutoML in Graph(別名AutoGraph)を実装した。 その成功にもかかわらず、(1)多様な学習タスクを様々なレベルで管理すること、(2)アーキテクチャ設計を超えてグラフ学習の異なる手順を扱うこと、(3)AutoGraphを使用する際の事前知識に対する大きな要求に直面する。 本稿では,Large Language Models (LLM) を自律エージェントとして使用し,多様な実世界のグラフの学習プロセスを簡素化する。 具体的には、ノード、エッジ、グラフレベルでさまざまなデータや学習対象を含むユーザ要求に応じて、エージェントプランニングに従って、複雑なグラフ学習タスクを3つのコンポーネント、すなわち学習意図の検出、オートグラフに基づくソリューションの構成、応答生成に分解する。 AutoGraphエージェントは、データ処理、AutoML設定、検索アーキテクチャ、ハイパーパラメータの微調整など、グラフの自動学習において重要な手順を管理する。 これらのエージェントでは、これらのコンポーネントを段階的に分解して処理し、ノードやグラフの学習タスクに関係なく、所定のデータに対するソリューションを自動的に生成する。 提案手法はAuto$2$Graphと呼ばれ、異なるデータセットや学習タスクにおける同等の性能を持つ。 その効果は、異なるデータセットと学習タスク、およびエージェントによってなされる人間的な決定における比較パフォーマンスによって示される。

Graph structured data are widely existed and applied in the real-world applications, while it is a challenge to handling these diverse data and learning tasks on graph in an efficient manner. When facing the complicated graph learning tasks, experts have designed diverse Graph Neural Networks (GNNs) in recent years. They have also implemented AutoML in Graph, also known as AutoGraph, to automatically generate data-specific solutions. Despite their success, they encounter limitations in (1) managing diverse learning tasks at various levels, (2) dealing with different procedures in graph learning beyond architecture design, and (3) the huge requirements on the prior knowledge when using AutoGraph. In this paper, we propose to use Large Language Models (LLMs) as autonomous agents to simplify the learning process on diverse real-world graphs. Specifically, in response to a user request which may contain varying data and learning targets at the node, edge, or graph levels, the complex graph learning task is decomposed into three components following the agent planning, namely, detecting the learning intent, configuring solutions based on AutoGraph, and generating a response. The AutoGraph agents manage crucial procedures in automated graph learning, including data-processing, AutoML configuration, searching architectures, and hyper-parameter fine-tuning. With these agents, those components are processed by decomposing and completing step by step, thereby generating a solution for the given data automatically, regardless of the learning task on node or graph. The proposed method is dubbed Auto$^2$Graph, and the comparable performance on different datasets and learning tasks. Its effectiveness is demonstrated by its comparable performance on different datasets and learning tasks, as well as the human-like decisions made by the agents.
翻訳日:2023-09-12 17:36:40 公開日:2023-09-08
# より少ない場合:大規模LLMの事前学習のためのデータプルーニングの調査

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale ( http://arxiv.org/abs/2309.04564v1 )

ライセンス: Link先を確認
Max Marion, Ahmet \"Ust\"un, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker(参考訳) 近年、大量のテキストデータが大規模言語モデル(llm)の開発に大きく貢献している。 このデータは通常、インターネットをスクラップして取得され、ノイズの多いWebテキストからなるデータセットを事前訓練する。 これまで、これらのデータセットを高品質なサブセットにプルダウンする努力は、ルールベースのフィルタとしてコード化された手作りのヒューリスティックに依存している。 本研究では,事前学習データの品質を体系的に測定できるスケーラブルなデータ品質推定手法について,より広い視点で検討する。 また,誤りl2ノルムと記憶の計算集約的な推定を行うとともに,単純なデータ品質推定器であるパープレキシティのスケールで厳密な比較を行った。 これらのメトリクスは、事前学習コーパスのランク付けとプルークーンに使われ、その後、これらのプルーニングデータセットで訓練されたLCMと比較する。 驚くべきことに、パープレキシティのシンプルなテクニックは、計算コストの高いスコアリング方法よりも優れています。 トレーニングデータセットの30%をトレーニングしながら、プライミングなしのベースラインよりも改善しています。 我々の研究は、高品質コーパスを自動キュレートする未探索戦略の基礎を定めており、性能を維持しながら事前学習データの大半を除去することができることを示唆している。

Large volumes of text data have contributed significantly to the development of large language models (LLMs) in recent years. This data is typically acquired by scraping the internet, leading to pretraining datasets comprised of noisy web text. To date, efforts to prune these datasets down to a higher quality subset have relied on hand-crafted heuristics encoded as rule-based filters. In this work, we take a wider view and explore scalable estimates of data quality that can be used to systematically measure the quality of pretraining data. We perform a rigorous comparison at scale of the simple data quality estimator of perplexity, as well as more sophisticated and computationally intensive estimates of the Error L2-Norm and memorization. These metrics are used to rank and prune pretraining corpora, and we subsequently compare LLMs trained on these pruned datasets. Surprisingly, we find that the simple technique of perplexity outperforms our more computationally expensive scoring methods. We improve over our no-pruning baseline while training on as little as 30% of the original training dataset. Our work sets the foundation for unexplored strategies in automatically curating high quality corpora and suggests the majority of pretraining data can be removed while retaining performance.
翻訳日:2023-09-12 17:36:15 公開日:2023-09-08
# NLPモデルは、決定的回答を持たない質問を「識別」、「識別」、「正当化」できるか?

Can NLP Models 'Identify', 'Distinguish', and 'Justify' Questions that Don't have a Definitive Answer? ( http://arxiv.org/abs/2309.04635v1 )

ライセンス: Link先を確認
Ayushi Agarwal, Nisarg Patel, Neeraj Varshney, Mihir Parmar, Pavan Mallina, Aryan Bhavin Shah, Srihari Raju Sangaraju, Tirth Patel, Nihar Thakkar, Chitta Baral(参考訳) 最先端(SOTA)のNLPシステムは、様々な言語理解タスクにおいて顕著なパフォーマンスを達成しているが、それらは主に正しい決定的な答えを持つ質問に焦点を当てている。 しかし、現実世界のアプリケーションでは、ユーザーは決定的な答えのない質問をすることが多い。 このような質問に対する誤った回答は,システムの信頼性と信頼性を損なうことは間違いありません。 SOTAモデルはそのような質問を正確に識別し、合理的な応答を提供できるか? そこで本研究では,5つのカテゴリの質問から成るデータセットであるQnotAを紹介した。 さらに、各QnotAインスタンスに対して、対応するQAインスタンスを提供する。 本研究では,システムの「識別」,「識別」,「正当化」の能力をテストする3つの評価タスクを定式化する。 GPT-3 や Flan T5 などの SOTA モデルでさえ,これらの課題にうまく対応せず,人為的な性能ベースラインをかなり欠いていることを示す。 我々は、いくつかの興味深い発見を導く詳細な分析を行う。 全体として、我々の研究と発見は、この重要な領域におけるさらなる研究を奨励し、促進し、より堅牢なモデルの開発に役立つと信じています。

Though state-of-the-art (SOTA) NLP systems have achieved remarkable performance on a variety of language understanding tasks, they primarily focus on questions that have a correct and a definitive answer. However, in real-world applications, users often ask questions that don't have a definitive answer. Incorrectly answering such questions certainly hampers a system's reliability and trustworthiness. Can SOTA models accurately identify such questions and provide a reasonable response? To investigate the above question, we introduce QnotA, a dataset consisting of five different categories of questions that don't have definitive answers. Furthermore, for each QnotA instance, we also provide a corresponding QA instance i.e. an alternate question that ''can be'' answered. With this data, we formulate three evaluation tasks that test a system's ability to 'identify', 'distinguish', and 'justify' QnotA questions. Through comprehensive experiments, we show that even SOTA models including GPT-3 and Flan T5 do not fare well on these tasks and lack considerably behind the human performance baseline. We conduct a thorough analysis which further leads to several interesting findings. Overall, we believe our work and findings will encourage and facilitate further research in this important area and help develop more robust models.
翻訳日:2023-09-12 17:29:51 公開日:2023-09-08
# WSInferとQuPathによる病理のためのオープンで再利用可能なディープラーニング

Open and reusable deep learning for pathology with WSInfer and QuPath ( http://arxiv.org/abs/2309.04631v1 )

ライセンス: Link先を確認
Jakub R. Kaczmarzyk, Alan O'Callaghan, Fiona Inglis, Tahsin Kurc, Rajarsi Gupta, Erich Bremer, Peter Bankhead, Joel H. Saltz(参考訳) デジタル病理学の分野は近年深層学習モデルの普及が見られる。 かなりの進歩にもかかわらず、他の研究者や病理学者が論文で公開されたモデルにアクセスし、自身の画像に適用することは稀である。 これはモデル共有と実行の両方が難しいためである。 これらの懸念に対処するために、我々はWSInferを紹介します。これは、病理学の深い学習をより合理化してアクセス可能にするために設計された、オープンソースの新しいエコシステムです。 wsinfer の主な要素は3つある。 1)Pythonパッケージとコマンドラインツールで,全スライドイメージにパッチベースのディープラーニング推論を効率的に適用する。 2)ユーザフレンドリーでインタラクティブなソフトウェアを通じて代替推論エンジンを提供するqupath拡張と, 3) 病理モデルとメタデータを標準化された形式で簡単に共有できるモデル動物園。 これらの貢献は、研究目的の深層学習モデルの再利用、探索、問合せを促進することを目的としており、これを病理学者の手に委ね、qupath経由でアクセスする際にコーディング経験の必要性をなくすことが目的である。 WSInferのソースコードはGitHubにホストされており、ドキュメントはhttps://wsinfer.readthedocs.ioで公開されている。

The field of digital pathology has seen a proliferation of deep learning models in recent years. Despite substantial progress, it remains rare for other researchers and pathologists to be able to access models published in the literature and apply them to their own images. This is due to difficulties in both sharing and running models. To address these concerns, we introduce WSInfer: a new, open-source software ecosystem designed to make deep learning for pathology more streamlined and accessible. WSInfer comprises three main elements: 1) a Python package and command line tool to efficiently apply patch-based deep learning inference to whole slide images; 2) a QuPath extension that provides an alternative inference engine through user-friendly and interactive software, and 3) a model zoo, which enables pathology models and metadata to be easily shared in a standardized form. Together, these contributions aim to encourage wider reuse, exploration, and interrogation of deep learning models for research purposes, by putting them into the hands of pathologists and eliminating a need for coding experience when accessed through QuPath. The WSInfer source code is hosted on GitHub and documentation is available at https://wsinfer.readthedocs.io.
翻訳日:2023-09-12 17:29:29 公開日:2023-09-08
# スケーラブル分類器の有限族による確率的安全領域

Probabilistic Safety Regions Via Finite Families of Scalable Classifiers ( http://arxiv.org/abs/2309.04627v1 )

ライセンス: Link先を確認
Alberto Carlevaro, Teodoro Alamo, Fabrizio Dabbene and Maurizio Mongelli(参考訳) 教師付き分類は、データのパターンを別々の振る舞いのクラスに認識する。 正準解は、機械学習の数値近似の性質に固有の誤分類誤差を含む。 データアナリストは、他のクラスのエラーを増やすために、クラスの分類エラーを最小限にすることができる。 このような設計フェーズのエラー制御は、しばしばヒューリスティックな方法で行われる。 この文脈では、得られた分類器に確率的証明を提供する理論基盤を開発することが重要である。 本稿では,誤分類されたインスタンス数を確率的に制御する入力空間のサブセットを記述するために,確率的安全領域の概念を導入する。 スケーラブルな分類器の概念は、機械学習のチューニングとエラー制御を結びつけるために利用される。 いくつかのテストがアプローチを裏付ける。 それらは合成データによって提供され、関連するすべてのステップをハイライトし、スマートモビリティアプリケーションを通じて提供される。

Supervised classification recognizes patterns in the data to separate classes of behaviours. Canonical solutions contain misclassification errors that are intrinsic to the numerical approximating nature of machine learning. The data analyst may minimize the classification error on a class at the expense of increasing the error of the other classes. The error control of such a design phase is often done in a heuristic manner. In this context, it is key to develop theoretical foundations capable of providing probabilistic certifications to the obtained classifiers. In this perspective, we introduce the concept of probabilistic safety region to describe a subset of the input space in which the number of misclassified instances is probabilistically controlled. The notion of scalable classifiers is then exploited to link the tuning of machine learning with error control. Several tests corroborate the approach. They are provided through synthetic data in order to highlight all the steps involved, as well as through a smart mobility application.
翻訳日:2023-09-12 17:29:10 公開日:2023-09-08
# 低ランクメトリック学習のための知覚調整クエリと逆計測パラダイム

Perceptual adjustment queries and an inverted measurement paradigm for low-rank metric learning ( http://arxiv.org/abs/2309.04626v1 )

ライセンス: Link先を確認
Austin Xu, Andrew D. McRae, Jingyan Wang, Mark A. Davenport, Ashwin Pananjady(参考訳) 我々は,人間からのフィードバックを収集する新しいタイプの問合せ機構であるperceptual adjustment query (paq)を提案する。 情報的かつ認知的に軽量なpaqは、逆測定スキームを採用し、基数と順序の両方のクエリの利点を組み合わせる。 そこでは,未知のマハラノビス距離を学習するために,PAQの測定値を収集した。 これにより、標準行列推定器を適用できない高次元の低ランク行列推定問題が発生する。 そこで我々は,PAQからのメトリック学習のための2段階推定器を開発し,この推定器の複雑さの保証を行う。 本稿では,推定器の性能とその特性を示す数値シミュレーションを行う。

We introduce a new type of query mechanism for collecting human feedback, called the perceptual adjustment query ( PAQ). Being both informative and cognitively lightweight, the PAQ adopts an inverted measurement scheme, and combines advantages from both cardinal and ordinal queries. We showcase the PAQ in the metric learning problem, where we collect PAQ measurements to learn an unknown Mahalanobis distance. This gives rise to a high-dimensional, low-rank matrix estimation problem to which standard matrix estimators cannot be applied. Consequently, we develop a two-stage estimator for metric learning from PAQs, and provide sample complexity guarantees for this estimator. We present numerical simulations demonstrating the performance of the estimator and its notable properties.
翻訳日:2023-09-12 17:28:57 公開日:2023-09-08
# 3QubitエンタングルのA,B,C:すべてを制御するための3ベクトル

A, B, C of Three-Qubit Entanglement: Three Vectors to Control It All ( http://arxiv.org/abs/2309.04621v1 )

ライセンス: Link先を確認
Dmitry B. Uskov and Paul M. Alsing(参考訳) 本稿では,3ビットシステムにおける絡み合い制御の問題に着目する。 su(4) 2量子ビット群のso(6)表現に付随する絡み目のベクトル表現は解析的に様々な制御問題を解決できることを実証する。 i) W型状態とGHZ状態の間の変換 (二)二分コンカーレンス及び三つ方を2つのキュービットのみの限定アクセスで操作すること、及び (iii) usp(4)型四元数演算と量子状態の設計

In this paper we are focusing on entanglement control problem in a three-qubit system. We demonstrate that vector representation of entanglement, associated with SO(6) representation of SU(4) two-qubit group, can be used to solve various control problems analytically including (i) the transformation between a W-type states and GHZ state, and (ii) manipulating bipartite concurrences and three-tangle under a restricted access to only two qubits, and (iii) designing USp(4)-type quaternionic operations and quantum states.
翻訳日:2023-09-12 17:28:45 公開日:2023-09-08
# 知識蒸留による異常検出のためのデジタル双生児

Knowledge Distillation-Empowered Digital Twin for Anomaly Detection ( http://arxiv.org/abs/2309.04616v1 )

ライセンス: Link先を確認
Qinghua Xu, Shaukat Ali, Tao Yue, Zaimovic Nedim, and Inderjeet Singh(参考訳) 列車制御・管理システム(TCMS)のようなサイバー物理システム(CPS)は、重要なインフラにおいてユビキタスになりつつある。 安全性を重要視するシステムとしては,運用時の信頼性の確保が重要である。 デジタルツイン(dts)は、ランタイム監視と警告、異常の予測と検出などの能力により、この目的で研究されている。 しかし,TCMSにおける異常検出のためのDTの構築には十分なトレーニングデータが必要である。 そこで本研究では,TCMS異常検出のための新しいKDDT法を提案する。 KDDTは言語モデル(LM)と長期短期記憶(LSTM)ネットワークを利用して、それぞれコンテキストと時系列の特徴を抽出する。 データ量を高めるため、kddtは知識蒸留(kd)によるドメイン外データから恩恵を受ける。 我々は,KDDTを業界パートナーAlstomの2つのデータセットで評価し,それぞれ0.931と0.915のF1スコアを取得し,KDDTの有効性を実証した。 また,KDDTの総合的評価を通じて,DTモデル,LM,KDの個人的貢献についても検討し,平均F1得点改善率を12.4%,3%,6.05%とした。

Cyber-physical systems (CPSs), like train control and management systems (TCMS), are becoming ubiquitous in critical infrastructures. As safety-critical systems, ensuring their dependability during operation is crucial. Digital twins (DTs) have been increasingly studied for this purpose owing to their capability of runtime monitoring and warning, prediction and detection of anomalies, etc. However, constructing a DT for anomaly detection in TCMS necessitates sufficient training data and extracting both chronological and context features with high quality. Hence, in this paper, we propose a novel method named KDDT for TCMS anomaly detection. KDDT harnesses a language model (LM) and a long short-term memory (LSTM) network to extract contexts and chronological features, respectively. To enrich data volume, KDDT benefits from out-of-domain data with knowledge distillation (KD). We evaluated KDDT with two datasets from our industry partner Alstom and obtained the F1 scores of 0.931 and 0.915, respectively, demonstrating the effectiveness of KDDT. We also explored individual contributions of the DT model, LM, and KD to the overall performance of KDDT, via a comprehensive empirical study, and observed average F1 score improvements of 12.4%, 3%, and 6.05%, respectively.
翻訳日:2023-09-12 17:28:37 公開日:2023-09-08
# 価値ベースマルチエージェント強化学習における世界モデル絡み合いの活用

Leveraging World Model Disentanglement in Value-Based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2309.04615v1 )

ライセンス: Link先を確認
Zhizun Wang and David Meger(参考訳) 本稿では,複数のエージェントが同一環境内で対話する共通目標を達成するための,サンプル複雑性の低減という課題を解決するために,異種世界モデルを用いた,新しいモデルベースマルチエージェント強化学習手法であるvalue decomposition frameworkを提案する。 マルチエージェントシステムによって生じるスケーラビリティと非定常性の問題により、モデルフリーな手法はトレーニングのためにかなりの数のサンプルに依存している。 対照的に、動作条件付き、アクションフリー、静的ブランチで構成されたモジュール化された世界モデルを用いて、実環境から直接サンプリングすることなく、過去の経験に基づいて環境ダイナミクスを解き放ち、想像結果を生成する。 本研究では,多変量オートエンコーダと変分グラフオートエンコーダを用いて世界モデルの潜在表現を学習する。 本手法は, 簡単な, 硬い, 超硬いstarcraft iiのマイクロマネージメント課題に対して, 実験結果を示し, 高いサンプル効率を達成し, 他のベースラインと比較して敵軍を破る上で優れた性能を示す。

In this paper, we propose a novel model-based multi-agent reinforcement learning approach named Value Decomposition Framework with Disentangled World Model to address the challenge of achieving a common goal of multiple agents interacting in the same environment with reduced sample complexity. Due to scalability and non-stationarity problems posed by multi-agent systems, model-free methods rely on a considerable number of samples for training. In contrast, we use a modularized world model, composed of action-conditioned, action-free, and static branches, to unravel the environment dynamics and produce imagined outcomes based on past experience, without sampling directly from the real environment. We employ variational auto-encoders and variational graph auto-encoders to learn the latent representations for the world model, which is merged with a value-based framework to predict the joint action-value function and optimize the overall training objective. We present experimental results in Easy, Hard, and Super-Hard StarCraft II micro-management challenges to demonstrate that our method achieves high sample efficiency and exhibits superior performance in defeating the enemy armies compared to other baselines.
翻訳日:2023-09-12 17:28:16 公開日:2023-09-08
# カテゴリーハッシュ表現と階層強化交差による自己最適化特徴生成

Self-optimizing Feature Generation via Categorical Hashing Representation and Hierarchical Reinforcement Crossing ( http://arxiv.org/abs/2309.04612v1 )

ライセンス: Link先を確認
Wangyang Ying, Dongjie Wang, Kunpeng Liu, Leilei Sun, Yanjie Fu(参考訳) 特徴生成は、識別的表現空間を作成するために、新しい意味のある特徴を生成することを目的としており、生成した特徴が特徴対と固有の特徴相互作用から生まれたときに意味を持つ。 実世界では、経験豊富なデータサイエンティストが潜在的に有用な特徴-機能相互作用を識別し、指数関数的に大きな探索空間から最適生成経路上の最適な交差形式で有意義な次元を生成することができる。 しかし,機械は人間のような能力に制限があり,自己最適化機能生成のような学習タスクを一般化する。 自己最適化機能生成は、有意義で堅牢で効率的な生成という、既存のシステムに未対応の課題を課す。 これらの課題に対処するために,ハッシング表現を実現するために,特徴の離散化,特徴のハッシュ化,記述的要約という3段階のアプローチを提案する。 提案手法の有効性と有効性を示すために, 階層的補強機能横断手法を開発し, 広範な実験結果を示す。 コードはhttps://github.com/yingwangyang/hrc_feature_cross.gitで入手できる。

Feature generation aims to generate new and meaningful features to create a discriminative representation space.A generated feature is meaningful when the generated feature is from a feature pair with inherent feature interaction. In the real world, experienced data scientists can identify potentially useful feature-feature interactions, and generate meaningful dimensions from an exponentially large search space, in an optimal crossing form over an optimal generation path. But, machines have limited human-like abilities.We generalize such learning tasks as self-optimizing feature generation. Self-optimizing feature generation imposes several under-addressed challenges on existing systems: meaningful, robust, and efficient generation. To tackle these challenges, we propose a principled and generic representation-crossing framework to solve self-optimizing feature generation.To achieve hashing representation, we propose a three-step approach: feature discretization, feature hashing, and descriptive summarization. To achieve reinforcement crossing, we develop a hierarchical reinforcement feature crossing approach.We present extensive experimental results to demonstrate the effectiveness and efficiency of the proposed method. The code is available at https://github.com/yingwangyang/HRC_feature_cross.git.
翻訳日:2023-09-12 17:27:55 公開日:2023-09-08
# スタイル生成:粗いマッチしたテキストに基づく画像合成

Style Generation: Image Synthesis based on Coarsely Matched Texts ( http://arxiv.org/abs/2309.04608v1 )

ライセンス: Link先を確認
Mengyao Cui, Zhe Zhu, Shao-Ping Lu, Yulu Yang(参考訳) 従来のテキストと画像の合成アルゴリズムは、通常、明示的なテキスト命令を使って画像を正確に生成・操作するが、粗い一致したテキストの形でのガイダンスへの適応は困難である。 本研究では,このような粗一致テキストを指導として,入力画像のスタイライゼーションを試みる。 この問題に対処するため,テキストベーススタイル生成と呼ばれる新しいタスクを導入し,第1段は文特徴付き全体画像スタイルを生成し,第2段は多モードスタイル合成モジュールで生成した合成特徴付き全体画像スタイルを改良する2段階生成対向ネットワークを提案する。 既存のデータセットを再フィルタし、タスクのための新しいデータセットを収集します。 本研究の枠組みを検証するため,大規模な実験およびアブレーション研究を行った。 本研究の実用性は,テキスト画像アライメントやストーリー視覚化といった様々な応用によって実証されている。 データセットはhttps://www.kaggle.com/datasets/mengyaocui/style-generationで公開しています。

Previous text-to-image synthesis algorithms typically use explicit textual instructions to generate/manipulate images accurately, but they have difficulty adapting to guidance in the form of coarsely matched texts. In this work, we attempt to stylize an input image using such coarsely matched text as guidance. To tackle this new problem, we introduce a novel task called text-based style generation and propose a two-stage generative adversarial network: the first stage generates the overall image style with a sentence feature, and the second stage refines the generated style with a synthetic feature, which is produced by a multi-modality style synthesis module. We re-filter one existing dataset and collect a new dataset for the task. Extensive experiments and ablation studies are conducted to validate our framework. The practical potential of our work is demonstrated by various applications such as text-image alignment and story visualization. Our datasets are published at https://www.kaggle.com/datasets/mengyaocui/style-generation.
翻訳日:2023-09-12 17:27:36 公開日:2023-09-08
# 意味的テクスト類似性を用いた症状のリンク

Linking Symptom Inventories using Semantic Textual Similarity ( http://arxiv.org/abs/2309.04607v1 )

ライセンス: Link先を確認
Eamonn Kennedy, Shashank Vadlamani, Hannah M Lindsey, Kelly S Peterson, Kristen Dams OConnor, Kenton Murray, Ronak Agarwal, Houshang H Amiri, Raeda K Andersen, Talin Babikian, David A Baron, Erin D Bigler, Karen Caeyenberghs, Lisa Delano-Wood, Seth G Disner, Ekaterina Dobryakova, Blessen C Eapen, Rachel M Edelstein, Carrie Esopenko, Helen M Genova, Elbert Geuze, Naomi J Goodrich-Hunsaker, Jordan Grafman, Asta K Haberg, Cooper B Hodges, Kristen R Hoskinson, Elizabeth S Hovenden, Andrei Irimia, Neda Jahanshad, Ruchira M Jha, Finian Keleher, Kimbra Kenney, Inga K Koerte, Spencer W Liebel, Abigail Livny, Marianne Lovstad, Sarah L Martindale, Jeffrey E Max, Andrew R Mayer, Timothy B Meier, Deleene S Menefee, Abdalla Z Mohamed, Stefania Mondello, Martin M Monti, Rajendra A Morey, Virginia Newcombe, Mary R Newsome, Alexander Olsen, Nicholas J Pastorek, Mary Jo Pugh, Adeel Razi, Jacob E Resch, Jared A Rowland, Kelly Russell, Nicholas P Ryan, Randall S Scheibel, Adam T Schmidt, Gershon Spitz, Jaclyn A Stephens, Assaf Tal, Leah D Talbert, Maria Carmela Tartaglia, Brian A Taylor, Sophia I Thomopoulos, Maya Troyanskaya, Eve M Valera, Harm Jan van der Horn, John D Van Horn, Ragini Verma, Benjamin SC Wade, Willian SC Walker, Ashley L Ware, J Kent Werner Jr, Keith Owen Yeates, Ross D Zafonte, Michael M Zeineh, Brandon Zielinski, Paul M Thompson, Frank G Hillary, David F Tate, Elisabeth A Wilde, Emily L Dennis(参考訳) 症状目録の広範なライブラリーは、臨床症状を測定するために時間をかけて開発されてきたが、この多様性はいくつかの長期にわたる問題につながった。 特に、異なる設定や研究から得られた結果は、再現性を制限するような比較にはならない。 本稿では,意味的テキスト類似性(STS)を用いた人工知能(AI)アプローチを提案する。 トレーニング済みのSTSモデル4つを使って、関連するコンテンツに対して数千の症状記述ペアをスクリーニングする機能をテストしました。 モデルは、16の国際データソースから抽出された6,607人の参加者に対して、4つの異なる在庫にまたがる症状の重症度を予測する。 STSのアプローチは5つのタスクで74.8%の精度を達成した。 本研究は、文脈的意味情報を組み込むことによって、専門家による意思決定プロセスを支援することが示唆され、一般および疾患特異的な臨床評価に利益をもたらす。

An extensive library of symptom inventories has been developed over time to measure clinical symptoms, but this variety has led to several long standing issues. Most notably, results drawn from different settings and studies are not comparable, which limits reproducibility. Here, we present an artificial intelligence (AI) approach using semantic textual similarity (STS) to link symptoms and scores across previously incongruous symptom inventories. We tested the ability of four pre-trained STS models to screen thousands of symptom description pairs for related content - a challenging task typically requiring expert panels. Models were tasked to predict symptom severity across four different inventories for 6,607 participants drawn from 16 international data sources. The STS approach achieved 74.8% accuracy across five tasks, outperforming other models tested. This work suggests that incorporating contextual, semantic information can assist expert decision-making processes, yielding gains for both general and disease-specific clinical assessment.
翻訳日:2023-09-12 17:27:19 公開日:2023-09-08
# ハプティック表現の事前学習による実演からの力に基づく運動のFew-Shot学習

Few-Shot Learning of Force-Based Motions From Demonstration Through Pre-training of Haptic Representation ( http://arxiv.org/abs/2309.04640v1 )

ライセンス: Link先を確認
Marina Y. Aoyama, Jo\~ao Moura, Namiko Saito, Sethu Vijayakumar(参考訳) 多くの接触の多いタスクにおいて、力センシングは、操作対象の物理的特性に動きを適用する上で重要な役割を果たす。 ロボットが被写体に対する学習操作タスクの一般化に必要なオブジェクト特性の分散を捉えるためには、既存のlfd(learning from demonstration)アプローチは、多くの高価な人間のデモンストレーションを必要とする。 提案する半教師付きLfDアプローチは,学習モデルを触覚表現エンコーダとモーション生成デコーダに分解する。 これにより、大量の教師なしデータを使って第1に事前訓練を行え、かつ、LfDを使って第2に訓練し、人間の学習スキルの利点を活用することができる。 剛性と表面摩擦の異なるスポンジを用いたワイピング作業に対するアプローチを検証する。 以上の結果から,プレトレーニングにより,LfDモデルの物理的特性の認識能力が向上し,未確認のスポンジに対して所望のワイピング動作が生成できることが示唆された。 半教師付きLfDモデルにより生成された動作を,KUKAアイワロボットアームを用いて物理ロボットハードウェア上で検証する。 また,シミュレーションで事前学習されたハプティック表現エンコーダが実物体の特性をキャプチャし,下流タスクの一般化に寄与することを示す。

In many contact-rich tasks, force sensing plays an essential role in adapting the motion to the physical properties of the manipulated object. To enable robots to capture the underlying distribution of object properties necessary for generalising learnt manipulation tasks to unseen objects, existing Learning from Demonstration (LfD) approaches require a large number of costly human demonstrations. Our proposed semi-supervised LfD approach decouples the learnt model into an haptic representation encoder and a motion generation decoder. This enables us to pre-train the first using large amount of unsupervised data, easily accessible, while using few-shot LfD to train the second, leveraging the benefits of learning skills from humans. We validate the approach on the wiping task using sponges with different stiffness and surface friction. Our results demonstrate that pre-training significantly improves the ability of the LfD model to recognise physical properties and generate desired wiping motions for unseen sponges, outperforming the LfD method without pre-training. We validate the motion generated by our semi-supervised LfD model on the physical robot hardware using the KUKA iiwa robot arm. We also validate that the haptic representation encoder, pre-trained in simulation, captures the properties of real objects, explaining its contribution to improving the generalisation of the downstream task.
翻訳日:2023-09-12 17:16:02 公開日:2023-09-08
# エンドツーエンド自動運転のためのマルチタスクunetアーキテクチャ

Multi-task UNet architecture for end-to-end autonomous driving ( http://arxiv.org/abs/2112.08967v2 )

ライセンス: Link先を確認
Der-Hau Lee and Jinn-Liang Liu(参考訳) 本稿では,マルチタスク unet (mtunet) アーキテクチャと制御アルゴリズムを統合したエンド・ツー・エンド駆動モデルを提案する。 エンド・ツー・エンド駆動システムの総合的、動的、リアルタイムな性能を評価するための定量的尺度を提供し、MTUNetの安全性と解釈性を提供する。 このアーキテクチャは1つのセグメンテーションと1つの回帰、レーンセグメンテーション、経路予測、車両制御のための2つの分類タスクで構成されている。 複雑度が異なるアーキテクチャの3つの変種を1つのタスクと複数タスクの両方に対して4つの静的測度で比較し、さらに2つの動的測度を実時間シミュレーションで同定する。 その結果,提案する教師付き学習モデルの性能は,エンド・ツー・エンドではなくマルチモジュールである同じタスクに対して,カービブ・ロード上で強化学習モデルと同等であることが判明した。

We propose an end-to-end driving model that integrates a multi-task UNet (MTUNet) architecture and control algorithms in a pipeline of data flow from a front camera through this model to driving decisions. It provides quantitative measures to evaluate the holistic, dynamic, and real-time performance of end-to-end driving systems and thus the safety and interpretability of MTUNet. The architecture consists of one segmentation, one regression, and two classification tasks for lane segmentation, path prediction, and vehicle controls. We present three variants of the architecture having different complexities, compare them on different tasks in four static measures for both single and multiple tasks, and then identify the best one by two additional dynamic measures in real-time simulation. Our results show that the performance of the proposed supervised learning model is comparable to that of a reinforcement learning model on curvy roads for the same task, which is not end-to-end but multi-module.
翻訳日:2023-09-11 19:02:54 公開日:2023-09-08
# ニューラルガイドMAGSACを用いた適応リオーダーサンプリング

Adaptive Reordering Sampler with Neurally Guided MAGSAC ( http://arxiv.org/abs/2111.14093v3 )

ライセンス: Link先を確認
Tong Wei, Jiri Matas, Daniel Barath(参考訳) そこで本研究では,イリアーのみからなる確率が最も高いサンプルを常に選択するロバスト推定器のための新しいサンプリング器を提案する。 繰り返しが失敗した後、インリエー確率はベイズ的アプローチによって原理的に更新される。 ディープネットワークによって得られる確率は、サンプリング装置内の事前(いわゆるニューラルガイダンス)として使用される。 さらに,任意の特徴(例えばsift や superpoint など)に対して推定可能な向きとスケールを,幾何学的に正当化可能な方法で活用し,二視点幾何学を推定する新たな損失を導入する。 新しい損失は、下層のシーン幾何学に関する高次情報を学ぶのに役立つ。 新しいサンプルと提案された損失から恩恵を得て、ニューラルガイダンスと最先端のMAGSAC++を組み合わせる。 Adaptive Reordering Sampler with Neurally Guided MAGSAC (ARS-MAGSAC) は、基本的および基本的行列推定のためのPhotoTourismおよびKITTIデータセットの精度と実行時間において最先端の手法よりも優れている。 コードとトレーニングされたモデルはhttps://github.com/weitong8591/ars_magsacで入手できる。

We propose a new sampler for robust estimators that always selects the sample with the highest probability of consisting only of inliers. After every unsuccessful iteration, the inlier probabilities are updated in a principled way via a Bayesian approach. The probabilities obtained by the deep network are used as prior (so-called neural guidance) inside the sampler. Moreover, we introduce a new loss that exploits, in a geometrically justifiable manner, the orientation and scale that can be estimated for any type of feature, e.g., SIFT or SuperPoint, to estimate two-view geometry. The new loss helps to learn higher-order information about the underlying scene geometry. Benefiting from the new sampler and the proposed loss, we combine the neural guidance with the state-of-the-art MAGSAC++. Adaptive Reordering Sampler with Neurally Guided MAGSAC (ARS-MAGSAC) is superior to the state-of-the-art in terms of accuracy and run-time on the PhotoTourism and KITTI datasets for essential and fundamental matrix estimation. The code and trained models are available at https://github.com/weitong8591/ars_magsac.
翻訳日:2023-09-11 19:02:21 公開日:2023-09-08
# ランダム化最小二乗値反復のための周波数レグレト境界

Frequentist Regret Bounds for Randomized Least-Squares Value Iteration ( http://arxiv.org/abs/1911.00567v7 )

ライセンス: Link先を確認
Andrea Zanette, David Brandfonbrener, Emma Brunskill, Matteo Pirotta, Alessandro Lazaric(参考訳) 有限水平強化学習(RL)における探索・探索ジレンマについて考察する。 状態空間が大きいときや連続の場合、従来の表式アプローチは実現不可能であり、ある種の関数近似は必須である。 本稿では、ランダム化最小二乗関数の最小二乗近似を摂動することによって探索を誘導するモデルフリーなアルゴリズム、RLSVIの楽観的に初期化した変種を紹介する。 マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$\widetilde O(d^2 H^2 \sqrt{T})$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ がステップの総数であることを示す。 我々の知る限りでは、これは関数近似によるランダムな探索に対する最初の頻繁な後悔分析である。

We consider the exploration-exploitation dilemma in finite-horizon reinforcement learning (RL). When the state space is large or continuous, traditional tabular approaches are unfeasible and some form of function approximation is mandatory. In this paper, we introduce an optimistically-initialized variant of the popular randomized least-squares value iteration (RLSVI), a model-free algorithm where exploration is induced by perturbing the least-squares approximation of the action-value function. Under the assumption that the Markov decision process has low-rank transition dynamics, we prove that the frequentist regret of RLSVI is upper-bounded by $\widetilde O(d^2 H^2 \sqrt{T})$ where $ d $ are the feature dimension, $ H $ is the horizon, and $ T $ is the total number of steps. To the best of our knowledge, this is the first frequentist regret analysis for randomized exploration with function approximation.
翻訳日:2023-09-11 19:02:02 公開日:2023-09-08
# 情報処理等式と情報リスクブリッジ

Information Processing Equalities and the Information-Risk Bridge ( http://arxiv.org/abs/2207.11987v2 )

ライセンス: Link先を確認
Robert C. Williamson and Zac Cranko(参考訳) 統計実験のための情報測定の2つの新しいクラスを導入し、$\phi$-divergences, integral probability metrics, $\mathfrak{N}$-distances (MMD), $(f,\Gamma)$ divergences を2つ以上の分布間で一般化する。 これにより、情報の測度と統計的決定問題のベイズリスクの間の単純な幾何学的関係を導出し、変分$\phi$-divergence表現を完全に対称的に複数の分布に拡張することができる。 新しい発散の族はマルコフ作用素の作用により閉ざされ、古典的なデータ処理の不平等の洗練と一般化である情報処理の平等が生じる。 この等式は古典的リスク最小化における仮説クラスの選択の重要性についての洞察を与える。

We introduce two new classes of measures of information for statistical experiments which generalise and subsume $\phi$-divergences, integral probability metrics, $\mathfrak{N}$-distances (MMD), and $(f,\Gamma)$ divergences between two or more distributions. This enables us to derive a simple geometrical relationship between measures of information and the Bayes risk of a statistical decision problem, thus extending the variational $\phi$-divergence representation to multiple distributions in an entirely symmetric manner. The new families of divergence are closed under the action of Markov operators which yields an information processing equality which is a refinement and generalisation of the classical data processing inequality. This equality gives insight into the significance of the choice of the hypothesis class in classical risk minimization.
翻訳日:2023-09-11 18:59:46 公開日:2023-09-08
# 需要学習と資源消費バランスを考慮したネットワーク収益管理

Network Revenue Management with Demand Learning and Fair Resource-Consumption Balancing ( http://arxiv.org/abs/2207.11159v3 )

ライセンス: Link先を確認
Xi Chen, Jiameng Lyu, Yining Wang, Yuan Zhou(参考訳) 総収入の最大化に加えて、多くの業界の意思決定者は、異なるリソース間でのバランスのとれた消費を保証したいと考えている。 例えば、小売業界では、異なるサプライヤからのリソースのバランスの取れた消費を確保することが公平性を高め、健全なチャネル関係をもたらす。 そこで本研究では,需要学習と資源消費バランスの両面で,価格に基づくネットワーク収益管理(NRM)の問題について検討する。 我々は、公平な資源消費バランスを収益の最大化目標に組み込むことを目的として、正規化収益、すなわちバランスの取れた総収益を導入する。 正規化収益を最大化するために,UCB (Upper-Confidence-Bound) 要求学習手法を用いた原始二重型オンラインポリシーを提案する。 我々は,アルゴリズムを連続的な価格設定のための統一的で計算効率のよいフレームワークにするために,いくつかの革新的な手法を採用する。 我々のアルゴリズムは、$\widetilde O(N^{5/2}\sqrt{T})$, $N$は製品数を表し、$T$は期間数を表す。 いくつかのnrm例における数値実験は、収益の最大化と公平な資源消費バランスを同時に達成するアルゴリズムの有効性を実証する。

In addition to maximizing the total revenue, decision-makers in lots of industries would like to guarantee balanced consumption across different resources. For instance, in the retailing industry, ensuring a balanced consumption of resources from different suppliers enhances fairness and helps main a healthy channel relationship; in the cloud computing industry, resource-consumption balance helps increase customer satisfaction and reduce operational costs. Motivated by these practical needs, this paper studies the price-based network revenue management (NRM) problem with both demand learning and fair resource-consumption balancing. We introduce the regularized revenue, i.e., the total revenue with a balancing regularization, as our objective to incorporate fair resource-consumption balancing into the revenue maximization goal. We propose a primal-dual-type online policy with the Upper-Confidence-Bound (UCB) demand learning method to maximize the regularized revenue. We adopt several innovative techniques to make our algorithm a unified and computationally efficient framework for the continuous price set and a wide class of balancing regularizers. Our algorithm achieves a worst-case regret of $\widetilde O(N^{5/2}\sqrt{T})$, where $N$ denotes the number of products and $T$ denotes the number of time periods. Numerical experiments in a few NRM examples demonstrate the effectiveness of our algorithm in simultaneously achieving revenue maximization and fair resource-consumption balancing
翻訳日:2023-09-11 18:59:28 公開日:2023-09-08
# 真の曖昧さの生成と検出 - DNNスーパービジョンテストにおける忘れられた危険

Generating and Detecting True Ambiguity: A Forgotten Danger in DNN Supervision Testing ( http://arxiv.org/abs/2207.10495v2 )

ライセンス: Link先を確認
Michael Weiss, Andr\'e Garc\'ia G\'omez, Paolo Tonella(参考訳) ディープニューラルネットワーク(dnn)は、現代のソフトウェアシステムにおいて重要なコンポーネントになりつつあるが、トレーニング中に観測されたものとは異なる状況や、真にあいまいな入力、すなわちラベルに0の確率を持たない複数のクラスを許容する入力で失敗する傾向がある。 近年のDNNスーパーバイザーは、誤分類が起こる前に不確実な入力を検出することを提案する。 DNNスーパーバイザーの能力をテストし比較するために、研究者はテスト生成技術を提案し、スーパーバイザーが異常と認識すべき高不確実性インプットに焦点を当てた。 しかし、既存のテストジェネレータは、分散インプットの生成を目指している。 既存のモデルおよび監督的独立技術は、真に曖昧なテストインプット、すなわち、専門家の人間の判断に従って複数のクラスを許容するインプットの生成をターゲットとしない。 本稿では,dnnスーパーバイザをテストするために,曖昧な入力を生成する新しい手法を提案し,既存のスーパーバイザ手法を経験的に比較する。 特に,画像分類問題に対するあいまいなサンプルを生成するためにAmbiGuessを提案する。 AmbiGuessは正規化対向オートエンコーダの潜在空間における勾配誘導サンプリングに基づいている。 さらに、我々は、dnnの監督者に対する最も広範な比較調査を行い、真にあいまいなものを含む4つの異なるタイプの高精度入力を検出する能力について検討した。 真のあいまいさを検出するのに最も適しているものは、不正で分散的でない入力や逆の入力や逆の入力に対してより悪い結果をもたらす。

Deep Neural Networks (DNNs) are becoming a crucial component of modern software systems, but they are prone to fail under conditions that are different from the ones observed during training (out-of-distribution inputs) or on inputs that are truly ambiguous, i.e., inputs that admit multiple classes with nonzero probability in their labels. Recent work proposed DNN supervisors to detect high-uncertainty inputs before their possible misclassification leads to any harm. To test and compare the capabilities of DNN supervisors, researchers proposed test generation techniques, to focus the testing effort on high-uncertainty inputs that should be recognized as anomalous by supervisors. However, existing test generators aim to produce out-of-distribution inputs. No existing model- and supervisor independent technique targets the generation of truly ambiguous test inputs, i.e., inputs that admit multiple classes according to expert human judgment. In this paper, we propose a novel way to generate ambiguous inputs to test DNN supervisors and used it to empirically compare several existing supervisor techniques. In particular, we propose AmbiGuess to generate ambiguous samples for image classification problems. AmbiGuess is based on gradient-guided sampling in the latent space of a regularized adversarial autoencoder. Moreover, we conducted what is -- to the best of our knowledge -- the most extensive comparative study of DNN supervisors, considering their capabilities to detect 4 distinct types of high-uncertainty inputs, including truly ambiguous ones. We find that the tested supervisors' capabilities are complementary: Those best suited to detect true ambiguity perform worse on invalid, out-of-distribution and adversarial inputs and vice-versa.
翻訳日:2023-09-11 18:59:03 公開日:2023-09-08
# ワッサーシュタイン勾配流による平均場変動推定

Mean-field Variational Inference via Wasserstein Gradient Flow ( http://arxiv.org/abs/2207.08074v2 )

ライセンス: Link先を確認
Rentian Yao, Yun Yang(参考訳) 平均場(MF)近似のような変分推論は、効率的な計算のためにある種の共役構造を必要とする。 これらは、有効な事前分布ファミリーに不要な制限を課し、さらに変動近似ファミリーに制限を加えることができる。 本研究では,確率測度の空間上の勾配流を実現する現代的な数学的手法であるwasserstein gradient flow(wgf)を用いて,潜在変数の有無にかかわらずベイズモデルのmf変分推論を実装するための汎用計算フレームワークを提案する。 理論的には,提案手法のアルゴリズム収束を解析し,収縮係数の明示的な表現を提供する。 また, 時間分解WGFの固定点方程式を用いて, 多項式から指数収縮へのMF変動後部濃度の既存の結果も強化する。 本稿では,ニューラルネットワークを用いた制約のない関数近似手法を提案する。 この方法はランゲヴィン力学に基づく従来の粒子近似法よりも正確で効率的であることが示されている。

Variational inference, such as the mean-field (MF) approximation, requires certain conjugacy structures for efficient computation. These can impose unnecessary restrictions on the viable prior distribution family and further constraints on the variational approximation family. In this work, we introduce a general computational framework to implement MF variational inference for Bayesian models, with or without latent variables, using the Wasserstein gradient flow (WGF), a modern mathematical technique for realizing a gradient flow over the space of probability measures. Theoretically, we analyze the algorithmic convergence of the proposed approaches, providing an explicit expression for the contraction factor. We also strengthen existing results on MF variational posterior concentration from a polynomial to an exponential contraction, by utilizing the fixed point equation of the time-discretized WGF. Computationally, we propose a new constraint-free function approximation method using neural networks to numerically realize our algorithm. This method is shown to be more precise and efficient than traditional particle approximation methods based on Langevin dynamics.
翻訳日:2023-09-11 18:58:31 公開日:2023-09-08
# tree-g: グラフニューラルネットワークを争う決定木

TREE-G: Decision Trees Contesting Graph Neural Networks ( http://arxiv.org/abs/2207.02760v4 )

ライセンス: Link先を確認
Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach(参考訳) 表形式のデータを扱う場合、決定木に基づくモデルは、これらのデータタイプ、適用容易性、説明可能性特性において高い精度で選択される。 しかし、グラフ構造化データに関しては、トポロジ情報をグラフの頂点で利用可能な表データに組み込む方法として、どのように効果的に適用するかは明らかになっていない。 この課題に対処するために、TREE-Gを紹介する。 tree-gはグラフデータに特化した新しい分割関数を導入することで、標準決定木を修飾する。 このスプリット関数はノードの特徴とトポロジ的情報を組み込むだけでなく、スプリットノードが以前のスプリットで計算された情報を使用することを可能にする新しいポインタ機構を使用する。 従って、分割関数は、予測タスクと手前のグラフに適応する。 我々は、TREE-Gの理論的性質を分析し、その利点を複数のグラフおよび頂点予測ベンチマークで実証的に示す。 これらの実験では、TREE-Gは、他のツリーベースモデルよりも一貫して優れており、グラフニューラルネットワーク(GNN)やグラフカーネルなど、時には大きなマージンで、他のグラフ学習アルゴリズムよりも優れています。 さらに、TREE-Gsモデルとその予測を説明・視覚化することができる。

When dealing with tabular data, models based on decision trees are a popular choice due to their high accuracy on these data types, their ease of application, and explainability properties. However, when it comes to graph-structured data, it is not clear how to apply them effectively, in a way that incorporates the topological information with the tabular data available on the vertices of the graph. To address this challenge, we introduce TREE-G. TREE-G modifies standard decision trees, by introducing a novel split function that is specialized for graph data. Not only does this split function incorporate the node features and the topological information, but it also uses a novel pointer mechanism that allows split nodes to use information computed in previous splits. Therefore, the split function adapts to the predictive task and the graph at hand. We analyze the theoretical properties of TREE-G and demonstrate its benefits empirically on multiple graph and vertex prediction benchmarks. In these experiments, TREE-G consistently outperforms other tree-based models and often outperforms other graph-learning algorithms such as Graph Neural Networks (GNNs) and Graph Kernels, sometimes by large margins. Moreover, TREE-Gs models and their predictions can be explained and visualized
翻訳日:2023-09-11 18:58:12 公開日:2023-09-08
# NMA: オンライン広告のための外部性を備えたニューラルマルチスロットオークション

NMA: Neural Multi-slot Auctions with Externalities for Online Advertising ( http://arxiv.org/abs/2205.10018v3 )

ライセンス: Link先を確認
Guogang Liao, Xuejian Li, Ze Wang, Fan Yang, Muzhi Guan, Bingqi Zhu, Yongkang Wang, Xingxing Wang, Dong Wang(参考訳) オークションによるオンライン広告は、ソーシャルネットワークサービスやeコマースプラットフォームに数十億ドルの収益をもたらす。 GSPオークションは、広告主にとってシンプルで分かりやすいもので、業界における広告オークションメカニズムのベンチマークとなっている。 しかしながら、ほとんどのGSPベースの産業的慣行は、ユーザーがクリックするのは広告そのものにのみ依存し、外部性と呼ばれる外部アイテムの影響を見落としていると仮定している。 近年、DNAは深いニューラルネットワークでGSPをアップグレードし、局所的な外部性をある程度モデル化しようと試みている。 しかし、オークションからセットレベルのコンテキストのみを考慮し、広告の順序や表示位置を無視する。 VCGベースのマルチスロットオークション(VCG、WVCGなど)は、理論的にはグローバルな外部性(広告の順序や位置など)をモデル化することができるが、収益と社会福祉の双方の効率的なバランスが欠如している。 本稿では,神経マルチスロットオークション (neural multi-slot auctions, nma) と呼ばれるオークション機構を提案する。 具体的には,グローバルな外部性をコンテキスト対応リストワイズ予測モジュールで効果的にモデル化し,性能の向上を図る。 エンドツーエンド学習におけるインセンティブ互換性を保証するために,リスト指向のディープランクモジュールを設計した。 さらに,収益を最大化しつつ,社会福祉の衰退を効果的に低減する社会福祉補助的損失を提案する。 オフライン大規模データセットとオンラインA/Bテストの両方の実験結果から,NMAは産業実践における他の既存のオークション機構(GSP, DNA, WVCG)よりも高い収益を得ることが示された。

Online advertising driven by auctions brings billions of dollars in revenue for social networking services and e-commerce platforms. GSP auctions, which are simple and easy to understand for advertisers, have almost become the benchmark for ad auction mechanisms in the industry. However, most GSP-based industrial practices assume that the user click only relies on the ad itself, which overlook the effect of external items, referred to as externalities. Recently, DNA has attempted to upgrade GSP with deep neural networks and models local externalities to some extent. However, it only considers set-level contexts from auctions and ignores the order and displayed position of ads, which is still suboptimal. Although VCG-based multi-slot auctions (e.g., VCG, WVCG) make it theoretically possible to model global externalities (e.g., the order and positions of ads and so on), they lack an efficient balance of both revenue and social welfare. In this paper, we propose novel auction mechanisms named Neural Multi-slot Auctions (NMA) to tackle the above-mentioned challenges. Specifically, we model the global externalities effectively with a context-aware list-wise prediction module to achieve better performance. We design a list-wise deep rank module to guarantee incentive compatibility in end-to-end learning. Furthermore, we propose an auxiliary loss for social welfare to effectively reduce the decline of social welfare while maximizing revenue. Experiment results on both offline large-scale datasets and online A/B tests demonstrate that NMA obtains higher revenue with balanced social welfare than other existing auction mechanisms (i.e., GSP, DNA, WVCG) in industrial practice, and we have successfully deployed NMA on Meituan food delivery platform.
翻訳日:2023-09-11 18:57:52 公開日:2023-09-08
# テキストの形式性の検出:テキスト分類手法の検討

Detecting Text Formality: A Study of Text Classification Approaches ( http://arxiv.org/abs/2204.08975v2 )

ライセンス: Link先を確認
Daryna Dementieva, Nikolay Babakov and Alexander Panchenko(参考訳) 形式性は文書の重要な特徴の1つである。 テキストの形式レベルの自動検出は、様々な自然言語処理タスクに潜在的に有益である。 これまで、2つの大規模データセットがフォーマリティアノテーション(gyafcとx-formal)を備えた複数の言語向けに導入された。 しかし、主にスタイルトランスファーモデルのトレーニングに使用された。 同時に、単独でテキストの形式を検出することも有用かもしれない。 本研究は,統計的,ニューラルベース,トランスフォーマーに基づく機械学習手法に基づく形式性検出手法の体系的研究を初めて提案し,公共利用における最高の性能モデルを提供する。 単言語,多言語,言語横断の3種類の実験を行った。 本研究は,トランスフォーマーをベースとした一言語・多言語形式分類タスクに対してChar BiLSTMモデルを克服する一方で,トランスフォーマーに基づく分類器は言語間知識伝達に対してより安定であることを示す。

Formality is one of the important characteristics of text documents. The automatic detection of the formality level of a text is potentially beneficial for various natural language processing tasks. Before, two large-scale datasets were introduced for multiple languages featuring formality annotation -- GYAFC and X-FORMAL. However, they were primarily used for the training of style transfer models. At the same time, the detection of text formality on its own may also be a useful application. This work proposes the first to our knowledge systematic study of formality detection methods based on statistical, neural-based, and Transformer-based machine learning methods and delivers the best-performing models for public usage. We conducted three types of experiments -- monolingual, multilingual, and cross-lingual. The study shows the overcome of Char BiLSTM model over Transformer-based ones for the monolingual and multilingual formality classification task, while Transformer-based classifiers are more stable to cross-lingual knowledge transfer.
翻訳日:2023-09-11 18:57:20 公開日:2023-09-08
# 変分推論としての自己監督学習における表現の不確かさ

Representation Uncertainty in Self-Supervised Learning as Variational Inference ( http://arxiv.org/abs/2203.11437v4 )

ライセンス: Link先を確認
Hiroki Nakamura, Masashi Okada and Tadahiro Taniguchi(参考訳) 本研究では,表現だけでなく不確実性も学習するために,変分推論の観点からSSLを考察する,新たな自己教師型学習(SSL)手法を提案する。 SSLは、画像の異なる拡張ビューの画像表現の類似性を最大化することにより、ラベルのない表現を学習する方法である。 一方、変分オートエンコーダ(VAE)は、確率的生成モデルを変分推論で訓練する教師なし表現学習法である。 VAEとSSLはラベルなしで表現を学ぶことができるが、それらの関係は過去には調査されていない。 ここでは、SSLと変分推論の理論的関係が解明されている。 さらに, 変分推論SimSiam (VI-SimSiam) という新しい手法が提案されている。 VI-SimSiamはSimSiamを変分推論で解釈し、潜在空間分布を定義することによって表現の不確かさを予測することができる。 本実験は,VI-SimSiamが入力画像と予測不確かさを比較して不確かさを学習できることを定性的に示す。 さらに,推定不確実性と分類精度の関係について述べる。

In this study, a novel self-supervised learning (SSL) method is proposed, which considers SSL in terms of variational inference to learn not only representation but also representation uncertainties. SSL is a method of learning representations without labels by maximizing the similarity between image representations of different augmented views of an image. Meanwhile, variational autoencoder (VAE) is an unsupervised representation learning method that trains a probabilistic generative model with variational inference. Both VAE and SSL can learn representations without labels, but their relationship has not been investigated in the past. Herein, the theoretical relationship between SSL and variational inference has been clarified. Furthermore, a novel method, namely variational inference SimSiam (VI-SimSiam), has been proposed. VI-SimSiam can predict the representation uncertainty by interpreting SimSiam with variational inference and defining the latent space distribution. The present experiments qualitatively show that VI- SimSiam could learn uncertainty by comparing input images and predicted uncertainties. Additionally, we described a relationship between estimated uncertainty and classification accuracy.
翻訳日:2023-09-11 18:57:05 公開日:2023-09-08
# ハード探索問題における品質多様性ニューロ進化アルゴリズムの性能評価

Assessing Quality-Diversity Neuro-Evolution Algorithms Performance in Hard Exploration Problems ( http://arxiv.org/abs/2211.13742v2 )

ライセンス: Link先を確認
Felix Chalumeau, Thomas Pierrot, Valentin Mac\'e, Arthur Flajolet, Karim Beguir, Antoine Cully and Nicolas Perrin-Gilbert(参考訳) 自然界の興味深い側面は、ニッチでハイパフォーマンスな生物の集まりを生み出す能力にある。 品質多様性(qd)法は、この観察に触発された進化的アルゴリズムであり、翼の設計からロボット適応まで、多くの応用で素晴らしい結果を得た。 近年, 大規模な探索空間における制御問題を解くために, 神経進化にこれらの手法を適用できることが実証されている。 このような問題では、多様性自体がターゲットとなる可能性がある。 多様性は、偽りの報酬信号を示すタスクの探索を強化する方法でもある。 第1の側面はQDコミュニティで深く研究されているが、第2の側面は文献に乏しい。 強化学習(Reinforcement Learning)やQDメソッド(QD)といった制御問題の解決を目指すいくつかのドメインの中核である探索は、関連する課題を克服する有望な候補である。 したがって,調査難易度の高い高次元の制御問題を示す標準ベンチマークが,qdコミュニティの関心を引いていると考えられる。 本稿では,3つの候補ベンチマークに注目し,qdアルゴリズムの系統的評価になぜ関連があるかを説明する。 jax のオープンソース実装も提供していますので,少数の計算リソースで高速かつ多数の実験を実行できます。

A fascinating aspect of nature lies in its ability to produce a collection of organisms that are all high-performing in their niche. Quality-Diversity (QD) methods are evolutionary algorithms inspired by this observation, that obtained great results in many applications, from wing design to robot adaptation. Recently, several works demonstrated that these methods could be applied to perform neuro-evolution to solve control problems in large search spaces. In such problems, diversity can be a target in itself. Diversity can also be a way to enhance exploration in tasks exhibiting deceptive reward signals. While the first aspect has been studied in depth in the QD community, the latter remains scarcer in the literature. Exploration is at the heart of several domains trying to solve control problems such as Reinforcement Learning and QD methods are promising candidates to overcome the challenges associated. Therefore, we believe that standardized benchmarks exhibiting control problems in high dimension with exploration difficulties are of interest to the QD community. In this paper, we highlight three candidate benchmarks and explain why they appear relevant for systematic evaluation of QD algorithms. We also provide open-source implementations in Jax allowing practitioners to run fast and numerous experiments on few compute resources.
翻訳日:2023-09-11 18:49:19 公開日:2023-09-08
# 科学におけるグローバルコラボレーションと「宗教世界」の半世紀

A half-century of global collaboration in science and the 'Shrinking World' ( http://arxiv.org/abs/2211.04429v2 )

ライセンス: Link先を確認
Keisuke Okamura(参考訳) 近年、研究者の国境を越えたコラボレーションモードは劇的に変化しており、各国は互いに協力し、競争している。 学界のリーダーや政策のリーダーは、国際研究協力の全範囲、国内の地位、そして時間とともに進化していくことを理解することが不可欠である。 しかし、このような世界規模のダイナミズムの証拠はまだ少ない。 本稿では,2022年にローンチされた大規模オープン・ビクタメトリックス・プラットフォームであるopenalexのデータを用いて,過去50年間の国際的なコラボレーション・クラスターの形成と進化に関するユニークな証拠を提供する。 まず,15の自然科学分野において,トップレベル国家のグローバルな存在が,出版量や国際協力率によってどのように変化してきたかを検討する。 特に、米国と中国は何十年にもわたって急速に接近してきたが、2019年以降は崩壊し始めた。 次に階層的なクラスタリングを行い、各規律と期間の国際的なコラボレーションクラスタを分析し視覚化します。 最後に,過去半世紀にわたって世界規模で研究協力を行う「シンキング・ワールド」の定量的証拠を提供する。 我々の結果は、過去、現在、そして将来の国際協力の全体像に関する貴重な洞察を提供する。

Recent decades have witnessed a dramatic shift in the cross-border collaboration mode of researchers, with countries increasingly cooperating and competing with one another. It is crucial for leaders in academia and policy to understand the full extent of international research collaboration, their country's position within it, and its evolution over time. However, evidence for such world-scale dynamism is still scarce. This paper provides unique evidence of how international collaboration clusters have formed and evolved over the past 50 years across various scientific publications, using data from OpenAlex, a large-scale Open Bibliometrics platform launched in 2022. We first examine how the global presence of top-tier countries has changed in 15 natural science disciplines over time, as measured by publication volumes and international collaboration rates. Notably, we observe that the US and China have been rapidly moving closer together for decades but began moving apart after 2019. We then perform a hierarchical clustering to analyse and visualise the international collaboration clusters for each discipline and period. Finally, we provide quantitative evidence of a `Shrinking World' of research collaboration at a global scale over the past half-century. Our results provide valuable insights into the big picture of past, present and future international collaboration.
翻訳日:2023-09-11 18:48:57 公開日:2023-09-08
# 平均場ニューラルネットワーク:wasserstein空間上の学習マッピング

Mean-field neural networks: learning mappings on Wasserstein space ( http://arxiv.org/abs/2210.15179v2 )

ライセンス: Link先を確認
Huy\^en Pham and Xavier Warin(参考訳) 確率測度のワッサーシュタイン空間と,平均場ゲームや制御問題などの関数空間を対応づけたモデルに対する機械学習タスクについて検討する。 これらの平均場関数を学習するために,ビン密度と円筒近似に基づく2種類のニューラルネットワークが提案され,理論上は普遍近似定理によって支持されている。 これら2つの平均場ニューラルネットワークを訓練するための数値実験を行い、様々なテスト分布を持つ一般化誤差の精度と効率を示す。 最後に,時間依存平均場問題を解決するために平均場ニューラルネットワークに依存する異なるアルゴリズムを示し,確率測度のワッサースタイン空間における半線形偏微分方程式の例として数値実験を行った。

We study the machine learning task for models with operators mapping between the Wasserstein space of probability measures and a space of functions, like e.g. in mean-field games/control problems. Two classes of neural networks, based on bin density and on cylindrical approximation, are proposed to learn these so-called mean-field functions, and are theoretically supported by universal approximation theorems. We perform several numerical experiments for training these two mean-field neural networks, and show their accuracy and efficiency in the generalization error with various test distributions. Finally, we present different algorithms relying on mean-field neural networks for solving time-dependent mean-field problems, and illustrate our results with numerical tests for the example of a semi-linear partial differential equation in the Wasserstein space of probability measures.
翻訳日:2023-09-11 18:48:36 公開日:2023-09-08
# less is more: 談話解析のための軽量でロバストなニューラルネットワーク

Less is More: A Lightweight and Robust Neural Architecture for Discourse Parsing ( http://arxiv.org/abs/2210.09537v2 )

ライセンス: Link先を確認
Ming Li, Ruihong Huang(参考訳) 複雑な特徴抽出器はテキスト表現構築に広く用いられている。 しかし、これらの複雑な特徴抽出器は、特に下流のトレーニングデータセットが比較的小さい場合、NLPシステムを過度に適合させる傾向がある。 そこで本研究では,複数の複雑な特徴抽出器を除去し,学習可能な自己認識モジュールのみを用いて,事前学習した言語モデルの一般化性を最大限に維持する,新たな軽量ニューラルネットワークアーキテクチャを提案する。 3つの共通談話解析タスクの実験は、最近訓練された言語モデルによって、わずか2つの自己注意層からなる軽量アーキテクチャにより、より優れた一般化性と堅牢性が得られることを示している。 一方、より少ない学習可能なパラメータと少ない処理時間で同等またはさらに優れたシステム性能を達成する。

Complex feature extractors are widely employed for text representation building. However, these complex feature extractors make the NLP systems prone to overfitting especially when the downstream training datasets are relatively small, which is the case for several discourse parsing tasks. Thus, we propose an alternative lightweight neural architecture that removes multiple complex feature extractors and only utilizes learnable self-attention modules to indirectly exploit pretrained neural language models, in order to maximally preserve the generalizability of pre-trained language models. Experiments on three common discourse parsing tasks show that powered by recent pretrained language models, the lightweight architecture consisting of only two self-attention layers obtains much better generalizability and robustness. Meanwhile, it achieves comparable or even better system performance with fewer learnable parameters and less processing time.
翻訳日:2023-09-11 18:48:22 公開日:2023-09-08
# 神経進化はスキル発見のための強化学習の競合的代替手段である

Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery ( http://arxiv.org/abs/2210.03516v4 )

ライセンス: Link先を確認
Felix Chalumeau, Raphael Boige, Bryan Lim, Valentin Mac\'e, Maxime Allard, Arthur Flajolet, Antoine Cully, Thomas Pierrot(参考訳) deep reinforcement learning(rl)は、複雑な制御タスクを解決するためにニューラルネットワークポリシをトレーニングするための強力なパラダイムとして登場した。 しかしながら、これらのポリシーは、訓練されたタスクと環境の正確な仕様に適合しがちであり、条件がわずかにずれたり、階層的に構成された場合、さらに複雑なタスクを解決するためにうまく機能しない。 最近の研究は、単一の政策とは対照的に、様々な領域の国家行動空間を探索するために推進される政策の混合を訓練することが、適応タスクや階層的計画において大きな影響を与える様々な行動セットを生成することによって、この欠点に対処できることを示した。 これは典型的には、RLによって最適化された目的関数に多様性項(しばしば情報理論に由来する)を含めることで実現される。 しかし、これらのアプローチは、しばしば注意深いハイパーパラメータチューニングを効果的に必要とします。 本研究は, 広範に用いられない神経進化法, 特にqd( quality diversity)が, スキル発見のための情報理論に基づくrlの代替となることを実証する。 8つの最先端アルゴリズム(各作業ラインの4つのフラッグシップアルゴリズム)を比較した広範な実証評価を通じて (i)スキルの多様性を直接評価する指標。 (ii)適応作業における技能の発揮、及び (iii)階層的計画のためのプリミティブとして使用する場合、qdメソッドは、ハイパーパラメータに対する感度が低く、スケーラブルで、性能が同等で、時には改善される。 すべての環境に対してほぼ最適性能を提供する方法が存在しないため、今後の方向性を提案し、最適化されたオープンソース実装を提供することで、さらなる研究を支援するための豊富なスコープがある。

Deep Reinforcement Learning (RL) has emerged as a powerful paradigm for training neural policies to solve complex control tasks. However, these policies tend to be overfit to the exact specifications of the task and environment they were trained on, and thus do not perform well when conditions deviate slightly or when composed hierarchically to solve even more complex tasks. Recent work has shown that training a mixture of policies, as opposed to a single one, that are driven to explore different regions of the state-action space can address this shortcoming by generating a diverse set of behaviors, referred to as skills, that can be collectively used to great effect in adaptation tasks or for hierarchical planning. This is typically realized by including a diversity term - often derived from information theory - in the objective function optimized by RL. However these approaches often require careful hyperparameter tuning to be effective. In this work, we demonstrate that less widely-used neuroevolution methods, specifically Quality Diversity (QD), are a competitive alternative to information-theory-augmented RL for skill discovery. Through an extensive empirical evaluation comparing eight state-of-the-art algorithms (four flagship algorithms from each line of work) on the basis of (i) metrics directly evaluating the skills' diversity, (ii) the skills' performance on adaptation tasks, and (iii) the skills' performance when used as primitives for hierarchical planning; QD methods are found to provide equal, and sometimes improved, performance whilst being less sensitive to hyperparameters and more scalable. As no single method is found to provide near-optimal performance across all environments, there is a rich scope for further research which we support by proposing future directions and providing optimized open-source implementations.
翻訳日:2023-09-11 18:48:03 公開日:2023-09-08
# unest:階層型トランスフォーマによる局所空間表現学習による医療セグメンテーションの効率化

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation ( http://arxiv.org/abs/2209.14378v2 )

ライセンス: Link先を確認
Xin Yu, Qi Yang, Yinchi Zhou, Leon Y. Cai, Riqiang Gao, Ho Hin Lee, Thomas Li, Shunxing Bao, Zhoubing Xu, Thomas A. Lasko, Richard G. Abramson, Zizhao Zhang, Yuankai Huo, Bennett A. Landman, Yucheng Tang(参考訳) グローバル依存性をよりよく学習できるトランスフォーマーベースのモデルは、コンピュータビジョンと医用画像解析において、例外的な表現学習能力を示している。 トランスフォーマーは画像を別々のパッチに再構成し、自己着脱機構を介してグローバル通信を実現する。 しかし, パッチ間の位置情報の保存は困難であり, 3次元医用画像セグメンテーションにおいて, 多量の異種組織を扱う際には, その損失が準最適性能をもたらす可能性がある。 さらに、現在の方法は、多くの組織クラスを予測したり、グローバルに接続された組織構造をモデリングするといった、重度な医療区分作業において堅牢で効率的ではない。 このような課題に対処し、視覚変換器のネストした階層構造から着想を得た新しい3次元医用画像分割法 (UNesT) を提案する。 われわれは,脳の133構造,腹部の14の臓器,腎臓の4つの階層的成分,腎臓間腫瘍,脳腫瘍を含む組織クラスからなる複数の課題データセットに対して,本手法を広範囲に検証した。 UNesTは最先端の性能を一貫して達成し,その一般化性とデータ効率を評価する。 特に、このモデルは1つのネットワークで133の組織クラスを持つ全脳セグメント化タスクROIを達成し、27のネットワークで組み合わされた最先端のSLANT27よりも優れています。

Transformer-based models, capable of learning better global dependencies, have recently demonstrated exceptional representation learning capabilities in computer vision and medical image analysis. Transformer reformats the image into separate patches and realizes global communication via the self-attention mechanism. However, positional information between patches is hard to preserve in such 1D sequences, and loss of it can lead to sub-optimal performance when dealing with large amounts of heterogeneous tissues of various sizes in 3D medical image segmentation. Additionally, current methods are not robust and efficient for heavy-duty medical segmentation tasks such as predicting a large number of tissue classes or modeling globally inter-connected tissue structures. To address such challenges and inspired by the nested hierarchical structures in vision transformer, we proposed a novel 3D medical image segmentation method (UNesT), employing a simplified and faster-converging transformer encoder design that achieves local communication among spatially adjacent patch sequences by aggregating them hierarchically. We extensively validate our method on multiple challenging datasets, consisting of multiple modalities, anatomies, and a wide range of tissue classes, including 133 structures in the brain, 14 organs in the abdomen, 4 hierarchical components in the kidneys, inter-connected kidney tumors and brain tumors. We show that UNesT consistently achieves state-of-the-art performance and evaluate its generalizability and data efficiency. Particularly, the model achieves whole brain segmentation task complete ROI with 133 tissue classes in a single network, outperforming prior state-of-the-art method SLANT27 ensembled with 27 networks.
翻訳日:2023-09-11 18:47:34 公開日:2023-09-08
# 電力網の電力線通信における新しいデータの可能性の活用

Leveraging the Potential of Novel Data in Power Line Communication of Electricity Grids ( http://arxiv.org/abs/2209.12693v3 )

ライセンス: Link先を確認
Christoph Balada, Max Bondorf, Sheraz Ahmed, Andreas Dengela, Markus Zdrallek(参考訳) 電力網は、たとえ日常的に意識されていなくても、日常生活の重要な部分となっている。 私たちは通常、電力網が使えなくなるまでには、この依存に特に気付くだけです。 しかし、再生可能エネルギー(太陽光発電、風力タービンなど)への移行や、複雑な負荷プロファイル(電気自動車、家庭用バッテリーシステムなど)を持つエネルギー消費の増加といった大きな変化は、電力網に新たな課題をもたらしている。 これらの課題に対処するために,ブロードバンド電力線通信(plc)インフラにおける計測に基づく2つの最初のits-kindデータセットを提案する。 両方のデータセットFiN-1とFiN-2は、約440万人を供給し、5100以上のセンサーで収集された13億以上のデータポイントを示すドイツの低電圧グリッドの一部で実際に使用中に収集された。 さらに, 資産管理, グリッド状態の可視化, 予測, 予測保守, 新規性検出において, この種のデータの利点を浮き彫りにするために, さまざまなユースケースを提示する。 これらのアプリケーションでは、従来のアプローチでは捉えられない実世界のデータからリッチな情報を抽出するために、新しい機械学習アーキテクチャを使うことを特に強調する。 最初の大規模実世界のデータセットを公開することで、これまで認識されていなかったPLCデータの可能性に光を当て、さまざまなユースケースを提示して低電圧分布ネットワークにおける機械学習に基づく研究を強調することを目指している。

Electricity grids have become an essential part of daily life, even if they are often not noticed in everyday life. We usually only become particularly aware of this dependence by the time the electricity grid is no longer available. However, significant changes, such as the transition to renewable energy (photovoltaic, wind turbines, etc.) and an increasing number of energy consumers with complex load profiles (electric vehicles, home battery systems, etc.), pose new challenges for the electricity grid. To address these challenges, we propose two first-of-its-kind datasets based on measurements in a broadband powerline communications (PLC) infrastructure. Both datasets FiN-1 and FiN-2, were collected during real practical use in a part of the German low-voltage grid that supplies around 4.4 million people and show more than 13 billion datapoints collected by more than 5100 sensors. In addition, we present different use cases in asset management, grid state visualization, forecasting, predictive maintenance, and novelty detection to highlight the benefits of these types of data. For these applications, we particularly highlight the use of novel machine learning architectures to extract rich information from real-world data that cannot be captured using traditional approaches. By publishing the first large-scale real-world dataset, we aim to shed light on the previously largely unrecognized potential of PLC data and emphasize machine-learning-based research in low-voltage distribution networks by presenting a variety of different use cases.
翻訳日:2023-09-11 18:47:05 公開日:2023-09-08
# 重力光学:グラビトン交換による光子-マター絡み合い

Gravitational Optomechanics: Photon-Matter Entanglement via Graviton Exchange ( http://arxiv.org/abs/2209.09273v4 )

ライセンス: Link先を確認
Dripto Biswas, Sougato Bose, Anupam Mazumdar, Marko Toro\v{s}(参考訳) 太陽の重力場における光の偏向は、一般的な相対性理論の最も基本的な結果の1つであり、1世紀前にエディントンが行った古典的な実験の1つである。 しかし、現代物理学における中心的な役割にもかかわらず、物質と光の両方が古典的な特徴を示す量子状態において、実験は行われていない。 この論文は、光曲げを引き起こす相互作用は、重力や物質が量子力学と同等に扱われる限り、光子と物質の絡み合いも引き起こすことを示す。 摂動的量子重力の枠組みにおける量子光-曲げ相互作用は、この点を強調し、この絡み合った状態が、重力子交換によって誘導される非線形結合を利用した光と物質のコヒーレントな状態で既に生成可能であることを示した。 さらに、量子光曲げ相互作用はスピン-2とスピン-0グラビトンを区別することができるため、短距離および量子レベルでの重力の代替理論のテストも提供する。 線形エントロピーを用いて生じるエンタングルメントの等級を推定して結論付ける。 特に、150ドルのhzで動作する10kgの機械振動子の周りに配置された半径0.25$mのハーフリングキャビティは、ペタワットレーザー源を用いて光波長で秩序の線形エントロピーを生成するのに使用できることがわかった。 提案されたスキームは現在の実験的な現実を超えたものであるが、それでも量子レベルでの重力相互作用のスピンの検証についての議論が始まっている。

The deflection of light in the gravitational field of the Sun is one of the most fundamental consequences for general relativity as well as one of its classical tests first performed by Eddington a century ago. However, despite its center stage role in modern physics, no experiment has tested it in an ostensibly quantum regime where both matter and light exhibit non-classical features. This paper shows that the interaction which gives rise to the light-bending also induces photon-matter entanglement as long as gravity and matter are treated at par with quantum mechanics. The quantum light-bending interaction within the framework of perturbative quantum gravity highlights this point by showing that the entangled states can be generated already with coherent states of light and matter exploiting the non-linear coupling induced by graviton exchange. Furthermore, the quantum light-bending interaction is capable of discerning between the spin-2 and spin-0 gravitons thus also providing a test for alternative theories of gravity at short distances and at the quantum level. We will conclude by estimating the order of magnitude of the entanglement generated by employing the linear entropy. In particular, we find that a half-ring cavity of radius $0.25$ m placed around a $10$ kg mechanical oscillator operating at $150$ Hz, could be used to generate linear entropy of order unity using a petawatt laser source at optical wavelengths. While the proposed scheme is beyond the current experimental realities it nonetheless initiates the discussion about testing the spin of the gravitational interaction at the quantum level.
翻訳日:2023-09-11 18:46:37 公開日:2023-09-08
# 責任あるAIシステムのための規範倫理原則:分類学と今後の方向性

Normative Ethics Principles for Responsible AI Systems: Taxonomy and Future Directions ( http://arxiv.org/abs/2208.12616v2 )

ライセンス: Link先を確認
Jessica Woodgate and Nirav Ajmeri(参考訳) 人工知能(AI)の急速な普及は、その倫理的意味を慎重に分析する必要がある。 倫理的・公正な含意に対処するためには、個々のエージェントのみを見るのではなく、倫理的に関係のある全ての特徴を検討することが重要である。 これは、エージェントが埋め込まれたシステムに視点を移し、社会技術システムのマクロ倫理(STS)にカプセル化することで達成できる。 マクロ倫理のレンズを通して、参加者が自身の価値を反映した成果や規範を促進しようとするシステムのガバナンスが重要である。 しかし、STSの利害関係者が異なる価値嗜好を持つ場合や、STSにおける規範が対立する場合には、複数のユーザによる社会的ジレンマが発生する。 異なる利害関係者のニーズを満たす公平なガバナンスを開発し、公平性のより高い目標を満足できる方法でこれらのジレンマを解決するためには、推論において様々な規範的倫理原則を統合する必要がある。 規範的倫理原理は、哲学理論から推測される運用可能な規則として理解される。 したがって、倫理的原則の分類は、実践者が推論でそれらを利用できるようにすることに有益である。 この研究は、STSのガバナンスで運用できる規範的倫理原則の分類法を開発する。 我々は、分類木上に25のノードを持つ一連の倫理的原則を特定する。 本稿では,各原則の運用方法を述べるとともに,原則の運用がstsのマクロ倫理にどのように適用されるかを提案する。 それぞれの原則で生じる可能性のある潜在的な困難について、さらに説明します。 我々は、この分類が、公平なSTSを管理する能力の推論に倫理的原則を取り入れるための方法論の開発を促進することを期待している。

The rapid adoption of artificial intelligence (AI) necessitates careful analysis of its ethical implications. In addressing ethics and fairness implications, it is important to examine the whole range of ethically relevant features rather than looking at individual agents alone. This can be accomplished by shifting perspective to the systems in which agents are embedded, which is encapsulated in the macro ethics of sociotechnical systems (STS). Through the lens of macro ethics, the governance of systems - which is where participants try to promote outcomes and norms which reflect their values - is key. However, multiple-user social dilemmas arise in an STS when stakeholders of the STS have different value preferences or when norms in the STS conflict. To develop equitable governance which meets the needs of different stakeholders, and resolve these dilemmas in satisfactory ways with a higher goal of fairness, we need to integrate a variety of normative ethical principles in reasoning. Normative ethical principles are understood as operationalizable rules inferred from philosophical theories. A taxonomy of ethical principles is thus beneficial to enable practitioners to utilise them in reasoning. This work develops a taxonomy of normative ethical principles which can be operationalized in the governance of STS. We identify an array of ethical principles, with 25 nodes on the taxonomy tree. We describe the ways in which each principle has previously been operationalized, and suggest how the operationalization of principles may be applied to the macro ethics of STS. We further explain potential difficulties that may arise with each principle. We envision this taxonomy will facilitate the development of methodologies to incorporate ethical principles in reasoning capacities for governing equitable STS.
翻訳日:2023-09-11 18:45:42 公開日:2023-09-08
# ノイズ-ストレージモデルにおける誤差耐性オブリベート転送

Error-tolerant oblivious transfer in the noisy-storage model ( http://arxiv.org/abs/2302.04236v2 )

ライセンス: Link先を確認
Cosmo Lupo, James T. Peat, Erika Andersson, Pieter Kok(参考訳) 量子暗号のノイズ-ストレージモデルでは、不正なユーザが最も不完全でノイズの多い量子メモリにアクセスできるという仮定に基づいて、情報理論的に二要素計算が可能であるが、正直なユーザーは量子メモリを全く必要としない。 一般的には、不正なユーザの量子メモリがうるさくなればなるほど、普遍的なセキュアな二者および多人数計算を可能にするプリミティブである斜め転送の実装がよりセキュアになる。 不正な転送を実験的に実施するためには、正直なユーザによって保持されるデバイスもノイズが多く、これらの信頼されたエラーを修正するためにエラー訂正を適用する必要がある。 不正なユーザが信頼できるノイズに身を隠す可能性があるため、後者はプロトコルのセキュリティを低下させると予想されている。 ここでは,エントロピーの不確実性関係を生かして,信頼され信頼できない雑音による不確実性伝達の安全性に関する厳密な境界を導出する。 特に,ノイズとバウンドストレージについて,独立性および相関性のあるノイズで検討する。

The noisy-storage model of quantum cryptography allows for information-theoretically secure two-party computation based on the assumption that a cheating user has at most access to an imperfect, noisy quantum memory, whereas the honest users do not need a quantum memory at all. In general, the more noisy the quantum memory of the cheating user, the more secure the implementation of oblivious transfer, which is a primitive that allows universal secure two-party and multi-party computation. For experimental implementations of oblivious transfer, one has to consider that also the devices held by the honest users are lossy and noisy, and error correction needs to be applied to correct these trusted errors. The latter are expected to reduce the security of the protocol, since a cheating user may hide themselves in the trusted noise. Here we leverage entropic uncertainty relations to derive tight bounds on the security of oblivious transfer with a trusted and untrusted noise. In particular, we discuss noisy storage and bounded storage, with independent and correlated noise.
翻訳日:2023-09-11 18:39:50 公開日:2023-09-08
# 2段階ハイパーパラメータ最適化法:トレーニングデータセットの分数を用いたハイパーパラメータ探索の高速化

Two-step hyperparameter optimization method: Accelerating hyperparameter search by using a fraction of a training dataset ( http://arxiv.org/abs/2302.03845v2 )

ライセンス: Link先を確認
Sungduk Yu, Mike Pritchard, Po-Lun Ma, Balwinder Singh, and Sam Silva(参考訳) ハイパーパラメータ最適化(HPO)は機械学習(ML)モデル開発における重要なステップであるが、一般的なプラクティスは古来的なものであり、主に手動やグリッド検索に依存している。 これは、高度なHPOアルゴリズムを採用するとワークフローが複雑になり、計算時間が長くなるためである。 これはMLアプリケーションにとって顕著な課題であり、最適化されたハイパーパラメータ選択によってMLモデルのパフォーマンスが向上し、最終的にはMLテクニックのフル活用が妨げられる。 本稿では,2段階のHPO法を,応用MLパラメタライゼーション作業における実践的経験から切り離された,計算要求と待ち時間を抑制する戦略的ソリューションとして提案する。 最初のフェーズでは、トレーニングデータセットの小さなサブセット上でのハイパーパラメータの予備的な評価と、トレーニングデータセット全体のトレーニング後のトップパフォーマンス候補モデルの再評価が含まれる。 この二段階hpo法はhpo探索アルゴリズムに共通して適用可能であり,高い効率性が期待できる。 本稿では,近年の2段階HPO法のエアロゾル活性化のためのニューラルネットワークエミュレータ開発への応用について述べる。 私たちの主なユースケースは、数百万のサンプルを持つデータ豊富な制限ですが、最初のステップで0.0025%のデータ(数千のサンプル)を使用することで、より広範なサンプリングから最適なハイパーパラメータ構成を見つけ、最大135回のスピードアップを実現できます。 この手法の利点は、ハイパーパラメータの評価とモデル性能によって実現され、最高の性能を達成するのに必要な最小限のモデル複雑性が明らかになる。 HPOプロセスから抽出した最高性能モデルのコンソーシングにより,グローバル気候モデル(GCM)の効率的な利用のために,推論コストの低い高性能モデルを選択することができる。

Hyperparameter optimization (HPO) is an important step in machine learning (ML) model development, but common practices are archaic -- primarily relying on manual or grid searches. This is partly because adopting advanced HPO algorithms introduces added complexity to the workflow, leading to longer computation times. This poses a notable challenge to ML applications, as suboptimal hyperparameter selections curtail the potential of ML model performance, ultimately obstructing the full exploitation of ML techniques. In this article, we present a two-step HPO method as a strategic solution to curbing computational demands and wait times, gleaned from practical experiences in applied ML parameterization work. The initial phase involves a preliminary evaluation of hyperparameters on a small subset of the training dataset, followed by a re-evaluation of the top-performing candidate models post-retraining with the entire training dataset. This two-step HPO method is universally applicable across HPO search algorithms, and we argue it has attractive efficiency gains. As a case study, we present our recent application of the two-step HPO method to the development of neural network emulators for aerosol activation. Although our primary use case is a data-rich limit with many millions of samples, we also find that using up to 0.0025% of the data (a few thousand samples) in the initial step is sufficient to find optimal hyperparameter configurations from much more extensive sampling, achieving up to 135-times speedup. The benefits of this method materialize through an assessment of hyperparameters and model performance, revealing the minimal model complexity required to achieve the best performance. The assortment of top-performing models harvested from the HPO process allows us to choose a high-performing model with a low inference cost for efficient use in global climate models (GCMs).
翻訳日:2023-09-11 18:39:32 公開日:2023-09-08
# TikTalk: リアルタイムのマルチモーダルチャットのためのビデオベースの対話データセット

TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World ( http://arxiv.org/abs/2301.05880v3 )

ライセンス: Link先を確認
Hongpeng Lin, Ludan Ruan, Wenke Xia, Peiyu Liu, Jingyuan Wen, Yixin Xu, Di Hu, Ruihua Song, Wayne Xin Zhao, Qin Jin and Zhiwu Lu(参考訳) マルチモーダルコンテキストを用いた知的・人間的なチャットボットの研究を容易にするため,TikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。 人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。 ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。 従来のマルチモーダル対話データセットと比較して、TikTalkのよりリッチなコンテキストタイプは、より多様な会話をもたらす一方で、複雑なマルチモーダル情報からパーソナライズされた応答を生成することの難しさも増す。 さらに、外部知識はデータセットでより頻繁に引き起こされます。 これらの事実はマルチモーダル対話モデルの新たな課題を明らかにする。 そこで,tiktalkの特徴を定量的に示し,ビデオベースのマルチモーダルチットチャットタスクを提案し,対話ベースラインの評価を行った。 実験結果から,大規模言語モデル(LLM)を組み込んだモデルの方が,より多様な応答を生成できることがわかった。 さらに、上記のすべての課題を、既存のモデルはうまく解決できない。 ビジュアル拡張を備えた LLM においても,今後の改善の余地は大きい。 我々のデータセットは \url{https://ruc-aimind.github.io/projects/TikTalk/} で利用可能です。

To facilitate the research on intelligent and human-like chatbots with multi-modal context, we introduce a new video-based multi-modal dialogue dataset, called TikTalk. We collect 38K videos from a popular video-sharing platform, along with 367K conversations posted by users beneath them. Users engage in spontaneous conversations based on their multi-modal experiences from watching videos, which helps recreate real-world chitchat context. Compared to previous multi-modal dialogue datasets, the richer context types in TikTalk lead to more diverse conversations, but also increase the difficulty in capturing human interests from intricate multi-modal information to generate personalized responses. Moreover, external knowledge is more frequently evoked in our dataset. These facts reveal new challenges for multi-modal dialogue models. We quantitatively demonstrate the characteristics of TikTalk, propose a video-based multi-modal chitchat task, and evaluate several dialogue baselines. Experimental results indicate that the models incorporating large language models (LLM) can generate more diverse responses, while the model utilizing knowledge graphs to introduce external knowledge performs the best overall. Furthermore, no existing model can solve all the above challenges well. There is still a large room for future improvements, even for LLM with visual extensions. Our dataset is available at \url{https://ruc-aimind.github.io/projects/TikTalk/}.
翻訳日:2023-09-11 18:38:09 公開日:2023-09-08
# ロコモーション・アクション・マニピュレーション:複雑な3次元環境における人間とシーンの相互作用の合成

Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in Complex 3D Environments ( http://arxiv.org/abs/2301.02667v2 )

ライセンス: Link先を確認
Jiye Lee, Hanbyul Joo(参考訳) 相互作用に関わる人間の動きの合成は、3D環境の複雑さと人間の行動の多様性のために困難である。 複雑な屋内環境下での自然および可塑性の長期的運動を合成するためのLAMA, Locomotion-Action-Manipulationを提案する。 LAMAの重要な動機は、移動、シーンインタラクション、オブジェクト操作を含む一連の日常動作を含む統一されたフレームワークを構築することである。 従来の3Dシーンをスキャンして「ペア化」する手法とは異なり、人間のモーションキャプチャーデータを合成にのみ使用することにより、テスト時間最適化として問題を定式化する。 lamaは、最適化のためにモーションマッチングアルゴリズムと結合した強化学習フレームワークを活用し、さらにマニホールド学習によるモーション編集フレームワークを活用し、インタラクションと操作のバリエーションをカバーできる。 広範囲な実験を通して、LAMAは様々な挑戦シナリオにおいて現実的な動きを合成する従来のアプローチよりも優れていることを示した。 プロジェクトページ: https://jiyewise.github.io/projects/LAMA/。

Synthesizing interaction-involved human motions has been challenging due to the high complexity of 3D environments and the diversity of possible human behaviors within. We present LAMA, Locomotion-Action-MAnipulation, to synthesize natural and plausible long-term human movements in complex indoor environments. The key motivation of LAMA is to build a unified framework to encompass a series of everyday motions including locomotion, scene interaction, and object manipulation. Unlike existing methods that require motion data "paired" with scanned 3D scenes for supervision, we formulate the problem as a test-time optimization by using human motion capture data only for synthesis. LAMA leverages a reinforcement learning framework coupled with a motion matching algorithm for optimization, and further exploits a motion editing framework via manifold learning to cover possible variations in interaction and manipulation. Throughout extensive experiments, we demonstrate that LAMA outperforms previous approaches in synthesizing realistic motions in various challenging scenarios. Project page: https://jiyewise.github.io/projects/LAMA/ .
翻訳日:2023-09-11 18:37:45 公開日:2023-09-08
# 一般化微分可能RANSAC

Generalized Differentiable RANSAC ( http://arxiv.org/abs/2212.13185v3 )

ライセンス: Link先を確認
Tong Wei, Yash Patel, Alexander Shekhovtsov, Jiri Matas, Daniel Barath(参考訳) 我々は,ランダム化ロバスト推定パイプライン全体を学習可能な一般化微分可能なransacである$\nabla$-ransacを提案する。 提案手法は, サンプル分布の勾配推定に緩和法を応用し, 微分可能な解法で伝播する。 トレーニング可能な品質関数は、$\nabla$-RANSACで見積もるすべてのモデルのスコアをマージして、ネットワーク学習の正確で有用な不整合確率を導いたり、特徴の検出とマッチングネットワークのトレーニングを行う。 本手法は,良い仮説を描く確率を直接最大化し,より良いサンプリング分布を学習できる。 基本的および本質的な行列推定に関する様々な実世界のシナリオで$\nabla$-RANSACをテストし、アウトドアと屋内で3Dポイントクラウドの登録を行い、手作りと学習ベースの機能を提供します。 精度の点で最先端よりも優れており、精度の低い代替品と同じような速度で動作している。 コードとトレーニングされたモデルはhttps://github.com/weitong8591/differentiable_ransacで入手できる。

We propose $\nabla$-RANSAC, a generalized differentiable RANSAC that allows learning the entire randomized robust estimation pipeline. The proposed approach enables the use of relaxation techniques for estimating the gradients in the sampling distribution, which are then propagated through a differentiable solver. The trainable quality function marginalizes over the scores from all the models estimated within $\nabla$-RANSAC to guide the network learning accurate and useful inlier probabilities or to train feature detection and matching networks. Our method directly maximizes the probability of drawing a good hypothesis, allowing us to learn better sampling distributions. We test $\nabla$-RANSAC on various real-world scenarios on fundamental and essential matrix estimation, and 3D point cloud registration, outdoors and indoors, with handcrafted and learning-based features. It is superior to the state-of-the-art in terms of accuracy while running at a similar speed to its less accurate alternatives. The code and trained models are available at https://github.com/weitong8591/differentiable_ransac.
翻訳日:2023-09-11 18:37:24 公開日:2023-09-08
# 創発的コミュニケーションはスパイキングニューラルネットワークによって制御された進化した群れの捕食行動を促進する

Emergent communication enhances foraging behaviour in evolved swarms controlled by Spiking Neural Networks ( http://arxiv.org/abs/2212.08484v2 )

ライセンス: Link先を確認
Cristian Jimenez Romero, Alper Yegenoglu, Aar\'on P\'erez Mart\'in, Sandra Diaz-Pier, Abigail Morrison(参考訳) アリなどの社会昆虫はフェロモンを介して通信し、その活動の調整や、食料の採餌など複雑なタスクの解決を可能にする。 この行動は進化過程によって形作られた。 計算モデルでは、群における自己調整は確率的あるいは単純な行動規則を用いて実装され、それぞれのエージェントの決定と集団行動を形成する。 しかし、手動調整決定規則は、Swarmの動作を制限する可能性がある。 本研究では,進化した群れにおける自己調整とコミュニケーションの出現を明示的な規則を定めずに検討する。 我々はアリコロニーを表すエージェント群を進化させた。 進化的アルゴリズムを用いてスパイキングニューラルネットワーク(snn)を最適化し,各エージェントの行動を制御するための人工脳として機能する。 進化したコロニーの目標は、食物を捕食し、最も短い時間で巣に戻す最適な方法を見つけることである。 進化の段階では、アリは他のアリを誘導するために食物の山や巣の近くにフェロモンを堆積させることで協力を学べる。 フェロモンの使用法を手動でネットワークにエンコードするのではなく、最適化手順によってこの動作が確立される。 フェロモンによるコミュニケーションは,フェロモンによるコミュニケーションが出現しないコロニーに比べて,アリの行動が良好であることを示す。 我々は,SNNモデルとルールベースシステムを比較し,採餌性能を評価する。 以上の結果から,SNNモデルにより短時間で捕食作業が効率的に完了できることが示唆された。 本手法は,ネットワーク最適化の結果,フェロモンによる自己調整が出現することを示す。 この研究は、コミュニケーションと自己調整が望まれるマルチエージェントインタラクションの基盤となるアーキテクチャとしてSNNを利用する複雑なアプリケーションを作成する可能性の実証となる。

Social insects such as ants communicate via pheromones which allows them to coordinate their activity and solve complex tasks as a swarm, e.g. foraging for food. This behavior was shaped through evolutionary processes. In computational models, self-coordination in swarms has been implemented using probabilistic or simple action rules to shape the decision of each agent and the collective behavior. However, manual tuned decision rules may limit the behavior of the swarm. In this work we investigate the emergence of self-coordination and communication in evolved swarms without defining any explicit rule. We evolve a swarm of agents representing an ant colony. We use an evolutionary algorithm to optimize a spiking neural network (SNN) which serves as an artificial brain to control the behavior of each agent. The goal of the evolved colony is to find optimal ways to forage for food and return it to the nest in the shortest amount of time. In the evolutionary phase, the ants are able to learn to collaborate by depositing pheromone near food piles and near the nest to guide other ants. The pheromone usage is not manually encoded into the network; instead, this behavior is established through the optimization procedure. We observe that pheromone-based communication enables the ants to perform better in comparison to colonies where communication via pheromone did not emerge. We assess the foraging performance by comparing the SNN based model to a rule based system. Our results show that the SNN based model can efficiently complete the foraging task in a short amount of time. Our approach illustrates self coordination via pheromone emerges as a result of the network optimization. This work serves as a proof of concept for the possibility of creating complex applications utilizing SNNs as underlying architectures for multi-agent interactions where communication and self-coordination is desired.
翻訳日:2023-09-11 18:37:04 公開日:2023-09-08
# MAELi: 大規模LiDARポイントクラウドのためのマスク付きオートエンコーダ

MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds ( http://arxiv.org/abs/2212.07207v4 )

ライセンス: Link先を確認
Georg Krispel, David Schinagl, Christian Fruhwirth-Reisinger, Horst Possegger, Horst Bischof(参考訳) 大規模なLiDAR点雲のセンシングプロセスは、必然的に大きな盲点、すなわちセンサーに見えない領域を引き起こす。 我々は,これらの固有サンプリング特性を自己教師付き表現学習に効果的に活用する方法を,最先端オブジェクト検出器を訓練するための退屈な3dアノテーションの必要性を大幅に軽減する,高度に効果的な事前学習フレームワークの設計により実証する。 我々のMasked AutoEncoder for LiDAR point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDAR点雲の空間性を直感的に活用する。 これにより、より表現力が高く有用な初期化が可能になり、3Dオブジェクトの検出や自律運転のセマンティックセグメンテーションといった下流認識タスクに直接適用することができる。 新たな再構築アプローチでは、MAELiは空と空の空間を区別し、LiDAR固有の球面投影を狙う新しいマスキング戦略を採用している。 したがって、基礎となる真理は一切なく、単一のフレームのみでトレーニングされ、maeliは基礎となる3dシーンの幾何学とセマンティクスの理解を得る。 MAELiの可能性を実証するために, 終末的に事前訓練したバックボーンを用いて, 3次元物体検出とセマンティックセグメンテーションのタスクに対する教師なし事前訓練の効果を示す。

The sensing process of large-scale LiDAR point clouds inevitably causes large blind spots, i.e. regions not visible to the sensor. We demonstrate how these inherent sampling properties can be effectively utilized for self-supervised representation learning by designing a highly effective pre-training framework that considerably reduces the need for tedious 3D annotations to train state-of-the-art object detectors. Our Masked AutoEncoder for LiDAR point clouds (MAELi) intuitively leverages the sparsity of LiDAR point clouds in both the encoder and decoder during reconstruction. This results in more expressive and useful initialization, which can be directly applied to downstream perception tasks, such as 3D object detection or semantic segmentation for autonomous driving. In a novel reconstruction approach, MAELi distinguishes between empty and occluded space and employs a new masking strategy that targets the LiDAR's inherent spherical projection. Thereby, without any ground truth whatsoever and trained on single frames only, MAELi obtains an understanding of the underlying 3D scene geometry and semantics. To demonstrate the potential of MAELi, we pre-train backbones in an end-to-end manner and show the effectiveness of our unsupervised pre-trained weights on the tasks of 3D object detection and semantic segmentation.
翻訳日:2023-09-11 18:36:37 公開日:2023-09-08
# 双極子Rydberg原子アレイにおけるスケーラブルスピンスクイーズ

Scalable spin squeezing in a dipolar Rydberg atom array ( http://arxiv.org/abs/2303.08053v2 )

ライセンス: Link先を確認
Guillaume Bornet, Gabriel Emperauger, Cheng Chen, Bingtian Ye, Maxwell Block, Marcus Bintz, Jamie A. Boyd, Daniel Barredo, Tommaso Comparin, Fabio Mezzacapo, Tommaso Roscilde, Thierry Lahaye, Norman Y. Yao, Antoine Browaeys(参考訳) 標準量子極限は、非相関粒子のアンサンブルによって達成できる測定の精度を制限している。 基本的に、この制限は量子力学の非可換性から生じ、しばしば量子射影ノイズと呼ばれるゆらぎが存在する。 量子メートル法は、標準量子限界を超える測定精度を高めるために、多体系の非古典状態の使用に依存している。 そのために、量子プロジェクションノイズ(squeezingとして知られる戦略)を再構成することができる。 多体スピン系の文脈では、通常、成分間のオール・ツー・オール相互作用(例えば1軸ねじれモデル)を利用してスピンスクイージングの構造的絡み合い特性を生成する。 近年の理論的研究に動機づけられ、近距離相互作用(特に二次元双極子xyモデル)がスケーラブルなスピンスクイーズの実現を可能にすると予測している。 最大100個の原子からなる双極子リドバーグ量子シミュレータを用いて、偏極初期状態からのクエンチダイナミクスがスピンスクイーズを誘導し、最大で-3.5dB(検出エラーの修正に先立ち、修正後の約5dB)までシステムサイズを増大させることを示した。 最後に,マルチステップのスピンスクイージングプロトコルを用いて,約1dBのスケジングをさらに強化し,フロッケ工学を利用してハイゼンベルク相互作用を実現することにより,圧縮状態の寿命を動的に凍結することにより拡張する能力を示す。

The standard quantum limit bounds the precision of measurements that can be achieved by ensembles of uncorrelated particles. Fundamentally, this limit arises from the non-commuting nature of quantum mechanics, leading to the presence of fluctuations often referred to as quantum projection noise. Quantum metrology relies on the use of non-classical states of many-body systems in order to enhance the precision of measurements beyond the standard quantum limit. To do so, one can reshape the quantum projection noise -- a strategy known as squeezing. In the context of many-body spin systems, one typically utilizes all-to-all interactions (e.g. the one-axis twisting model) between the constituents to generate the structured entanglement characteristic of spin squeezing. Motivated by recent theoretical work, here we explore the prediction that short-range interactions -- and in particular, the two-dimensional dipolar XY model -- can also enable the realization of scalable spin squeezing. Working with a dipolar Rydberg quantum simulator of up to 100 atoms, we demonstrate that quench dynamics from a polarized initial state lead to spin squeezing that improves with increasing system size up to a maximum of -3.5 dB (prior to correcting for detection errors, or approximately -5 dB after correction). Finally, we present two independent refinements: first, using a multistep spin-squeezing protocol allows us to further enhance the squeezing by approximately 1 dB, and second, leveraging Floquet engineering to realize Heisenberg interactions, we demonstrate the ability to extend the lifetime of the squeezed state by freezing its dynamics.
翻訳日:2023-09-11 18:28:19 公開日:2023-09-08
# 量子ダブルロックイン増幅器

Quantum Double Lock-in Amplifier ( http://arxiv.org/abs/2303.07559v3 )

ライセンス: Link先を確認
Sijie Chen, Min Zhuang, Ruihuang Fang, Yun Chen, Chengyin Han, Bo Lu, Jiahao Huang, and Chaohong Lee(参考訳) 量子ロックイン増幅器は、量子戦略を用いて強いノイズ背景内の交互信号を抽出することを目的としている。 しかし、ターゲット信号が通常未知の初期位相を持つため、単一のロックイン測定でその振幅、周波数、位相の完全な情報を得ることはできない。 ここでは、この課題を克服するために、量子二重ロックイン増幅器を実現するための一般的なプロトコルを提供し、その実現例を示す。 古典的な二重ロックイン増幅器と同様に、このプロトコルは直交パルス列の下で2つの量子ミキサーによって実現される。 2つの直交パルスシーケンスは、古典的な二重ロックイン増幅器において2つの直交参照信号の役割を果たす。 出力信号を組み合わせることで、目標信号の完全な特性を得ることができる。 例えば、$^{87}$rb原子を持つ5レベルダブル-$\lambda$コヒーレント集団トラップシステムにより、量子二重ロックイン増幅器が実現され、各$\lambda$構造が量子ミキサーとして作用し、2つの適用される2つの動的デカップリングシーケンスが2つの直交参照信号の役割を担う。 数値計算により、量子二重ロックイン増幅器は有限パルス長や確率雑音などの実験的な欠陥に対して頑健であることが示された。 本研究は, 強い雑音背景下での交互信号の完全な特性を抽出するための道を開き, 実用的な量子センシング技術の開発に有用である。

Quantum lock-in amplifier aims to extract an alternating signal within strong noise background by using quantum strategy. However, as the target signal usually has an unknown initial phase, we can't obtain the complete information of its amplitude, frequency and phase in a single lock-in measurement. Here, to overcome this challenge, we give a general protocol for achieving a quantum double lock-in amplifier and illustrate its realization. In analog to a classical double lock-in amplifier, our protocol is accomplished via two quantum mixers under orthogonal pulse sequences. The two orthogonal pulse sequences act the roles of two orthogonal reference signals in a classical double lock-in amplifier. Combining the output signals, the complete characteristics of the target signal can be obtained. As an example, we illustrate the realization of our quantum double lock-in amplifier via a five-level double-$\Lambda$ coherent population trapping system with $^{87}$Rb atoms, in which each $\Lambda$ structure acts as a quantum mixer and the two applied dynamical decoupling sequences take the roles of two orthogonal reference signals. Our numerical calculations show that the quantum double lock-in amplifier is robust against experimental imperfections, such as finite pulse length and stochastic noise. Our study opens an avenue for extracting complete characteristics of an alternating signal within strong noise background, which is beneficial for developing practical quantum sensing technologies.
翻訳日:2023-09-11 18:27:50 公開日:2023-09-08
# 自己教師付き学習に基づく心血管イベント検出のための総合臨床進歩訓練モデル

Self-supervised learning-based general laboratory progress pretrained model for cardiovascular event detection ( http://arxiv.org/abs/2303.06980v4 )

ライセンス: Link先を確認
Li-Chin Chen, Kuo-Hsuan Hung, Yi-Ju Tseng, Hsin-Yao Wang, Tse-Min Lu, Wei-Chieh Huang, Yu Tsao(参考訳) 患者データの本質的な性質にはいくつかの課題がある。 有意な症例は, 患者の容積や経過の整合性から, 経時的, 時間的, 欠失, 空間的不規則さで知られているが, 稀な症例や特定の症例の募集は, 患者の大きさやエピソード的観察が限られているため, しばしば制限される。 本研究は、一般実験室進行(GLP)モデルを事前訓練するために、自己教師学習(SSL)を用いて、心臓血管疾患における6つの一般的な実験室マーカーの全般的な進歩を捉え、この知識を特定の心血管イベントの検出に役立てることを目的としている。 GLPは2段階のトレーニングアプローチを実装し、補間データに埋め込まれた情報を活用し、SSLのパフォーマンスを増幅した。 GLP予備訓練後、TVR検出のために転送される。 提案した2段階のトレーニングにより、純粋なSSLの性能が向上し、GLPの転送性は特異性を示した。 glp処理後、分類は顕著な向上を示し、平均精度は 0.63 から 0.90 に上昇した。 その結果, 従来のGLP処理と比較して有意な優位性を示した(p < 0.01)。 本研究は、ある患者群から別の患者群へ心臓血管検査パラメータの患者進行を移し、データ可用性の限界を超越することで、翻訳工学を効果的に行う。 疾患進展の移管性は検査と治療の戦略を最適化し、一般に利用可能な検査パラメータを用いて患者の予後を改善する。 このアプローチを他の病気にまで拡張する可能性は非常に有望です。

The inherent nature of patient data poses several challenges. Prevalent cases amass substantial longitudinal data owing to their patient volume and consistent follow-ups, however, longitudinal laboratory data are renowned for their irregularity, temporality, absenteeism, and sparsity; In contrast, recruitment for rare or specific cases is often constrained due to their limited patient size and episodic observations. This study employed self-supervised learning (SSL) to pretrain a generalized laboratory progress (GLP) model that captures the overall progression of six common laboratory markers in prevalent cardiovascular cases, with the intention of transferring this knowledge to aid in the detection of specific cardiovascular event. GLP implemented a two-stage training approach, leveraging the information embedded within interpolated data and amplify the performance of SSL. After GLP pretraining, it is transferred for TVR detection. The proposed two-stage training improved the performance of pure SSL, and the transferability of GLP exhibited distinctiveness. After GLP processing, the classification exhibited a notable enhancement, with averaged accuracy rising from 0.63 to 0.90. All evaluated metrics demonstrated substantial superiority (p < 0.01) compared to prior GLP processing. Our study effectively engages in translational engineering by transferring patient progression of cardiovascular laboratory parameters from one patient group to another, transcending the limitations of data availability. The transferability of disease progression optimized the strategies of examinations and treatments, and improves patient prognosis while using commonly available laboratory parameters. The potential for expanding this approach to encompass other diseases holds great promise.
翻訳日:2023-09-11 18:27:12 公開日:2023-09-08
# 分布表現を用いた制約強化学習による信頼できる4軸UAV追従制御

Constrained Reinforcement Learning using Distributional Representation for Trustworthy Quadrotor UAV Tracking Control ( http://arxiv.org/abs/2302.11694v2 )

ライセンス: Link先を確認
Yanran Wang and David Boyle(参考訳) 複雑な動的環境における四重項の同時的かつ信頼性の高い追跡制御は困難である。 抵抗力やモーメントの変動から導かれる空気力学はカオス的であり、正確に識別することは困難であるため、現在の四重項追跡システムは従来の制御手法では単純な「乱」として扱う。 確率モデル予測制御器 (SMPC) を用いて, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクタを提案する。 提案手法は空力効果の真の値と推定値の間の不確かさを正確に同定するものである。 単純なアフィン外乱フィードバックは、凸性を保証するために制御パラメータ化に使われ、SMPCと統合する。 ニューラルネットワークの幅と層が増加するにつれて、制約が誤差に反した場合、ConsDREDが少なくとも最適な大域収束率と一定のサブ線形レートを達成することを理論的に保証する。 実用性を示すため,シミュレーションおよび実世界の実験において収束トレーニングを行い,ConsDREDが標準制約RLアプローチに比べてハイパーパラメータ設定に敏感でないことを実証的に検証した。 本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。 重要なことは、提案されたフレームワークであるConsDRED-SMPCは、高性能の追求と実用的な実装に対する保守的な制約に従うというトレードオフのバランスをとることである。

Simultaneously accurate and reliable tracking control for quadrotors in complex dynamic environments is challenging. As aerodynamics derived from drag forces and moment variations are chaotic and difficult to precisely identify, most current quadrotor tracking systems treat them as simple `disturbances' in conventional control approaches. We propose a novel, interpretable trajectory tracker integrating a Distributional Reinforcement Learning disturbance estimator for unknown aerodynamic effects with a Stochastic Model Predictive Controller (SMPC). The proposed estimator `Constrained Distributional Reinforced disturbance estimator' (ConsDRED) accurately identifies uncertainties between true and estimated values of aerodynamic effects. Simplified Affine Disturbance Feedback is used for control parameterization to guarantee convexity, which we then integrate with a SMPC. We theoretically guarantee that ConsDRED achieves at least an optimal global convergence rate and a certain sublinear rate if constraints are violated with an error decreases as the width and the layer of neural network increase. To demonstrate practicality, we show convergent training in simulation and real-world experiments, and empirically verify that ConsDRED is less sensitive to hyperparameter settings compared with canonical constrained RL approaches. We demonstrate our system improves accumulative tracking errors by at least 70% compared with the recent art. Importantly, the proposed framework, ConsDRED-SMPC, balances the tradeoff between pursuing high performance and obeying conservative constraints for practical implementations
翻訳日:2023-09-11 18:26:24 公開日:2023-09-08
# フェアガード:スマートシティにおけるハーネス論理に基づくフェアネスルール

Fairguard: Harness Logic-based Fairness Rules in Smart Cities ( http://arxiv.org/abs/2302.11137v7 )

ライセンス: Link先を確認
Yiqi Zhao, Ziyan An, Xuqing Gao, Ayan Mukhopadhyay, Meiyi Ma(参考訳) スマートシティは、大規模センサーネットワークからデータを収集、集約、活用する計算予測フレームワークで動作する。 しかし、これらのフレームワークは複数のデータソースとアルゴリズムバイアスの傾向があり、しばしば不公平な予測結果につながる。 そこで本研究では,チャタヌーガの都市データを用いて,時間的・空間的に偏差が持続することを示す。 このようなバイアスの問題を緩和するために、複雑な時間空間領域におけるスマートシティ政策調整と生成のためのマイクロレベルの時間論理に基づくアプローチであるFairguardを導入する。 Fairguardフレームワークは2つのフェーズから構成される: まず、選択した属性間の相関を最小化することにより、時間論理条件に基づいてデータのバイアスを低減できる静的ジェネレータを開発する。 次に、予測アルゴリズムの公平性を保証するために、予測結果を制御し、論理規則を利用して将来の公平な予測を生成する動的コンポーネントを設計する。 動的フェアガードは、全体的なパフォーマンスへの影響を最小限に抑えながら、実行時に保護されたグループに対する公平性を保証することができる。

Smart cities operate on computational predictive frameworks that collect, aggregate, and utilize data from large-scale sensor networks. However, these frameworks are prone to multiple sources of data and algorithmic bias, which often lead to unfair prediction results. In this work, we first demonstrate that bias persists at a micro-level both temporally and spatially by studying real city data from Chattanooga, TN. To alleviate the issue of such bias, we introduce Fairguard, a micro-level temporal logic-based approach for fair smart city policy adjustment and generation in complex temporal-spatial domains. The Fairguard framework consists of two phases: first, we develop a static generator that is able to reduce data bias based on temporal logic conditions by minimizing correlations between selected attributes. Then, to ensure fairness in predictive algorithms, we design a dynamic component to regulate prediction results and generate future fair predictions by harnessing logic rules. Evaluations show that logic-enabled static Fairguard can effectively reduce the biased correlations while dynamic Fairguard can guarantee fairness on protected groups at run-time with minimal impact on overall performance.
翻訳日:2023-09-11 18:26:01 公開日:2023-09-08
# 分極正規化とワンパス学習による合意サブネットワークの学習

Learning a Consensus Sub-Network with Polarization Regularization and One Pass Training ( http://arxiv.org/abs/2302.10798v3 )

ライセンス: Link先を確認
Xiaoying Zhi, Varun Babbar, Pheobe Sun, Fran Silavong, Ruibo Shi, Sean Moran(参考訳) 最近の大規模で複雑なニューラルネットワークモデルの動向を考えると、グリーンAIの主題はディープラーニングコミュニティ内で注目を集めている。 推論時のトレーニングの計算負荷を削減する既存のソリューションは、通常ネットワークパラメータの刈り込みを伴う。 プルーニングスキームは、反復的なトレーニングと静的プルーニングの微調整、動的プルーニンググラフの反復計算によって余分なオーバーヘッドを生み出す。 そこで本研究では, 省エネコストを最小にしつつ, 下流タスクの完全パラメータ化ネットワークと同等の性能を維持する軽量サブネットワークを学習するための新しいパラメータプルーニング手法を提案する。 提案手法はグリーン指向であり,動的プルーニング法により最適な静的サブネットワークを発見するためには,ワンオフトレーニングのみを必要とする。 プルーニング方式は、二分ゲーティングモジュールと、ユーザが定義した間隔でサブネットワークを探索する新しい損失関数から構成される。 提案手法は,訓練段階と推論段階の両方でエネルギーを節約し,演算オーバーヘッドの増大を回避し,同時に刈り取り訓練を可能にする。 CIFAR-10 と CIFAR-100 では,分類精度が1% 未満の深層ネットワークにおける接続の50%を除去できる可能性が示唆された。 本手法は他のプルーニング法と比較して,計算コストの等価な削減のための精度の低下を示す。

The subject of green AI has been gaining attention within the deep learning community given the recent trend of ever larger and more complex neural network models. Existing solutions for reducing the computational load of training at inference time usually involve pruning the network parameters. Pruning schemes often create extra overhead either by iterative training and fine-tuning for static pruning or repeated computation of a dynamic pruning graph. We propose a new parameter pruning strategy for learning a lighter-weight sub-network that minimizes the energy cost while maintaining comparable performance to the fully parameterised network on given downstream tasks. Our proposed pruning scheme is green-oriented, as it only requires a one-off training to discover the optimal static sub-networks by dynamic pruning methods. The pruning scheme consists of a binary gating module and a novel loss function to uncover sub-networks with user-defined sparsity. Our method enables pruning and training simultaneously, which saves energy in both the training and inference phases and avoids extra computational overhead from gating modules at inference time. Our results on CIFAR-10 and CIFAR-100 suggest that our scheme can remove 50% of connections in deep networks with less than 1% reduction in classification accuracy. Compared to other related pruning methods, our method demonstrates a lower drop in accuracy for equivalent reductions in computational cost.
翻訳日:2023-09-11 18:25:42 公開日:2023-09-08
# 汚れた誘電体環境における高インピーダンス共振器の性能

Performance of high impedance resonators in dirty dielectric environments ( http://arxiv.org/abs/2302.06303v2 )

ライセンス: Link先を確認
Jann H. Ungerer, Deepankar Sarmah, Artem Kononov, Joost Ridderbos, Roy Haller, Luk Yi Cheung, Christian Sch\"onenberger(参考訳) 高インピーダンス共振器はスピン量子ビット間の長距離エンタングゲートを実現するための有望な競合器である。 しばしばスピン量子ビットの製造は、共振器の品質を損なうゲート誘電体の使用に依存している。 本稿では,原子層堆積法により作製したSiO\textsubscript{2}およびAl\textsubscript{2}O\textsubscript{3}近傍における高インピーダンスNbTiN共振器の損失機構について検討する。 高磁場および高温における共振器性能のベンチマークを行い, 内部品質因子は, 共振器と使用酸化物の2レベル系との結合によって制限されていることを見出した。 それにもかかわらず、高インピーダンス共振器の内部品質係数は、スピン量子デバイスに組み込まれた共振器の性能を制限しないことを意味する酸化物構成のすべてにおいて10^3$を超える。 これらの酸化物は一般にスピン量子ビットデバイス製造に使用されるため、高速共振器をスピンベース量子プロセッサに簡単に統合することができる。 したがって、これらの実験は、大規模でスピンベースの量子コンピュータへの道を開く。

High-impedance resonators are a promising contender for realizing long-distance entangling gates between spin qubits. Often, the fabrication of spin qubits relies on the use of gate dielectrics which are detrimental to the quality of the resonator. Here, we investigate loss mechanisms of high-impedance NbTiN resonators in the vicinity of thermally grown SiO\textsubscript{2} and Al\textsubscript{2}O\textsubscript{3} fabricated by atomic layer deposition. We benchmark the resonator performance in elevated magnetic fields and at elevated temperatures and find that the internal quality factors are limited by the coupling between the resonator and two-level systems of the employed oxides. Nonetheless, the internal quality factors of high-impedance resonators exceed $10^3$ in all investigated oxide configurations which implies that the dielectric configuration would not limit the performance of resonators integrated in a spin-qubit device. Because these oxides are commonly used for spin qubit device fabrication, our results allow for straightforward integration of high-impedance resonators into spin-based quantum processors. Hence, these experiments pave the way for large-scale, spin-based quantum computers.
翻訳日:2023-09-11 18:25:20 公開日:2023-09-08
# 射影作用素の最適半古典正則性と強いワイル則

Optimal Semiclassical Regularity of Projection Operators and Strong Weyl Law ( http://arxiv.org/abs/2302.04816v2 )

ライセンス: Link先を確認
Laurent Lafleche(参考訳) 射影作用素は、量子力学や決定過程の研究のような分野におけるスレーター行列式に関連する1つの粒子密度作用素として自然に現れる。 量子力学の半古典近似の文脈において、射影作用素は不連続函数である位相空間の部分集合の特性関数の類似と見なすことができる。 射影作用素は相空間の標数関数に実際に収束し、量子ソボレフ空間の観点では、標数関数と同じ極大正則性を示すことを証明する。 これは、シャッテンノルムにおける可換体の大きさに関する半古典的漸近として解釈できる。 我々の研究は (J. Chong, L. Lafleche, C. Saffirio, arXiv:2103.10946 [math.AP]) において、射影作用素を初期データとして持つ可能性についての疑問に答え、ワイル法に強い収束結果を与える。

Projection operators arise naturally as one particle density operators associated to Slater determinants in fields such as quantum mechanics and the study of determinantal processes. In the context of the semiclassical approximation of quantum mechanics, projection operators can be seen as the analogue of characteristic functions of subsets of the phase space, which are discontinuous functions. We prove that projection operators indeed converge to characteristic functions of the phase space and that in terms of quantum Sobolev spaces, they exhibit the same maximal regularity as characteristic functions. This can be interpreted as a semiclassical asymptotic on the size of commutators in Schatten norms. Our study answers a question raised in [J. Chong, L. Lafleche, C. Saffirio, arXiv:2103.10946 [math.AP]] about the possibility of having projection operators as initial data, and also gives a strong convergence result for the Weyl law.
翻訳日:2023-09-11 18:25:00 公開日:2023-09-08
# 量子可能エコシステムの構築

Building a Quantum-ready Ecosystem ( http://arxiv.org/abs/2304.06843v2 )

ライセンス: Link先を確認
Abhishek Purohit, Maninder Kaur, Zeki Can Seskir, Matthew T. Posner, and Araceli Venegas-Gomez(参考訳) 量子テクノロジーの出現は、コンピューティング、センシング、セキュアな通信、そしてあらゆる産業分野における実用的な応用を伴う先端材料のシミュレーションにおける画期的な進歩をもたらした。 量子技術エコシステムの急速な発展は、これらの技術の成熟度とその商業的生存可能性への差し迫った加速を評価することが不可欠となった。 量子技術の現在の状況を示し、量子対応エコシステムの必要性を強調している。 標準量子技術準備レベル(QTRL)は定式化され、特定の量子技術の準備性を評価するために革新的なモデルとツールが定義される。 QTRLに加えて、QCRL(Quantum Commercial Readiness Levels)も導入され、量子技術の商業的生存性と市場準備性を評価するための堅牢なフレームワークを提供する。 さらに、政府、産業界、学界などの重要な利害関係者に関する関連指標を議論し、量子技術の即応性に対する理解を深め、堅牢で効果的な量子エコシステムの開発を支援するための倫理やプロトコルについて述べる。

The emergence of quantum technologies has led to groundbreaking advancements in computing, sensing, secure communications, and simulation of advanced materials with practical applications in every industry sector. The rapid advancement of the quantum technologies ecosystem has made it imperative to assess the maturity of these technologies and their imminent acceleration towards commercial viability. The current status of quantum technologies is presented and the need for a quantum-ready ecosystem is emphasised. Standard Quantum Technology Readiness Levels (QTRLs) are formulated and innovative models and tools are defined to evaluate the readiness of specific quantum technology. In addition to QTRLs, Quantum Commercial Readiness Levels (QCRLs) is introduced to provide a robust framework for evaluating the commercial viability and market readiness of quantum technologies. Furthermore, relevant indicators concerning key stakeholders, including government, industry, and academia are discussed and ethics and protocols implications are described, to deepen our understanding of the readiness for quantum technology and support the development of a robust and effective quantum ecosystem.
翻訳日:2023-09-11 18:17:38 公開日:2023-09-08
# 音楽ミキシングワークフローにおけるAI技術の活用:調査

Adoption of AI Technology in the Music Mixing Workflow: An Investigation ( http://arxiv.org/abs/2304.03407v2 )

ライセンス: Link先を確認
Soumya Sai Vanka, Maryam Safi, Jean-Baptiste Rolland, and George Fazekas(参考訳) 音楽産業における人工知能(AI)技術の統合は、音楽の作曲、制作、混合の方法に大きな変化をもたらしている。 本研究では、ワークフローの混合におけるAIの現状と、異なるユーザグループによる採用について検討する。 半構造化インタビュー、アンケートに基づく調査、webフォーラムの分析を通じて、アマチュア、プロam、プロフェッショナルの3つのユーザーグループを確認した。 以上の結果から,aiミキシングツールはプロセスを簡素化し,アマチュアにまともな結果を提供するが,プロは正確な制御とカスタマイズの選択肢を求め,専門家は支援的かつ協調的な技術に加えて,コントロールとカスタマイズの選択肢を欲することが示された。 この研究は、異なるユーザーグループ向けに効果的なaiミキシングツールを設計するための戦略を提供し、今後の方向性を概説する。

The integration of artificial intelligence (AI) technology in the music industry is driving a significant change in the way music is being composed, produced and mixed. This study investigates the current state of AI in the mixing workflows and its adoption by different user groups. Through semi-structured interviews, a questionnaire-based study, and analyzing web forums, the study confirms three user groups comprising amateurs, pro-ams, and professionals. Our findings show that while AI mixing tools can simplify the process and provide decent results for amateurs, pro-ams seek precise control and customization options, while professionals desire control and customization options in addition to assistive and collaborative technologies. The study provides strategies for designing effective AI mixing tools for different user groups and outlines future directions.
翻訳日:2023-09-11 18:17:22 公開日:2023-09-08
# FedBEVT:道路交通システムにおける鳥の視線知覚変換器

FedBEVT: Federated Learning Bird's Eye View Perception Transformer in Road Traffic Systems ( http://arxiv.org/abs/2304.01534v2 )

ライセンス: Link先を確認
Rui Song, Runsheng Xu, Andreas Festag, Jiaqi Ma, Alois Knoll(参考訳) 自律運転の分野では、鳥の視線(BEV)の認識がますます重要になっている。 マルチビューカメラデータを使用して、道路環境の知覚を直接BEVの視点に投影するトランスフォーマーモデルを学ぶ。 しかし、トランスモデルのトレーニングには大量のデータを必要とすることが多く、道路交通のカメラデータはしばしばプライベートであるため、共有されることはない。 フェデレーション学習は、データとモデルパラメータを交換することなく、クライアントが協調してモデルをトレーニングできるソリューションを提供する。 本稿では,BEV知覚のためのフェデレートトランスフォーマー学習手法であるFedBEVTを紹介する。 FedBEVTにおける2つの共通データ不均一性問題に対処するために (i)多様なセンサーのポーズ、及び 2) 認識システムにおけるセンサ数の変化から,FedCaP(Federated Learning with Camera-Attentive Personalization)とAMCM(Adaptive Multi-Camera Masking)の2つのアプローチを提案する。 本手法を実世界環境で評価するために,4つの典型的なフェデレーション・ユースケースからなるデータセットを作成する。 その結果,FedBEVTは4つのユースケースすべてにおいてベースラインアプローチよりも優れており,自動運転におけるBEV知覚の向上に対するアプローチの可能性を示している。

Bird's eye view (BEV) perception is becoming increasingly important in the field of autonomous driving. It uses multi-view camera data to learn a transformer model that directly projects the perception of the road environment onto the BEV perspective. However, training a transformer model often requires a large amount of data, and as camera data for road traffic are often private, they are typically not shared. Federated learning offers a solution that enables clients to collaborate and train models without exchanging data but model parameters. In this paper, we introduce FedBEVT, a federated transformer learning approach for BEV perception. In order to address two common data heterogeneity issues in FedBEVT: (i) diverse sensor poses, and (ii) varying sensor numbers in perception systems, we propose two approaches -- Federated Learning with Camera-Attentive Personalization (FedCaP) and Adaptive Multi-Camera Masking (AMCM), respectively. To evaluate our method in real-world settings, we create a dataset consisting of four typical federated use cases. Our findings suggest that FedBEVT outperforms the baseline approaches in all four use cases, demonstrating the potential of our approach for improving BEV perception in autonomous driving.
翻訳日:2023-09-11 18:16:59 公開日:2023-09-08
# 現代ディープラーニングアルゴリズムによる残差クラスに基づく整数の分類

Classification of integers based on residue classes via modern deep learning algorithms ( http://arxiv.org/abs/2304.01333v3 )

ライセンス: Link先を確認
Da Wu, Jingye Yang, Mian Umair Ahsan, Kai Wang(参考訳) 整数が 2 や 3 のような素数で割り切れるかどうかを判断することは、人間には自明に見えるが、コンピュータにとっては単純ではない。 本稿では,複数のディープラーニングアーキテクチャと,その残差に基づいて整数を小さな素数で割った場合の分類に関する特徴工学的アプローチをテストした。 分類の能力は特徴空間に大きく依存することがわかった。 また、Amazon、Google、MicrosoftのAutomated Machine Learning (AutoML)プラットフォームを評価し、適切に設計された機能なしでこのタスクに失敗したことを発見した。 さらに,フーリエ級数基底ベクトル上で線形回帰を利用する手法を提案し,その有効性を示した。 最後に, GPT-4, GPT-J, LLaMA, Falcon などの大規模言語モデル (LLM) の評価を行い, 失敗例を実証した。 結論として、AutoMLやLLMの時代でさえ、機能エンジニアリングはパフォーマンスを改善し、機械学習モデルの解釈可能性を高める重要なタスクである。

Judging whether an integer can be divided by prime numbers such as 2 or 3 may appear trivial to human beings, but can be less straightforward for computers. Here, we tested multiple deep learning architectures and feature engineering approaches on classifying integers based on their residues when divided by small prime numbers. We found that the ability of classification critically depends on the feature space. We also evaluated Automated Machine Learning (AutoML) platforms from Amazon, Google and Microsoft, and found that they failed on this task without appropriately engineered features. Furthermore, we introduced a method that utilizes linear regression on Fourier series basis vectors, and demonstrated its effectiveness. Finally, we evaluated Large Language Models (LLMs) such as GPT-4, GPT-J, LLaMA and Falcon, and demonstrated their failures. In conclusion, feature engineering remains an important task to improve performance and increase interpretability of machine-learning models, even in the era of AutoML and LLMs.
翻訳日:2023-09-11 18:16:34 公開日:2023-09-08
# アフィンマルコフゲームにおけるソフトベルマン平衡--前方解と逆学習

Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and Inverse Learning ( http://arxiv.org/abs/2304.00163v2 )

ライセンス: Link先を確認
Shenghui Chen, Yue Yu, David Fridovich-Keil, Ufuk Topcu(参考訳) マルコフゲームは確率的、動的環境における複数のプレイヤー間の相互作用をモデル化する。 マルコフゲームの各プレイヤーは、他のプレイヤーの方針に依存する、予想される総割引報酬を最大化する。 アフィン・マルコフゲーム(英: affine markov games)とは、アフィンの報酬関数がプレイヤーのアクションと結合するゲームである。 我々は,各プレイヤーが有界的に有理であり,ナッシュ均衡の概念と同様に純粋有理政策ではなくソフト・ベルマン政策を選択する,新しい解法であるソフト・ベルマン均衡を導入する。 ソフト・ベルマン平衡の存在と特異性に関する条件を提供し、前方問題におけるそのような平衡を計算する非線形最小二乗アルゴリズムを提案する。 次に, 予測勾配アルゴリズムを用いて, 観測された状態動作軌跡からプレイヤーの報酬パラメータを推測する逆ゲーム問題を解く。 捕食者によるOpenAI Gym環境における実験では,提案アルゴリズムが推定した報酬パラメータがベースラインアルゴリズムより優れており,平衡ポリシと観測ポリシとのKullback-Leiblerのばらつきを少なくとも2桁程度低減している。

Markov games model interactions among multiple players in a stochastic, dynamic environment. Each player in a Markov game maximizes its expected total discounted reward, which depends upon the policies of the other players. We formulate a class of Markov games, termed affine Markov games, where an affine reward function couples the players' actions. We introduce a novel solution concept, the soft-Bellman equilibrium, where each player is boundedly rational and chooses a soft-Bellman policy rather than a purely rational policy as in the well-known Nash equilibrium concept. We provide conditions for the existence and uniqueness of the soft-Bellman equilibrium and propose a nonlinear least-squares algorithm to compute such an equilibrium in the forward problem. We then solve the inverse game problem of inferring the players' reward parameters from observed state-action trajectories via a projected-gradient algorithm. Experiments in a predator-prey OpenAI Gym environment show that the reward parameters inferred by the proposed algorithm outperform those inferred by a baseline algorithm: they reduce the Kullback-Leibler divergence between the equilibrium policies and observed policies by at least two orders of magnitude.
翻訳日:2023-09-11 18:15:58 公開日:2023-09-08
# 自然性周辺検出学習データを用いたドライバプロファイリングとベイズワークロード推定

Driver Profiling and Bayesian Workload Estimation Using Naturalistic Peripheral Detection Study Data ( http://arxiv.org/abs/2303.14720v2 )

ライセンス: Link先を確認
Nermin Caber, Bashar I. Ahmad, Jiaming Liang, Simon Godsill, Alexandra Bremers, Philip Thomas, David Oxtoby and Lee Skrypchuk(参考訳) ドライバーのメンタルワークロードの監視は、車載情報システムとの安全なインタラクションの開始と維持を容易にする。 本稿では,運転実績データから負荷推定を行う問題に対処する。 まず,自然条件下での周辺検出タスクの修正により,主観的な作業負荷データを収集する手法を提案する。 心的負荷を誘発する主要な環境要因は、例えば前方の車両の接合や挙動などのビデオ分析によって特定される。 第二に、最先端の時系列分類器(例えば畳み込みニューラルネットワークと変換技術)を用いた教師付き学習フレームワークが、旅行中に経験した平均作業量に基づいてプロファイルドライバに導入された。 ベイズフィルタリング手法は、ドライバーの即時作業負荷である(ほぼ)リアルタイムに逐次推定するために提案される。 この計算効率が高く柔軟な方法は、ドライバー(例えば、推定平均負荷プロファイルを組み込む)にパーソナライズしやすく、運転/環境コンテキスト(例えば、道路タイプ)に適応し、新しいソースからのデータストリームで拡張することができる。 提案したプロファイリングの有効性と即時ワークロード推定手法の有効性を,道路調査データを用いて実証し,F_{1}$スコアを最大92%,81%とした。

Monitoring drivers' mental workload facilitates initiating and maintaining safe interactions with in-vehicle information systems, and thus delivers adaptive human machine interaction with reduced impact on the primary task of driving. In this paper, we tackle the problem of workload estimation from driving performance data. First, we present a novel on-road study for collecting subjective workload data via a modified peripheral detection task in naturalistic settings. Key environmental factors that induce a high mental workload are identified via video analysis, e.g. junctions and behaviour of vehicle in front. Second, a supervised learning framework using state-of-the-art time series classifiers (e.g. convolutional neural network and transform techniques) is introduced to profile drivers based on the average workload they experience during a journey. A Bayesian filtering approach is then proposed for sequentially estimating, in (near) real-time, the driver's instantaneous workload. This computationally efficient and flexible method can be easily personalised to a driver (e.g. incorporate their inferred average workload profile), adapted to driving/environmental contexts (e.g. road type) and extended with data streams from new sources. The efficacy of the presented profiling and instantaneous workload estimation approaches are demonstrated using the on-road study data, showing $F_{1}$ scores of up to 92% and 81%, respectively.
翻訳日:2023-09-11 18:15:34 公開日:2023-09-08
# MI-SegNet:unseen Domain Generalizationのための相互情報に基づくUSセグメンテーション

MI-SegNet: Mutual Information-Based US Segmentation for Unseen Domain Generalization ( http://arxiv.org/abs/2303.12649v2 )

ライセンス: Link先を確認
Yuan Bi, Zhongliang Jiang, Ricarda Clarenbach, Reza Ghotbi, Angelos Karlas, Nassir Navab(参考訳) ドメイン間の学習に基づく医用画像分割の一般化は、現在、領域シフトによる性能低下、特に超音波(us)イメージングによって制限されている。 アメリカの画像の品質は、音像、機械、設定によって異なる、注意深く調整された音響パラメータに大きく依存している。 ドメイン間のUS画像の一般化性を改善するために,解剖学的特徴表現とドメイン特徴表現を明確に分離する新たな相互情報(MI)ベースのフレームワークMI-SegNetを提案する。 2つのエンコーダを使用して、絡み合いの関連特徴を抽出する。 セグメンテーションはその予測に解剖学的特徴マップのみを使用する。 エンコーダに有意義な特徴表現を学習させるために、トレーニング中にクロスリコンストラクション法が使用される。 ドメインまたは解剖学に特有の変換は、それぞれの特徴抽出タスクでエンコーダを導くために適用される。 さらに、両方の機能マップに存在するすべてのmiは、別々の機能空間をさらに促進するために罰せられる。 パラメータやマシンの異なる複数のデータセットに対して提案したドメイン独立セグメンテーション手法の一般化可能性を検証する。 さらに,提案するMI-SegNetを,最先端ネットワークと比較し,事前学習モデルとして有効であることを示す。

Generalization capabilities of learning-based medical image segmentation across domains are currently limited by the performance degradation caused by the domain shift, particularly for ultrasound (US) imaging. The quality of US images heavily relies on carefully tuned acoustic parameters, which vary across sonographers, machines, and settings. To improve the generalizability on US images across domains, we propose MI-SegNet, a novel mutual information (MI) based framework to explicitly disentangle the anatomical and domain feature representations; therefore, robust domain-independent segmentation can be expected. Two encoders are employed to extract the relevant features for the disentanglement. The segmentation only uses the anatomical feature map for its prediction. In order to force the encoders to learn meaningful feature representations a cross-reconstruction method is used during training. Transformations, specific to either domain or anatomy are applied to guide the encoders in their respective feature extraction task. Additionally, any MI present in both feature maps is punished to further promote separate feature spaces. We validate the generalizability of the proposed domain-independent segmentation approach on several datasets with varying parameters and machines. Furthermore, we demonstrate the effectiveness of the proposed MI-SegNet serving as a pre-trained model by comparing it with state-of-the-art networks.
翻訳日:2023-09-11 18:15:08 公開日:2023-09-08
# 空中拡散:拡散モデルを用いた単一画像からの地対空ビューのテキスト変換

Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a Single Image using Diffusion Models ( http://arxiv.org/abs/2303.11444v2 )

ライセンス: Link先を確認
Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha(参考訳) 本稿では,テキストガイドを用いた地上画像から空中映像を生成する新しい手法である空中拡散法を提案する。 航空拡散は事前知識のための事前訓練されたテキストイメージ拡散モデルを利用する。 地平線と空中線との領域ギャップに対応する2つの主要な課題に対処し,テキスト画像埋め込み多様体において,その2つの視点は遠く離れている。 提案手法は,事前学習した拡散モデルの微調整に先立って,逆パースペクティブマッピングにインスパイアされたホモグラフィを用いている。 さらに、地上画像に対応するテキストを使用してモデルを微調整することは、地上画像に対して相対的に低いバイアスで地上画像の詳細をキャプチャするのに役立つ。 空中拡散は交代サンプリング戦略を用いて複雑な高次元多様体上の最適解を計算し、高忠実度(w.r.t. ground view)空中画像を生成する。 本研究では,自然,人的行動,屋内シーンなど,さまざまな領域の画像に対して,空中拡散の質と汎用性を示す。 提案手法の有効性を,広範囲な改善と比較により定性的に証明する。 私たちの知る限りでは、航空拡散は教師なしの方法で地対空翻訳を行う最初のアプローチです。

We present a novel method, Aerial Diffusion, for generating aerial views from a single ground-view image using text guidance. Aerial Diffusion leverages a pretrained text-image diffusion model for prior knowledge. We address two main challenges corresponding to domain gap between the ground-view and the aerial view and the two views being far apart in the text-image embedding manifold. Our approach uses a homography inspired by inverse perspective mapping prior to finetuning the pretrained diffusion model. Additionally, using the text corresponding to the ground-view to finetune the model helps us capture the details in the ground-view image at a relatively low bias towards the ground-view image. Aerial Diffusion uses an alternating sampling strategy to compute the optimal solution on complex high-dimensional manifold and generate a high-fidelity (w.r.t. ground view) aerial image. We demonstrate the quality and versatility of Aerial Diffusion on a plethora of images from various domains including nature, human actions, indoor scenes, etc. We qualitatively prove the effectiveness of our method with extensive ablations and comparisons. To the best of our knowledge, Aerial Diffusion is the first approach that performs ground-to-aerial translation in an unsupervised manner.
翻訳日:2023-09-11 18:14:48 公開日:2023-09-08
# NeTO:自己閉塞を意識した透明物体のニューラル再構築

NeTO:Neural Reconstruction of Transparent Objects with Self-Occlusion Aware Refraction-Tracing ( http://arxiv.org/abs/2303.11219v4 )

ライセンス: Link先を確認
Zongcheng Li, Xiaoxiao Long, Yusen Wang, Tuo Cao, Wenping Wang, Fei Luo and Chunxia Xiao(参考訳) 本稿では,2次元画像から立体透明物体の3次元形状をボリュームレンダリングにより捉えるnetoという新しい手法を提案する。 透明物体の再構成は非常に困難な作業であり、光輸送現象による汎用的な再構築技術には不適当である。 この課題のために特別に設計された既存の屈折トラッキングベースの手法は印象的な結果をもたらすが、彼らが採用した明示的な表面表現は最適化が困難であり、自己遮蔽問題は屈折トラッシングでは無視されるため、依然として不安定な最適化と細部の減少に苦しむ。 本稿では,暗黙的符号距離関数(SDF)を表面表現として活用し,自己閉塞型屈折線トレーシングによるボリュームレンダリングによるSDFフィールドの最適化を提案する。 暗黙的表現により,限られた画像でも高品質な再構築が可能となり,自己排他的認識戦略により,自己排他的領域を正確に再構築することが可能となった。 実験により,本手法が忠実な再構築結果を達成し,先行研究よりも大きなマージンで上回ることを示した。 プロジェクトページはhttps://www.xxlong.site/neto/

We present a novel method, called NeTO, for capturing 3D geometry of solid transparent objects from 2D images via volume rendering. Reconstructing transparent objects is a very challenging task, which is ill-suited for general-purpose reconstruction techniques due to the specular light transport phenomena. Although existing refraction-tracing based methods, designed specially for this task, achieve impressive results, they still suffer from unstable optimization and loss of fine details, since the explicit surface representation they adopted is difficult to be optimized, and the self-occlusion problem is ignored for refraction-tracing. In this paper, we propose to leverage implicit Signed Distance Function (SDF) as surface representation, and optimize the SDF field via volume rendering with a self-occlusion aware refractive ray tracing. The implicit representation enables our method to be capable of reconstructing high-quality reconstruction even with a limited set of images, and the self-occlusion aware strategy makes it possible for our method to accurately reconstruct the self-occluded regions. Experiments show that our method achieves faithful reconstruction results and outperforms prior works by a large margin. Visit our project page at https://www.xxlong.site/NeTO/
翻訳日:2023-09-11 18:14:27 公開日:2023-09-08
# EENED:畳み込み変換器を用いた終端神経てんかん検出

EENED: End-to-End Neural Epilepsy Detection based on Convolutional Transformer ( http://arxiv.org/abs/2305.10502v2 )

ライセンス: Link先を確認
Chenyu Liu, Xinliang Zhou and Yang Liu(参考訳) 最近のtransformer and convolution neural network (cnn)ベースのモデルは脳波信号処理において有望な結果を示している。 トランスフォーマーモデルは自己アテンション機構を通じてEEG信号のグローバルな依存関係をキャプチャし、CNNモデルはソートゥースウェーブのようなローカルな特徴をキャプチャすることができる。 本研究では,CNNとTransformerを組み合わせたエンドツーエンドの神経てんかん検出モデルであるEENEDを提案する。 具体的には、Transformerエンコーダに畳み込みモジュールを導入することで、EENEDは患者の脳波信号の特徴の時間依存性の関係を学習し、スパイクの出現や鋭く遅い波の発散など、てんかんと密接に関連する局所脳波異常変異に気づく。 提案フレームワークは,脳波信号の異なる規模の特徴を捉えるためのTransformerとCNNの機能を組み合わせて,てんかん検出の精度と信頼性の向上を約束する。 ソースコードは近いうちにGitHubで公開される予定です。

Recently Transformer and Convolution neural network (CNN) based models have shown promising results in EEG signal processing. Transformer models can capture the global dependencies in EEG signals through a self-attention mechanism, while CNN models can capture local features such as sawtooth waves. In this work, we propose an end-to-end neural epilepsy detection model, EENED, that combines CNN and Transformer. Specifically, by introducing the convolution module into the Transformer encoder, EENED can learn the time-dependent relationship of the patient's EEG signal features and notice local EEG abnormal mutations closely related to epilepsy, such as the appearance of spikes and the sprinkling of sharp and slow waves. Our proposed framework combines the ability of Transformer and CNN to capture different scale features of EEG signals and holds promise for improving the accuracy and reliability of epilepsy detection. Our source code will be released soon on GitHub.
翻訳日:2023-09-11 18:05:55 公開日:2023-09-08
# クリロフ複雑性のバルク表現

A bulk manifestation of Krylov complexity ( http://arxiv.org/abs/2305.04355v2 )

ライセンス: Link先を確認
E. Rabinovici, A. S\'anchez-Garrido, R. Shir and J. Sonner(参考訳) 量子場理論における複雑性の概念には、有限量子系と同様に様々な定義がある。 いくつかは、予想されるホログラフィックバルク双対が存在する。 本稿では,ads/cft辞書にkrylovやk-complexityという,そのような複雑性のクラスを記載する。 この目的のために、AdS$_2$の重力理論であるJT重力に対するある種の極限で双対である二重スケールSYKモデルで作業する。 特に境界上の状態はバルクにおいて明確な幾何学的定義を持つ。 この結果から,AdS$_2$境界における常温熱電場二重状態のクリロフ複雑性が,JT重力,すなわち両側のワームホールの長さにおいて正確なバルク記述を持つことを示す。 我々は、クリロフ複雑性作用素の固有状態であるクリロフ基底元が、バルク・ヒルベルト空間を同定するバルク・バウンダリー写像にk-複素性を適用することにより、バルク理論における長固有状態に写像されることを示した。 この結果はコードダイアグラムの手法を広く利用し、バルク重力ヒルベルト空間を構成する固定コード数状態を持つ境界量子系のクリロフ基底を同定する。

There are various definitions of the concept of complexity in Quantum Field Theory as well as for finite quantum systems. For several of them there are conjectured holographic bulk duals. In this work we establish an entry in the AdS/CFT dictionary for one such class of complexity, namely Krylov or K-complexity. For this purpose we work in the double-scaled SYK model which is dual in a certain limit to JT gravity, a theory of gravity in AdS$_2$. In particular, states on the boundary have a clear geometrical definition in the bulk. We use this result to show that Krylov complexity of the infinite-temperature thermofield double state on the boundary of AdS$_2$ has a precise bulk description in JT gravity, namely the length of the two-sided wormhole. We do this by showing that the Krylov basis elements, which are eigenstates of the Krylov complexity operator, are mapped to length eigenstates in the bulk theory by subjecting K-complexity to the bulk-boundary map identifying the bulk/boundary Hilbert spaces. Our result makes extensive use of chord diagram techniques and identifies the Krylov basis of the boundary quantum system with fixed chord number states building the bulk gravitational Hilbert space.
翻訳日:2023-09-11 18:05:03 公開日:2023-09-08
# COLA: コンポジションテキスト画像検索のためのベンチマーク

COLA: A Benchmark for Compositional Text-to-image Retrieval ( http://arxiv.org/abs/2305.03689v2 )

ライセンス: Link先を確認
Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko(参考訳) 構成推論は人間の視覚知能の指標であるが、大きな視覚言語モデルのサイズにもかかわらず、オブジェクトと属性を組み合わせることで単純な構成を表現するのに苦労している。 コンポジション能力の欠如を測るため,Attributesで局所化したCompose Objectsに対するテキスト・画像検索ベンチマークであるColaを設計した。 Colaを解決するには、モデルが属性とオブジェクトの適切な構成で画像を検索し、同じオブジェクトと属性を持つイントラクタイメージを選択することを避ける必要がある。 Colaは168のオブジェクトと約30Kイメージの197の属性からなる1.2kのクエリを含んでいる。 人間による評価では、コーラは83.33%正確であり、現代の構成性ベンチマークと同様である。 colaをテストベッドとして使用し,事前学習した視覚言語モデルに合理性を持たせるための経験的モデリング設計について検討した。 構成性中心テストベンチマーク - cola と crepe を用いて, 2つの視覚言語モデルにおける6つの適応戦略について検討した。 最適適応戦略は,凍結した事前学習した画像と言語特徴に共同で参画するマルチモーダルアテンション層を訓練することである。 驚くべきことに、CLIP上のマルチモーダルレイヤのトレーニングは、すでにトレーニング済みのマルチモーダルレイヤで、より大きなFLAVAモデルをチューニングするよりも優れている。 さらに、我々の適応戦略はCLIPとFLAVAを同等レベルまで改善し、コントラッシブ属性オブジェクトデータを用いたマルチモーダルレイヤのトレーニングが重要であることを示唆している。 最後に、Cola は CREPE 上では十分だが、Cola では十分ではないため、近縁な現代的なベンチマーク CREPE よりも難しいことを示す。 しかし、最良の適応と人間の正確さの間には依然として大きなギャップがあり、さらなる研究の余地があることを示唆している。

Compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. To solve Cola, a model must retrieve images with the correct configuration of attributes and objects, and avoid choosing a distractor image with the same objects and attributes but in the wrong configuration. Cola contains about 1.2k composed queries of 168 objects and 197 attributes on around 30K images. Our human evaluation finds that Cola is 83.33% accurate, similar to contemporary compositionality benchmarks. Using Cola as a testbed, we explore empirical modeling designs to adapt pre-trained vision-language models to reason compositionally. We explore 6 adaptation strategies on 2 seminal vision-language models, using compositionality-centric test benchmarks - Cola and CREPE. We find the optimal adaptation strategy is to train a multimodal attention layer that jointly attends over the frozen pre-trained image and language features. Surprisingly, training multimodal layers on CLIP performs better than tuning a larger FLAVA model with already pre-trained multimodal layers. Furthermore, our adaptation strategy improves CLIP and FLAVA to comparable levels, suggesting that training multimodal layers using contrastive attribute-object data is key, as opposed to using them pre-trained. Lastly, we show that Cola is harder than a closely related contemporary benchmark, CREPE, since simpler fine-tuning strategies without multimodal layers suffice on CREPE, but not on Cola. However, we still see a significant gap between our best adaptation and human accuracy, suggesting considerable room for further research.
翻訳日:2023-09-11 18:04:39 公開日:2023-09-08
# ロバストツリーアンサンブルの検証可能な学習

Verifiable Learning for Robust Tree Ensembles ( http://arxiv.org/abs/2305.03626v2 )

ライセンス: Link先を確認
Stefano Calzavara (1), Lorenzo Cazzaro (1), Giulio Ermanno Pibiri (1), Nicola Prezza (1) ((1) Universit\`a Ca' Foscari Venezia, Italy)(参考訳) テスト時の回避攻撃に対する機械学習モデルの堅牢性を検証することは重要な研究課題である。 残念なことに、この問題は決定木アンサンブルに対してNPハードであることが証明され、従って特定の入力に対して難解となる。 本稿では,多項式時間で動作するセキュリティ検証アルゴリズムを付加した,大規模分散アンサンブルと呼ばれる決定木アンサンブルの制限クラスを同定する。 次に,効率的な検証が可能な制限付きモデルクラスのトレーニングを提唱する,verizable learningと呼ばれる新しいアプローチを提案する。 我々は,ラベル付きデータから大域的な決定木を自動学習する新しい学習アルゴリズムを設計し,多項式時間でセキュリティ検証を可能にすることにより,このアイデアの利点を示す。 公開データセットの実験結果から,我々のアルゴリズムを用いてトレーニングした大域的なアンサンブルが,標準的な商用ハードウェアを用いて数秒で検証可能であることを確認した。 さらに、大スプレッドアンサンブルは、非敵対的な設定において許容される精度の損失を犠牲にして、従来の回避攻撃に対するアンサンブルよりも頑丈である。

Verifying the robustness of machine learning models against evasion attacks at test time is an important research problem. Unfortunately, prior work established that this problem is NP-hard for decision tree ensembles, hence bound to be intractable for specific inputs. In this paper, we identify a restricted class of decision tree ensembles, called large-spread ensembles, which admit a security verification algorithm running in polynomial time. We then propose a new approach called verifiable learning, which advocates the training of such restricted model classes which are amenable for efficient verification. We show the benefits of this idea by designing a new training algorithm that automatically learns a large-spread decision tree ensemble from labelled data, thus enabling its security verification in polynomial time. Experimental results on public datasets confirm that large-spread ensembles trained using our algorithm can be verified in a matter of seconds, using standard commercial hardware. Moreover, large-spread ensembles are more robust than traditional ensembles against evasion attacks, at the cost of an acceptable loss of accuracy in the non-adversarial setting.
翻訳日:2023-09-11 18:04:06 公開日:2023-09-08
# 言語モデルにおけるエンティティ追跡

Entity Tracking in Language Models ( http://arxiv.org/abs/2305.02363v2 )

ライセンス: Link先を確認
Najoung Kim, Sebastian Schuster(参考訳) エンティティの状態がテキストやダイアログとしてどのように変化するかを追跡することは、会話を理解する上で重要な前提条件である。 しかし,多言語モデル(LLM)による談話エンティティの追跡能力について,体系的な研究はほとんど行われていない。 本研究では、初期状態の英語記述と一連の状態変化操作を与えられたエンティティの最終的な状態を言語モデルがどの程度推測できるかを示すタスクを提案する。 我々はまず,Flan-T5,GPT-3,GPT-3.5がエンティティの状態を追跡できるかどうかを調査し,大量のコードで事前訓練されたGPT-3.5モデルのみがその能力を示すことを示した。 次に,いくつかの訓練/評価分割でt5を微調整することで,テキストを中心に事前学習した小型モデルがエンティティの追跡を学習できるかどうかを検討する。 より複雑な分割に対して性能は低下するが、トレーニングや長い操作シーケンスから異なるエンティティセットで評価されたとしても、微調整されたモデルは非自明なエンティティ追跡を行うことができる。 これらの結果は、言語モデルがエンティティを追跡することができるが、テキストコーパスだけで事前学習することは、この容量を表面化するものではないことを示唆している。

Keeping track of how states of entities change as a text or dialog unfolds is a key prerequisite to discourse understanding. Yet, there have been few systematic investigations into the ability of large language models (LLMs) to track discourse entities. In this work, we present a task probing to what extent a language model can infer the final state of an entity given an English description of the initial state and a series of state-changing operations. We use this task to first investigate whether Flan-T5, GPT-3 and GPT-3.5 can track the state of entities, and find that only GPT-3.5 models, which have been pretrained on large amounts of code, exhibit this ability. We then investigate whether smaller models pretrained primarily on text can learn to track entities, through finetuning T5 on several training/evaluation splits. While performance degrades for more complex splits, we find that even when evaluated on a different set of entities from training or longer operation sequences, a finetuned model can perform non-trivial entity tracking. Taken together, these results suggest that language models can learn to track entities but pretraining on text corpora alone does not make this capacity surface.
翻訳日:2023-09-11 18:03:47 公開日:2023-09-08
# 衛星画像時系列の符号化の再検討

Revisiting the Encoding of Satellite Image Time Series ( http://arxiv.org/abs/2305.02086v2 )

ライセンス: Link先を確認
Xin Cai, Yaxin Bi, Peter Nicholl, and Roy Sterritt(参考訳) 衛星画像時系列(SITS)表現学習は、高時空間分解能、不規則な取得時間、複雑な時空間相互作用により複雑である。 これらの課題は、SITS分析に適した、特殊なニューラルネットワークアーキテクチャをもたらす。 この分野では先駆的な研究者による有望な成果が見られたが、コンピュータビジョン(CV)からSITSへの最新の進歩や確立されたパラダイムの移行は、既存の準最適表現学習フレームワークのため、依然として非常に難しい。 本稿では、オブジェクト検出や画像分割パイプラインの合理化にクエリベースのトランスフォーマーデコーダを採用する最近のトレンドに触発されて、直接セット予測問題としてのSITS処理の新たな視点を開発する。 さらに,SITSの表現学習プロセスを3つの明示的なステップに分解することを提案する。 今回提案したSITSの時間的学習バックボーンは,資源効率のよいピクセルセットフォーマットで事前学習され,下流の高密度予測タスクで微調整され,PASTISベンチマークデータセット上で新たなSOTA(State-of-the-art)結果が得られた。 具体的には,sitsのセマンティック/パンオプティカルセグメンテーションパイプラインにおける時間成分と空間成分の明瞭な分離により,ユニバーサルイメージセグメンテーションアーキテクチャなどのcvの最新の進歩を活かし,これまでに報告された最高のスコアと比較して,miouが2.5ポイント,pqが8.8ポイントそれぞれ増加した。

Satellite Image Time Series (SITS) representation learning is complex due to high spatiotemporal resolutions, irregular acquisition times, and intricate spatiotemporal interactions. These challenges result in specialized neural network architectures tailored for SITS analysis. The field has witnessed promising results achieved by pioneering researchers, but transferring the latest advances or established paradigms from Computer Vision (CV) to SITS is still highly challenging due to the existing suboptimal representation learning framework. In this paper, we develop a novel perspective of SITS processing as a direct set prediction problem, inspired by the recent trend in adopting query-based transformer decoders to streamline the object detection or image segmentation pipeline. We further propose to decompose the representation learning process of SITS into three explicit steps: collect-update-distribute, which is computationally efficient and suits for irregularly-sampled and asynchronous temporal satellite observations. Facilitated by the unique reformulation, our proposed temporal learning backbone of SITS, initially pre-trained on the resource efficient pixel-set format and then fine-tuned on the downstream dense prediction tasks, has attained new state-of-the-art (SOTA) results on the PASTIS benchmark dataset. Specifically, the clear separation between temporal and spatial components in the semantic/panoptic segmentation pipeline of SITS makes us leverage the latest advances in CV, such as the universal image segmentation architecture, resulting in a noticeable 2.5 points increase in mIoU and 8.8 points increase in PQ, respectively, compared to the best scores reported so far.
翻訳日:2023-09-11 18:03:24 公開日:2023-09-08
# マニフォールドフラット化と再構成による表現学習

Representation Learning via Manifold Flattening and Reconstruction ( http://arxiv.org/abs/2305.01777v4 )

ライセンス: Link先を確認
Michael Psenka, Druv Pai, Vishal Raman, Shankar Sastry, Yi Ma(参考訳) 本研究は,この多様体の有限サンプルから埋め込み部分多様体を線形化し再構成する一対のニューラルネットワークを明示的に構築するアルゴリズムを提案する。 我々の生成したニューラルネットワークはFlatNetと呼ばれ、理論的に解釈可能であり、大規模に計算可能であり、データをテストするためにうまく一般化されている。 合成高次元多様体データと2次元画像データにおける実験結果と他のモデルとの比較を行った。 私たちのコードは公開されています。

This work proposes an algorithm for explicitly constructing a pair of neural networks that linearize and reconstruct an embedded submanifold, from finite samples of this manifold. Our such-generated neural networks, called Flattening Networks (FlatNet), are theoretically interpretable, computationally feasible at scale, and generalize well to test data, a balance not typically found in manifold-based learning methods. We present empirical results and comparisons to other models on synthetic high-dimensional manifold data and 2D image data. Our code is publicly available.
翻訳日:2023-09-11 18:02:54 公開日:2023-09-08
# gpuによる電力系統用機械学習モデルの検証

GPU-Accelerated Verification of Machine Learning Models for Power Systems ( http://arxiv.org/abs/2306.10617v2 )

ライセンス: Link先を確認
Samuel Chevalier, Ilgiz Murzakhanov, Spyros Chatzivasileiadis(参考訳) 近年,大規模機械学習(ML)モデルの性能を厳格に検証するための計算ツールが著しく進歩している。 最も成功した解法は、高度に専門化されたGPU加速分岐とバウンドルーチンである。 このようなツールは、電力システムなどの安全クリティカルなシステムに機械学習アプリケーションをデプロイする上で、極めて重要である。 しかし、その成功にもかかわらず、障壁はシステム問題にこれらのルーチンをそのまま適用することを妨げる。 本稿ではこの問題を2つの重要な方法で解決する。 まず,まず,複数の検証問題の同時検証を可能にする(例えば,個々の検証問題を解くことによってではなく,すべての行フローの制約が同時に違反されることをチェックする)。 そこで本研究では,一連の潜在的侵害をまたいだ"ワーストケース"違反を,元来のニューラルネットワークを補強する一連のreluベースのレイヤに変換する,厳密なトランスフォーメーションを導入する。 これにより、検証者は直接解釈することができる。 第二に、電力フロー制約を満たすためには、しばしば電力系統MLモデルを検証する必要がある。 本稿では,線形等式制約と不等式制約を直接検証問題にエンコードする双対化手法を提案する。 これらのイノベーションを実証するために,データ駆動型セキュリティ制約付きDC-OPFソルバに関わる問題を検証した。 私たちは最初のイノベーションセットを$\alpha,\beta$-crownソルバを使って構築し、テストし、gurobi 10.0に対してベンチマークします。 当社のコントリビューションは100倍以上のスピードアップを実現し、高いレベルの柔軟性を実現しています。

Computational tools for rigorously verifying the performance of large-scale machine learning (ML) models have progressed significantly in recent years. The most successful solvers employ highly specialized, GPU-accelerated branch and bound routines. Such tools are crucial for the successful deployment of machine learning applications in safety-critical systems, such as power systems. Despite their successes, however, barriers prevent out-of-the-box application of these routines to power system problems. This paper addresses this issue in two key ways. First, for the first time to our knowledge, we enable the simultaneous verification of multiple verification problems (e.g., checking for the violation of all line flow constraints simultaneously and not by solving individual verification problems). For that, we introduce an exact transformation that converts the "worst-case" violation across a set of potential violations to a series of ReLU-based layers that augment the original neural network. This allows verifiers to interpret them directly. Second, power system ML models often must be verified to satisfy power flow constraints. We propose a dualization procedure which encodes linear equality and inequality constraints directly into the verification problem; and in a manner which is mathematically consistent with the specialized verification tools. To demonstrate these innovations, we verify problems associated with data-driven security constrained DC-OPF solvers. We build and test our first set of innovations using the $\alpha,\beta$-CROWN solver, and we benchmark against Gurobi 10.0. Our contributions achieve a speedup that can exceed 100x and allow higher degrees of verification flexibility.
翻訳日:2023-09-11 17:57:39 公開日:2023-09-08
# 多段階調査によるフェデレーション学習における適応回避

Avoid Adversarial Adaption in Federated Learning by Multi-Metric Investigations ( http://arxiv.org/abs/2306.03600v2 )

ライセンス: Link先を確認
Torsten Krau{\ss} (1) and Alexandra Dmitrienko (1) ((1) University of W\"urzburg)(参考訳) フェデレーション学習(fl)は、分散機械学習モデルのトレーニング、データのプライバシ保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を促進する。 しかし、FLは、毒殺攻撃、ターゲット外のパフォーマンス劣化とターゲットバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。 バックドアの防止は、そのステルス性から特に困難である。 毒性攻撃に対する主要な緩和技術は、特定のメトリクスを監視し、悪意のあるモデル更新をフィルタリングすることに依存する。 評価において効果的であることが示されているが、これまでの研究では現実の敵やデータ分布は考慮されていない。 我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。 大規模な実証実験により, 既存の防御手法は, 容易に回避可能であることを示す。 また,既存の防御効果は,基礎となるデータ分布に関する仮定が存在しない場合に限定的に有効であることを示す。 より現実的なシナリオと敵モデルのための新しい防御手法であるMetric-Cascades(MESAS)を紹介する。 MESASは毒殺されたモデルの更新を同時に検出し、適応攻撃者に対する複雑な多目的最適化問題を作成する。 9つのバックドアと3つのデータセットを特徴とする広範な評価では、mesasは一貫して強力なアダプティブアタッカーも検出します。 さらにmesasは、クライアント内外のデータ分散関連歪みとバックドアを区別する既存の防御を上回っている。 mesasは、現実世界のデータシナリオにおいて有効であり、平均的なオーバーヘッドは24.37秒である。

Federated Learning (FL) facilitates decentralized machine learning model training, preserving data privacy, lowering communication costs, and boosting model performance through diversified data sources. Yet, FL faces vulnerabilities such as poisoning attacks, undermining model integrity with both untargeted performance degradation and targeted backdoor attacks. Preventing backdoors proves especially challenging due to their stealthy nature. Prominent mitigation techniques against poisoning attacks rely on monitoring certain metrics and filtering malicious model updates. While shown effective in evaluations, we argue that previous works didn't consider realistic real-world adversaries and data distributions. We define a new notion of strong adaptive adversaries, capable of adapting to multiple objectives simultaneously. Through extensive empirical tests, we show that existing defense methods can be easily circumvented in this adversary model. We also demonstrate, that existing defenses have limited effectiveness when no assumptions are made about underlying data distributions. We introduce Metric-Cascades (MESAS), a novel defense method for more realistic scenarios and adversary models. MESAS employs multiple detection metrics simultaneously to identify poisoned model updates, creating a complex multi-objective optimization problem for adaptive attackers. In our extensive evaluation featuring nine backdoors and three datasets, MESAS consistently detects even strong adaptive attackers. Furthermore, MESAS outperforms existing defenses in distinguishing backdoors from data distribution-related distortions within and across clients. MESAS is the first defense robust against strong adaptive adversaries, effective in real-world data scenarios, with an average overhead of just 24.37 seconds.
翻訳日:2023-09-11 17:57:02 公開日:2023-09-08
# 変圧器モデルを用いた条件付き生成チャットボット

A Conditional Generative Chatbot using Transformer Model ( http://arxiv.org/abs/2306.02074v2 )

ライセンス: Link先を確認
Nura Esfandiari, Kourosh Kiani, Razieh Rastgoo(参考訳) チャットボットは、人間と機械との間のコミュニケーションツールとして機能し、人間の入力に基づいて適切な回答を達成する。 より最近のアプローチでは、生成的なチャットボットを構築するために自然言語処理とシーケンシャルモデルを組み合わせています。 これらのモデルの主な課題はシーケンシャルな性質であり、その結果はより正確ではない。 そこで本稿では,条件付きwasserstein生成広告ネットワークと,チャットボットにおける応答生成のためのトランスフォーマーモデルを用いて,新しいアーキテクチャを提案する。 提案モデルの生成元は答えを生成するためのフルトランスモデルから構成される一方、識別器は変換器モデルのエンコーダ部のみを含み、次に分類器が続く。 我々の知る限りでは、生成型Chatbotがジェネレータと識別器モデルの両方に組込み変換器を用いて提案されたのはこれが初めてである。 変圧器モデルの並列計算に依拠して,提案モデルのコーネル・ムービー・ダイアログ・コーパスとchit-chatデータセットによる評価結果から,提案モデルが,評価指標の異なる最先端の代替品と比較して優れていることを確認した。

A Chatbot serves as a communication tool between a human user and a machine to achieve an appropriate answer based on the human input. In more recent approaches, a combination of Natural Language Processing and sequential models are used to build a generative Chatbot. The main challenge of these models is their sequential nature, which leads to less accurate results. To tackle this challenge, in this paper, a novel architecture is proposed using conditional Wasserstein Generative Adversarial Networks and a transformer model for answer generation in Chatbots. While the generator of the proposed model consists of a full transformer model to generate an answer, the discriminator includes only the encoder part of a transformer model followed by a classifier. To the best of our knowledge, this is the first time that a generative Chatbot is proposed using the embedded transformer in both generator and discriminator models. Relying on the parallel computing of the transformer model, the results of the proposed model on the Cornell Movie-Dialog corpus and the Chit-Chat datasets confirm the superiority of the proposed model compared to state-of-the-art alternatives using different evaluation metrics.
翻訳日:2023-09-11 17:56:37 公開日:2023-09-08
# ラベルなしデータに基づく雑音判断のためのストリーミングアルゴリズム -バイナリ分類

Streaming algorithms for evaluating noisy judges on unlabeled data -- binary classification ( http://arxiv.org/abs/2306.01726v3 )

ライセンス: Link先を確認
Andr\'es Corrada-Emmanuel(参考訳) ラベル付けされていないデータに対するノイズの多いバイナリ分類器の評価はストリーミングタスクとして扱われる: アンサンブルによる決定のデータのスケッチを与えられた場合、ラベルの真価と各分類器の精度を推定する。 2つの完全に代数的な評価器が構築されている。 どちらも、分類器が独立した誤りを犯すという仮定に基づいている。 1つ目は多数決による投票である。 論文の主な貢献である2番目は、正しいことが保証されている。 しかし、どのようなテストで分類器が独立であることをどうやって知るのか? このプリンシパル/エージェント監視パラドックスは、独立評価器の故障を利用して、合理的な見積を返すことで改善される。 ほぼエラーのない三重項の探索は、代数的故障モードを用いて、不相関な評価アンサンブルを拒絶することで、 \texttt{adult}, \texttt{mushroom}, \texttt{two-norm}データセット上で経験的に実行される。 真の値点を含む評価空間の表面を構築することにより、検索を洗練する。 任意の相関変数を含まない多項式部分集合の選択を任意の相関型分類器の代数は許す。 候補評価アンサンブルは、データスケッチが構築面から遠すぎる独立した推定値を生成する場合、拒否される。 生き残ったアンサンブルが生み出す結果は、時には1\%にも達することがある。 しかし、少量の相関を扱うことは依然として困難である。 独立性が仮定されるときに生成される推定値のテイラー展開は、実際、分類器はわずかに相関しており、独立評価器が代数的「盲点」を持つかを明らかにするのに役立つ。

The evaluation of noisy binary classifiers on unlabeled data is treated as a streaming task: given a data sketch of the decisions by an ensemble, estimate the true prevalence of the labels as well as each classifier's accuracy on them. Two fully algebraic evaluators are constructed to do this. Both are based on the assumption that the classifiers make independent errors. The first is based on majority voting. The second, the main contribution of the paper, is guaranteed to be correct. But how do we know the classifiers are independent on any given test? This principal/agent monitoring paradox is ameliorated by exploiting the failures of the independent evaluator to return sensible estimates. A search for nearly error independent trios is empirically carried out on the \texttt{adult}, \texttt{mushroom}, and \texttt{two-norm} datasets by using the algebraic failure modes to reject evaluation ensembles as too correlated. The searches are refined by constructing a surface in evaluation space that contains the true value point. The algebra of arbitrarily correlated classifiers permits the selection of a polynomial subset free of any correlation variables. Candidate evaluation ensembles are rejected if their data sketches produce independent estimates too far from the constructed surface. The results produced by the surviving ensembles can sometimes be as good as 1\%. But handling even small amounts of correlation remains a challenge. A Taylor expansion of the estimates produced when independence is assumed but the classifiers are, in fact, slightly correlated helps clarify how the independent evaluator has algebraic `blind spots'.
翻訳日:2023-09-11 17:56:15 公開日:2023-09-08
# 持続可能なAI規制

Sustainable AI Regulation ( http://arxiv.org/abs/2306.00292v2 )

ライセンス: Link先を確認
Philipp Hacker(参考訳) AI規制の現在の提案は、EUなどにおいて、信頼できる(例えば、AI法)と説明可能な(例えば、AIの責任)AIを促進することを目的としている。 本稿では,このギャップを埋めるための第一歩を踏み出す。 ICTセクターは、温室効果ガス(GHG)排出量の最大3.9%に貢献している。 AIの炭素フットプリントと水消費、特にGPT-4のような大規模生成モデルは、持続可能性に大きな懸念を提起している。 この論文は、EU環境法、GDPR(General Data Protection Regulation)、AI法など、現在および提案されている技術規制が、環境の持続可能性をよりよく考慮するためにどのように調整されるかを評価する最初のものである。 例えば、GDPRは、これらの権利がより広範な持続可能性目標と著しく矛盾している場合、消去する権利のような特定の個人の権利を制限するように解釈することができる。 第2のステップでは、持続可能なAI規制を実現するための多面的アプローチを提案する。 提案されたEU AI Actに規定されているように、AIシステムのGHGフットプリントを開示するなどの透明性メカニズムを提唱している。 しかし、持続可能なAI規制は単なる透明性を超えなければならない。 本稿では,共同規制,サステナビリティ・バイ・デザインの原則,トレーニングデータに対する制限,消費上限を含む規制ツールキットを提案する。 最後に、この規制ツールキットはブロックチェーンやMetaverseアプリケーション、データセンタといった他の高エミッション技術やインフラストラクチャを規制するための青写真として機能する可能性がある、と論文は主張する。 このフレームワークは、デジタルトランスフォーメーションと気候変動の緩和という、私たちの時代の重要な2つの課題を凝集的に解決することを目的としています。

Current proposals for AI regulation, in the EU and beyond, aim to spur AI that is trustworthy (e.g., AI Act) and accountable (e.g., AI Liability) What is missing, however, is a robust regulatory discourse and roadmap to make AI, and technology more broadly, environmentally sustainable. This paper aims to take first steps to fill this gap. The ICT sector contributes up to 3.9 percent of global greenhouse gas (GHG) emissions-more than global air travel at 2.5 percent. The carbon footprint and water consumption of AI, especially large-scale generative models like GPT-4, raise significant sustainability concerns. The paper is the first to assess how current and proposed technology regulations, including EU environmental law, the General Data Protection Regulation (GDPR), and the AI Act, could be adjusted to better account for environmental sustainability. The GDPR, for instance, could be interpreted to limit certain individual rights like the right to erasure if these rights significantly conflict with broader sustainability goals. In a second step, the paper suggests a multi-faceted approach to achieve sustainable AI regulation. It advocates for transparency mechanisms, such as disclosing the GHG footprint of AI systems, as laid out in the proposed EU AI Act. However, sustainable AI regulation must go beyond mere transparency. The paper proposes a regulatory toolkit comprising co-regulation, sustainability-by-design principles, restrictions on training data, and consumption caps, including integration into the EU Emissions Trading Scheme. Finally, the paper argues that this regulatory toolkit could serve as a blueprint for regulating other high-emission technologies and infrastructures like blockchain, Metaverse applications, and data centers. The framework aims to cohesively address the crucial dual challenges of our era: digital transformation and climate change mitigation.
翻訳日:2023-09-11 17:55:26 公開日:2023-09-08
# ローカライゼーションを用いたグラフニューラルネットワークの表現性向上

Improving Expressivity of Graph Neural Networks using Localization ( http://arxiv.org/abs/2305.19659v2 )

ライセンス: Link先を確認
Anant Kumar, Shrutimoy Das, Shubhajit Roy, Binita Maity, Anirban Dasgupta(参考訳) 本稿では,Weisfeiler-Leman (WL)アルゴリズムの局所化バージョンを提案する。 サブグラフカウントの特定の問題に焦点を当て、任意の$k$に対して$k-$WLのローカライズされたバージョンを与える。 局所$k-$WLのパワーを分析し、$k-$WLよりも表現力が高く、少なくとも$(k+1)-$WLと同じくらい表現力があることを示す。 2つのグラフが局所$k-$WL同値であれば、部分グラフと誘導部分グラフとして数えられるパターンのキャラクタリゼーションを与える。 また、$k-$WL: Layer $k-$WLとrecursive $k-$WLの2つのバリエーションを導入します。 これらの方法はグラフ全体に$k-$WLを適用するよりも時間と空間効率がよい。 また,1-$WL のみを用いて,最大 4 個の部分グラフの正確な数を保証するフラグメンテーション手法を提案する。 同じアイデアは、$k>1$を使って、より大きなパターンにも拡張できる。 また、Local $k-$WL の表現力と他の GNN 階層との比較を行い、時間的複雑さの制限が与えられた場合、我々の手法は Papp や Wattenhofer[2022a] の手法よりも表現力が高いことを示す。

In this paper, we propose localized versions of Weisfeiler-Leman (WL) algorithms in an effort to both increase the expressivity, as well as decrease the computational overhead. We focus on the specific problem of subgraph counting and give localized versions of $k-$WL for any $k$. We analyze the power of Local $k-$WL and prove that it is more expressive than $k-$WL and at most as expressive as $(k+1)-$WL. We give a characterization of patterns whose count as a subgraph and induced subgraph are invariant if two graphs are Local $k-$WL equivalent. We also introduce two variants of $k-$WL: Layer $k-$WL and recursive $k-$WL. These methods are more time and space efficient than applying $k-$WL on the whole graph. We also propose a fragmentation technique that guarantees the exact count of all induced subgraphs of size at most 4 using just $1-$WL. The same idea can be extended further for larger patterns using $k>1$. We also compare the expressive power of Local $k-$WL with other GNN hierarchies and show that given a bound on the time-complexity, our methods are more expressive than the ones mentioned in Papp and Wattenhofer[2022a].
翻訳日:2023-09-11 17:54:41 公開日:2023-09-08
# 非単位量子ウォークを用いた量子活性粒子の定義

Defining a quantum active particle using a non-unitary quantum walk ( http://arxiv.org/abs/2305.15319v2 )

ライセンス: Link先を確認
Manami Yamagishi, Naomichi Hatano, Hideaki Obuse(参考訳) 本研究の目的は,量子フレームワークにおける活性物質の定義と,量子および古典的活性物質の差と共通性を検討することである。 活性物質の研究分野は拡大しているが、ほとんどの研究は古典系で行われている。 本稿では,非ユニタリ量子ウォークを極小量子活性物質のモデルとして,真に決定論的な量子アクティブマターモデルを提案する。 シュヴァイツァーら (1998) が古典的活発なブラウン粒子で得た同様の結果を再現することを目指しており、ブラウン粒子は有限エネルギーのテイクアップを持ち、活性となり、潜在的な壁を登る。 非単位量子ウォークを持つシステムを実現する。 我々は、新しい内部状態、基底状態と励起状態、および2つの状態間の非対称遷移のための新しい非単項作用素を導入する。 非ハーミティシティパラメータ$g$は励起状態への遷移を促進するので、粒子は環境からエネルギーを取り出す。 我々は、1次元離散時間量子ウォークの連続極限がパラメータ$\theta$に比例するダイラック方程式を与えるという性質を利用する(Strauch, 2006)。 量子活性粒子では、古典的ブラウン粒子に類似した非ハーミティシティパラメータ$g$が増加するにつれて、量子ウォーカーの運動が非自明な方法でより活発になるのを観察する(Schweitzer et al., 1998)。 一方,1次元のピークの弾道的伝播,2次元の一定エネルギー面に留まるウォーカー,1次元と2次元の共振状態と励起状態の共振遷移に由来する振動という,量子ウォークの3つの特異な特徴を観察した。

The main aim of the present paper is to define an active matter in a quantum framework and investigate difference and commonalities of quantum and classical active matters. Although the research field of active matter has been expanding wider, most research is conducted in classical systems. We here propose a truly deterministic quantum active-matter model with a non-unitary quantum walk as minimal models of quantum active matter. We aim to reproduce similar results that Schweitzer et al. (1998) obtained with their classical active Brownian particle; the Brownian particle, with a finite energy take-up, becomes active and climbs up a potential wall. We realize such a system with non-unitary quantum walks. We introduce new internal states, the ground and excited states, and a new non-unitary operator for an asymmetric transition between the two states. The non-Hermiticity parameter $g$ promotes transition to the excited state and hence the particle takes up energy from the environment. We realize a system without momentum conservation by manipulating a parameter $\theta$ for the coin operator for a quantum walk; we utilize the property that the continuum limit of a one-dimensional discrete-time quantum walk gives the Dirac equation with its mass proportional to the parameter $\theta$ (Strauch, 2006). With our quantum active particle, we successfully observe that the movement of the quantum walker becomes more active in a non-trivial way as we increase the non-Hermiticity parameter $g$, which is similar to the classical active Brownian particle (Schweitzer et al., 1998). Meanwhile, we also observe three unique features of quantum walks, namely, ballistic propagation of peaks in one dimension, the walker staying on the constant energy plane in two dimensions, and oscillations originating from the resonant transition between the ground state and excited state both in one and two dimensions.
翻訳日:2023-09-11 17:54:19 公開日:2023-09-08
# ワッサーシュタイン統計の形状とアフィン変形に関する情報幾何学

Information Geometry of Wasserstein Statistics on Shapes and Affine Deformations ( http://arxiv.org/abs/2307.12508v2 )

ライセンス: Link先を確認
Shun-ichi Amari, Takeru Matsuda(参考訳) 情報幾何学とワッサーシュタイン幾何学は確率分布の多様体で導入された2つの主要な構造であり、それらはその異なる特徴を捉えている。 位置スケールモデルの多次元一般化であるアフィン変形統計モデルのためのliおよびzhao(2023)の枠組みにおけるワッサースタイン幾何学の特徴について検討した。 我々は情報幾何学とwasserstein幾何に基づく推定子の長所と短所を比較した。 確率分布の形状とアフィン変形はワッサーシュタイン幾何学において分離され、フィッシャー効率の損失と引き換えに波形摂動に対する頑健さを示す。 楕円対称アフィン変形モデルの場合,ワッサースタイン推定器がモーメント推定器であることを示す。 波形がガウス的である場合と場合に限り、情報幾何学的推定器(maximum-likelihood estimator)と一致する。 ワッサーシュタイン効率の役割は、波形変化に対する堅牢性の観点から解明される。

Information geometry and Wasserstein geometry are two main structures introduced in a manifold of probability distributions, and they capture its different characteristics. We study characteristics of Wasserstein geometry in the framework of Li and Zhao (2023) for the affine deformation statistical model, which is a multi-dimensional generalization of the location-scale model. We compare merits and demerits of estimators based on information geometry and Wasserstein geometry. The shape of a probability distribution and its affine deformation are separated in the Wasserstein geometry, showing its robustness against the waveform perturbation in exchange for the loss in Fisher efficiency. We show that the Wasserstein estimator is the moment estimator in the case of the elliptically symmetric affine deformation model. It coincides with the information-geometrical estimator (maximum-likelihood estimator) when and only when the waveform is Gaussian. The role of the Wasserstein efficiency is elucidated in terms of robustness against waveform change.
翻訳日:2023-09-11 17:45:47 公開日:2023-09-08
# 不均一フェデレーション学習の現状と研究課題

Heterogeneous Federated Learning: State-of-the-art and Research Challenges ( http://arxiv.org/abs/2307.10616v2 )

ライセンス: Link先を確認
Mang Ye, Xiuwen Fang, Bo Du, Pong C. Yuen, Dacheng Tao(参考訳) フェデレーテッド・ラーニング(FL)は、大規模産業用途での利用の可能性から注目を集めている。 既存のフェデレーション学習は主にモデル均質な設定に焦点を当てている。 しかし、実践的なフェデレーション学習は、典型的には、データ分散、モデルアーキテクチャ、ネットワーク環境、ハードウェア機器の異種性に直面する。 不均一フェデレートラーニング(HFL)はより困難であり、それに対応するソリューションは多様で複雑である。 したがって、研究課題と最先端技術に関する体系的な調査が不可欠である。 本稿では,まず,HFLにおける様々な研究課題について,統計的異質性,モデル異質性,通信異質性,デバイス異質性,その他の課題の5つの側面から要約する。 さらに,近年のHFLの進歩を概観し,既存のHFL手法の新たな分類法を提案し,その長所と短所の詳細な分析を行った。 我々は既存のメソッドを,データレベル,モデルレベル,サーバレベルという3つの異なるレベルから分類する。 最後に、この分野のさらなる発展を促進するため、hflにおけるいくつかの批判的かつ有望な今後の研究方向について論じる。 HFLの定期的に更新されたコレクションはhttps://github.com/marswhu/HFL_Survey.comで入手できる。

Federated learning (FL) has drawn increasing attention owing to its potential use in large-scale industrial applications. Existing federated learning works mainly focus on model homogeneous settings. However, practical federated learning typically faces the heterogeneity of data distributions, model architectures, network environments, and hardware devices among participant clients. Heterogeneous Federated Learning (HFL) is much more challenging, and corresponding solutions are diverse and complex. Therefore, a systematic survey on this topic about the research challenges and state-of-the-art is essential. In this survey, we firstly summarize the various research challenges in HFL from five aspects: statistical heterogeneity, model heterogeneity, communication heterogeneity, device heterogeneity, and additional challenges. In addition, recent advances in HFL are reviewed and a new taxonomy of existing HFL methods is proposed with an in-depth analysis of their pros and cons. We classify existing methods from three different levels according to the HFL procedure: data-level, model-level, and server-level. Finally, several critical and promising future research directions in HFL are discussed, which may facilitate further developments in this field. A periodically updated collection on HFL is available at https://github.com/marswhu/HFL_Survey.
翻訳日:2023-09-11 17:45:31 公開日:2023-09-08
# 3ビーム衝突を伴う真空複屈折における軸共鳴の探索

Search for axion resonances in vacuum birefringence with three-beam collisions ( http://arxiv.org/abs/2307.08345v2 )

ライセンス: Link先を確認
Stefan Evans and Ralf Sch\"utzhold(参考訳) 超高強度の2つの光学レーザビームの重ね合わせにおけるx線光子の複屈折(偏光変化)散乱を考察し、軸イオンまたは軸状粒子の共鳴寄与について検討した。 Helmholtz International Beamline for Extreme Fields (HIBEF) の仕様を適用すると、この設定はパラメータ空間の特定の領域における以前の実験よりも感度が高いことが分かる。 ポンプとプローブレーザーの向きと周波数を変えることで、異なる軸質量をスキャンすることもできる。

We consider birefringent (i.e., polarization changing) scattering of x-ray photons at the superposition of two optical laser beams of ultra-high intensity and study the resonant contributions of axions or axion-like particles, which could also be short lived. Applying the specifications of the Helmholtz International Beamline for Extreme Fields (HIBEF), we find that this set-up can be more sensitive than previous experiments in a certain domain of parameter space. By changing the pump and probe laser orientations and frequencies, one can even scan different axion masses.
翻訳日:2023-09-11 17:44:47 公開日:2023-09-08
# グラフニューラルネットワークによるテラヘルツ型フロー誘導ナノスケール局在

Graph Neural Network-enabled Terahertz-based Flow-guided Nanoscale Localization ( http://arxiv.org/abs/2307.05551v2 )

ライセンス: Link先を確認
Gerard Calvo Bartra, Filip Lemic, Jakob Struye, Sergi Abadal, Xavier Costa Perez(参考訳) ナノテクノロジーと先端材料における科学的進歩は、センシング、コンピューティング、通信、データ、エネルギー貯蔵機能を含む体内精密医療のためのナノスケールデバイスへの道を開く。 ヒトの心血管系では、そのような装置は受動的に流れ、継続的に検知され、診断上の関心事を検出する。 このような事象を検出する診断値は、フロー誘導ローカライゼーションの主命題である物理的な位置(例えば、身体領域)に割り当てることによって向上することができる。 現在のフローガイド型ローカライズアプローチはローカライズ精度が低く、心血管系全体の事象をローカライズできない設計になっている。 この問題に対処するために,我々はグラフニューラルネットワーク(GNN)の利用を提案し,既存の最先端技術(SotA)アプローチに対して,提案手法の局所化精度とカバレッジ向上を示す。 本評価に基づき,GNN対応フロー誘導ローカライゼーションの設計ガイドラインについて述べる。

Scientific advancements in nanotechnology and advanced materials are paving the way toward nanoscale devices for in-body precision medicine; comprising integrated sensing, computing, communication, data and energy storage capabilities. In the human cardiovascular system, such devices are envisioned to be passively flowing and continuously sensing for detecting events of diagnostic interest. The diagnostic value of detecting such events can be enhanced by assigning to them their physical locations (e.g., body region), which is the main proposition of flow-guided localization. Current flow-guided localization approaches suffer from low localization accuracy and they are by-design unable to localize events within the entire cardiovascular system. Toward addressing this issue, we propose the utilization of Graph Neural Networks (GNNs) for this purpose, and demonstrate localization accuracy and coverage enhancements of our proposal over the existing State of the Art (SotA) approaches. Based on our evaluation, we provide several design guidelines for GNN-enabled flow-guided localization.
翻訳日:2023-09-11 17:44:36 公開日:2023-09-08
# 到着時の非局所的干渉

Non-local interference in arrival time ( http://arxiv.org/abs/2307.04811v2 )

ライセンス: Link先を確認
Ali Ayatollah Rafsanjani, MohammadJavad Kazemi, Vahid Hosseinzadeh, and Mehdi Golshani(参考訳) 位置と時間は量子力学において異なる数学的役割を持ち、一方は演算子、もう一方はパラメータであるが、量子現象には時空双対性があり、空間領域で最初に観測された多くの量子現象は、後に時間領域でも観測された。 そこで本研究では,アンタングル原子対を用いたダブルダブルスリット実験の修正版を提案し,到達時刻分布における非局所的干渉を観測する。 しかしながら、量子力学における到着時間分布の計算は難しいオープン問題であり、この問題を克服するためにボヘミアン処理を用いる。 提案手法では, 位置分布で観測される相補的関係に類似した, 到着時間分布における一粒子と二粒子干渉の相補的関係があることを数値的に示す。 これらの結果は、半古典的近似が崩壊するボヘミア到着時刻分布を厳密な方法でテストするために用いられる。 さらに,本実験のアプローチは幅広い現象に適用可能であり,予測される非局所的時間的干渉と関連する相補的関係は,様々な現象に現れる絡み合った量子系の普遍的挙動であると考えられる。

Although position and time have different mathematical roles in quantum mechanics, with one being an operator and the other being a parameter, there is a space-time duality in quantum phenomena: a lot of quantum phenomena that were first observed in the spatial domain were later observed in the temporal domain as well. In this context, we propose a modified version of the double-double-slit experiment using entangled atom pairs to observe a non-local interference in the arrival time distribution, which is analogous to the non-local interference observed in the arrival position distribution. However, computing the arrival time distribution in quantum mechanics is a challenging open problem, and so to overcome this problem we employ a Bohmian treatment. Based on this approach, we numerically demonstrate that there is a complementary relationship between the one-particle and two-particle interference visibilities in the arrival time distribution, which is analogous to the complementary relationship observed in the position distribution. These results can be used to test the Bohmian arrival time distribution in a strict manner, i.e., where the semiclassical approximation breaks down. Moreover, our approach to investigating this experiment can be applied to a wide range of phenomena, and it seems that the predicted non-local temporal interference and associated complementary relationship are universal behaviors of entangled quantum systems that may manifest in various phenomena.
翻訳日:2023-09-11 17:44:18 公開日:2023-09-08
# ValiTex -- 社会科学構成の計算テキストに基づく測定のための統合検証フレームワーク

ValiTex -- a unified validation framework for computational text-based measures of social science constructs ( http://arxiv.org/abs/2307.02863v3 )

ライセンス: Link先を確認
Lukas Birkenmaier and Claudia Wagner and Clemens Lechner(参考訳) 社会科学構造に関する計算テキストに基づく尺度の検証方法に関するガイダンスが断片化されている。 学者は一般的にテキストベースの尺度を検証することの重要性を認めているが、一般的な用語や統一的な枠組みを欠いていることが多い。 本稿では,テキストデータに基づく社会科学構築物の有効測定を支援する新しい検証フレームワークであるValiTexを紹介する。 このフレームワークは、サイコメトリックスにおいて長い間確立されてきた妥当性の概念に基づいているが、これらの概念を拡張して、計算テキスト分析の特定のニーズをカバーする。 ValiTexは概念フレームワークと動的チェックリストの2つのコンポーネントで構成されている。 概念的なフレームワークは、バリデーションのアプローチ方法に関する異なるフェーズに沿って一般的な構造を提供するが、動的チェックリストは、特定の検証手順を定義し、推奨可能なステップ(つまり、関連する検証証拠と必要な検証証拠を提供する)またはオプション(つまり、追加の検証証拠を提供するのに役に立つ)を提供する。 ソーシャルメディアデータから性差別を検知するユースケースに適用して,このフレームワークの有用性を実証する。

Guidance on how to validate computational text-based measures of social science constructs is fragmented. Although scholars generally acknowledge the importance of validating their text-based measures, they often lack common terminology and a unified framework to do so. This paper introduces ValiTex, a new validation framework designed to assist scholars in validly measuring social science constructs based on textual data. The framework draws on a long-established validity concept in psychometrics but extends these concepts to cover the specific needs of computational text analysis. ValiTex consists of two components, a conceptual framework and a dynamic checklist. Whereas the conceptual framework provides a general structure along distinct phases on how to approach validation, the dynamic checklist defines specific validation steps and provides guidance on which steps might be considered recommendable (i.e., providing relevant and necessary validation evidence) or optional (i.e., useful for providing additional supporting validation evidence). We demonstrate the utility of the framework by applying it to a use case of detecting sexism from social media data
翻訳日:2023-09-11 17:43:44 公開日:2023-09-08
# 量子誤差検出によるベイズ量子位相推定の実証

Demonstrating Bayesian Quantum Phase Estimation with Quantum Error Detection ( http://arxiv.org/abs/2306.16608v2 )

ライセンス: Link先を確認
Kentaro Yamamoto, Samuel Duffield, Yuta Kikuchi, David Mu\~noz Ramo(参考訳) 量子位相推定(QPE)は多くの異なる量子アルゴリズムの構成要素として機能し、計算化学問題において重要な応用を見出す。 量子ハードウェアの急速な開発にもかかわらず、大きな回路深さと完全なフォールトトレラントプロトコルでハードウェアをノイズから守るための量子リソースの欠如により、化学問題に対するQPEの実験的な実証は依然として困難である。 本研究では,量子コンピュータ上でqpeアルゴリズムを実演することにより,フォールトトレラント量子コンピューティングへの一歩を踏み出した。 qpeに対するベイズ的アプローチを採用し、最適なパラメータ選択のためのルーチンを導入し、ハードウェア機能に合わせて慎重に調整された$[[[n+2,n,2]$量子エラー検出コードを組み合わせる。 単純な量子化学の例として、2量子ハミルトニアンで表される水素分子を取り、QPEプロトコルを用いて基底状態エネルギーを推定する。 実験では、物理2量子ビットゲートを最大920個含む量子回路を用いて、正確な値の6\times 10^{-3}$ hartree内の基底状態エネルギーを推定する。

Quantum phase estimation (QPE) serves as a building block of many different quantum algorithms and finds important applications in computational chemistry problems. Despite the rapid development of quantum hardware, experimental demonstration of QPE for chemistry problems remains challenging due to its large circuit depth and the lack of quantum resources to protect the hardware from noise with fully fault-tolerant protocols. In the present work, we take a step towards fault-tolerant quantum computing by demonstrating a QPE algorithm on a Quantinuum trapped-ion computer. We employ a Bayesian approach to QPE and introduce a routine for optimal parameter selection, which we combine with a $[[ n+2,n,2 ]]$ quantum error detection code carefully tailored to the hardware capabilities. As a simple quantum chemistry example, we take a hydrogen molecule represented by a two-qubit Hamiltonian and estimate its ground state energy using our QPE protocol. In the experiment, we use the quantum circuits containing as many as 920 physical two-qubit gates to estimate the ground state energy within $6\times 10^{-3}$ hartree of the exact value.
翻訳日:2023-09-11 17:43:25 公開日:2023-09-08
# 量子最適輸送と弱位相

Quantum Optimal Transport and Weak Topologies ( http://arxiv.org/abs/2306.12944v2 )

ライセンス: Link先を確認
Laurent Lafleche(参考訳) 古典的最適輸送距離の量子設定へのいくつかの拡張が提案されている。 本稿では、golse, mouhot, paul [commun math phys 343:165--205, 2016] と golse, paul [arch ration mech anal 223:57--94, 2017] によって導入された擬メトリックスについて検討する。 これらの擬計量は、位相空間上の2ドル級のモンゲ-カントロヴィチ-ヴァッサーシュタイン距離の量子類似体として機能する。 半古典的近似において、それらが負のソボレフノルムに匹敵するものであることを証明し、ウィグナー-ヤネーゼスキュー情報を用いて表現できる。 これにより、初期データに対する正規性が少なくなり、平均場と半古典的限界の文脈で既知の結果を改善することができる。

Several extensions of the classical optimal transport distances to the quantum setting have been proposed. In this paper, we investigate the pseudometrics introduced by Golse, Mouhot and Paul in [Commun Math Phys 343:165--205, 2016] and by Golse and Paul in [Arch Ration Mech Anal 223:57--94, 2017]. These pseudometrics serve as a quantum analogue of the Monge--Kantorovich--Wasserstein distances of order $2$ on the phase space. We prove that they are comparable to negative Sobolev norms up to a small term in the semiclassical approximation, which can be expressed using the Wigner--Yanase Skew information. This enables us to improve the known results in the context of the mean-field and semiclassical limits by requiring less regularity on the initial data.
翻訳日:2023-09-11 17:43:04 公開日:2023-09-08
# フォールトトレラント量子エラー緩和

Fault Tolerant Quantum Error Mitigation ( http://arxiv.org/abs/2308.05403v3 )

ライセンス: Link先を確認
Alvin Gonzales and Anjala M Babu and Ji Liu and Zain Saleem and Mark Byrd(参考訳) 通常、フォールトトレラントな演算とコード結合は、リソースのオーバーヘッドのために量子エラー訂正のために予約される。 本稿では,フォールトトレラント動作が対称性に基づく誤差軽減手法の性能に大きな影響を与えることを示す。 また、フォールトトレラント量子コンピューティングの結果と同様に、フォールトトレラント量子エラー軽減(FTQEM)におけるコード結合は、エラーを任意のレベルまで指数関数的に抑制できることを示した。 回路群に対して、FTQEMに対して繰り返し符号を用いた解析誤差しきい値を提供する。 これらの回路は、可逆古典計算を全て生成できる一連の量子回路を含んでいる。 FTQEMのポストセレクションレートも、いくつかの結果を修正することで向上することができる。 我々のしきい値結果は、エラーがエンコーディングを圧倒する前に、連結コード内のスタビライザのチェックを遅らせることのできるゲート操作の数を定量化する観点から見ることもできる。 FTQEMの利点は数値シミュレーションとハードウェアデモで実証される。

Typically, fault-tolerant operations and code concatenation are reserved for quantum error correction due to their resource overhead. Here, we show that fault tolerant operations have a large impact on the performance of symmetry based error mitigation techniques. We also demonstrate that similar to results in fault tolerant quantum computing, code concatenation in fault-tolerant quantum error mitigation (FTQEM) can exponentially suppress the errors to arbitrary levels. For a family of circuits, we provide analytical error thresholds for FTQEM with the repetition code. These circuits include a set of quantum circuits that can generate all of reversible classical computing. The post-selection rate in FTQEM can also be increased by correcting some of the outcomes. Our threshold results can also be viewed from the perspective of quantifying the number of gate operations we can delay checking the stabilizers in a concatenated code before errors overwhelm the encoding. The benefits of FTQEM are demonstrated with numerical simulations and hardware demonstrations.
翻訳日:2023-09-11 17:36:50 公開日:2023-09-08
# ディラック行列に基づく散逸モデルの研究

A study of dissipative models based on Dirac matrices ( http://arxiv.org/abs/2308.05245v2 )

ライセンス: Link先を確認
Jyotsna Gidugu and Daniel P. Arovas(参考訳) GKLSマスター方程式によって記述される, 強調の存在下で XX と YY を交互に結合する S=1/2 鎖を考える柴田と桂の最近の研究を一般化する。 これらのモデルは、キタエフの定式化で記述された非エルミート系と等価であり、非力学なz_2ゲージ場の存在下で2本脚のはしご上にホッピングする単一のマヨラナ種である。 我々の一般化には、正方格子上のディラックガンマ行列 ‘スピン’作用素と、キタエフ可解である非エルミート正方格子双層への写像が含まれる。 このモデルでは指数的に多くの非平衡定常状態を記述する。 ゲージ不変量の観点から、スピン自由度が2次元モデルにおいてどのように説明できるかを特定し、リウビリアンスペクトルの研究へと進む。 遺伝的アルゴリズムを用いて,リウビリアンギャップを推定し,システムサイズが大きければ最初の減衰モードを推定する。 第1の崩壊モードにおける遷移を観察し,柴田や桂のものと類似した。 その結果, 散逸強度の小さい値と大きな値に対する摂動解析とが一致した。

We generalize the recent work of Shibata and Katsura, who considered a S=1/2 chain with alternating XX and YY couplings in the presence of dephasing, the dynamics of which are described by the GKLS master equation. Their model is equivalent to a non-Hermitian system described by the Kitaev formulation in terms of a single Majorana species hopping on a two-leg ladder in the presence of a nondynamical Z_2 gauge field. Our generalization involves Dirac gamma matrix `spin' operators on the square lattice, and maps onto a non-Hermitian square lattice bilayer which is also Kitaev-solvable. We describe the exponentially many non-equilibrium steady states in this model. We identify how the spin degrees of freedom can be accounted for in the 2d model in terms of the gauge-invariant quantities and then proceed to study the Liouvillian spectrum. We use a genetic algorithm to estimate the Liouvillian gap and the first decay modes for large system sizes. We observe a transition in the first decay modes, similar to that found by Shibata and Katsura. The results we obtain are consistent with a perturbative analysis for small and large values of the dissipation strength.
翻訳日:2023-09-11 17:36:35 公開日:2023-09-08
# デジタル量子コンピュータにおける基底状態準備のためのスケーラブル回路:100Qubit上のSchwinger Model Vacuum

Scalable Circuits for Preparing Ground States on Digital Quantum Computers: The Schwinger Model Vacuum on 100 Qubits ( http://arxiv.org/abs/2308.04481v2 )

ライセンス: Link先を確認
Roland C. Farrell, Marc Illa, Anthony N. Ciavarella, Martin J. Savage(参考訳) 格子シュウィンガーモデルの真空は、最大100キュービットのibmのイーグルプロセッサ量子コンピュータで用意されている。 量子コンピュータ上でガッピング変換不変システムの基底状態を生成する新しいアルゴリズムを提案し,スケーラブル回路adapt-vqe (sc-adapt-vqe) と呼ぶ。 このアルゴリズムは、ADAPT-VQEとともに、基底状態の遠い領域間の相関関係の指数的減衰を利用して、任意に大きなシステムにスケールできる状態準備のための量子回路を構築する。 SC-ADAPT-VQEはシュウィンガーモデルに適用され、回路深さと指数的に収束する精度で体系的に即効性を示す。 回路の構造と準備された波動関数の偏差の両方が、空間的位置の個数($L$)に依存しないことが分かる。 これにより、小さいまたは小さめのシステムを用いて決定される回路の制御された外挿が可能となり、任意に$l$となる。 シュウィンガーモデルの回路は、カイスキットの古典的シミュレータによる格子上で決定され、その後、IBMの超伝導量子コンピュータ ibm_brisbane と ibm_cusco 上の$L=50$ (100 qubits) 真空を準備するためにスケールアップされた。 演算子デコヒーレンス再正規化(Operator Decoherence Renormalization)と呼ばれる改良された誤り軽減手法を適用した後, 量子コンピュータから得られたカイラル縮合および電荷電荷相関器は, 古典的行列積状態シミュレーションとよく一致していることがわかった。

The vacuum of the lattice Schwinger model is prepared on up to 100 qubits of IBM's Eagle-processor quantum computers. A new algorithm to prepare the ground state of a gapped translationally-invariant system on a quantum computer is presented, which we call Scalable Circuits ADAPT-VQE (SC-ADAPT-VQE). This algorithm uses the exponential decay of correlations between distant regions of the ground state, together with ADAPT-VQE, to construct quantum circuits for state preparation that can be scaled to arbitrarily large systems. SC-ADAPT-VQE is applied to the Schwinger model, and shown to be systematically improvable, with an accuracy that converges exponentially with circuit depth. Both the structure of the circuits and the deviations of prepared wavefunctions are found to become independent of the number of spatial sites, $L$. This allows for a controlled extrapolation of the circuits, determined using small or modest-sized systems, to arbitrarily large $L$. The circuits for the Schwinger model are determined on lattices up to $L=14$ (28 qubits) with the qiskit classical simulator, and subsequently scaled up to prepare the $L=50$ (100 qubits) vacuum on IBM's 127 superconducting-qubit quantum computers ibm_brisbane and ibm_cusco. After applying an improved error-mitigation technique, which we call Operator Decoherence Renormalization, the chiral condensate and charge-charge correlators obtained from the quantum computers are found to be in good agreement with classical Matrix Product State simulations.
翻訳日:2023-09-11 17:35:52 公開日:2023-09-08
# サイバートウィン型車両インターネットにおける計算オフロードのための知識駆動型マルチエージェント強化学習

Knowledge-Driven Multi-Agent Reinforcement Learning for Computation Offloading in Cybertwin-Enabled Internet of Vehicles ( http://arxiv.org/abs/2308.02603v2 )

ライセンス: Link先を確認
Ruijin Sun, Xiao Yang, Nan Cheng, Xiucheng Wang, Changle Li(参考訳) 車両の計算集約タスクを道路側ユニット(RSU)にオフロードすることで、車両インターネット(IoV)の移動エッジコンピューティング(MEC)が計算負荷を軽減できる。 しかしながら、既存のモデルベースのタスクオフロード手法は、車両の増加とデータ駆動方式の解釈可能性の欠如により、計算の複雑さに苦しむ。 本稿では,サイバートウィン対応IoVにおけるタスクオフロードのレイテンシを低減するために,知識駆動型マルチエージェント強化学習(KMARL)手法を提案する。 具体的には、考慮されたシナリオでは、サイバートウィンは各車両の通信エージェントとして、情報を交換し、仮想空間でオフロード決定を行う。 タスクオフロードのレイテンシを低減するため、KMARLアプローチでは、グラフ構造通信トポロジとニューラルネットワークへの置換不変性に関するドメイン知識を活用することにより、グラフニューラルネットワークを使用する各車両に対して最適なオフロードオプションを選択する。 数値解析の結果,提案したKMARLは,ドメイン知識の統合によるメリットを生かし,他の手法と比較してスケーラビリティの向上を示す。

By offloading computation-intensive tasks of vehicles to roadside units (RSUs), mobile edge computing (MEC) in the Internet of Vehicles (IoV) can relieve the onboard computation burden. However, existing model-based task offloading methods suffer from heavy computational complexity with the increase of vehicles and data-driven methods lack interpretability. To address these challenges, in this paper, we propose a knowledge-driven multi-agent reinforcement learning (KMARL) approach to reduce the latency of task offloading in cybertwin-enabled IoV. Specifically, in the considered scenario, the cybertwin serves as a communication agent for each vehicle to exchange information and make offloading decisions in the virtual space. To reduce the latency of task offloading, a KMARL approach is proposed to select the optimal offloading option for each vehicle, where graph neural networks are employed by leveraging domain knowledge concerning graph-structure communication topology and permutation invariance into neural networks. Numerical results show that our proposed KMARL yields higher rewards and demonstrates improved scalability compared with other methods, benefitting from the integration of domain knowledge.
翻訳日:2023-09-11 17:35:21 公開日:2023-09-08
# スパース最適化を再考する正確なニューラルネットワークプルーニング

Accurate Neural Network Pruning Requires Rethinking Sparse Optimization ( http://arxiv.org/abs/2308.02060v2 )

ライセンス: Link先を確認
Denis Kuznedelev, Eldar Kurtic, Eugenia Iofinova, Elias Frantar, Alexandra Peste, Dan Alistarh(参考訳) モデル圧縮の分野では,高精度かつ疎結合なディープニューラルネットワークのバージョンが大きな課題のひとつであり,コミュニティによっていくつかの高性能プルーニング技術が研究されている。 しかし、スパースネットワークのトレーニングに使用されるスパース性と標準的な確率最適化技法の相互作用についてはあまり知られておらず、既存の研究の多くはスパースネットワークのトレーニングに標準密度のスケジュールとハイパーパラメータを使っている。 本研究では,標準コンピュータビジョンと自然言語処理スパルサリティベンチマークを用いて,モデル学習における高スパルサリティの影響について検討する。 まず、標準の濃密なトレーニングレシピをスパーストレーニングに使用するのが最適でないことを示すことから始める。 視覚モデルのスパース事前トレーニング(例: resnet50/imagenet)と、言語モデルのスパース微調整(例: bert/glue)の両方において、この問題を緩和するための新しいアプローチを提供し、高スパース体制における両方の設定において最先端の結果を実現し、両方のシナリオにおけるスパーストレーニングの難しさに関する詳細な分析を提供する。 我々の研究は、高い疎度で達成できる精度の新たなしきい値を設定し、スパースモデルのトレーニングを改善するためのさらなる研究を刺激し、高い疎度でより高い精度に到達させるとともに、より効率的に行うべきである。

Obtaining versions of deep neural networks that are both highly-accurate and highly-sparse is one of the main challenges in the area of model compression, and several high-performance pruning techniques have been investigated by the community. Yet, much less is known about the interaction between sparsity and the standard stochastic optimization techniques used for training sparse networks, and most existing work uses standard dense schedules and hyperparameters for training sparse networks. In this work, we examine the impact of high sparsity on model training using the standard computer vision and natural language processing sparsity benchmarks. We begin by showing that using standard dense training recipes for sparse training is suboptimal, and results in under-training. We provide new approaches for mitigating this issue for both sparse pre-training of vision models (e.g. ResNet50/ImageNet) and sparse fine-tuning of language models (e.g. BERT/GLUE), achieving state-of-the-art results in both settings in the high-sparsity regime, and providing detailed analyses for the difficulty of sparse training in both scenarios. Our work sets a new threshold in terms of the accuracies that can be achieved under high sparsity, and should inspire further research into improving sparse model training, to reach higher accuracies under high sparsity, but also to do so efficiently.
翻訳日:2023-09-11 17:34:58 公開日:2023-09-08
# 二項分類に基づくモンテカルロシミュレーション

Binary classification based Monte Carlo simulation ( http://arxiv.org/abs/2307.16035v2 )

ライセンス: Link先を確認
Elouan Argouarc'h, Fran\c{c}ois Desbouvries(参考訳) アクセプタンス・リジェクション (AR)、独立メトロポリス・ヘイスティングス (IMH) または重要サンプリング (IS) モンテカルロ (MC) シミュレーションアルゴリズムは全て確率密度関数 (pdfs) の計算比率を含む。 一方、分類器は2つの分布の混合により生成されたラベル付きサンプルを識別し、対応する2つのpdfの比率を近似するために使用できる。このシミュレーションと分類の橋渡しにより、分類器によって計算されたサロゲート関数に置換されたpdfフリーシミュレーションアルゴリズムのpdfフリー版を提案できる。 確率論的モデリングの観点からは, 古典的サンプリング器と適合し, 容易に訓練できる構造的エネルギーベースモデルが提案手法に含まれる。

Acceptance-rejection (AR), Independent Metropolis Hastings (IMH) or importance sampling (IS) Monte Carlo (MC) simulation algorithms all involve computing ratios of probability density functions (pdfs). On the other hand, classifiers discriminate labeled samples produced by a mixture of two distributions and can be used for approximating the ratio of the two corresponding pdfs.This bridge between simulation and classification enables us to propose pdf-free versions of pdf-ratio-based simulation algorithms, where the ratio is replaced by a surrogate function computed via a classifier. From a probabilistic modeling perspective, our procedure involves a structured energy based model which can easily be trained and is compatible with the classical samplers.
翻訳日:2023-09-11 17:34:07 公開日:2023-09-08
# カーネル化正規化流れ

Kernelized Normalizing Flows ( http://arxiv.org/abs/2307.14839v2 )

ライセンス: Link先を確認
Eshant English, Matthias Kirchler, Christoph Lippert(参考訳) 正規化フローは、その可逆的アーキテクチャによって特徴づけられる生成モデルである。 しかし、可逆性の必要性は表現力に制約を課し、十分な結果を得るために多くのパラメータと革新的な設計が必要となる。 フローベースモデルは、主に表現的設計のためにニューラルネットベースの変換に依存しているが、代替変換法は注目されている。 本稿では,カーネルをフレームワークに統合した新しいカーネル正規化フローパラダイムであるFerumal Flowを紹介する。 その結果,カーネル化フローは,パラメータ効率を維持しつつ,ニューラルネットワークベースのフローと比較して,競合性や優れた結果が得られることがわかった。 カーネル化されたフローは、特に低データレシエーションにおいて優れており、スパースデータ可用性のあるアプリケーションで柔軟な非パラメトリック密度推定を可能にする。

Normalising Flows are generative models characterised by their invertible architecture. However, the requirement of invertibility imposes constraints on their expressiveness, necessitating a large number of parameters and innovative architectural designs to achieve satisfactory outcomes. Whilst flow-based models predominantly rely on neural-network-based transformations for expressive designs, alternative transformation methods have received limited attention. In this work, we present Ferumal flow, a novel kernelised normalising flow paradigm that integrates kernels into the framework. Our results demonstrate that a kernelised flow can yield competitive or superior results compared to neural network-based flows whilst maintaining parameter efficiency. Kernelised flows excel especially in the low-data regime, enabling flexible non-parametric density estimation in applications with sparse data availability.
翻訳日:2023-09-11 17:33:51 公開日:2023-09-08
# 時間グラフベンチマークの実証評価

An Empirical Evaluation of Temporal Graph Benchmark ( http://arxiv.org/abs/2307.12510v3 )

ライセンス: Link先を確認
Le Yu(参考訳) 本稿では,動的グラフライブラリ(DyGLib)をTGBに拡張することにより,時間グラフベンチマーク(TGB)の実証評価を行う。 TGBと比較して、より徹底的な比較のための11の人気のある動的グラフ学習方法を含む。 実験の結果,(1)様々なデータセットにおける性能変化をそれぞれ異なるモデルで表現し,(2)dyglibを用いた場合,tgbで報告された結果と比較して,いくつかのベースラインの性能が著しく向上することがわかった。 本研究は,TGB上での動的グラフ学習手法の評価における研究者の取り組みの容易化と,フォローアップ研究に直接参照可能な結果の提供を目的とする。 このプロジェクトで使われるリソースはすべてhttps://github.com/yule-BUAA/DyGLib_TGBで公開されている。 この作業は進行中であり、コミュニティからのフィードバックは改善に歓迎されています。

In this paper, we conduct an empirical evaluation of Temporal Graph Benchmark (TGB) by extending our Dynamic Graph Library (DyGLib) to TGB. Compared with TGB, we include eleven popular dynamic graph learning methods for more exhaustive comparisons. Through the experiments, we find that (1) different models depict varying performance across various datasets, which is in line with previous observations; (2) the performance of some baselines can be significantly improved over the reported results in TGB when using DyGLib. This work aims to ease the researchers' efforts in evaluating various dynamic graph learning methods on TGB and attempts to offer results that can be directly referenced in the follow-up research. All the used resources in this project are publicly available at https://github.com/yule-BUAA/DyGLib_TGB. This work is in progress, and feedback from the community is welcomed for improvements.
翻訳日:2023-09-11 17:33:41 公開日:2023-09-08
# 簡単なLLMプロンプトはロバストおよび多言語対話評価の最先端である

Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation ( http://arxiv.org/abs/2308.16797v2 )

ライセンス: Link先を確認
John Mendon\c{c}a, Patr\'icia Pereira, Helena Moniz, Jo\~ao Paulo Carvalho, Alon Lavie, Isabel Trancoso(参考訳) 自動対話評価尺度の開発に多大な研究努力を払っているが、英語以外の対話を評価することはほとんど考えていない。 同時に、メトリクスが意味的に類似した応答に不変であることを保証することも見過ごされているトピックである。 対話評価指標の頑健性と多言語性の望ましい特性を達成するために,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを新たに確立した枠組みを提案する。 実験結果から,dstc11トラック4「オープンドメイン対話システムのための自動評価指標」のロバストタスクと多言語タスクにおいて,複数のベンチマークとランキングで平均スピアマン相関スコアを用いて,評価結果が得られた。

Despite significant research effort in the development of automatic dialogue evaluation metrics, little thought is given to evaluating dialogues other than in English. At the same time, ensuring metrics are invariant to semantically similar responses is also an overlooked topic. In order to achieve the desired properties of robustness and multilinguality for dialogue evaluation metrics, we propose a novel framework that takes advantage of the strengths of current evaluation models with the newly-established paradigm of prompting Large Language Models (LLMs). Empirical results show our framework achieves state of the art results in terms of mean Spearman correlation scores across several benchmarks and ranks first place on both the Robust and Multilingual tasks of the DSTC11 Track 4 "Automatic Evaluation Metrics for Open-Domain Dialogue Systems", proving the evaluation capabilities of prompted LLMs.
翻訳日:2023-09-11 17:26:02 公開日:2023-09-08
# グラフニューラルネットワークにおけるプライバシに関する調査--攻撃・保存・応用

A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and Applications ( http://arxiv.org/abs/2308.16375v2 )

ライセンス: Link先を確認
Yi Zhang, Yuying Zhao, Zhaoqing Li, Xueqi Cheng, Yu Wang, Olivera Kotevska, Philip S. Yu, Tyler Derr(参考訳) グラフニューラルネットワーク(gnns)は,グラフ構造化データの処理能力と実用的応用性の向上により,注目を集めている。 しかし、これらのモデルの多くは、プライバシへの配慮が欠如しているため、プライバシ攻撃が盛んである現代社会において、高いユーティリティパフォーマンスを優先している。 この問題に対処するため、研究者らはプライバシー保護のGNNの開発を開始した。 この進歩にもかかわらず、攻撃の包括的概要と、グラフドメインのプライバシを保存するためのテクニックが欠如している。 本調査では,対象情報に基づいてグラフデータに対する攻撃を要約し,GNNにおけるプライバシ保護手法を分類し,GNNにおけるプライバシ問題の分析・解決に使用できるデータセットやアプリケーションのレビューを行うことにより,このギャップに対処することを目的とする。 また、プライバシー保護のためのGNNを構築するための今後の研究の方向性についても概説する。

Graph Neural Networks (GNNs) have gained significant attention owing to their ability to handle graph-structured data and the improvement in practical applications. However, many of these models prioritize high utility performance, such as accuracy, with a lack of privacy consideration, which is a major concern in modern society where privacy attacks are rampant. To address this issue, researchers have started to develop privacy-preserving GNNs. Despite this progress, there is a lack of a comprehensive overview of the attacks and the techniques for preserving privacy in the graph domain. In this survey, we aim to address this gap by summarizing the attacks on graph data according to the targeted information, categorizing the privacy preservation techniques in GNNs, and reviewing the datasets and applications that could be used for analyzing/solving privacy issues in GNNs. We also outline potential directions for future research in order to build better privacy-preserving GNNs.
翻訳日:2023-09-11 17:25:45 公開日:2023-09-08
# プログラム・オブ・思考は推論のためにいつ働くのか?

When Do Program-of-Thoughts Work for Reasoning? ( http://arxiv.org/abs/2308.15452v2 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yinuo Jiang, Shumin Deng, Guozhou Zheng, Huajun Chen(参考訳) 大規模言語モデル(LLM)の推論能力は、組み込み人工知能の領域において重要な役割を果たす。 複雑な推論タスクに対処するためにプログラミング言語を使用するLLMのプログラム・オブ・シンクレット・プロンプトのような効果的な方法があるが、コードデータの推論能力改善に対する影響は未定のままである。 このギャップに対処するために、構造的属性と論理的属性を組み合わせた複雑性影響推論スコア(CIRS)を提案し、コードと推論能力の相関を測定する。 具体的には、抽象構文木を用いて構造情報をエンコードし、難易度と循環的複雑度を考慮して論理複雑性を計算する。 経験的分析により、複雑さのコードデータがLLMによって学習または理解されるわけではないことがわかった。 プログラム支援プロンプトによる推論能力の向上には最適な複雑性レベルが不可欠である。 次に,自動合成・階層化アルゴリズムを設計し,数学的推論のための命令生成とコード生成タスクのためのコードデータフィルタリングに適用する。 その結果,提案手法の有効性が示された。 コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。

The reasoning capabilities of Large Language Models (LLMs) play a pivotal role in the realm of embodied artificial intelligence. Although there are effective methods like program-of-thought prompting for LLMs which uses programming language to tackle complex reasoning tasks, the specific impact of code data on the improvement of reasoning capabilities remains under-explored. To address this gap, we propose complexity-impacted reasoning score (CIRS), which combines structural and logical attributes, to measure the correlation between code and reasoning abilities. Specifically, we use the abstract syntax tree to encode the structural information and calculate logical complexity by considering the difficulty and the cyclomatic complexity. Through an empirical analysis, we find not all code data of complexity can be learned or understood by LLMs. Optimal level of complexity is critical to the improvement of reasoning abilities by program-aided prompting. Then we design an auto-synthesizing and stratifying algorithm, and apply it to instruction generation for mathematical reasoning and code data filtering for code generation tasks. Extensive results demonstrates the effectiveness of our proposed approach. Code will be integrated into the EasyInstruct framework at https://github.com/zjunlp/EasyInstruct.
翻訳日:2023-09-11 17:25:29 公開日:2023-09-08
# 大規模言語モデルを活用したテキスト間SQL:ベンチマーク評価

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation ( http://arxiv.org/abs/2308.15363v2 )

ライセンス: Link先を確認
Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, Jingren Zhou(参考訳) 大規模言語モデル(LLM)は、テキストからSQLタスクの新しいパラダイムとして登場した。 しかし、体系的なベンチマークがないため、効率的なLLMベースのテキスト・トゥ・SQLソリューションの設計が阻害される。 この課題に対処するため,本稿では,質問表現,サンプル選択,サンプル組織など既存のプロンプトエンジニアリング手法を体系的かつ広範囲に比較し,これらの実験結果をもとに,その長所と短所を詳述する。 これらの結果に基づき,新たな統合ソリューションであるdail-sqlを提案し,86.6%の実行精度でスパイダーリーダボードをリフレッシュし,新たなバーを設定する。 オープンソース LLM の可能性を探るため,様々なシナリオで検討し,教師付き微調整による性能向上を図る。 我々の調査では、Text-to-SQLにおけるオープンソースのLLMの可能性と、教師付き微調整の利点とデメリットを強調しています。 さらに, LLMをベースとしたテキスト・トゥ・SQLの効率的かつ経済的なソリューションを目指して, プロンプトエンジニアリングにおけるトークンの効率を強調し, この指標に基づく先行研究を比較した。 LLMによるText-to-SQLのより深い理解を提供し、さらなる調査や広範な応用を促すことを願っています。

Large language models (LLMs) have emerged as a new paradigm for Text-to-SQL task. However, the absence of a systematical benchmark inhibits the development of designing effective, efficient and economic LLM-based Text-to-SQL solutions. To address this challenge, in this paper, we first conduct a systematical and extensive comparison over existing prompt engineering methods, including question representation, example selection and example organization, and with these experimental results, we elaborate their pros and cons. Based on these findings, we propose a new integrated solution, named DAIL-SQL, which refreshes the Spider leaderboard with 86.6% execution accuracy and sets a new bar. To explore the potential of open-source LLM, we investigate them in various scenarios, and further enhance their performance with supervised fine-tuning. Our explorations highlight open-source LLMs' potential in Text-to-SQL, as well as the advantages and disadvantages of the supervised fine-tuning. Additionally, towards an efficient and economic LLM-based Text-to-SQL solution, we emphasize the token efficiency in prompt engineering and compare the prior studies under this metric. We hope that our work provides a deeper understanding of Text-to-SQL with LLMs, and inspires further investigations and broad applications.
翻訳日:2023-09-11 17:25:09 公開日:2023-09-08
# 量から品質へ:インストラクションチューニングのための自己ガイドデータ選択によるLCM性能向上

From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning ( http://arxiv.org/abs/2308.12032v2 )

ライセンス: Link先を確認
Ming Li, Yong Zhang, Zhitao Li, Jiuhai Chen, Lichang Chen, Ning Cheng, Jianzong Wang, Tianyi Zhou, Jing Xiao(参考訳) 大規模言語モデルの領域では、命令データの品質と量とのバランスが焦点となっている。 これを認識し,LLMの自己誘導手法を導入し,大規模なオープンソースデータセットからサクラサンプルを自動識別・選択し,手作業によるキュレーションを最小化し,LLMをチューニングするための潜在的コストを低減する。 私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。 IFDの適応的適用により、サクラサンプルはピンポイント化され、モデルの訓練効率が著しく向上する。 alpacaやwizardlmといった有名なデータセットに対する実証的な検証は、これまでのデータ入力のわずか10%で、結果が改善されています。 この自己誘導チェリーピッキングとIFDメトリックの合成は、LLMの最適化における革新的な飛躍を意味し、効率性と資源意識の進歩を約束する。

In the realm of Large Language Models, the balance between instruction data quality and quantity has become a focal point. Recognizing this, we introduce a self-guided methodology for LLMs to autonomously discern and select cherry samples from vast open-source datasets, effectively minimizing manual curation and potential cost for instruction tuning an LLM. Our key innovation, the Instruction-Following Difficulty (IFD) metric, emerges as a pivotal tool to identify discrepancies between a model's expected responses and its autonomous generation prowess. Through the adept application of IFD, cherry samples are pinpointed, leading to a marked uptick in model training efficiency. Empirical validations on renowned datasets like Alpaca and WizardLM underpin our findings; with a mere 10% of conventional data input, our strategy showcases improved results. This synthesis of self-guided cherry-picking and the IFD metric signifies a transformative leap in the optimization of LLMs, promising both efficiency and resource-conscious advancements.
翻訳日:2023-09-11 17:24:27 公開日:2023-09-08
# 量子インスパイアされた機械学習:調査

Quantum-Inspired Machine Learning: a Survey ( http://arxiv.org/abs/2308.11269v2 )

ライセンス: Link先を確認
Larry Huynh, Jin Hong, Ajmal Mian, Hajime Suzuki, Yanqiu Wu, Seyit Camtepe(参考訳) 量子インスパイアされた機械学習(QiML)は、古典的な計算フレームワークにおける量子力学の原理を活用する可能性について、研究者から世界的な注目を集めている。 しかしながら、現在のレビュー文献はQiMLを表面的に探究し、より広範な量子機械学習(QML)分野に焦点を当てていることが多い。 このギャップに対応するために、この調査は、QiMLの様々な研究領域、例えばテンソルネットワークシミュレーション、量子化アルゴリズム、その他を総合的に調査し、最近の進歩、実践的応用、将来的な研究の道を示す。 さらに、QiMLの具体的定義は、この用語の様々な先行解釈とその固有の曖昧さを解析することによって確立される。 QiMLが進化を続けるにつれて、量子力学、量子コンピューティング、そして古典的な機械学習から引き出された将来的な発展が期待でき、この分野をさらに豊かにする。 この調査は研究者や実践者のガイドとなり、qimlの現在の状況と今後の方向性を総合的に理解する。

Quantum-inspired Machine Learning (QiML) is a burgeoning field, receiving global attention from researchers for its potential to leverage principles of quantum mechanics within classical computational frameworks. However, current review literature often presents a superficial exploration of QiML, focusing instead on the broader Quantum Machine Learning (QML) field. In response to this gap, this survey provides an integrated and comprehensive examination of QiML, exploring QiML's diverse research domains including tensor network simulations, dequantized algorithms, and others, showcasing recent advancements, practical applications, and illuminating potential future research avenues. Further, a concrete definition of QiML is established by analyzing various prior interpretations of the term and their inherent ambiguities. As QiML continues to evolve, we anticipate a wealth of future developments drawing from quantum mechanics, quantum computing, and classical machine learning, enriching the field further. This survey serves as a guide for researchers and practitioners alike, providing a holistic understanding of QiML's current landscape and future directions.
翻訳日:2023-09-11 17:23:43 公開日:2023-09-08
# LadleNet:スケーラブルな2段階U-Netを用いた可視光画像への熱赤外画像の変換

LadleNet: Translating Thermal Infrared Images to Visible Light Images Using A Scalable Two-stage U-Net ( http://arxiv.org/abs/2308.06603v2 )

ライセンス: Link先を確認
Tonghui Zou and Lei Chen(参考訳) 熱赤外(TIR)画像から可視光(VI)画像への変換は、TIR-VI画像の登録や融合など、様々な領域にまたがる潜在的な応用に向けた課題を示す。 TIR画像変換から得られた補助情報を活用することで、これらのアプリケーション間でのモデル性能と一般化を大幅に向上させることができる。 しかし、この分野で一般的な問題には、最適な画像の忠実さとモデルのスケーラビリティの制限が含まれる。 本稿では,U-Netアーキテクチャに基づくアルゴリズムであるLadleNetを紹介する。 LadleNetは2段階のU-Net結合構造を採用し、スキップ接続と改良された特徴集約技術で強化され、モデル性能が大幅に向上した。 ハンドル」モジュールと「ボウル」モジュールからなるladlenetのハンドルモジュールは抽象的な意味空間の構築を容易にし、ボウルモジュールはこの意味空間をデコードしてマッピングされたvi画像を生成する。 ハンドラモジュールは、ネットワークアーキテクチャをセマンティクスセグメンテーションネットワークに置き換えることで拡張性を示し、モデルの性能を高めるためにより抽象的なセマンティクス空間を確立する。 そこで我々は,LadleNetのHandleモジュールを事前学習したDeepLabv3+ネットワークに置き換えたLadleNet+を提案する。 提案手法は, 定量的および定性的分析を伴って, KAISTデータセット上で評価, 検証を行った。 既存の手法と比較して,本手法は画像の明瞭さと知覚品質の観点から最先端の性能を実現する。 ソースコードはhttps://github.com/Ach-1914/LadleNet/tree/main/で入手できる。

The translation of thermal infrared (TIR) images to visible light (VI) images presents a challenging task with potential applications spanning various domains such as TIR-VI image registration and fusion. Leveraging supplementary information derived from TIR image conversions can significantly enhance model performance and generalization across these applications. However, prevailing issues within this field include suboptimal image fidelity and limited model scalability. In this paper, we introduce an algorithm, LadleNet, based on the U-Net architecture. LadleNet employs a two-stage U-Net concatenation structure, augmented with skip connections and refined feature aggregation techniques, resulting in a substantial enhancement in model performance. Comprising 'Handle' and 'Bowl' modules, LadleNet's Handle module facilitates the construction of an abstract semantic space, while the Bowl module decodes this semantic space to yield mapped VI images. The Handle module exhibits extensibility by allowing the substitution of its network architecture with semantic segmentation networks, thereby establishing more abstract semantic spaces to bolster model performance. Consequently, we propose LadleNet+, which replaces LadleNet's Handle module with the pre-trained DeepLabv3+ network, thereby endowing the model with enhanced semantic space construction capabilities. The proposed method is evaluated and tested on the KAIST dataset, accompanied by quantitative and qualitative analyses. Compared to existing methodologies, our approach achieves state-of-the-art performance in terms of image clarity and perceptual quality. The source code will be made available at https://github.com/Ach-1914/LadleNet/tree/main/.
翻訳日:2023-09-11 17:23:23 公開日:2023-09-08
# CyberForce: マルウェア除去のためのフェデレーション強化学習フレームワーク

CyberForce: A Federated Reinforcement Learning Framework for Malware Mitigation ( http://arxiv.org/abs/2308.05978v2 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdran, Pedro Miguel Sanchez Sanchez, Jan Kreischer, Jan von der Assen, Gerome Bovet, Gregorio Martinez Perez, Burkhard Stiller(参考訳) 近年の研究では、強化学習(RL)と移動目標防衛(MTD)の統合により、IoT(Internet-of-Things)デバイスにおけるサイバーセキュリティが向上することが示されている。 それでも、既存の作業の実践性は、RLにおける集中型データ処理に関連するデータプライバシの懸念や、不均一なゼロデイ攻撃の増加に対して有効な適切なMTD技術を学ぶのに必要な不満足な時間によって妨げられている。 この研究は、フェデレーションと強化学習(FRL)を組み合わせたフレームワークであるCyberForceを紹介し、ゼロデイ攻撃を緩和するための適切なMTDテクニックを共同でプライベートに学習する。 CyberForceはデバイスフィンガープリントと異常検出を統合して、FRLベースのエージェントによって選択されたMTDメカニズムを報酬または罰する。 このフレームワークは、異種マルウェアのサンプルに影響された実際のIoTプラットフォームの10の物理デバイスで構成されたシナリオでデプロイされ、評価されている。 実験のプールは、CyberForceが既存のRLベースの集中型アプローチよりも高速に攻撃を緩和するMTD技術を学ぶことを示した。 さらに、さまざまなデバイスが異なる攻撃にさらされると、cyberforceは知識転送のメリットを享受し、パフォーマンスが向上し、最近の作業に比べて学習時間が短縮される。 最後に、エージェント学習プロセスで使用される異なる集約アルゴリズムは、悪意のある攻撃に対して顕著な堅牢性を提供する。

Recent research has shown that the integration of Reinforcement Learning (RL) with Moving Target Defense (MTD) can enhance cybersecurity in Internet-of-Things (IoT) devices. Nevertheless, the practicality of existing work is hindered by data privacy concerns associated with centralized data processing in RL, and the unsatisfactory time needed to learn right MTD techniques that are effective against a rising number of heterogeneous zero-day attacks. Thus, this work presents CyberForce, a framework that combines Federated and Reinforcement Learning (FRL) to collaboratively and privately learn suitable MTD techniques for mitigating zero-day attacks. CyberForce integrates device fingerprinting and anomaly detection to reward or penalize MTD mechanisms chosen by an FRL-based agent. The framework has been deployed and evaluated in a scenario consisting of ten physical devices of a real IoT platform affected by heterogeneous malware samples. A pool of experiments has demonstrated that CyberForce learns the MTD technique mitigating each attack faster than existing RL-based centralized approaches. In addition, when various devices are exposed to different attacks, CyberForce benefits from knowledge transfer, leading to enhanced performance and reduced learning time in comparison to recent works. Finally, different aggregation algorithms used during the agent learning process provide CyberForce with notable robustness to malicious attacks.
翻訳日:2023-09-11 17:22:57 公開日:2023-09-08
# 量子エントロピーに関する対数凸定理

Some log-convexity theorems on quantum entropies ( http://arxiv.org/abs/2309.02074v2 )

ライセンス: Link先を確認
Saptak Bhattacharya(参考訳) 本稿では,相対エントロピーと忠実度をパラメトリケートしたバージョンで対数凸性を証明する。 また、Seshadreesanらによって導入された相対エントロピー差のR'enyi一般化についても検討する。 J. Phys の略。 a: 数学。 Theor 48 (2015) であり、それらの予想の一つに反例を与える。

In this paper, we prove log-convexity of some parametrized versions of the relative entropy and fidelity. We also look at a R\'enyi generalization of relative entropy difference introduced by Seshadreesan et. al. in J. Phys. A: Math. Theor. 48 (2015) and give a counterexample to one of their conjectures.
翻訳日:2023-09-11 17:16:28 公開日:2023-09-08
# LoopTune: 強化学習によるテンソル計算の最適化

LoopTune: Optimizing Tensor Computations with Reinforcement Learning ( http://arxiv.org/abs/2309.01825v2 )

ライセンス: Link先を確認
Dejan Grubisic, Bram Wasti, Chris Cummins, John Mellor-Crummey, Aleksandar Zlateski(参考訳) 高度なコンパイラ技術は、機械学習アプリケーションが新しいハードウェア上で実行できるようにするのに不可欠であるが、従来のコンパイラはパフォーマンスを提供できず、人気のあるオートチューニングは長い検索時間を持ち、エキスパート最適化ライブラリは持続不可能なコストをもたらす。 そこで我々は,CPUの深層学習モデルにおけるテンソル計算を最適化する深層学習コンパイラであるLoopTuneを開発した。 looptuneは、超高速軽量コードジェネレータloopnestを使用してハードウェア固有の最適化を実行しながら、テンソルトラバース順序を最適化する。 新しいグラフベースの表現とアクション空間により、looptuneはloopnestを3.2倍スピードアップし、tvmより2.8倍速く、metascheduleより2.8倍速く、autotvmより1.08倍高速で、ハンドチューニングされたライブラリnumpyのレベルで一貫して実行します。 さらに、LoopTuneは数秒でコードをチューニングする。

Advanced compiler technology is crucial for enabling machine learning applications to run on novel hardware, but traditional compilers fail to deliver performance, popular auto-tuners have long search times and expert-optimized libraries introduce unsustainable costs. To address this, we developed LoopTune, a deep reinforcement learning compiler that optimizes tensor computations in deep learning models for the CPU. LoopTune optimizes tensor traversal order while using the ultra-fast lightweight code generator LoopNest to perform hardware-specific optimizations. With a novel graph-based representation and action space, LoopTune speeds up LoopNest by 3.2x, generating an order of magnitude faster code than TVM, 2.8x faster than MetaSchedule, and 1.08x faster than AutoTVM, consistently performing at the level of the hand-tuned library Numpy. Moreover, LoopTune tunes code in order of seconds.
翻訳日:2023-09-11 17:15:37 公開日:2023-09-08
# ポストホックGNNのラベルノイズに対するロバスト性について

On the Robustness of Post-hoc GNN Explainers to Label Noise ( http://arxiv.org/abs/2309.01706v2 )

ライセンス: Link先を確認
Zhiqiang Zhong and Yangqianzi Jiang and Davide Mottin(参考訳) グラフニューラルネットワーク(GNN)の固有のブラックボックス制限に対する解決策として提案されている、ポストホックなGNN説明器は、トレーニングされたGNNが示す行動の正確で洞察力豊かな説明を提供することを目的としている。 学術的・産業的な文脈における最近の顕著な進歩にもかかわらず、ポストホックなgnn解説者の頑健さはラベルノイズと向き合うと未調査のままである。 このギャップを埋めるために,ラベルノイズの度合いの異なる多種多様なGNN説明器の有効性を評価するために,系統的な実験を行った。 まず、ポストホックGNNの説明者はラベルの摂動に影響を受けやすい。 第二に、GNNの性能に反する低レベルのラベルノイズでさえ、生成された説明の質を著しく損なう。 最後に,騒音レベルを増大させることによる説明効果の漸進的回復に関する談話を行う。

Proposed as a solution to the inherent black-box limitations of graph neural networks (GNNs), post-hoc GNN explainers aim to provide precise and insightful explanations of the behaviours exhibited by trained GNNs. Despite their recent notable advancements in academic and industrial contexts, the robustness of post-hoc GNN explainers remains unexplored when confronted with label noise. To bridge this gap, we conduct a systematic empirical investigation to evaluate the efficacy of diverse post-hoc GNN explainers under varying degrees of label noise. Our results reveal several key insights: Firstly, post-hoc GNN explainers are susceptible to label perturbations. Secondly, even minor levels of label noise, inconsequential to GNN performance, harm the quality of generated explanations substantially. Lastly, we engage in a discourse regarding the progressive recovery of explanation effectiveness with escalating noise levels.
翻訳日:2023-09-11 17:15:18 公開日:2023-09-08
# ニューロモルフィックイベントセンシングと圧電アクチュエータを用いたナノサットの高周波高精度ポインティング

High Frequency, High Accuracy Pointing onboard Nanosats using Neuromorphic Event Sensing and Piezoelectric Actuation ( http://arxiv.org/abs/2309.01361v2 )

ライセンス: Link先を確認
Yasir Latif, Peter Anastasiou, Yonhon Ng, Zebb Prime, Tien-Fu Lu, Matthew Tetlow, Robert Mahony, Tat-Jun Chin(参考訳) 衛星が小さくなるにつれて、衛星に作用する外力によって安定したポインティングを維持する能力は低下する。 同時に、姿勢決定制御システム(ADCS)で使用される反応ホイールは、ポインティング安定性を損なう可能性のある高周波ジッタを導入している。 数万キロ離れた物体を追跡する空間領域認識(SDA)タスクでは、現在のナノサット(通常は10から100秒の範囲)で提供されるポインティング精度は不十分である。 本研究では,ニューロモルフィック事象センサ(高周波で高精度な相対姿勢推定)と圧電ステージ(能動姿勢補正)との閉ループを併用し,高度に安定なセンサ特異的なポインティングを提供する新しいペイロードを開発する。 イベントセンサは、低消費電力、非同期動作、高ダイナミックレンジの望ましい特性のために、特に宇宙用途に適している。 イベントセンサを用いて、まず基準背景星場を推定し、そこから短時間の相対的姿勢を高頻度で推定する。 圧電ステージは、イベントセンサを備えた閉じた制御ループで動作し、電流と所望の姿勢の差に基づいて姿勢補正を行う。 制御された設定の結果,市販部品を用いた試作機を用いて,新しいペイロードを最大50Hzの動作周波数で1~5秒の範囲でのポインティング精度を実現することができた。 詳細はhttps://ylatif.github.io/ultrafinestabilisationを参照。

As satellites become smaller, the ability to maintain stable pointing decreases as external forces acting on the satellite come into play. At the same time, reaction wheels used in the attitude determination and control system (ADCS) introduce high frequency jitter which can disrupt pointing stability. For space domain awareness (SDA) tasks that track objects tens of thousands of kilometres away, the pointing accuracy offered by current nanosats, typically in the range of 10 to 100 arcseconds, is not sufficient. In this work, we develop a novel payload that utilises a neuromorphic event sensor (for high frequency and highly accurate relative attitude estimation) paired in a closed loop with a piezoelectric stage (for active attitude corrections) to provide highly stable sensor-specific pointing. Event sensors are especially suited for space applications due to their desirable characteristics of low power consumption, asynchronous operation, and high dynamic range. We use the event sensor to first estimate a reference background star field from which instantaneous relative attitude is estimated at high frequency. The piezoelectric stage works in a closed control loop with the event sensor to perform attitude corrections based on the discrepancy between the current and desired attitude. Results in a controlled setting show that we can achieve a pointing accuracy in the range of 1-5 arcseconds using our novel payload at an operating frequency of up to 50Hz using a prototype built from commercial-off-the-shelf components. Further details can be found at https://ylatif.github.io/ultrafinestabilisation
翻訳日:2023-09-11 17:15:02 公開日:2023-09-08
# コンテンツと行動の理解、シミュレート、最適化のための大規模コンテンツと行動モデル

Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior ( http://arxiv.org/abs/2309.00359v2 )

ライセンス: Link先を確認
Ashmit Khandelwal, Aditya Agrawal, Aanisha Bhattacharyya, Yaman K Singla, Somesh Singh, Uttaran Bhattacharya, Ishita Dasgupta, Stefano Petrangeli, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy(参考訳) シャノンは情報理論を紹介する論文の中で、コミュニケーションを技術、意味、効力の3つのレベルに分けた。 技術レベルは送信されたシンボルの正確な再構築に関係しているが、意味的および有効性レベルは推測された意味とその受信者への影響を扱う。 通信のおかげで、第一段階の問題はインターネットのような大きな進歩をもたらした。 大きな言語モデル(LLM)は第2の目標に向かって多少前進するが、第3のレベルはまだほとんど触れられていない。 第3の問題は、望ましい受信者の行動に対する通信の予測と最適化である。 LLMは、幅広いタスクにわたって広範な一般化能力を示すが、そのためには解決できない。 パフォーマンスが低かった理由の一つは、llmsのトレーニングコーパスに"behavior tokens"が欠けていることである。 行動トークンは、共有、いいね!、クリック、購入、リツイートなど、コミュニケーション上の受信者の行動を定義する。 LLMトレーニングのための事前処理データに対して、振る舞いトークンはノイズとしてコーパスから取り除かれることが多い。 そこで本稿では,llm訓練における行動トークンの再導入に向けた最初の進歩について述べる。 訓練されたモデルは、コンテンツ理解タスクでllmと同様の性能を示すこと以外は、行動シミュレーション、コンテンツシミュレーション、行動理解、行動ドメイン適応に関する一般化能力を示す。 2つのコーパス上の幅広いタスクを用いて、これらの機能について結果を示す。 これらのモデルをLCBM(Large Content and Behavior Models)と呼ぶ。 さらに,LCBMのさらなる研究を促進するため,コミュニケータ,メッセージ,対応する受信者行動を含むリポジトリであるCBC(Content Behavior Corpus)を新たにリリースした。

Shannon, in his seminal paper introducing information theory, divided the communication into three levels: technical, semantic, and effectivenss. While the technical level is concerned with accurate reconstruction of transmitted symbols, the semantic and effectiveness levels deal with the inferred meaning and its effect on the receiver. Thanks to telecommunications, the first level problem has produced great advances like the internet. Large Language Models (LLMs) make some progress towards the second goal, but the third level still remains largely untouched. The third problem deals with predicting and optimizing communication for desired receiver behavior. LLMs, while showing wide generalization capabilities across a wide range of tasks, are unable to solve for this. One reason for the underperformance could be a lack of "behavior tokens" in LLMs' training corpora. Behavior tokens define receiver behavior over a communication, such as shares, likes, clicks, purchases, retweets, etc. While preprocessing data for LLM training, behavior tokens are often removed from the corpora as noise. Therefore, in this paper, we make some initial progress towards reintroducing behavior tokens in LLM training. The trained models, other than showing similar performance to LLMs on content understanding tasks, show generalization capabilities on behavior simulation, content simulation, behavior understanding, and behavior domain adaptation. Using a wide range of tasks on two corpora, we show results on all these capabilities. We call these models Large Content and Behavior Models (LCBMs). Further, to spur more research on LCBMs, we release our new Content Behavior Corpus (CBC), a repository containing communicator, message, and corresponding receiver behavior.
翻訳日:2023-09-11 17:14:25 公開日:2023-09-08
# SoDaCam:単一光子イメージングによるソフトウェア定義カメラ

SoDaCam: Software-defined Cameras via Single-Photon Imaging ( http://arxiv.org/abs/2309.00066v2 )

ライセンス: Link先を確認
Varun Sundar, Andrei Ardelean, Tristan Swedish, Claudio Bruschini, Edoardo Charbon and Mohit Gupta(参考訳) 再解釈可能なカメラは、従来の撮像を超える後処理能力によって定義される。 単一光子デバイスで取得した光子キューブから光子の粒度で再解釈可能なカメラを提供する「SoDaCam」を提案する。 光子キューブは、光子の時空間的検出を、最大100kHzのフレームレートでバイナリフレームのシーケンスとして表している。 光子キューブの単純な変換、すなわち光子キューブ投影は、露光ブラケット、フラッターシャッターカメラ、ビデオ圧縮システム、イベントカメラ、さらには露光中に移動するカメラなど、多数のイメージングシステムの機能を提供する。 我々の光子キューブ投影は、計算可能でショットノイズのみに制限されたソフトウェア定義の構成の柔軟性を提供する。 この柔軟性を利用して、エミュレートされたカメラに新しい機能を提供する。 さらに,このプロジェクションにより,光子キューブのカメラ依存圧縮が実現され,単一光子イメージング用に設計された新しい計算アーキテクチャへのプロジェクションの実装が実演される。

Reinterpretable cameras are defined by their post-processing capabilities that exceed traditional imaging. We present "SoDaCam" that provides reinterpretable cameras at the granularity of photons, from photon-cubes acquired by single-photon devices. Photon-cubes represent the spatio-temporal detections of photons as a sequence of binary frames, at frame-rates as high as 100 kHz. We show that simple transformations of the photon-cube, or photon-cube projections, provide the functionality of numerous imaging systems including: exposure bracketing, flutter shutter cameras, video compressive systems, event cameras, and even cameras that move during exposure. Our photon-cube projections offer the flexibility of being software-defined constructs that are only limited by what is computable, and shot-noise. We exploit this flexibility to provide new capabilities for the emulated cameras. As an added benefit, our projections provide camera-dependent compression of photon-cubes, which we demonstrate using an implementation of our projections on a novel compute architecture that is designed for single-photon imaging.
翻訳日:2023-09-11 17:13:59 公開日:2023-09-08
# BEVTrack:鳥のEye-Viewで3Dオブジェクトを追跡できるシンプルなベースライン

BEVTrack: A Simple Baseline for 3D Single Object Tracking in Birds's-Eye-View ( http://arxiv.org/abs/2309.02185v2 )

ライセンス: Link先を確認
Yuxiang Yang, Yingqi Deng, Jiahao Nie, Jing Zhang(参考訳) 点雲における3Dシングルオブジェクトトラッキング(SOT)は、外見のばらつき、イントラクタ、点雲の分散度が高いため、依然として難しい問題である。 特に自律走行のシナリオでは、ターゲットオブジェクトは通常、連続するフレーム間で空間的隣接性を維持し、主に水平方向に移動する。 この空間連続性は、ターゲットの局在に対する貴重な事前知識を提供する。 しかし、しばしばポイントワイズ表現を用いる既存のトラッカーは、そのような表現の不規則な形式のため、この知識を効率的に活用するのに苦労している。 そのため、空間対応を確立するために、精巧な設計と複数のサブタスクを解く必要がある。 本稿では,3次元SOTのためのシンプルながら強力なベースラインフレームワークであるBEVTrackを紹介する。 連続する点雲を共通のBird's-Eye-View表現に変換した後、BEVTrackは本質的に空間的近接を符号化し、単純な要素操作と畳み込み層によるトラッキングのためのモーションキューをキャプチャする。 さらに、多様なサイズと移動パターンを持つオブジェクトをよりうまく扱うために、bevtrackは、以前の作品のように固定ラプラシアンやガウス的仮定をするのではなく、基盤となる動き分布を直接学習する。 ベルとホイッスルなしで、BEVTrackは122FPSの高速な推論速度を維持しながら、KITTIとNuScenesデータセットの最先端のパフォーマンスを達成する。 コードはhttps://github.com/xmm-prio/bevtrackでリリースされる。

3D single object tracking (SOT) in point clouds is still a challenging problem due to appearance variation, distractors, and high sparsity of point clouds. Notably, in autonomous driving scenarios, the target object typically maintains spatial adjacency across consecutive frames, predominantly moving horizontally. This spatial continuity offers valuable prior knowledge for target localization. However, existing trackers, which often employ point-wise representations, struggle to efficiently utilize this knowledge owing to the irregular format of such representations. Consequently, they require elaborate designs and solving multiple subtasks to establish spatial correspondence. In this paper, we introduce BEVTrack, a simple yet strong baseline framework for 3D SOT. After converting consecutive point clouds into the common Bird's-Eye-View representation, BEVTrack inherently encodes spatial proximity and adeptly captures motion cues for tracking via a simple element-wise operation and convolutional layers. Additionally, to better deal with objects having diverse sizes and moving patterns, BEVTrack directly learns the underlying motion distribution rather than making a fixed Laplacian or Gaussian assumption as in previous works. Without bells and whistles, BEVTrack achieves state-of-the-art performance on KITTI and NuScenes datasets while maintaining a high inference speed of 122 FPS. The code will be released at https://github.com/xmm-prio/BEVTrack.
翻訳日:2023-09-11 17:03:03 公開日:2023-09-08
# 非線形システムの制御のための効率的なデータ駆動探索と線形表現

Computationally Efficient Data-Driven Discovery and Linear Representation of Nonlinear Systems For Control ( http://arxiv.org/abs/2309.04074v1 )

ライセンス: Link先を確認
Madhur Tiwari, George Nehma, Bethany Lusch(参考訳) 本研究は非線形システムのシステム同定と線形化にkoopman演算子理論を用いたデータ駆動フレームワークの開発に焦点をあてる。 提案手法は再帰学習を伴う深層学習フレームワークを提案する。 結果の線形系は線形二次制御により制御される。 振り子システムを用いた実例を雑音データに関するシミュレーションで示す。 提案手法はオートエンコーダベースラインよりも効率的に学習でき,精度が高いことを示す。

This work focuses on developing a data-driven framework using Koopman operator theory for system identification and linearization of nonlinear systems for control. Our proposed method presents a deep learning framework with recursive learning. The resulting linear system is controlled using a linear quadratic control. An illustrative example using a pendulum system is presented with simulations on noisy data. We show that our proposed method is trained more efficiently and is more accurate than an autoencoder baseline.
翻訳日:2023-09-11 16:26:02 公開日:2023-09-08
# 固定階数PSD行列のサンプリングのためのリーマン・ランゲヴィン・モンテカルロスキーム

Riemannian Langevin Monte Carlo schemes for sampling PSD matrices with fixed rank ( http://arxiv.org/abs/2309.04072v1 )

ライセンス: Link先を確認
Tianmin Yu and Shixin Zheng and Jianfeng Lu and Govind Menon and Xiangxiong Zhang(参考訳) 本稿では、$\mathcal S^{n,p}_+$, Real positive semi-definite (PSD) matrices of size $n\times n$ and rank $p$というギブス分布から行列をサンプリングする2つの明示的なスキームを紹介する。 エネルギー関数 $\mathcal E:\mathcal S^{n,p}_+\to \mathbb{R}$ とある種のリーマン計量 $g$ on $\mathcal S^{n,p}_+$ が与えられたとき、これらのスキームは多様体上のブラウン運動を持つリーマンランゲヴィン方程式(RLE)のオイラー・マルウ山離散化に依存する。 RLE の数値スキームを $\mathcal S^{n,p}_+$ の2つの基本的な尺度で示す。 (a)$\mathcal S^{n,p}_+ \subset \mathbb{R}^{n\times n} $ の埋め込みから得られる計量 (b)商幾何学に対応するbures-wasserstein計量。 また,これらのスキームの数値検証を可能にする明示的なギブス分布を持つエネルギー関数の例を示す。

This paper introduces two explicit schemes to sample matrices from Gibbs distributions on $\mathcal S^{n,p}_+$, the manifold of real positive semi-definite (PSD) matrices of size $n\times n$ and rank $p$. Given an energy function $\mathcal E:\mathcal S^{n,p}_+\to \mathbb{R}$ and certain Riemannian metrics $g$ on $\mathcal S^{n,p}_+$, these schemes rely on an Euler-Maruyama discretization of the Riemannian Langevin equation (RLE) with Brownian motion on the manifold. We present numerical schemes for RLE under two fundamental metrics on $\mathcal S^{n,p}_+$: (a) the metric obtained from the embedding of $\mathcal S^{n,p}_+ \subset \mathbb{R}^{n\times n} $; and (b) the Bures-Wasserstein metric corresponding to quotient geometry. We also provide examples of energy functions with explicit Gibbs distributions that allow numerical validation of these schemes.
翻訳日:2023-09-11 16:25:55 公開日:2023-09-08
# 頭蓋内計測統合による全脳セグメント化のための階層変換器の強化

Enhancing Hierarchical Transformers for Whole Brain Segmentation with Intracranial Measurements Integration ( http://arxiv.org/abs/2309.04071v1 )

ライセンス: Link先を確認
Xin Yu, Yucheng Tang, Qi Yang, Ho Hin Lee, Shunxing Bao, Yuankai Huo, Bennett A. Landman(参考訳) MRIによる全脳セグメント化は、全頭蓋内体積(TICV)や後窩体積(PFV)を含む脳領域の非侵襲的な計測を可能にする。 頭蓋内計測を組み込むために、既存の全脳セグメント化手法の強化は、脳構造の分析における包括性を高める。 その可能性にもかかわらず、頭蓋内測定のためのディープラーニング技術を一般化するタスクは、全脳とTICV/PFVラベルを含む手動の注釈付きアトラスによって、データ可用性の制約に直面している。 本稿では,脳セグメント化のための階層型トランスフォーマーUNesTを拡張し,133クラスとTICV/PFVを同時にセグメンテーションする。 データ不足の問題に対処するため、モデルはまず8つの異なるサイトから得られた4859 T1重み付き(T1w)3Dボリュームで事前訓練される。 これらのボリュームはラベル生成のためのマルチアトラスセグメンテーションパイプラインを通じて処理されるが、TICV/PFVラベルは利用できない。 その後、OASIS(Open Access Series Imaging Studies)から45 T1w 3Dボリュームで微調整され、133の脳クラスとTICV/PFVラベルが利用できる。 Dice similarity coefficients (DSC) を用いて評価を行った。 本モデルでは,132脳領域の性能を同等に維持しながら,正確なTICV/PFV推定を行うことができることを示す。 コードとトレーニングされたモデルは、https://github.com/masilab/unest/wholebrainsegで入手できる。

Whole brain segmentation with magnetic resonance imaging (MRI) enables the non-invasive measurement of brain regions, including total intracranial volume (TICV) and posterior fossa volume (PFV). Enhancing the existing whole brain segmentation methodology to incorporate intracranial measurements offers a heightened level of comprehensiveness in the analysis of brain structures. Despite its potential, the task of generalizing deep learning techniques for intracranial measurements faces data availability constraints due to limited manually annotated atlases encompassing whole brain and TICV/PFV labels. In this paper, we enhancing the hierarchical transformer UNesT for whole brain segmentation to achieve segmenting whole brain with 133 classes and TICV/PFV simultaneously. To address the problem of data scarcity, the model is first pretrained on 4859 T1-weighted (T1w) 3D volumes sourced from 8 different sites. These volumes are processed through a multi-atlas segmentation pipeline for label generation, while TICV/PFV labels are unavailable. Subsequently, the model is finetuned with 45 T1w 3D volumes from Open Access Series Imaging Studies (OASIS) where both 133 whole brain classes and TICV/PFV labels are available. We evaluate our method with Dice similarity coefficients(DSC). We show that our model is able to conduct precise TICV/PFV estimation while maintaining the 132 brain regions performance at a comparable level. Code and trained model are available at: https://github.com/MASILab/UNesT/wholebrainSeg.
翻訳日:2023-09-11 16:25:31 公開日:2023-09-08
# 人工知能に基づく因果モデルによる物理法則の推定

Inferring physical laws by artificial intelligence based causal models ( http://arxiv.org/abs/2309.04069v1 )

ライセンス: Link先を確認
Jorawar Singh and Kishor Bharti and Arvind(参考訳) 人工知能(AI)と機械学習(ML)の進歩は、科学研究のための多くの道を開き、知識創造のプロセスに新たな次元を追加している。 しかし、これまでで最も強力で汎用的なMLアプリケーションでさえも、主に関連の分析の領域にあり、複雑なデータフィッティングに沸騰する。 ジュデア・パールは、人工知能は行動や想像に関わる介入を伴わなければならないと指摘している。 したがって、あらゆる機械による科学的発見は、カジュアルな分析と介入を含む必要がある。 そこで本研究では,相関を認識できるだけでなく,カジュアルな関係をも生み出す物理原理の因果学習モデルを提案する。 我々は因果推論と介入の原理を用いて、よく知られた物理現象の文脈における因果関係を研究する。 この手法は,データ間の関連性を解明するだけでなく,変数間の因果関係を正確に確認し,基礎となる物理プロセスのモデルに対する信頼度を高める(あるいは弱める)ことができることを示す。

The advances in Artificial Intelligence (AI) and Machine Learning (ML) have opened up many avenues for scientific research, and are adding new dimensions to the process of knowledge creation. However, even the most powerful and versatile of ML applications till date are primarily in the domain of analysis of associations and boil down to complex data fitting. Judea Pearl has pointed out that Artificial General Intelligence must involve interventions involving the acts of doing and imagining. Any machine assisted scientific discovery thus must include casual analysis and interventions. In this context, we propose a causal learning model of physical principles, which not only recognizes correlations but also brings out casual relationships. We use the principles of causal inference and interventions to study the cause-and-effect relationships in the context of some well-known physical phenomena. We show that this technique can not only figure out associations among data, but is also able to correctly ascertain the cause-and-effect relations amongst the variables, thereby strengthening (or weakening) our confidence in the proposed model of the underlying physical process.
翻訳日:2023-09-11 16:25:04 公開日:2023-09-08
# INSURE:ドメイン一般化のための絡み合いと浄化モデルに基づく情報理論

INSURE: An Information Theory Inspired Disentanglement and Purification Model for Domain Generalization ( http://arxiv.org/abs/2309.04063v1 )

ライセンス: Link先を確認
Xi Yu, Huan-Hsin Tseng, Shinjae Yoo, Haibin Ling, Yuewei Lin(参考訳) ドメイン一般化 (Domain Generalization, DG) は、観測された複数のソースドメインのトレーニングのみにより、目に見えないターゲットドメイン上の一般化可能なモデルを学習することを目的としている。 ドメイン不変な特徴の抽出に焦点をあてた様々なDG法があるが、ドメイン固有のクラス関連特徴は注目され、目に見えない対象領域への一般化の恩恵があると議論されている。 本稿では,クラス固有情報を考慮した情報理論を提案する。本論文では,潜在特徴を明示的に絡み合う情報理論を考案し,unseen領域に一般化するための十分かつコンパクトな(必要)クラス関連特徴を得る。 具体的には,まず,絡み合ったクラス関連特徴が十分なクラスラベル情報を含むことを保証するために,情報理論にインスパイアされた損失関数を提案する。 さらに, 補助的特徴が全てのクラス関連情報を破棄し, クラス関連特徴が十分かつコンパクト(必要)なクラス関連情報を含むペア化浄化損失関数を提案する。 さらに、複数のエンコーダを使用する代わりに、学習可能なバイナリマスクをディエンタングルとして使用して、ディエンタングルメントをより効率的にし、ディエンタングルされた特徴を相互に補完することを提案する。 PACS,OfficeHome,TerraIncognita,DomainNetなど,広く使用されている4つのDGベンチマークデータセットについて広範な実験を行った。 提案手法は最先端手法よりも優れている。 また、ドメイン固有のクラス関連機能は、ドメインの一般化に有用であることを示す。

Domain Generalization (DG) aims to learn a generalizable model on the unseen target domain by only training on the multiple observed source domains. Although a variety of DG methods have focused on extracting domain-invariant features, the domain-specific class-relevant features have attracted attention and been argued to benefit generalization to the unseen target domain. To take into account the class-relevant domain-specific information, in this paper we propose an Information theory iNspired diSentanglement and pURification modEl (INSURE) to explicitly disentangle the latent features to obtain sufficient and compact (necessary) class-relevant feature for generalization to the unseen domain. Specifically, we first propose an information theory inspired loss function to ensure the disentangled class-relevant features contain sufficient class label information and the other disentangled auxiliary feature has sufficient domain information. We further propose a paired purification loss function to let the auxiliary feature discard all the class-relevant information and thus the class-relevant feature will contain sufficient and compact (necessary) class-relevant information. Moreover, instead of using multiple encoders, we propose to use a learnable binary mask as our disentangler to make the disentanglement more efficient and make the disentangled features complementary to each other. We conduct extensive experiments on four widely used DG benchmark datasets including PACS, OfficeHome, TerraIncognita, and DomainNet. The proposed INSURE outperforms the state-of-art methods. We also empirically show that domain-specific class-relevant features are beneficial for domain generalization.
翻訳日:2023-09-11 16:24:46 公開日:2023-09-08
# 3D Denoisersは良い2D教師である:Denoisingとクロスモーダル蒸留による分子プレトレーニング

3D Denoisers are Good 2D Teachers: Molecular Pretraining via Denoising and Cross-Modal Distillation ( http://arxiv.org/abs/2309.04062v1 )

ライセンス: Link先を確認
Sungjun Cho, Dae-Woong Jeong, Sung Moon Ko, Jinwoo Kim, Sehui Han, Seunghoon Hong, Honglak Lee, Moontae Lee(参考訳) 大規模未ラベルデータからの分子表現の事前調整は, 地下構造ラベルの取得コストが高いため, 分子特性予測に不可欠である。 様々な2次元グラフに基づく分子前訓練手法が存在するが、これらの手法は予測性能において統計的に有意な向上を示すのに苦慮している。 近年の研究では,3次元コンホメータを用いたプレトレーニングが提案されている。 しかし、下流での微調整では、3Dコンフォメータで訓練されたモデルには、未確認分子の正確な原子座標が要求される。 この限界を踏まえ,3次元デノイザーからの表現を蒸留して2次元グラフエンコーダを事前学習する自己教師付き分子表現学習フレームワークであるd&dを提案する。 本手法では,デノナイジングとクロスモーダルな知識蒸留を併用することにより,デノナイジングから得られる知識の活用と,正確なコンバータにアクセスできないダウンストリームタスクへの痛みのない適用を享受する。 実世界の分子特性予測データセットの実験により、D&Dにより訓練されたグラフエンコーダは、2Dグラフに基づいて3D情報を推測でき、他のベースラインに対して優れた性能とラベル効率を示す。

Pretraining molecular representations from large unlabeled data is essential for molecular property prediction due to the high cost of obtaining ground-truth labels. While there exist various 2D graph-based molecular pretraining approaches, these methods struggle to show statistically significant gains in predictive performance. Recent work have thus instead proposed 3D conformer-based pretraining under the task of denoising, which led to promising results. During downstream finetuning, however, models trained with 3D conformers require accurate atom-coordinates of previously unseen molecules, which are computationally expensive to acquire at scale. In light of this limitation, we propose D&D, a self-supervised molecular representation learning framework that pretrains a 2D graph encoder by distilling representations from a 3D denoiser. With denoising followed by cross-modal knowledge distillation, our approach enjoys use of knowledge obtained from denoising as well as painless application to downstream tasks with no access to accurate conformers. Experiments on real-world molecular property prediction datasets show that the graph encoder trained via D&D can infer 3D information based on the 2D graph and shows superior performance and label-efficiency against other baselines.
翻訳日:2023-09-11 16:24:20 公開日:2023-09-08
# 時空を“有効化”できるのか?

Can we "effectivize'' spacetime? ( http://arxiv.org/abs/2309.04054v1 )

ライセンス: Link先を確認
Lu Chen(参考訳) textit{ effective realism} によれば、科学的理論は観測不能な世界について知識を与えるが、基本的なレベルでは与えない。 この考え方は、物理学に対するよく受け入れられた \textit{ effective-field-theory} (eft) アプローチによって正当化され、我々の最良の物理理論は、あるエネルギースケールまでしか適用できず、それを超えて崩壊することが期待されている。 本稿では,eftアプローチの動機と効果的な現実主義とそのメリットについて述べる。 このアプローチには新たな課題も持ちます。 eqgは有効性の範囲内であっても、時空の現実的な理論を与えません。 また、すべての EFT が直面する一般的な解釈的ジレンマを、その有効範囲を超えて古典時空への欠かせない参照に関して露呈する。

According to \textit{effective realism}, scientific theories give us knowledge about the unobservable world, but not at the fundamental level. This view is justified by the well-received \textit{effective-field-theory} (EFT) approach to physics, according to which our best physical theories are only applicable up to a certain energy scale and expected to break down beyond that. In this paper, I explain the motivations for the EFT approach and effective realism and their benefits. I also raise new challenges for this approach. Applying effective realism to \textit{effective quantum gravity} (EQG) reveals its shortcomings: EQG does not give us a realistic theory of spacetime even within its scope of validity. It also exposes a general interpretative dilemma faced by all EFTs concerning their indispensable references to classical spacetime beyond their scope of validity.
翻訳日:2023-09-11 16:23:57 公開日:2023-09-08
# グラディエント対応水中画像強調のための空間-周波数相互作用

Toward Sufficient Spatial-Frequency Interaction for Gradient-aware Underwater Image Enhancement ( http://arxiv.org/abs/2309.04089v1 )

ライセンス: Link先を確認
Chen Zhao, Weiling Cai, Chenyu Dong, Ziqi Zeng(参考訳) 水中画像は複雑で多様な劣化に悩まされ、必然的に水中視覚タスクのパフォーマンスに影響する。 しかし,既存の学習に基づく水中画像強調法 (uie) では,主に空間領域の劣化を復元し,フーリエ周波数情報に注意を払うことがほとんどである。 本稿では,空間周波数相互作用と勾配マップ,すなわち2段階からなるSFGNetに基づく新しいUIEフレームワークを開発する。 具体的には,2つのブロック間の相互接続によって十分な空間-周波数相互作用を実現するために,設計した高密度フーリエ融合ブロックと高密度空間融合ブロックを含む高密度空間-周波数融合ネットワーク(DSFFNet)を提案する。 第2段階では、勾配マップによる画像の知覚的詳細と幾何学的構造をさらに強化する勾配対応補正器(GAC)を提案する。 2つの実世界の水中画像データセットによる実験結果から,本手法は水中画像の高度化に成功し,視覚的品質向上の競争力を発揮することが示された。

Underwater images suffer from complex and diverse degradation, which inevitably affects the performance of underwater visual tasks. However, most existing learning-based Underwater image enhancement (UIE) methods mainly restore such degradations in the spatial domain, and rarely pay attention to the fourier frequency information. In this paper, we develop a novel UIE framework based on spatial-frequency interaction and gradient maps, namely SFGNet, which consists of two stages. Specifically, in the first stage, we propose a dense spatial-frequency fusion network (DSFFNet), mainly including our designed dense fourier fusion block and dense spatial fusion block, achieving sufficient spatial-frequency interaction by cross connections between these two blocks. In the second stage, we propose a gradient-aware corrector (GAC) to further enhance perceptual details and geometric structures of images by gradient map. Experimental results on two real-world underwater image datasets show that our approach can successfully enhance underwater images, and achieves competitive performance in visual quality improvement.
翻訳日:2023-09-11 16:16:14 公開日:2023-09-08
# ソフトウェア定義無線を用いた非認証ユーザによる低消費電力通信信号のデータ駆動分類

Data-driven classification of low-power communication signals by an unauthenticated user using a software-defined radio ( http://arxiv.org/abs/2309.04088v1 )

ライセンス: Link先を確認
Tarun Rao Keshabhoina and Marcos M. Vasconcelos(参考訳) 多くの大規模分散マルチエージェントシステムは、低電力通信ネットワーク上で情報を交換する。 特に、エージェントはロボットネットワークアプリケーションにおける状態と制御信号を断続的に通信し、しばしば許可されていないスペクトル上で限られた電力で通信する。 本稿では,LoRaと呼ばれる広範に普及している低消費電力通信プロトコルが,ターゲット信号の帯域幅と拡散係数の特定に成功すれば,不正攻撃によるDoS攻撃に対して脆弱である,と論じる。 LoRa信号の瞬時周波数表現における構造パターンを活用することで、2つの未知パラメータを協調的に推定する問題をニューラルネットワークを用いて効率的に実装できる分類問題に関連付ける。

Many large-scale distributed multi-agent systems exchange information over low-power communication networks. In particular, agents intermittently communicate state and control signals in robotic network applications, often with limited power over an unlicensed spectrum, prone to eavesdropping and denial-of-service attacks. In this paper, we argue that a widely popular low-power communication protocol known as LoRa is vulnerable to denial-of-service attacks by an unauthenticated attacker if it can successfully identify a target signal's bandwidth and spreading factor. Leveraging a structural pattern in the LoRa signal's instantaneous frequency representation, we relate the problem of jointly inferring the two unknown parameters to a classification problem, which can be efficiently implemented using neural networks.
翻訳日:2023-09-11 16:15:56 公開日:2023-09-08
# 包括的推論を用いた教師なしマルチドキュメント要約

Unsupervised Multi-document Summarization with Holistic Inference ( http://arxiv.org/abs/2309.04087v1 )

ライセンス: Link先を確認
Haopeng Zhang, Sangwoo Cho, Kaiqiang Song, Xiaoyang Wang, Hongwei Wang, Jiawei Zhang and Dong Yu(参考訳) マルチドキュメント要約は、同じトピックに書かれた文書の集合からコア情報を取得することを目的としている。 本稿では,教師なしマルチドキュメント抽出要約のための新しい包括的フレームワークを提案する。 本手法は,集合代表索引 (sri) と呼ばれる包括的計測に関連付けられた包括的ビーム探索法を組み込んだものである。 SRIは、ソース文書から文のサブセットの重要性と多様性をバランスさせ、教師なしかつ適応的な方法で計算することができる。 提案手法の有効性を実証するために,教師なしおよび適応的両方の設定下で,小規模および大規模マルチドキュメント要約データセットについて広範な実験を行った。 提案手法は,ROUGEのスコアと多様性の指標によって示されるように,強いベースラインを顕著なマージンで上回る。 また,多文書要約性能の向上には多様性が不可欠であることが示唆された。

Multi-document summarization aims to obtain core information from a collection of documents written on the same topic. This paper proposes a new holistic framework for unsupervised multi-document extractive summarization. Our method incorporates the holistic beam search inference method associated with the holistic measurements, named Subset Representative Index (SRI). SRI balances the importance and diversity of a subset of sentences from the source documents and can be calculated in unsupervised and adaptive manners. To demonstrate the effectiveness of our method, we conduct extensive experiments on both small and large-scale multi-document summarization datasets under both unsupervised and adaptive settings. The proposed method outperforms strong baselines by a significant margin, as indicated by the resulting ROUGE scores and diversity measures. Our findings also suggest that diversity is essential for improving multi-document summary performance.
翻訳日:2023-09-11 16:15:42 公開日:2023-09-08
# 3モードガウス状態の非対称量子照明

Asymmetric Quantum Illumination with three-mode Gaussian State ( http://arxiv.org/abs/2309.04086v1 )

ライセンス: Link先を確認
Mi-Ra Hwang and DaeKil Park(参考訳) 非対称戦略を持つ量子照明は、1つの信号と2つのアイドラービームを含む3つのモードの最大絡み合ったガウス状態を用いて検討される。 このシナリオは、信号当たり平均光子数であるn_s$が0.46$未満の2モードのスクイーズ真空状態と比較して誤差の少ない確率をもたらすことが示されている。

Quantum illumination with asymmetric strategy is examined by making use of the three-mode maximally entangled Gaussian state, which involves one signal and two idler beams. It is shown that this scenario gives less-error probability compared to that with the two-mode squeezed vacuum state when $N_S$, average photon number per signal, is less than $0.46$.
翻訳日:2023-09-11 16:15:28 公開日:2023-09-08
# ユニバーサル・ポリシー・ネットワーク上でのマルチフィデリティ・トレーニングを用いたロボットエージェントのサンプル効率協調設計

Sample-Efficient Co-Design of Robotic Agents Using Multi-fidelity Training on Universal Policy Network ( http://arxiv.org/abs/2309.04085v1 )

ライセンス: Link先を確認
Kishan R. Nagiredla, Buddhika L. Semage, Thommen G. Karimpanal, Arun Kumar A. V and Santu Rana(参考訳) 共設計は、コントローラとエージェントの物理設計を同時に最適化する。 その本質的に双レベル最適化の定式化は、内部ループ制御最適化によって駆動される外ループ設計の最適化を必要とする。 設計空間が大きく、各設計評価が制御最適化のためのデータ集約型強化学習プロセスを含む場合、これは難しい。 サンプル効率を向上させるために,我々はハイパーバンドに基づく多元性に基づく設計探索戦略を提案する。 さらに,提案手法では,ハイパーバンドの確率性が最大に低下し,新設計評価の強化に伴い,ユニバーサルポリシー学習者の温かい開始効果が増大することを保証するために,ハイパーバンド生成設計行列をトラバースする方法を推奨する。 幅広いエージェント設計問題に対して行った実験は,本手法がベースラインよりも優れていることを示した。 さらに、最適化されたデザインの分析は、生体界に現れたデザインの単純化や直観的でない変更を含む興味深いデザイン変更を示している。

Co-design involves simultaneously optimizing the controller and agents physical design. Its inherent bi-level optimization formulation necessitates an outer loop design optimization driven by an inner loop control optimization. This can be challenging when the design space is large and each design evaluation involves data-intensive reinforcement learning process for control optimization. To improve the sample-efficiency we propose a multi-fidelity-based design exploration strategy based on Hyperband where we tie the controllers learnt across the design spaces through a universal policy learner for warm-starting the subsequent controller learning problems. Further, we recommend a particular way of traversing the Hyperband generated design matrix that ensures that the stochasticity of the Hyperband is reduced the most with the increasing warm starting effect of the universal policy learner as it is strengthened with each new design evaluation. Experiments performed on a wide range of agent design problems demonstrate the superiority of our method compared to the baselines. Additionally, analysis of the optimized designs shows interesting design alterations including design simplifications and non-intuitive alterations that have emerged in the biological world.
翻訳日:2023-09-11 16:15:22 公開日:2023-09-08
# 画像形成から学ぶSDRTV-to-HDRTV

Towards Efficient SDRTV-to-HDRTV by Learning from Image Formation ( http://arxiv.org/abs/2309.04084v1 )

ライセンス: Link先を確認
Xiangyu Chen, Zheyuan Li, Zhengwen Zhang, Jimmy S. Ren, Yihao Liu, Jingwen He, Yu Qiao, Jiantao Zhou, Chao Dong(参考訳) 現代のディスプレイは、ハイダイナミックレンジ(HDR)とワイドカラーガム(WCG)で映像コンテンツをレンダリングすることができる。 しかし、利用可能なリソースの大部分は、まだ標準動的範囲(SDR)にある。 その結果、既存のSDRコンテンツをHDRTV標準に変換することには大きな価値がある。 本稿では、SDRTV/HDRTVコンテンツの形成をモデル化し、SDRTV-to-HDRTVタスクを定義し、分析する。 分析と観察により, 極端から終末の教師付きトレーニングパイプラインは, 重度のガムム遷移エラーに悩まされていることが明らかとなった。 この問題に対処するために,適応的なグローバルカラーマッピング,局所的な拡張,ハイライト補正を含む,hdrtvnet++と呼ばれる新しい3段階のソリューションパイプラインを提案する。 適応的グローバルカラーマッピングステップは、画像適応カラーマッピングを実行するためのガイダンスとしてグローバル統計を使用する。 次にローカルエンハンスメントネットワークがデプロイされ、ローカル詳細が強化される。 最後に、上記の2つのサブネットワークをジェネレータとして組み合わせ、GANベースのジョイントトレーニングを通じてハイライト一貫性を実現する。 本手法は主に超高精細テレビコンテンツ向けに設計されており、4K解像度画像の処理に有効で軽量である。 また、HDRTV1Kという名前のHDR10標準で、1235と117のトレーニング画像と117のテスト画像を含むデータセットを、すべて4K解像度で構築する。 さらに,SDRTV-to-HDRTVアルゴリズムの結果を評価するために5つの指標を選択した。 最終結果は,定量的かつ視覚的に,最先端の性能を示すものである。 コード、モデル、データセットはhttps://github.com/xiaom233/HDRTVNet-plusで入手できる。

Modern displays are capable of rendering video content with high dynamic range (HDR) and wide color gamut (WCG). However, the majority of available resources are still in standard dynamic range (SDR). As a result, there is significant value in transforming existing SDR content into the HDRTV standard. In this paper, we define and analyze the SDRTV-to-HDRTV task by modeling the formation of SDRTV/HDRTV content. Our analysis and observations indicate that a naive end-to-end supervised training pipeline suffers from severe gamut transition errors. To address this issue, we propose a novel three-step solution pipeline called HDRTVNet++, which includes adaptive global color mapping, local enhancement, and highlight refinement. The adaptive global color mapping step uses global statistics as guidance to perform image-adaptive color mapping. A local enhancement network is then deployed to enhance local details. Finally, we combine the two sub-networks above as a generator and achieve highlight consistency through GAN-based joint training. Our method is primarily designed for ultra-high-definition TV content and is therefore effective and lightweight for processing 4K resolution images. We also construct a dataset using HDR videos in the HDR10 standard, named HDRTV1K that contains 1235 and 117 training images and 117 testing images, all in 4K resolution. Besides, we select five metrics to evaluate the results of SDRTV-to-HDRTV algorithms. Our final results demonstrate state-of-the-art performance both quantitatively and visually. The code, model and dataset are available at https://github.com/xiaom233/HDRTVNet-plus.
翻訳日:2023-09-11 16:15:05 公開日:2023-09-08
# 注意をカーブする:グラフ表現学習のための混合曲率変換器

Curve Your Attention: Mixed-Curvature Transformers for Graph Representation Learning ( http://arxiv.org/abs/2309.04082v1 )

ライセンス: Link先を確認
Sungjun Cho, Seunghyuk Cho, Sungwoo Park, Hankook Lee, Honglak Lee, Moontae Lee(参考訳) 実世界のグラフは自然に典型的なユークリッド空間に不適な階層構造や巡回構造を示す。 双曲的あるいは球面的な空間を利用して、そのような構造をより正確に埋め込む表現を学ぶグラフニューラルネットワークが存在するが、これらの手法はメッセージパッシングパラダイムに制限されており、過剰なスムーシングやオーバースワッシングのような副作用に対して脆弱である。 近年の研究では、長距離相互作用を容易にモデル化できるグローバルな注意に基づくグラフトランスが提案されているが、非ユークリッド幾何学への拡張はまだ検討されていない。 このギャップを埋めるため,変圧器を一定曲率空間の積上で完全に動作させるための一般化であるFully Product-Stereographic Transformerを提案する。 トークン化グラフ変換器と組み合わせることで,異なる曲率初期化を付加することなく,入力グラフに適した曲率をエンドツーエンドで学習することができる。 また,非ユークリッド的注意へのカーネル化アプローチも提供し,基礎となる幾何学を尊重しつつ,ノード数やエッジ数に線形な時間とメモリコストを削減した。 グラフ再構成とノード分類の実験は、トランスフォーマーを非ユークリッド領域に一般化する利点を示している。

Real-world graphs naturally exhibit hierarchical or cyclical structures that are unfit for the typical Euclidean space. While there exist graph neural networks that leverage hyperbolic or spherical spaces to learn representations that embed such structures more accurately, these methods are confined under the message-passing paradigm, making the models vulnerable against side-effects such as oversmoothing and oversquashing. More recent work have proposed global attention-based graph Transformers that can easily model long-range interactions, but their extensions towards non-Euclidean geometry are yet unexplored. To bridge this gap, we propose Fully Product-Stereographic Transformer, a generalization of Transformers towards operating entirely on the product of constant curvature spaces. When combined with tokenized graph Transformers, our model can learn the curvature appropriate for the input graph in an end-to-end fashion, without the need of additional tuning on different curvature initializations. We also provide a kernelized approach to non-Euclidean attention, which enables our model to run in time and memory cost linear to the number of nodes and edges while respecting the underlying geometry. Experiments on graph reconstruction and node classification demonstrate the benefits of generalizing Transformers to the non-Euclidean domain.
翻訳日:2023-09-11 16:14:40 公開日:2023-09-08
# UER:オンライン連続学習のためのヒューリスティックバイアス対応アプローチ

UER: A Heuristic Bias Addressing Approach for Online Continual Learning ( http://arxiv.org/abs/2309.04081v1 )

ライセンス: Link先を確認
Huiwei Lin, Shanshan Feng, Baoquan Zhang, Hongliang Qiao, Xutao Li, and Yunming Ye(参考訳) オンライン連続学習は、単一のパススルーデータで連続データストリームからニューラルネットワークを継続的にトレーニングすることを目的としている。 最も効果的なアプローチとして、リハーサルベースのメソッドは、以前のデータの一部を再生する。 既存の手法で一般的に使用される予測器は、バイアス問題や忘れる現象として知られる現在のデータのクラスを好むバイアス付きドット製品ロジットを生成する傾向がある。 バイアスを補正することで、忘れる問題を克服する多くのアプローチが提案されているが、それでもオンライン方式で改善する必要がある。 本稿では,より単純で効率的な手法でバイアス問題に対処する。 点生成ロジットをアングル因子とノルム因子に分解することにより、バイアス問題は主としてコサインロジットとして新しい知識を学ぶために使用できるアングル因子に生じることを経験的に発見する。 逆に、既存の方法によって放棄された標準因子は、歴史的知識を思い出すのに役立つ。 この観察に基づいて,バイアスに対処するための新しい知識と古い知識のバランスをとるために,規範因子を活用することを直感的に提案する。 そこで我々はUnbias Experience Replay (UER)と呼ばれるヒューリスティックなアプローチを開発した。 UERは現在のサンプルを角度因子のみで学習し、標準と角度因子の両方で以前のサンプルを再生する。 3つのデータセットに対する大規模な実験により、UERは様々な最先端の手法よりも優れた性能を発揮することが示された。 コードはhttps://github.com/FelixHuiweiLin/UERにある。

Online continual learning aims to continuously train neural networks from a continuous data stream with a single pass-through data. As the most effective approach, the rehearsal-based methods replay part of previous data. Commonly used predictors in existing methods tend to generate biased dot-product logits that prefer to the classes of current data, which is known as a bias issue and a phenomenon of forgetting. Many approaches have been proposed to overcome the forgetting problem by correcting the bias; however, they still need to be improved in online fashion. In this paper, we try to address the bias issue by a more straightforward and more efficient method. By decomposing the dot-product logits into an angle factor and a norm factor, we empirically find that the bias problem mainly occurs in the angle factor, which can be used to learn novel knowledge as cosine logits. On the contrary, the norm factor abandoned by existing methods helps remember historical knowledge. Based on this observation, we intuitively propose to leverage the norm factor to balance the new and old knowledge for addressing the bias. To this end, we develop a heuristic approach called unbias experience replay (UER). UER learns current samples only by the angle factor and further replays previous samples by both the norm and angle factors. Extensive experiments on three datasets show that UER achieves superior performance over various state-of-the-art methods. The code is in https://github.com/FelixHuiweiLin/UER.
翻訳日:2023-09-11 16:14:18 公開日:2023-09-08
# 車両動力学による運転生理学評価の実現

Enabling the Evaluation of Driver Physiology Via Vehicle Dynamics ( http://arxiv.org/abs/2309.04078v1 )

ライセンス: Link先を確認
Rodrigo Ordonez-Hurtado, Bo Wen, Nicholas Barra, Ryan Vimba, Sergio Cabrero-Barros, Sergiy Zhuk, Jeffrey L. Rogers(参考訳) 運転は世界中の多くの人々にとって毎日の日常である。 本稿では,運転者の生理学を評価できる連結生態系に車両を変換するための構成と手法を提案する。 我々は、自動車とデジタルヘルスセクターの一連の商用センサーと、車自体からのドライバー入力を統合した。 このセンサの融合は、外部条件の綿密な記録と運転操作を可能にする。 これらのデータストリームは、キーパラメータを抽出し、運転者の外部環境に関する洞察を与え、重要な生理的反応を照らすために処理される。 この革新的な運転評価システムは、道路安全を増幅する可能性を秘めている。 さらに、従来の健康設定のデータと組み合わせることで、健康関連合併症の早期発見が促進される可能性がある。

Driving is a daily routine for many individuals across the globe. This paper presents the configuration and methodologies used to transform a vehicle into a connected ecosystem capable of assessing driver physiology. We integrated an array of commercial sensors from the automotive and digital health sectors along with driver inputs from the vehicle itself. This amalgamation of sensors allows for meticulous recording of the external conditions and driving maneuvers. These data streams are processed to extract key parameters, providing insights into driver behavior in relation to their external environment and illuminating vital physiological responses. This innovative driver evaluation system holds the potential to amplify road safety. Moreover, when paired with data from conventional health settings, it may enhance early detection of health-related complications.
翻訳日:2023-09-11 16:13:54 公開日:2023-09-08
# SayNav: 新しい環境での動的計画とナビゲーションのための大規模言語モデル

SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments ( http://arxiv.org/abs/2309.04077v1 )

ライセンス: Link先を確認
Abhinav Rajvanshi, Karan Sikka, Xiao Lin, Bhoram Lee, Han-Pang Chiu and Alvaro Velasquez(参考訳) 自律エージェントが未知の環境で複雑なナビゲーションタスクを実行するためには、セマンティック推論と動的計画能力が不可欠である。 これらのタスクを成功させるためには、人間が持っている多くの常識知識が必要である。 我々は,Large Language Models (LLMs) からの人間の知識を活用し,未知の大規模環境における複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。 SayNavは、探索環境の3DシーングラフをLSMへの入力としてインクリメンタルに構築する新しい基盤機構を使用して、ナビゲーションのための実用的でコンテキスト的に適切な高レベルプランを生成する。 LLMの生成したプランは、事前訓練された低レベルプランナーによって実行され、各ステップを短距離のポイントゴールナビゲーションサブタスクとして扱う。 SayNavはナビゲーション中に動的にステップバイステップの指示を生成し、新たに認識された情報に基づいて将来のステップを継続的に洗練する。 エージェントが未知の環境で複数の異なるオブジェクトを効率的に探索するために膨大な量の人間知識を利用する必要がある、新しいマルチオブジェクトナビゲーションタスクでsaynavを評価する。 saynavはoracleベースのpoint-navベースラインを上回り、このタスクの理想的な設定の下で95.35%(ベースラインで56.06%)の成功率を達成し、大規模な新しい環境でオブジェクトをうまく配置するための動的プランを生成する能力を強調している。

Semantic reasoning and dynamic planning capabilities are crucial for an autonomous agent to perform complex navigation tasks in unknown environments. It requires a large amount of common-sense knowledge, that humans possess, to succeed in these tasks. We present SayNav, a new approach that leverages human knowledge from Large Language Models (LLMs) for efficient generalization to complex navigation tasks in unknown large-scale environments. SayNav uses a novel grounding mechanism, that incrementally builds a 3D scene graph of the explored environment as inputs to LLMs, for generating feasible and contextually appropriate high-level plans for navigation. The LLM-generated plan is then executed by a pre-trained low-level planner, that treats each planned step as a short-distance point-goal navigation sub-task. SayNav dynamically generates step-by-step instructions during navigation and continuously refines future steps based on newly perceived information. We evaluate SayNav on a new multi-object navigation task, that requires the agent to utilize a massive amount of human knowledge to efficiently search multiple different objects in an unknown environment. SayNav outperforms an oracle based Point-nav baseline, achieving a success rate of 95.35% (vs 56.06% for the baseline), under the ideal settings on this task, highlighting its ability to generate dynamic plans for successfully locating objects in large-scale new environments.
翻訳日:2023-09-11 16:13:45 公開日:2023-09-08
# フローティングベースロボットの固有受容器外トルク学習とそのヒューマノイドロコモーションへの応用

Proprioceptive External Torque Learning for Floating Base Robot and its Applications to Humanoid Locomotion ( http://arxiv.org/abs/2309.04138v1 )

ライセンス: Link先を確認
Daegyu Lim, Myeong-Ju Kim, Junhyeok Cha, Donghyeon Kim, Jaeheung Park(参考訳) 外関節トルクと接触レンチの推定は、ヒューマノイドと安全指向ロボットの安定した移動を実現するために不可欠である。 ヒューマノイドの足の接触レンチは力トルクセンサー(FTS)を用いて測定できるが、FTSはシステムのコスト、慣性、複雑さ、故障の可能性を高める。 本稿では, プロピオセプティブセンサ(エンコーダ, imus)のみを用いて, 浮動ベースロボットの外部関節トルクを学習する方法を提案する。 学習にはGRUネットワークを使用し、ランダムウォーキングデータを収集する。 実際のロボット実験では, 摩擦モデルを用いたモーメントオブザーバ (MOB) と比較して, 外部トルクと接触レンチを誤差で推定できることが実証された。 この研究は、推定された接触レンチがゼロモーメントポイント(ZMP)フィードバック制御に利用できることを検証する。 また、ロボットの足と上半身の慣性が変化しても、トレーニングされたネットワークはモデルに基づくキャリブレーションと一貫した性能を示す。 この結果,ロボット上でのFTS除去の可能性を示し,ハードウェアセンサの欠点を低減した。 要約ビデオはhttps://youtu.be/gT1D4tOiKpo.comで公開されている。

The estimation of external joint torque and contact wrench is essential for achieving stable locomotion of humanoids and safety-oriented robots. Although the contact wrench on the foot of humanoids can be measured using a force-torque sensor (FTS), FTS increases the cost, inertia, complexity, and failure possibility of the system. This paper introduces a method for learning external joint torque solely using proprioceptive sensors (encoders and IMUs) for a floating base robot. For learning, the GRU network is used and random walking data is collected. Real robot experiments demonstrate that the network can estimate the external torque and contact wrench with significantly smaller errors compared to the model-based method, momentum observer (MOB) with friction modeling. The study also validates that the estimated contact wrench can be utilized for zero moment point (ZMP) feedback control, enabling stable walking. Moreover, even when the robot's feet and the inertia of the upper body are changed, the trained network shows consistent performance with a model-based calibration. This result demonstrates the possibility of removing FTS on the robot, which reduces the disadvantages of hardware sensors. The summary video is available at https://youtu.be/gT1D4tOiKpo.
翻訳日:2023-09-11 16:06:50 公開日:2023-09-08
# 超微細分光と高速全光学的任意の状態初期化と10レベル${}^{73}$Ge空孔核スピンquditの読み出し

Hyperfine spectroscopy and fast, all-optical arbitrary state initialization and readout of a single, ten-level ${}^{73}$Ge vacancy nuclear spin qudit ( http://arxiv.org/abs/2309.04126v1 )

ライセンス: Link先を確認
C. Adambukulam, B. C. Johnson, A. Morello and A. Laucht(参考訳) 色中心に結合された高スピン核は、スピン光子界面において長寿命のメモリクイトとして機能する。 ダイヤモンド中のゲルマニウム空隙 (gev) は、スペクトル特性が優れており、i = 9/2$$${}^{73}$ge核の10次元ヒルベルト空間へのアクセスを提供するため、近年注目を集めている。 ここで、${}^{73}$gev超微細構造を観察し、核スピンの読み出しを行い、${}^{73}$geスピンを$\mu$s-timescaleで任意の固有状態に光学的に初期化し、最大979 \pm 3\%$とする。 この結果は、高効率スピン光子インタフェースと基礎量子物理学およびメトロジーのための光学的に対応可能な高スピン量子プラットフォームとして${}^{73}$GeVを確立した。

A high-spin nucleus coupled to a color center can act as a long-lived memory qudit in a spin-photon interface. The germanium vacancy (GeV) in diamond has attracted recent attention due to its excellent spectral properties and provides access to the 10-dimensional Hilbert space of the $I = 9/2$ ${}^{73}$Ge nucleus. Here, we observe the ${}^{73}$GeV hyperfine structure, perform nuclear spin readout, and optically initialize the ${}^{73}$Ge spin into any eigenstate on a $\mu$s-timescale and with a fidelity of up to $97 \pm 3\%$. Our results establish ${}^{73}$GeV as an optically addressable high-spin quantum platform for a high-efficiency spin-photon interface as well as for foundational quantum physics and metrology.
翻訳日:2023-09-11 16:06:08 公開日:2023-09-08
# 高速スタイン補正による量子アニーラを用いたボルツマンサンプリング

Boltzmann sampling with quantum annealers via fast Stein correction ( http://arxiv.org/abs/2309.04120v1 )

ライセンス: Link先を確認
Ryosuke Shibukawa and Ryo Tamura and Koji Tsuda(参考訳) ボルツマンサンプリングに量子アニールを適用する試みにもかかわらず、任意の温度で正確なサンプリングを行うことはできない。 重要サンプリングや再サンプリングのような従来の分布補正法は、量子アニールのサンプリング分布の解析的表現が未知であるため適用できない。 スタイン補正 (Liu and Lee, 2017) はサンプリング分布の知識を使わずにサンプルを重み付けすることで修正できるが、素質的な実装には大規模な二次プログラムの解が必要である。 本稿では、ランダムな特徴マップと指数化勾配更新に基づく高速で近似的な手法を開発し、サンプル重量を計算し、D-Wave量子アニールによって生成されたサンプルを補正する。 ベンチマーク問題では,熱平均計算の残差誤差が大幅に減少することが観測された。 本手法と組み合わせると,量子アニーラは,マルコフ連鎖モンテカルロ法に代わる有効な選択肢として出現する可能性がある。

Despite the attempts to apply a quantum annealer to Boltzmann sampling, it is still impossible to perform accurate sampling at arbitrary temperatures. Conventional distribution correction methods such as importance sampling and resampling cannot be applied, because the analytical expression of sampling distribution is unknown for a quantum annealer. Stein correction (Liu and Lee, 2017) can correct the samples by weighting without the knowledge of the sampling distribution, but the naive implementation requires the solution of a large-scale quadratic program, hampering usage in practical problems. In this letter, a fast and approximate method based on random feature map and exponentiated gradient updates is developed to compute the sample weights, and used to correct the samples generated by D-Wave quantum annealers. In benchmarking problems, it is observed that the residual error of thermal average calculations is reduced significantly. If combined with our method, quantum annealers may emerge as a viable alternative to long-established Markov chain Monte Carlo methods.
翻訳日:2023-09-11 16:05:51 公開日:2023-09-08
# 2次元cftにおける励起状態の擬似 r\'enyi 絡み合いエントロピーとその時間発展

Pseudo R\'enyi Entanglement Entropies For an Excited State and Its Time Evolution in a 2D CFT ( http://arxiv.org/abs/2309.04112v1 )

ライセンス: Link先を確認
Farzad Omidi(参考訳) 本稿では、局所励起状態 $| \psi \rangle $ に対する第2および第3の擬R\enyi 絡み合いエントロピー(PREE)とその時間進化 $| \phi \rangle = e^{-i H t} | \psi \rangle$ を、フィールド内容が自由質量スカラー場である2次元共形場理論において検討する。 真空状態に対して, 一次演算子を t=0$ で適用することにより構成する励起状態を考える。 本研究では,0温度における有限および半無限間隔形状の絡み合う領域に対するPreEの時間発展について検討する。 PREE は常に $t \neq 0$ の複素数であり、純粋な実数は $t=0$ である。 さらに、エンタングリング領域の中心の位置の$x_m$への依存について論じる。

In this paper, we investigate the second and third pseudo R\'enyi entanglement entropies (PREE) for a locally excited state $| \psi \rangle $ and its time evolution $| \phi \rangle = e^{- i H t} | \psi \rangle$ in a two-dimensional conformal field theory whose field content is a free massless scalar field. We consider excited states which are constructed by applying primary operators at time $t=0$, on the vacuum state. We study the time evolution of the PREE for an entangling region in the shape of finite and semi-infinite intervals at zero temperature. It is observed that the PREE is always a complex number for $t \neq 0$ and is a pure real number at $t=0$. Moreover, we discuss on its dependence on the location $x_m$ of the center of the entangling region.
翻訳日:2023-09-11 16:05:33 公開日:2023-09-08
# テキストからマスクへ:テキストから画像への拡散モデルによるエンティティの局在

From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2309.04109v1 )

ライセンス: Link先を確認
Changming Xiao, Qi Yang, Feng Zhou, Changshui Zhang(参考訳) 拡散モデルは最近、テキストと画像の世代に反抗している。 テキストと画像情報を融合するユニークな方法は、高いテキスト関連画像を生成するという際立った能力に寄与する。 別の観点からは、これらの生成モデルは単語と画素の正確な相関について手がかりとなる。 本研究では,テキストから画像への拡散モデルにおける注意機構を利用するための,単純かつ効果的な手法を提案する。 再トレーニングや推論時間の最適化がなければ、フレーズのセマンティックグラウンドは直接達成できる。 提案手法はPascal VOC 2012とMicrosoft COCO 2014において,弱い教師付きセマンティックセグメンテーション設定の下で評価し,従来の手法よりも優れた性能を実現する。 さらに,検索した単語-画素相関は,カスタマイズした生成手法を組み込んだ学習テキストに対して一般化可能であることが判明した。 発見を検証するために,新しいデータセットを用いて「個人化参照画像分割」と呼ばれる新しい実用的なタスクを導入する。 様々な状況における実験により,本手法の利点が示された。 要約して,本研究は,セグメンテーションのための拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。

Diffusion models have revolted the field of text-to-image generation recently. The unique way of fusing text and image information contributes to their remarkable capability of generating highly text-related images. From another perspective, these generative models imply clues about the precise correlation between words and pixels. In this work, a simple but effective method is proposed to utilize the attention mechanism in the denoising network of text-to-image diffusion models. Without re-training nor inference-time optimization, the semantic grounding of phrases can be attained directly. We evaluate our method on Pascal VOC 2012 and Microsoft COCO 2014 under weakly-supervised semantic segmentation setting and our method achieves superior performance to prior methods. In addition, the acquired word-pixel correlation is found to be generalizable for the learned text embedding of customized generation methods, requiring only a few modifications. To validate our discovery, we introduce a new practical task called "personalized referring image segmentation" with a new dataset. Experiments in various situations demonstrate the advantages of our method compared to strong baselines on this task. In summary, our work reveals a novel way to extract the rich multi-modal knowledge hidden in diffusion models for segmentation.
翻訳日:2023-09-11 16:05:10 公開日:2023-09-08
# 自然言語のメタ予測学習モデル

Meta predictive learning model of natural languages ( http://arxiv.org/abs/2309.04106v1 )

ライセンス: Link先を確認
Chan Li and Junbin Qiu and Haiping Huang(参考訳) 自己認識機構に基づく大規模言語モデルは、自然言語自体だけでなく、様々な性質のタスクにおいて驚くべきパフォーマンスを達成した。 しかし、言語処理に関しては、人間の脳は同じ原理で動作しないかもしれない。 次に, 大規模言語モデルにおける脳計算と人工的自己スーパービジョンの関係について議論する。 脳計算における最も影響力のある仮説の1つは、局所学習による予測誤差を最小化する予測符号化フレームワークである。 しかし、言語処理における予測符号化と関連するクレジット割り当ての役割は未だ不明である。 本稿では,各接続のシナプス重みがスパイク・スラブ分布に従うことを仮定し,分布のみを訓練した予測符号化フレームワークにおける平均場学習モデルを提案する。 このメタ予測学習は、連続してネットワークに画素が入力される手書き桁の分類と、おもちゃと実言語コーパスの分類に成功している。 我々のモデルでは、ほとんどの接続は学習後に決定論的になるが、出力接続はより高いばらつきを持つ。 結果として得られるネットワークアンサンブルのパフォーマンスは、データ負荷とともに継続的に変化し、大規模言語モデルの創発的振る舞いと類似して、より多くのトレーニングデータにより改善される。 したがって,本モデルは,言語処理と予期しない汎用知能の物理・生物学対応を研究するための出発点となる。

Large language models based on self-attention mechanisms have achieved astonishing performances not only in natural language itself, but also in a variety of tasks of different nature. However, regarding processing language, our human brain may not operate using the same principle. Then, a debate is established on the connection between brain computation and artificial self-supervision adopted in large language models. One of most influential hypothesis in brain computation is the predictive coding framework, which proposes to minimize the prediction error by local learning. However, the role of predictive coding and the associated credit assignment in language processing remains unknown. Here, we propose a mean-field learning model within the predictive coding framework, assuming that the synaptic weight of each connection follows a spike and slab distribution, and only the distribution is trained. This meta predictive learning is successfully validated on classifying handwritten digits where pixels are input to the network in sequence, and on the toy and real language corpus. Our model reveals that most of the connections become deterministic after learning, while the output connections have a higher level of variability. The performance of the resulting network ensemble changes continuously with data load, further improving with more training data, in analogy with the emergent behavior of large language models. Therefore, our model provides a starting point to investigate the physics and biology correspondences of the language processing and the unexpected general intelligence.
翻訳日:2023-09-11 16:04:49 公開日:2023-09-08
# 3次元物体検出のための弱監視点雲変換器

Weakly Supervised Point Clouds Transformer for 3D Object Detection ( http://arxiv.org/abs/2309.04105v1 )

ライセンス: Link先を確認
Zuojin Tang, Bo Sun, Tongwei Ma, Daosheng Li, Zhenhui Xu(参考訳) 3dデータセットのアノテーションは、シーン理解のセマンティックセグメンテーションとオブジェクト検出に必要である。 本稿では,3次元物体検出に使用される点雲変圧器の弱監督のための枠組みを提案する。 目的は、3Dデータセットのアノテートに高いコストがかかるため、トレーニングに必要な監督の必要な量を削減することである。 ランダムに予め設定されたアンカーポイントを学習し、投票ネットワークを用いて高品質なアンカーポイントを選択するアンサー投票提案モジュールを提案する。 そして、学生と教師のネットワークに情報を抽出する。 学生ネットワークに関しては,ResNetネットワークを用いて局所特性を効率的に抽出する。 しかし、グローバルな情報を失うこともある。 学生ネットワークの入力として、グローバルおよびローカル情報を組み込んだ入力を提供するため、グローバル特徴を抽出するトランスフォーマのセルフアテンション機構と、地域提案を抽出するためのresnetレイヤを採用する。 教師ネットワークは、ImageNetの事前学習モデルを用いて、学生ネットワークの分類と回帰を監督する。 挑戦的なKITTIデータセットでは、最新の弱教師付き3Dオブジェクト検出器と比較して実験結果の平均精度が最も高い。

The annotation of 3D datasets is required for semantic-segmentation and object detection in scene understanding. In this paper we present a framework for the weakly supervision of a point clouds transformer that is used for 3D object detection. The aim is to decrease the required amount of supervision needed for training, as a result of the high cost of annotating a 3D datasets. We propose an Unsupervised Voting Proposal Module, which learns randomly preset anchor points and uses voting network to select prepared anchor points of high quality. Then it distills information into student and teacher network. In terms of student network, we apply ResNet network to efficiently extract local characteristics. However, it also can lose much global information. To provide the input which incorporates the global and local information as the input of student networks, we adopt the self-attention mechanism of transformer to extract global features, and the ResNet layers to extract region proposals. The teacher network supervises the classification and regression of the student network using the pre-trained model on ImageNet. On the challenging KITTI datasets, the experimental results have achieved the highest level of average precision compared with the most recent weakly supervised 3D object detectors.
翻訳日:2023-09-11 16:04:28 公開日:2023-09-08
# 重水素代謝イメージング(DMI)の感度向上のための深層学習法

A Deep Learning Method for Sensitivity Enhancement of Deuterium Metabolic Imaging (DMI) ( http://arxiv.org/abs/2309.04100v1 )

ライセンス: Link先を確認
Siyuan Dong, Henk M. De Feyter, Monique A. Thomas, Robin A. de Graaf, James S. Duncan(参考訳) 目的:ほとんどのMRSI技術では,Deuterium Metabolic Imaging (DMI)の空間分解能と最小スキャン期間は,達成可能なSNRによって制限される。 本研究は,DMIの感度向上のための深層学習手法を提案する。 方法: 畳み込みニューラルネットワーク(CNN)は低SNRおよび歪んだDMI FIDから2H標識代謝物濃度を推定するために設計された。 CNNは、通常生体内で発生する様々なSNRレベルを表す合成データで訓練された。 推定精度は、MRIに基づく各DMIデータセットのエッジ保存正規化によるCNNの微調整によりさらに向上した。 提案手法である感度向上dmi(precise-dmi)のためのエッジ畳み込みニューラルネットワークをシミュレーションおよびin vivo実験に応用し,snrの改善予測を評価し,不正確性の可能性について検討した。 結果: PreCISE-DMI は低 SNR データセットの代謝マップを視覚的に改善し,標準的なフーリエ再構成よりも高い精度を定量的に提供した。 ラット脳腫瘍モデルで得られたdmiデータの処理により、2h標識乳酸およびグルタミン酸+グルタミン濃度の空間分解能(約8〜2ドル)またはスキャン時間の短縮(約32〜4分)が標準取得よりも正確に決定された。 しかし、厳密なSDバイアス分析により、エッジ保存正則化の過剰使用が結果の精度を損なうことが示された。 結論: PreCISE-DMIはDMIの感度を高め、不正確性を最小化することの間の柔軟なトレードオフを可能にする。 典型的な設定では、DMI感度は局所的な信号の変動を検出する能力を保ちながら、3倍改善することができる。

Purpose: Common to most MRSI techniques, the spatial resolution and the minimal scan duration of Deuterium Metabolic Imaging (DMI) are limited by the achievable SNR. This work presents a deep learning method for sensitivity enhancement of DMI. Methods: A convolutional neural network (CNN) was designed to estimate the 2H-labeled metabolite concentrations from low SNR and distorted DMI FIDs. The CNN was trained with synthetic data that represent a range of SNR levels typically encountered in vivo. The estimation precision was further improved by fine-tuning the CNN with MRI-based edge-preserving regularization for each DMI dataset. The proposed processing method, PReserved Edge ConvolutIonal neural network for Sensitivity Enhanced DMI (PRECISE-DMI), was applied to simulation studies and in vivo experiments to evaluate the anticipated improvements in SNR and investigate the potential for inaccuracies. Results: PRECISE-DMI visually improved the metabolic maps of low SNR datasets, and quantitatively provided higher precision than the standard Fourier reconstruction. Processing of DMI data acquired in rat brain tumor models resulted in more precise determination of 2H-labeled lactate and glutamate + glutamine levels, at increased spatial resolution (from >8 to 2 $\mu$L) or shortened scan time (from 32 to 4 min) compared to standard acquisitions. However, rigorous SD-bias analyses showed that overuse of the edge-preserving regularization can compromise the accuracy of the results. Conclusion: PRECISE-DMI allows a flexible trade-off between enhancing the sensitivity of DMI and minimizing the inaccuracies. With typical settings, the DMI sensitivity can be improved by 3-fold while retaining the capability to detect local signal variations.
翻訳日:2023-09-11 16:04:11 公開日:2023-09-08
# 量子力学における単位時間進化は線形時間進化よりも強い物理仮定である

Unitary time evolution in quantum mechanics is a stronger physical postulate than linear time evolution ( http://arxiv.org/abs/2309.04095v1 )

ライセンス: Link先を確認
Edward Parker(参考訳) 量子力学の議論は、状態ベクトルの振幅が常に意味を持つ確率論的解釈のために、時間発展は論理的にユニタリでなければならないと主張することが多い。 この主張が真かどうかを第一原理から議論する:もし時間発展作用素が *linear* であると仮定すれば、*ユニタリであるというより強い要件は、量子力学の他の公理から従うだろうか? その答えは微妙だ。 量子力学の公理の2つの数学的に異なるが物理的に等価な定式化を議論し、時間発展が線型であることのみを仮定する一般化を考える。 ある定式化において、時間発展のユニタリティは他の公理から論理的に従うが、他の定式化ではそうではない。 時間発展作用素を(前もって)任意に線型にすることは、量子力学の一定式化における物理的可観測性を変化させないが、他の定式化を *distinct*(相互に一貫性のある)物理理論に変更し、(例えば)光速通信のような新しい表現論を可能にする。 したがって、時間進化のユニタリティは、他の公理のタウトロジー的な結果ではなく、論理的に独立で実験的に計算可能な量子力学の公理として考えるのがよい。

Discussions of quantum mechanics often loosely claim that time evolution logically must be unitary, in order for the probabilistic interpretation of the amplitudes of the state vector to make sense at all times. We discuss from first principles whether this claim is true: if we assume only that the time-evolution operator is *linear*, then does the stronger requirement that it be *unitary* follow from the other axioms of quantum mechanics? The answer is subtle. We discuss two mathematically distinct but physically equivalent formulations of the axioms of quantum mechanics, and consider generalizing each to postulate only that time evolution is linear. Within one formulation, the unitarity of time evolution follows logically from the other axioms -- but within the other formulation, it does not. Allowing the time-evolution operator be (a priori) arbitrarily linear does not change the physical observables in one formulation of quantum mechanics, but changes the other formulation to a *distinct* (internally consistent) physical theory that allows new phenomonology like (e.g.) faster-than-light communication. Therefore, the unitarity of time evolution is arguably better thought of as a logically independent and experimentally falsifiable axiom of quantum mechanics, not as a tautological consequence of the other axioms.
翻訳日:2023-09-11 16:03:10 公開日:2023-09-08
# 10pTHz$^{-1/2}$のdc感度を持つダイヤモンド量子磁気センサによる生体磁場計測

Diamond quantum magnetometer with dc sensitivity of < 10 pT Hz$^{-1/2}$ toward measurement of biomagnetic field ( http://arxiv.org/abs/2309.04093v1 )

ライセンス: Link先を確認
N. Sekiguchi, M. Fushimi, A. Yoshimura, C. Shinei, M. Miyakawa, T. Taniguchi, T. Teraji, H. Abe, S. Onoda, T. Ohshima, M. Hatano, M. Sekino, T. Iwasaki(参考訳) 磁場感度9.4 \pm 0.1~\mathrm{pT/\sqrt{Hz}}$の高感度ダイヤモンド量子センサを5〜100〜Hzの周波数範囲で提案する。 このセンサは、ダイヤモンド(111)単結晶の[111]方向に沿った窒素空洞中心のアンサンブルの連続波光学的に検出された磁気共鳴に基づいている。 我々のダイヤモンドの長い$T_{2}^{\ast} \sim 2~\mathrm{\mu s}$とレーザー誘起蛍光による強度ノイズの低減は、ダイヤモンド量子センサーの間で顕著な感度をもたらす。 アラン偏差解析に基づき、数万秒間磁場を問合せすることで、0.3~ptのサブピコテスラ磁場が検出可能であることを実証する。 センサヘッドは様々な実用用途と互換性があり、センサ領域から約1〜mmの最小測定距離が可能である。 提案センサは,ダイヤモンド量子センサの実用化を促進する。

We present a sensitive diamond quantum sensor with a magnetic field sensitivity of $9.4 \pm 0.1~\mathrm{pT/\sqrt{Hz}}$ in a near-dc frequency range of 5 to 100~Hz. This sensor is based on the continuous-wave optically detected magnetic resonance of an ensemble of nitrogen-vacancy centers along the [111] direction in a diamond (111) single crystal. The long $T_{2}^{\ast} \sim 2~\mathrm{\mu s}$ in our diamond and the reduced intensity noise in laser-induced fluorescence result in remarkable sensitivity among diamond quantum sensors. Based on an Allan deviation analysis, we demonstrate that a sub-picotesla field of 0.3~pT is detectable by interrogating the magnetic field for a few thousand seconds. The sensor head is compatible with various practical applications and allows a minimum measurement distance of about 1~mm from the sensing region. The proposed sensor facilitates the practical application of diamond quantum sensors.
翻訳日:2023-09-11 16:02:42 公開日:2023-09-08
# 音声生成のためのクロス発話条件付きvae

Cross-Utterance Conditioned VAE for Speech Generation ( http://arxiv.org/abs/2309.04156v1 )

ライセンス: Link先を確認
Yang Li, Cheng Yu, Guangzhi Sun, Weiqin Zu, Zheng Tian, Ying Wen, Wei Pan, Chao Zhang, Jun Wang, Yang Yang, Fanglei Sun(参考訳) ニューラルネットワークを利用した音声合成システムはマルチメディア生産を約束するが、表現力のある音声とシームレスな編集でしばしば問題に直面している。 そこで本研究では,音声合成のためのクロス発話条件付き変分オートエンコーダ(cuc-vae s2)フレームワークを提案する。 このフレームワークは、事前学習された言語モデルの強力な表現能力と変分オートエンコーダ(vaes)の再表現能力を活用する。 CUC-VAE S2フレームワークのコアコンポーネントであるCVAEは、周囲の文から音響、話者、テキストの特徴を抽出し、文脈に敏感な韻律的特徴を生成し、人間の韻律生成をより正確にエミュレートする。 さらに,テキスト合成用CUC-VAE TTSと音声編集用CUC-VAE SEの2つの実用的なアルゴリズムを提案する。 CUC-VAE TTSは、周囲のテキストから派生した文脈的韻律による音声を生成するために設計されたフレームワークの直接的な応用である。 一方、CUC-VAE SEアルゴリズムは、文脈情報に基づく実メルスペクトログラムサンプリングを利用して、実音を忠実に反映した音声を生成し、削除、挿入、置換などのテキストに基づく柔軟な音声編集を容易にする。 LibriTTSデータセットを用いた実験結果から,提案モデルにより音声合成と編集が大幅に向上し,より自然で表現力の高い音声が得られた。

Speech synthesis systems powered by neural networks hold promise for multimedia production, but frequently face issues with producing expressive speech and seamless editing. In response, we present the Cross-Utterance Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) framework to enhance prosody and ensure natural speech generation. This framework leverages the powerful representational capabilities of pre-trained language models and the re-expression abilities of variational autoencoders (VAEs). The core component of the CUC-VAE S2 framework is the cross-utterance CVAE, which extracts acoustic, speaker, and textual features from surrounding sentences to generate context-sensitive prosodic features, more accurately emulating human prosody generation. We further propose two practical algorithms tailored for distinct speech synthesis applications: CUC-VAE TTS for text-to-speech and CUC-VAE SE for speech editing. The CUC-VAE TTS is a direct application of the framework, designed to generate audio with contextual prosody derived from surrounding texts. On the other hand, the CUC-VAE SE algorithm leverages real mel spectrogram sampling conditioned on contextual information, producing audio that closely mirrors real sound and thereby facilitating flexible speech editing based on text such as deletion, insertion, and replacement. Experimental results on the LibriTTS datasets demonstrate that our proposed models significantly enhance speech synthesis and editing, producing more natural and expressive speech.
翻訳日:2023-09-11 15:56:53 公開日:2023-09-08
# 脳波信号を視覚刺激にマッピングする:マッチング対ミスマッチ分類のためのディープラーニングアプローチ

Mapping EEG Signals to Visual Stimuli: A Deep Learning Approach to Match vs. Mismatch Classification ( http://arxiv.org/abs/2309.04153v1 )

ライセンス: Link先を確認
Yiqian Yang, Zhengqiao Zhao, Qian Wang, Yan Yang, Jingdong Chen(参考訳) 視覚刺激と脳の反応のモデリングに関する既存のアプローチは、サブジェクト分散とモデル一般化の間の処理の困難に直面している。 本稿では,映像クリップが脳波信号の興奮応答を誘導するかどうかを分類し,視覚内容とそれに対応する神経記録との関係を学習するための,'match-vs-mismatch'のディープラーニングモデルを提案する。 実験データセットを用いて,提案モデルは他のベースラインモデルと比較して,未発見の被験者に対して高い精度を達成可能であることを実証する。 さらに,埋め込み空間におけるサブジェクトレベルのシルエットスコアを用いて,サブジェクト間ノイズを解析し,本モデルがサブジェクト間ノイズを緩和し,シルエットスコアを著しく低減できることを示す。 さらに,Grad-CAMアクティベーションスコアについて検討し,言語処理に関連する脳領域がモデル予測に大きく寄与し,視覚処理に関連する領域が続くことを示した。 これらの結果は、ニューラル記録に基づくビデオ再構成とその関連アプリケーションの開発を促進する可能性がある。

Existing approaches to modeling associations between visual stimuli and brain responses are facing difficulties in handling between-subject variance and model generalization. Inspired by the recent progress in modeling speech-brain response, we propose in this work a ``match-vs-mismatch'' deep learning model to classify whether a video clip induces excitatory responses in recorded EEG signals and learn associations between the visual content and corresponding neural recordings. Using an exclusive experimental dataset, we demonstrate that the proposed model is able to achieve the highest accuracy on unseen subjects as compared to other baseline models. Furthermore, we analyze the inter-subject noise using a subject-level silhouette score in the embedding space and show that the developed model is able to mitigate inter-subject noise and significantly reduce the silhouette score. Moreover, we examine the Grad-CAM activation score and show that the brain regions associated with language processing contribute most to the model predictions, followed by regions associated with visual processing. These results have the potential to facilitate the development of neural recording-based video reconstruction and its related applications.
翻訳日:2023-09-11 15:56:26 公開日:2023-09-08
# 現実的なファイバーベース量子リピータスキームの完全解析

Complete analysis of a realistic fiber-based quantum repeater scheme ( http://arxiv.org/abs/2309.04151v1 )

ライセンス: Link先を確認
Adam Kinos, Andreas Walther, Stefan Kr\"oll, and Lars Rippe(参考訳) 本稿では,長距離の絡み合いを分散する量子リピータプロトコルを提案し,各リピータノードは1つの単一光子エミッタに結合可能な複数のキュービットを含む。 エミッタからの光子は、隣接ノード内のキュービット間のエンタングルメント生成を実行する。 このプロトコルは、エミッタを量子ビットと光子から切り離すため、他の量子ビットを絡めるために再利用することができる。 したがって、プロトコルは時間多重化され、生成されたEPRペアの速度が増加する。 エンタングルメントの距離を延ばし、エンタングルド量子ビットの誤差を低減するために、決定論的エンタングルメントスワッピングとシェラルドエンタングルメント浄化を用いる。 我々は,初期化,2量子ゲート,キュービット測定誤差などの関連するすべてのエラー源と,時間とともにキュービットの指数的デコヒーレンスを考慮し,完全なプロトコル解析を行う。 後者は、幅広い実験パラメータのプロトコル性能を分析し、1000ドルの距離で1ドル1000ドルHzから秘密鍵レートを得るため、特に重要である。 以上の結果から,1秒あたりのメモリコヒーレンス時間と2キュービットゲートと測定誤差が10^{-3}$の順に到達し,直接伝送で達成可能な距離よりも長い距離で合理的な秘密鍵レートを得ることが重要であることが示唆された。

We present a quantum repeater protocol for distributing entanglement over long distances, where each repeater node contains several qubits that can couple to one single-photon emitter. Photons from the emitters perform heralded entanglement generation between qubits in neighboring nodes. The protocol leaves the emitters disentangled from the qubits and photons, thus allowing them to be reused to entangle other qubits. The protocol can therefore be time multiplexed, which increases the rate of generated EPR pairs. Deterministic entanglement swapping and heralded entanglement purification are used to extend the distance of the entanglement and reduce the error of the entangled qubits, respectively. We perform a complete protocol analysis by considering all relevant error sources, such as initialization, two-qubit gate, and qubit measurement errors, as well as the exponential decoherence of the qubits with time. The latter is particularly important since we analyze the protocol performance for a broad range of experimental parameters and obtain secret key rates ranging from $1 \rightarrow 1000$ Hz at a distance of $1000$ km. Our results suggest that it is important to reach a qubit memory coherence time of around one second, and two-qubit gate and measurement errors in the order of $10^{-3}$ to obtain reasonable secret key rates over distances longer than achievable with direct transmission.
翻訳日:2023-09-11 15:56:06 公開日:2023-09-08
# 自己教師付き学習における確率的多値論理演算による表現合成

Representation Synthesis by Probabilistic Many-Valued Logic Operation in Self-Supervised Learning ( http://arxiv.org/abs/2309.04148v1 )

ライセンス: Link先を確認
Hiroki Nakamura, Masashi Okada, Tadahiro Taniguchi(参考訳) 混合画像を用いた自己教師あり学習(SSL)は,様々な画像表現を学習するために研究されている。 混合画像を用いた既存の方法は、混合画像の表現と原画像の合成表現との類似性を最大化して表現を学習する。 しかし、数理論理の観点から表現の合成を考える方法はほとんどない。 本研究では,表現の合成法に着目した。 混合画像と多値論理に基づく新しい表現形式を備えた新しいSSLを提案する。 このフォーマットは、各画像機能のどの程度が表現によって所有されているかを示すことができる。 この表現形式と論理演算による表現合成により、合成された表現が元の表現の顕著な特性を保存できる。 本手法は,画像分類タスクの従来の表現合成手法と競合する。 また,多ラベル画像分類データセットにおける特徴量と画像のクラス数との関係について検討し,目的とする学習が達成されたことを検証した。 また,多値論理を用いた表現形式の適用例である画像検索についても検討した。

Self-supervised learning (SSL) using mixed images has been studied to learn various image representations. Existing methods using mixed images learn a representation by maximizing the similarity between the representation of the mixed image and the synthesized representation of the original images. However, few methods consider the synthesis of representations from the perspective of mathematical logic. In this study, we focused on a synthesis method of representations. We proposed a new SSL with mixed images and a new representation format based on many-valued logic. This format can indicate the feature-possession degree, that is, how much of each image feature is possessed by a representation. This representation format and representation synthesis by logic operation realize that the synthesized representation preserves the remarkable characteristics of the original representations. Our method performed competitively with previous representation synthesis methods for image classification tasks. We also examined the relationship between the feature-possession degree and the number of classes of images in the multilabel image classification dataset to verify that the intended learning was achieved. In addition, we discussed image retrieval, which is an application of our proposed representation format using many-valued logic.
翻訳日:2023-09-11 15:55:41 公開日:2023-09-08
# ロボットの定位とマッピング 最終報告 -- 自己教師付き深視野オドメトリーのための逐次逆学習

Robot Localization and Mapping Final Report -- Sequential Adversarial Learning for Self-Supervised Deep Visual Odometry ( http://arxiv.org/abs/2309.04147v1 )

ライセンス: Link先を確認
Akankshya Kar, Sajal Maheshwari, Shamit Lal, Vinay Sameer Raja Kad(参考訳) VO(Visual odometry)とSLAM(SLAM)は、何十年にもわたって動きから局所的な構造を通して多視点幾何を用いてきた。 これらの手法は、低テクスチャ画像や動的シナリオなどといった難解なシナリオでは少し不利である。 一方、ディープニューラルネットワークを使用してハイレベルな特徴を抽出することは、コンピュータビジョンにおいてユビキタスである。 VOの場合、これらのディープネットワークを使用して深度を抽出し、これらの高レベル特徴を用いて推定を行うことができる。 視覚計測タスクは、ポーズ推定が副産物である画像生成タスクとしてモデル化することができる。 これは自己監督的な方法でも達成でき、ディープニューラルネットワークのトレーニングに関するデータ(教師あり)の集中的な性質を排除することができる。 同様のアプローチを試した作品もいくつかあるが、前作の深さとポーズの推定はあいまいで、軌道に沿って誤差(ドリフト)が蓄積することがある。 この研究の目標は、過去のアプローチのこれらの制限に対処し、より良い深さを提供し、見積もりを示す方法を開発することである。 これに対処するために、いくつかのアプローチが検討されている。 1) モデリング: 時空間相関を利用して深度を推定するために, 光流とリカレントニューラルネットワーク(RNN)を用いる。 2) 損失関数: 生成的逆ネットワーク(gan)[2]は、図1に示すように、深さ推定を改善するために配置される。 この追加の損失項は、生成された画像のリアリズムを改善し、アーティファクトを減らす。

Visual odometry (VO) and SLAM have been using multi-view geometry via local structure from motion for decades. These methods have a slight disadvantage in challenging scenarios such as low-texture images, dynamic scenarios, etc. Meanwhile, use of deep neural networks to extract high level features is ubiquitous in computer vision. For VO, we can use these deep networks to extract depth and pose estimates using these high level features. The visual odometry task then can be modeled as an image generation task where the pose estimation is the by-product. This can also be achieved in a self-supervised manner, thereby eliminating the data (supervised) intensive nature of training deep neural networks. Although some works tried the similar approach [1], the depth and pose estimation in the previous works are vague sometimes resulting in accumulation of error (drift) along the trajectory. The goal of this work is to tackle these limitations of past approaches and to develop a method that can provide better depths and pose estimates. To address this, a couple of approaches are explored: 1) Modeling: Using optical flow and recurrent neural networks (RNN) in order to exploit spatio-temporal correlations which can provide more information to estimate depth. 2) Loss function: Generative adversarial network (GAN) [2] is deployed to improve the depth estimation (and thereby pose too), as shown in Figure 1. This additional loss term improves the realism in generated images and reduces artifacts.
翻訳日:2023-09-11 15:55:26 公開日:2023-09-08
# NESTLE: 法定コーパスの統計解析のためのノーコードツール

NESTLE: a No-Code Tool for Statistical Analysis of Legal Corpus ( http://arxiv.org/abs/2309.04146v1 )

ライセンス: Link先を確認
Kyoungyeon Cho, Seungkum Han, Wonseok Hwang(参考訳) 大規模法人の統計分析は、貴重な法的洞察を与えることができる。 このような分析には、(1)文書検索ツールを用いてコーパスのサブセットを選択し、(2)情報抽出(ie)システムを用いてテキストを構造化し、(3)統計解析のためにデータを視覚化する必要がある。 それぞれのプロセスは特別なツールかプログラミングスキルを必要とするが、統合された"ノーコード"ツールは提供されていない。 特にIEでは、ターゲット情報がIEシステムのオントロジーで事前に定義されていない場合、独自のシステムを構築する必要がある。 ここでは、法定コーパスの大規模統計解析のためのノーコードツールであるNESTLEを提供する。 NESTLEでは、ユーザはターゲットのドキュメントを検索し、情報を抽出し、チャットインターフェースを通じて構造化されたデータを可視化することができる。 NESTLEは3つの主要なコンポーネントで構成されている: 検索エンジン、エンドツーエンドのIEシステム、および全コンポーネントを結合してチャットインターフェースを提供するLarge Language Model (LLM)である。 LLMとエンドツーエンドのIEシステムによって、NESTLEは、IEシステムで事前に定義されていないあらゆる種類の情報を抽出することができ、単一のコード行を書かずに、コーパスの無制限にカスタマイズ可能な統計分析が可能となる。 カスタムエンド・ツー・エンドのIEシステムを使用することで、大規模コーパスでの高速で低コストなIEを実現することができる。 LEXGLUEによる15の韓国のIEタスクと3つの法的テキスト分類タスクを検証した。 NESTLEは、内部IEモジュールを4つの人間ラベルと192個のLLMラベルの例でトレーニングすることで、GPT-4に匹敵する性能を達成することができる。 詳細な分析は、システムの構築における正確性、時間、コストのトレードオフに関する洞察を提供する。

The statistical analysis of large scale legal corpus can provide valuable legal insights. For such analysis one needs to (1) select a subset of the corpus using document retrieval tools, (2) structuralize text using information extraction (IE) systems, and (3) visualize the data for the statistical analysis. Each process demands either specialized tools or programming skills whereas no comprehensive unified "no-code" tools have been available. Especially for IE, if the target information is not predefined in the ontology of the IE system, one needs to build their own system. Here we provide NESTLE, a no code tool for large-scale statistical analysis of legal corpus. With NESTLE, users can search target documents, extract information, and visualize the structured data all via the chat interface with accompanying auxiliary GUI for the fine-level control. NESTLE consists of three main components: a search engine, an end-to-end IE system, and a Large Language Model (LLM) that glues the whole components together and provides the chat interface. Powered by LLM and the end-to-end IE system, NESTLE can extract any type of information that has not been predefined in the IE system opening up the possibility of unlimited customizable statistical analysis of the corpus without writing a single line of code. The use of the custom end-to-end IE system also enables faster and low-cost IE on large scale corpus. We validate our system on 15 Korean precedent IE tasks and 3 legal text classification tasks from LEXGLUE. The comprehensive experiments reveal NESTLE can achieve GPT-4 comparable performance by training the internal IE module with 4 human-labeled, and 192 LLM-labeled examples. The detailed analysis provides the insight on the trade-off between accuracy, time, and cost in building such system.
翻訳日:2023-09-11 15:55:00 公開日:2023-09-08
# 多元バランスベースによる奥行き完了と密集単球スラムの信頼性

Depth Completion with Multiple Balanced Bases and Confidence for Dense Monocular SLAM ( http://arxiv.org/abs/2309.04145v1 )

ライセンス: Link先を確認
Weijian Xie, Guanyi Chu, Quanhao Qian, Yihao Yu, Hai Li, Danpeng Chen, Shangjin Zhai, Nan Wang, Hujun Bao, Guofeng Zhang(参考訳) モノクロカメラをベースとしたDense SLAMは、特にモバイルデバイス上で実行される場合、AR/VRの分野で大きな応用価値を持つ。 本稿では,マルチバス深度表現を用いたスパースSLAMシステムに軽量深度完備化ネットワークを組み込むことにより,携帯電話上でも高密度マッピングをオンラインで行える手法を提案する。 具体的には,従来の SLAM システムの特徴に合わせて,BBC-Net という,高度に最適化されたマルチバス深度補完ネットワークを提案する。 BBC-Netは、オフザシェルキーポイントベースのSLAMシステムによって生成されたスパースポイントを持つ単眼画像から、複数のバランスの取れたベースと信頼マップを予測できる。 最後の深さは、対応する重みを調整して最適化できる予測深度基底の線形結合である。 従来のSLAM最適化に重みをシームレスに組み込んで効率と堅牢性を確保するため,ネットワークを汎用的なプラグインモジュールとし,既存のSLAMシステムへの統合を容易にし,バンドル調整による大域的な深度整合性の向上を図る。 本手法の可搬性を検証するため,BBC-Netを2つの代表的なSLAMシステムに統合する。 種々のデータセットに対する実験結果から, 提案手法は, 最先端の手法よりも単分子密集写像の性能が向上することが示された。 実世界のシナリオにおいて提案手法の効率性とマッピング品質を検証した携帯電話上でのオンラインデモを提供する。

Dense SLAM based on monocular cameras does indeed have immense application value in the field of AR/VR, especially when it is performed on a mobile device. In this paper, we propose a novel method that integrates a light-weight depth completion network into a sparse SLAM system using a multi-basis depth representation, so that dense mapping can be performed online even on a mobile phone. Specifically, we present a specifically optimized multi-basis depth completion network, called BBC-Net, tailored to the characteristics of traditional sparse SLAM systems. BBC-Net can predict multiple balanced bases and a confidence map from a monocular image with sparse points generated by off-the-shelf keypoint-based SLAM systems. The final depth is a linear combination of predicted depth bases that can be optimized by tuning the corresponding weights. To seamlessly incorporate the weights into traditional SLAM optimization and ensure efficiency and robustness, we design a set of depth weight factors, which makes our network a versatile plug-in module, facilitating easy integration into various existing sparse SLAM systems and significantly enhancing global depth consistency through bundle adjustment. To verify the portability of our method, we integrate BBC-Net into two representative SLAM systems. The experimental results on various datasets show that the proposed method achieves better performance in monocular dense mapping than the state-of-the-art methods. We provide an online demo running on a mobile phone, which verifies the efficiency and mapping quality of the proposed method in real-world scenarios.
翻訳日:2023-09-11 15:54:31 公開日:2023-09-08
# k-Symmetric拡張の検出改善のための置換対称性へのタッピング

Tapping into Permutation Symmetry for Improved Detection of k-Symmetric Extensions ( http://arxiv.org/abs/2309.04144v1 )

ライセンス: Link先を確認
Youning Li, Chao Zhang, Shi-Yao Hou, Zipeng Wu, Xuanran Zhu, and Bei Zeng(参考訳) 対称拡張は量子力学において必須であり、絡み合った量子系の相関を研究し、量子境界問題のような問題に対処するためのレンズを提供する。 半定値プログラミング(SDP)は対称拡張を扱うための認識された方法であるが、特に一般化されたキューディシステムにおける大きな実パラメータのため、計算制約に悩まされる。 本研究では,順列対称性を適切に活用する手法を提案する。 sdp 問題を微調整して \(k \)-対称拡大を検出することで,探索空間の次元を著しく減少させ,正定値テストに必要なパラメータ数を三分する。 これはアルゴリズムの強化をもたらし、qudit \(k \)-対称拡張シナリオにおいて、複雑性を \(O(d^{2k}) \) から \(O(k^{d^2}) \) に還元する。 さらに,提案手法は,結果の正定性を検証するプロセスを合理化する。 これらの進歩は量子相関に関する深い洞察の道を開き、量子情報理論の洗練された研究と革新のための潜在的な道のりを強調している。

Symmetric extensions are essential in quantum mechanics, providing a lens to investigate the correlations of entangled quantum systems and to address challenges like the quantum marginal problem. Though semi-definite programming (SDP) is a recognized method for handling symmetric extensions, it grapples with computational constraints, especially due to the large real parameters in generalized qudit systems. In this study, we introduce an approach that adeptly leverages permutation symmetry. By fine-tuning the SDP problem for detecting \( k \)-symmetric extensions, our method markedly diminishes the searching space dimensionality and trims the number of parameters essential for positive definiteness tests. This leads to an algorithmic enhancement, reducing the complexity from \( O(d^{2k}) \) to \( O(k^{d^2}) \) in the qudit \( k \)-symmetric extension scenario. Additionally, our approach streamlines the process of verifying the positive definiteness of the results. These advancements pave the way for deeper insights into quantum correlations, highlighting potential avenues for refined research and innovations in quantum information theory.
翻訳日:2023-09-11 15:54:07 公開日:2023-09-08
# ソフトウェアエンジニアリングのための信頼性とシナジスティックな人工知能:ビジョンとロードマップ

Trustworthy and Synergistic Artificial Intelligence for Software Engineering: Vision and Roadmaps ( http://arxiv.org/abs/2309.04142v1 )

ライセンス: Link先を確認
David Lo(参考訳) 何十年もの間、ソフトウェアエンジニアリングの研究は、開発者の生産性の向上とソフトウェア品質の向上を目的とした、自動化ソリューションの開発に費やされてきた。 過去20年、ソフトウェアエンジニアリングのタスクに適したインテリジェントなソリューションの開発が、例外なく急増しているのを目撃してきた。 この勢いはAI4SE(Artificial Intelligence for Software Engineering)領域を確立した。 This Future of Software Engineering (FoSE)論文は、いくつかの焦点をナビゲートする。 AI4SEの簡潔な導入と歴史から始まります。 その後、AI4SEに固有の中核的な課題、特に信頼できる、シナジスティックなAI4SEを実現する必要性を強調している。 この論文は、AI4SEの重要な課題が克服され、ソフトウェア工学 2.0への移行が示唆される場合、潜在的な飛躍のビジョンを描いている。 ひとつは信頼できるAI4SEの実現、もうひとつはシナジスティックAI4SEの育成である。 この論文は決定的なガイドとして機能しないかもしれないが、さらなる進歩を触媒する意図がある。 究極の野望は、ソフトウェアエンジニアリングの地平線を再定義する上で、ai4seをlinchpinとして位置づけ、私たちをソフトウェアエンジニアリング2.0に向かわせることです。

For decades, much software engineering research has been dedicated to devising automated solutions aimed at enhancing developer productivity and elevating software quality. The past two decades have witnessed an unparalleled surge in the development of intelligent solutions tailored for software engineering tasks. This momentum established the Artificial Intelligence for Software Engineering (AI4SE) area, which has swiftly become one of the most active and popular areas within the software engineering field. This Future of Software Engineering (FoSE) paper navigates through several focal points. It commences with a succinct introduction and history of AI4SE. Thereafter, it underscores the core challenges inherent to AI4SE, particularly highlighting the need to realize trustworthy and synergistic AI4SE. Progressing, the paper paints a vision for the potential leaps achievable if AI4SE's key challenges are surmounted, suggesting a transition towards Software Engineering 2.0. Two strategic roadmaps are then laid out: one centered on realizing trustworthy AI4SE, and the other on fostering synergistic AI4SE. While this paper may not serve as a conclusive guide, its intent is to catalyze further progress. The ultimate aspiration is to position AI4SE as a linchpin in redefining the horizons of software engineering, propelling us toward Software Engineering 2.0.
翻訳日:2023-09-11 15:53:48 公開日:2023-09-08
# 文書レベルコンテンツ構造によるrst型談話解析

RST-style Discourse Parsing Guided by Document-level Content Structures ( http://arxiv.org/abs/2309.04141v1 )

ライセンス: Link先を確認
Ming Li, Ruihong Huang(参考訳) RST-DP (Rhetorical Structure Theory based Discourse Parsing) は、節、文、および大きなテキストが全言を構成し、その修辞構造を階層木として示す方法を探る。 既存のRTT解析パイプラインは、文書レベルのコンテンツ構造を知らずに修辞構造を構築し、大きなテキストの談話関係を予測する際に比較的低い性能をもたらす。 談話関係認識における高レベルコンテンツ関連情報の価値を認識し,ニュース談話プロファイリングの課題から派生した構造対応ニュースコンテンツ文表現を取り入れたRTT-DPのパイプラインを提案する。 追加レイヤをわずかに追加することで、この拡張パイプラインは、さまざまなRTT解析メトリクスにわたって有望なパフォーマンスを示す。

Rhetorical Structure Theory based Discourse Parsing (RST-DP) explores how clauses, sentences, and large text spans compose a whole discourse and presents the rhetorical structure as a hierarchical tree. Existing RST parsing pipelines construct rhetorical structures without the knowledge of document-level content structures, which causes relatively low performance when predicting the discourse relations for large text spans. Recognizing the value of high-level content-related information in facilitating discourse relation recognition, we propose a novel pipeline for RST-DP that incorporates structure-aware news content sentence representations derived from the task of News Discourse Profiling. By incorporating only a few additional layers, this enhanced pipeline exhibits promising performance across various RST parsing metrics.
翻訳日:2023-09-11 15:53:27 公開日:2023-09-08
# segmentanythingは自動および定量的オルガノイド検出と解析に基づく顕微鏡画像支援

SegmentAnything helps microscopy images based automatic and quantitative organoid detection and analysis ( http://arxiv.org/abs/2309.04190v1 )

ライセンス: Link先を確認
Xiaodan Xing, Chunling Tang, Yunzhe Guo, Nicholas Kurniawan, and Guang Yang(参考訳) オルガノイド(英: organoids)は、生体内組織や臓器の構造や機能をよく表わす自己組織化した3d細胞クラスターである。 オルガノイドの形態の定量化は、臓器形成、薬物発見、毒性評価の研究に役立つ。 最近の顕微鏡技術は、オルガノイドの形態的特徴を取得する強力なツールを提供するが、手動画像解析は依然として手間と時間を要するプロセスである。 そこで本研究では,SegmentAnythingを用いた顕微鏡解析のための包括的パイプラインを提案する。 さらに, 周囲, 面積, 半径, 非湿潤性, 非循環性などの形態的特徴を導入し, オルガノイド構造を定量的かつ自動的に解析する。 提案手法の有効性を検証するため,ヒト誘導多能性幹細胞(iPSCs)由来神経上皮性オルガノイド(NE)の明視野画像の検討を行った。 自動パイプラインから得られた結果は,手動オルガノイド検出および測定と密接に一致し,オルガノイド形態解析の高速化における提案手法の有効性を示した。

Organoids are self-organized 3D cell clusters that closely mimic the architecture and function of in vivo tissues and organs. Quantification of organoid morphology helps in studying organ development, drug discovery, and toxicity assessment. Recent microscopy techniques provide a potent tool to acquire organoid morphology features, but manual image analysis remains a labor and time-intensive process. Thus, this paper proposes a comprehensive pipeline for microscopy analysis that leverages the SegmentAnything to precisely demarcate individual organoids. Additionally, we introduce a set of morphological properties, including perimeter, area, radius, non-smoothness, and non-circularity, allowing researchers to analyze the organoid structures quantitatively and automatically. To validate the effectiveness of our approach, we conducted tests on bright-field images of human induced pluripotent stem cells (iPSCs) derived neural-epithelial (NE) organoids. The results obtained from our automatic pipeline closely align with manual organoid detection and measurement, showcasing the capability of our proposed method in accelerating organoids morphology analysis.
翻訳日:2023-09-11 15:47:20 公開日:2023-09-08
# 熱分解プロトコルによる作業の抽出

Extraction of Work via a Thermalization Protocol ( http://arxiv.org/abs/2309.04187v1 )

ライセンス: Link先を確認
Nicol\`o Piccione, Benedetto Militello, Anna Napoli, Bruno Bellomo(参考訳) この拡張抽象化には、IQIS2018で報告された作業の概要が含まれている。 熱化プロセスを利用して、資源システム $r$ から2部システム $s$ へ作業を抽出することが可能であることを示す。 これを実現するために、温度$T$の単一浴場が存在する場合の一般的な設定における単純なプロトコルを提案し、その上で量子ラビモデルにより$S$が$T=0$のときにそれを検証する。 一般の場合、プロトコルの理論的境界を見つけ、Rabiモデルに適用すると、作業と効率の十分な抽出が発生することを示す。

This extended abstract contains an outline of the work reported at the conference IQIS2018. We show that it is possible to exploit a thermalization process to extract work from a resource system $R$ to a bipartite system $S$. To do this, we propose a simple protocol in a general setting in the presence of a single bath at temperature $T$ and then examine it when $S$ is described by the quantum Rabi model at $T=0$. We find the theoretical bounds of the protocol in the general case and we show that when applied to the Rabi model it gives rise to a satisfactory extraction of work and efficiency.
翻訳日:2023-09-11 15:47:01 公開日:2023-09-08
# リアルタイムのステレオマッチング:100以上のFPSビデオステレオマッチング

Stereo Matching in Time: 100+ FPS Video Stereo Matching for Extended Reality ( http://arxiv.org/abs/2309.04183v1 )

ライセンス: Link先を確認
Ziang Cheng, Jiayu Yang, Hongdong Li(参考訳) リアルタイムステレオマッチング(Real-time Stereo Matching)は、屋内3D理解、ビデオパススルー、混合現実感ゲームなど、多くの拡張現実感(XR)アプリケーションのための基盤となるアルゴリズムである。 ディープステレオ法の大幅な進歩にもかかわらず、低消費電力デバイス上で高精度なリアルタイム深度推定を実現することは大きな課題である。 最大の難点の1つは、ヘッドマウントのvr/arグラスでキャプチャされた高品質な屋内ビデオステレオトレーニングデータセットの欠如である。 この問題に対処するために,6-DoF移動VR/ARヘッドマウントディスプレイ(HMD)によって撮影される,様々な屋内シーンのフォトリアリスティックレンダリングとリアルカメラモーションを組み合わせた,新しいステレオ合成データセットを提案する。 これにより、既存のアプローチの評価が促進され、屋内拡張現実シナリオのさらなる研究が促進される。 提案するデータセットは,連続ビデオレートステレオマッチングのための新しいフレームワークの開発を可能にする。 もうひとつのコントリビューションとして、XRアプリケーションに適した新しいビデオベースのステレオマッチングアプローチを提案し、標準デスクトップコンピュータでは134fps、バッテリー駆動のHMDでは30fpsでリアルタイムな推論を実現する。 我々の重要な洞察は、相違と文脈情報は連続するステレオフレーム間で非常に相関し、冗長であるということである。 反復的なコストアグリゲーションを時間(すなわち時間次元)にアンロールすることで、集約された特徴を時間とともに分散し再利用することができる。 このアプローチは精度を犠牲にすることなく計算を大幅に削減する。 提案手法は,VR/ARアプリケーションにおけるリアルタイムステレオマッチングの強力な競争相手となっている。

Real-time Stereo Matching is a cornerstone algorithm for many Extended Reality (XR) applications, such as indoor 3D understanding, video pass-through, and mixed-reality games. Despite significant advancements in deep stereo methods, achieving real-time depth inference with high accuracy on a low-power device remains a major challenge. One of the major difficulties is the lack of high-quality indoor video stereo training datasets captured by head-mounted VR/AR glasses. To address this issue, we introduce a novel video stereo synthetic dataset that comprises photorealistic renderings of various indoor scenes and realistic camera motion captured by a 6-DoF moving VR/AR head-mounted display (HMD). This facilitates the evaluation of existing approaches and promotes further research on indoor augmented reality scenarios. Our newly proposed dataset enables us to develop a novel framework for continuous video-rate stereo matching. As another contribution, our dataset enables us to proposed a new video-based stereo matching approach tailored for XR applications, which achieves real-time inference at an impressive 134fps on a standard desktop computer, or 30fps on a battery-powered HMD. Our key insight is that disparity and contextual information are highly correlated and redundant between consecutive stereo frames. By unrolling an iterative cost aggregation in time (i.e. in the temporal dimension), we are able to distribute and reuse the aggregated features over time. This approach leads to a substantial reduction in computation without sacrificing accuracy. We conducted extensive evaluations and comparisons and demonstrated that our method achieves superior performance compared to the current state-of-the-art, making it a strong contender for real-time stereo matching in VR/AR applications.
翻訳日:2023-09-11 15:46:49 公開日:2023-09-08
# 学習力の低下:効果的な教育のためのOCaml機能制限

Less Power for More Learning: Restricting OCaml Features for Effective Teaching ( http://arxiv.org/abs/2309.04179v1 )

ライセンス: Link先を確認
Max Lang, Nico Petzendorfer(参考訳) 我々は,OCamlプログラミング言語の機能のサンドボックス化と制限を行うフレームワークを提案する。 与えられた課題を解決するために使用すべきでない言語やライブラリ機能を無効にする方法を説明する。 本稿では,制御環境におけるio関連エクササイズのテストを可能にするモックioシステムの実装の概要について述べる。 最後に、提出されたコードがサンドボックスのままであることを保証するためのセキュリティ上の考慮事項について詳述する。 実装のソースコードは公開されています。

We present a framework for sandboxing and restricting features of the OCaml programming language to effectively automate the grading of programming exercises, scaling to hundreds of submissions. We describe how to disable language and library features that should not be used to solve a given exercise. We present an overview of an implementation of a mock IO system to allow testing of IO-related exercises in a controlled environment. Finally, we detail a number of security considerations to ensure submitted code remains sandboxed, allowing automatic grading to be trusted without manual verification. The source code of our implementation is publicly available.
翻訳日:2023-09-11 15:46:19 公開日:2023-09-08
# 中国語の信頼性応答生成のための構造化医用知識ベースを用いた知識学習大規模言語モデル

Knowledge-tuning Large Language Models with Structured Medical Knowledge Bases for Reliable Response Generation in Chinese ( http://arxiv.org/abs/2309.04175v1 )

ライセンス: Link先を確認
Haochun Wang, Sendong Zhao, Zewen Qiang, Zijian Li, Nuwa Xi, Yanrui Du, MuZhen Cai, Haoqiang Guo, Yuhan Chen, Haoming Xu, Bing Qin, Ting Liu(参考訳) 大規模言語モデル(LLM)は、汎用ドメインにおける自然言語処理(NLP)タスクにおいて顕著な成功を収めている。 しかし、LLMはドメイン知識が限られているため、医学的事実に関する幻覚に反応することがある。 このような欠点は、医学的文脈におけるLSMの利用に潜在的なリスクをもたらす。 この課題に対処するために,llmのための構造化医療知識ベースを活用してドメイン知識を効率的に把握し,信頼性の高い応答生成を容易にする知識チューニングを提案する。 また,医学知識ベースから構築された中国の医学知識質問応答データセットであるcMedKnowQAをリリースし,LCMの医学知識能力を評価する。 実験結果から,cMedKnowQAで知識を調整したLLMは,バニラ命令チューニングよりも応答生成の精度が高く,LLMのドメイン適応に新たな信頼性の高い方法が提供されることがわかった。

Large Language Models (LLMs) have demonstrated remarkable success in diverse natural language processing (NLP) tasks in general domains. However, LLMs sometimes generate responses with the hallucination about medical facts due to limited domain knowledge. Such shortcomings pose potential risks in the utilization of LLMs within medical contexts. To address this challenge, we propose knowledge-tuning, which leverages structured medical knowledge bases for the LLMs to grasp domain knowledge efficiently and facilitate reliable response generation. We also release cMedKnowQA, a Chinese medical knowledge question-answering dataset constructed from medical knowledge bases to assess the medical knowledge proficiency of LLMs. Experimental results show that the LLMs which are knowledge-tuned with cMedKnowQA, can exhibit higher levels of accuracy in response generation compared with vanilla instruction-tuning and offer a new reliable way for the domain adaptation of LLMs.
翻訳日:2023-09-11 15:46:08 公開日:2023-09-08
# 調律のないプロンプトに基づく分類のための多様体型動詞化空間再埋め込み

Manifold-based Verbalizer Space Re-embedding for Tuning-free Prompt-based Classification ( http://arxiv.org/abs/2309.04174v1 )

ライセンス: Link先を確認
Haochun Wang, Sendong Zhao, Chi Liu, Nuwa Xi, Muzhen Cai, Bing Qin, Ting Liu(参考訳) Promptベースの分類は、[MASK]トークンを使用してタスクを閉じた質問形式に適応し、入力されたトークンは事前に定義された動詞化子を通してラベルにマッピングされる。 近年, このプロセスにおける労働力削減のために, 発声器埋め込みの使用について検討している。 しかし、既存の研究はすべて、事前訓練されたモデルまたは追加訓練可能な埋め込みのチューニングプロセスを必要とする。 一方、高次元動詞化子埋め込み間の距離は、表現空間における非線形多様体のポテンシャルのためにユークリッド距離で測るべきではない。 本研究では, クラス内近傍制約付き局所線形埋め込み (lle-inc) と呼ばれる, 同じクラス内の局所プロパティを分類のガイダンスとして保存するチューニングフリーな多様体型空間再埋め込み法を提案する。 実験結果から,パラメータをチューニングせずにも,LLE-INCはパラメータチューニングを伴う自動動詞化器と同等であることがわかった。 また,パラメータの更新により,プロンプトベースのチューニングが最大3.2%向上する。 さらに、llama-7b&13bの実験により、lle-incはハイパースケール言語モデルの効率的なチューニングフリー分類アプローチであることが示された。

Prompt-based classification adapts tasks to a cloze question format utilizing the [MASK] token and the filled tokens are then mapped to labels through pre-defined verbalizers. Recent studies have explored the use of verbalizer embeddings to reduce labor in this process. However, all existing studies require a tuning process for either the pre-trained models or additional trainable embeddings. Meanwhile, the distance between high-dimensional verbalizer embeddings should not be measured by Euclidean distance due to the potential for non-linear manifolds in the representation space. In this study, we propose a tuning-free manifold-based space re-embedding method called Locally Linear Embedding with Intra-class Neighborhood Constraint (LLE-INC) for verbalizer embeddings, which preserves local properties within the same class as guidance for classification. Experimental results indicate that even without tuning any parameters, our LLE-INC is on par with automated verbalizers with parameter tuning. And with the parameter updating, our approach further enhances prompt-based tuning by up to 3.2%. Furthermore, experiments with the LLaMA-7B&13B indicate that LLE-INC is an efficient tuning-free classification approach for the hyper-scale language models.
翻訳日:2023-09-11 15:45:35 公開日:2023-09-08
# 表現点選択による教師なし物体位置決め

Unsupervised Object Localization with Representer Point Selection ( http://arxiv.org/abs/2309.04172v1 )

ライセンス: Link先を確認
Yeonghwan Song, Seokwoo Jang, Dina Katabi, Jeany Son(参考訳) 本研究では, 自己教師付き事前学習モデルを用いて, 追加の微調整を伴わずに, モデルの予測を説明できる新しいオブジェクトローカライゼーション手法を提案する。 既存の教師なしおよび自己教師なしオブジェクトローカライズ手法では、事前訓練されたモデルのクラス非依存のアクティベーションマップや自己相似性マップを使用することが多い。 これらの地図はローカライゼーションのための貴重な情報を提供するが、モデルがどのように予測をするかを説明する能力の制限は依然として困難である。 本稿では,モデルの予測を訓練点の表現値の線形結合として表すことのできる,表現点選択に基づく単純だが効果的な対象位置決め手法を提案する。 モデル予測の最も重要な例である表現点を選択することで、モデルがモデルがどのように前景オブジェクトを予測するかを、関連する例とそれらの重要性を提供することで、洞察することができる。 提案手法は,非教師なしおよび自己教師なしのオブジェクトローカライズ手法を,有意なマージンを持つ各種データセット上で上回り,近年の弱い教師付きおよび少数ショット法を上回った。

We propose a novel unsupervised object localization method that allows us to explain the predictions of the model by utilizing self-supervised pre-trained models without additional finetuning. Existing unsupervised and self-supervised object localization methods often utilize class-agnostic activation maps or self-similarity maps of a pre-trained model. Although these maps can offer valuable information for localization, their limited ability to explain how the model makes predictions remains challenging. In this paper, we propose a simple yet effective unsupervised object localization method based on representer point selection, where the predictions of the model can be represented as a linear combination of representer values of training points. By selecting representer points, which are the most important examples for the model predictions, our model can provide insights into how the model predicts the foreground object by providing relevant examples as well as their importance. Our method outperforms the state-of-the-art unsupervised and self-supervised object localization methods on various datasets with significant margins and even outperforms recent weakly supervised and few-shot methods.
翻訳日:2023-09-11 15:44:49 公開日:2023-09-08
# prista-net: 符号化回折パターンの位相検索のための深い反復的縮小しきい値ネットワーク

PRISTA-Net: Deep Iterative Shrinkage Thresholding Network for Coded Diffraction Patterns Phase Retrieval ( http://arxiv.org/abs/2309.04171v1 )

ライセンス: Link先を確認
Aoxu Liu, Xiaohong Fan, Yin Yang, Jianping Zhang(参考訳) 位相検索の問題は、限られた振幅測定データから未知の画像を復元することであり、計算画像や画像処理における非線形逆問題である。 しかし、多くのPR手法は、解釈可能性に欠けるブラックボックスネットワークモデルと、計算的に複雑であり、パラメータチューニングに注意を要するプラグアンドプレイ(PnP)フレームワークに基づいている。 そこで我々は,1次反復収縮しきい値アルゴリズム(ISTA)に基づく深層展開ネットワーク(DUN)であるPRISTA-Netを開発した。 このネットワークは、学習可能な非線形変換を用いて、スパース前処理に関連する近点マッピングサブプロブレムに対処し、画像エッジ、テクスチャ、構造を含む位相情報に注目する機構を利用する。 さらに,局所情報を改善するため,高速フーリエ変換(FFT)を用いてグローバルな特徴を学習し,ノイズレベルが低い場合には対数に基づく損失関数が大幅に改善される。 非線形変換,しきい値パラメータ,ステップサイズを含むPRISTA-Netフレームワークのすべてのパラメータは,手動で設定するのではなく,エンドツーエンドで学習される。 この手法は、従来の手法の解釈可能性とディープラーニングの高速な推論能力とを組み合わせることで、展開段階における各イテレーションのノイズを処理し、リカバリ品質を向上させる。 Coded Diffraction Patterns (CDPs) 測定実験により,本手法は定性的および定量的評価の観点から,既存の最先端手法よりも優れていることが示された。 ソースコードは \emph{https://github.com/liuaxou/prista-net} で入手可能です。

The problem of phase retrieval (PR) involves recovering an unknown image from limited amplitude measurement data and is a challenge nonlinear inverse problem in computational imaging and image processing. However, many of the PR methods are based on black-box network models that lack interpretability and plug-and-play (PnP) frameworks that are computationally complex and require careful parameter tuning. To address this, we have developed PRISTA-Net, a deep unfolding network (DUN) based on the first-order iterative shrinkage thresholding algorithm (ISTA). This network utilizes a learnable nonlinear transformation to address the proximal-point mapping sub-problem associated with the sparse priors, and an attention mechanism to focus on phase information containing image edges, textures, and structures. Additionally, the fast Fourier transform (FFT) is used to learn global features to enhance local information, and the designed logarithmic-based loss function leads to significant improvements when the noise level is low. All parameters in the proposed PRISTA-Net framework, including the nonlinear transformation, threshold parameters, and step size, are learned end-to-end instead of being manually set. This method combines the interpretability of traditional methods with the fast inference ability of deep learning and is able to handle noise at each iteration during the unfolding stage, thus improving recovery quality. Experiments on Coded Diffraction Patterns (CDPs) measurements demonstrate that our approach outperforms the existing state-of-the-art methods in terms of qualitative and quantitative evaluations. Our source codes are available at \emph{https://github.com/liuaxou/PRISTA-Net}.
翻訳日:2023-09-11 15:44:30 公開日:2023-09-08
# 任意の自律量子系に対する熱力学の法則の延長」に関するコメント

Comment on "Extending the Laws of Thermodynamics for Arbitrary Autonomous Quantum Systems" ( http://arxiv.org/abs/2309.04170v1 )

ライセンス: Link先を確認
Philipp Strasberg(参考訳) 最近、Elouard と Lombard Latune [PRX Quantum 4, 020309 (2023)] は、熱力学の法則を「任意のスケールで」有効な「任意の量子系」に拡張し、「一貫性のある」定義で文献から「既知の結果」を復元できると主張した。 私は、それらの定義が教科書の熱力学と矛盾しており、実際のエントロピー生成を桁違いに過小評価していることを示している。 この問題の原因は、エントロピーと温度に関する問題のある定義にさかのぼるが、後者は、例えば、ゼロの法則に違反している。 PRX Quantum 2, 030202 (2021) で提示された別のフレームワークはこれらの問題に支障を来さないが、Elouard と Lombard Latune は、小さな初期状態のクラスに対して正のエントロピー生成のみを提供すると主張している。 両アプローチを統一する簡単な方法も紹介されている。

Recently, Elouard and Lombard Latune [PRX Quantum 4, 020309 (2023)] claimed to extend the laws of thermodynamics to "arbitrary quantum systems" valid "at any scale" using "consistent" definitions allowing them to "recover known results" from the literature. I show that their definitions are in conflict with textbook thermodynamics and over- or underestimate the real entropy production by orders of magnitude. The cause of this problem is traced back to problematic definitions of entropy and temperature, the latter, for instance, violates the zeroth law. It is pointed out that another framework presented in PRX Quantum 2, 030202 (2021) does not suffer from these problems, while Elouard and Lombard Latune falsely claim that it only provides a positive entropy production for a smaller class of initial states. A simple way to unify both approaches is also presented.
翻訳日:2023-09-11 15:44:01 公開日:2023-09-08
# 高速インタラクティブ画像分割のためのグループ境界の提案

Grouping Boundary Proposals for Fast Interactive Image Segmentation ( http://arxiv.org/abs/2309.04169v1 )

ライセンス: Link先を確認
Li Liu and Da Chen and Minglei Shu and Laurent D. Cohen(参考訳) ジオデシックモデルは、様々な画像セグメンテーション問題を解決するための効率的なツールとして知られている。 既存のアプローチのほとんどは、対象の境界を規定する測地線経路を追跡するためにのみ、局所的な画像特徴を利用する。 しかし、このようなセグメンテーション戦略は、画像エッジ機能の接続性を考慮することはできず、特に複雑なシナリオの場合、ショートカット問題のリスクを増大させる。 本研究では,最小測地線フレームワークに基づく新しい画像分割モデルと,適応型カット型円形最適経路計算スキームとグラフに基づく境界提案グルーピングスキームを提案する。 具体的には、アダプティブカットは、対象の輪郭がこのカットを1回だけ通過するように、画像領域を切断することができる。 境界提案は予め計算された画像エッジセグメントで構成され、セグメンテーションモデルの接続情報を提供する。 これらの境界提案は、次に提案された画像分割モデルに組み込まれ、ターゲットセグメンテーションの輪郭は、選択された一連の境界提案とそれらを結ぶ対応する測地路からなる。 実験の結果,提案手法は最先端の最小経路に基づく画像分割手法よりも優れていることがわかった。

Geodesic models are known as an efficient tool for solving various image segmentation problems. Most of existing approaches only exploit local pointwise image features to track geodesic paths for delineating the objective boundaries. However, such a segmentation strategy cannot take into account the connectivity of the image edge features, increasing the risk of shortcut problem, especially in the case of complicated scenario. In this work, we introduce a new image segmentation model based on the minimal geodesic framework in conjunction with an adaptive cut-based circular optimal path computation scheme and a graph-based boundary proposals grouping scheme. Specifically, the adaptive cut can disconnect the image domain such that the target contours are imposed to pass through this cut only once. The boundary proposals are comprised of precomputed image edge segments, providing the connectivity information for our segmentation model. These boundary proposals are then incorporated into the proposed image segmentation model, such that the target segmentation contours are made up of a set of selected boundary proposals and the corresponding geodesic paths linking them. Experimental results show that the proposed model indeed outperforms state-of-the-art minimal paths-based image segmentation approaches.
翻訳日:2023-09-11 15:43:40 公開日:2023-09-08
# GLS-CSC:中国のSTMモデルの表面クレーンへの過度信頼を緩和する簡易かつ効果的な戦略

GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models' Over-Reliance on Superficial Clue ( http://arxiv.org/abs/2309.04162v1 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Yuhan Chen, Rai Bai, Jing Liu, Hua Wu, Haifeng Wang, Bing Qin(参考訳) 事前訓練されたモデルは中国のショートテキストマッチング(STM)タスクで成功したが、しばしば表面的な手がかりに依存しており、堅牢な予測が欠如している。 この問題に対処するためには,STMモデルにおける表面的手がかりの影響を分析し緩和することが重要である。 本研究は,中国語テキストペアの意味的類似性を測定するために一般的に用いられる編集距離特徴の過度な信頼度について検討することを目的としている。 本研究では,STMモデルの表面的手がかりへの過度依存を軽減するために,GLS-CSC (Gradually Learn Samples Containing Superficial Clue) と呼ばれる新しい再サンプリングトレーニング戦略を提案する。 In-Domain (I.D.), Robustness (Rob.), Out-Of-Domain (O.O.D.) テストセットの総合的な評価を通じて,GLS-CSCが中国のSTMモデルの堅牢性と一般化を向上する上で,既存の手法より優れていることを示す。 さらに,既存手法の詳細な分析を行い,その共通性を明らかにする。

Pre-trained models have achieved success in Chinese Short Text Matching (STM) tasks, but they often rely on superficial clues, leading to a lack of robust predictions. To address this issue, it is crucial to analyze and mitigate the influence of superficial clues on STM models. Our study aims to investigate their over-reliance on the edit distance feature, commonly used to measure the semantic similarity of Chinese text pairs, which can be considered a superficial clue. To mitigate STM models' over-reliance on superficial clues, we propose a novel resampling training strategy called Gradually Learn Samples Containing Superficial Clue (GLS-CSC). Through comprehensive evaluations of In-Domain (I.D.), Robustness (Rob.), and Out-Of-Domain (O.O.D.) test sets, we demonstrate that GLS-CSC outperforms existing methods in terms of enhancing the robustness and generalization of Chinese STM models. Moreover, we conduct a detailed analysis of existing methods and reveal their commonality.
翻訳日:2023-09-11 15:43:18 公開日:2023-09-08
# EHRデータスカラー化のための特徴ミス対応校正による患者表現の活用

Leveraging Prototype Patient Representations with Feature-Missing-Aware Calibration to Mitigate EHR Data Sparsity ( http://arxiv.org/abs/2309.04160v1 )

ライセンス: Link先を確認
Yinghao Zhu, Zixiang Wang, Long He, Shiyun Xie, Zixi Chen, Jingkun An, Liantao Ma, Chengwei Pan(参考訳) 電子健康記録(EHR)データは、しばしばスパース特性を示し、予測モデリングの課題を提起する。 行列計算などの現在の直接計算は、類似の行や列を参照してヒンジに近づき、生の欠落データを完成させる。 その結果、モデルは、予測対象に関する無関係または偽りの情報を不注意に組み込んで、下流のパフォーマンスの有効性を損なうことができる。 一部の手法は直接的命令の後にEHRの埋め込みを校正または拡張しようとするが、しばしば不適切な特徴を誤って優先する。 この誤った優先順位付けはモデルにバイアスや不正確さをもたらす可能性がある。 これらの課題に対処するため,我々は間接的インダクタンス法を用いて,類似患者からのプロトタイプ表現を活用し,より高密度な埋め込みを実現する。 同様の患者を計測する際, 機能不足の限界が現在のものと同じであることを示すため, 本手法は機能信頼学習モジュールを設計する。 このモジュールは欠落している機能状況に敏感であり、モデルが各機能の信頼性をよりよく判断できる。 さらに, 評価が潜在的に不正確な不正確な値にのみ基づかないことを保証するために, 特徴的信頼度を考慮した新しい類似度指標を提案する。 そこで本研究では,特徴量検出手法を用いて患者表現の密集を捉えた。 総合的な実験により、設計モデルが確立されたEHRに焦点を当てたモデルを超え、MIMIC-IIIおよびMIMIC-IVデータセットを病院内死亡率予測タスクで統計的に有意に改善することが示された。 コードは、再現性を保証するために \url{https://anonymous.4open.science/r/sparseehr} で公開されている。

Electronic Health Record (EHR) data frequently exhibits sparse characteristics, posing challenges for predictive modeling. Current direct imputation such as matrix imputation approaches hinge on referencing analogous rows or columns to complete raw missing data and do not differentiate between imputed and actual values. As a result, models may inadvertently incorporate irrelevant or deceptive information with respect to the prediction objective, thereby compromising the efficacy of downstream performance. While some methods strive to recalibrate or augment EHR embeddings after direct imputation, they often mistakenly prioritize imputed features. This misprioritization can introduce biases or inaccuracies into the model. To tackle these issues, our work resorts to indirect imputation, where we leverage prototype representations from similar patients to obtain a denser embedding. Recognizing the limitation that missing features are typically treated the same as present ones when measuring similar patients, our approach designs a feature confidence learner module. This module is sensitive to the missing feature status, enabling the model to better judge the reliability of each feature. Moreover, we propose a novel patient similarity metric that takes feature confidence into account, ensuring that evaluations are not based merely on potentially inaccurate imputed values. Consequently, our work captures dense prototype patient representations with feature-missing-aware calibration process. Comprehensive experiments demonstrate that designed model surpasses established EHR-focused models with a statistically significant improvement on MIMIC-III and MIMIC-IV datasets in-hospital mortality outcome prediction task. The code is publicly available at \url{https://anonymous.4open.science/r/SparseEHR} to assure the reproducibility.
翻訳日:2023-09-11 15:42:56 公開日:2023-09-08
# デュアルリグメンテーションを用いた視覚言語モデルのための文脈認識型プロンプトチューニング

Context-Aware Prompt Tuning for Vision-Language Model with Dual-Alignment ( http://arxiv.org/abs/2309.04158v1 )

ライセンス: Link先を確認
Hongyu Hu, Tiancheng Lin, Jie Wang, Zhenbang Sun, Yi Xu(参考訳) 大規模視覚言語モデル(VLM)、例えばCLIPは、退屈なトレーニングデータから幅広い視覚概念を学び、超一般化能力を示す。 数個のトレーニングサンプルだけで、VLMを下流タスクに効果的に適応させるための素早い学習法が多数提案されている。 本稿では,DuAl-PT(Dual-Aligned Prompt Tuning)と呼ばれる,事前学習型大規模言語モデル(LLM)を組み込むことにより,視覚言語モデルの迅速な学習を改善する新しい手法を提案する。 CoOpのような学習可能なプロンプトは、制御と解釈が難しいエンドツーエンドのトレーニングを通じて、コンテキストを暗黙的にモデル化する。 GPT-3 のような LLM によって生成される明示的な文脈記述は、ゼロショット分類に直接使用することができるが、そのようなプロンプトは LLM に依存し過ぎており、まだ少数ショット領域では探索されていない。 DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。 そこで,本稿では,事前学習したLLMを用いて文脈記述を生成する手法を提案するとともに,プロンプトとローカル画像の特徴のアライメントとともに,LLMの知識から学習を促す。 実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で11のダウンストリームデータセット上で優れたパフォーマンスを実現している。 DuAl-PTが強力なベースラインになることを期待したい。 コードは利用可能だ。

Large-scale vision-language models (VLMs), e.g., CLIP, learn broad visual concepts from tedious training data, showing superb generalization ability. Amount of prompt learning methods have been proposed to efficiently adapt the VLMs to downstream tasks with only a few training samples. We introduce a novel method to improve the prompt learning of vision-language models by incorporating pre-trained large language models (LLMs), called Dual-Aligned Prompt Tuning (DuAl-PT). Learnable prompts, like CoOp, implicitly model the context through end-to-end training, which are difficult to control and interpret. While explicit context descriptions generated by LLMs, like GPT-3, can be directly used for zero-shot classification, such prompts are overly relying on LLMs and still underexplored in few-shot domains. With DuAl-PT, we propose to learn more context-aware prompts, benefiting from both explicit and implicit context modeling. To achieve this, we introduce a pre-trained LLM to generate context descriptions, and we encourage the prompts to learn from the LLM's knowledge by alignment, as well as the alignment between prompts and local image features. Empirically, DuAl-PT achieves superior performance on 11 downstream datasets on few-shot recognition and base-to-new generalization. Hopefully, DuAl-PT can serve as a strong baseline. Code will be available.
翻訳日:2023-09-11 15:42:27 公開日:2023-09-08
# リモートセンシング画像を用いたLong-Range correlation Supervision for Land-Cover Classification

Long-Range Correlation Supervision for Land-Cover Classification from Remote Sensing Images ( http://arxiv.org/abs/2309.04225v1 )

ライセンス: Link先を確認
Dawen Yu, Shunping Ji(参考訳) 長距離依存モデリングは、現代のディープラーニングに基づくセマンティックセグメンテーション法、特に大規模リモートセンシング画像用に設計されたものにおいて、標準畳み込みの固有局所性を補うものとして広く考えられている。 しかし、従来の研究では、注意機構やトランスフォーマーモデルでモデル化された長距離依存は、客観的根拠真理からの明示的な監督ではなく、教師なし学習に基づいている。 本稿では,現在使用されている非教師付き戦略よりも優れていることを示す,教師付き長距離相関ネットワーク(SLCNet)と呼ばれる,土地被覆分類のための新しい教師付き長距離相関手法を提案する。 SLCNetでは、同じカテゴリを共有するピクセルは高い相関関係にあり、異なるカテゴリを持つピクセルは関連性が低く、基底真理セグメンテーションマップで利用可能なカテゴリ一貫性情報によって容易に管理できる。 このような監督の下で、補正された特徴は、同じカテゴリのピクセルに対してより一貫性があり、その近接に関係なく、他のカテゴリのピクセルに対してより差別的である。 大域的長距離相関に欠ける詳細な情報を補完するために、エンコーダの長距離相関モジュールと並行して、補助的適応受容場特徴抽出モジュールを導入し、マルチスケールリモートセンシング画像における多次元物体の特徴表現を微細にとらえる。 さらに,マルチスケールのサイドアウトプット監視とハイブリッド損失関数を局所的およびグローバル制約として適用し,セグメント化精度をさらに高める。 3つのリモートセンシングデータセットで実験を行った。 コンピュータビジョン、医療、リモートセンシングコミュニティの高度なセグメンテーション手法と比較すると、SLCNetはすべてのデータセットで最先端のパフォーマンスを達成した。

Long-range dependency modeling has been widely considered in modern deep learning based semantic segmentation methods, especially those designed for large-size remote sensing images, to compensate the intrinsic locality of standard convolutions. However, in previous studies, the long-range dependency, modeled with an attention mechanism or transformer model, has been based on unsupervised learning, instead of explicit supervision from the objective ground truth. In this paper, we propose a novel supervised long-range correlation method for land-cover classification, called the supervised long-range correlation network (SLCNet), which is shown to be superior to the currently used unsupervised strategies. In SLCNet, pixels sharing the same category are considered highly correlated and those having different categories are less relevant, which can be easily supervised by the category consistency information available in the ground truth semantic segmentation map. Under such supervision, the recalibrated features are more consistent for pixels of the same category and more discriminative for pixels of other categories, regardless of their proximity. To complement the detailed information lacking in the global long-range correlation, we introduce an auxiliary adaptive receptive field feature extraction module, parallel to the long-range correlation module in the encoder, to capture finely detailed feature representations for multi-size objects in multi-scale remote sensing images. In addition, we apply multi-scale side-output supervision and a hybrid loss function as local and global constraints to further boost the segmentation accuracy. Experiments were conducted on three remote sensing datasets. Compared with the advanced segmentation methods from the computer vision, medicine, and remote sensing communities, the SLCNet achieved a state-of-the-art performance on all the datasets.
翻訳日:2023-09-11 13:54:50 公開日:2023-09-08
# 観測不能条件下でのオフラインリコメンダシステム評価

Offline Recommender System Evaluation under Unobserved Confounding ( http://arxiv.org/abs/2309.04222v1 )

ライセンス: Link先を確認
Olivier Jeunen and Ben London(参考訳) オフポリシー推定(OPE)手法により,ログデータから意思決定ポリシーを学習し,評価することができる。 これにより、リコメンデータシステムのオフライン評価に魅力的な選択となり、最近の研究でOPEメソッドの採用が成功していると報告されている。 この作業を行う重要な前提は、データ収集時にアクションと報酬の両方に影響を与えるランダム変数(unobserved confounders)が存在しないことである。 データ収集ポリシーは一般的に実践者の管理下にあるため、未確立の仮定はしばしば暗黙的に残され、その違反は既存の文献ではほとんど扱われない。 この研究は、観察されていない共同ファウンダーの存在下で、特にレコメンデーションユースケースに焦点を当てて、オフポリシー推定を行う際に生じる問題を強調することを目的としている。 ログデータからログの妥当性を学習するポリシベースの推定器に注目した。 本研究は,コンファウンディングによって生じる統計的バイアスを特徴とし,既存の診断がいかにしてそのような症例を解明できないかを示す。 バイアスは真と未観測のロギング確率に直接依存するため、識別不能である。 根拠のない仮定は、明らかにテスト不可能であるため、これは特に問題となる。 本稿では,この共通点を強調するが,しばしば見過ごされる。 合成データを用いて, コンファウンディング下のna\"ive propensity estimationが, レーダー下を飛べる重度のバイアス付きメトリック推定にどのようにつながるかを実証的に示す。 我々は,この重要な問題に対する研究者や実践者の意識を育み,その効果を緩和するための潜在的研究の方向性に触れることを目的としている。

Off-Policy Estimation (OPE) methods allow us to learn and evaluate decision-making policies from logged data. This makes them an attractive choice for the offline evaluation of recommender systems, and several recent works have reported successful adoption of OPE methods to this end. An important assumption that makes this work is the absence of unobserved confounders: random variables that influence both actions and rewards at data collection time. Because the data collection policy is typically under the practitioner's control, the unconfoundedness assumption is often left implicit, and its violations are rarely dealt with in the existing literature. This work aims to highlight the problems that arise when performing off-policy estimation in the presence of unobserved confounders, specifically focusing on a recommendation use-case. We focus on policy-based estimators, where the logging propensities are learned from logged data. We characterise the statistical bias that arises due to confounding, and show how existing diagnostics are unable to uncover such cases. Because the bias depends directly on the true and unobserved logging propensities, it is non-identifiable. As the unconfoundedness assumption is famously untestable, this becomes especially problematic. This paper emphasises this common, yet often overlooked issue. Through synthetic data, we empirically show how na\"ive propensity estimation under confounding can lead to severely biased metric estimates that are allowed to fly under the radar. We aim to cultivate an awareness among researchers and practitioners of this important problem, and touch upon potential research directions towards mitigating its effects.
翻訳日:2023-09-11 13:54:03 公開日:2023-09-08
# 共同グループテスト

Concomitant Group Testing ( http://arxiv.org/abs/2309.04221v1 )

ライセンス: Link先を確認
Thach V. Bui, Jonathan Scarlett(参考訳) 本稿では,ポジティブテストには項目の複数の ``types'' の組み合わせが必要であるという概念を捉えた,グループテスト問題のバリエーションを紹介する。 具体的には、複数のdisjoint \emph{semi-defective sets} が存在し、テストが正であることと、それがこれらの集合から少なくとも1つのアイテムを含むことであると仮定する。 目標は、できるだけ少数のテストを使って、すべての半欠陥集合を確実に識別することであり、この問題を \textit{Concomitant Group Testing} (ConcGT) と呼ぶ。 このタスクの様々なアルゴリズムを導出し、主に2つの半完備集合が存在する場合に焦点を当てる。 我々のアルゴリズムは区別される 一 決定的(ゼロエラー)であるか、ランダム化(小エラー)であるか、及び (二)非適応的、完全適応的、又は限定適応性(二・三段階など)があるか。 我々の決定論的適応アルゴリズムとランダム化アルゴリズム(非適応的あるいは限定的適応性)は、幅広いスケールの関心事において順序最適であり、中間ステップ(ハイパーグラフ学習など)としてより一般的な問題の解法に基づくベースライン結果よりも大幅に改善される。

In this paper, we introduce a variation of the group testing problem capturing the idea that a positive test requires a combination of multiple ``types'' of item. Specifically, we assume that there are multiple disjoint \emph{semi-defective sets}, and a test is positive if and only if it contains at least one item from each of these sets. The goal is to reliably identify all of the semi-defective sets using as few tests as possible, and we refer to this problem as \textit{Concomitant Group Testing} (ConcGT). We derive a variety of algorithms for this task, focusing primarily on the case that there are two semi-defective sets. Our algorithms are distinguished by (i) whether they are deterministic (zero-error) or randomized (small-error), and (ii) whether they are non-adaptive, fully adaptive, or have limited adaptivity (e.g., 2 or 3 stages). Both our deterministic adaptive algorithm and our randomized algorithms (non-adaptive or limited adaptivity) are order-optimal in broad scaling regimes of interest, and improve significantly over baseline results that are based on solving a more general problem as an intermediate step (e.g., hypergraph learning).
翻訳日:2023-09-11 13:53:39 公開日:2023-09-08
# Score-PA: スコアベースの3D部品アセンブリ

Score-PA: Score-based 3D Part Assembly ( http://arxiv.org/abs/2309.04220v1 )

ライセンス: Link先を確認
Junfeng Cheng, Mingdong Wu, Ruiyuan Zhang, Guanqi Zhan, Chao Wu, Hao Dong(参考訳) 自律的な3D部品組み立ては、ロボット工学と3Dコンピュータビジョンの分野で難しい課題である。 このタスクは、事前に定義された命令に頼ることなく、個々のコンポーネントを完全な形で組み立てることを目的としている。 本稿では,Score-based 3D Part Assembly framework (Score-PA) を導入し,この課題を新たな生成的視点から定式化する。 スコアベースのメソッドは、推論段階では通常時間がかかります。 この問題に対処するため,FPC(Fast Predictor-Corrector Sampler)と呼ばれる新しいアルゴリズムを導入し,フレームワーク内のサンプリングプロセスを高速化する。 我々は,集合の質と多様性を評価するために,様々な指標を用いて評価を行った。 コードをhttps://github.com/J-F-Cheng/Score-PA_Score-based-3D-Part-Assemblyでリリースします。

Autonomous 3D part assembly is a challenging task in the areas of robotics and 3D computer vision. This task aims to assemble individual components into a complete shape without relying on predefined instructions. In this paper, we formulate this task from a novel generative perspective, introducing the Score-based 3D Part Assembly framework (Score-PA) for 3D part assembly. Knowing that score-based methods are typically time-consuming during the inference stage. To address this issue, we introduce a novel algorithm called the Fast Predictor-Corrector Sampler (FPC) that accelerates the sampling process within the framework. We employ various metrics to assess assembly quality and diversity, and our evaluation results demonstrate that our algorithm outperforms existing state-of-the-art approaches. We release our code at https://github.com/J-F-Cheng/Score-PA_Score-based-3D-Part-Assembly.
翻訳日:2023-09-11 13:53:16 公開日:2023-09-08
# 光子ペア源の光子数分布と導出特性の推定

Estimation of photon number distribution and derivative characteristics of photon-pair sources ( http://arxiv.org/abs/2309.04217v1 )

ライセンス: Link先を確認
Sang Min Lee(参考訳) 光子ペア源の評価には、光子ペア発生率、発散効率、二階相関関数などの指標が使われ、これらはすべて光源の光子数分布によって決定される。 しかし、これらの測定値は、スペクトルまたは空間的なフィルタリングと光学的損失によって変化し、計量特性が変化する。 本稿では,光子数分布の変化と雑音数の影響について理論的に述べる。 また,これらの特性と光子数分布を推定するための従来の手法について検討する。 さらに,光子数分布を推定し,光子対情報源に着目し,推定(あるいは再構成)光子数分布から算出した特性の精度をシミュレーションや実験により検討する手法を提案する。

The evaluation of a photon-pair source employs metrics like photon-pair generation rate, heralding efficiency, and second-order correlation function, all of which are determined by the photon number distribution of the source. These metrics, however, can be altered due to spectral or spatial filtering and optical losses, leading to changes in the metric characteristics. In this paper, we theoretically describe these changes in the photon number distribution and the effect of noise counts. We also review the previous methods used for estimating these characteristics and the photon number distribution. Moreover, we introduce an improved methodology for estimating the photon number distribution, focusing on photon-pair sources, and discuss the accuracy of the calculated characteristics from the estimated (or reconstructed) photon number distribution through simulations and experiments.
翻訳日:2023-09-11 13:53:02 公開日:2023-09-08
# UQ at #SMM4H 2023: ALEX for Public Health Analysis with Social Media

UQ at #SMM4H 2023: ALEX for Public Health Analysis with Social Media ( http://arxiv.org/abs/2309.04213v1 )

ライセンス: Link先を確認
Yan Jiang, Ruihong Qiu, Yi Zhang, Zi Huang(参考訳) ソーシャルメディアの人気が高まるにつれ、公衆衛生に関する活動がますます増えていく。 公衆衛生分析の現在の技術は、BERTや大規模言語モデル(LLM)のような一般的なモデルを含んでいる。 しかし、公衆衛生のためのドメイン内LCMのトレーニングのコストは特に高い。 さらに、ソーシャルメディアからのそのようなドメイン内データセットは、一般的に不均衡である。 これらの課題に取り組むために、データの強化とバランスのとれたトレーニングによって、データの不均衡を克服できる。 また、モデルを適切に促すことで、llmの能力を有効に活用することができる。 本稿では, LLM の説明機構を採用することで, ソーシャルメディア上での公衆衛生分析の性能向上を図るための新しい ALEX フレームワークを提案する。 その結果,ALEXモデルでは第2タスクと第4タスクの両方で,第1タスクは第2023ソーシャルメディアマイニング(SMM4H)[1]で高いスコアを示した。 私たちのコードはhttps:// github.com/YanJiangJerry/ALEXでリリースされています。

As social media becomes increasingly popular, more and more activities related to public health emerge. Current techniques for public health analysis involve popular models such as BERT and large language models (LLMs). However, the costs of training in-domain LLMs for public health are especially expensive. Furthermore, such kinds of in-domain datasets from social media are generally imbalanced. To tackle these challenges, the data imbalance issue can be overcome by data augmentation and balanced training. Moreover, the ability of the LLMs can be effectively utilized by prompting the model properly. In this paper, a novel ALEX framework is proposed to improve the performance of public health analysis on social media by adopting an LLMs explanation mechanism. Results show that our ALEX model got the best performance among all submissions in both Task 2 and Task 4 with a high score in Task 1 in Social Media Mining for Health 2023 (SMM4H)[1]. Our code has been released at https:// github.com/YanJiangJerry/ALEX.
翻訳日:2023-09-11 13:52:46 公開日:2023-09-08
# 局所誘導型逐次アルゴリズムによる実例説明

Counterfactual Explanations via Locally-guided Sequential Algorithmic Recourse ( http://arxiv.org/abs/2309.04211v1 )

ライセンス: Link先を確認
Edward A. Small, Jeffrey N. Clark, Christopher J. McWilliams, Kacper Sokol, Jeffrey Chan, Flora D. Salim, Raul Santos-Rodriguez(参考訳) アルゴリズムによるリコースによって操作される対物は、人工知能システムを説明するための強力なツールとなっている。 概念的には、y に分類される個人 -- 事実 -- が与えられた場合、予測が所望のクラス y' となるような行動を求める。 このプロセスは、(1)カスタマイズや解釈が簡単で、(2)個々の目標と直接一致したアルゴリズムによる会話を提供する。 しかし、「良い」反事実の性質はいまだに大半が議論されている; 反事実とそれに対応する関係を効果的に見つけ出すことは、未解決の課題である。 グラデーション駆動の手法を用いる戦略もあるが、これらの戦略は帰納法の可否を保証せず、注意深く作られた多様体に対する敵対的攻撃に対してオープンである。 これは不公平と堅牢性の欠如につながる可能性がある。 他の方法はデータ駆動型で、主にトレーニングデータセット全体にアクセスする必要があるため、プライバシ、セキュリティ、機密を犠牲にして実現可能性の問題に対処する。 そこで本研究では,アルゴリズムのそれぞれのステップにおいて,局所的に取得した情報を用いて,現実的かつ実用的な対実的説明を構成するモデルに依存しない手法であるLocalFACEを紹介する。 提案手法では, ユーザのプライバシを, 行動可能なアルゴリズムによる会話の構築に必要なデータのみを活用することで保護し, 介入に必要な領域にのみ透明性を提供することで, モデルを保護する。

Counterfactuals operationalised through algorithmic recourse have become a powerful tool to make artificial intelligence systems explainable. Conceptually, given an individual classified as y -- the factual -- we seek actions such that their prediction becomes the desired class y' -- the counterfactual. This process offers algorithmic recourse that is (1) easy to customise and interpret, and (2) directly aligned with the goals of each individual. However, the properties of a "good" counterfactual are still largely debated; it remains an open challenge to effectively locate a counterfactual along with its corresponding recourse. Some strategies use gradient-driven methods, but these offer no guarantees on the feasibility of the recourse and are open to adversarial attacks on carefully created manifolds. This can lead to unfairness and lack of robustness. Other methods are data-driven, which mostly addresses the feasibility problem at the expense of privacy, security and secrecy as they require access to the entire training data set. Here, we introduce LocalFACE, a model-agnostic technique that composes feasible and actionable counterfactual explanations using locally-acquired information at each step of the algorithmic recourse. Our explainer preserves the privacy of users by only leveraging data that it specifically requires to construct actionable algorithmic recourse, and protects the model by offering transparency solely in the regions deemed necessary for the intervention.
翻訳日:2023-09-11 13:52:33 公開日:2023-09-08
# 原子干渉法による垂直暗黒物質検出器の最適ベースライン利用

Optimal baseline exploitation in vertical dark-matter detectors based on atom interferometry ( http://arxiv.org/abs/2309.04207v1 )

ライセンス: Link先を確認
Fabio Di Pumpo, Alexander Friedrich, Enno Giese(参考訳) 長距離原子干渉計に基づく重力波やダークマターの地球外検出器は、現在、最終計画段階か既に建設中である。 これらの垂直センサーは本質的に重力の影響を受けるため、大きな運動量移動のために単光子遷移を用いるグラディメータやマルチグラディメータの構成が特徴である。 これらの実験を有害なノイズ源に対して最適化したり、彼らのプロジェクテッドサイトへのデプロイには大きな進展がありますが、利用可能なリソースを最大限に活用するための最適な構成を見つけることは、まだ未解決の問題です。 さらには、デバイスの感度の基本的な限界がまだ欠落している。 ここでこのギャップを埋めてみましょう (a)マルチダイアモンド噴水放射計に基づく共鳴モード検出器は、その高さが利用可能なベースラインの20%を構成する場合に最適なショットノイズ制限を実現できる。 (b)この限界はダークマッター発振周波数とは無関係である。 (c)基準線を2倍にすると、最終的な測定の不確かさが約65%減少する。

Several terrestrial detectors for gravitational waves and dark matter based on long-baseline atom interferometry are currently in the final planning stages or already under construction. These upcoming vertical sensors are inherently subject to gravity and thus feature gradiometer or multi-gradiometer configurations using single-photon transitions for large momentum transfer. While there has been significant progress on optimizing these experiments against detrimental noise sources and for deployment at their projected sites, finding optimal configurations that make the best use of the available resources are still an open issue. Even more, the fundamental limit of the device's sensitivity is still missing. Here we fill this gap and show that (a) resonant-mode detectors based on multi-diamond fountain gradiometers achieve the optimal, shot-noise limited, sensitivity if their height constitutes 20% of the available baseline; (b) this limit is independent of the dark-matter oscillation frequency; and (c) doubling the baseline decreases the ultimate measurement uncertainty by approximately 65%.
翻訳日:2023-09-11 13:52:10 公開日:2023-09-08
# CALLAデータセット:中国医学からLLMの対話的知識獲得を探る

The CALLA Dataset: Probing LLMs' Interactive Knowledge Acquisition from Chinese Medical Literature ( http://arxiv.org/abs/2309.04198v1 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Yuhan Chen, Rai Bai, Jing Liu, Hua Wu, Haifeng Wang, Bing Qin(参考訳) 医学領域への大規模言語モデル(llm)の適用は研究者の関心を刺激している。 近年, LLMのインタラクティブな医療知識を充実させるために, 医用知識グラフを用いたIFTデータの構築に焦点が当てられている。 しかし、医学知識の豊富な情報源としての医学文献は未解明のままである。 我々の研究は、中国医学文献からLLMの対話的知識獲得を探索するCALLAデータセットを導入している。 フリーダイアログのファクトチェックタスクを通じて、医学知識を習得するLLMの能力を評価する。 我々は, LLMが疑問に言及した事実を肯定し, 異議を唱える反感を呈する, ‘fact-following response` と呼ばれる現象を同定する。 この現象による不正確な評価を排除するために、ゴールデン・ファクトのために、私たちは2つの視点から人工的にテストデータを構築します。 カルタデータセットの探索実験から,iftデータを医学文献コーパスと高度に相関させることで,llmの強力な触媒となり,対話型シナリオにおける事前学習段階で得られた医学知識を巧みに活用し,精度を向上させることができると結論づけた。 さらに,医学文献に基づくiftデータの自動構築のためのフレームワークを設計し,実世界の応用について考察する。

The application of Large Language Models (LLMs) to the medical domain has stimulated the interest of researchers. Recent studies have focused on constructing Instruction Fine-Tuning (IFT) data through medical knowledge graphs to enrich the interactive medical knowledge of LLMs. However, the medical literature serving as a rich source of medical knowledge remains unexplored. Our work introduces the CALLA dataset to probe LLMs' interactive knowledge acquisition from Chinese medical literature. It assesses the proficiency of LLMs in mastering medical knowledge through a free-dialogue fact-checking task. We identify a phenomenon called the ``fact-following response``, where LLMs tend to affirm facts mentioned in questions and display a reluctance to challenge them. To eliminate the inaccurate evaluation caused by this phenomenon, for the golden fact, we artificially construct test data from two perspectives: one consistent with the fact and one inconsistent with the fact. Drawing from the probing experiment on the CALLA dataset, we conclude that IFT data highly correlated with the medical literature corpus serves as a potent catalyst for LLMs, enabling themselves to skillfully employ the medical knowledge acquired during the pre-training phase within interactive scenarios, enhancing accuracy. Furthermore, we design a framework for automatically constructing IFT data based on medical literature and discuss some real-world applications.
翻訳日:2023-09-11 13:51:53 公開日:2023-09-08
# データセット蒸留におけるアーキテクチャオーバーフィッティングの軽減に向けて

Towards Mitigating Architecture Overfitting in Dataset Distillation ( http://arxiv.org/abs/2309.04195v1 )

ライセンス: Link先を確認
Xuyang Zhong, Chen Liu(参考訳) データセットの蒸留法は、非常に限られたトレーニングデータで訓練されたニューラルネットワークの顕著な性能を示している。 特定のネットワークアーキテクチャ(例えば、トレーニングネットワーク)によって合成された蒸留されたトレーニングデータは、他のネットワークアーキテクチャ(例えば、テストネットワーク)によってトレーニングされた場合、性能が低下する。 本稿では, 蒸留訓練データ上で異なるネットワークアーキテクチャをまたいだ一般化性能を向上させるため, アーキテクチャ設計とトレーニングスキームの両方において, 一連のアプローチを提案する。 提案手法の有効性と汎用性を実証するための広範な実験を行った。 特に, 蒸留データの大きさの異なる様々なシナリオにおいて, 蒸留データに対するトレーニングにおいて, 既存の手法と同等ないし優れた性能を達成している。

Dataset distillation methods have demonstrated remarkable performance for neural networks trained with very limited training data. However, a significant challenge arises in the form of architecture overfitting: the distilled training data synthesized by a specific network architecture (i.e., training network) generates poor performance when trained by other network architectures (i.e., test networks). This paper addresses this issue and proposes a series of approaches in both architecture designs and training schemes which can be adopted together to boost the generalization performance across different network architectures on the distilled training data. We conduct extensive experiments to demonstrate the effectiveness and generality of our methods. Particularly, across various scenarios involving different sizes of distilled data, our approaches achieve comparable or superior performance to existing methods when training on the distilled data using networks with larger capacities.
翻訳日:2023-09-11 13:51:26 公開日:2023-09-08
# スパースからデンスへ:密度プロンプトの連鎖によるGPT-4の要約

From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting ( http://arxiv.org/abs/2309.04269v1 )

ライセンス: Link先を確認
Griffin Adams, Alexander Fabbri, Faisal Ladhak, Eric Lehman, No\'emie Elhadad(参考訳) 要約に含まれる情報の ``right'' 量を選択するのは難しい作業です。 優れた要約は、過度に密集し、従うのが難しいことなく、詳細でエンティティ中心であるべきです。 このトレードオフをよりよく理解するために、我々はより密集した GPT-4 の要約を '`Chain of Density'' (CoD) プロンプトと呼ぶものと比較する。 具体的には、GPT-4は、長さを増大させることなく、欠落した健全な実体を反復的に組み込む前に、初期エンティティスパース要約を生成する。 CoDが生成するサマリーはより抽象的で、核融合性が高く、バニラプロンプトによって生成されるGPT-4サマリーよりも鉛バイアスが少ない。 我々は,100件のCNN DailyMail記事に対するヒトの嗜好調査を行い,ヒトは,バニラプロンプトが生成するものよりもGPT-4サマリーの方が好んでいて,人文サマリーと同程度に密度が高いことを見出した。 質的分析は、情報性と可読性の間にトレードオフが存在するという考えを支持する。 500の注釈付きcodサマリーと5000の注釈なしサマリーは、hughingfaceで自由に利用できる(https://huggingface.co/datasets/griffin/chain_of_density)。

Selecting the ``right'' amount of information to include in a summary is a difficult task. A good summary should be detailed and entity-centric without being overly dense and hard to follow. To better understand this tradeoff, we solicit increasingly dense GPT-4 summaries with what we refer to as a ``Chain of Density'' (CoD) prompt. Specifically, GPT-4 generates an initial entity-sparse summary before iteratively incorporating missing salient entities without increasing the length. Summaries generated by CoD are more abstractive, exhibit more fusion, and have less of a lead bias than GPT-4 summaries generated by a vanilla prompt. We conduct a human preference study on 100 CNN DailyMail articles and find that that humans prefer GPT-4 summaries that are more dense than those generated by a vanilla prompt and almost as dense as human written summaries. Qualitative analysis supports the notion that there exists a tradeoff between informativeness and readability. 500 annotated CoD summaries, as well as an extra 5,000 unannotated summaries, are freely available on HuggingFace (https://huggingface.co/datasets/griffin/chain_of_density).
翻訳日:2023-09-11 13:46:32 公開日:2023-09-08
# 大次元におけるカーネル回帰の最適速度

Optimal Rate of Kernel Regression in Large Dimensions ( http://arxiv.org/abs/2309.04268v1 )

ライセンス: Link先を確認
Weihao Lu, Haobo Zhang, Yicheng Li, Manyun Xu, Qian Lin(参考訳) 我々は、大次元データに対するカーネル回帰(サンプルサイズ$n$ は、いくつかの$\gamma >0$ に対して、サンプルの次元 $d$ に依存する多項式である)の研究を行う。 まず、メンデルソン複雑性 $\varepsilon_{n}^{2}$ と計量エントロピー $\bar{\varepsilon}_{n}^{2}$ を通じて、大次元データに対するカーネル回帰の上限と最小値の下限を特徴付ける一般的なツールを構築した。 対象関数が $\mathbb{s}^{d}$ で定義される(一般的な)内積モデルに付随する rkhs に陥ると、新しいツールを用いて、カーネル回帰の過剰なリスクのミニマックスレートが $n^{-1/2}$ であるとき、$n\asymp d^{\gamma}$ が $\gamma =2, 4, 6, 8, \cdots$ であるときに示す。 さらに、すべての$\gamma>0$ に対するカーネル回帰の過剰リスクの最適確率を判定し、$\gamma$ に沿って変化する最適速度の曲線が「it多重降下挙動」や「it周期台座挙動」を含むいくつかの新しい現象を示すことを見出した。 応用として、ニューラル・タンジェント・カーネル(NTK)については、同様に最適な速度の曲線を明示的に記述する。 直接的な分類として、これらの主張は広いニューラルネットワークにも当てはまる。

We perform a study on kernel regression for large-dimensional data (where the sample size $n$ is polynomially depending on the dimension $d$ of the samples, i.e., $n\asymp d^{\gamma}$ for some $\gamma >0$ ). We first build a general tool to characterize the upper bound and the minimax lower bound of kernel regression for large dimensional data through the Mendelson complexity $\varepsilon_{n}^{2}$ and the metric entropy $\bar{\varepsilon}_{n}^{2}$ respectively. When the target function falls into the RKHS associated with a (general) inner product model defined on $\mathbb{S}^{d}$, we utilize the new tool to show that the minimax rate of the excess risk of kernel regression is $n^{-1/2}$ when $n\asymp d^{\gamma}$ for $\gamma =2, 4, 6, 8, \cdots$. We then further determine the optimal rate of the excess risk of kernel regression for all the $\gamma>0$ and find that the curve of optimal rate varying along $\gamma$ exhibits several new phenomena including the {\it multiple descent behavior} and the {\it periodic plateau behavior}. As an application, For the neural tangent kernel (NTK), we also provide a similar explicit description of the curve of optimal rate. As a direct corollary, we know these claims hold for wide neural networks as well.
翻訳日:2023-09-11 13:46:04 公開日:2023-09-08
# 位置と運動量作用素の基本的な分解基は、分解基環の総集合を形成する

The basic resolvents of position and momentum operators form a total set in the resolvent algebra ( http://arxiv.org/abs/2309.04263v1 )

ライセンス: Link先を確認
Detlev Buchholz and Teun D.H. van Nuland(参考訳) Q と P を1次元の粒子の位置と運動量作用素とする。 実定数 a,b,r=/=0 に対する基本分解基 (aQ + bP - i r)^{-1} の線型結合により、すべてのコンパクト作用素がノルムで近似できることが示されている。 これは、基本分解基が、分解基によって生成される C*-代数 R の全体集合(ノルム密度スパン)を形成することを意味する。 したがって、基本分解剤はこの性質をワイル代数にまたがるユニタリワイル作用素と共有する。 これらの結果は任意の次元の粒子の有限系に対して得られる。 有限生成部分代数(英語版)の帰納的極限である無限系(量子場)の解決代数学もまた、その基本解法によってまたがる。

Let Q and P be the position and momentum operators of a particle in one dimension. It is shown that all compact operators can be approximated in norm by linear combinations of the basic resolvents (aQ + bP - i r)^{-1} for real constants a,b,r=/=0. This implies that the basic resolvents form a total set (norm dense span) in the C*-algebra R generated by the resolvents, termed resolvent algebra. So the basic resolvents share this property with the unitary Weyl operators, which span the Weyl algebra. These results obtain for finite systems of particles in any number of dimensions. The resolvent algebra of infinite systems (quantum fields), being the inductive limit of its finitely generated subalgebras, is likewise spanned by its basic resolvents.
翻訳日:2023-09-11 13:45:29 公開日:2023-09-08
# LLMCad: 高速でスケーラブルなデバイス上の大規模言語モデル推論

LLMCad: Fast and Scalable On-device Large Language Model Inference ( http://arxiv.org/abs/2309.04255v1 )

ライセンス: Link先を確認
Daliang Xu, Wangsong Yin, Xin Jin, Ying Zhang, Shiyun Wei, Mengwei Xu, and Xuanzhe Liu(参考訳) テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの分野で重要な位置を占めています。 プライバシの懸念に対する感受性のため、モバイルデバイス上で直接実行することの需要が高まっている。 現在、これらの生成タスクの実行はLarge Language Models (LLM) に大きく依存している。 それでも、これらのデバイスのメモリ容量の制限は、そのようなモデルのスケーラビリティに深刻な課題をもたらす。 本研究では,効率的な生成自然言語処理(NLP)タスク用に設計された,革新的なオンデバイス推論エンジンであるLLMCadを紹介する。 LLMCadの基本的な考え方は、モデルコラボレーションを中心に展開されている。メモリ上に存在するコンパクトなLLMは、最も単純なトークンの生成を担い、高精度なLLMは、これらのトークンの検証と特定されたエラーの修正を行う。 llmcadには3つの新しいテクニックが組み込まれている: (1) 候補トークンを逐次生成するのではなく、より小さなllmを使用してトークンツリーを構築する。 その後、より大きなLSMはこれら全ての経路を同時に有効に検証することができる。 2) 自己調整型フォールバック戦略を採用し, 小さなLDMが誤ってトークンを生成すると, 検証処理を迅速に開始する。 (3) トークン生成の連続的なフローを確保するため,LLMCad は計算-IOパイプラインを実装することにより,検証プロセス中にトークンを投機的に生成する。 LLMCadは様々な実験を通じて、既存の推論エンジンよりも最大9.3倍高速なトークン生成速度を示す。

Generative tasks, such as text generation and question answering, hold a crucial position in the realm of mobile applications. Due to their sensitivity to privacy concerns, there is a growing demand for their execution directly on mobile devices. Currently, the execution of these generative tasks heavily depends on Large Language Models (LLMs). Nevertheless, the limited memory capacity of these devices presents a formidable challenge to the scalability of such models. In our research, we introduce LLMCad, an innovative on-device inference engine specifically designed for efficient generative Natural Language Processing (NLP) tasks. The core idea behind LLMCad revolves around model collaboration: a compact LLM, residing in memory, takes charge of generating the most straightforward tokens, while a high-precision LLM steps in to validate these tokens and rectify any identified errors. LLMCad incorporates three novel techniques: (1) Instead of generating candidate tokens in a sequential manner, LLMCad employs the smaller LLM to construct a token tree, encompassing a wider range of plausible token pathways. Subsequently, the larger LLM can efficiently validate all of these pathways simultaneously. (2) It employs a self-adjusting fallback strategy, swiftly initiating the verification process whenever the smaller LLM generates an erroneous token. (3) To ensure a continuous flow of token generation, LLMCad speculatively generates tokens during the verification process by implementing a compute-IO pipeline. Through an extensive series of experiments, LLMCad showcases an impressive token generation speed, achieving rates up to 9.3x faster than existing inference engines.
翻訳日:2023-09-11 13:45:16 公開日:2023-09-08
# 不規則スピン2ハイゼンベルク鎖のランダム一重項と置換対称性:テンソルネットワーク再正規化群の研究

Random singlets and permutation symmetry in the disordered spin-2 Heisenberg chain: A tensor network renormalization group study ( http://arxiv.org/abs/2309.04249v1 )

ライセンス: Link先を確認
Yen-Tung Lin, Shao-Fu Liu, Pochung Chen, Yu-Cheng Lin(参考訳) テンソルネットワーク再正規化法を用いて、交互結合強度分布を持つランダム$S=2$反強磁性ハイゼンベルク鎖を研究する。 ランダム性がない場合、結合の交互化は、S=2$ハルデン相と部分的に二量化相と完全に二量化相の間に2つの量子臨界点を誘導する。 これら3つの相は (\sigma$,$4-\sigma$)=(2,2), (3,1) および (4,0) 相と呼ばれ、偶数リンクにまたがって形成される$\sigma$ valence 結合と奇数リンク上の 4-\sigma$ valence bond によって特徴づけられる。 本研究では,二量化スピンチェーンの基底状態に対する結合ランダム性の影響について検討し,乱平均ツイストオーダーパラメータとスピン相関を計算する。 結合ランダム性の強さに応じてランダムなVBS位相のタイプをR$と二量化$D$で分類し、奇数/偶数$\sigma$のVBS位相の負の符号を持つツイスト次数パラメータを用いる。 以上の結果から, (2,2), (3,1) 相と (4,0) 相が一致する中間性障害における多臨界点の存在が示唆された。 この多重臨界点は$r$-$d$平面の3つの位相境界の接合点にある: (2,2)-(3,1) と (3,1)-(4,0) の境界はゼロランダム性に拡張され、(2,2)-(4,0) 位相境界は非二量化極限の別の多臨界点と接続する。 非二量化多重臨界点は、ギャップのないハルダン位相と無限ランダム臨界線を分離し、大きな$R$制限のD=0$で発散する動的臨界指数を持つ。 さらに、3,1)-(4,0)相境界を小額のr$でも無限ランダム臨界線と同定し、(2,2)-(3,1)相境界における無限ランダム性のシグネチャを多臨界点付近でのみ見つける。

We use a tensor network renormalization group method to study random $S=2$ antiferromagnetic Heisenberg chains with alternating bond strength distributions. In the absence of randomness, bond alternation induces two quantum critical points between the $S=2$ Haldane phase, a partially dimerized phase and a fully dimerized phase, depending on the strength of dimerization. These three phases, called ($\sigma$,$4-\sigma$)=(2,2), (3,1) and (4,0) phases, are valence-bond solid (VBS) states characterized by $\sigma$ valence bonds forming across even links and $4-\sigma$ valence bonds on odd links. Here we study the effects of bond randomness on the ground states of the dimerized spin chain, calculating disorder-averaged twist order parameters and spin correlations. We classify the types of random VBS phases depending on strength of bond randomness $R$ and the dimerization $D$ using the twist order parameter, which has a negative/positive sign for a VBS phase with odd/even $\sigma$. Our results demonstrate the existence of a multicritical point in the intermediate disorder regime with finite dimerization, where (2,2), (3,1) and (4,0) phases meet. This multicritical point is at the junction of three phase boundaries in the $R$-$D$ plane: the (2,2)-(3,1) and (3,1)-(4,0) boundaries that extend to zero randomness, and the (2,2)-(4,0) phase boundary that connects another multicritical point in the undimerized limit. The undimerized multicritical point separates a gapless Haldane phase and an infinite-randomness critical line with the diverging dynamic critical exponent in the large $R$ limit at $D=0$. Furthermore, we identify the (3,1)-(4,0) phase boundary as an infinite-randomness critical line even at small $R$, and find the signature of infinite randomness at the (2,2)-(3,1) phase boundary only in the vicinity of the multicritical point.
翻訳日:2023-09-11 13:44:50 公開日:2023-09-08
# 高忠実アバターの実用化に向けて

Towards Practical Capture of High-Fidelity Relightable Avatars ( http://arxiv.org/abs/2309.04247v1 )

ライセンス: Link先を確認
Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang, Chongyang Ma(参考訳) 本稿では,高忠実度3dアバターをキャプチャし,再構成するための新しいフレームワークであるトラバタールについて述べる。 従来の方法と比較して、TRAvatarはより実用的で効率的な環境で機能する。 特に、travatarは様々な照明条件下でライトステージでキャプチャされたダイナミックな画像シーケンスで訓練され、様々なシーンでアバターのリアルなリライトとリアルタイムアニメーションを可能にする。 さらに、TRAvatarはトラッキング不要なアバターキャプチャを可能にし、様々な照明条件下での正確な表面追跡の必要性を回避できる。 まず,照明の線形特性の満足度を明示的に構築し,保証する新しいネットワークアーキテクチャを提案する。 単純なグループ光キャプチャーで訓練されたTRAvatarは、1つの前方通過でリアルタイムで出現を予測でき、任意の環境マップの照明下で高品質な照明効果が得られる。 第2に, 顔の形状とスクラッチから再現可能な外観を協調的に最適化し, 追跡を暗黙的に学習する。 この追跡自由アプローチは、異なる照明条件下でフレーム間の時間対応を確立するために堅牢性をもたらす。 広範囲な質的定量的実験により,本フレームワークがフォトリアリスティックアバターアニメーションとリライトにおいて優れた性能を達成できることが証明された。

In this paper, we propose a novel framework, Tracking-free Relightable Avatar (TRAvatar), for capturing and reconstructing high-fidelity 3D avatars. Compared to previous methods, TRAvatar works in a more practical and efficient setting. Specifically, TRAvatar is trained with dynamic image sequences captured in a Light Stage under varying lighting conditions, enabling realistic relighting and real-time animation for avatars in diverse scenes. Additionally, TRAvatar allows for tracking-free avatar capture and obviates the need for accurate surface tracking under varying illumination conditions. Our contributions are two-fold: First, we propose a novel network architecture that explicitly builds on and ensures the satisfaction of the linear nature of lighting. Trained on simple group light captures, TRAvatar can predict the appearance in real-time with a single forward pass, achieving high-quality relighting effects under illuminations of arbitrary environment maps. Second, we jointly optimize the facial geometry and relightable appearance from scratch based on image sequences, where the tracking is implicitly learned. This tracking-free approach brings robustness for establishing temporal correspondences between frames under different lighting conditions. Extensive qualitative and quantitative experiments demonstrate that our framework achieves superior performance for photorealistic avatar animation and relighting.
翻訳日:2023-09-11 13:44:01 公開日:2023-09-08
# Adaptive Distributed Kernel Ridge Regression: データサイロのための実用的な分散学習スキーム

Adaptive Distributed Kernel Ridge Regression: A Feasible Distributed Learning Scheme for Data Silos ( http://arxiv.org/abs/2309.04236v1 )

ライセンス: Link先を確認
Di Wang, Xiaotong Liu, Shao-Bo Lin, Ding-Xuan Zhou(参考訳) データサイロは、主にプライバシと相互運用性によって引き起こされ、同じ目的で同様のデータを持つ異なる組織間のコラボレーションを著しく制限します。 分散学習による分散学習は、データサイロの解決に有望な手段を提供するが、自律性、プライバシー保証、コラボレーションの必要性など、いくつかの課題に悩まされている。 本稿では,パラメータ選択における自律性,非機密情報の通信におけるプライバシ,性能改善における協調の必要性を考慮し,適応型分散カーネルリッジ回帰(AdaDKRR)の開発に焦点をあてる。 我々は,AdaDKRRの理論的検証と包括的実験を行い,その実現可能性と有効性を示す。 理論的には、いくつかの穏やかな条件下では、AdaDKRRは、データ全体の最適学習アルゴリズムの実行と同様に、協調の必要性を検証し、同じ条件下では、他の分散学習方式が本質的にAdaDKRRに勝てないことを示す。 数値的にadadkrrをおもちゃシミュレーションと実世界の2つのアプリケーションの両方でテストし、adadkrrは他の分散学習方式よりも優れていることを示した。 これらの結果からadadkrrは、インテリジェントな意思決定、価格予測、製品のパフォーマンス予測など、多くのアプリケーション領域で非常に望まれるデータサイロに対して防御可能なスキームであることが分かる。

Data silos, mainly caused by privacy and interoperability, significantly constrain collaborations among different organizations with similar data for the same purpose. Distributed learning based on divide-and-conquer provides a promising way to settle the data silos, but it suffers from several challenges, including autonomy, privacy guarantees, and the necessity of collaborations. This paper focuses on developing an adaptive distributed kernel ridge regression (AdaDKRR) by taking autonomy in parameter selection, privacy in communicating non-sensitive information, and the necessity of collaborations in performance improvement into account. We provide both solid theoretical verification and comprehensive experiments for AdaDKRR to demonstrate its feasibility and effectiveness. Theoretically, we prove that under some mild conditions, AdaDKRR performs similarly to running the optimal learning algorithms on the whole data, verifying the necessity of collaborations and showing that no other distributed learning scheme can essentially beat AdaDKRR under the same conditions. Numerically, we test AdaDKRR on both toy simulations and two real-world applications to show that AdaDKRR is superior to other existing distributed learning schemes. All these results show that AdaDKRR is a feasible scheme to defend against data silos, which are highly desired in numerous application regions such as intelligent decision-making, pricing forecasting, and performance prediction for products.
翻訳日:2023-09-11 13:43:40 公開日:2023-09-08
# 変調下における冷原子の準積分性と非線形共鳴

Quasi-integrability and nonlinear resonances in cold atoms under modulation ( http://arxiv.org/abs/2309.04235v1 )

ライセンス: Link先を確認
Rahul Gupta, Manan Jain, Sudhir R. Jain(参考訳) 位相変調を受ける原子の集合の量子力学は注意深く再訪されている。 時間依存行列ハミルトニアン(英語版)の作用下での二段階系(スピノルによって表される)の進化を正確に解析する。 ダイナミクスは2つの結合したポテンシャルエネルギー表面で進化し、そのうちの1つは結合し、もう1つは散乱型である。 力学は非線形共鳴と準可積分であることが示されている。 ランダムモーメントにおける断続散乱を伴う有界ダイナミクスは、アンダーソンに類似したシナリオと動的局在を示す。 古典的に非可積分な多成分系を注意深く解析することは、マルチ量子ビット系による量子計算を含む他の多くの分野と関係があると信じている。

Quantum dynamics of a collection of atoms subjected to phase modulation has been carefully revisited. We present an exact analysis of the evolution of a two-level system (represented by a spinor) under the action of a time-dependent matrix Hamiltonian. The dynamics is shown to evolve on two coupled potential energy surfaces, one of them binding while the other one scattering type. The dynamics is shown to be quasi-integrable with nonlinear resonances. The bounded dynamics with intermittent scattering at random moments presents the scenario reminiscent to Anderson and dynamical localization. We believe that a careful analytical investigation of a multi-component system which is classically non-integrable is relevant to many other fields, including quantum computation with multi-qubit system.
翻訳日:2023-09-11 13:43:14 公開日:2023-09-08
# フォトニック量子情報技術のための量子ドット

Quantum dots for photonic quantum information technology ( http://arxiv.org/abs/2309.04229v1 )

ライセンス: Link先を確認
Tobias Heindel, Je-Hyung Kim, Niels Gregersen, Armando Rastelli, Stephan Reitzenstein(参考訳) 単一光子の生成、操作、保存、検出は、新しいフォトニック量子情報技術において中心的な役割を果たす。 個々の光子は空飛ぶ量子ビットとして機能し、量子ネットワークの個々のノード間で高速かつ低損失で量子情報を送信する。 量子力学の法則により、量子通信は基本的にタップ耐性があり、現代の情報技術に対する大きな関心を説明する。 一方、量子コンピュータにおける定常量子ビットやフォトニック状態は、並列データ処理による性能の大幅な向上につながる可能性があり、量子優位性が達成されたときの特定のタスクにおける古典的コンピュータよりも優れている。 本稿では、フォトニック量子情報技術における量子ドット(qds)の最大ポテンシャルについて深く論じる。 この文脈では、QDは1つの光子をオンデマンドで生成できるため、量子通信ネットワークとフォトニック量子コンピュータの実装のための重要なリソースを形成する。 さらに、qdsは成熟した半導体技術と互換性があり、量子光源や集積フォトニック量子回路の基礎となるナノフォトニクス構造に比較的容易に統合できる。 本稿では,最近の数値計算手法とデバイス設計の理論的アプローチ,量子ドットデバイスの物理的記述について述べる。 次に、エピタキシャル成長とqdsに基づく量子デバイスの決定論的ナノプロセッシングのための最新の手法と技術解を提案する。 さらに,単一qdを有効成分として含む量子光源とフォトニック量子回路について,最も有望な概念を示し,フォトニック量子情報技術におけるこれらの新しいデバイスの適用について論じる。 我々は、オープンな問題の概要と将来の発展の展望を詳述する。

The generation, manipulation, storage, and detection of single photons play a central role in emerging photonic quantum information technology. Individual photons serve as flying qubits and transmit the quantum information at high speed and with low losses, for example between individual nodes of quantum networks. Due to the laws of quantum mechanics, quantum communication is fundamentally tap-proof, which explains the enormous interest in this modern information technology. On the other hand, stationary qubits or photonic states in quantum computers can potentially lead to enormous increases in performance through parallel data processing, to outperform classical computers in specific tasks when quantum advantage is achieved. Here, we discuss in depth the great potential of quantum dots (QDs) in photonic quantum information technology. In this context, QDs form a key resource for the implementation of quantum communication networks and photonic quantum computers because they can generate single photons on-demand. Moreover, QDs are compatible with the mature semiconductor technology, so that they can be integrated comparatively easily into nanophotonic structures, which form the basis for quantum light sources and integrated photonic quantum circuits. After a thematic introduction, we present modern numerical methods and theoretical approaches to device design and the physical description of quantum dot devices. We then present modern methods and technical solutions for the epitaxial growth and for the deterministic nanoprocessing of quantum devices based on QDs. Furthermore, we present the most promising concepts for quantum light sources and photonic quantum circuits that include single QDs as active elements and discuss applications of these novel devices in photonic quantum information technology. We close with an overview of open issues and an outlook on future developments.
翻訳日:2023-09-11 13:43:04 公開日:2023-09-08
# FIVA: 顔とビデオの匿名化と匿名化防衛

FIVA: Facial Image and Video Anonymization and Anonymization Defense ( http://arxiv.org/abs/2309.04228v1 )

ライセンス: Link先を確認
Felix Rosberg, Eren Erdal Aksoy, Cristofer Englund, Fernando Alonso-Fernandez(参考訳) 本稿では,fivaと略される画像と動画における顔匿名化のための新しいアプローチを提案する。 提案手法は,同一の顔の匿名化をフレーム上で一貫して維持し,元の顔との強い差異を保証できる。 FIVA は偽の受け入れ率 0.001 に対して 0 true の正を許す。 本研究は,レコンストラクション攻撃の重要なセキュリティ課題を考察し,レコンストラクション攻撃を妨害する敵騒音,一様雑音,パラメータノイズについて検討する。 本稿では,FIVAのスケーラビリティを実証するために,これらプライバシの脅威に対して異なる防御・保護手法を適用する。 さらに, 再現攻撃モデルを用いて, ディープフェイクの検出が可能であることも確認した。 最後に、FIVAが顔のスワップまで可能であり、単一のターゲット画像上で純粋に訓練されていることを示す実験結果を示す。

In this paper, we present a new approach for facial anonymization in images and videos, abbreviated as FIVA. Our proposed method is able to maintain the same face anonymization consistently over frames with our suggested identity-tracking and guarantees a strong difference from the original face. FIVA allows for 0 true positives for a false acceptance rate of 0.001. Our work considers the important security issue of reconstruction attacks and investigates adversarial noise, uniform noise, and parameter noise to disrupt reconstruction attacks. In this regard, we apply different defense and protection methods against these privacy threats to demonstrate the scalability of FIVA. On top of this, we also show that reconstruction attack models can be used for detection of deep fakes. Last but not least, we provide experimental results showing how FIVA can even enable face swapping, which is purely trained on a single target image.
翻訳日:2023-09-11 13:42:37 公開日:2023-09-08
# AMLP:自己監督型医用画像分割のための適応型マスキング病変パッチ

AMLP:Adaptive Masking Lesion Patches for Self-supervised Medical Image Segmentation ( http://arxiv.org/abs/2309.04312v1 )

ライセンス: Link先を確認
Xiangtao Wang, Ruizhi Wang, Jie Zhou, Thomas Lukasiewicz, Zhenghua Xu(参考訳) 自己監督型マスク画像モデリングは自然画像に対して有望な結果を示した。 しかし,このような手法を医用画像に直接適用することは依然として困難である。 この難しさは、効果的な表現学習を妨げる自然画像と比較して、病変の複雑さと特徴的な特徴に起因する。 さらに、従来の高固定マスク比は、詳細な病変の再構築を制限し、学習可能な情報の範囲を制限する。 これらの制約に対処するために,新しい自己監督型医用画像分割フレームワーク,Adaptive Masking Lesion Patches (AMLP)を提案する。 具体的には,Masked Patch Selection (MPS) 戦略を設計し,病変を含むパッチを学習する。 病変領域は少ないが重要であり、正確な再建が不可欠である。 mpsにおける非教師付きクラスタリングによる病変と背景パッチの誤分類を減らすために,注意再構成損失(arl)を導入し,病変を描写する可能性のある再構成困難パッチに着目した。 さらに,再建困難度に基づいてパッチ分類を洗練し,病変と背景の区別を強化するカテゴリ一貫性損失(CCL)を提案する。 さらに,マスキング比を徐々に増加させ,再構成可能な情報を拡大し,学習を改善する適応マスキング比 (adaptive masking ratio, amr) 戦略を開発した。 2つの医療セグメンテーションデータセットに対する大規模な実験は、既存の自己管理アプローチと比較して、AMLPの優れたパフォーマンスを示している。 提案手法は, セグメンテーション作業に不可欠な微細な病変を捉えるのに適した, マスクド・モデリングを医療画像に適用する際の限界を効果的に解決する。

Self-supervised masked image modeling has shown promising results on natural images. However, directly applying such methods to medical images remains challenging. This difficulty stems from the complexity and distinct characteristics of lesions compared to natural images, which impedes effective representation learning. Additionally, conventional high fixed masking ratios restrict reconstructing fine lesion details, limiting the scope of learnable information. To tackle these limitations, we propose a novel self-supervised medical image segmentation framework, Adaptive Masking Lesion Patches (AMLP). Specifically, we design a Masked Patch Selection (MPS) strategy to identify and focus learning on patches containing lesions. Lesion regions are scarce yet critical, making their precise reconstruction vital. To reduce misclassification of lesion and background patches caused by unsupervised clustering in MPS, we introduce an Attention Reconstruction Loss (ARL) to focus on hard-to-reconstruct patches likely depicting lesions. We further propose a Category Consistency Loss (CCL) to refine patch categorization based on reconstruction difficulty, strengthening distinction between lesions and background. Moreover, we develop an Adaptive Masking Ratio (AMR) strategy that gradually increases the masking ratio to expand reconstructible information and improve learning. Extensive experiments on two medical segmentation datasets demonstrate AMLP's superior performance compared to existing self-supervised approaches. The proposed strategies effectively address limitations in applying masked modeling to medical images, tailored to capturing fine lesion details vital for segmentation tasks.
翻訳日:2023-09-11 13:34:10 公開日:2023-09-08
# 健常者における早期ドロップアウト予測のためのフェデレート学習

Federated Learning for Early Dropout Prediction on Healthy Ageing Applications ( http://arxiv.org/abs/2309.04311v1 )

ライセンス: Link先を確認
Christos Chrysanthos Nikolaidis, Vasileios Perifanis, Nikolaos Pavlidis, Pavlos S. Efraimidis(参考訳) 高齢者の生活の質の向上と早期介入を可能にするため, ソーシャルケアの活用が不可欠である。 健康な高齢化アプリケーションにおけるユーザドロップアウトの正確な予測は、個々の健康状態に直接関連しているため不可欠である。 機械学習(ML)アルゴリズムは、個々のパターンに対処するのに苦労する従来の統計手法を上回る、高精度な予測を可能にした。 しかし、MLは、個人識別可能な情報(PII)の存在と規制によって引き起こされる断片化のために、かなりの量のデータを必要とする。 本稿では,個人データを転送することなく,プライバシの懸念を最小限に抑え,分散トレーニングを可能にするfml(federated machine learning)アプローチを提案する。 クロスデバイスとクロスサイロの学習シナリオをモデル化するfml下の個人と組織を考慮し,協調的なトレーニングを実施している。 本手法は,非独立かつ同一分散(非iid)データをクライアント間,クラス不均衡,ラベルあいまいさで実世界データセット上で評価する。 その結果,データ選択とクラス不均衡処理は,fmlでトレーニングされたモデルの予測精度を大幅に向上し,従来のmlモデルと同等あるいは優れた予測性能を示した。

The provision of social care applications is crucial for elderly people to improve their quality of life and enables operators to provide early interventions. Accurate predictions of user dropouts in healthy ageing applications are essential since they are directly related to individual health statuses. Machine Learning (ML) algorithms have enabled highly accurate predictions, outperforming traditional statistical methods that struggle to cope with individual patterns. However, ML requires a substantial amount of data for training, which is challenging due to the presence of personal identifiable information (PII) and the fragmentation posed by regulations. In this paper, we present a federated machine learning (FML) approach that minimizes privacy concerns and enables distributed training, without transferring individual data. We employ collaborative training by considering individuals and organizations under FML, which models both cross-device and cross-silo learning scenarios. Our approach is evaluated on a real-world dataset with non-independent and identically distributed (non-iid) data among clients, class imbalance and label ambiguity. Our results show that data selection and class imbalance handling techniques significantly improve the predictive accuracy of models trained under FML, demonstrating comparable or superior predictive performance than traditional ML models.
翻訳日:2023-09-11 13:33:44 公開日:2023-09-08
# 前に会ったことある? 運転シーンからの道路障害物の回収

Have We Ever Encountered This Before? Retrieving Out-of-Distribution Road Obstacles from Driving Scenes ( http://arxiv.org/abs/2309.04302v1 )

ライセンス: Link先を確認
Youssef Shoeb, Robin Chan, Gesina Schwalbe, Azarm Nowzard, Fatma G\"uney, Hanno Gottschalk(参考訳) オープンでダイナミックな環境で稼働する高度自動化システムのライフサイクルでは、新たな課題に対応する能力が不可欠である。 データ駆動AIベースのコンポーネントを統合するシステムでは、デプロイメント問題に対する迅速な応答は、テストと再構成のために関連するデータへの迅速なアクセスを必要とする。 自動運転の文脈では、特にトレーニングデータに含まれていない道路障害物(一般にはOoD(out-of-distribution)道路障害物)に当てはまる。 運転シーンの大規模な未確認記録が利用可能であることを踏まえると、現実的なアプローチは、oodの道路障害による安全上の懸念を特徴とする同様のシナリオをデータベースに問い合わせることである。 本研究では,ビデオストリーム中のOoD道路障害の特定を超えて,テキストクエリを用いてOoD道路障害のシーケンスを抽出するための包括的なアプローチを提案し,その後の分析のためにOoDデータの収集方法を提案する。 提案手法は,oodセグメンテーションとマルチモーダル基礎モデルの最近の進歩を利用して,ラベル付きビデオから安全関連シーンを識別し,効率的に抽出する。 本稿では,テキストベースoodオブジェクト検索の新たな課題に対する最初のアプローチについて述べる。

In the life cycle of highly automated systems operating in an open and dynamic environment, the ability to adjust to emerging challenges is crucial. For systems integrating data-driven AI-based components, rapid responses to deployment issues require fast access to related data for testing and reconfiguration. In the context of automated driving, this especially applies to road obstacles that were not included in the training data, commonly referred to as out-of-distribution (OoD) road obstacles. Given the availability of large uncurated recordings of driving scenes, a pragmatic approach is to query a database to retrieve similar scenarios featuring the same safety concerns due to OoD road obstacles. In this work, we extend beyond identifying OoD road obstacles in video streams and offer a comprehensive approach to extract sequences of OoD road obstacles using text queries, thereby proposing a way of curating a collection of OoD data for subsequent analysis. Our proposed method leverages the recent advances in OoD segmentation and multi-modal foundation models to identify and efficiently extract safety-relevant scenes from unlabeled videos. We present a first approach for the novel task of text-based OoD object retrieval, which addresses the question ''Have we ever encountered this before?''.
翻訳日:2023-09-11 13:33:23 公開日:2023-09-08
# COVID-19におけるアウト・オブ・ディストリビューションの電力負荷予測:人間のモビリティを活用した継続的な学習アプローチ

Navigating Out-of-Distribution Electricity Load Forecasting during COVID-19: A Continual Learning Approach Leveraging Human Mobility ( http://arxiv.org/abs/2309.04296v1 )

ライセンス: Link先を確認
Arian Prabowo, Kaixuan Chen, Hao Xue, Subbu Sethuvenkatraman, Flora D. Salim(参考訳) 従来のディープラーニングアルゴリズムでは、トレーニングとデプロイメントの両方において、データ分布が一定である、という前提が鍵となる。 しかし、新型コロナウイルス(COVID-19)のロックダウンのようなアウト・オブ・ディストリビューション(Out-of-Distribution)の期間に直面すると、この仮定は問題になる。 本稿では,新たなデータを用いたモデル更新のための継続的学習手法と,建物の外にあるプライバシー保護歩行者カウンターから収集した人体移動データを活用するための2つの戦略を用いる。 新たに取得した知識が事前情報を消去することがしばしばあることから「破滅的な忘れ」に苦しむオンライン学習とは対照的に、継続学習は過去の洞察を保存し、新しいデータを統合するという全体論的アプローチを提供する。 この研究は、オーストラリアのメルボルンにある13の建物群から得られた実世界のデータに対して、強力な連続学習アルゴリズムFSNetを適用した。 結果は、正確なエネルギー予測、特に分布域外における連続学習の重要な役割を強調する。 モビリティや温度などの二次データは,一次予測モデルに補助的支援を与えた。 さらに重要なのは、従来の手法はロックダウン中に適応するのに苦労していたが、少なくともオンライン学習を特徴とするモデルはレジリエンスを示し、ロックダウン期間は適応学習技術で武装した場合の課題が少なくなった。 本研究は,今後のアウト・オブ・ディストリビューション期間におけるエネルギー負荷予測の改善に有効な方法論と洞察を提供する。

In traditional deep learning algorithms, one of the key assumptions is that the data distribution remains constant during both training and deployment. However, this assumption becomes problematic when faced with Out-of-Distribution periods, such as the COVID-19 lockdowns, where the data distribution significantly deviates from what the model has seen during training. This paper employs a two-fold strategy: utilizing continual learning techniques to update models with new data and harnessing human mobility data collected from privacy-preserving pedestrian counters located outside buildings. In contrast to online learning, which suffers from 'catastrophic forgetting' as newly acquired knowledge often erases prior information, continual learning offers a holistic approach by preserving past insights while integrating new data. This research applies FSNet, a powerful continual learning algorithm, to real-world data from 13 building complexes in Melbourne, Australia, a city which had the second longest total lockdown duration globally during the pandemic. Results underscore the crucial role of continual learning in accurate energy forecasting, particularly during Out-of-Distribution periods. Secondary data such as mobility and temperature provided ancillary support to the primary forecasting model. More importantly, while traditional methods struggled to adapt during lockdowns, models featuring at least online learning demonstrated resilience, with lockdown periods posing fewer challenges once armed with adaptive learning techniques. This study contributes valuable methodologies and insights to the ongoing effort to improve energy load forecasting during future Out-of-Distribution periods.
翻訳日:2023-09-11 13:33:03 公開日:2023-09-08
# FIMO: 自動定理証明のための挑戦形式データセット

FIMO: A Challenge Formal Dataset for Automated Theorem Proving ( http://arxiv.org/abs/2309.04295v1 )

ライセンス: Link先を確認
Chengwu Liu, Jianhao Shen, Huajian Xin, Zhengying Liu, Ye Yuan, Haiming Wang, Wei Ju, Chuanyang Zheng, Yichun Yin, Lin Li, Ming Zhang, Qun Liu(参考訳) IMO(International Mathematical Olympiad)ショートリスト問題から得られる公式な数学的問題文からなる革新的なデータセットFIMOを提案する。 IMOレベルでの高度な自動定理の証明を容易にするために設計されたFIMOは現在、Lean形式言語用に調整されている。 149の形式的問題文と、形式的問題記述と、それに対応するラテックスに基づく形式的証明の両方からなる。 GPT-4に関する最初の実験を通じて,本研究は既存の手法の限界を浮き彫りにし,優れたIMOレベルの自動定理の証明に先立って大きな進歩をみせている。

We present FIMO, an innovative dataset comprising formal mathematical problem statements sourced from the International Mathematical Olympiad (IMO) Shortlisted Problems. Designed to facilitate advanced automated theorem proving at the IMO level, FIMO is currently tailored for the Lean formal language. It comprises 149 formal problem statements, accompanied by both informal problem descriptions and their corresponding LaTeX-based informal proofs. Through initial experiments involving GPT-4, our findings underscore the existing limitations in current methodologies, indicating a substantial journey ahead before achieving satisfactory IMO-level automated theorem proving outcomes.
翻訳日:2023-09-11 13:32:34 公開日:2023-09-08
# 胸部X線データセットのロングテールをどう考慮すればいいのか?

How Can We Tame the Long-Tail of Chest X-ray Datasets? ( http://arxiv.org/abs/2309.04293v1 )

ライセンス: Link先を確認
Arsh Verma(参考訳) 胸部X線(英: Chest X-rays、CXR)は、多数の異常を推測するために用いられる医療画像のモダリティである。 胸部x線上に重複する可能性のあるこれらの異常の完全なリストを定義することは難しいが、ほとんど観測されておらず、自動推論のためにディープラーニングモデルを訓練するために使用されるcxrデータセットで豊富に表現されている。 しかし,現在のモデルでは,稀ではあるが重要かもしれないラベルに対して,独立した識別的特徴を学ぶことは困難である。 先行研究は、新しい損失関数やデータの再サンプリングや再重み付けのメカニズムを導入することで、複数ラベルと長い尾の問題の組み合わせに焦点を当てていた。 そこで本研究では,対象データセットの領域に近いモデルの初期化を選択するだけで,大幅な性能向上が可能であることを提案する。 この手法は既存の文献で提案されている手法を補完することができ、新しいラベルに簡単に拡張できる。 最後に,末尾ラベルを補うために合成データの有効性を検証し,そのモデル性能向上への寄与を解析した。

Chest X-rays (CXRs) are a medical imaging modality that is used to infer a large number of abnormalities. While it is hard to define an exhaustive list of these abnormalities, which may co-occur on a chest X-ray, few of them are quite commonly observed and are abundantly represented in CXR datasets used to train deep learning models for automated inference. However, it is challenging for current models to learn independent discriminatory features for labels that are rare but may be of high significance. Prior works focus on the combination of multi-label and long tail problems by introducing novel loss functions or some mechanism of re-sampling or re-weighting the data. Instead, we propose that it is possible to achieve significant performance gains merely by choosing an initialization for a model that is closer to the domain of the target dataset. This method can complement the techniques proposed in existing literature, and can easily be scaled to new labels. Finally, we also examine the veracity of synthetically generated data to augment the tail labels and analyse its contribution to improving model performance.
翻訳日:2023-09-11 13:32:22 公開日:2023-09-08
# ファジィフィンガープリント変換言語モデルによる会話中の感情認識

Fuzzy Fingerprinting Transformer Language-Models for Emotion Recognition in Conversations ( http://arxiv.org/abs/2309.04292v1 )

ライセンス: Link先を確認
Patr\'icia Pereira, Rui Ribeiro, Helena Moniz, Luisa Coheur and Joao Paulo Carvalho(参考訳) ファジィフィンガープリントは、解釈可能なテキスト分類技術としてうまく使われてきたが、他のほとんどの技術と同様に、BERTやRoBERTaのような大規模事前学習言語モデルによって、性能が大幅に上回っている。 これらのモデルは、会話における感情認識(erc)を含むいくつかの自然言語処理タスクに最先端の結果をもたらすが、解釈可能性や説明可能性の欠如に苦しむ。 本稿では,ercを行うための2つの手法を組み合わせて,より単純で解釈可能な大規模言語モデルに基づく分類器を得る手法を提案する。 そこで本研究では,事前学習されたロバータに発話と,その前の会話の交代を供給し,文脈的埋め込み発話表現を取得し,ファジィ指紋分類モジュールに供給することを提案する。 我々はDailyDialog ERCベンチマークデータセットにアプローチを検証し、より軽量なモデルを用いて最先端レベルの結果を得る。

Fuzzy Fingerprints have been successfully used as an interpretable text classification technique, but, like most other techniques, have been largely surpassed in performance by Large Pre-trained Language Models, such as BERT or RoBERTa. These models deliver state-of-the-art results in several Natural Language Processing tasks, namely Emotion Recognition in Conversations (ERC), but suffer from the lack of interpretability and explainability. In this paper, we propose to combine the two approaches to perform ERC, as a means to obtain simpler and more interpretable Large Language Models-based classifiers. We propose to feed the utterances and their previous conversational turns to a pre-trained RoBERTa, obtaining contextual embedding utterance representations, that are then supplied to an adapted Fuzzy Fingerprint classification module. We validate our approach on the widely used DailyDialog ERC benchmark dataset, in which we obtain state-of-the-art level results using a much lighter model.
翻訳日:2023-09-11 13:32:03 公開日:2023-09-08
# プログレッシブテキスト対画像生成のための逐次意味生成通信

Sequential Semantic Generative Communication for Progressive Text-to-Image Generation ( http://arxiv.org/abs/2309.04287v1 )

ライセンス: Link先を確認
Hyelin Nam, Jihong Park, Jinho Choi, Seong-Lyun Kim(参考訳) 本稿では,多モード生成モデルの有望な生成能力を活用した通信システムを提案する。 近年のスマートアプリケーションでは,テキストプロンプトとして設定した知覚的意味を伝達することで,コミュニケーションが成功している。 テキストは、人間の認識に類似した方法で解釈されることで、画像の指示や、マルチモーダル技術による画像生成の進化に伴って、画像データの適切な意味表現として機能する。 テキストを利用することで、そのままのデータ送信に比べて過負荷を低減できる。 送信機はマルチモデル生成プロセスで客観的画像をテキストに変換し、受信者は逆プロセスで画像を再構成する。 テキスト中の各単語はそれぞれの構文的役割を持ち、テキストに含まれる特定の情報に責任を負う。 通信負荷のさらなる効率化のため、送信者は、通信が成功するまで、最も情報を運ぶことを優先して単語を順次送信する。 そこで本研究では,画像からテキストへの変換に基づく通信システムの有望な設計と,単語トークンの逐次送信方式を提案する。 我々の研究は,最先端生成モデルから実通信システムへの新たな道を拓くことが期待されている。

This paper proposes new framework of communication system leveraging promising generation capabilities of multi-modal generative models. Regarding nowadays smart applications, successful communication can be made by conveying the perceptual meaning, which we set as text prompt. Text serves as a suitable semantic representation of image data as it has evolved to instruct an image or generate image through multi-modal techniques, by being interpreted in a manner similar to human cognition. Utilizing text can also reduce the overload compared to transmitting the intact data itself. The transmitter converts objective image to text through multi-model generation process and the receiver reconstructs the image using reverse process. Each word in the text sentence has each syntactic role, responsible for particular piece of information the text contains. For further efficiency in communication load, the transmitter sequentially sends words in priority of carrying the most information until reaches successful communication. Therefore, our primary focus is on the promising design of a communication system based on image-to-text transformation and the proposed schemes for sequentially transmitting word tokens. Our work is expected to pave a new road of utilizing state-of-the-art generative models to real communication systems
翻訳日:2023-09-11 13:31:43 公開日:2023-09-08
# 知識の源泉としての反事実生成過程の考察 --ナイーブベイズ分類器への応用-

Viewing the process of generating counterfactuals as a source of knowledge -- Application to the Naive Bayes classifier ( http://arxiv.org/abs/2309.04284v1 )

ライセンス: Link先を確認
Vincent Lemaire, Nathan Le Boudec, Fran\c{c}oise Fessant and Victor Guyomard(参考訳) 現在、機械学習アルゴリズムの決定を理解するための多くの理解アルゴリズムがある。 そのうちの1つは、反実例の生成に基づくものである。 この記事では、この生成プロセスについて、後から、異なる方法で使用するために保存可能な、ある程度の知識を創造する源として捉えることを提案します。 この過程は加法モデルで示され、より具体的には、ナイーブ・ベイズ分類器の場合、この目的のために興味深い性質を示す。

There are now many comprehension algorithms for understanding the decisions of a machine learning algorithm. Among these are those based on the generation of counterfactual examples. This article proposes to view this generation process as a source of creating a certain amount of knowledge that can be stored to be used, later, in different ways. This process is illustrated in the additive model and, more specifically, in the case of the naive Bayes classifier, whose interesting properties for this purpose are shown.
翻訳日:2023-09-11 13:31:27 公開日:2023-09-08
# サンプル複雑性を改善したゼロサム線形二次ゲーム学習

Learning Zero-Sum Linear Quadratic Games with Improved Sample Complexity ( http://arxiv.org/abs/2309.04272v1 )

ライセンス: Link先を確認
Jiduan Wu and Anas Barakat and Ilyas Fatkhullin and Niao He(参考訳) Zero-sum Linear Quadratic (LQ)ゲームは最適制御の基本であり、使用できる (i)リスクに敏感な、または堅牢な制御のための動的ゲーム定式化 (ii)連続状態制御空間における2つの競合エージェントによるマルチエージェント強化学習のベンチマーク設定 良く研究された単エージェント線型二次規制問題とは対照的に、ゼロサムのLQゲームは、保磁力に欠ける目的関数を持つ挑戦的な非凸非凸 min-max 問題を解く。 近年、Zhangらは、学習中のコントローラの堅牢性を維持するため、安全クリティカルな制御システムにとって重要な、自然政策勾配法の暗黙の正規化特性を発見した。 さらに、モデルパラメータの知識が得られないモデルフリー環境では、Zhangらは、暗黙の正規化特性を維持しながら、Nash平衡の$\epsilon$-Nighborhoodに達する最初の多項式サンプル複雑性アルゴリズムを提案した。 本研究では,サンプルの複雑さを数桁改善するより単純なネスト型ゼロ次(zo)アルゴリズムを提案する。 我々の主な結果は、単一点ZO推定器を用いて同じ仮定の下で、$\widetilde{\mathcal{O}}(\epsilon^{-3})$サンプル複雑性を保証する。 さらに、推定器を2点推定器に置き換えると、より優れた$\widetilde{\mathcal{O}}(\epsilon^{-2})$サンプル複雑性が得られる。 我々の重要な改善点は、よりサンプリング効率の良いネストアルゴリズムの設計とZO自然勾配推定誤差のより細かい制御に依存している。

Zero-sum Linear Quadratic (LQ) games are fundamental in optimal control and can be used (i) as a dynamic game formulation for risk-sensitive or robust control, or (ii) as a benchmark setting for multi-agent reinforcement learning with two competing agents in continuous state-control spaces. In contrast to the well-studied single-agent linear quadratic regulator problem, zero-sum LQ games entail solving a challenging nonconvex-nonconcave min-max problem with an objective function that lacks coercivity. Recently, Zhang et al. discovered an implicit regularization property of natural policy gradient methods which is crucial for safety-critical control systems since it preserves the robustness of the controller during learning. Moreover, in the model-free setting where the knowledge of model parameters is not available, Zhang et al. proposed the first polynomial sample complexity algorithm to reach an $\epsilon$-neighborhood of the Nash equilibrium while maintaining the desirable implicit regularization property. In this work, we propose a simpler nested Zeroth-Order (ZO) algorithm improving sample complexity by several orders of magnitude. Our main result guarantees a $\widetilde{\mathcal{O}}(\epsilon^{-3})$ sample complexity under the same assumptions using a single-point ZO estimator. Furthermore, when the estimator is replaced by a two-point estimator, our method enjoys a better $\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity. Our key improvements rely on a more sample-efficient nested algorithm design and finer control of the ZO natural gradient estimation error.
翻訳日:2023-09-11 13:31:18 公開日:2023-09-08
# 共同視像設計における分離収差補正の優先性の検討

Revealing the preference for correcting separated aberrations in joint optic-image design ( http://arxiv.org/abs/2309.04342v1 )

ライセンス: Link先を確認
Jingwen Zhou, Shiqi Chen, Zheng Ren, Wenguan Zhang, Jiapu Yan, Huajun Feng, Qi Li, Yueting Chen(参考訳) 光システムと下流アルゴリズムの合同設計は、挑戦的で有望な課題である。 画像システムのグローバル最適化と物理シミュレーションの計算コストのバランスの要求のため、既存の手法ではスマートフォンやドローンのような複雑なシステムの効率的な共同設計は達成できない。 本研究では,光学設計の観点から,光の収差を分離した光学特性を特徴付ける。 さらに、グラデーションのないハードウェアとソフトウェアを橋渡しするために、レンズの真の撮像手順を大きな視野で再現する画像シミュレーションシステムを提案する。 収差補正については,空間的に変化する収差を知覚し,補正し,その優越性を検証するネットワークを提案する。 包括的実験により, 分割した収差の補正は, 縦色収差, 横色収差, 球状収差, フィールド曲率, コマの順で, アスティグマティズムが続くことが示唆された。 この嗜好から、消費者レベルの携帯電話レンズモジュールの総トラック長を10%削減する。 さらに、この手順は、製造のずれを緩和し、計算写真の極端に高品質な向上を実現する。 最適化パラダイムは、高度な光学系と後処理アルゴリズムの実用的な共同設計に関する革新的な洞察を提供する。

The joint design of the optical system and the downstream algorithm is a challenging and promising task. Due to the demand for balancing the global optimal of imaging systems and the computational cost of physical simulation, existing methods cannot achieve efficient joint design of complex systems such as smartphones and drones. In this work, starting from the perspective of the optical design, we characterize the optics with separated aberrations. Additionally, to bridge the hardware and software without gradients, an image simulation system is presented to reproduce the genuine imaging procedure of lenses with large field-of-views. As for aberration correction, we propose a network to perceive and correct the spatially varying aberrations and validate its superiority over state-of-the-art methods. Comprehensive experiments reveal that the preference for correcting separated aberrations in joint design is as follows: longitudinal chromatic aberration, lateral chromatic aberration, spherical aberration, field curvature, and coma, with astigmatism coming last. Drawing from the preference, a 10% reduction in the total track length of the consumer-level mobile phone lens module is accomplished. Moreover, this procedure spares more space for manufacturing deviations, realizing extreme-quality enhancement of computational photography. The optimization paradigm provides innovative insight into the practical joint design of sophisticated optical systems and post-processing algorithms.
翻訳日:2023-09-11 13:25:18 公開日:2023-09-08
# オンライン凸最適化によるオンラインサブモジュラー最大化

Online Submodular Maximization via Online Convex Optimization ( http://arxiv.org/abs/2309.04339v1 )

ライセンス: Link先を確認
T. Si-Salem, G. \"Ozcan, I. Nikolaou, E. Terzi, S. Ioannidis(参考訳) 一般マトロイド制約下でのモノトン部分モジュラー最大化をオンライン環境で検討する。 重み付けされたしきい値ポテンシャル関数のオンライン最適化は,オンライン凸最適化(OCO)に還元されることを示す。 これは、このクラスの関数が凹凸緩和(concave relaxation)を許容するためであり、結果として、OCOポリシーと適切な丸めのスキームが組み合わさって、組合せ設定におけるサブ線形後悔を達成できる。 我々は,オンライン学習問題において,動的後悔,盗賊,楽観的な学習設定など,多くの異なるバージョンに縮小が及んでいることを示す。

We study monotone submodular maximization under general matroid constraints in the online setting. We prove that online optimization of a large class of submodular functions, namely, weighted threshold potential functions, reduces to online convex optimization (OCO). This is precisely because functions in this class admit a concave relaxation; as a result, OCO policies, coupled with an appropriate rounding scheme, can be used to achieve sublinear regret in the combinatorial setting. We show that our reduction extends to many different versions of the online learning problem, including the dynamic regret, bandit, and optimistic-learning settings.
翻訳日:2023-09-11 13:24:53 公開日:2023-09-08
# 複数のCLSトークンを組み込んだマルチドメイン科学論文の符号化

Encoding Multi-Domain Scientific Papers by Ensembling Multiple CLS Tokens ( http://arxiv.org/abs/2309.04333v1 )

ライセンス: Link先を確認
Ronald Seoh, Haw-Shiuan Chang, Andrew McCallum(参考訳) トピック分類や引用予測など、科学文書に関する多くの有用なタスクには、複数の科学領域にまたがるコーパスが含まれる。 通常、そのようなタスクは、Transformerの単一のCLSトークンから得られるベクトル埋め込みでテキストを表現することで達成される。 本稿では,複数のclsトークンを使用することで,トランスフォーマーが複数の科学領域に特化できると論じる。 Multi2SPEは,複数のCLSトークンに対して,トークンの埋め込みの多様な方法を学ぶことを奨励し,それらをまとめて1つのベクトル表現を生成する。 また、マルチドメイン設定下で科学論文ベクトルエンコーダをテストするために、新しいマルチドメインベンチマークであるMulti-SciDocsを提案する。 マルチ2speは,マルチドメインの引用予測において最大25%の誤差を低減できるが,bertフォワードパスを1つに加えた計算量は無視できる。

Many useful tasks on scientific documents, such as topic classification and citation prediction, involve corpora that span multiple scientific domains. Typically, such tasks are accomplished by representing the text with a vector embedding obtained from a Transformer's single CLS token. In this paper, we argue that using multiple CLS tokens could make a Transformer better specialize to multiple scientific domains. We present Multi2SPE: it encourages each of multiple CLS tokens to learn diverse ways of aggregating token embeddings, then sums them up together to create a single vector representation. We also propose our new multi-domain benchmark, Multi-SciDocs, to test scientific paper vector encoders under multi-domain settings. We show that Multi2SPE reduces error by up to 25 percent in multi-domain citation prediction, while requiring only a negligible amount of computation in addition to one BERT forward pass.
翻訳日:2023-09-11 13:24:41 公開日:2023-09-08
# グラフニューラルネットワークはグラフを使うべきでないとき

Graph Neural Networks Use Graphs When They Shouldn't ( http://arxiv.org/abs/2309.04332v1 )

ライセンス: Link先を確認
Maya Bechler-Speicher, Ido Amos, Ran Gilad-Bachrach, Amir Globerson(参考訳) グラフ上の予測は、ソーシャルネットワーク、分子生物学、医学など、さまざまな分野において重要な役割を果たす。 グラフニューラルネットワーク(GNN)は,グラフデータの学習において主流のアプローチである。 グラフラベリング問題の例では、グラフ構造(つまり隣接行列)とノード固有の特徴ベクトルから構成される。 場合によっては、このグラフ構造は予測タスクに非インフォーマティブである。 例えば、モラー質量のような分子特性は構成原子(ノードの特徴)のみに依存し、分子構造には依存しない。 このような場合、GNNはグラフ構造を無視する能力を持っているが、彼らがそうするかどうかは明らかではない。 本研究では,GNNがグラフ構造を無視することで,より良い解が得られるとしても,グラフ構造をオーバーフィットさせる傾向があることを示す。 この現象を異なるグラフ分布に関して検討し、正規グラフがオーバーフィッティングに対してより堅牢であることを示す。 次に,GNNの勾配差に基づく学習の暗黙バイアスを解析することにより,この現象を理論的に説明する。 最後に,我々は経験的および理論的知見に基づき,無視すべきグラフ構造をgnnが過剰に適合する傾向を緩和するグラフ編集手法を提案する。 本手法は,複数のベンチマークでGNNの精度を向上することを示す。

Predictions over graphs play a crucial role in various domains, including social networks, molecular biology, medicine, and more. Graph Neural Networks (GNNs) have emerged as the dominant approach for learning on graph data. Instances of graph labeling problems consist of the graph-structure (i.e., the adjacency matrix), along with node-specific feature vectors. In some cases, this graph-structure is non-informative for the predictive task. For instance, molecular properties such as molar mass depend solely on the constituent atoms (node features), and not on the molecular structure. While GNNs have the ability to ignore the graph-structure in such cases, it is not clear that they will. In this work, we show that GNNs actually tend to overfit the graph-structure in the sense that they use it even when a better solution can be obtained by ignoring it. We examine this phenomenon with respect to different graph distributions and find that regular graphs are more robust to this overfitting. We then provide a theoretical explanation for this phenomenon, via analyzing the implicit bias of gradient-descent-based learning of GNNs in this setting. Finally, based on our empirical and theoretical findings, we propose a graph-editing method to mitigate the tendency of GNNs to overfit graph-structures that should be ignored. We show that this method indeed improves the accuracy of GNNs across multiple benchmarks.
翻訳日:2023-09-11 13:24:24 公開日:2023-09-08
# ライセンスプレート認識改善のためのモデル融合の活用

Leveraging Model Fusion for Improved License Plate Recognition ( http://arxiv.org/abs/2309.04331v1 )

ライセンス: Link先を確認
Rayson Laroca, Luiz A. Zanlorensi, Valter Estevam, Rodrigo Minetto, David Menotti(参考訳) ライセンスプレート認識(LPR)は、料金徴収、駐車管理、交通法執行など、様々な用途において重要な役割を果たしている。 LPRは深層学習の発展を通じて大きな進歩を遂げてきたが、複数の認識モデルからの出力を融合させることにより、結果の改善の可能性を探究する研究は目立ったものがない。 本研究の目的は,最大12種類のモデルの組み合わせを,最も確実な予測の選択や多数決ベースの戦略の導入など,簡単なアプローチで調査することで,このギャップを埋めることである。 我々の実験は幅広いデータセットを包含し、イントラデータセットとクロスデータセットの両方で融合アプローチの実質的な利点を明らかにした。 本質的には、複数のモデルを使用することで、特定のデータセット/scenario上でsubparパフォーマンスを得る可能性を大幅に低減できる。 また、スピードに基づいたモデルの組み合わせは魅力的なアプローチであることも分かりました。 具体的には、認識タスクが余分な時間を許容できるアプリケーションに対して、4-6モデルを組み合わせることが効果的な戦略である。 これらのモデルが最も正確ではないかもしれないが、それらの融合は精度と速度の最適なバランスをとる。

License Plate Recognition (LPR) plays a critical role in various applications, such as toll collection, parking management, and traffic law enforcement. Although LPR has witnessed significant advancements through the development of deep learning, there has been a noticeable lack of studies exploring the potential improvements in results by fusing the outputs from multiple recognition models. This research aims to fill this gap by investigating the combination of up to 12 different models using straightforward approaches, such as selecting the most confident prediction or employing majority vote-based strategies. Our experiments encompass a wide range of datasets, revealing substantial benefits of fusion approaches in both intra- and cross-dataset setups. Essentially, fusing multiple models reduces considerably the likelihood of obtaining subpar performance on a particular dataset/scenario. We also found that combining models based on their speed is an appealing approach. Specifically, for applications where the recognition task can tolerate some additional time, though not excessively, an effective strategy is to combine 4-6 models. These models may not be the most accurate individually, but their fusion strikes an optimal balance between accuracy and speed.
翻訳日:2023-09-11 13:24:03 公開日:2023-09-08
# 地中真実の生成:ラベル騒音研究のための合成データ

Generating the Ground Truth: Synthetic Data for Label Noise Research ( http://arxiv.org/abs/2309.04318v1 )

ライセンス: Link先を確認
Sjoerd de Vries and Dirk Thierens(参考訳) ほとんどの現実世界の分類タスクはある程度ラベルノイズに悩まされている。 このようなデータ中のノイズは学習モデルの一般化誤差に悪影響を及ぼし、クリーンラベルなしではその性能を正確に測定できないため、ノイズ処理手法の評価を複雑化する。 ラベルノイズ研究では、通常、ノイズまたは複雑なシミュレーションデータはベースラインとして受け入れられ、既知の特性を持つ追加ノイズが注入される。 本稿では,上記の方法論を改善するためのフレームワークであるSynLABELを提案する。 関数を事前指定または学習し、ラベルが生成される基底真理関数として定義することで、実際のデータによって通知されるノイズのないデータセットを作成することができる。 さらに、関数ドメイン内で選択された特徴の値数を再サンプリングし、関数を評価し、その結果のラベルを集約することにより、各データポイントにソフトラベルまたはラベル分布を割り当てることができる。 このような分布はラベルノイズの直接注入と定量化を可能にする。 生成されたデータセットは、さまざまな種類のノイズが導入される可能性のある、調整可能な複雑性のクリーンなベースラインとして機能する。 我々は、フレームワークの適用方法、ラベルノイズの定量化を可能にする方法、既存の方法論よりもどのように改善するかを説明します。

Most real-world classification tasks suffer from label noise to some extent. Such noise in the data adversely affects the generalization error of learned models and complicates the evaluation of noise-handling methods, as their performance cannot be accurately measured without clean labels. In label noise research, typically either noisy or incomplex simulated data are accepted as a baseline, into which additional noise with known properties is injected. In this paper, we propose SYNLABEL, a framework that aims to improve upon the aforementioned methodologies. It allows for creating a noiseless dataset informed by real data, by either pre-specifying or learning a function and defining it as the ground truth function from which labels are generated. Furthermore, by resampling a number of values for selected features in the function domain, evaluating the function and aggregating the resulting labels, each data point can be assigned a soft label or label distribution. Such distributions allow for direct injection and quantification of label noise. The generated datasets serve as a clean baseline of adjustable complexity into which different types of noise may be introduced. We illustrate how the framework can be applied, how it enables quantification of label noise and how it improves over existing methodologies.
翻訳日:2023-09-11 13:23:44 公開日:2023-09-08
# モーメントニューラルネットワークを用いた平均場制御のためのアクタ批判学習アルゴリズム

Actor critic learning algorithms for mean-field control with moment neural networks ( http://arxiv.org/abs/2309.04317v1 )

ライセンス: Link先を確認
Huy\^en Pham and Xavier Warin(参考訳) 我々は,連続時間強化学習環境において,平均場制御問題を解くための新しいポリシー勾配とアクタ批判アルゴリズムを開発した。 本手法では,パラメータ化されたランダム化ポリシーを用いて,値関数の勾配に基づく表現を行う。 アクター(政治)と批評家(価値関数)の両方の学習は、確率測度のワッサーシュタイン空間上のモーメントニューラルネットワーク関数のクラスによって促進され、主要な特徴は分布の直接軌跡をサンプリングすることである。 本研究における中心的な課題は,平均場フレームワークに特有の演算子の計算処理に関するものである。 提案手法の有効性を説明するため,解析結果の包括的セットを提供する。 これらには多次元設定や非線形二次平均場制御問題など、ボラティリティ制御を含む多様な例がある。

We develop a new policy gradient and actor-critic algorithm for solving mean-field control problems within a continuous time reinforcement learning setting. Our approach leverages a gradient-based representation of the value function, employing parametrized randomized policies. The learning for both the actor (policy) and critic (value function) is facilitated by a class of moment neural network functions on the Wasserstein space of probability measures, and the key feature is to sample directly trajectories of distributions. A central challenge addressed in this study pertains to the computational treatment of an operator specific to the mean-field framework. To illustrate the effectiveness of our methods, we provide a comprehensive set of numerical results. These encompass diverse examples, including multi-dimensional settings and nonlinear quadratic mean-field control problems with controlled volatility.
翻訳日:2023-09-11 13:23:25 公開日:2023-09-08
# 自然相互作用と大規模言語モデルによるヒューマノイドロボット行動のインクリメンタル学習

Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models ( http://arxiv.org/abs/2309.04316v1 )

ライセンス: Link先を確認
Leonard B\"armann, Rainer Kartmann, Fabian Peller-Konrad, Alex Waibel, Tamim Asfour(参考訳) 自然言語ダイアログは直感的な人間とロボットの対話の鍵となる。 人間の意図を表現するだけでなく、ロボットがコマンドを正しく理解していない場合、改善のための指示を伝えるためにも使用できる。 重要なことは、ロボットにこのような対話体験から学ぶ能力を与えることで、彼らの行動を改善したり、将来間違いを回避できるようにすることです。 本稿では,自然相互作用から複雑な行動のインクリメンタルな学習を実現するシステムを提案し,ヒューマノイドロボットへの実装を実証する。 近年の進歩を踏まえ,LLMが対話型コンソールでPython文を生成し,ロボットの知覚と行動の両方を起動する,というアイデアに基づいて,ロボットの行動の高レベルなオーケストレーションのためのLarge Language Models(LLMs)をデプロイするシステムを提案する。 相互作用ループは人間の指示、環境観察、実行結果をLSMにフィードバックすることで閉じ、次の文を生成する。 具体的には,インクリメンタル・プロンプト・ラーニングを導入することで,システムがミスからインタラクティブに学習できるようにする。 その目的のために、LLMは人間のフィードバックに基づいて、現在のインタラクションのコードレベルの改善に責任を負う別のLLMを呼び出すことができる。 改善されたインタラクションはロボットのメモリに保存され、同様のリクエストで取得される。 我々は,人間型ロボットARMAR-6のロボット認知アーキテクチャにシステムを統合するとともに,一般化した学習知識を実世界とシミュレーションの両方で定量的に評価する。

Natural-language dialog is key for intuitive human-robot interaction. It can be used not only to express humans' intents, but also to communicate instructions for improvement if a robot does not understand a command correctly. Of great importance is to endow robots with the ability to learn from such interaction experience in an incremental way to allow them to improve their behaviors or avoid mistakes in the future. In this paper, we propose a system to achieve incremental learning of complex behavior from natural interaction, and demonstrate its implementation on a humanoid robot. Building on recent advances, we present a system that deploys Large Language Models (LLMs) for high-level orchestration of the robot's behavior, based on the idea of enabling the LLM to generate Python statements in an interactive console to invoke both robot perception and action. The interaction loop is closed by feeding back human instructions, environment observations, and execution results to the LLM, thus informing the generation of the next statement. Specifically, we introduce incremental prompt learning, which enables the system to interactively learn from its mistakes. For that purpose, the LLM can call another LLM responsible for code-level improvements of the current interaction based on human feedback. The improved interaction is then saved in the robot's memory, and thus retrieved on similar requests. We integrate the system in the robot cognitive architecture of the humanoid robot ARMAR-6 and evaluate our methods both quantitatively (in simulation) and qualitatively (in simulation and real-world) by demonstrating generalized incrementally-learned knowledge.
翻訳日:2023-09-11 13:23:12 公開日:2023-09-08
# 非線形パーセルフィルタを用いた超伝導量子ビットの光ノイズ耐性分散読み出し

Photon-noise-tolerant dispersive readout of a superconducting qubit using a nonlinear Purcell filter ( http://arxiv.org/abs/2309.04315v1 )

ライセンス: Link先を確認
Yoshiki Sunada, Kenshi Yuki, Zhiling Wang, Takeaki Miyamura, Jesper Ilves, Kohei Matsuura, Peter A. Spring, Shuhei Tamate, Shingo Kono, Yasunobu Nakamura(参考訳) 読み出し共振器内の残留雑音光子は、高速で高忠実な分散読み出しに最適化された場合、超伝導量子ビットの劣化の主な原因となる。 本稿では、読み出し性能を犠牲にすることなく、望ましくないデフォーカス処理を抑制する非線形パーセルフィルタを提案する。 読み出しパルスが印加されると、フィルタは読み出し共振器の有効ライン幅を自動的に低減し、入力フィールドへのqubitの感度を高める。 私たちが作製した装置の耐雑音性は、線形フィルタを有する装置に対して3倍の係数で向上することが示されている。 非線形フィルタの分岐を利用して測定率を3の別の係数で向上する。 読み出し忠実度99.4%、QND忠実度99.2%は40nsの読み出しパルスを用いて達成される。 非線形パーセルフィルタは、量子ビットのコヒーレンス時間を損なうことなく高速かつ高忠実な読み出しを実現するための有効なツールとなる。

Residual noise photons in a readout resonator become a major source of dephasing for a superconducting qubit when the resonator is optimized for a fast, high-fidelity dispersive readout. Here, we propose and demonstrate a nonlinear Purcell filter that suppresses such an undesired dephasing process without sacrificing the readout performance. When a readout pulse is applied, the filter automatically reduces the effective linewidth of the readout resonator, increasing the sensitivity of the qubit to the input field. The noise tolerance of the device we fabricated is shown to be enhanced by a factor of three relative to a device with a linear filter. The measurement rate is enhanced by another factor of three by utilizing the bifurcation of the nonlinear filter. A readout fidelity of 99.4% and a QND fidelity of 99.2% are achieved using a 40-ns readout pulse. The nonlinear Purcell filter will be an effective tool for realizing a fast, high-fidelity readout without compromising the coherence time of the qubit.
翻訳日:2023-09-11 13:22:43 公開日:2023-09-08
# 暖かいルビジウム蒸気中の高速低損失全光位相変調

Fast, low-loss all-optical phase modulation in warm rubidium vapour ( http://arxiv.org/abs/2309.04313v1 )

ライセンス: Link先を確認
William Davis and Cameron McGarry and Tabijah Wasawo and Peter J Mosley and Joshua Nunn(参考訳) 低損失の高速スイッチングは、状態生成、多重化、量子ゲートの実装など、フォトニック量子技術のための多用途なツールである。 位相変調は、この切り替えを実現する方法の1つであるが、既存の光位相変調器は高帯域幅または低損失を達成するが、両方ではない。 高速(100\,\mathrm{MHz}$)、低損失(74(2)\,\%$)の位相シフト($\Delta\phi = (0.90(5))\pi$)を制御フィールドによって誘導され、2光子5,S_{1/2} \rightarrow{} 5P_{3/2} \rightarrow{} 5D_{5/2} \rightarrow{} 5D_{5/2}$transition in rubidium-87 vapourによって媒介される信号場で示す。 我々は,量子技術と古典技術の両方に応用する性能と拡張性を高めるための経路について論じる。

High-speed switching with low loss would be a versatile tool for photonic quantum technologies, with applications in state generation, multiplexing, and the implementation of quantum gates. Phase modulation is one method of achieving this switching, but existing optical phase modulators either achieve high bandwidth or low loss, but not both. We demonstrate fast ($100\,\mathrm{MHz}$) bandwidth), low-loss ($74(2)\,\%$) transmission) phase shifting ($\Delta\phi = (0.90(5))\pi$) in a signal field, induced by a control field, and mediated by the two-photon $5S_{1/2} \rightarrow{} 5P_{3/2} \rightarrow{} 5D_{5/2}$ transition in rubidium-87 vapour. We discuss routes to enhance both performance and scalability for application to a range of quantum and classical technologies.
翻訳日:2023-09-11 13:22:25 公開日:2023-09-08
# 力応答性ロコモーション制御による目視四足歩行

Seeing-Eye Quadruped Navigation with Force Responsive Locomotion Control ( http://arxiv.org/abs/2309.04370v1 )

ライセンス: Link先を確認
David DeFazio, Eisuke Hirota, Shiqi Zhang(参考訳) 目視ロボットは視覚障害者を誘導するのに非常に有用なツールであり、真のガイド犬の安価で高価であることから、社会的な影響をもたらす可能性がある。 目に見えるロボットシステムはすでにいくつか実証されているが、実際のガイド犬の設定でしばしば発生する人間からの外部タグは考慮されていない。 本稿では,強化学習(Reinforcement Learning, RL)を介して外力に頑健な移動制御器と,教師あり学習による外力推定器を同時に訓練する。 制御器は安定歩行を保証し、力推定器はロボットが人間の外部力に反応できるようにする。 これらの力は、ロボットが知らないグローバル目標にロボットを誘導するために使用され、ロボットは地元のプランナーを介して近くの障害物の周りで人間を誘導する。 シミュレーションおよびハードウェアにおける実験結果から,制御器は外力に頑健であり,視眼系は外力方向を正確に検出できることがわかった。 目隠しされた人間を持つ現実の四足歩行ロボットに、我々の完全な視線ロボットシステムを実演する。 ビデオはプロジェクトのページで見ることができる。 https://bu-air-lab.github.io/guide_dog/

Seeing-eye robots are very useful tools for guiding visually impaired people, potentially producing a huge societal impact given the low availability and high cost of real guide dogs. Although a few seeing-eye robot systems have already been demonstrated, none considered external tugs from humans, which frequently occur in a real guide dog setting. In this paper, we simultaneously train a locomotion controller that is robust to external tugging forces via Reinforcement Learning (RL), and an external force estimator via supervised learning. The controller ensures stable walking, and the force estimator enables the robot to respond to the external forces from the human. These forces are used to guide the robot to the global goal, which is unknown to the robot, while the robot guides the human around nearby obstacles via a local planner. Experimental results in simulation and on hardware show that our controller is robust to external forces, and our seeing-eye system can accurately detect force direction. We demonstrate our full seeing-eye robot system on a real quadruped robot with a blindfolded human. The video can be seen at our project page: https://bu-air-lab.github.io/guide_dog/
翻訳日:2023-09-11 13:14:26 公開日:2023-09-08
# 静的データセットを超えて: LLM評価への深いインタラクションアプローチ

Beyond Static Datasets: A Deep Interaction Approach to LLM Evaluation ( http://arxiv.org/abs/2309.04369v1 )

ライセンス: Link先を確認
Jiatong Li, Rui Li, Qi Liu(参考訳) 大規模言語モデル (LLM) は様々な実世界のタスクに進歩し、LLMの評価の要求を刺激している。 既存のLLM評価手法は主に静的なデータセットに依存する教師付き信号ベースであり、深い相互作用が広く存在する動的実世界のシナリオにおいてLLMの能力を評価することはできない。 その他のLCM評価手法は、コストがかかり時間もかかり、LLMの大規模評価が不可能な人間に基づくものである。 以上の課題に対処するため,我々は,新しいLLM評価フレームワークを提案する。 提案するフレームワークでは,実世界のドメインにおけるllmsの性能を,詳細な評価タスクにおいて他のllmと深い相互作用から評価することができる。 さらに,本提案フレームワークは,機械翻訳やコード生成といった現実的なタスクのホストに適用可能な汎用評価手法である。 提案手法の有効性を, 精巧に設計された4つの評価課題に対する広範囲な実験により実証する。

Large Language Models (LLMs) have made progress in various real-world tasks, which stimulates requirements for the evaluation of LLMs. Existing LLM evaluation methods are mainly supervised signal-based which depends on static datasets and cannot evaluate the ability of LLMs in dynamic real-world scenarios where deep interaction widely exists. Other LLM evaluation methods are human-based which are costly and time-consuming and are incapable of large-scale evaluation of LLMs. To address the issues above, we propose a novel Deep Interaction-based LLM-evaluation framework. In our proposed framework, LLMs' performances in real-world domains can be evaluated from their deep interaction with other LLMs in elaborately designed evaluation tasks. Furthermore, our proposed framework is a general evaluation method that can be applied to a host of real-world tasks such as machine translation and code generation. We demonstrate the effectiveness of our proposed method through extensive experiments on four elaborately designed evaluation tasks.
翻訳日:2023-09-11 13:14:06 公開日:2023-09-08
# 2次元グリッドに基づくレベルコンプリタビリティの分類のためのアクティブラーニング

Active Learning for Classifying 2D Grid-Based Level Completability ( http://arxiv.org/abs/2309.04367v1 )

ライセンス: Link先を確認
Mahsa Bazzaz, Seth Cooper(参考訳) 機械学習モデルのような手続き型生成器が生成するレベルの可読性を決定することは、しばしばレベルの分析と解くのにかなりの時間を要するソルバエージェントの使用を伴うため、難しい場合がある。 アクティブラーニングはゲーム評価にはまだ広く採用されていないが、自然言語処理、画像および音声認識、コンピュータビジョンにおいて、ラベル付きデータの可用性が制限されたり、高価であったりしている。 本稿では,学習レベルの可読性分類におけるアクティブラーニングの利用を提案する。 アクティブ・ラーニング・アプローチにより、スーパーマリオブラザース、キッド・イカルス、ゼルダのようなゲームの生成レベルを分類するためにディープラーニングモデルをトレーニングする。 クエリレベルに対するアクティブラーニングとラベル付け,ランダムクエリに対する可読性を比較した。 その結果,ラベルレベルをアクティブに学習することで,ラベル付きデータ量と同量の分類器の性能が向上した。

Determining the completability of levels generated by procedural generators such as machine learning models can be challenging, as it can involve the use of solver agents that often require a significant amount of time to analyze and solve levels. Active learning is not yet widely adopted in game evaluations, although it has been used successfully in natural language processing, image and speech recognition, and computer vision, where the availability of labeled data is limited or expensive. In this paper, we propose the use of active learning for learning level completability classification. Through an active learning approach, we train deep-learning models to classify the completability of generated levels for Super Mario Bros., Kid Icarus, and a Zelda-like game. We compare active learning for querying levels to label with completability against random queries. Our results show using an active learning approach to label levels results in better classifier performance with the same amount of labeled data.
翻訳日:2023-09-11 13:13:52 公開日:2023-09-08
# 画像露光補正用cnn注入変圧器

CNN Injected Transformer for Image Exposure Correction ( http://arxiv.org/abs/2309.04366v1 )

ライセンス: Link先を確認
Shuning Xu, Xiangyu Chen, Binbin Song, Jiantao Zhou(参考訳) 不正確な露出設定で画像をキャプチャしても、満足のいくビジュアルエクスペリエンスを提供できない。 露光が適切に設定されたときのみ、画像の色や詳細を適切に保存することができる。 畳み込みに基づく以前の露光補正法は、畳み込み核の制限された受容場の結果、画像の露光偏差を生じることが多い。 この問題は、畳み込みが画像の長距離依存関係を正確にキャプチャできないために生じる。 この課題を克服するために、Transformerを露光補正問題に適用し、長距離依存関係をモデル化してグローバル表現をキャプチャする能力を活用する。 しかし、ウィンドウベースのTransformerのみに依存すると、小さなパッチに自己注意を適用するため、視覚的にブロッキングアーティファクトが乱される。 本稿では,CNN と Transformer の個々の強度を同時に活用する CNN Injected Transformer (CIT) を提案する。 具体的には、ウィンドウベースのトランスフォーマーを用いて、画像全体の異なる領域間の長距離相互作用を利用するCITを構築する。 各CITブロックには、チャネルアテンションブロック(CAB)とハーフインスタンス正規化ブロック(HINB)が組み込まれ、ウィンドウベースの自己アテンションをサポートし、グローバルな統計情報を取得し、局所的な特徴を洗練する。 露出補正のためのハイブリッドアーキテクチャ設計に加えて,空間コヒーレンスを改善し,電位色偏差を補正するために,注意深く定式化した損失関数を適用した。 広範な実験により, 画像露光補正手法が, 定量的および質的指標の両面で最先端の手法よりも優れていることが示された。

Capturing images with incorrect exposure settings fails to deliver a satisfactory visual experience. Only when the exposure is properly set, can the color and details of the images be appropriately preserved. Previous exposure correction methods based on convolutions often produce exposure deviation in images as a consequence of the restricted receptive field of convolutional kernels. This issue arises because convolutions are not capable of capturing long-range dependencies in images accurately. To overcome this challenge, we can apply the Transformer to address the exposure correction problem, leveraging its capability in modeling long-range dependencies to capture global representation. However, solely relying on the window-based Transformer leads to visually disturbing blocking artifacts due to the application of self-attention in small patches. In this paper, we propose a CNN Injected Transformer (CIT) to harness the individual strengths of CNN and Transformer simultaneously. Specifically, we construct the CIT by utilizing a window-based Transformer to exploit the long-range interactions among different regions in the entire image. Within each CIT block, we incorporate a channel attention block (CAB) and a half-instance normalization block (HINB) to assist the window-based self-attention to acquire the global statistics and refine local features. In addition to the hybrid architecture design for exposure correction, we apply a set of carefully formulated loss functions to improve the spatial coherence and rectify potential color deviations. Extensive experiments demonstrate that our image exposure correction method outperforms state-of-the-art approaches in terms of both quantitative and qualitative metrics.
翻訳日:2023-09-11 13:13:36 公開日:2023-09-08
# 電力信号からの学習:電力伝送システムにおける電気的外乱同定の自動化

Learning from Power Signals: An Automated Approach to Electrical Disturbance Identification Within a Power Transmission System ( http://arxiv.org/abs/2309.04361v1 )

ライセンス: Link先を確認
Jonathan D. Boyd, Joshua H. Tyler, Anthony M. Murphy, Donald R. Reising(参考訳) 電力業界では電力品質が優先されるようになり、乱れイベントデータの量が増え続けている。 ユーティリティには、各イベントを手作業で分析するための要員がいない。 本研究では,ディジタル障害レコーダと送電システム内の電力品質モニタが記録した電力品質イベントを自動的に解析する手法を提案する。 自動アプローチは、電圧と電流信号の時間と周波数領域特性を調べるためにルールベースの分析を利用する。 各障害イベントを分類するために、カスタマイズ可能なしきい値を設定する。 この研究で分析されたイベントには、様々な故障、モーター始動、初期変圧器の故障などがある。 14種類のイベントタイプの分析が開発されている。 分析は160の信号ファイルでテストされ、9%の精度で得られた。 サイクリックヒストグラムと呼ばれる手法を用いて、連続的な名目信号データ解析を行う。 循環ヒストグラムプロセスはデジタルフォールトレコーダー自体に統合され、乱れを発生させるには小さすぎる微妙な信号の変動の検出が容易になる。 メモリ要求の320倍の削減に加えて、循環ヒストグラム処理が初期イベントと識別子の識別を支援することが期待されている。 本プロジェクトでは,障害の分類を自動化し,障害の早期検出と同定と発生前の問題の防止により,伝達システムの信頼性を高めることで,技術者の時間を短縮することが期待されている。

As power quality becomes a higher priority in the electric utility industry, the amount of disturbance event data continues to grow. Utilities do not have the required personnel to analyze each event by hand. This work presents an automated approach for analyzing power quality events recorded by digital fault recorders and power quality monitors operating within a power transmission system. The automated approach leverages rule-based analytics to examine the time and frequency domain characteristics of the voltage and current signals. Customizable thresholds are set to categorize each disturbance event. The events analyzed within this work include various faults, motor starting, and incipient instrument transformer failure. Analytics for fourteen different event types have been developed. The analytics were tested on 160 signal files and yielded an accuracy of ninety-nine percent. Continuous, nominal signal data analysis is performed using an approach coined as the cyclic histogram. The cyclic histogram process will be integrated into the digital fault recorders themselves to facilitate the detection of subtle signal variations that are too small to trigger a disturbance event and that can occur over hours or days. In addition to reducing memory requirements by a factor of 320, it is anticipated that cyclic histogram processing will aid in identifying incipient events and identifiers. This project is expected to save engineers time by automating the classification of disturbance events and increase the reliability of the transmission system by providing near real time detection and identification of disturbances as well as prevention of problems before they occur.
翻訳日:2023-09-11 13:13:11 公開日:2023-09-08
# ブレイド・エノンを超えて:ガリレオ不変連続極限を持つ一次元エノンの格子モデル

Beyond braid anyons: A lattice model for one-dimensional anyons with a Galilean invariant continuum limit ( http://arxiv.org/abs/2309.04358v1 )

ライセンス: Link先を確認
Sebastian Nagies, Botao Wang, A.C. Knapp, Andr\'e Eckardt, and N.L. Harshman(参考訳) 量子粒子の構成空間が単に接続されていないとき、任意の交換統計が現れる。 最も有名なのは、2次元にハードコアな2体制約を持つ粒子に対するanyon統計である。 ここで、ブレイド群によって記述される交換経路は非自明な幾何学的位相に関連付けられ、アーベルブレイドエノンが生じる。 1次元(1D)のハードコアな3体制約はまた、粒子の配置空間を非単純連結にするが、最近、これはブレイド群の代わりにトレード群によって与えられる統計を持つ異形のエノンを許すことが示されている。 本稿では,そのようなトラヒドの具体的なモデルを提案する。 まず,トライド群のアーベル表現に付随する所望の幾何学的位相を実装した数依存性のパイエルス相を持つボソニック格子モデルを構築し,その後,ハミルトニアンがそれらに関して局所的かつ二次的になるようにアノニカル作用素を定義する。 このトロイド・アニーオン・ハバードモデルの基底状態は、創発的近似ハルダン排他統計の様々な兆候を示している。 連続極限は、以前に構築された連続トライド-アニーニック波動関数に対応する固有状態を持つガリレオ不変ハミルトニアンをもたらす。 これは、我々のモデルに対するアポテリオリの正当性を提供するだけでなく、我々の構成がトラヒドオンに対する直感的なアプローチであることを示す。 さらに、アノン・ハッバードモデルの非ガリアン不変連続極限 [Keilmann et al., Nat] とは対照的である。 通称。 ~\textbf{2}, 361 (2011)] 離散1次元構成空間上のブレイド・アノンを記述する。 この違いは、1D の連続体においても(ブレイドエノンと異なり)トライドエノンがよく定義されるという事実に起因している。

Anyonic exchange statistics can emerge when the configuration space of quantum particles is not simply-connected. Most famously, anyon statistics arises for particles with hard-core two-body constraints in two dimensions. Here, the exchange paths described by the braid group are associated to non-trivial geometric phases, giving rise to abelian braid anyons. Hard-core three-body constraints in one dimension (1D) also make the configuration space of particles non-simply connected, and it was recently shown that this allows for a different form of anyons with statistics given by the traid group instead of the braid group. In this article we propose a first concrete model for such traid anyons. We first construct a bosonic lattice model with number-dependent Peierls phases which implement the desired geometric phases associated with abelian representations of the traid group and then define anyonic operators so that the Hamiltonian becomes local and quadratic with respect to them. The ground-state of this traid-anyon-Hubbard model shows various indications of emergent approximate Haldane exclusion statistics. The continuum limit results in a Galilean invariant Hamiltonian with eigenstates that correspond to previously constructed continuum traid-anyonic wave functions. This provides not only an a-posteriori justification of our model, but also shows that our construction serves as an intuitive approach to traid anyons. Moreover, it contrasts with the non-Galilean invariant continuum limit of the anyon-Hubbard model [Keilmann et al., Nat.\ Comm.~\textbf{2}, 361 (2011)] describing braid anyons on a discrete 1D configuration space. We attribute this difference to the fact that (unlike braid anyons) traid anyons are well defined also in the continuum in 1D.
翻訳日:2023-09-11 13:12:47 公開日:2023-09-08
# SSIG:フロアプランの類似性のためのビジュアルガイド付きグラフ編集距離

SSIG: A Visually-Guided Graph Edit Distance for Floor Plan Similarity ( http://arxiv.org/abs/2309.04357v1 )

ライセンス: Link先を確認
Casper van Engelenburg, Seyran Khademi, Jan van Gemert(参考訳) 学習を必要とせず,建築床計画の視覚的インスタンス間の構造的類似性を測定する簡易かつ効果的な指標を提案する。 定性的には, 結果が深層学習手法と類似していることを示す。 効果的にフロアプランデータを比較することは、フロアプラン生成モデルやフロアプラン推薦システムの評価を含むフロアプランデータの機械的理解の成功に最重要である。 視覚的なフロアプラン画像を比較することは、ピクセル単位の視覚検査以上のもので、レイアウトを構成するサブディビジョン間の形状と関係の類似性や相違を重要視する。 現在、深度距離学習アプローチは、モデルがIoU(Intersection-over-Union)によって得られる類似性ラベルに基づいて訓練される構造的類似性を忠実に模倣したペアワイズベクトル表現空間を学習するために用いられる。 IoUにおける構造認識の欠如を補うために、グラフマッチングネットワーク(GMN)のようなグラフベースのアプローチが使われており、データインスタンスの比較に一対の推論を必要とするため、検索アプリケーションではGMNが実用的でない。 本稿では,床計画の構造的類似性を評価するための有効な評価指標として,画像とグラフの距離からssig(iouとgedによる構造的類似性)を提案する。 さらに,SSIGを用いて大規模フロアプランデータベースのランク付けを行うアルゴリズムを開発した。 コードは公開されます。

We propose a simple yet effective metric that measures structural similarity between visual instances of architectural floor plans, without the need for learning. Qualitatively, our experiments show that the retrieval results are similar to deeply learned methods. Effectively comparing instances of floor plan data is paramount to the success of machine understanding of floor plan data, including the assessment of floor plan generative models and floor plan recommendation systems. Comparing visual floor plan images goes beyond a sole pixel-wise visual examination and is crucially about similarities and differences in the shapes and relations between subdivisions that compose the layout. Currently, deep metric learning approaches are used to learn a pair-wise vector representation space that closely mimics the structural similarity, in which the models are trained on similarity labels that are obtained by Intersection-over-Union (IoU). To compensate for the lack of structural awareness in IoU, graph-based approaches such as Graph Matching Networks (GMNs) are used, which require pairwise inference for comparing data instances, making GMNs less practical for retrieval applications. In this paper, an effective evaluation metric for judging the structural similarity of floor plans, coined SSIG (Structural Similarity by IoU and GED), is proposed based on both image and graph distances. In addition, an efficient algorithm is developed that uses SSIG to rank a large-scale floor plan database. Code will be openly available.
翻訳日:2023-09-11 13:12:13 公開日:2023-09-08
# value-compressed sparse column (vcsc): 冗長データのためのスパースマトリックスストレージ

Value-Compressed Sparse Column (VCSC): Sparse Matrix Storage for Redundant Data ( http://arxiv.org/abs/2309.04355v1 )

ライセンス: Link先を確認
Skyler Ruiter, Seth Wolfgang, Marc Tunnell, Timothy Triche Jr., Erin Carrier, Zachary DeBruine(参考訳) Compressed Sparse Column (CSC) と Coordinate (COO) はスパース行列の一般的な圧縮フォーマットである。 しかし、CSCとCOOはどちらも汎用的であり、データ冗長性のような疎性以外のデータの性質を活用できない。 高冗長なスパースデータは、ゲノミクスなどの多くの機械学習アプリケーションで一般的であり、従来のスパースストレージフォーマットを使用したインコア計算には大きすぎることが多い。 本稿では,(1)値圧縮スパースカラム(VCSC)と(2)指数圧縮スパースカラム(IVCSC)の2つの拡張について述べる。 VCSCはコラム内の高い冗長性を生かし、3倍のデータをCOOで圧縮し、2.25倍のデータをCSCで圧縮する。 IVCSCは、デルタエンコーディングとバイトパッキングを通じてインデックス配列を圧縮することでVCSCを拡張し、COOよりもメモリ使用量が10倍、CSCより7.5倍減少する。 シミュレーションおよび実データに関するベンチマークでは,VCSCとVCSCを圧縮形式で読み取ることができるが,計算コストは少ない。 これら2つの新しい圧縮フォーマットは、冗長なスパースデータのエンコーディングと読み出しに広く有用なソリューションを提供する。

Compressed Sparse Column (CSC) and Coordinate (COO) are popular compression formats for sparse matrices. However, both CSC and COO are general purpose and cannot take advantage of any of the properties of the data other than sparsity, such as data redundancy. Highly redundant sparse data is common in many machine learning applications, such as genomics, and is often too large for in-core computation using conventional sparse storage formats. In this paper, we present two extensions to CSC: (1) Value-Compressed Sparse Column (VCSC) and (2) Index- and Value-Compressed Sparse Column (IVCSC). VCSC takes advantage of high redundancy within a column to further compress data up to 3-fold over COO and 2.25-fold over CSC, without significant negative impact to performance characteristics. IVCSC extends VCSC by compressing index arrays through delta encoding and byte-packing, achieving a 10-fold decrease in memory usage over COO and 7.5-fold decrease over CSC. Our benchmarks on simulated and real data show that VCSC and IVCSC can be read in compressed form with little added computational cost. These two novel compression formats offer a broadly useful solution to encoding and reading redundant sparse data.
翻訳日:2023-09-11 13:11:45 公開日:2023-09-08
# モバイルV-MoE:スパースミキサーによる視覚変換器のスケールダウン

Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts ( http://arxiv.org/abs/2309.04354v1 )

ライセンス: Link先を確認
Erik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du(参考訳) Sparse Mixture-of-Experts Model (MoEs) は、任意の入力トークンに対してモデルパラメータの小さなサブセットを活性化するだけで、モデルサイズを推論効率から切り離すことで、最近人気を集めている。 そのため、スパースMoEは前例のないスケーラビリティを実現し、自然言語処理やコンピュータビジョンといった領域で大きな成功を収めた。 本研究では,資源制約された視覚アプリケーションに対して,視覚変換器(ViT)のスケールダウンにスパース MoEs を用いる方法を検討する。 そこで本稿では,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。 また,ルータの誘導にスーパークラス情報を用いる安定したMoE訓練手法を提案する。 V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。 例えば、VT-Tinyモデルでは、当社のMobile V-MoEはImageNet-1kで3.39%の高パフォーマンスを実現しています。 さらに54M FLOPsの推論コストが小さいViTでは、MoEは4.66%の改善を実現しています。

Sparse Mixture-of-Experts models (MoEs) have recently gained popularity due to their ability to decouple model size from inference efficiency by only activating a small subset of the model parameters for any given input token. As such, sparse MoEs have enabled unprecedented scalability, resulting in tremendous successes across domains such as natural language processing and computer vision. In this work, we instead explore the use of sparse MoEs to scale-down Vision Transformers (ViTs) to make them more attractive for resource-constrained vision applications. To this end, we propose a simplified and mobile-friendly MoE design where entire images rather than individual patches are routed to the experts. We also propose a stable MoE training procedure that uses super-class information to guide the router. We empirically show that our sparse Mobile Vision MoEs (V-MoEs) can achieve a better trade-off between performance and efficiency than the corresponding dense ViTs. For example, for the ViT-Tiny model, our Mobile V-MoE outperforms its dense counterpart by 3.39% on ImageNet-1k. For an even smaller ViT variant with only 54M FLOPs inference cost, our MoE achieves an improvement of 4.66%.
翻訳日:2023-09-11 13:11:22 公開日:2023-09-08
# 基礎モデルを用いたゼロショットモデルのロバスト化

Zero-Shot Robustification of Zero-Shot Models With Foundation Models ( http://arxiv.org/abs/2309.04344v1 )

ライセンス: Link先を確認
Dyah Adila, Changho Shin, Linrong Cai, Frederic Sala(参考訳) ゼロショット推論(zero-shot inference)は,ダウンストリーム分類タスクに事前トレーニングされた大規模モデルを,さらなるトレーニングなしで使用可能にする,強力なパラダイムである。 しかしながら、これらのモデルは、パフォーマンスに影響を与える可能性がある継承バイアスに弱い。 従来のソリューションは微調整だが、これは事前訓練されたモデルのキーとなる利点を損なう。 完全ゼロショット方式で事前学習したモデル埋め込みのロバスト性を改善する手法であるRoboShotを提案する。 まず、ゼロショット言語モデル(LM)を用いてタスク記述から有用な洞察を得る。 これらの洞察は組み込まれていて、有害なコンポーネントを取り除くために使われます。 理論的には、ゼロショット埋め込みにおけるバイアスの簡易かつトラクタブルなモデルを提供し、我々のアプローチがパフォーマンスを向上できる条件を特徴付ける結果を与える。 実験により,9つの画像およびNLP分類タスクでRoboShotを評価し,ゼロショットベースライン数に対して平均15.98%の改善を示した。 さらに、RoboShotは事前訓練された様々な言語モデルと互換性があることを実証する。

Zero-shot inference is a powerful paradigm that enables the use of large pretrained models for downstream classification tasks without further training. However, these models are vulnerable to inherited biases that can impact their performance. The traditional solution is fine-tuning, but this undermines the key advantage of pretrained models, which is their ability to be used out-of-the-box. We propose RoboShot, a method that improves the robustness of pretrained model embeddings in a fully zero-shot fashion. First, we use zero-shot language models (LMs) to obtain useful insights from task descriptions. These insights are embedded and used to remove harmful and boost useful components in embeddings -- without any supervision. Theoretically, we provide a simple and tractable model for biases in zero-shot embeddings and give a result characterizing under what conditions our approach can boost performance. Empirically, we evaluate RoboShot on nine image and NLP classification tasks and show an average improvement of 15.98% over several zero-shot baselines. Additionally, we demonstrate that RoboShot is compatible with a variety of pretrained and language models.
翻訳日:2023-09-11 13:11:00 公開日:2023-09-08
# 制御された進化の量子ワーク統計

Quantum work statistics of controlled evolutions ( http://arxiv.org/abs/2309.04419v1 )

ライセンス: Link先を確認
Steve Campbell(参考訳) 量子ワーク統計学を用いて、反断熱駆動場によって制御される制御力学を特徴づける。 作業確率分布のシャノンエントロピー($P(W)$)に着目し、制御された進化の熱力学が複雑な量子系の非平衡力学を研究するための洞察力のあるツールであることを示す。 特に、Landau-Zenerモデルに対するKibble-Zurek機構に従って、$P(W)$のエントロピーが期待スケーリングを回復することを示す。 さらに,作業分布のエントロピーは,多体システムにおける制御フィールドの必要性と複雑さを特徴づけるために有用な要約統計量を提供する。

We use the quantum work statistics to characterize the controlled dynamics governed by a counterdiabatic driving field. Focusing on the Shannon entropy of the work probability distribution, $P(W)$, we demonstrate that the thermodynamics of a controlled evolution serves as an insightful tool for studying the non-equilibrium dynamics of complex quantum systems. In particular, we show that the entropy of $P(W)$ recovers the expected scaling according to the Kibble-Zurek mechanism for the Landau-Zener model. Furthermore, we propose that the entropy of the work distribution provides a useful summary statistic for characterizing the need and complexity of the control fields for many-body systems.
翻訳日:2023-09-11 13:06:18 公開日:2023-09-08
# DeformToon3D:ニューラルラジアンス場からの変形可能な3Dトーン化

DeformToon3D: Deformable 3D Toonification from Neural Radiance Fields ( http://arxiv.org/abs/2309.04410v1 )

ライセンス: Link先を確認
Junzhe Zhang, Yushi Lan, Shuai Yang, Fangzhou Hong, Quan Wang, Chai Kiat Yeo, Ziwei Liu, Chen Change Loy(参考訳) 本稿では,3次元トーン化の難解な課題について述べる。スタイリッシュな形状とテクスチャで,芸術的領域のスタイルを対象の3次元顔に移す。 芸術領域で事前訓練された3D GANを微調整すると、合理的なパフォーマンスが得られるが、この戦略は3D領域に制限がある。 特に微調整は、後続のセマンティック編集に影響を与えるオリジナルのGAN潜伏空間を悪化させ、新しいスタイルごとに独立した最適化とストレージを必要とし、柔軟性と効率的なデプロイメントを制限する。 これらの課題を克服するために,階層型3D GANに適した効果的なトーン化フレームワークであるDeformToon3Dを提案する。 本手法は3次元トーン化を幾何学とテクスチャスタイライゼーションのサブプロブレムに分解し,元の潜在空間をよりよく保存する。 具体的には、条件付き3次元変形を予測し、実空間のnerfを幾何学的スタイライゼーションのスタイル空間に整列する新しいスタイルフィールドを考案する。 すでに幾何学的スタイリゼーションをうまく処理しているStyleFieldの定式化のおかげで、3D GANのデコーダに芸術領域の情報を注入する適応型スタイルミキシングにより、テクスチャのスタイリゼーションを便利に実現できる。 このユニークな設計により、フレキシブルなスタイル度制御と形状・テクスチャ固有のスタイルスワップが可能となる。 さらに,実世界の2D-3Dトレーニングペアを使わずに,市販の2Dトーン化モデルから合成したプロキシサンプルを効率よく学習する。

In this paper, we address the challenging problem of 3D toonification, which involves transferring the style of an artistic domain onto a target 3D face with stylized geometry and texture. Although fine-tuning a pre-trained 3D GAN on the artistic domain can produce reasonable performance, this strategy has limitations in the 3D domain. In particular, fine-tuning can deteriorate the original GAN latent space, which affects subsequent semantic editing, and requires independent optimization and storage for each new style, limiting flexibility and efficient deployment. To overcome these challenges, we propose DeformToon3D, an effective toonification framework tailored for hierarchical 3D GAN. Our approach decomposes 3D toonification into subproblems of geometry and texture stylization to better preserve the original latent space. Specifically, we devise a novel StyleField that predicts conditional 3D deformation to align a real-space NeRF to the style space for geometry stylization. Thanks to the StyleField formulation, which already handles geometry stylization well, texture stylization can be achieved conveniently via adaptive style mixing that injects information of the artistic domain into the decoder of the pre-trained 3D GAN. Due to the unique design, our method enables flexible style degree control and shape-texture-specific style swap. Furthermore, we achieve efficient training without any real-world 2D-3D training pairs but proxy samples synthesized from off-the-shelf 2D toonification models.
翻訳日:2023-09-11 13:06:07 公開日:2023-09-08
# MaskDiffusion: 条件付きマスクによるテキストと画像の一貫性向上

MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask ( http://arxiv.org/abs/2309.04399v1 )

ライセンス: Link先を確認
Yupeng Zhou, Daquan Zhou, Zuo-Liang Zhu, Yaxing Wang, Qibin Hou, Jiashi Feng(参考訳) 近年の拡散モデルの発展は、視覚的に印象的な画像を生成する能力を示している。 それでも、生成された画像と与えられたプロンプトの密一致を保証することは、引き続き永続的な課題である。 本研究では,テキスト画像のミスマッチ問題に繋がる重要な要因が,プロンプトと出力画像間の不適切な相互モダリティ関係学習であることを確認した。 プロンプトと画像コンテンツの整合性を向上させるため,アテンションマップとプロンプト埋め込みを条件としたアダプティブマスクによるクロスアテンションを進め,画像特徴に対する各テキストトークンの寄与度を動的に調整する。 この機構は、テキストエンコーダから埋め込まれた意味情報の曖昧さを明示的に低減し、合成画像におけるテキスト間の一貫性を向上させる。 maskdiffusionと呼ばれるこの手法は、一般的な訓練済み拡散モデルに対して、トレーニングフリーかつホットプラグ化可能である。 潜在拡散モデルに適用すると,マスカディフフュージョンは元の拡散モデルと比較して,テキストと画像の一貫性が著しく向上し,計算オーバーヘッドが無視できる。

Recent advancements in diffusion models have showcased their impressive capacity to generate visually striking images. Nevertheless, ensuring a close match between the generated image and the given prompt remains a persistent challenge. In this work, we identify that a crucial factor leading to the text-image mismatch issue is the inadequate cross-modality relation learning between the prompt and the output image. To better align the prompt and image content, we advance the cross-attention with an adaptive mask, which is conditioned on the attention maps and the prompt embeddings, to dynamically adjust the contribution of each text token to the image features. This mechanism explicitly diminishes the ambiguity in semantic information embedding from the text encoder, leading to a boost of text-to-image consistency in the synthesized images. Our method, termed MaskDiffusion, is training-free and hot-pluggable for popular pre-trained diffusion models. When applied to the latent diffusion models, our MaskDiffusion can significantly improve the text-to-image consistency with negligible computation overhead compared to the original diffusion models.
翻訳日:2023-09-11 13:05:16 公開日:2023-09-08
# CSPRD:中国株式市場の金融政策検索データセット

CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market ( http://arxiv.org/abs/2309.04389v1 )

ライセンス: Link先を確認
Jinyuan Wang, Hai Zhao, Zhong Wang, Zeyang Zhu, Jinhao Xie, Yong Yu, Yongjian Fei, Yue Huang and Dawei Cheng(参考訳) 近年,PLM (pre-trained language model) の大幅な進歩が研究の焦点となり,大規模コーパスからの相対的文節の検索を目的とした高密度な文節検索のアプローチに有望な成果を上げている。 しかし、既存のデータセットのほとんどは、一般的な常識の事実的クエリでモデルをベンチマークしているが、専門的なアノテーションによる大規模で高品質なデータセットの不足のため、金融や経済学のような専門分野は未検討のままである。 本研究では,中国政策コーパスの10k以上の項目から,経験豊富な専門家がラベル付けした700以上の索引情報を提供する中国株式政策検索データセット(csprd)を導入することで,新たな課題である政策検索を提案する。 語彙,埋め込み,微調整の両エンコーダモデルを用いた実験は,提案したCSPRDの有効性を示しているが,改善の可能性も十分示唆している。 我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。

In recent years, great advances in pre-trained language models (PLMs) have sparked considerable research focus and achieved promising performance on the approach of dense passage retrieval, which aims at retrieving relative passages from massive corpus with given questions. However, most of existing datasets mainly benchmark the models with factoid queries of general commonsense, while specialised fields such as finance and economics remain unexplored due to the deficiency of large-scale and high-quality datasets with expert annotations. In this work, we propose a new task, policy retrieval, by introducing the Chinese Stock Policy Retrieval Dataset (CSPRD), which provides 700+ prospectus passages labeled by experienced experts with relevant articles from 10k+ entries in our collected Chinese policy corpus. Experiments on lexical, embedding and fine-tuned bi-encoder models show the effectiveness of our proposed CSPRD yet also suggests ample potential for improvement. Our best performing baseline achieves 56.1% MRR@10, 28.5% NDCG@10, 37.5% Recall@10 and 80.6% Precision@10 on dev set.
翻訳日:2023-09-11 13:04:44 公開日:2023-09-08
# 原子配列の障害による協調的崩壊の修飾

Modifying cooperative decay via disorder in atom arrays ( http://arxiv.org/abs/2309.04384v1 )

ライセンス: Link先を確認
Nik O. Gjonbalaj, Stefan Ostermann, Susanne F. Yelin(参考訳) 原子配列は、遷移波長が格子間隔を超えると集合的な発光を示す。 亜ラジカル状態は、この現象を利用して全体の崩壊率を劇的に減少させ、散逸性開系における長期状態を可能にする。 我々は, 単一励起原子配列の減衰率がさらに低下するかどうかを調べるために, 先行研究を行った。 より具体的には、1次元半導波路と1d,2d,3d原子配列における強度変化の空間障害を自由空間で検討し、最もサブラジアントモードへの影響を分析した。 希薄な半導波路がアンダーソン局在の類似性を示すことは確認するが、密度の高い半導波路と自由空間系は、ディック限界に類似した密閉された、ほとんどボディのサブラジアント状態を作成することによって理解することができる。 一般に、無秩序は平均的に自由空間でより暗い亜ラジアント状態を生成するのにほとんど利点がなく、しばしば崩壊を加速する。 しかし、特定のサブラジアント状態を作るために配列内の原子間間隔を変更する可能性がある。

Atomic arrays can exhibit collective light emission when the transition wavelength exceeds their lattice spacing. Subradiant states take advantage of this phenomenon to drastically reduce their overall decay rate, allowing for long-lived states in dissipative open systems. We build on previous work to investigate whether or not disorder can further decrease the decay rate of a singly-excited atomic array. More specifically, we consider spatial disorder of varying strengths in a 1D half waveguide and in 1D, 2D, and 3D atomic arrays in free space and analyze the effect on the most subradiant modes. While we confirm that the dilute half waveguide exhibits an analog of Anderson localization, the dense half waveguide and free space systems can be understood through the creation of close-packed, few-body subradiant states similar to those found in the Dicke limit. In general, we find that disorder provides little advantage in generating darker subradiant states in free space on average and will often accelerate decay. However, one could potentially change interatomic spacing within the array to engineer specific subradiant states.
翻訳日:2023-09-11 13:04:07 公開日:2023-09-08
# 2次元反ド・ジッター空間上の量子イジングモデル

Quantum Ising model on two dimensional anti-de Sitter space ( http://arxiv.org/abs/2309.04383v1 )

ライセンス: Link先を確認
Muhammad Asaduzzaman, Simon Catterall, Yannick Meurice and Goksu Can Toga(参考訳) 本稿では,2次元反デジッタ空間の離散化における横イジングモデルについて検討する。 我々は、古典的および量子的アルゴリズムを用いて、リアルタイム進化をシミュレートし、時間外順序相関器(OTOC)を測定する。 後者は、時間進化中の量子情報の熱化とスクランブルをプローブすることができる。 テンソルネットワークに基づく手法とゲート型超伝導量子デバイスのシミュレーションと、rydbergアレイを用いたアナログ量子シミュレーションを比較した。 この系の熱化特性を研究しながら,空間の曲率半径に応じて異なる状態が観察された。 特に、熱化時間が自由度数に対数的にのみ依存するパラメータ空間の領域が見つかる。

This paper investigates the transverse Ising model on a discretization of two-dimensional anti-de Sitter space. We use classical and quantum algorithms to simulate real-time evolution and measure out-of-time-ordered correlators (OTOC). The latter can probe thermalization and scrambling of quantum information under time evolution. We compared tensor network-based methods both with simulation on gated-based superconducting quantum devices and analog quantum simulation using Rydberg arrays. While studying this system's thermalization properties, we observed different regimes depending on the radius of curvature of the space. In particular, we find a region of parameter space where the thermalization time depends only logarithmically on the number of degrees of freedom.
翻訳日:2023-09-11 13:03:40 公開日:2023-09-08
# 物理システムにおける創発的学習 : ガラス景観におけるフィードバックに基づく老化

Emergent learning in physical systems as feedback-based aging in a glassy landscape ( http://arxiv.org/abs/2309.04382v1 )

ライセンス: Link先を確認
Vidyesh Rao Anisetti, Ananth Kandala, J. M. Schwarz(参考訳) 線形物理ネットワークを訓練して線形変換を学習することにより,重み更新規則によりその物理特性がどのように進化するかを見極める。 本研究は,このようなネットワークの学習行動と,不規則系およびガラス系における老化・記憶形成過程の類似性に注目した。 学習のダイナミクスは,入力力の存在下でフィードバック境界力の繰り返し適用に応答してシステムが緩和し,入出力関係の記憶を符号化する,老化過程に類似していることを示す。 この緩和により相関長が増加し、これはネットワークの構成要素の2点相関関数によって示される。 また,エポック関数としての平均二乗誤差の平方根が非指数形式をとることも観察し,ガラス系の典型的特徴である。 この物理的解釈は、より詳細な情報を入力とフィードバックの境界力にエンコードすることで、創発的学習のプロセスはむしろユビキタスになり、進化的観点から、生物システムにおける学習のための非常に初期の物理的メカニズムとなることを示唆している。

By training linear physical networks to learn linear transformations, we discern how their physical properties evolve due to weight update rules. Our findings highlight a striking similarity between the learning behaviors of such networks and the processes of aging and memory formation in disordered and glassy systems. We show that the learning dynamics resembles an aging process, where the system relaxes in response to repeated application of the feedback boundary forces in presence of an input force, thus encoding a memory of the input-output relationship. With this relaxation comes an increase in the correlation length, which is indicated by the two-point correlation function for the components of the network. We also observe that the square root of the mean-squared error as a function of epoch takes on a non-exponential form, which is a typical feature of glassy systems. This physical interpretation suggests that by encoding more detailed information into input and feedback boundary forces, the process of emergent learning can be rather ubiquitous and, thus, serve as a very early physical mechanism, from an evolutionary standpoint, for learning in biological systems.
翻訳日:2023-09-11 13:03:16 公開日:2023-09-08
# 一般化境界:情報理論とPAC-Bayes

Generalization Bounds: Perspectives from Information Theory and PAC-Bayes ( http://arxiv.org/abs/2309.04381v1 )

ライセンス: Link先を確認
Fredrik Hellstr\"om, Giuseppe Durisi, Benjamin Guedj, Maxim Raginsky(参考訳) 理論的機械学習の基本的な問題は一般化である。 過去数十年にわたり、pac-bayesianアプローチは、機械学習アルゴリズムの一般化能力に対処し、新しいものを設計するための柔軟なフレームワークとして確立されてきた。 近年、深層ニューラルネットワークを含むさまざまな学習アルゴリズムに適用可能な可能性から、関心が高まっている。 並行して、一般化に関する情報理論的な視点が発達し、一般化と様々な情報対策の関係が確立された。 このフレームワークはPAC-ベイジアンアプローチと密接に結びついており、両方の鎖で独立に多くの結果が発見されている。 このモノグラフでは、この強いつながりを強調し、一般化の統一的な扱いを示す。 我々は,二つの視点が共通する手法と結果を提示し,異なるアプローチと解釈について議論する。 特に、その領域のどれだけの証明がモジュラー構造を共有しているかを示す。 我々は、条件付き相互情報(CMI)フレームワーク、学習アルゴリズムの情報複雑性の分析研究、提案手法の深層学習への応用に特に注意を払う。 このモノグラフは、情報理論の一般化境界とPAC-Bayesとの関係を包括的に紹介することを目的としており、最新の開発が利用できる基盤となっている。 一般化と理論的機械学習に関心を持つ研究者を対象とする。

A fundamental question in theoretical machine learning is generalization. Over the past decades, the PAC-Bayesian approach has been established as a flexible framework to address the generalization capabilities of machine learning algorithms, and design new ones. Recently, it has garnered increased interest due to its potential applicability for a variety of learning algorithms, including deep neural networks. In parallel, an information-theoretic view of generalization has developed, wherein the relation between generalization and various information measures has been established. This framework is intimately connected to the PAC-Bayesian approach, and a number of results have been independently discovered in both strands. In this monograph, we highlight this strong connection and present a unified treatment of generalization. We present techniques and results that the two perspectives have in common, and discuss the approaches and interpretations that differ. In particular, we demonstrate how many proofs in the area share a modular structure, through which the underlying ideas can be intuited. We pay special attention to the conditional mutual information (CMI) framework; analytical studies of the information complexity of learning algorithms; and the application of the proposed methods to deep learning. This monograph is intended to provide a comprehensive introduction to information-theoretic generalization bounds and their connection to PAC-Bayes, serving as a foundation from which the most recent developments are accessible. It is aimed broadly towards researchers with an interest in generalization and theoretical machine learning.
翻訳日:2023-09-11 13:02:55 公開日:2023-09-08
# 自律運転のための言語プロンプト

Language Prompt for Autonomous Driving ( http://arxiv.org/abs/2309.04379v1 )

ライセンス: Link先を確認
Dongming Wu, Wencheng Han, Tiancai Wang, Yingfei Liu, Xiangyu Zhang, Jianbing Shen(参考訳) コンピュータビジョンコミュニティにおける新しいトレンドは、自然言語プロンプトで表現される柔軟な人間の命令に従って、興味のあるオブジェクトをキャプチャすることだ。 しかし,一対のプロンプト・インスタンスデータの不足により,運転シナリオにおける言語プロンプトの使用の進捗はボトルネックに陥っている。 この課題に対処するため,我々はNuPromptという3D,マルチビュー,マルチフレーム空間内のシーンを駆動するための最初のオブジェクト指向言語プロンプトセットを提案する。 平均5.3のオブジェクトトラックを参照して、合計35,367の言語記述を構築することで、nusceneデータセットを拡張する。 新しいベンチマークのオブジェクト-テキストペアに基づいて、ビューとフレーム間で記述されたオブジェクトの軌跡を予測する言語プロンプトを使用した、新しいプロンプトベースの駆動タスクである \ie を定式化する。 さらに、Transformerをベースにしたシンプルなエンドツーエンドベースラインモデル、PromptTrackを提供する。 実験によると、私たちのPromptTrackは、NuPromptで素晴らしいパフォーマンスを実現しています。 この研究が、自動運転コミュニティにさらなる洞察をもたらすことを願っている。 DatasetとCodeは、 \href{https://github.com/wudongming97/Prompt4Driving}{https://github.com/wudongming97/Prompt4Driving}で公開される。

A new trend in the computer vision community is to capture objects of interest following flexible human command represented by a natural language prompt. However, the progress of using language prompts in driving scenarios is stuck in a bottleneck due to the scarcity of paired prompt-instance data. To address this challenge, we propose the first object-centric language prompt set for driving scenes within 3D, multi-view, and multi-frame space, named NuPrompt. It expands Nuscenes dataset by constructing a total of 35,367 language descriptions, each referring to an average of 5.3 object tracks. Based on the object-text pairs from the new benchmark, we formulate a new prompt-based driving task, \ie, employing a language prompt to predict the described object trajectory across views and frames. Furthermore, we provide a simple end-to-end baseline model based on Transformer, named PromptTrack. Experiments show that our PromptTrack achieves impressive performance on NuPrompt. We hope this work can provide more new insights for the autonomous driving community. Dataset and Code will be made public at \href{https://github.com/wudongming97/Prompt4Driving}{https://github.com/wudongming97/Prompt4Driving}.
翻訳日:2023-09-11 13:02:33 公開日:2023-09-08
# MoEController:Mixture-of-Expert Controllerによる命令ベースの任意画像操作

MoEController: Instruction-based Arbitrary Image Manipulation with Mixture-of-Expert Controllers ( http://arxiv.org/abs/2309.04372v1 )

ライセンス: Link先を確認
Sijia Li, Chen Chen, Haonan Lu(参考訳) 拡散モデルに基づくテキスト誘導画像生成は、最近驚くべき進歩を遂げ、オープンドメイン画像操作タスクにおいて素晴らしい結果をもたらした。 しかし、現在、画像操作タスクの複雑さと多様性のため、グローバルおよびローカル画像編集の完全なゼロショット機能を持つモデルはほとんどない。 本研究では,拡散モデルのテキスト誘導能力と異なる種類の人間の指示とを一致させるため,実験用混合制御器(MOE)を用いた手法を提案し,そのモデルが自然言語による様々なオープンドメイン画像操作タスクを扱えるようにした。 まず,大規模言語モデル(chatgpt)と条件付き画像合成モデル(controlnet)を用いて,命令ベースのローカル画像編集データセットに加えて,多数のグローバル画像転送データセットを生成する。 そして,MOE技術と大規模データセットを用いたタスク固有適応トレーニングを用いて,条件拡散モデルにより,画像のグローバルかつローカルな編集が可能となる。 広範にわたる実験により,オープンドメイン画像や任意のヒューマンインストラクションを扱う場合,様々な画像操作タスクに対して驚くほど優れた性能が得られた。 プロジェクトページを参照してください。 [https://oppo-mente-lab.github.io/moe_controller/]

Diffusion-model-based text-guided image generation has recently made astounding progress, producing fascinating results in open-domain image manipulation tasks. Few models, however, currently have complete zero-shot capabilities for both global and local image editing due to the complexity and diversity of image manipulation tasks. In this work, we propose a method with a mixture-of-expert (MOE) controllers to align the text-guided capacity of diffusion models with different kinds of human instructions, enabling our model to handle various open-domain image manipulation tasks with natural language instructions. First, we use large language models (ChatGPT) and conditional image synthesis models (ControlNet) to generate a large number of global image transfer dataset in addition to the instruction-based local image editing dataset. Then, using an MOE technique and task-specific adaptation training on a large-scale dataset, our conditional diffusion model can edit images globally and locally. Extensive experiments demonstrate that our approach performs surprisingly well on various image manipulation tasks when dealing with open-domain images and arbitrary human instructions. Please refer to our project page: [https://oppo-mente-lab.github.io/moe_controller/]
翻訳日:2023-09-11 13:02:12 公開日:2023-09-08
# ニューラルネットワークを用いたsingle view refractive index tomography

Single View Refractive Index Tomography with Neural Fields ( http://arxiv.org/abs/2309.04437v1 )

ライセンス: Link先を確認
Brandon Zhao, Aviad Levis, Liam Connor, Pratul P. Srinivasan, Katherine L. Bouman(参考訳) 屈折率トモグラフィ(refractive index tomography)は、2次元投影画像計測からシーンの3次元屈折率を再構成する逆問題である。 屈折磁場はそれ自体は見えず、代わりに、宇宙を移動する光線の経路が連続的に曲がっているかに影響する。 屈折場は、顕微鏡中の半透明の細胞サンプルから遠くの銀河からの光を曲げるダークマターのフィールドまで、様々な科学的応用に現れる。 この問題は、屈折場が光が取る経路に直接影響し、回復が非線形問題となるため、ユニークな課題となる。 また,従来のトモグラフィーとは対照的に,媒質中に散在する光源の知識を生かして,単一の視点から投影像を用いて屈折率の回復を図る。 本研究では,シーン内の連続屈折場をモデル化するために,座標ベースニューラルネットワークを用いた手法を提案する。 次に,raysの3次元空間曲率の明示的モデリングを用いて,このネットワークのパラメータを最適化し,解析・合成による屈折場を再構成する。 本手法の有効性は, シミュレーションにおける屈折率の回復と, 光源分布の影響を解析することにより実証された。 そこで,本手法を模擬ダークマターマッピング問題に適用し,現実的なダークマター分布の根底にある屈折場を復元する。

Refractive Index Tomography is an inverse problem in which we seek to reconstruct a scene's 3D refractive field from 2D projected image measurements. The refractive field is not visible itself, but instead affects how the path of a light ray is continuously curved as it travels through space. Refractive fields appear across a wide variety of scientific applications, from translucent cell samples in microscopy to fields of dark matter bending light from faraway galaxies. This problem poses a unique challenge because the refractive field directly affects the path that light takes, making its recovery a non-linear problem. In addition, in contrast with traditional tomography, we seek to recover the refractive field using a projected image from only a single viewpoint by leveraging knowledge of light sources scattered throughout the medium. In this work, we introduce a method that uses a coordinate-based neural network to model the underlying continuous refractive field in a scene. We then use explicit modeling of rays' 3D spatial curvature to optimize the parameters of this network, reconstructing refractive fields with an analysis-by-synthesis approach. The efficacy of our approach is demonstrated by recovering refractive fields in simulation, and analyzing how recovery is affected by the light source distribution. We then test our method on a simulated dark matter mapping problem, where we recover the refractive field underlying a realistic simulated dark matter distribution.
翻訳日:2023-09-11 12:54:59 公開日:2023-09-08
# 最適反断熱量子計算のための物理インフォームドニューラルネットワーク

Physics-Informed Neural Networks for an optimal counterdiabatic quantum computation ( http://arxiv.org/abs/2309.04434v1 )

ライセンス: Link先を確認
Antonio Ferrer-S\'anchez and Carlos Flores-Garrigos and Carlos Hernani-Morales and Jos\'e J. Orqu\'in-Marqu\'es and Narendra N. Hegade and Alejandro Gomez Cadavid and Iraitz Montalban and Enrique Solano and Yolanda Vives-Gilabert and Jos\'e D. Mart\'in-Guerrero(参考訳) 我々は,N_{Q}$ qubitsの系からなる量子回路の最適化において,物理インフォームドニューラルネットワーク(PINN)の強度を活用して,逆ダイアバティック(CD)プロトコルに対処する新しい手法を提案する。 第一の目的は、物理学に触発された深層学習技術を利用して、量子システム内の異なる物理観測器の時間的進化を正確に解くことである。 この目的を達成するために,基盤となるニューラルネットワークに物理情報を埋め込み,この問題を効果的に解決する。 特に、すべての物理観測対象にハーミシティ条件を課し、最小作用の原理を用いて、基礎となる物理学に基づく最も適切な反断熱項の取得を保証する。 提案手法は,古典的数値近似に依存する従来手法の制約によらず,CD駆動問題に対処するための信頼性の高い代替手段を提供する。 本手法は、スケジューリング関数として知られる時間における外部パラメータ化、非断熱語を含むゲージポテンシャルや演算子、システムのエネルギー準位の時間的変化など、問題に関連する物理的観測結果から最適な結果を得るための一般的な枠組みを提供する。 この方法論の主な応用は、STO-3Gベースの2量子および4量子系で表される$\mathrm{H_{2}}$と$\mathrm{LiH}$分子である。 提案した結果は,パウリ作用素を用いた線形結合により達成された非断熱的項に対する望ましい分解の導出に成功したことを示す。 この属性は、量子コンピューティングアルゴリズムにおける実践的な実装に重大な利点をもたらす。

We introduce a novel methodology that leverages the strength of Physics-Informed Neural Networks (PINNs) to address the counterdiabatic (CD) protocol in the optimization of quantum circuits comprised of systems with $N_{Q}$ qubits. The primary objective is to utilize physics-inspired deep learning techniques to accurately solve the time evolution of the different physical observables within the quantum system. To accomplish this objective, we embed the necessary physical information into an underlying neural network to effectively tackle the problem. In particular, we impose the hermiticity condition on all physical observables and make use of the principle of least action, guaranteeing the acquisition of the most appropriate counterdiabatic terms based on the underlying physics. The proposed approach offers a dependable alternative to address the CD driving problem, free from the constraints typically encountered in previous methodologies relying on classical numerical approximations. Our method provides a general framework to obtain optimal results from the physical observables relevant to the problem, including the external parameterization in time known as scheduling function, the gauge potential or operator involving the non-adiabatic terms, as well as the temporal evolution of the energy levels of the system, among others. The main applications of this methodology have been the $\mathrm{H_{2}}$ and $\mathrm{LiH}$ molecules, represented by a 2-qubit and 4-qubit systems employing the STO-3G basis. The presented results demonstrate the successful derivation of a desirable decomposition for the non-adiabatic terms, achieved through a linear combination utilizing Pauli operators. This attribute confers significant advantages to its practical implementation within quantum computing algorithms.
翻訳日:2023-09-11 12:54:36 公開日:2023-09-08
# 正規化流れの変動と緩和

Variations and Relaxations of Normalizing Flows ( http://arxiv.org/abs/2309.04433v1 )

ライセンス: Link先を確認
Keegan Kelly, Lorena Piedras, Sukrit Rao, David Roth(参考訳) 正規化フロー(NFs)は、複雑な対象分布を表すモデルのクラスを、より単純な基底分布上の一連の単射変換の合成として記述する。 微分同型への候補変換の空間を制限することにより、NFは効率的で正確なサンプリングと密度評価を享受し、NFは判別モデルと生成モデルの両方として柔軟に振る舞うことができる。 しかし、微分同相写像に対する制限は、入力、出力およびすべての中間空間が同じ次元を共有し、複雑な位相を持つ対象分布を効果的に表現する能力を制限することを強制する。 さらに、事前分布と目標分布が同型でない場合、正規化フローはターゲットの支持外にある質量を漏れさせることがある。 この調査では,VAEやスコアベース拡散といった他の生成モデルクラスの側面を組み合わせた最近の研究を取り上げ,NFの厳密な客観性制約を緩めることで,表現性,トレーニング速度,サンプル効率,可能性トラクタビリティのバランスを達成している。

Normalizing Flows (NFs) describe a class of models that express a complex target distribution as the composition of a series of bijective transformations over a simpler base distribution. By limiting the space of candidate transformations to diffeomorphisms, NFs enjoy efficient, exact sampling and density evaluation, enabling NFs to flexibly behave as both discriminative and generative models. Their restriction to diffeomorphisms, however, enforces that input, output and all intermediary spaces share the same dimension, limiting their ability to effectively represent target distributions with complex topologies. Additionally, in cases where the prior and target distributions are not homeomorphic, Normalizing Flows can leak mass outside of the support of the target. This survey covers a selection of recent works that combine aspects of other generative model classes, such as VAEs and score-based diffusion, and in doing so loosen the strict bijectivity constraints of NFs to achieve a balance of expressivity, training speed, sample efficiency and likelihood tractability.
翻訳日:2023-09-11 12:54:09 公開日:2023-09-08
# 世界を作る: 一生のテキストと画像の拡散

Create Your World: Lifelong Text-to-Image Diffusion ( http://arxiv.org/abs/2309.04430v1 )

ライセンス: Link先を確認
Gan Sun, Wenqi Liang, Jiahua Dong, Jun Li, Zhengming Ding, Yang Cong(参考訳) テキスト・ツー・イメージ生成モデルは、テキスト・プロンプトを用いて、さまざまな高品質な概念の画像を生成することができる。 本研究は,ユーザからの新たな概念が短期間にいくつかの例で学習されるような,無限の終わりのない方法で,ユーザ自身の概念のインスタンス化を合成する問題を考察する。 この目的を達成するために,過去に遭遇した概念に対する知識「破滅的忘れ」と,テキストプロンプトにおける1つ以上の概念に対する意味的「破滅的無視」を克服する,生涯にわたるテキスト対画像拡散モデル(l2dm)を提案する。 我々のL2DMフレームワークは、知識「破滅的忘れ」に関して、従来の概念と過去のパーソナライズされた概念の両方の知識を保護できるタスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。 ユーザテキストプロンプトで画像を生成する場合、意味的「破滅的無視」の解決策は、概念的注意アーティストモジュールが概念的側面から意味的無視を緩和し、直交的注意モジュールが属性的側面から意味的結合を低減できることである。 最後に、本モデルは、関連する最先端モデルと比較する場合、質的および定量的な指標の観点で、連続的なテキストプロンプトの範囲をまたいでより忠実な画像を生成することができる。 コードはhttps://wenqiliang.github.io/でリリースされる。

Text-to-image generative models can produce diverse high-quality images of concepts with a text prompt, which have demonstrated excellent ability in image generation, image translation, etc. We in this work study the problem of synthesizing instantiations of a use's own concepts in a never-ending manner, i.e., create your world, where the new concepts from user are quickly learned with a few examples. To achieve this goal, we propose a Lifelong text-to-image Diffusion Model (L2DM), which intends to overcome knowledge "catastrophic forgetting" for the past encountered concepts, and semantic "catastrophic neglecting" for one or more concepts in the text prompt. In respect of knowledge "catastrophic forgetting", our L2DM framework devises a task-aware memory enhancement module and a elastic-concept distillation module, which could respectively safeguard the knowledge of both prior concepts and each past personalized concept. When generating images with a user text prompt, the solution to semantic "catastrophic neglecting" is that a concept attention artist module can alleviate the semantic neglecting from concept aspect, and an orthogonal attention module can reduce the semantic binding from attribute aspect. To the end, our model can generate more faithful image across a range of continual text prompts in terms of both qualitative and quantitative metrics, when comparing with the related state-of-the-art models. The code will be released at https://wenqiliang.github.io/.
翻訳日:2023-09-11 12:53:49 公開日:2023-09-08
# エントロピー規則化を用いたソフト量子化

Soft Quantization using Entropic Regularization ( http://arxiv.org/abs/2309.04428v1 )

ライセンス: Link先を確認
Rajmadan Lakshmanan and Alois Pichler(参考訳) 量子化問題は、有限離散測度を用いて${\mathbb{R}}^d$上の確率測度の最適近似を求めることを目的としている。 ワッサーシュタイン距離は近似の質を測定する典型的な選択である。 この寄与は、標準量子化問題を緩和するエントロピー規則化量子化問題の性質とロバスト性を研究する。 提案手法はソフトミン関数を自然に採用しており、理論的および実践性の観点からは、その堅牢性でよく知られている。 さらに, エントロピー規則化ワッサースタイン距離を用いてソフト量子化問題の近似の質を評価し, 最適解を得るための確率勾配法を実装した。 提案手法の制御パラメータは,最適化問題の難易度を調整し,非常に難易度の高い問題に対処する際の大きな利点を提供する。 同様に、この貢献は様々な展示における手法の性能を実証的に表している。

The quantization problem aims to find the best possible approximation of probability measures on ${\mathbb{R}}^d$ using finite, discrete measures. The Wasserstein distance is a typical choice to measure the quality of the approximation. This contribution investigates the properties and robustness of the entropy-regularized quantization problem, which relaxes the standard quantization problem. The proposed approximation technique naturally adopts the softmin function, which is well known for its robustness in terms of theoretical and practicability standpoints. Moreover, we use the entropy-regularized Wasserstein distance to evaluate the quality of the soft quantization problem's approximation, and we implement a stochastic gradient approach to achieve the optimal solutions. The control parameter in our proposed method allows for the adjustment of the optimization problem's difficulty level, providing significant advantages when dealing with exceptionally challenging problems of interest. As well, this contribution empirically illustrates the performance of the method in various expositions.
翻訳日:2023-09-11 12:53:21 公開日:2023-09-08
# プライバシー保護機械学習のためのロバスト表現学習:多目的オートエンコーダアプローチ

Robust Representation Learning for Privacy-Preserving Machine Learning: A Multi-Objective Autoencoder Approach ( http://arxiv.org/abs/2309.04427v1 )

ライセンス: Link先を確認
Sofiane Ouaari, Ali Burak \"Unal, Mete Akg\"un, Nico Pfeifer(参考訳) いくつかのドメインは、アプリケーションで機械学習にますます依存している。 データへの大きな依存の結果、データ倫理とプライバシに関するさまざまな法律や規則が出現し、プライバシ保護機械学習(ppML)の必要性に対する認識が高まりました。 現在のppML技術では、正則暗号などの暗号を純粋にベースとした手法や、差分プライバシーなどの入力にノイズを導入する手法を使用している。 これらのテクニックに対する主な批判は、遅すぎるか、機密性を改善するためにモデルsのパフォーマンスをトレードオフするという事実である。 このパフォーマンス低下に対処するため,私たちは,プライバシ利用のトレードオフを最適化しながら,データのエンコーディング手段としてロバストな表現学習を活用したいと考えています。 提案手法は,多目的に自動エンコーダを訓練することに集中し,符号化部から潜在および学習された特徴を符号化形式として結合する。 このようなディープラーニングによるエンコーディングは、集中的なトレーニングとハイパーパラメータチューニングのために、サードパーティに安全に送信することができる。 提案するフレームワークでは、データを共有して、元のフォームを明かすという脅威を受けることなく、サードパーティのツールを使うことができます。 実験により,垂直分割システムに追従した単調・マルチモーダル設定の結果を実証的に検証し,現状よりも優れた性能を示した。

Several domains increasingly rely on machine learning in their applications. The resulting heavy dependence on data has led to the emergence of various laws and regulations around data ethics and privacy and growing awareness of the need for privacy-preserving machine learning (ppML). Current ppML techniques utilize methods that are either purely based on cryptography, such as homomorphic encryption, or that introduce noise into the input, such as differential privacy. The main criticism given to those techniques is the fact that they either are too slow or they trade off a model s performance for improved confidentiality. To address this performance reduction, we aim to leverage robust representation learning as a way of encoding our data while optimizing the privacy-utility trade-off. Our method centers on training autoencoders in a multi-objective manner and then concatenating the latent and learned features from the encoding part as the encoded form of our data. Such a deep learning-powered encoding can then safely be sent to a third party for intensive training and hyperparameter tuning. With our proposed framework, we can share our data and use third party tools without being under the threat of revealing its original form. We empirically validate our results on unimodal and multimodal settings, the latter following a vertical splitting system and show improved performance over state-of-the-art.
翻訳日:2023-09-11 12:53:06 公開日:2023-09-08
# 脳にインスパイアされたスパイクニューラルネットワークを活用する高度なコンピューティングと関連アプリケーション

Advanced Computing and Related Applications Leveraging Brain-inspired Spiking Neural Networks ( http://arxiv.org/abs/2309.04426v1 )

ライセンス: Link先を確認
Lyuyang Sima, Joseph Bucukovski, Erwan Carlson, Nicole L. Yien(参考訳) 次世代脳インスパイアされた人工知能の急速な進化と、ますます洗練された電磁環境において、スパイクニューラルネットワークの最もバイオニックな特性と反干渉性能は、計算速度、リアルタイム情報処理、時空間情報処理において大きな可能性を示している。 データ処理。 スパイクニューラルネットワークは、生物学的ニューラルネットワークの構造と情報伝達モードをシミュレートすることで、脳のようなコンピューティングを実現する、脳のような人工知能のコアの1つである。 This paper summarizes the strengths, weaknesses and applicability of five neuronal models and analyzes the characteristics of five network topologies; then reviews the spiking neural network algorithms and summarizes the unsupervised learning algorithms based on synaptic plasticity rules and four types of supervised learning algorithms from the perspectives of unsupervised learning and supervised learning; finally focuses on the review of brain-like neuromorphic chips under research at home and abroad. 本論文は,ニューラルネットワークのスパイク研究分野に先駆けて,体系的な要約による学習概念と研究の方向性を提供することを目的とする。

In the rapid evolution of next-generation brain-inspired artificial intelligence and increasingly sophisticated electromagnetic environment, the most bionic characteristics and anti-interference performance of spiking neural networks show great potential in terms of computational speed, real-time information processing, and spatio-temporal information processing. Data processing. Spiking neural network is one of the cores of brain-like artificial intelligence, which realizes brain-like computing by simulating the structure and information transfer mode of biological neural networks. This paper summarizes the strengths, weaknesses and applicability of five neuronal models and analyzes the characteristics of five network topologies; then reviews the spiking neural network algorithms and summarizes the unsupervised learning algorithms based on synaptic plasticity rules and four types of supervised learning algorithms from the perspectives of unsupervised learning and supervised learning; finally focuses on the review of brain-like neuromorphic chips under research at home and abroad. This paper is intended to provide learning concepts and research orientations for the peers who are new to the research field of spiking neural networks through systematic summaries.
翻訳日:2023-09-11 12:52:43 公開日:2023-09-08
# Video Task Decathlon: 自動運転における画像とビデオタスクの統合

Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving ( http://arxiv.org/abs/2309.04422v1 )

ライセンス: Link先を確認
Thomas E. Huang, Yifan Liu, Luc Van Gool, Fisher Yu(参考訳) 動的シーンで複数の異種視覚タスクを実行することは、人間の知覚能力の要点である。 表現学習による画像およびビデオ認識の著しい進歩にもかかわらず、現在の研究は、タスクの特異性、均質性、あるいは単純な組み合わせのための特別なネットワークの設計に焦点を当てている。 そこで我々は,様々な入出力構造を有する自律運転における主要画像および映像認識タスクのための統一モデルの構築について検討する。 そこで本研究では,対象と画素の分類,セグメンテーション,局所化,関連付けにまたがる10の代表的な画像および映像タスクを含む,新たな課題であるvtd(video task decathlon)を設計した。 VTDでは,1つの構造と1組の重みを持つ統一ネットワークであるVTDNetを,全10タスクに対して開発する。 VTDNetは同様のタスクをグループ化し、タスクグループ内およびタスクグループ間で情報交換を行う。 すべてのタスクにラベル付けする非現実性や,多数のタスクの共同トレーニングに伴うパフォーマンス劣化を考慮し,VTDNetの学習に成功し,性能損失を軽減するためのカリキュラムトレーニング,擬似ラベル付け,ファインチューニング(CPF)方式を設計する。 CPFで武装したVTDNetは、ほとんどのタスクにおいて、全体の20%しか計算できないシングルタスクよりも大幅に優れている。 vtdは、自動運転における知覚タスクの統一を探求するための有望な新しい方向である。

Performing multiple heterogeneous visual tasks in dynamic scenes is a hallmark of human perception capability. Despite remarkable progress in image and video recognition via representation learning, current research still focuses on designing specialized networks for singular, homogeneous, or simple combination of tasks. We instead explore the construction of a unified model for major image and video recognition tasks in autonomous driving with diverse input and output structures. To enable such an investigation, we design a new challenge, Video Task Decathlon (VTD), which includes ten representative image and video tasks spanning classification, segmentation, localization, and association of objects and pixels. On VTD, we develop our unified network, VTDNet, that uses a single structure and a single set of weights for all ten tasks. VTDNet groups similar tasks and employs task interaction stages to exchange information within and between task groups. Given the impracticality of labeling all tasks on all frames, and the performance degradation associated with joint training of many tasks, we design a Curriculum training, Pseudo-labeling, and Fine-tuning (CPF) scheme to successfully train VTDNet on all tasks and mitigate performance loss. Armed with CPF, VTDNet significantly outperforms its single-task counterparts on most tasks with only 20% overall computations. VTD is a promising new direction for exploring the unification of perception tasks in autonomous driving.
翻訳日:2023-09-11 12:52:25 公開日:2023-09-08
# synthogestures: 運転シナリオのための合成動的ハンドジェスチャ生成のための新しいフレームワーク

SynthoGestures: A Novel Framework for Synthetic Dynamic Hand Gesture Generation for Driving Scenarios ( http://arxiv.org/abs/2309.04421v1 )

ライセンス: Link先を確認
Amr Gomaa and Robin Zitt and Guillermo Reyes and Antonio Kr\"uger(参考訳) 自動車分野における動的ヒューマンマシンインタフェースのための多種多様な手ジェスチャーのデータセットを作成することは、困難で時間がかかる。 この課題を克服するために,仮想3dモデルによって生成された合成ジェスチャデータセットを提案する。 我々のフレームワークはUnreal Engineを使ってリアルな手ジェスチャーを合成し、カスタマイズオプションを提供し、オーバーフィッティングのリスクを低減する。 ジェスチャスピード、パフォーマンス、ハンドシェイプなど複数のバリエーションが生成され、汎用性が向上する。 さらに、RGB、赤外線、深度カメラなどの様々なカメラの位置やタイプを、これらのカメラを得るための追加の時間とコストを発生させることなくシミュレートする。 実験の結果,提案フレームワークであるSynthoGestures\footnote{\url{https://github.com/amrgomaaelhady/SynthoGestures}} がジェスチャー認識の精度を改善し,リアルタイムデータセットの置き換えや拡張が可能であった。 データセット作成に要する時間と労力を節約することにより、当社のツールは、自動車アプリケーションのためのジェスチャー認識システムの開発を加速する。

Creating a diverse and comprehensive dataset of hand gestures for dynamic human-machine interfaces in the automotive domain can be challenging and time-consuming. To overcome this challenge, we propose using synthetic gesture datasets generated by virtual 3D models. Our framework utilizes Unreal Engine to synthesize realistic hand gestures, offering customization options and reducing the risk of overfitting. Multiple variants, including gesture speed, performance, and hand shape, are generated to improve generalizability. In addition, we simulate different camera locations and types, such as RGB, infrared, and depth cameras, without incurring additional time and cost to obtain these cameras. Experimental results demonstrate that our proposed framework, SynthoGestures\footnote{\url{https://github.com/amrgomaaelhady/SynthoGestures}}, improves gesture recognition accuracy and can replace or augment real-hand datasets. By saving time and effort in the creation of the data set, our tool accelerates the development of gesture recognition systems for automotive applications.
翻訳日:2023-09-11 12:51:56 公開日:2023-09-08
# 確率的変分深層学習を用いた並列・限定データ音声変換

Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning ( http://arxiv.org/abs/2309.04420v1 )

ライセンス: Link先を確認
Mohamadreza Jafaryani, Hamid Sheikhzadeh, Vahid Pourahmadi(参考訳) 通常、音声変換は限られた訓練データを持つ工学的な問題とみなされる。 大量のデータへの依存は、近年広く研究されているディープラーニングアプローチの実践的適用性を妨げている。 一方,統計学的手法は限られたデータに対して有効であるが,複素写像関数のモデル化が困難である。 本稿では,限られたデータを扱う音声変換手法を提案し,確率的変動型深層カーネル学習(SVDKL)に基づく。 同時に、SVDKLはディープニューラルネットワークの表現能力とガウス過程の高柔軟性をベイズ的および非パラメトリックな方法として利用することができる。 従来のカーネルとディープニューラルネットワークを組み合わせると、非スムースでより複雑な関数を推定することができる。 さらに、モデルのばらばらな変分ガウス過程はスケーラビリティの問題を解決し、正確なガウス過程とは異なり、音空間全体のグローバルマッピング関数の学習を可能にする。 提案手法の最も重要な側面の1つは、モデルのパラメータが、データフィッティングとモデルの複雑さの両方を考慮した限界度最適化を用いて訓練されることである。 モデルの複雑さを考慮すると、オーバーフィッティングに対する抵抗を増加させることでトレーニングデータの量を減らすことができる。 提案手法を評価するため,約80秒のトレーニングデータを用いてモデルの性能を検討した。 その結果, 比較した方法よりも, 平均評価スコア, スペクトル歪みが小さく, 選好試験が良好であった。

Typically, voice conversion is regarded as an engineering problem with limited training data. The reliance on massive amounts of data hinders the practical applicability of deep learning approaches, which have been extensively researched in recent years. On the other hand, statistical methods are effective with limited data but have difficulties in modelling complex mapping functions. This paper proposes a voice conversion method that works with limited data and is based on stochastic variational deep kernel learning (SVDKL). At the same time, SVDKL enables the use of deep neural networks' expressive capability as well as the high flexibility of the Gaussian process as a Bayesian and non-parametric method. When the conventional kernel is combined with the deep neural network, it is possible to estimate non-smooth and more complex functions. Furthermore, the model's sparse variational Gaussian process solves the scalability problem and, unlike the exact Gaussian process, allows for the learning of a global mapping function for the entire acoustic space. One of the most important aspects of the proposed scheme is that the model parameters are trained using marginal likelihood optimization, which considers both data fitting and model complexity. Considering the complexity of the model reduces the amount of training data by increasing the resistance to overfitting. To evaluate the proposed scheme, we examined the model's performance with approximately 80 seconds of training data. The results indicated that our method obtained a higher mean opinion score, smaller spectral distortion, and better preference tests than the compared methods.
翻訳日:2023-09-11 12:51:33 公開日:2023-09-08
# 結果予測の動作可能性について

On the Actionability of Outcome Prediction ( http://arxiv.org/abs/2309.04470v1 )

ライセンス: Link先を確認
Lydia T. Liu, Solon Barocas, Jon Kleinberg, Karen Levy(参考訳) 将来の成果を予測することは、社会的影響領域における機械学習の一般的な応用である。 例としては、教育における学生の成功の予測から、医療における病気のリスクの予測がある。 実践者は、究極の目標は予測だけでなく効果的に行動することだと認識している。 証拠の増加は、下流の介入に対する結果予測に依存するには望ましい結果が得られないことを示唆している。 ほとんどのドメインでは、個々の個人に対して多数の介入が可能であり、効果的な行動を取ることの難しさが高まる。 個々の潜在状態と成果をつなぐ因果メカニズムが十分に理解されている場合でも、特定の例(特定の学生や患者)では、その個人にとって最も効果的である可能性のある多くの介入のうちの1つを、予算化された潜在状態の測定から推測する必要がある。 正確な結果の予測は、いつ最も適切な介入を特定するのに役立つのでしょうか? 行動や潜在状態、測定を包含する単純なモデルを通じて、純粋な結果予測が、他の測定と組み合わせた場合でも、行動を取るための最も効果的な方針をもたらすことは滅多にないことを示す。 結果を改善するための単一の決定的な行動がある場合を除き、結果予測は、行動を取ることの効用である「行動価値」を決して最大化しない。 特定の行動が望ましい結果につながる実行可能な潜伏状態の測定を行うことは、結果予測よりも行動価値を大幅に向上させ、改善の度合いは行動コストと結果モデルに依存する。 この分析は、妥当な行動や潜在状態の知識を取り入れることで、介入的設定における一般的な結果予測を超える必要性を強調している。

Predicting future outcomes is a prevalent application of machine learning in social impact domains. Examples range from predicting student success in education to predicting disease risk in healthcare. Practitioners recognize that the ultimate goal is not just to predict but to act effectively. Increasing evidence suggests that relying on outcome predictions for downstream interventions may not have desired results. In most domains there exists a multitude of possible interventions for each individual, making the challenge of taking effective action more acute. Even when causal mechanisms connecting the individual's latent states to outcomes is well understood, in any given instance (a specific student or patient), practitioners still need to infer -- from budgeted measurements of latent states -- which of many possible interventions will be most effective for this individual. With this in mind, we ask: when are accurate predictors of outcomes helpful for identifying the most suitable intervention? Through a simple model encompassing actions, latent states, and measurements, we demonstrate that pure outcome prediction rarely results in the most effective policy for taking actions, even when combined with other measurements. We find that except in cases where there is a single decisive action for improving the outcome, outcome prediction never maximizes "action value", the utility of taking actions. Making measurements of actionable latent states, where specific actions lead to desired outcomes, considerably enhances the action value compared to outcome prediction, and the degree of improvement depends on action costs and the outcome model. This analysis emphasizes the need to go beyond generic outcome prediction in interventional settings by incorporating knowledge of plausible actions and latent states.
翻訳日:2023-09-11 12:46:14 公開日:2023-09-08
# 2元クラスタリング問題に対する変分量子近似スペクトルクラスタリング

Variational Quantum Approximate Spectral Clustering for Binary Clustering Problems ( http://arxiv.org/abs/2309.04465v1 )

ライセンス: Link先を確認
Hyeong-Gyu Kim, Siheon Park, June-Koo Kevin Rhee(参考訳) 量子機械学習において、ハードウェア効率アンサッツ(HEA)に基づくパラメータ化量子回路(PQC)を持つアルゴリズムは、従来のアルゴリズムよりも高速な処理を可能にする。 教師付き学習