このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230629となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ItyFuzz: スマートコントラクトのためのスナップショットベースのファズー ItyFuzz: Snapshot-Based Fuzzer for Smart Contract ( http://arxiv.org/abs/2306.17135v1 ) ライセンス: Link先を確認 | Chaofan Shou, Shangyin Tan, Koushik Sen | (参考訳) スマートコントラクトは重要な金融商品であり、そのセキュリティは極めて重要である。
しかしながら、すべてのトランザクションの背後にある永続的なブロックチェーン状態のため、スマートコントラクトプログラムは混乱するのは難しい。
トランザクションの多重化は複雑であり、しばしば入力空間とプログラム空間の両方の最適部分探索に繋がる。
本稿では,スマートコントラクトをテストするための新しいスナップショットベースのfuzzer ityfuzzを提案する。
ItyFuzzでは、トランザクションのシーケンスを保存して変更するのではなく、ステートとシングルトントランザクションをスナップショットします。
興味深い状態を探るため、ItyFuzzは、より多くの運動量を持つ状態を特定するためのデータフロー・ウェイポイントメカニズムを導入した。
ItyFuzzはまた、状態の空間を暗示するために比較方法も取り入れている。
状態のスナップショットを維持することで、ItyFuzzはReentrancy攻撃のような具体的なエクスプロイトを迅速に合成できる。
ItyFuzzはスマートコントラクトをテストするための第2レベルのレスポンス時間を持っているため、オンチェーンテストに使用することができる。
最後に、現実世界のスマートコントラクトといくつかのハックされたオンチェーンDeFiプロジェクトについて、ItyFuzzを評価します。
ItyFuzzは、既存のファッジャを指導的カバレッジで上回り、オンチェーンプロジェクトの現実的なエクスプロイトを素早く見つけて生成することができる。 Smart contracts are critical financial instruments, and their security is of utmost importance. However, smart contract programs are difficult to fuzz due to the persistent blockchain state behind all transactions. Mutating sequences of transactions are complex and often lead to a suboptimal exploration for both input and program spaces. In this paper, we introduce a novel snapshot-based fuzzer ItyFuzz for testing smart contracts. In ItyFuzz, instead of storing sequences of transactions and mutating from them, we snapshot states and singleton transactions. To explore interesting states, ItyFuzz introduces a dataflow waypoint mechanism to identify states with more potential momentum. ItyFuzz also incorporates comparison waypoints to prune the space of states. By maintaining snapshots of the states, ItyFuzz can synthesize concrete exploits like reentrancy attacks quickly. Because ItyFuzz has second-level response time to test a smart contract, it can be used for on-chain testing, which has many benefits compared to local development testing. Finally, we evaluate ItyFuzz on real-world smart contracts and some hacked on-chain DeFi projects. ItyFuzz outperforms existing fuzzers in terms of instructional coverage and can find and generate realistic exploits for on-chain projects quickly. | 翻訳日:2023-10-23 18:47:38 公開日:2023-06-29 |
# ノイズ対応量子ソフトウェアテスト Noise-Aware Quantum Software Testing ( http://arxiv.org/abs/2306.16992v1 ) ライセンス: Link先を確認 | Asmar Muqeet, Tao Yue, Shaukat Ali and Paolo Arcaini | (参考訳) 量子コンピューティング(QC)は、いくつかの複雑な問題を解決するために古典計算よりも計算速度を上げることを約束する。
しかし、現在および短期量子コンピュータにはノイズが存在する。
量子ソフトウェアテスト(量子ソフトウェアの正確性に対する自信を得るため)は必然的にノイズに影響され、ノイズや実際の障害によってテストケースが失敗したかどうかを知ることは不可能である。
既存のテスト技術は、ノイズを考慮せずに、すなわち理想的な量子コンピュータシミュレータでテストを実行することで、量子プログラムをテストする。
したがって、実際のqcハードウェアやノイズの多いシミュレータ上での量子ソフトウェアテストには直接適用できない。
この目的のために,量子プログラムのテスト結果に対するノイズ効果を緩和するノイズ認識手法(qoin)を提案する。
QOINは、量子コンピュータのノイズ効果を学習し、量子プログラムの出力からフィルタリングするために、機械学習技術(例えば、転送学習)を用いる。
このようなフィルタされた出力は、テストケース評価(テストoracleに対するテストケース実行の通過または失敗を決定する)を行う入力として使用される。
9つの実世界の量子プログラムと1000の人工量子プログラムを持つIBMの23のノイズモデル上でQOINを評価した。
また,故障したテストケースの実行がノイズによって決定されるかどうかをチェックするために,これらのプログラムの欠陥バージョンも生成した。
その結果,QOINは80\%以上のノイズ効果を低減できることがわかった。
qoinの量子ソフトウェアテストの有効性を確認するために、既存のテストoracleを量子ソフトウェアテストに使用しました。
その結果、テストオラクルのF1スコアは、6つの実世界のプログラムで平均82\%、800の人工プログラムで75\%改善され、QOINがノイズパターンを効果的に学習し、ノイズ対応の量子ソフトウェアテストを可能にすることを示した。 Quantum Computing (QC) promises computational speedup over classic computing for solving some complex problems. However, noise exists in current and near-term quantum computers. Quantum software testing (for gaining confidence in quantum software's correctness) is inevitably impacted by noise, to the extent that it is impossible to know if a test case failed due to noise or real faults. Existing testing techniques test quantum programs without considering noise, i.e., by executing tests on ideal quantum computer simulators. Consequently, they are not directly applicable to testing quantum software on real QC hardware or noisy simulators. To this end, we propose a noise-aware approach (named QOIN) to alleviate the noise effect on test results of quantum programs. QOIN employs machine learning techniques (e.g., transfer learning) to learn the noise effect of a quantum computer and filter it from a quantum program's outputs. Such filtered outputs are then used as the input to perform test case assessments (determining the passing or failing of a test case execution against a test oracle). We evaluated QOIN on IBM's 23 noise models with nine real-world quantum programs and 1000 artificial quantum programs. We also generated faulty versions of these programs to check if a failing test case execution can be determined under noise. Results show that QOIN can reduce the noise effect by more than $80\%$. To check QOIN's effectiveness for quantum software testing, we used an existing test oracle for quantum software testing. The results showed that the F1-score of the test oracle was improved on average by $82\%$ for six real-world programs and by $75\%$ for 800 artificial programs, demonstrating that QOIN can effectively learn noise patterns and enable noise-aware quantum software testing. | 翻訳日:2023-10-23 18:47:21 公開日:2023-06-29 |
# 発明の分断と結束:要求工学における実証研究のコミュニティ・メンテナブルな知識グラフ Divide and Conquer the EmpiRE: A Community-Maintainable Knowledge Graph of Empirical Research in Requirements Engineering ( http://arxiv.org/abs/2306.16791v1 ) ライセンス: Link先を確認 | Oliver Karras, Felix Wernlein, Jil Kl\"under and S\"oren Auer | (参考訳) [背景]要件エンジニアリング(RE)に関する実証研究は、出版物の増加とともに、常に進化しているトピックです。
いくつかの論文では、文献レビューを使用して、その"現在の"状態と進化のスナップショットを提供する。
しかし、これらの論文は以前のものの上に構築または更新されることはなく、重複と冗長性をもたらす。
根本的な問題は、以前の仕事からのデータが使えないことだ。
研究者は持続可能な文献レビューを行うために技術基盤が必要である。
[aims.]オープンリサーチナレッジグラフ(orkg)を,オープンに利用可能なre(kg-empire)における実証研究の最初のナレッジグラフを構築し,公開するための基盤として利用することを検討する。
我々の長期的な目標は、KG-Empireを研究コミュニティと継続的に維持し、REにおける実証研究の現状と進化の包括的で最新の、そして長期的な概要を合成することである。
【方法】2020~2025年のソフトウェア(要件)工学における経験的研究のビジョンから得られた能力的疑問に対して評価する、kg-empireの作成と公開にorkgを用いた文献レビューを行う。
結果〕IEEE International Requirements Engineering Conference(2000年~2022年)の570件の論文から,報告された実証研究のデータを抽出,分析し,77項目中16項目に回答する。
これらの回答は、ビジョンに対するポジティブな進展を示していますが、将来的な改善の必要性も示しています。
結論.] orkgは,文献レビューのデータをナレッジグラフとして整理するための,実用的で高度なインフラストラクチャです。
得られた知識グラフは、研究コミュニティによって公開され、保守可能となり、持続可能な文献レビューを可能にする。 [Background.] Empirical research in requirements engineering (RE) is a constantly evolving topic, with a growing number of publications. Several papers address this topic using literature reviews to provide a snapshot of its "current" state and evolution. However, these papers have never built on or updated earlier ones, resulting in overlap and redundancy. The underlying problem is the unavailability of data from earlier works. Researchers need technical infrastructures to conduct sustainable literature reviews. [Aims.] We examine the use of the Open Research Knowledge Graph (ORKG) as such an infrastructure to build and publish an initial Knowledge Graph of Empirical research in RE (KG-EmpiRE) whose data is openly available. Our long-term goal is to continuously maintain KG-EmpiRE with the research community to synthesize a comprehensive, up-to-date, and long-term available overview of the state and evolution of empirical research in RE. [Method.] We conduct a literature review using the ORKG to build and publish KG-EmpiRE which we evaluate against competency questions derived from a published vision of empirical research in software (requirements) engineering for 2020 - 2025. [Results.] From 570 papers of the IEEE International Requirements Engineering Conference (2000 - 2022), we extract and analyze data on the reported empirical research and answer 16 out of 77 competency questions. These answers show a positive development towards the vision, but also the need for future improvements. [Conclusions.] The ORKG is a ready-to-use and advanced infrastructure to organize data from literature reviews as knowledge graphs. The resulting knowledge graphs make the data openly available and maintainable by research communities, enabling sustainable literature reviews. | 翻訳日:2023-10-23 18:46:38 公開日:2023-06-29 |
# スマートシティとセマンティックWebアプリケーションのためのIoTデータ処理 IoT Data Processing for Smart City and Semantic Web Applications ( http://arxiv.org/abs/2306.16728v1 ) ライセンス: Link先を確認 | Shubham Mante | (参考訳) 過去数十年間、世界は急速な都市化を経験しており、廃棄物管理、水道管理、公共交通、電力消費といった既存の都市インフラに負担がかかっている。
また、環境、天然資源、健康状態を脅かす都市での汚染レベルも上昇している。
しかし、雇用、医療、より良い教育のために個人に多くの機会を提供するため、真の成長は都市化にあることを認識しなければならない。
しかし、成長する都市の発展を可能にする統合行動計画により、急速な都市化の悪影響を抑えることが不可欠である。
これにより、スマートシティの概念が生まれ、都市に関連する情報はすべて、より良い都市管理のために体系的に活用される。
提案するシステムアーキテクチャはサブシステムに分割され,各章で議論される。
第1章では、完全なシステムアーキテクチャの読者に概要を紹介します。
第2章では,onem2m標準に基づくデータ監視システムとデータレイクシステムについて論じる。
DMSは相互運用性を達成するためにミドルウェア層としてoneM2Mを使用し、DLSは複数の論理データベースを持つマルチテナントアーキテクチャを使用して、効率的で信頼性の高いデータ管理を可能にする。
第3章では、1M2M規格の適用性を示すために開発されたエネルギーモニタリングと電気自動車充電システムについて論じている。
第4章では、インドの都市データ交換フレームワークに基づくデータ交換システムについて論じている。
DESはIUDX標準のデータスキーマとオープンAPIを使用して、データサイロを避け、セキュアなデータ共有を可能にする。
第5章では、意味のあるデータ記述を伴うセンサデータの均一なデータ品質評価を提供する5D-IoTフレームワークについて論じている。 The world has been experiencing rapid urbanization over the last few decades, putting a strain on existing city infrastructure such as waste management, water supply management, public transport and electricity consumption. We are also seeing increasing pollution levels in cities threatening the environment, natural resources and health conditions. However, we must realize that the real growth lies in urbanization as it provides many opportunities to individuals for better employment, healthcare and better education. However, it is imperative to limit the ill effects of rapid urbanization through integrated action plans to enable the development of growing cities. This gave rise to the concept of a smart city in which all available information associated with a city will be utilized systematically for better city management. The proposed system architecture is divided in subsystems and is discussed in individual chapters. The first chapter introduces and gives overview to the reader of the complete system architecture. The second chapter discusses the data monitoring system and data lake system based on the oneM2M standards. DMS employs oneM2M as a middleware layer to achieve interoperability, and DLS uses a multi-tenant architecture with multiple logical databases, enabling efficient and reliable data management. The third chapter discusses energy monitoring and electric vehicle charging systems developed to illustrate the applicability of the oneM2M standards. The fourth chapter discusses the Data Exchange System based on the Indian Urban Data Exchange framework. DES uses IUDX standard data schema and open APIs to avoid data silos and enable secure data sharing. The fifth chapter discusses the 5D-IoT framework that provides uniform data quality assessment of sensor data with meaningful data descriptions. | 翻訳日:2023-10-23 18:46:08 公開日:2023-06-29 |
# 計算実験の再現性支援のためのバックエンドプラットフォーム A Backend Platform for Supporting the Reproducibility of Computational Experiments ( http://arxiv.org/abs/2308.00703v1 ) ライセンス: Link先を確認 | L\'azaro Costa and Susana Barbosa and J\'acome Cunha | (参考訳) 近年、研究コミュニティは科学的研究の再現性に関する深刻な疑問を提起している。
特に、多くの研究には何らかの計算作業が含まれているため、再現性はコンピュータ科学だけでなく、ほとんどの研究領域においても技術的課題である。
再現性と計算再現性は、研究者がコンピュータ技術に様々な習熟度を持っているだけでなく、様々な計算環境が利用できるため、容易には達成できない。
実際、同じフレームワーク、コード、データソース、プログラミング言語、依存関係などを使って、同じ環境を再現することは困難です。
本研究では,実験の共有,構成,パッケージング,実行を可能にする統合開発環境を提案する。使用するコードとデータを設定し,プログラム言語,コード,依存関係,データベース,コマンドを定義することにより,実験毎に一貫した結果を得る。
最初の生成と設定の後、実験は何回でも実行でき、常に同じ結果を生成する。
さらに、異なる関連するデータセットを使用して実験の実行を可能にし、結果の再現性と複製性を検証することができる。
これにより再現可能なパックを作成でき、他のコンピュータで再実行することができる。
我々のプラットフォームは、あらゆる分野の研究者が、他のコンピュータで再現可能なパッケージを作れるようにすることを目的としています。
プラットフォームを評価するために,論文から抽出した25の実験を再現した。
これらの実験の20(80%)を、最小限の努力で報告した結果を再現できたので、我々のアプローチが効果的であることを示しました。 In recent years, the research community has raised serious questions about the reproducibility of scientific work. In particular, since many studies include some kind of computing work, reproducibility is also a technological challenge, not only in computer science, but in most research domains. Replicability and computational reproducibility are not easy to achieve, not only because researchers have diverse proficiency in computing technologies, but also because of the variety of computational environments that can be used. Indeed, it is challenging to recreate the same environment using the same frameworks, code, data sources, programming languages, dependencies, and so on. In this work, we propose an Integrated Development Environment allowing the share, configuration, packaging and execution of an experiment by setting the code and data used and defining the programming languages, code, dependencies, databases, or commands to execute to achieve consistent results for each experiment. After the initial creation and configuration, the experiment can be executed any number of times, always producing exactly the same results. Furthermore, it allows the execution of the experiment by using a different associated dataset, and it can be possible to verify the reproducibility and replicability of the results. This allows the creation of a reproducible pack that can be re-executed by anyone on any other computer. Our platform aims to allow researchers in any field to create a reproducibility package for their science that can be re-executed on any other computer. To evaluate our platform, we used it to reproduce 25 experiments extracted from published papers. We have been able to successfully reproduce 20 (80%) of these experiments achieving the results reported in such works with minimum effort, thus showing that our approach is effective. | 翻訳日:2023-10-23 15:44:24 公開日:2023-06-29 |
# 監視ビデオにおける暴力検出のためのフェデレーション学習における精度とトレーニング時間の評価:ニューラルネットワークアーキテクチャの検討 Balancing Accuracy and Training Time in Federated Learning for Violence Detection in Surveillance Videos: A Study of Neural Network Architectures ( http://arxiv.org/abs/2308.05106v1 ) ライセンス: Link先を確認 | Pajon Quentin, Serre Swan, Wissocq Hugo, Rabaud L\'eo, Haidar Siba, Yaacoub Antoun | (参考訳) 本稿では,ビデオにおける暴力検出のための機械学習技術とその統合学習文脈への適応について検討する。
この研究は、ベンチマークビデオデータセットから抽出された時空間的特徴、異なる方法の比較、およびDiff-Gatedと呼ばれる"Flow-Gated"アーキテクチャの修正版の提案を含む。
さらに,超収束学習や伝達学習など,さまざまな機械学習手法を探求し,統合学習コンテキストに集中型データセットを適用する手法を開発した。
この研究は、フェデレーション学習の文脈で最高の暴力検出モデルをトレーニングすることで、最先端のモデルよりも精度の高い結果を得る。 This paper presents an investigation into machine learning techniques for violence detection in videos and their adaptation to a federated learning context. The study includes experiments with spatio-temporal features extracted from benchmark video datasets, comparison of different methods, and proposal of a modified version of the "Flow-Gated" architecture called "Diff-Gated." Additionally, various machine learning techniques, including super-convergence and transfer learning, are explored, and a method for adapting centralized datasets to a federated learning context is developed. The research achieves better accuracy results compared to state-of-the-art models by training the best violence detection model in a federated learning context. | 翻訳日:2023-10-23 14:51:15 公開日:2023-06-29 |
# 正の固有値を持つ軸対称行列の固有値問題の力学系 Dynamical systems for eigenvalue problems of axisymmetric matrices with positive eigenvalues ( http://arxiv.org/abs/2307.09635v1 ) ライセンス: Link先を確認 | Shintaro Yoshizawa | (参考訳) いくつかの特別な構造を持つ軸対称行列$A$の固有値と固有ベクトルを考える。
s-oja-brockett方程式 $\frac{dx}{dt}=axb-xbx^tsax,$ where $x(t) \in {\mathbb r}^{n \times m}$ with $m \leq n$, $s$ はシルベスター方程式 $a^ts = sa$, $b$ の正定値対称解であり、対角要素が互いに異なる実正定値対角行列であり、s-oja-brockett方程式が固有値とその固有ベクトルに対して大域収束することを示す。 We consider the eigenvalues and eigenvectors of an axisymmetric matrix$A$ with some special structures. We propose S-Oja-Brockett equation $\frac{dX}{dt}=AXB-XBX^TSAX,$ where $X(t) \in {\mathbb R}^{n \times m}$ with $m \leq n$, $S$ is a positive definite symmetric solution of the Sylvester equation $A^TS = SA$ and $B$ is a real positive definite diagonal matrix whose diagonal elements are distinct each other, and show the S-Oja-Brockett equation has the global convergence to eigenvalues and its eigenvectors of $A$. | 翻訳日:2023-07-23 11:48:38 公開日:2023-06-29 |
# 歯科情報学の展望 : 現状と今後の方向性 A review of dental informatics : current trends and future directions ( http://arxiv.org/abs/2307.03686v1 ) ライセンス: Link先を確認 | Prabath Jayatissa and Roshan Hewapathirane | (参考訳) 歯科情報学は、歯科医療と情報技術を組み合わせて、口腔医療の提供、研究、教育を改善する急速に発展する分野である。
電子健康記録(EHR)、遠隔医療、デジタルイメージング、その他のデジタルツールは、歯科医が口腔の健康状態を診断、治療、管理する方法に革命をもたらした。
本稿では, 歯科情報学の現状と今後の方向性について検討し, その臨床実践, 研究, 教育への影響について考察する。
また, 歯科情報学の実践に関わる課題と機会について論じ, この分野の基礎研究とイノベーションを強調する。 Dental informatics is a rapidly evolving field that combines dentistry with information technology to improve oral health care delivery, research, and education. Electronic health records (EHRs), telehealth, digital imaging, and other digital tools have revolutionised how dental professionals diagnose, treat, and manage oral health conditions. In this review article, we will explore dental informatics's current trends and future directions, focusing on its impact on clinical practice, research, and education. We will also discuss the challenges and opportunities associated with implementing dental informatics and highlight fundamental research studies and innovations in the field. | 翻訳日:2023-07-16 04:15:15 公開日:2023-06-29 |
# 航空機搭載視覚獲得モデルによる視認・視認性能の推定 Estimating See and Be Seen Performance with an Airborne Visual Acquisition Model ( http://arxiv.org/abs/2307.05502v1 ) ライセンス: Link先を確認 | Ngaire Underhill and Evan Maki and Bilal Gill and Andrew Weinert | (参考訳) 他の航空交通を避けるための分離準備と衝突回避は、安全かつ効率的な運用を確保するための階層型コンフリクト管理システムの基本的なコンポーネントである。
パイロットは視覚ベースの分離責任を持ち、航空機間の分離を維持できる。
空域に安全に統合するためには、乗員航空機が観測し、相互作用が見られるように、安全に基づいて最低レベルの性能を要求される。
乗員機とのドローンの対話は、従来の航空機との対話ほど危険ではない。
そのため、検知・回避システムを設計・評価する手法が必要であり、空中衝突のリスクを軽減するためにドローンが備える必要がある。
これに対し、J.W. Andrews氏が10年前に開発した視覚的獲得モデルを用いて、オンボードパイロットがどのように安全に操作するかをシミュレーションした。
モンテカルロシミュレーションは、視覚飛行規則の下で飛行する2機の航空機を代表し、ドローンの検出と性能基準の回避について分析した。 Separation provision and collision avoidance to avoid other air traffic are fundamental components of the layered conflict management system to ensure safe and efficient operations. Pilots have visual-based separation responsibilities to see and be seen to maintain separation between aircraft. To safely integrate into the airspace, drones should be required to have a minimum level of performance based on the safety achieved as baselined by crewed aircraft seen and be seen interactions. Drone interactions with crewed aircraft should not be more hazardous than interactions between traditional aviation aircraft. Accordingly, there is need for a methodology to design and evaluate detect and avoid systems, to be equipped by drones to mitigate the risk of a midair collision, where the methodology explicitly addresses, both semantically and mathematically, the appropriate operating rules associated with see and be seen. In response, we simulated how onboard pilots safely operate through see and be seen interactions using an updated visual acquisition model that was originally developed by J.W. Andrews decades ago. Monte Carlo simulations were representative two aircraft flying under visual flight rules and results were analyzed with respect to drone detect and avoid performance standards. | 翻訳日:2023-07-16 03:35:25 公開日:2023-06-29 |
# 言葉で見る:言語ボトルネックを通して分類する学習 Seeing in Words: Learning to Classify through Language Bottlenecks ( http://arxiv.org/abs/2307.00028v1 ) ライセンス: Link先を確認 | Khalid Saifullah, Yuxin Wen, Jonas Geiping, Micah Goldblum, Tom Goldstein | (参考訳) コンピュータビジョンのためのニューラルネットワークは、ベンチマークの精度が高いにもかかわらず、解釈不能な特徴を抽出する。
対照的に、人間は簡潔で直感的な記述を用いて予測を説明することができる。
ニューラルネットワークに説明可能性を導入するために,特徴表現がテキストである視覚モデルを訓練する。
このようなモデルがImageNetイメージを効果的に分類できることを示し、トレーニング時に遭遇した課題について議論する。 Neural networks for computer vision extract uninterpretable features despite achieving high accuracy on benchmarks. In contrast, humans can explain their predictions using succinct and intuitive descriptions. To incorporate explainability into neural networks, we train a vision model whose feature representations are text. We show that such a model can effectively classify ImageNet images, and we discuss the challenges we encountered when training it. | 翻訳日:2023-07-09 13:50:09 公開日:2023-06-29 |
# ラベルなしデータによるバックドアクリーニング Backdoor Cleansing with Unlabeled Data ( http://arxiv.org/abs/2211.12044v4 ) ライセンス: Link先を確認 | Lu Pang, Tao Sun, Haibin Ling, Chao Chen | (参考訳) ディープニューラルネットワーク(DNN)の計算需要が増大しているため、企業や組織はトレーニングプロセスをアウトソースし始めている。
しかし、外部で訓練されたDNNはバックドア攻撃を受ける可能性がある。
このような攻撃、すなわち不審なモデルを後処理してバックドアの動作を緩和し、クリーン入力に対する通常の予測能力は妥協されないようにすることが重要である。
バックドアの異常な挙動を取り除くために、既存の手法は主にラベル付きクリーンサンプルに頼っている。
しかし、トレーニングデータはエンドユーザーには利用できないことが多いため、このような要件は非現実的かもしれない。
本稿では,そのような障壁を回避する可能性を検討する。
トレーニングラベルを必要とせず,新たな防御手法を提案する。
本手法は, 層単位の重み付け再初期化と知識蒸留を慎重に設計することにより, 正常な動作において, 疑わしいネットワークのバックドア挙動を効果的に浄化することができる。
実験では,ラベルを使わずにトレーニングした手法が,ラベルを用いた最新の防御手法とほぼ同等であることを示す。
また, 分配外データにおいても, 有望な防御結果が得られている。
この方法はとても実用的です。
コードはhttps://github.com/luluppang/bcu.com/。 Due to the increasing computational demand of Deep Neural Networks (DNNs), companies and organizations have begun to outsource the training process. However, the externally trained DNNs can potentially be backdoor attacked. It is crucial to defend against such attacks, i.e., to postprocess a suspicious model so that its backdoor behavior is mitigated while its normal prediction power on clean inputs remain uncompromised. To remove the abnormal backdoor behavior, existing methods mostly rely on additional labeled clean samples. However, such requirement may be unrealistic as the training data are often unavailable to end users. In this paper, we investigate the possibility of circumventing such barrier. We propose a novel defense method that does not require training labels. Through a carefully designed layer-wise weight re-initialization and knowledge distillation, our method can effectively cleanse backdoor behaviors of a suspicious network with negligible compromise in its normal behavior. In experiments, we show that our method, trained without labels, is on-par with state-of-the-art defense methods trained using labels. We also observe promising defense results even on out-of-distribution data. This makes our method very practical. Code is available at: https://github.com/luluppang/BCU. | 翻訳日:2023-07-04 15:08:25 公開日:2023-06-29 |
# 正規分布の統合と分類法 A method to integrate and classify normal distributions ( http://arxiv.org/abs/2012.14331v9 ) ライセンス: Link先を確認 | Abhranil Das and Wilson S Geisler | (参考訳) 単変量および多変量正規確率分布は不確実性のある決定をモデル化する際に広く用いられる。
このようなモデルの性能を計算するには、特定のドメインにまたがってこれらの分布を統合する必要がある。
特別な場合の他に、一般的な解析式、標準数値法、これらの積分のソフトウェアは存在しない。
ここでは数学的結果とオープンソースソフトウェアについて述べる。
(i)任意のパラメータを持つ任意の次元における正規の任意の領域の確率
(ii) 正規ベクトルの任意の関数の確率密度、累積分布、および逆累積分布。
(iii)正規分布の任意の数の分類誤差、ベイズ-最適判別可能性指数及び運転特性との関係
(iv)このような問題に対する次元縮小と可視化
(v)与えられたデータに対して、これらのメソッドがどの程度確実に使用されるかのテスト。
自然界における物体の隠蔽やカモフラージュの検出といった視覚研究の応用を実演する。 Univariate and multivariate normal probability distributions are widely used when modeling decisions under uncertainty. Computing the performance of such models requires integrating these distributions over specific domains, which can vary widely across models. Besides some special cases, there exist no general analytical expressions, standard numerical methods or software for these integrals. Here we present mathematical results and open-source software that provide (i) the probability in any domain of a normal in any dimensions with any parameters, (ii) the probability density, cumulative distribution, and inverse cumulative distribution of any function of a normal vector, (iii) the classification errors among any number of normal distributions, the Bayes-optimal discriminability index and relation to the operating characteristic, (iv) dimension reduction and visualizations for such problems, and (v) tests for how reliably these methods may be used on given data. We demonstrate these tools with vision research applications of detecting occluding objects in natural scenes, and detecting camouflage. | 翻訳日:2023-07-03 16:20:24 公開日:2023-06-29 |
# gaussian input statesによるbosonサンプリング:効率的なスケーリングと認証 Boson Sampling with Gaussian input states: efficient scaling and certification ( http://arxiv.org/abs/1812.08978v5 ) ライセンス: Link先を確認 | Raphael A. Abrahao, Arman Mansouri, and Austin P. Lund | (参考訳) 適度なスケールの普遍量子コンピュータはまだ入手できないが、量子計算の中間モデルは依然として古典的計算よりも量子計算の優位性を実証することができ、拡張されたチャーチチューリング理論に挑戦することができる。
線形光学で相互作用する単一光子に基づくこれらのモデルの1つはボソンサンプリングと呼ばれる。
ボーソンサンプリングが実証され, 量子計算の優位性を主張するしきい値が得られたが, ボーソンサンプリング実験のスケールアップ方法については疑問が残る。
本稿では,連続変数量子情報と時間エンコーディングを組み合わせることにより,ボゾンサンプリング実験と現在の技術との融合を実現するための実現可能な経路を提案する。
本稿では,切り替え可能なデュアルホモジンと単一光子検出,時間ループ技術,散乱ショットに基づくボソンサンプリングの組み合わせを提案する。
この構成の計算の困難さを結論付けるために必要な仮定を詳述する。
さらに、この特定の組み合わせによって、bosonサンプリングの効率的なスケーリングと認証が可能になり、すべて単一の実験的なセットアップで実現される。 A universal quantum computer of moderate scale is not available yet, however intermediate models of quantum computation would still permit demonstrations of a quantum computational advantage over classical computing and could challenge the Extended Church-Turing Thesis. One of these models based on single photons interacting via linear optics is called Boson Sampling. Although Boson Sampling was demonstrated and the threshold to claim quantum computational advantage was achieved, the question on how to scale up Boson Sampling experiments remains. To make progress with this problem, here we present a practically achievable pathway to scale Boson Sampling experiments with current technologies by combining continuous-variables quantum information and temporal encoding. We propose the combination of switchable dual-homodyne and single-photon detections, the temporal loop technique and scattershot-based Boson Sampling. We detail the required assumptions for concluding computational hardness for this configuration. Furthermore, this particular combination of techniques permits an efficient scaling and certification of Boson Sampling, all in a single experimental setup. | 翻訳日:2023-07-03 16:19:38 公開日:2023-06-29 |
# 固定周波数超伝導量子ビットのための高忠実3ビットiToffoliゲート High-fidelity three-qubit iToffoli gate for fixed-frequency superconducting qubits ( http://arxiv.org/abs/2108.10288v3 ) ライセンス: Link先を確認 | Yosep Kim, Alexis Morvan, Long B. Nguyen, Ravi K. Naik, Christian J\"unger, Larry Chen, John Mark Kreikebaum, David I. Santiago, Irfan Siddiqi | (参考訳) ノイズの多い中間規模量子(NISQ)デバイスの開発により、高忠実度単一および2ビットゲートを持つ実行可能な量子回路の範囲が拡張された。
NISQデバイスを3ビットゲートで取得することで、より複雑な量子アルゴリズムと回路深度を低減した効率的な量子誤り訂正プロトコルの実現が可能になる。
超伝導量子ビットのためにいくつかの3量子ビットゲートが実装されているが、ゲート合成における使用は低忠実性のため制限されている。
ここでは、固定周波数超伝導量子ビットを用いて、2量子相互作用、いわゆるクロス共鳴効果に基づく高忠実iToffoliゲートを示す。
toffoliゲートと同様に、この3量子ビットゲートは普遍量子計算の実行に使うことができる。
iToffoliゲートは3量子ビットの線形鎖にマイクロ波パルスを同時に印加し、98.26(2)%のプロセス忠実度を示す。
さらに,我々はトフォリゲートやiToffoliゲートよりも効率的なゲート合成を実現する3ビットゲートを新たに作成できることを数値的に示す。
我々の研究は、現在の超伝導量子プロセッサに高忠実なiToffoliゲートをもたらすだけでなく、2量子ビット相互作用に基づくマルチキュービットゲートを開発するための経路を開く。 The development of noisy intermediate-scale quantum (NISQ) devices has extended the scope of executable quantum circuits with high-fidelity single- and two-qubit gates. Equipping NISQ devices with three-qubit gates will enable the realization of more complex quantum algorithms and efficient quantum error correction protocols with reduced circuit depth. Several three-qubit gates have been implemented for superconducting qubits, but their use in gate synthesis has been limited due to their low fidelity. Here, using fixed-frequency superconducting qubits, we demonstrate a high-fidelity iToffoli gate based on two-qubit interactions, the so-called cross-resonance effect. As with the Toffoli gate, this three-qubit gate can be used to perform universal quantum computation. The iToffoli gate is implemented by simultaneously applying microwave pulses to a linear chain of three qubits, revealing a process fidelity as high as 98.26(2)%. Moreover, we numerically show that our gate scheme can produce additional three-qubit gates which provide more efficient gate synthesis than the Toffoli and iToffoli gates. Our work not only brings a high-fidelity iToffoli gate to current superconducting quantum processors but also opens a pathway for developing multi-qubit gates based on two-qubit interactions. | 翻訳日:2023-07-03 16:08:46 公開日:2023-06-29 |
# 多解ハッシュ符号化による対話型ボリューム可視化 Interactive Volume Visualization via Multi-Resolution Hash Encoding based Neural Representation ( http://arxiv.org/abs/2207.11620v3 ) ライセンス: Link先を確認 | Qi Wu, David Bauer, Michael J. Doyle, Kwan-Liu Ma | (参考訳) ニューラルネットワークは、可視化のためのボリュームデータを圧縮する大きな可能性を示している。
しかし、トレーニングや推論のコストが高いため、このようなボリュームニューラル表現はオフラインデータ処理や非インタラクティブレンダリングにしか適用されていない。
本稿では,最新のGPUテンソルコア,ネイティブCUDAニューラルネットワークフレームワーク,マクロセルアクセラレーションを備えたよく設計されたレンダリングアルゴリズムを同時に活用することにより,トレースボリュームニューラルネットワーク表現(10-60fps)をインタラクティブに描画できることを実証する。
我々の神経表現は高忠実度 (PSNR > 30dB) でコンパクト (10-1000倍小さい) である。
さらに、レンダリングループ内のトレーニングステップ全体に適合し、事前学習プロセスを完全にスキップすることが可能であることを示す。
極端なボリュームデータをサポートするために,NVIDIA RTX 3090ワークステーションのみを使用して,ボリュームのニューラル表現トレーニングをテラスケールにスケールアップする,効率的なアウトオブコアトレーニング戦略も開発しています。 Neural networks have shown great potential in compressing volume data for visualization. However, due to the high cost of training and inference, such volumetric neural representations have thus far only been applied to offline data processing and non-interactive rendering. In this paper, we demonstrate that by simultaneously leveraging modern GPU tensor cores, a native CUDA neural network framework, and a well-designed rendering algorithm with macro-cell acceleration, we can interactively ray trace volumetric neural representations (10-60fps). Our neural representations are also high-fidelity (PSNR > 30dB) and compact (10-1000x smaller). Additionally, we show that it is possible to fit the entire training step inside a rendering loop and skip the pre-training process completely. To support extreme-scale volume data, we also develop an efficient out-of-core training strategy, which allows our volumetric neural representation training to potentially scale up to terascale using only an NVIDIA RTX 3090 workstation. | 翻訳日:2023-07-03 16:02:21 公開日:2023-06-29 |
# 専門家によるプライベートオンライン予測:分離と高速化 Private Online Prediction from Experts: Separations and Faster Rates ( http://arxiv.org/abs/2210.13537v3 ) ライセンス: Link先を確認 | Hilal Asi, Vitaly Feldman, Tomer Koren, Kunal Talwar | (参考訳) 専門家によるオンライン予測は機械学習の基本的な問題であり、いくつかの研究がプライバシーの制約の下でこの問題を研究している。
我々は,非適応的敵に対する最善の既存アルゴリズムの後悔の限界を克服する新しいアルゴリズムを提案し,解析する。
近似微分プライバシーのために、我々のアルゴリズムは確率的な設定に対して$\tilde{O}(\sqrt{T \log d} + \log d/\varepsilon)$と、不快な敵に対して$\tilde{O}(\sqrt{T \log d} + T^{1/3} \log d/\varepsilon)$の後悔境界を達成する。
純粋なDPに対して、我々のアルゴリズムは、高次元のアレンジメント$d \ge T$において、不愉快な敵に対して、初めてサブ線形後悔を得る。
さらに,適応的敵に対する新しい下限を証明した。
この結果から,非私的設定とは違い,適応的かつ適応的でない敵に対する最適な後悔と,この問題に対する非適応的対立との間には強い相違があることが示唆された。
我々の下限はまた、非プライベートな$o(\sqrt{t})$ regretを達成するために後者が必要となる適応的敵に対する純粋な微分プライバシーと近似微分プライバシーの分離を示す。 Online prediction from experts is a fundamental problem in machine learning and several works have studied this problem under privacy constraints. We propose and analyze new algorithms for this problem that improve over the regret bounds of the best existing algorithms for non-adaptive adversaries. For approximate differential privacy, our algorithms achieve regret bounds of $\tilde{O}(\sqrt{T \log d} + \log d/\varepsilon)$ for the stochastic setting and $\tilde{O}(\sqrt{T \log d} + T^{1/3} \log d/\varepsilon)$ for oblivious adversaries (where $d$ is the number of experts). For pure DP, our algorithms are the first to obtain sub-linear regret for oblivious adversaries in the high-dimensional regime $d \ge T$. Moreover, we prove new lower bounds for adaptive adversaries. Our results imply that unlike the non-private setting, there is a strong separation between the optimal regret for adaptive and non-adaptive adversaries for this problem. Our lower bounds also show a separation between pure and approximate differential privacy for adaptive adversaries where the latter is necessary to achieve the non-private $O(\sqrt{T})$ regret. | 翻訳日:2023-07-03 15:51:30 公開日:2023-06-29 |
# 部分観測軌道からの作動型クープマン発電機の非線形モデル学習 Learning Bilinear Models of Actuated Koopman Generators from Partially-Observed Trajectories ( http://arxiv.org/abs/2209.09977v2 ) ライセンス: Link先を確認 | Samuel E. Otto, Sebastian Peitz, Clarence W. Rowley | (参考訳) 基礎となるkoopman演算子やジェネレータの近似に基づく非線形力学系のデータ駆動モデルは、予測、特徴学習、状態推定、制御に成功している。
制御-アフィン系に対するクープマン生成器は入力に対するアフィン依存性も持つことがよく知られており、ダイナミクスの便利な有限次元双線型近似に繋がる。
しかし、動作を伴うシステムのクープマン発生器を近似するための現在のアプローチの範囲を制限する2つの主要な障害がある。
まず、既存の手法の性能は、クープマン生成器が近似される基底関数の選択に大きく依存する。
第二に、もし我々が完全な状態を観測しなければ、ダイナミクスを記述するのに十分豊富な関数の集合にアクセスできないかもしれない。
これは、時間遅延オブザーバブルを形成する一般的な方法がアクチュエーションがある場合に失敗するためである。
これらの問題を解決するため、koopman生成器が制御する可観測性のダイナミクスを双線型隠れマルコフモデルとして記述し、期待最大化(em)アルゴリズムを用いてモデルパラメータを決定する。
Eステップは標準のカルマンフィルタとスムーズで、Mステップはジェネレータの制御-アフィン動的モード分解に似ている。
本手法は,ゆるい多様体を持つ作動系に対する有限次元koopman-invariant部分空間の復元,非強制ダフィング方程式に対するkoopman固有関数の推定,揚力と抗力のノイズ観測のみに基づく流体ピンボール系のモデル予測制御といった3つの実例で性能を示す。 Data-driven models for nonlinear dynamical systems based on approximating the underlying Koopman operator or generator have proven to be successful tools for forecasting, feature learning, state estimation, and control. It has become well known that the Koopman generators for control-affine systems also have affine dependence on the input, leading to convenient finite-dimensional bilinear approximations of the dynamics. Yet there are still two main obstacles that limit the scope of current approaches for approximating the Koopman generators of systems with actuation. First, the performance of existing methods depends heavily on the choice of basis functions over which the Koopman generator is to be approximated; and there is currently no universal way to choose them for systems that are not measure preserving. Secondly, if we do not observe the full state, we may not gain access to a sufficiently rich collection of such functions to describe the dynamics. This is because the commonly used method of forming time-delayed observables fails when there is actuation. To remedy these issues, we write the dynamics of observables governed by the Koopman generator as a bilinear hidden Markov model, and determine the model parameters using the expectation-maximization (EM) algorithm. The E-step involves a standard Kalman filter and smoother, while the M-step resembles control-affine dynamic mode decomposition for the generator. We demonstrate the performance of this method on three examples, including recovery of a finite-dimensional Koopman-invariant subspace for an actuated system with a slow manifold; estimation of Koopman eigenfunctions for the unforced Duffing equation; and model-predictive control of a fluidic pinball system based only on noisy observations of lift and drag. | 翻訳日:2023-07-03 15:49:11 公開日:2023-06-29 |
# MAGE: 表現学習と画像合成を統合するMasked Generative Encoder MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis ( http://arxiv.org/abs/2211.09117v2 ) ライセンス: Link先を確認 | Tianhong Li, Huiwen Chang, Shlok Kumar Mishra, Han Zhang, Dina Katabi, Dilip Krishnan | (参考訳) 生成モデリングと表現学習はコンピュータビジョンにおける2つの重要なタスクである。
しかしながら、これらのモデルは一般的に独立してトレーニングされ、各タスクが互いに助け合う可能性を無視し、トレーニングやモデルのメンテナンスのオーバーヘッドにつながる。
本研究では,SOTA画像生成と自己教師付き表現学習を統合する最初のフレームワークであるMAsked Generative Encoder (MAGE)を提案する。
私たちの重要な洞察は、マスク画像モデリングの事前トレーニングにおいて可変マスキング比を使用することで、同じトレーニングフレームワークの下で生成的トレーニング(非常に高いマスキング比率)と表現学習(低いマスキング比率)が可能になるということです。
以前の生成モデルにインスパイアされたMAGEは、入力と出力においてベクトル量子化されたGANによって学習された意味トークンを使用し、これをマスキングと組み合わせる。
エンコーダ出力にコントラスト損失を加えることで、さらに表現を改善することができる。
我々はMAGEの生成と表現の学習能力を広く評価した。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルが、クラス非条件画像生成タスクの9.10 FIDと線形探索のための78.9%のトップ-1精度を取得し、画像生成と表現学習の両方で最先端の性能を達成する。
コードはhttps://github.com/lth14/mageで入手できる。 Generative modeling and representation learning are two key tasks in computer vision. However, these models are typically trained independently, which ignores the potential for each task to help the other, and leads to training and model maintenance overheads. In this work, we propose MAsked Generative Encoder (MAGE), the first framework to unify SOTA image generation and self-supervised representation learning. Our key insight is that using variable masking ratios in masked image modeling pre-training can allow generative training (very high masking ratio) and representation learning (lower masking ratio) under the same training framework. Inspired by previous generative models, MAGE uses semantic tokens learned by a vector-quantized GAN at inputs and outputs, combining this with masking. We can further improve the representation by adding a contrastive loss to the encoder output. We extensively evaluate the generation and representation learning capabilities of MAGE. On ImageNet-1K, a single MAGE ViT-L model obtains 9.10 FID in the task of class-unconditional image generation and 78.9% top-1 accuracy for linear probing, achieving state-of-the-art performance in both image generation and representation learning. Code is available at https://github.com/LTH14/mage. | 翻訳日:2023-07-03 15:41:58 公開日:2023-06-29 |
# 量子時間伝達:損失チャネルとノイズチャネルの実用的な方法 Quantum time transfer: a practical method for lossy and noisy channels ( http://arxiv.org/abs/2211.00737v2 ) ライセンス: Link先を確認 | Randy Lafler and R. Nicholas Lanning | (参考訳) 長距離量子ネットワークのタイミング要求は、ベル状態の測定のために独立したソースから光子の到着を同期させる必要性によって引き起こされる。
したがって、繰り返しレートやパルス持続時間といった特性は、テレポーテーションやエンタングルメントスワップといった量子ネットワークタスクを実現するのに必要な精度に影響する。
古典的レーザーパルス、周波数コム、二光子源を利用していくつかの解が提案されている。
本稿では,自然に隠蔽され,潜在的に量子安全となる量子現象に基づく後者の手法の有用性について検討する。
さらに、比較的低パフォーマンスな量子光子源と検出装置を使用できるが、日中の空間-地球リンクを代表する高損失および高ノイズチャネル条件下においても、ピコ秒レベルのタイミング精度を提供する。
そのため、この手法は、日中の空間-地球量子ネットワークおよび/またはGPS無視環境における高精度なセキュアなタイミングの提供に関係している。 Timing requirements for long-range quantum networking are driven by the necessity of synchronizing the arrival of photons, from independent sources, for Bell-state measurements. Thus, characteristics such as repetition rate and pulse duration influence the precision required to enable quantum networking tasks such as teleportation and entanglement swapping. Some solutions have been proposed utilizing classical laser pulses, frequency combs, and biphoton sources. In this article, we explore the utility of the latter method since it is based upon quantum phenomena, which makes it naturally covert, and potentially quantum secure. Furthermore, it can utilize relatively low performance quantum-photon sources and detection equipment, but provides picosecond-level timing precision even under high loss and high noise channel conditions representative of daytime space-Earth links. Therefore, this method is relevant for daytime space-Earth quantum networking and/or providing high-precision secure timing in GPS denied environments. | 翻訳日:2023-07-03 15:40:24 公開日:2023-06-29 |
# 合成制御によるリコメンデーション学習(o(1)) oracle Bounded (O(1)) Regret Recommendation Learning via Synthetic Controls Oracle ( http://arxiv.org/abs/2301.12571v2 ) ライセンス: Link先を確認 | Enoch Hyunwook Kang, P. R. Kumar | (参考訳) 近年,オンライン探索システムでは,O(1),すなわち有界後悔(bounded regret)が線形文脈帯域としてモデル化された場合に達成できることが示されている。
この結果は、アイテムの人気が短命であるレコメンダシステムにとって興味をそそられるかもしれない。
しかし、実際には、線形モデルの正確な知識は正当化が難しい。
さらに、観測不能な共変量、不均一なユーザの到着率、必要なランク条件の解釈、およびプライベートデータトラッキングからオプトアウトするユーザは、実用的なレコメンデーションシステムアプリケーションのために対処する必要がある。
本研究は,これらの問題すべてに対処するための理論的研究を行ない,なおかつ有界的な後悔を抱く。
証明手法の他に、我々がここで行う重要な差別化仮定は、正確な線形モデル知識仮定の実践的緩和であることを示す効果的な合成制御法(SCM)の存在である。
最小限のシミュレーション実験を用いて理論的有界後悔結果を検証する。 In online exploration systems where users with fixed preferences repeatedly arrive, it has recently been shown that O(1), i.e., bounded regret, can be achieved when the system is modeled as a linear contextual bandit. This result may be of interest for recommender systems, where the popularity of their items is often short-lived, as the exploration itself may be completed quickly before potential long-run non-stationarities come into play. However, in practice, exact knowledge of the linear model is difficult to justify. Furthermore, potential existence of unobservable covariates, uneven user arrival rates, interpretation of the necessary rank condition, and users opting out of private data tracking all need to be addressed for practical recommender system applications. In this work, we conduct a theoretical study to address all these issues while still achieving bounded regret. Aside from proof techniques, the key differentiating assumption we make here is the presence of effective Synthetic Control Methods (SCM), which are shown to be a practical relaxation of the exact linear model knowledge assumption. We verify our theoretical bounded regret result using a minimal simulation experiment. | 翻訳日:2023-07-03 15:31:08 公開日:2023-06-29 |
# 映像ストリームのスタイライゼーションにおける時間的一貫性のインタラクティブ制御 Interactive Control over Temporal Consistency while Stylizing Video Streams ( http://arxiv.org/abs/2301.00750v2 ) ライセンス: Link先を確認 | Sumit Shekhar, Max Reimann, Moritz Hilscher, Amir Semmo, J\"urgen D\"ollner, Matthias Trapp | (参考訳) 画像のスタイリゼーションは、長年にわたって顕著な進歩と幅広い関心を集め、様々な技術の発展につながった。
ニューラルスタイル転送(NST)のようなこれらのスタイル化テクニックをビデオに拡張することは、フレーム単位で適用することでしばしば達成される。
しかしながら、フレーム単位のスタイリングは通常、望ましくないフリックングアーティファクトによって表現される時間的一貫性を欠いている。
時間的一貫性を強制する既存のアプローチは,(1)限られた範囲の手法にのみ適しており,(2)入力として完全なビデオを必要とするため,(2)オンライン処理をサポートしない,(3)タイマライゼーションのタスクに対して一貫性を提供できない,(4)インタラクティブな一貫性制御を提供しない,といった欠点に悩まされている。
時間的一貫性のためのドメインに依存しない技術は、フリックを完全に根絶することを目的としている。
しかし、スタイリゼーションタスクでは、ある種のフリックが芸術的なルックアンドフィールに付加されるため、一貫性の制御は必須の要件である。
さらに、ユーザビリティの観点から、このコントロールをインタラクティブにすることが最重要である。
そこで本稿では,ビデオストリームをフルhd解像度でリアルタイムにスタイライゼーションし,インタラクティブな一貫性制御を実現する手法を提案する。
デスクトップシステム上で80FPSで動作するライト光フローネットワークを,十分な精度で開発する。
さらに,局所的およびグローバル的一貫性を適応的に組み合わせ,それらの相互選択を可能にする。
客観的および主観的評価は,本手法が最先端のビデオ一貫性アプローチよりも優れていることを示す。 Image stylization has seen significant advancement and widespread interest over the years, leading to the development of a multitude of techniques. Extending these stylization techniques, such as Neural Style Transfer (NST), to videos is often achieved by applying them on a per-frame basis. However, per-frame stylization usually lacks temporal consistency, expressed by undesirable flickering artifacts. Most of the existing approaches for enforcing temporal consistency suffer from one or more of the following drawbacks: They (1) are only suitable for a limited range of techniques, (2) do not support online processing as they require the complete video as input, (3) cannot provide consistency for the task of stylization, or (4) do not provide interactive consistency control. Domain-agnostic techniques for temporal consistency aim to eradicate flickering completely but typically disregard aesthetic aspects. For stylization tasks, however, consistency control is an essential requirement as a certain amount of flickering adds to the artistic look and feel. Moreover, making this control interactive is paramount from a usability perspective. To achieve the above requirements, we propose an approach that stylizes video streams in real-time at full HD resolutions while providing interactive consistency control. We develop a lite optical-flow network that operates at 80 FPS on desktop systems with sufficient accuracy. Further, we employ an adaptive combination of local and global consistency features and enable interactive selection between them. Objective and subjective evaluations demonstrate that our method is superior to state-of-the-art video consistency approaches. | 翻訳日:2023-07-03 15:29:50 公開日:2023-06-29 |
# スポーツベッティングのための機械学習:予測モデルは精度やキャリブレーションのために最適化されるべきか? Machine learning for sports betting: should predictive models be optimised for accuracy or calibration? ( http://arxiv.org/abs/2303.06021v3 ) ライセンス: Link先を確認 | Conor Walsh, Alok Joshi | (参考訳) 米国におけるスポーツ・ベッティングの連邦合法化は、機械学習の黄金時代と一致する。
賭け者がデータを活用して結果の確率を確実に予測できれば、本屋の確率が好まれているときに認識することができる。
スポーツの賭けは米国だけでも数十億ドルの産業であり、そのような機会を特定することは極めて有益である。
多くの研究者が機械学習をスポーツ結果予測問題に適用し、一般的には精度を用いて予測モデルの性能を評価する。
スポーツベッティング問題に対して,モデルの校正は精度よりも重要であると仮定する。
この仮説をテストするために、NBAデータ上のモデルを数シーズンにわたってトレーニングし、1シーズンの賭け実験を公開オッズを用いて実施する。
キャリブレーションの予測モデルの最適化は、平均で、精度の最適化よりも高いリターンをもたらす(投資のリターンは-35.17\%$に対して-34.69\%$であり、最良のケースでは (+36.93\%$と+5.56\%$である)。
これらの結果から,スポーツベッティング(あるいは確率的意思決定問題)においては,キャリブレーションは精度よりも重要な指標であることが示唆された。
利益を増やそうとするスポーツベクターは、キャリブレーションの予測モデルを最適化すべきである。 Sports betting's recent federal legalisation in the USA coincides with the golden age of machine learning. If bettors can leverage data to reliably predict the probability of an outcome, they can recognise when the bookmaker's odds are in their favour. As sports betting is a multi-billion dollar industry in the USA alone, identifying such opportunities could be extremely lucrative. Many researchers have applied machine learning to the sports outcome prediction problem, generally using accuracy to evaluate the performance of predictive models. We hypothesise that for the sports betting problem, model calibration is more important than accuracy. To test this hypothesis, we train models on NBA data over several seasons and run betting experiments on a single season, using published odds. We show that optimising the predictive model for calibration leads to greater returns than optimising for accuracy, on average (return on investment of $+34.69\%$ versus $-35.17\%$) and in the best case ($+36.93\%$ versus $+5.56\%$). These findings suggest that for sports betting (or any probabilistic decision-making problem), calibration is a more important metric than accuracy. Sports bettors who wish to increase profits should therefore optimise their predictive model for calibration. | 翻訳日:2023-07-03 15:22:57 公開日:2023-06-29 |
# クリフォード回路合成における長距離絡み合いパワーの活用 Harnessing the Power of Long-Range Entanglement for Clifford Circuit Synthesis ( http://arxiv.org/abs/2302.06537v2 ) ライセンス: Link先を確認 | Willers Yang, Patrick Rall | (参考訳) 超伝導アーキテクチャでは、量子回路の合成とコンパイルにおいて、限られた接続性は依然として重要な課題である。
我々は,GHZ状態の注入により長距離操作を実現する絡み合い支援計算のモデルを考える。
これらは、マルチキュービットのポーリ回転やファンアウトゲートなどのグローバル操作プリミティブをアンロックする「エンタングルメントバス」として機能する補助キュービットを用いて作成される。
我々は、CZ回路、CX回路、クリフォード回路合成など、いくつかのよく研究された問題に対して、回路サイズの境界を導出する。
特に、そのような絡み合いバスを使用するアーキテクチャでは、任意のクリフォード演算に対して、絡み合い状態インジェクションの最大2n + 1$層を必要とする$o(n^3)$-複合性合成スキームを与える。
2つの絡み合いバスを持つ正方形格子アーキテクチャでは、GHZ状態注入の少なくとも$\lceil \frac{1}{2}n \rceil + 1$の層でグラフ状態が合成可能であることを示し、クリフォード演算はGHZ状態注入の層で$\lceil\frac{3}{2}n \rceil + O(\sqrt n)$のみを必要とする。 In superconducting architectures, limited connectivity remains a significant challenge for the synthesis and compilation of quantum circuits. We consider models of entanglement-assisted computation where long-range operations are achieved through injections of large GHZ states. These are prepared using ancillary qubits acting as an ``entanglement bus,'' unlocking global operation primitives such as multi-qubit Pauli rotations and fan out gates. We derive bounds on the circuit size for several well studied problems, such as CZ circuit, CX circuit, and Clifford circuit synthesis. In particular, in an architecture using one such entanglement bus, we give an $O(n^3)$-complexity synthesis scheme for arbitrary Clifford operations requiring at most $2n + 1$ layers of entangled-state-injections. In a square-lattice architecture with two entanglement buses, we show that a graph state can be synthesized using at most $\lceil \frac{1}{2}n \rceil + 1$ layers of GHZ state injections, and Clifford operations require only $\lceil\frac{3}{2} n \rceil + O(\sqrt n)$ layers of GHZ state injections. | 翻訳日:2023-07-03 15:20:37 公開日:2023-06-29 |
# 肺結節分類のための縦型マルチモーダルトランスフォーマリン : 画像と潜伏臨床所見の統合 Longitudinal Multimodal Transformer Integrating Imaging and Latent Clinical Signatures From Routine EHRs for Pulmonary Nodule Classification ( http://arxiv.org/abs/2304.02836v5 ) ライセンス: Link先を確認 | Thomas Z. Li, John M. Still, Kaiwen Xu, Ho Hin Lee, Leon Y. Cai, Aravind R. Krishnan, Riqiang Gao, Mirza S. Khan, Sanja Antic, Michael Kammer, Kim L. Sandler, Fabien Maldonado, Bennett A. Landman, Thomas A. Lasko | (参考訳) 孤立性肺結節(SPN)診断の予測モデルの精度は、電子健康記録(EHRs)などの反復画像と医療コンテキストを取り入れることで大幅に向上することができる。
しかし、画像や診断符号などの臨床上の日常的なモダリティは、縦型マルチモーダル学習の障害となる様々な時間スケールで非同期かつ不規則にサンプリングすることができる。
本研究では,SPN分類のための経時的臨床像とリピート画像を統合したトランスフォーマーに基づくマルチモーダル戦略を提案する。
潜在臨床署名の非教師付き不連続化を行い, 臨床署名表現と胸部ctスキャンから共同学習するために, 時間的スケールドセルフアテンションを活用した。
うちの分類器は,公開データセットからの2,668件のスキャンと,縦型胸部ct,請求コード,薬剤,eersによる検査で1,149名の被験者を対象に事前訓練を行っている。
SPNに挑戦する227名の被験者に対する評価では、縦型マルチモーダルベースライン(0.824 vs 0.752 AUC)に対するAUCの大幅な改善と、横型マルチモーダルシナリオ(0.809 AUC)と縦型イメージオンリーシナリオ(0.741 AUC)に対する改善が示された。
本研究は、トランスフォーマを用いた縦型画像と非画像表現型を共学習する新しいアプローチにより、大きな利点を示す。
コードはhttps://github.com/masilab/lmsignatures。 The accuracy of predictive models for solitary pulmonary nodule (SPN) diagnosis can be greatly increased by incorporating repeat imaging and medical context, such as electronic health records (EHRs). However, clinically routine modalities such as imaging and diagnostic codes can be asynchronous and irregularly sampled over different time scales which are obstacles to longitudinal multimodal learning. In this work, we propose a transformer-based multimodal strategy to integrate repeat imaging with longitudinal clinical signatures from routinely collected EHRs for SPN classification. We perform unsupervised disentanglement of latent clinical signatures and leverage time-distance scaled self-attention to jointly learn from clinical signatures expressions and chest computed tomography (CT) scans. Our classifier is pretrained on 2,668 scans from a public dataset and 1,149 subjects with longitudinal chest CTs, billing codes, medications, and laboratory tests from EHRs of our home institution. Evaluation on 227 subjects with challenging SPNs revealed a significant AUC improvement over a longitudinal multimodal baseline (0.824 vs 0.752 AUC), as well as improvements over a single cross-section multimodal scenario (0.809 AUC) and a longitudinal imaging-only scenario (0.741 AUC). This work demonstrates significant advantages with a novel approach for co-learning longitudinal imaging and non-imaging phenotypes with transformers. Code available at https://github.com/MASILab/lmsignatures. | 翻訳日:2023-07-03 15:10:59 公開日:2023-06-29 |
# ビデオにおける未バイアスシーングラフ生成 Unbiased Scene Graph Generation in Videos ( http://arxiv.org/abs/2304.00733v3 ) ライセンス: Link先を確認 | Sayak Nag, Kyle Min, Subarna Tripathi, Amit K. Roy Chowdhury | (参考訳) 映像からの動的シーングラフ生成(SGG)の課題は、シーン固有のダイナミクス、モデル予測の時間的変動、画像ベースSGGの既存の課題に加えて、視覚的関係の長期分布などにより複雑かつ困難である。
動的sggの既存の手法は、上述の課題、特に長期にわたる関係の分散に対処せずに、複雑なアーキテクチャを用いて時空間的コンテキストを捉えることに重点を置いている。
これはしばしばバイアス付きシーングラフの生成につながる。
これらの課題に対処するために,我々はテンプラと呼ばれる新しいフレームワークを紹介している。
TEMPURAは、トランスフォーマーに基づくシーケンスモデリングによりオブジェクトレベルの時間的整合性を採用し、メモリ誘導学習を用いて非バイアス関係表現を合成し、ガウス混合モデル(GMM)を用いて視覚関係の予測的不確実性を減衰させる。
広範囲な実験により,既存の手法に比べて,より偏りのないシーングラフの生成において,性能が大幅に向上すること(場合によっては最大10%)を実証した。 The task of dynamic scene graph generation (SGG) from videos is complicated and challenging due to the inherent dynamics of a scene, temporal fluctuation of model predictions, and the long-tailed distribution of the visual relationships in addition to the already existing challenges in image-based SGG. Existing methods for dynamic SGG have primarily focused on capturing spatio-temporal context using complex architectures without addressing the challenges mentioned above, especially the long-tailed distribution of relationships. This often leads to the generation of biased scene graphs. To address these challenges, we introduce a new framework called TEMPURA: TEmporal consistency and Memory Prototype guided UnceRtainty Attenuation for unbiased dynamic SGG. TEMPURA employs object-level temporal consistencies via transformer-based sequence modeling, learns to synthesize unbiased relationship representations using memory-guided training, and attenuates the predictive uncertainty of visual relations using a Gaussian Mixture Model (GMM). Extensive experiments demonstrate that our method achieves significant (up to 10% in some cases) performance gain over existing methods highlighting its superiority in generating more unbiased scene graphs. | 翻訳日:2023-07-03 15:10:17 公開日:2023-06-29 |
# 統合畳み込みブロック注意機構を用いたクロスドメイン車検出モデル Cross-Domain Car Detection Model with Integrated Convolutional Block Attention Mechanism ( http://arxiv.org/abs/2305.20055v4 ) ライセンス: Link先を確認 | Haoxuan Xu, Songning Lai, Xianyang Li, Yang Yang | (参考訳) 車の検知は、特にカメラビジョンを通じて、コンピュータビジョンの分野に重点を置いており、広く普及している。
現在の自動車検出システムは良好な検出が可能であるが、車間距離、光強度、環境視認性などの要因により、信頼性の高い検出は依然として困難である。
これらの問題に対処するため,自動走行などの分野での車認識に適用可能な,畳み込みブロック注意機構(CDMA)を備えたクロスドメイン車検出モデルを提案する。
CDMAには、1)完全なクロスドメインターゲット検出フレームワークの構築。
2) 自動車ヘッドライトの特徴を具体的に強調する畳み込み注意機構を組み込んだ非対向目標ドメイン画像生成モジュールの開発。
3) 目標検出フレームワークの損失関数として一般対連合(GIOU)を適応する。
4)双方向畳み込みブロックアテンションモジュール(cbam)を組み込んだ物体検出モデルの設計
5)効果的なデータ拡張方法の活用。
モデルの有効性を評価するため、SSLADデータセットのデータに対して、reduce will resolutionプロセスを実行し、タスクのベンチマークデータセットとして使用しました。
実験の結果,クロスドメインカーターゲット検出モデルの性能は,フレームワークを使わずに40%向上し,クロスドメインカー認識にも大きな影響を与えることがわかった。 Car detection, particularly through camera vision, has become a major focus in the field of computer vision and has gained widespread adoption. While current car detection systems are capable of good detection, reliable detection can still be challenging due to factors such as proximity between the car, light intensity, and environmental visibility. To address these issues, we propose cross-domain Car Detection Model with integrated convolutional block Attention mechanism(CDMA) that we apply to car recognition for autonomous driving and other areas. CDMA includes several novelties: 1)Building a complete cross-domain target detection framework. 2)Developing an unpaired target domain picture generation module with an integrated convolutional attention mechanism which specifically emphasizes the car headlights feature. 3)Adopting Generalized Intersection over Union (GIOU) as the loss function of the target detection framework. 4)Designing an object detection model integrated with two-headed Convolutional Block Attention Module(CBAM). 5)Utilizing an effective data enhancement method. To evaluate the model's effectiveness, we performed a reduced will resolution process on the data in the SSLAD dataset and used it as the benchmark dataset for our task. Experimental results show that the performance of the cross-domain car target detection model improves by 40% over the model without our framework, and our improvements have a significant impact on cross-domain car recognition. | 翻訳日:2023-07-03 15:03:46 公開日:2023-06-29 |
# 集合価値フィードバックによるオンライン学習 Online Learning with Set-Valued Feedback ( http://arxiv.org/abs/2306.06247v2 ) ライセンス: Link先を確認 | Vinod Raman, Unique Subedi, Ambuj Tewari | (参考訳) 学習者が1つのラベルを予測するが、フィードバックとして \textit{set of labels} を受け取るオンラインマルチクラス分類の変種を調査した。
このモデルでは、明らかにされた集合に含まれるラベルを出力しないために学習者がペナルティを課される。
単一ラベルフィードバックによるオンラインマルチクラス学習とは異なり、決定論的かつランダム化されたオンライン学習能力は、セット値フィードバックで実現可能な設定でも \textit{not equivalent} である。
そこで我々は, 決定論的およびランダムなオンライン学習を, 実現可能な設定でそれぞれ特徴付ける2つの新しい組合せ次元, Set Littlestone と Measure Shattering を提示する。
さらに,測定シェータリング次元は,非依存的な環境下でのオンライン学習性を強く特徴付けることを示す。
最後に,オンラインマルチラベルランキング,オンラインマルチラベル分類,オンラインインターバル学習といった実践的な学習環境が,我々の汎用フレームワークの具体例であることを示す。 We study a variant of online multiclass classification where the learner predicts a single label but receives a \textit{set of labels} as feedback. In this model, the learner is penalized for not outputting a label contained in the revealed set. We show that unlike online multiclass learning with single-label feedback, deterministic and randomized online learnability are \textit{not equivalent} even in the realizable setting with set-valued feedback. Accordingly, we give two new combinatorial dimensions, named the Set Littlestone and Measure Shattering dimension, that tightly characterize deterministic and randomized online learnability respectively in the realizable setting. In addition, we show that the Measure Shattering dimension tightly characterizes online learnability in the agnostic setting. Finally, we show that practical learning settings like online multilabel ranking, online multilabel classification, and online interval learning are specific instances of our general framework. | 翻訳日:2023-07-03 14:51:27 公開日:2023-06-29 |
# 制御可能な多目的分子設計のための目標条件gflownets Goal-conditioned GFlowNets for Controllable Multi-Objective Molecular Design ( http://arxiv.org/abs/2306.04620v2 ) ライセンス: Link先を確認 | Julien Roy, Pierre-Luc Bacon, Christopher Pal and Emmanuel Bengio | (参考訳) 近年、シリコン分子設計は機械学習コミュニティから多くの注目を集めている。
医薬品用途の新しい化合物を設計する際には、ターゲットへのエネルギーの結合、合成性、毒性、EC50など、最適化される必要がある分子の複数の性質がある。
従来のアプローチでは、多目的問題を選好条件付き単一目的に変換するためにスカラー化スキームが採用されていたが、このような削減は、対向空間の極端点に向かってスライドする傾向のある解を、凹面のパレート面を呈する問題によって生じる可能性がある。
本研究では, 目標条件分子生成の代替的定式化を試み, パレート前線全体の解を均一に探索できる, より制御可能な条件モデルを得る。 In recent years, in-silico molecular design has received much attention from the machine learning community. When designing a new compound for pharmaceutical applications, there are usually multiple properties of such molecules that need to be optimised: binding energy to the target, synthesizability, toxicity, EC50, and so on. While previous approaches have employed a scalarization scheme to turn the multi-objective problem into a preference-conditioned single objective, it has been established that this kind of reduction may produce solutions that tend to slide towards the extreme points of the objective space when presented with a problem that exhibits a concave Pareto front. In this work we experiment with an alternative formulation of goal-conditioned molecular generation to obtain a more controllable conditional model that can uniformly explore solutions along the entire Pareto front. | 翻訳日:2023-07-03 14:51:08 公開日:2023-06-29 |
# 浅層ニューラルネットワークのための定量的機能中心極限理論 A Quantitative Functional Central Limit Theorem for Shallow Neural Networks ( http://arxiv.org/abs/2306.16932v1 ) ライセンス: Link先を確認 | Valentina Cammarota, Domenico Marinucci, Michele Salvi, Stefano Vigogna | (参考訳) 一般化活性化関数を持つ一層ニューラルネットワークに対する定量的機能中心極限定理を証明した。
私たちが確立する収束の速度は活性化関数の滑らかさに大きく依存しており、Relu のような微分不可能な場合の対数から非常に正規な活性化に対して $\sqrt{n}$ まで様々である。
特に、ブルジュインとカンペス(2020年)によって最近確立された定量的機能的中央極限定理を大いに活用している。 We prove a Quantitative Functional Central Limit Theorem for one-hidden-layer neural networks with generic activation function. The rates of convergence that we establish depend heavily on the smoothness of the activation function, and they range from logarithmic in non-differentiable cases such as the Relu to $\sqrt{n}$ for very regular activations. Our main tools are functional versions of the Stein-Malliavin approach; in particular, we exploit heavily a quantitative functional central limit theorem which has been recently established by Bourguin and Campese (2020). | 翻訳日:2023-07-03 14:43:52 公開日:2023-06-29 |
# 熱処理と断熱にショートカットを施した量子オットーエンジン A Quantum Otto Engine with Shortcuts to Thermalization and Adiabaticity ( http://arxiv.org/abs/2306.14847v3 ) ライセンス: Link先を確認 | Ali Pedram, Serhat C. Kad{\i}o\u{g}lu, Alkan Kabak\c{c}{\i}o\u{g}lu, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 我々は, 量子調和振動子オットーエンジンを, 短絡(パワーストローク, 圧縮ストローク)と平衡(ホットアイソコール)に, 反断熱駆動(CD)により加速させるエネルギー的優位性について検討した。
各種プロトコルとCD駆動との比較により, 運転コストを考慮した場合においても, 双方のショートカットを適用すれば, パワーと効率が向上することがわかった。
ハイブリッドプロトコルはリミットサイクルにおいてその優位性を保持するだけでなく、未制御の有限時間オットーサイクルが失敗するパラメータレジームにおけるエンジン機能(すなわち正の出力)を回復する。
サイクルの3ストロークの制御は,2つのアディバティックストロークの制御に比べ,パフォーマンス指標の全体的な改善につながることを示す。
さらに, エンジンのリミットサイクル挙動を数値的に計算し, この動作モードでは, イソコリックおよび断熱ストロークを加速したエンジンが優れた出力を示すことを示す。 We investigate the energetic advantage of accelerating a quantum harmonic oscillator Otto engine by use of shortcuts to adiabaticity (for the power and compression strokes) and to equilibrium (for the hot isochore), by means of counter-diabatic (CD) driving. By comparing various protocols with and without CD driving, we find that, applying both type of shortcuts leads to enhanced power and efficiency even after the driving costs are taken into account. The hybrid protocol not only retains its advantage in the limit cycle, but also recovers engine functionality (i.e., a positive power output) in parameter regimes where an uncontrolled, finite-time Otto cycle fails. We show that controlling three strokes of the cycle leads to an overall improvement of the performance metrics compared with controlling only the two adiabatic strokes. Moreover, we numerically calculate the limit cycle behavior of the engine and show that the engines with accelerated isochoric and adiabatic strokes display a superior power output in this mode of operation. | 翻訳日:2023-07-03 14:41:27 公開日:2023-06-29 |
# 背景知識グラフの統合による遺伝子発現分類のエンドツーエンドフレームワーク:癌予後予測への応用 An end-to-end framework for gene expression classification by integrating a background knowledge graph: application to cancer prognosis prediction ( http://arxiv.org/abs/2306.17202v1 ) ライセンス: Link先を確認 | Kazuma Inoue, Ryosuke Kojima, Mayumi Kamada, Yasushi Okuno | (参考訳) 生物学的データは遺伝子発現などの一次データと、経路やタンパク質間相互作用などの二次データに分けられる。
二次データが一次データに含まれない背景情報を持っているため、二次データを用いて一次データの解析を強化する手法は有望である。
本研究では,プライマリデータの分類モデルを構築するために,セカンダリデータの統合処理を行うエンドツーエンドフレームワークを提案する。
この枠組みを遺伝子発現データと生物学的ネットワークを用いて癌予後予測に適用した。
相互評価の結果,生体情報を持たない深層ニューラルネットワークモデルと比較して高い精度が得られた。
がんタイプによる患者群で行った実験では,多くの群で ROC-area の改善が認められた。
エンリッチメント解析による貢献遺伝子と経路を同定した高精度癌型の可視化
既知のバイオマーカーと新しいバイオマーカー候補はこれらの実験によって同定された。 Biological data may be separated into primary data, such as gene expression, and secondary data, such as pathways and protein-protein interactions. Methods using secondary data to enhance the analysis of primary data are promising, because secondary data have background information that is not included in primary data. In this study, we proposed an end-to-end framework to integrally handle secondary data to construct a classification model for primary data. We applied this framework to cancer prognosis prediction using gene expression data and a biological network. Cross-validation results indicated that our model achieved higher accuracy compared with a deep neural network model without background biological network information. Experiments conducted in patient groups by cancer type showed improvement in ROC-area under the curve for many groups. Visualizations of high accuracy cancer types identified contributing genes and pathways by enrichment analysis. Known biomarkers and novel biomarker candidates were identified through these experiments. | 翻訳日:2023-07-03 14:32:50 公開日:2023-06-29 |
# MPM:masked Pose Modelingによる統一2D-3D人物表現 MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling ( http://arxiv.org/abs/2306.17201v1 ) ライセンス: Link先を確認 | Zhenyu Zhang, Wenhao Chai, Zhongyu Jiang, Tian Ye, Mingli Song, Jenq-Neng Hwang, Gaoang Wang | (参考訳) 近年,2次元の人間のポーズシーケンスのみから3次元のポーズを推定する手法が徹底的に研究されている。
しかし、それ以前には、共有特徴空間における2Dと3Dのポーズ表現を統一する試みは行われていない。
本稿では,マスク型ポーズモデリングによる2次元3次元人間のポーズ表現フレームワークであるMPMを提案する。
2Dと3Dのポーズを視覚と言語という2つの異なるモダリティとして扱い、シングルストリームトランスフォーマーベースのアーキテクチャを構築します。
我々は,マスキング2次元ポーズモデリング,マスキング3次元ポーズモデリング,マスキング2次元ポーズ昇降という3つのプリテキストタスクを適用し,ネットワークを事前学習し,フルスーパービジョンを用いてさらなる微調整を行う。
マスキング比は72.5%であり、時空間マスキングサンプリング戦略は空間領域と時間領域の両方においてより良い関係モデリングをもたらす。
MPMは、3D人間のポーズ推定、隠された2Dポーズからの3Dポーズ推定、単一のフレームワークでの3Dポーズ完了を含む複数のタスクを処理できる。
我々は、広く使われている人間のポーズデータセットの広範な実験とアブレーション研究を行い、Human3.6MとMPI-INF-3DHPで最先端のパフォーマンスを達成する。
コードとモデルチェックポイントはhttps://github.com/vvirgooo2/MPMで公開されている。 Estimating 3D human poses only from a 2D human pose sequence is thoroughly explored in recent years. Yet, prior to this, no such work has attempted to unify 2D and 3D pose representations in the shared feature space. In this paper, we propose MPM, a unified 2D-3D human pose representation framework via masked pose modeling. We treat 2D and 3D poses as two different modalities like vision and language and build a single-stream transformer-based architecture. We apply three pretext tasks, which are masked 2D pose modeling, masked 3D pose modeling, and masked 2D pose lifting to pre-train our network and use full-supervision to perform further fine-tuning. A high masking ratio of 72.5% in total with a spatio-temporal mask sampling strategy leading to better relation modeling both in spatial and temporal domains. MPM can handle multiple tasks including 3D human pose estimation, 3D pose estimation from occluded 2D pose, and 3D pose completion in a single framework. We conduct extensive experiments and ablation studies on several widely used human pose datasets and achieve state-of-the-art performance on Human3.6M and MPI-INF-3DHP. Codes and model checkpoints are available at https://github.com/vvirgooo2/MPM | 翻訳日:2023-07-03 14:32:37 公開日:2023-06-29 |
# 残存特徴ピラミッドネットワークによる血管パターンの強化 Residual Feature Pyramid Network for Enhancement of Vascular Patterns ( http://arxiv.org/abs/2306.17200v1 ) ライセンス: Link先を確認 | Ketan Kotwal and Sebastien Marcel | (参考訳) 指の静脈認識システムの精度は、静脈と周囲とのコントラストの低さと不均一さによって低下し、しばしば静脈パターンの検出に支障をきたす。
本稿では,認識パイプラインに依存しない汎用前処理手法として,ResFPN(Residual Feature Pyramid Network)を提案する。
新規な構造検出ブロック(SDBlock)を用いたボトムアップピラミッドアーキテクチャは,様々な幅の静脈の抽出を容易にする。
特徴集約モジュール(FAM)を用いて、これらの静脈構造を組み合わせて、提案したResFPNを訓練し、静脈のスケールにわたって検出する。
プレゼンテーションの強化により、2つの公開データセット上で一般的に使用される認識パイプラインの平均認識誤差を最大5%削減できることを示す。
これらの改善は、resfpnのトレーニングに使用されるデータセットが認識に使用されるものと異なるクロスデータセットシナリオにおいても永続的である。 The accuracy of finger vein recognition systems gets degraded due to low and uneven contrast between veins and surroundings, often resulting in poor detection of vein patterns. We propose a finger-vein enhancement technique, ResFPN (Residual Feature Pyramid Network), as a generic preprocessing method agnostic to the recognition pipeline. A bottom-up pyramidal architecture using the novel Structure Detection block (SDBlock) facilitates extraction of veins of varied widths. Using a feature aggregation module (FAM), we combine these vein-structures, and train the proposed ResFPN for detection of veins across scales. With enhanced presentations, our experiments indicate a reduction upto 5% in the average recognition errors for commonly used recognition pipeline over two publicly available datasets. These improvements are persistent even in cross-dataset scenario where the dataset used to train the ResFPN is different from the one used for recognition. | 翻訳日:2023-07-03 14:32:14 公開日:2023-06-29 |
# 並列データを用いない韻律予測のための多言語表現表現の学習 Learning Multilingual Expressive Speech Representation for Prosody Prediction without Parallel Data ( http://arxiv.org/abs/2306.17199v1 ) ライセンス: Link先を確認 | Jarod Duret (LIA), Titouan Parcollet (CAM), Yannick Est\`eve (LIA) | (参考訳) 本稿では,個別発話単位のレベルで動作する音声から音声への感情保存翻訳手法を提案する。
我々のアプローチは、言語に依存しない方法で感情情報をキャプチャできる多言語感情埋め込みの使用に依存している。
この埋め込みは、ターゲット言語における音声単位のピッチと持続時間を予測するのに利用でき、同じ感情的内容で元の音声信号を再合成できることを示す。
英語とフランス語の音声信号に対するアプローチを評価し,感情埋め込みが別の言語から抽出された場合など,感情情報を使用しないベースライン手法よりも優れていることを示す。
本研究は, 機械翻訳問題に直接対応していないとしても, 音声合成の文脈における言語間感情保存へのアプローチの有効性を実証する。 We propose a method for speech-to-speech emotionpreserving translation that operates at the level of discrete speech units. Our approach relies on the use of multilingual emotion embedding that can capture affective information in a language-independent manner. We show that this embedding can be used to predict the pitch and duration of speech units in a target language, allowing us to resynthesize the source speech signal with the same emotional content. We evaluate our approach to English and French speech signals and show that it outperforms a baseline method that does not use emotional information, including when the emotion embedding is extracted from a different language. Even if this preliminary study does not address directly the machine translation issue, our results demonstrate the effectiveness of our approach for cross-lingual emotion preservation in the context of speech resynthesis. | 翻訳日:2023-07-03 14:31:59 公開日:2023-06-29 |
# マルチバンドイメージング逆問題のための深部生成モデルに基づく空間正規化 Guided Deep Generative Model-based Spatial Regularization for Multiband Imaging Inverse Problems ( http://arxiv.org/abs/2306.17197v1 ) ライセンス: Link先を確認 | Min Zhao, Nicolas Dobigeon, Jie Chen | (参考訳) モデルに基づく定式化を採用する場合、多バンドイメージングで発生する逆問題を解くには、空間的およびスペクトル的正規化を定義する必要がある。
文献のほとんどの作品において、スペクトル情報は直接観測から抽出され、データ駆動スペクトル先行を導出する。
逆に、空間正規化の選択は、しばしば、再構成された画像(例えば、区分定数)の期待される特徴を促進する従来のペナリゼーション(例えば、全変動)の使用によって沸騰する。
本研究では,高空間分解能の補助的獲得を活かし,データ駆動型空間正規化を導出するための汎用フレームワークを提案する。
このアプローチは、高度な特徴を抽出する深層学習の能力を活用する。
より正確には、この空間解像度の補助画像に含まれる空間意味的特徴を符号化できる深層生成ネットワークとして、正規化が考え出される。
このアプローチの汎用性を説明するために、マルチバンド画像融合とマルチバンド画像塗装という2つの特定のタスクをインスタンス化する。
これら2つのタスクで得られた実験結果から,従来のタスクと比較して情報正規化の利点が示された。 When adopting a model-based formulation, solving inverse problems encountered in multiband imaging requires to define spatial and spectral regularizations. In most of the works of the literature, spectral information is extracted from the observations directly to derive data-driven spectral priors. Conversely, the choice of the spatial regularization often boils down to the use of conventional penalizations (e.g., total variation) promoting expected features of the reconstructed image (e.g., piecewise constant). In this work, we propose a generic framework able to capitalize on an auxiliary acquisition of high spatial resolution to derive tailored data-driven spatial regularizations. This approach leverages on the ability of deep learning to extract high level features. More precisely, the regularization is conceived as a deep generative network able to encode spatial semantic features contained in this auxiliary image of high spatial resolution. To illustrate the versatility of this approach, it is instantiated to conduct two particular tasks, namely multiband image fusion and multiband image inpainting. Experimental results obtained on these two tasks demonstrate the benefit of this class of informed regularizations when compared to more conventional ones. | 翻訳日:2023-07-03 14:31:45 公開日:2023-06-29 |
# 初期フォールトトレラント量子アルゴリズムの性能のモデル化 Modeling the Performance of Early Fault-Tolerant Quantum Algorithms ( http://arxiv.org/abs/2306.17235v1 ) ライセンス: Link先を確認 | Qiyao Liang, Yiqing Zhou, Archismita Dalal, and Peter D. Johnson | (参考訳) フォールトトレラント量子計算(FTQC)の進歩は、初期のフォールトトレラント量子コンピュータ(EFTQC)による実用的な応用の追求を促している。
これらのデバイスは、キュービット数とフォールトトレランス能力に制限があり、eftqcアルゴリズムとして知られるある程度のエラーを許容するアルゴリズムを必要とする。
初期の量子優位性の開始を予測するためには、IFTQCアルゴリズムを開発し解析し、ノイズの多い中間スケール量子(NISQ)法と従来のFTQC法の両方から洞察を得るための包括的な方法論が必要である。
そこで本研究では,ETTQCデバイス上でのアルゴリズム性能を,誤差の度合いに応じてモデル化する手法を提案する。
本研究では,位相推定のためのEFTQCアルゴリズムであるランダム化フーリエ推定(RFE)の性能解析に本手法を適用した。
従来の量子位相推定アルゴリズムと比較して, RFEの動作性能と耐障害性について検討した。
解析の結果、RFEはより高い実行時上限を持ちながら、物理量子ビット数の大幅な削減を実現していることがわかった。
EFTQCデバイスの性能に関するより現実的な仮定を考えると、さらに大きな物理量子ビットの節約が期待できる。
EFTQCアルゴリズムの性能トレードオフとリソース要件に関する洞察を提供することで、我々の研究は量子優位への道筋における実用的で効率的な量子コンピューティングソリューションの開発に寄与する。 Progress in fault-tolerant quantum computation (FTQC) has driven the pursuit of practical applications with early fault-tolerant quantum computers (EFTQC). These devices, limited in their qubit counts and fault-tolerance capabilities, require algorithms that can accommodate some degrees of error, which are known as EFTQC algorithms. To predict the onset of early quantum advantage, a comprehensive methodology is needed to develop and analyze EFTQC algorithms, drawing insights from both the methodologies of noisy intermediate-scale quantum (NISQ) and traditional FTQC. To address this need, we propose such a methodology for modeling algorithm performance on EFTQC devices under varying degrees of error. As a case study, we apply our methodology to analyze the performance of Randomized Fourier Estimation (RFE), an EFTQC algorithm for phase estimation. We investigate the runtime performance and the fault-tolerant overhead of RFE in comparison to the traditional quantum phase estimation algorithm. Our analysis reveals that RFE achieves significant savings in physical qubit counts while having a much higher runtime upper bound. We anticipate even greater physical qubit savings when considering more realistic assumptions about the performance of EFTQC devices. By providing insights into the performance trade-offs and resource requirements of EFTQC algorithms, our work contributes to the development of practical and efficient quantum computing solutions on the path to quantum advantage. | 翻訳日:2023-07-03 14:23:47 公開日:2023-06-29 |
# スーパーセレクションルール、量子エラー補正、および量子クロモダイナミックス Superselection Rules, Quantum Error Correction, and Quantum Chromodynamics ( http://arxiv.org/abs/2306.17230v1 ) ライセンス: Link先を確認 | Ning Bao, ChunJun Cao, Aidan Chatwin-Davies, Gong Cheng, Guanyu Zhu | (参考訳) スーパー選択ルールと量子誤り訂正符号の関係について検討する。
スーパー選択規則の存在は、量子誤差補正におけるニールラフラム条件を暗示する。
例えば、量子誤差補正のレンズを通して量子色力学を調べ、そこではモデル内の陽子状態と中性子状態が、論理情報を保護する異なる超選択セクタとして探求される。
最後に、このフレームワーク内のトポロジカル量子誤差補正符号と超対称量子場理論について述べる。 We investigate the relationship between superselection rules and quantum error correcting codes. We demonstrate that the existence of a superselection rule implies the Knill-Laflamme condition in quantum error correction. As an example, we examine quantum chromodynamics through the lens of quantum error correction, where the proton and neutron states in the model are explored as different superselection sectors that protect logical information. Finally we comment on topological quantum error correcting codes and supersymmetric quantum field theory within this framework. | 翻訳日:2023-07-03 14:23:22 公開日:2023-06-29 |
# ゆるやかに駆動される量子系における量子幾何と散逸の境界 Quantum geometry and bounds on dissipation in slowly driven quantum systems ( http://arxiv.org/abs/2306.17220v1 ) ライセンス: Link先を確認 | Iliya Esin, \'Etienne Lantagne-Hurtubise, Frederik Nathan, Gil Refael | (参考訳) 準断熱的に駆動される量子系の熱浴に弱結合したエネルギーの散逸は、問題の量子幾何学によって特徴づけられる多様体上の軌跡の記述を許容することを示す。
2段階の系では、この記述は量子計量を伴い、エネルギーの散逸とベリー曲率との接続をさらに示唆する。
その結果、二音非共役駆動によってゆっくりと駆動される系では、散逸速度は2つの音間の位相的エネルギー変換を記述する整数に比例する(ある種の対称性条件が尊重される)。
これらの結果は、最適な駆動プロトコルを開発するための設計原則を提供する。 We show that the dissipation of energy in quasi-adiabatically driven quantum systems weakly coupled to a heat bath admits a description in terms of trajectories on a manifold characterized by the quantum geometry of the problem. For two-level systems, this description involves the quantum metric, further implying a connection between energy dissipation and the Berry curvature. As a consequence, we demonstrate that in systems slowly driven by a two-tone incommensurate drive, the dissipation rate has a lower bound proportional to an integer describing topological energy conversion between the two tones (provided certain symmetry conditions are respected). These results provide a design principle towards developing optimal driving protocols. | 翻訳日:2023-07-03 14:23:15 公開日:2023-06-29 |
# リタードアクションの行列積状態符号化による平衡量子不純物問題 Equilibrium Quantum Impurity Problems via Matrix Product State Encoding of the Retarded Action ( http://arxiv.org/abs/2306.17216v1 ) ライセンス: Link先を確認 | Benedikt Kloss, Julian Thoenniss, Michael Sonner, Alessio Lerose, Matthew T. Fishman, E. M. Stoudenmire, Olivier Parcollet, Antoine Georges, and Dmitry A. Abanin | (参考訳) 0+1$ 次元の虚時経路積分による量子不純物問題の定式化では、遅延作用は不純物と浴とのハイブリダイゼーションを符号化する。
本稿では,リタードされた動作を行列積状態(RAMPS)として表す計算能力について検討する。
我々は,非摂動的強相関効果が極めて低エネルギースケールで生じる単一不純物アンダーソンモデルの近藤体制に焦点をあてる。
逆温度の弱い電力法則としての数値誤差スケーリングを伴って,RAMPS のアプローチが様々な相互作用強度 (U$) で近藤政権に確実に到達できることを実証した。
本研究では,全相互作用問題における局所観測値の誤差を分析し,両パラメータの多項式スケーリングを求めることにより,結合次元および時間離散化に関する手法の収束挙動を検討した。
提案手法は,多軌道系などの確立された手法に挑戦する体制において,量子不純物問題を研究するための代替手段として,RAMPSアプローチが期待できることを示す。
本研究は、量子不純物問題に対する効率的かつ正確な非波動関数に基づくテンソルネットワーク法の開発に寄与する。 In the $0+1$ dimensional imaginary-time path integral formulation of quantum impurity problems, the retarded action encodes the hybridization of the impurity with the bath. In this Article, we explore the computational power of representing the retarded action as matrix product state (RAMPS). We focus on the challenging Kondo regime of the single-impurity Anderson model, where non-perturbative strong-correlation effects arise at very low energy scales. We demonstrate that the RAMPS approach reliably reaches the Kondo regime for a range of interaction strengths $U$, with a numerical error scaling as a weak power law with inverse temperature. We investigate the convergence behavior of the method with respect to bond dimension and time discretization by analyzing the error of local observables in the full interacting problem and find polynomial scaling in both parameters. Our results show that the RAMPS approach offers promise as an alternative tool for studying quantum impurity problems in regimes that challenge established methods, such as multi-orbital systems. Overall, our study contributes to the development of efficient and accurate non-wavefunction-based tensor-network methods for quantum impurity problems. | 翻訳日:2023-07-03 14:23:05 公開日:2023-06-29 |
# 高エネルギー物理における量子シミュレーションのための量子データ学習 Quantum data learning for quantum simulations in high-energy physics ( http://arxiv.org/abs/2306.17214v1 ) ライセンス: Link先を確認 | Lento Nagano, Alexander Miessen, Tamiya Onodera, Ivano Tavernelli, Francesco Tacchino, Koji Terashi | (参考訳) パラメトリック量子回路を用いた量子機械学習は、ノイズの多い量子プロセッサの早期応用として、過去数年間で大きな注目を集めている。
しかし, 実践的な学習課題において, 古典的課題よりも具体的な利点が得られる可能性はまだ実証されていない。
潜在的な利点を探求する有望な道は、量子力学系が生成し、本質的に量子力学形式で提示されるデータの学習である。
本稿では、高エネルギー物理学における実践的な問題への量子データ学習の適用性について検討し、量子モデルを用いるドメイン固有のユースケースを特定することを目的とする。
我々は1次元格子ゲージ理論と粒子物理学における現象量子場理論によって支配される量子状態を考える。
量子畳み込みニューラルネットワークに基づくアンサッツを用いて,シュウィンガーモデルにおいて基底状態の量子位相を認識できること,$\mathbb{z}_2$ゲージ理論において時間発展状態から(de)閉じ込め位相を認識できること,パートンシャワーの量子シミュレーションにおいてフェルミオンフレーバー/カップリング定数を抽出できることを数値的に示す。
これらのベンチマークで示される非自明な学習特性の観察は、高エネルギー物理学における量子データ学習アーキテクチャのさらなる探求の動機となる。 Quantum machine learning with parametrised quantum circuits has attracted significant attention over the past years as an early application for the era of noisy quantum processors. However, the possibility of achieving concrete advantages over classical counterparts in practical learning tasks is yet to be demonstrated. A promising avenue to explore potential advantages is the learning of data generated by quantum mechanical systems and presented in an inherently quantum mechanical form. In this article, we explore the applicability of quantum-data learning to practical problems in high-energy physics, aiming to identify domain specific use-cases where quantum models can be employed. We consider quantum states governed by one-dimensional lattice gauge theories and a phenomenological quantum field theory in particle physics, generated by digital quantum simulations or variational methods to approximate target states. We make use of an ansatz based on quantum convolutional neural networks and numerically show that it is capable of recognizing quantum phases of ground states in the Schwinger model, (de)confinement phases from time-evolved states in the $\mathbb{Z}_2$ gauge theory, and that it can extract fermion flavor/coupling constants in a quantum simulation of parton shower. The observation of non-trivial learning properties demonstrated in these benchmarks will motivate further exploration of the quantum-data learning architecture in high-energy physics. | 翻訳日:2023-07-03 14:22:44 公開日:2023-06-29 |
# 物理のための散乱スペクトルモデル Scattering Spectra Models for Physics ( http://arxiv.org/abs/2306.17210v1 ) ライセンス: Link先を確認 | Sihao Cheng, Rudy Morel, Erwan Allys, Brice M\'enard, St\'ephane Mallat | (参考訳) 物理学者は、パラメータ推論やフィールドの新たな実現など、多くのタスクに対して確率モデルを必要とする。
非ガウス場に対してそのようなモデルを確立することは、特にサンプル数が限られている場合には難しい。
本稿では、定常場に対する散乱スペクトルモデルを導入し、物理学における幅広い分野の正確な統計的記述とロバストな記述を提供することを示す。
これらのモデルは散乱係数の共分散、すなわち点分解率と結合した場のウェーブレット分解に基づいている。
回転およびスケーリング中のフィールドの規則性を利用して有用な次元の縮小を導入し、これらのモデルを様々なマルチスケールの物理場上で検証し、空間モーメントを含む標準統計を4階まで再現することを示した。
これらの散乱スペクトルは、幅広い物理界で遭遇する重要な特性を捉える低次元の構造化表現をもたらす。
これらのジェネリックモデルは、データ探索、分類、パラメータ推論、対称性検出、コンポーネント分離に使用できる。 Physicists routinely need probabilistic models for a number of tasks such as parameter inference or the generation of new realizations of a field. Establishing such models for highly non-Gaussian fields is a challenge, especially when the number of samples is limited. In this paper, we introduce scattering spectra models for stationary fields and we show that they provide accurate and robust statistical descriptions of a wide range of fields encountered in physics. These models are based on covariances of scattering coefficients, i.e. wavelet decomposition of a field coupled with a point-wise modulus. After introducing useful dimension reductions taking advantage of the regularity of a field under rotation and scaling, we validate these models on various multi-scale physical fields and demonstrate that they reproduce standard statistics, including spatial moments up to 4th order. These scattering spectra provide us with a low-dimensional structured representation that captures key properties encountered in a wide range of physical fields. These generic models can be used for data exploration, classification, parameter inference, symmetry detection, and component separation. | 翻訳日:2023-07-03 14:22:21 公開日:2023-06-29 |
# センチネル2時系列データによる小麦イノシラストと窒素欠乏の高精度かつ説明可能な識別のための高速フーリエ畳み込みニューラルネットワーク A Fast Fourier Convolutional Deep Neural Network For Accurate and Explainable Discrimination Of Wheat Yellow Rust And Nitrogen Deficiency From Sentinel-2 Time-Series Data ( http://arxiv.org/abs/2306.17207v1 ) ライセンス: Link先を確認 | Yue Shi, Liangxiu Han, Pablo Gonz\'alez-Moreno, Darren Dancey, Wenjiang Huang, Zhiqiang Zhang, Yuanyuan Liu, Mengning Huan, Hong Miao and Min Dai | (参考訳) 植物ストレスの正確かつタイムリーな検出は、収量保護に不可欠であり、よりよい介入戦略を可能にする。
近年のリモートセンシングと深層学習の進歩は、植物ストレスの非侵襲的検出を、完全に自動化され再現可能な方法で迅速に行う大きな可能性を示している。
しかし、既存のモデルは常にいくつかの課題に直面している。
1) 同様の症状を有する異なるストレス間の計算能の非効率と誤分類
2) ホスト-ストレス相互作用の解釈性は低かった。
本研究は,イエローラストと窒素欠乏症(Wheat Yellow Rust and Nitrogen Deficiency)の2つの植物ストレスの正確かつ説明可能な検出のための高速フーリエ畳み込みニューラルネットワーク(FFDNN)を提案する。
具体的には、既存のCNNモデルとは異なり、提案モデルの主なコンポーネントは以下のとおりである。
1 高速フーリエ畳み込みブロック、新しい高速フーリエ変換カーネルを基本認識ユニットとし、従来の畳み込みカーネルを代替し、様々な時間スケールで植物ストレスに対する局所的及び大域的応答を捕捉し、フーリエ領域における学習パラメータの削減による計算効率の向上を図る。
2) 抽出された特徴を一連のベクトル特徴にカプセル化するカプセル特徴エンコーダは, 特定の応力のホスト・ストレス相互作用の階層構造との関係を表す。
また、過剰適合を緩和するため、光化学植生指標に基づくフィルタを前処理演算子として、入力されたセンチネル-2時系列から非光化学ノイズを除去する。 Accurate and timely detection of plant stress is essential for yield protection, allowing better-targeted intervention strategies. Recent advances in remote sensing and deep learning have shown great potential for rapid non-invasive detection of plant stress in a fully automated and reproducible manner. However, the existing models always face several challenges: 1) computational inefficiency and the misclassifications between the different stresses with similar symptoms; and 2) the poor interpretability of the host-stress interaction. In this work, we propose a novel fast Fourier Convolutional Neural Network (FFDNN) for accurate and explainable detection of two plant stresses with similar symptoms (i.e. Wheat Yellow Rust And Nitrogen Deficiency). Specifically, unlike the existing CNN models, the main components of the proposed model include: 1) a fast Fourier convolutional block, a newly fast Fourier transformation kernel as the basic perception unit, to substitute the traditional convolutional kernel to capture both local and global responses to plant stress in various time-scale and improve computing efficiency with reduced learning parameters in Fourier domain; 2) Capsule Feature Encoder to encapsulate the extracted features into a series of vector features to represent part-to-whole relationship with the hierarchical structure of the host-stress interactions of the specific stress. In addition, in order to alleviate over-fitting, a photochemical vegetation indices-based filter is placed as pre-processing operator to remove the non-photochemical noises from the input Sentinel-2 time series. | 翻訳日:2023-07-03 14:22:05 公開日:2023-06-29 |
# FarSight:広い距離と高度で物理駆動の全身生体計測システム FarSight: A Physics-Driven Whole-Body Biometric System at Large Distance and Altitude ( http://arxiv.org/abs/2306.17206v1 ) ライセンス: Link先を確認 | Feng Liu, Ryan Ashbaugh, Nicholas Chimitt, Najmul Hassan, Ali Hassani, Ajay Jaiswal, Minchul Kim, Zhiyuan Mao, Christopher Perry, Zhiyuan Ren, Yiyang Su, Pegah Varghaei, Kai Wang, Xingguang Zhang, Stanley Chan, Arun Ross, Humphrey Shi, Zhangyang Wang, Anil Jain and Xiaoming Liu | (参考訳) 全身生体認証は、法執行機関、国境警備、および監視における膨大な応用のために重要な研究分野である。
本稿では,全身(顔,歩行,身体形状の融合)バイオメトリック認識のための革新的なソフトウェアシステムであるfarsightの設計,開発,評価を行う。
FarSightは、高層プラットフォームやドローンからのビデオを入力として受け入れ、ギャラリーから候補者のIDリストを出力する。
このシステムは、いくつかの課題に対処するために設計されている。
(i)低画質の画像
(ii)大きなヨーとピッチアングル。
(iii)人内変動が大きい場合と人間類似度が大きい場合のロバストな特徴抽出
(iv) トレーニングとテストセットの間の大きなドメイン間ギャップ。
farsightは、画像の物理とディープラーニングモデルを組み合わせて、画像復元と生体機能エンコーディングを強化している。
我々は新たに取得したIARPAバイオメトリック認識とAltitude and Range (BRIAR)データセットを用いてFarSightの有効性を検証する。
特に、FarSightはBRIARデータセットの大幅なパフォーマンス向上を示し、+11.82%のランク-20識別と+11.3%のTAR@1% FARが得られた。 Whole-body biometric recognition is an important area of research due to its vast applications in law enforcement, border security, and surveillance. This paper presents the end-to-end design, development and evaluation of FarSight, an innovative software system designed for whole-body (fusion of face, gait and body shape) biometric recognition. FarSight accepts videos from elevated platforms and drones as input and outputs a candidate list of identities from a gallery. The system is designed to address several challenges, including (i) low-quality imagery, (ii) large yaw and pitch angles, (iii) robust feature extraction to accommodate large intra-person variabilities and large inter-person similarities, and (iv) the large domain gap between training and test sets. FarSight combines the physics of imaging and deep learning models to enhance image restoration and biometric feature encoding. We test FarSight's effectiveness using the newly acquired IARPA Biometric Recognition and Identification at Altitude and Range (BRIAR) dataset. Notably, FarSight demonstrated a substantial performance increase on the BRIAR dataset, with gains of +11.82% Rank-20 identification and +11.3% TAR@1% FAR. | 翻訳日:2023-07-03 14:21:39 公開日:2023-06-29 |
# 連続確率ダイナミクスを用いた学習環境モデル Learning Environment Models with Continuous Stochastic Dynamics ( http://arxiv.org/abs/2306.17204v1 ) ライセンス: Link先を確認 | Martin Tappler and Edi Mu\v{s}kardin and Bernhard K. Aichernig and Bettina K\"onighofer | (参考訳) 複雑な環境における制御タスクを学習を通じて自動的に解決することは大きな可能性を秘めている。
深層強化学習(DRL)による現代技術は効果的な解法を提供するが、その決定は透明ではない。
エージェントの制御下での環境行動のオートマトンモデルを学ぶことにより,エージェントが直面する意思決定に対する洞察を提供することを目的とする。
しかし、ほとんどの制御問題では、自動学習は有用なモデルを学ぶのに十分ではない。
本研究では,複雑で連続的なダイナミクスを持つ環境のモデルを学ぶことができるように,自動学習の能力を高める。
本手法のスケーラビリティのコアは,観測された環境空間に次元的縮小とクラスタリングを適用することで,抽象的な状態空間表現の計算にある。
確率遷移は、エージェントと環境の観察された相互作用から受動的オートマトン学習によって学習される。
反復モデルに基づくRLプロセスでは、離散状態マルコフ決定プロセス(MDP)の形式で正確な環境モデルを学ぶために追加の軌道をサンプリングする。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
その結果,学習したモデルが非常に正確であることから,各制御タスクを解くポリシーの計算を可能にした。
しかし、モデルはニューラルネットワークベースのポリシーよりも簡潔で汎用的であり、MDPを使用することで、分析に利用可能な豊富なツールの恩恵を受けることができる。
LunarLanderのタスクを解くとき、学習モデルは、安定したベースライン3で学んだ深いRLポリシーよりも、類似または高い報酬を達成さえした。 Solving control tasks in complex environments automatically through learning offers great potential. While contemporary techniques from deep reinforcement learning (DRL) provide effective solutions, their decision-making is not transparent. We aim to provide insights into the decisions faced by the agent by learning an automaton model of environmental behavior under the control of an agent. However, for most control problems, automata learning is not scalable enough to learn a useful model. In this work, we raise the capabilities of automata learning such that it is possible to learn models for environments that have complex and continuous dynamics. The core of the scalability of our method lies in the computation of an abstract state-space representation, by applying dimensionality reduction and clustering on the observed environmental state space. The stochastic transitions are learned via passive automata learning from observed interactions of the agent and the environment. In an iterative model-based RL process, we sample additional trajectories to learn an accurate environment model in the form of a discrete-state Markov decision process (MDP). We apply our automata learning framework on popular RL benchmarking environments in the OpenAI Gym, including LunarLander, CartPole, Mountain Car, and Acrobot. Our results show that the learned models are so precise that they enable the computation of policies solving the respective control tasks. Yet the models are more concise and more general than neural-network-based policies and by using MDPs we benefit from a wealth of tools available for analyzing them. When solving the task of LunarLander, the learned model even achieved similar or higher rewards than deep RL policies learned with stable-baselines3. | 翻訳日:2023-07-03 14:21:22 公開日:2023-06-29 |
# Diff-Foley:潜時拡散モデルを用いたビデオとオーディオの同期合成 Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models ( http://arxiv.org/abs/2306.17203v1 ) ライセンス: Link先を確認 | Simian Luo, Chuanhao Yan, Chenxu Hu, Hang Zhao | (参考訳) video-to-audio(v2a)モデルは、最近、サイレントビデオ、特にビデオ/フィルム制作から直接音声を生成する実践的応用で注目を集めている。
しかし、V2Aの従来の手法は、時間同期と音声・視覚的関連性の観点からは、生成品質が限られていた。
そこで本稿では,遅延拡散モデル(ldm)を用いた映像から音声への同期合成法であるdiff-foleyを提案する。
コントラッシブ・オーディオ・ビジュアル・プレトレーニング(CAVP)を用いて、より時間的・意味的に整合した特徴を学習し、スペクトル潜在空間上でCAVPに整合した視覚特徴を持つLCMを訓練する。
cavp対応の機能により、ldmはクロスアテンションモジュールを介してより微妙なオーディオと視覚の相関を捉えることができる。
さらに,「二重ガイダンス」によりサンプル品質を著しく改善する。
Diff-Foleyは、現在の大規模V2Aデータセットで最先端のV2Aパフォーマンスを達成する。
さらに,下流微調整によるdiff-foleyの実用的適用可能性と一般化能力を示す。
プロジェクトページ: https://diff-foley.github.io/ The Video-to-Audio (V2A) model has recently gained attention for its practical application in generating audio directly from silent videos, particularly in video/film production. However, previous methods in V2A have limited generation quality in terms of temporal synchronization and audio-visual relevance. We present Diff-Foley, a synchronized Video-to-Audio synthesis method with a latent diffusion model (LDM) that generates high-quality audio with improved synchronization and audio-visual relevance. We adopt contrastive audio-visual pretraining (CAVP) to learn more temporally and semantically aligned features, then train an LDM with CAVP-aligned visual features on spectrogram latent space. The CAVP-aligned features enable LDM to capture the subtler audio-visual correlation via a cross-attention module. We further significantly improve sample quality with `double guidance'. Diff-Foley achieves state-of-the-art V2A performance on current large scale V2A dataset. Furthermore, we demonstrate Diff-Foley practical applicability and generalization capabilities via downstream finetuning. Project Page: see https://diff-foley.github.io/ | 翻訳日:2023-07-03 14:20:59 公開日:2023-06-29 |
# disasterresponsegpt: 災害対応シナリオにおける行動開発計画の高速化のための大規模言語モデル DisasterResponseGPT: Large Language Models for Accelerated Plan of Action Development in Disaster Response Scenarios ( http://arxiv.org/abs/2306.17271v1 ) ライセンス: Link先を確認 | Vinicius G. Goecks, Nicholas R. Waytowich | (参考訳) 災害対応シナリオにおける行動計画の開発は、時間のかかるプロセスである。
大規模言語モデル(LLM)は、コンテキスト内学習を通じてこのプロセスを迅速化する強力なソリューションを提供する。
本研究は,災害対応と計画指針を初期プロンプトに組み込むことで,LCMを利用して有効な行動計画を生成するアルゴリズムであるDerma ResponseGPTを提案する。
DisasterResponseGPTでは、ユーザーはシナリオ記述を入力し、アクションプランを出力として受け取る。
提案手法は数秒で複数のプランを生成し,ユーザのフィードバックに従ってさらに改良することができる。
予備的な結果は,災害対応GPTによって開発された行動計画が人為的な行動に匹敵するものであるとともに,リアルタイムな修正が容易であることを示している。
このアプローチは、計画実行中に迅速な更新と調整を可能にすることで、災害対応運用に革命をもたらす可能性がある。 The development of plans of action in disaster response scenarios is a time-consuming process. Large Language Models (LLMs) offer a powerful solution to expedite this process through in-context learning. This study presents DisasterResponseGPT, an algorithm that leverages LLMs to generate valid plans of action quickly by incorporating disaster response and planning guidelines in the initial prompt. In DisasterResponseGPT, users input the scenario description and receive a plan of action as output. The proposed method generates multiple plans within seconds, which can be further refined following the user's feedback. Preliminary results indicate that the plans of action developed by DisasterResponseGPT are comparable to human-generated ones while offering greater ease of modification in real-time. This approach has the potential to revolutionize disaster response operations by enabling rapid updates and adjustments during the plan's execution. | 翻訳日:2023-07-03 14:12:49 公開日:2023-06-29 |
# 階層学習による高速かつロバストな状態推定と追跡 Fast and Robust State Estimation and Tracking via Hierarchical Learning ( http://arxiv.org/abs/2306.17267v1 ) ライセンス: Link先を確認 | Connor Mclaughlin, Matthew Ding, Deniz Edogmus, Lili Su | (参考訳) 大規模マルチエージェントネットワークに対する完全な分散推定と追跡ソリューションは、収束が遅く、ネットワーク障害に弱い。
本稿では,エージェントがより小さなネットワークにクラスタ化され,パラメータサーバがネットワーク間の情報交換を支援する単純な階層型システムアーキテクチャを用いて,収束を高速化し,状態推定とトラッキングのレジリエンスを高めることを目的とする。
ネットワーク間の情報交換は高価であり、たまに一度だけ発生する。
状態推定問題と追跡問題それぞれについて,コンセンサス+イノベーションアルゴリズムを2つ提案する。
どちらのアルゴリズムでも,新しい階層型プッシュサムコンセンサスコンポーネントを使用する。
状態推定には、ローカルなイノベーションコンポーネントとして2重平均化を使用します。
状態トラッキングは、ダウンリンク障害の存在下での対処がはるかに難しく、コンセンサスとイノベーションのアプローチの標準統合はもはや適用できない。
さらに、二重平均化はもはや不可能である。
提案アルゴリズムでは,リンク毎に一対の追加変数を導入し,関連する局所変数が状態ダイナミクスに従って進化することを保証し,局所勾配勾配を局所的革新成分として用いる。
また、線形局所観測モデルと最小の技術的仮定の下で、両方のアルゴリズムの収束率を特徴付ける。
我々は,状態推定と追跡問題の両方のシミュレーションにより,我々のアルゴリズムを数値的に検証する。 Fully distributed estimation and tracking solutions to large-scale multi-agent networks suffer slow convergence and are vulnerable to network failures. In this paper, we aim to speed up the convergence and enhance the resilience of state estimation and tracking using a simple hierarchical system architecture wherein agents are clusters into smaller networks, and a parameter server exists to aid the information exchanges among networks. The information exchange among networks is expensive and occurs only once in a while. We propose two consensus + innovation algorithms for the state estimation and tracking problems, respectively. In both algorithms, we use a novel hierarchical push-sum consensus component. For the state estimation, we use dual averaging as the local innovation component. State tracking is much harder to tackle in the presence of dropping-link failures and the standard integration of the consensus and innovation approaches are no longer applicable. Moreover, dual averaging is no longer feasible. Our algorithm introduces a pair of additional variables per link and ensure the relevant local variables evolve according to the state dynamics, and use projected local gradient descent as the local innovation component. We also characterize the convergence rates of both of the algorithms under linear local observation model and minimal technical assumptions. We numerically validate our algorithm through simulation of both state estimation and tracking problems. | 翻訳日:2023-07-03 14:12:35 公開日:2023-06-29 |
# サファリングトースター Suffering Toasters ( http://arxiv.org/abs/2306.17258v1 ) ライセンス: Link先を確認 | Ira Wolfson | (参考訳) 人工知能(AI)の文脈における知性の定義は広く受け入れられている。
AIパラダイムやアーキテクチャ、ツールの急速な開発により、AIの意識が自然に生まれる可能性はかつてないほど高くなっています。
本稿では,現在行われているすべての知能検査は,人間が直感的に知覚する知能の存在や欠如を示すには不十分であると主張する。
我々は、科学哲学、心理学、その他の研究分野のアイデアを導き、人工知能、自己認識、機関の問題をより明確に定義する。
さらに,人工自己認識のための新しいヒューリスティックアプローチを提案し,その実装の概要を示す。
最後に,この新たなヒューリスティックから生じる,哲学的あるいは実装指向的な疑問について論じる。 A widely accepted definition of intelligence in the context of Artificial Intelligence (AI) still eludes us. Due to our exceedingly rapid development of AI paradigms, architectures, and tools, the prospect of naturally arising AI consciousness seems more likely than ever. In this paper, we claim that all current intelligence tests are insufficient to point to the existence or lack of intelligence \textbf{as humans intuitively perceive it}. We draw from ideas in the philosophy of science, psychology, and other areas of research to provide a clearer definition of the problems of artificial intelligence, self-awareness, and agency. We furthermore propose a new heuristic approach to test for artificial self-awareness and outline a possible implementation. Finally, we discuss some of the questions that arise from this new heuristic, be they philosophical or implementation-oriented. | 翻訳日:2023-07-03 14:12:16 公開日:2023-06-29 |
# マルチソース・トランスファー・ラーニングによるCOVID-19患者の緊急治療室再訪予測 Prediction of COVID-19 Patients' Emergency Room Revisit using Multi-Source Transfer Learning ( http://arxiv.org/abs/2306.17257v1 ) ライセンス: Link先を確認 | Yuelyu Ji, Yuhe Gao, Runxue Bao, Qi Li, Disheng Liu, Yiming Sun, Ye Ye | (参考訳) 新型コロナウイルス感染症(COVID-19)は、世界的な感染拡大を招いている。
新型コロナウイルスは高い感染率に加えて、無症状のキャリアーから重篤で致命的な健康合併症まで多種多様な臨床コースを持つことができる。
多くの患者は退院後短期間で救急室(er)を再診しなければならず、医療従事者の労働負荷を大幅に増加させる。
このような患者の早期発見は、医師が生命を危険にさらす患者を治療するのを助けるために重要である。
本研究では,2020年3月から2021年1月までにピッツバーグ大学メディカルセンター内の13のERから3,210件のElectronic Health Records(EHR)を入手した。
我々は,臨床概念を抽出するために自然言語処理技術であるScispaCyを活用し,最も頻繁な概念である1001を用いて,ER患者を対象とした7日間の再診モデルを開発した。
13のERから収集した研究データは、モデル開発に影響を与える可能性のある分布差があるかもしれない。
この問題に対処するために,domain adversarial neural network (dann)と呼ばれる古典的な深層伝達学習法を採用し,マルチダンアルゴリズム,シングルダンアルゴリズム,および3つのベースライン手法を含む異なるモデリング戦略を評価した。
その結果,Multi-DANNモデルは,退院後7日以内に新型コロナウイルス患者のERへの再入院を予測する上で,単一DANNモデルとベースラインモデルよりも優れていた。
特に、Multi-DANN戦略は、複数のソースドメイン間の不均一性を効果的に解決し、ターゲットドメインへのソースデータの適応を改善した。
また, マルチダンモデルの高性能化は, 退院後7日以内にerを再診する可能性が非常に高いcovid-19患者を識別するための予測モデルの開発において, ehrが有益であることを示している。 The coronavirus disease 2019 (COVID-19) has led to a global pandemic of significant severity. In addition to its high level of contagiousness, COVID-19 can have a heterogeneous clinical course, ranging from asymptomatic carriers to severe and potentially life-threatening health complications. Many patients have to revisit the emergency room (ER) within a short time after discharge, which significantly increases the workload for medical staff. Early identification of such patients is crucial for helping physicians focus on treating life-threatening cases. In this study, we obtained Electronic Health Records (EHRs) of 3,210 encounters from 13 affiliated ERs within the University of Pittsburgh Medical Center between March 2020 and January 2021. We leveraged a Natural Language Processing technique, ScispaCy, to extract clinical concepts and used the 1001 most frequent concepts to develop 7-day revisit models for COVID-19 patients in ERs. The research data we collected from 13 ERs may have distributional differences that could affect the model development. To address this issue, we employed a classic deep transfer learning method called the Domain Adversarial Neural Network (DANN) and evaluated different modeling strategies, including the Multi-DANN algorithm, the Single-DANN algorithm, and three baseline methods. Results showed that the Multi-DANN models outperformed the Single-DANN models and baseline models in predicting revisits of COVID-19 patients to the ER within 7 days after discharge. Notably, the Multi-DANN strategy effectively addressed the heterogeneity among multiple source domains and improved the adaptation of source data to the target domain. Moreover, the high performance of Multi-DANN models indicates that EHRs are informative for developing a prediction model to identify COVID-19 patients who are very likely to revisit an ER within 7 days after discharge. | 翻訳日:2023-07-03 14:12:03 公開日:2023-06-29 |
# プロンプトによるパーソナライズドコールドスタート勧告に向けて Towards Personalized Cold-Start Recommendation with Prompts ( http://arxiv.org/abs/2306.17256v1 ) ライセンス: Link先を確認 | Xuansheng Wu, Huachi Zhou, Wenlin Yao, Xiao Huang, Ninghao Liu | (参考訳) レコメンダシステムは,過去の行動に基づいて,ユーザの興味に沿った情報発見を支援する上で,重要な役割を担っている。
しかし、ユーザとコンテンツのインタラクションの履歴が利用できない場合、パーソナライズドレコメンデーションシステムの開発は困難になり、システムコールドスタートレコメンデーション問題として知られる問題に繋がる。
この問題は、ユーザーエンゲージメントが不十分なスタートアップ企業やプラットフォームで特に顕著である。
従来の研究では、新しいユーザやアイテムを推薦できるが、同じドメイン内の歴史的なユーザとイテムのインタラクションでトレーニングされているため、私たちの問題は解決できない。
このギャップを埋めるため,本研究では,事前学習した言語モデルの能力を活用した革新的かつ効果的なアプローチを提案する。
提案手法は,ユーザプロファイルや項目属性の情報を含む自然言語の感情分析に変換され,迅速な学習によって感情極性が予測される。
言語モデルに格納された広範な知識を利用することで、歴史的ユーザ・イテム相互作用の記録なしで予測を行うことができる。
また,提案手法を冷間開始条件下で評価するためのベンチマークも導入し,本手法の有効性を実証した。
私たちの知る限りでは、システムコールドスタートレコメンデーション問題に取り組む最初の研究である。
メソッドのベンチマークと実装はhttps://github.com/JacksonWuxs/PromptRec.comで公開されている。 Recommender systems play a crucial role in helping users discover information that aligns with their interests based on their past behaviors. However, developing personalized recommendation systems becomes challenging when historical records of user-item interactions are unavailable, leading to what is known as the system cold-start recommendation problem. This issue is particularly prominent in start-up businesses or platforms with insufficient user engagement history. Previous studies focus on user or item cold-start scenarios, where systems could make recommendations for new users or items but are still trained with historical user-item interactions in the same domain, which cannot solve our problem. To bridge the gap, our research introduces an innovative and effective approach, capitalizing on the capabilities of pre-trained language models. We transform the recommendation process into sentiment analysis of natural languages containing information of user profiles and item attributes, where the sentiment polarity is predicted with prompt learning. By harnessing the extensive knowledge housed within language models, the prediction can be made without historical user-item interaction records. A benchmark is also introduced to evaluate the proposed method under the cold-start setting, and the results demonstrate the effectiveness of our method. To the best of our knowledge, this is the first study to tackle the system cold-start recommendation problem. The benchmark and implementation of the method are available at https://github.com/JacksonWuxs/PromptRec. | 翻訳日:2023-07-03 14:11:32 公開日:2023-06-29 |
# sige発光器による偏光エンコードbb84qkd送信装置 Polarization-Encoded BB84 QKD Transmitter Sourced by a SiGe Light Emitter ( http://arxiv.org/abs/2306.17255v1 ) ライセンス: Link先を確認 | Florian Honz (1), Nemanja Vokic (1), Philip Walther (2), Hannes H\"ubel (1), Bernhard Schrenk (1) ((1) AIT Austrian Institute of Technology, (2) University of Vienna, Faculty of Physics) | (参考訳) sige光源で送信された偏光エンコードbb84送信器を実証し、そのような「全シリコン」qkdスキームが、秘密鍵が確立できるqberしきい値よりもかなり低く動作可能であることを示す。 We demonstrate a polarization-encoded BB84 transmitter sourced by a SiGe light source and show that such a potentially "all-silicon" QKD scheme can operate well below the QBER threshold at which secret keys can be established. | 翻訳日:2023-07-03 14:11:08 公開日:2023-06-29 |
# ゼロショットスケールアウェア単眼深度推定に向けて Towards Zero-Shot Scale-Aware Monocular Depth Estimation ( http://arxiv.org/abs/2306.17253v1 ) ライセンス: Link先を確認 | Vitor Guizilini, Igor Vasiljevic, Dian Chen, Rares Ambrus, Adrien Gaidon | (参考訳) 単分子深度推定はスケールあいまいであり、計量予測を生成するにはスケールの監督が必要である。
それでも、得られたモデルは幾何学的特化され、学習スケールはドメイン間で直接転送できない。
このため、最近の作品は相対的な深さに焦点を合わせ、スケールを回避し、アップ・ツー・スケールのゼロショット転送を改善した。
本稿では,異なる領域とカメラパラメータから任意のテスト画像のメートル法スケールを予測可能な,新しい単眼深度推定フレームワークであるzerodepthを紹介する。
これが達成される
(i)ネットワークがオブジェクトよりも先にスケールを学習できるようにする入力レベルの幾何学的埋め込みの使用。
2) エンコーダとデコーダのステージを、単一のフレーム情報に条件付けされた変分潜在表現を介して切り離す。
我々は,アウトドア(kitti,ddad,nuscenes)と屋内(nyuv2)のベンチマークを対象とするゼロディテールを評価し,同じ事前学習モデルを用いて両方の設定において,ドメイン内データをトレーニングし,メトリック推定を生成するためにテスト時間スケーリングを必要とする手法を上回って,新たな最先端の手法を実現した。 Monocular depth estimation is scale-ambiguous, and thus requires scale supervision to produce metric predictions. Even so, the resulting models will be geometry-specific, with learned scales that cannot be directly transferred across domains. Because of that, recent works focus instead on relative depth, eschewing scale in favor of improved up-to-scale zero-shot transfer. In this work we introduce ZeroDepth, a novel monocular depth estimation framework capable of predicting metric scale for arbitrary test images from different domains and camera parameters. This is achieved by (i) the use of input-level geometric embeddings that enable the network to learn a scale prior over objects; and (ii) decoupling the encoder and decoder stages, via a variational latent representation that is conditioned on single frame information. We evaluated ZeroDepth targeting both outdoor (KITTI, DDAD, nuScenes) and indoor (NYUv2) benchmarks, and achieved a new state-of-the-art in both settings using the same pre-trained model, outperforming methods that train on in-domain data and require test-time scaling to produce metric estimates. | 翻訳日:2023-07-03 14:11:02 公開日:2023-06-29 |
# 単純算術問題における体系的一般化のためのハイブリッドシステム A Hybrid System for Systematic Generalization in Simple Arithmetic Problems ( http://arxiv.org/abs/2306.17249v1 ) ライセンス: Link先を確認 | Flavio Petruzzellis, Alberto Testolin, Alessandro Sperduti | (参考訳) 構成性や体系性を必要とするシンボリック推論問題を解くことは、人間の知性の重要な要素の一つと考えられている。
しかし、シンボリック推論は、分散テストケースに推論パターンを一般化できないことが多いディープラーニングモデルにとって、依然として大きな課題である。
本研究では,記号列の合成と体系的推論を必要とする算術問題を解くことができるハイブリッドシステムを提案する。
モデルは、式が完全に解決されるまで入力文字列に反復的に適用される適切な置換規則を学習することで、そのようなスキルを得る。
提案システムは,最も単純なケースを含むサブセットのみを訓練しても,終末訓練されたシーケンス・ツー・シーケンス・モデルと最先端の大規模言語モデルの両方を著しく上回り,入れ子演算式を正確に解くことができることを示す。 Solving symbolic reasoning problems that require compositionality and systematicity is considered one of the key ingredients of human intelligence. However, symbolic reasoning is still a great challenge for deep learning models, which often cannot generalize the reasoning pattern to out-of-distribution test cases. In this work, we propose a hybrid system capable of solving arithmetic problems that require compositional and systematic reasoning over sequences of symbols. The model acquires such a skill by learning appropriate substitution rules, which are applied iteratively to the input string until the expression is completely resolved. We show that the proposed system can accurately solve nested arithmetical expressions even when trained only on a subset including the simplest cases, significantly outperforming both a sequence-to-sequence model trained end-to-end and a state-of-the-art large language model. | 翻訳日:2023-07-03 14:10:40 公開日:2023-06-29 |
# 温室効果ガス: 地域大気温度の生成モデル TemperatureGAN: Generative Modeling of Regional Atmospheric Temperatures ( http://arxiv.org/abs/2306.17248v1 ) ライセンス: Link先を確認 | Emmanuel Balogun, Robert Buechler, Ram Rajagopal, and Arun Majumdar | (参考訳) 確率的発電機は様々な分野の気候影響を推定するのに有用である。
エネルギーシステムなど、様々な分野における気候リスクを投影するには、正確な(統計的に地面と似ている)発電機、信頼できる(誤った例を生まない)、効率のよい発電機が必要である。
北米陸地データ同化システム(north american land data assimilation system)のデータを活用し,月,場所,期間を条件とした生成的逆境ネットワークである temperaturegan を導入し,地上2mの気温を1時間当たりの解像度で生成する。
生成したサンプルの品質を測定するための評価手法と指標を提案する。
本研究では,温度GANが日周期に整合した空間的表現と時間的ダイナミクスを有する高忠実度例を生成することを示す。 Stochastic generators are useful for estimating climate impacts on various sectors. Projecting climate risk in various sectors, e.g. energy systems, requires generators that are accurate (statistical resemblance to ground-truth), reliable (do not produce erroneous examples), and efficient. Leveraging data from the North American Land Data Assimilation System, we introduce TemperatureGAN, a Generative Adversarial Network conditioned on months, locations, and time periods, to generate 2m above ground atmospheric temperatures at an hourly resolution. We propose evaluation methods and metrics to measure the quality of generated samples. We show that TemperatureGAN produces high-fidelity examples with good spatial representation and temporal dynamics consistent with known diurnal cycles. | 翻訳日:2023-07-03 14:10:24 公開日:2023-06-29 |
# ベクトルボソン散乱におけるベルの不等式と量子絡み合いの探索 Exploring Bell inequalities and quantum entanglement in vector boson scattering ( http://arxiv.org/abs/2306.17247v1 ) ライセンス: Link先を確認 | R. A. Morales | (参考訳) 本稿では,ベクトルボソン散乱$V'_1V'_2\to V_1V_2$の量子的性質について述べる。
解析は、標準モデル内の対応する木レベル振幅の計算により、最終状態$v_1 v_2$に関連付けられた分極密度行列の構成に基づいている。
この研究の目的は、散乱結果の後に最後のベクトルボゾンが絡み合う位相空間の領域を決定することであり、その領域におけるベルの不等式をテストできるかどうかを確かめることである。
あらゆるケースで絡み合いが存在することが分かりました。
その量はプロセスによって異なり、最大エンタングル状態は特定のチャネルで到達される。
ベルの不等式については、$W^+ W^-\to\gamma\gamma$ が最も有望なベクトルボソン散乱過程である。
この研究は、この種のプロセスにおけるこれらの量子特性の分析の第一歩であり、量子トモグラフィー技術を用いたモンテカルロシミュレーションによる実験データから偏極密度行列と関連する量子パラメータの再構成を後々の研究に延期する。 Quantum properties of vector boson scattering $V'_1V'_2\to V_1 V_2$, related to entanglement and violation of Bell inequalities, are explored in this paper. The analysis is based on the construction of the polarization density matrix associated to the final state $V_1 V_2$ by means of the computation of the corresponding tree level amplitudes within the Standard Model. The aim of this work is to determine the regions of the phase space where the final vector bosons after the scattering result entangled and if is it possible to test the Bell inequalities in those regions. We found that in all cases the entanglement is present. The amount of it depends on the process and the Maximally Entangled state is reached in some particular channels. Concerning the Bell inequality, we conclude that $W^+ W^-\to\gamma\gamma$ is the most promising vector boson scattering process for testing it. This work is a first step in the analysis of these quantum properties for this kind of processes and it is postponed for future studies the reconstruction of the polarization density matrix and the related quantum parameters from experimental data through Monte-Carlo simulations using quantum tomography techniques. | 翻訳日:2023-07-03 14:10:11 公開日:2023-06-29 |
# 細胞内ダイヤモンド量子センサを用いたナノロメトリとナノサーモメトリの同時計測 Simultaneous nanorheometry and nanothermometry using intracellular diamond quantum sensors ( http://arxiv.org/abs/2306.17306v1 ) ライセンス: Link先を確認 | Qiushi Gu, Louise Shanahan, Jack W. Hart, Sophia Belser, Noah Shofer, Mete Atature and Helena S. Knowles | (参考訳) 細胞質の粘弾性は細胞の形態と分裂において重要な役割を果たす。
平行して、局所温度は粘弾性と結合し、細胞バイオエネルギーに影響を及ぼす。
細胞内温度と粘弾性の相互依存性を示すことは、代謝と疾患の進行を研究するエキサイティングな機会となる。
本稿では,動的セル環境下でのナノスケール温度測定とレオメトリーを同時に行うことができるデュアルモード量子センサを提案する。
本手法は, ナノダイヤモンド中の窒素空孔中心を用いて, 流体環境下でのサブ回折分解能単一粒子追跡と光検出磁気共鳴分光を組み合わせた。
複合媒体における温度依存性粘弾性のナノスケールセンシングを実証する。
次に,生体細胞の細胞内力と細胞質レオロジーの相互作用を調べるためにセンサを用いて,活性輸送とナノスケール粘弾性の詳細を明らかにする。 Viscoelasticity of the cytoplasm plays a critical role in cell morphology and division. In parallel, local temperature is coupled to viscoelasticity and influences cellular bioenergetics. Probing the interdependence of intracellular temperature and viscoelasticity provides an exciting opportunity for the study of metabolism and disease progression. Here, we present a dual-mode quantum sensor, capable of performing simultaneous nanoscale thermometry and rheometry in a dynamic cellular environment. Our technique uses nitrogen-vacancy centres in nanodiamond, combining sub-diffraction resolution single-particle tracking in a fluidic environment with optically detected magnetic resonance spectroscopy. We demonstrate nanoscale sensing of temperature-dependent viscoelasticity in complex media. We then use our sensor to investigate the interplay between intracellular forces and cytoplasmic rheology in live cells, revealing details of active trafficking and nanoscale viscoelasticity. | 翻訳日:2023-07-03 14:04:27 公開日:2023-06-29 |
# 自律走行のためのロバストな路面認識:合成データを用いた注釈なし戦略 Robust Roadside Perception for Autonomous Driving: an Annotation-free Strategy with Synthesized Data ( http://arxiv.org/abs/2306.17302v1 ) ライセンス: Link先を確認 | Rusheng Zhang, Depu Meng, Lance Bassett, Shengyin Shen, Zhengxia Zou, Henry X. Liu | (参考訳) 近年,車両間通信技術の急速な発展に伴い,協調運転のためのインフラベース道路側認識システムが注目されている。
本稿では、データ不足問題という最も重要な課題の1つに焦点を当てる。
高品質なラベル付き道路側センサデータの多様性の欠如は、現在の道路側認識システムのロバスト性、低転送性をもたらす。
本稿では,Augmented Reality and Generative Adversarial Networkを用いた学習データの作成により,この問題に対処する新しい手法を提案する。
この方法は、異なる気象や照明条件にロバストな路側知覚検出器を訓練または微調整することができる合成データセットを作成し、新しい展開位置を適応させる。
mcity 交差点と state st/ellsworth rd roundabout という2つの交差点でアプローチを検証する。
実験の結果,(1) 合成データのみを学習した場合の全ての条件において良好な性能が得られ,(2) ラベル付きデータで訓練した既存の検出器の性能は,厳しい条件下での合成データにより向上できることがわかった。 Recently, with the rapid development in vehicle-to-infrastructure communication technologies, the infrastructure-based, roadside perception system for cooperative driving has become a rising field. This paper focuses on one of the most critical challenges - the data-insufficiency problem. The lacking of high-quality labeled roadside sensor data with high diversity leads to low robustness, and low transfer-ability of current roadside perception systems. In this paper, a novel approach is proposed to address this problem by creating synthesized training data using Augmented Reality and Generative Adversarial Network. This method creates synthesized dataset that is capable of training or fine-tuning a roadside perception detector which is robust to different weather and lighting conditions, or to adapt a new deployment location. We validate our approach at two intersections: Mcity intersection and State St/Ellsworth Rd roundabout. Our experiments show that (1) the detector can achieve good performance in all conditions when trained on synthesized data only, and (2) the performance of an existing detector trained with labeled data can be enhanced by synthesized data in harsh conditions. | 翻訳日:2023-07-03 14:04:14 公開日:2023-06-29 |
# 浅層ネットワークが高周波の近似と学習に苦戦する理由:数値的研究 Why Shallow Networks Struggle with Approximating and Learning High Frequency: A Numerical Study ( http://arxiv.org/abs/2306.17301v1 ) ライセンス: Link先を確認 | Shijun Zhang, Hongkai Zhao, Yimin Zhong, Haomin Zhou | (参考訳) 本研究では,解析と実験を含む包括的数値実験により,機械の精度と計算コストが実運用において重要な要因である場合の近似と学習において,2層ニューラルネットワークが高周波数を扱うのになぜ困難かを示す。
特に,(1)有限の機械精度を得られる最良の精度,(2)与えられた精度を達成するための計算コスト,(3)摂動に対する安定性など,基本的な計算問題について検討した。
この研究の鍵は、活性化関数の対応するグラム行列のスペクトル解析であり、また、活性化関数の性質が画像にどのように作用するかを示す。 In this work, a comprehensive numerical study involving analysis and experiments shows why a two-layer neural network has difficulties handling high frequencies in approximation and learning when machine precision and computation cost are important factors in real practice. In particular, the following fundamental computational issues are investigated: (1) the best accuracy one can achieve given a finite machine precision, (2) the computation cost to achieve a given accuracy, and (3) stability with respect to perturbations. The key to the study is the spectral analysis of the corresponding Gram matrix of the activation functions which also shows how the properties of the activation function play a role in the picture. | 翻訳日:2023-07-03 14:03:54 公開日:2023-06-29 |
# tube2vec: youtubeチャンネルのソーシャルでセマンティックな埋め込み Tube2Vec: Social and Semantic Embeddings of YouTube Channels ( http://arxiv.org/abs/2306.17298v1 ) ライセンス: Link先を確認 | L\'eopaul Boesinger, Manoel Horta Ribeiro, Veniamin Veselovsky, Robert West | (参考訳) YouTubeデータを用いた研究は、しばしばチャンネルやビデオの社会的・意味的な次元を探索する。
典型的には、分析はコンテンツやコンテンツクリエーターの手間のかかる手動アノテーションに依存しており、キーワード検索のような低リコールメソッドでしばしば見られる。
ここでは,機械学習によって得られた潜在表現(埋め込み)を用いて,代替手法を検討する。
Redditで共有されているYouTubeリンクの大規模なデータセットを使用して、ソーシャル共有行動、ビデオメタデータ(タイトル、説明など)、YouTubeのビデオレコメンデーションをキャプチャする埋め込みを作成します。
クラウドソーシングと既存のデータセットを用いてこれらの埋め込みを評価し,ソーシャルとセマンティックの両方の次元を捉える上で,レコメンデーションの埋め込みが優れていることを発見した。
私たちは、将来の研究の恩恵を受けるために、44,000のyoutubeチャンネルの社会的および意味的な次元をキャプチャする埋め込みを共有している。 Research using YouTube data often explores social and semantic dimensions of channels and videos. Typically, analyses rely on laborious manual annotation of content and content creators, often found by low-recall methods such as keyword search. Here, we explore an alternative approach, using latent representations (embeddings) obtained via machine learning. Using a large dataset of YouTube links shared on Reddit; we create embeddings that capture social sharing behavior, video metadata (title, description, etc.), and YouTube's video recommendations. We evaluate these embeddings using crowdsourcing and existing datasets, finding that recommendation embeddings excel at capturing both social and semantic dimensions, although social-sharing embeddings better correlate with existing partisan scores. We share embeddings capturing the social and semantic dimensions of 44,000 YouTube channels for the benefit of future research on YouTube: https://github.com/epfl-dlab/youtube-embeddings. | 翻訳日:2023-07-03 14:03:41 公開日:2023-06-29 |
# コヒーレントループ状態と角運動量 Coherent loop states and angular momentum ( http://arxiv.org/abs/2306.17293v1 ) ライセンス: Link先を確認 | Bruce Bartlett and Nzaganya Nzaganya | (参考訳) ボーア=ソマーフェルト状態は SU(2) の既約表現の文脈で研究する。
これらの状態は、角運動量の古典的記述と量子的記述の間に正確な橋渡しを与える。
物理学で用いられる角運動量固有状態の通常の基底を復元し、任意のコヒーレントループ状態の内積の漸近性について、ボツウィック、ポール、ウリベの式の設定において自己完結した証明を与える。
応用として、これらの状態を用いて、ウィグナー行列要素の漸近に対するリトルジョンとユの幾何公式を導出する。 We study Bohr-Sommerfeld states in the context of the irreducible representations of SU(2). These states offer a precise bridge between the classical and quantum descriptions of angular momentum. We show that they recover the usual basis of angular momentum eigenstates used in physics, and give a self-contained proof in this setting of the formula of Bothwick, Paul and Uribe for the asymptotics of the inner product of arbitrary coherent loop states. As an application, we use these states to derive Littlejohn and Yu's geometric formula for the asymptotics of the Wigner matrix elements. | 翻訳日:2023-07-03 14:03:26 公開日:2023-06-29 |
# オープンドメイントピックの分類に向けて Towards Open-Domain Topic Classification ( http://arxiv.org/abs/2306.17290v1 ) ライセンス: Link先を確認 | Hantian Ding, Jinrui Yang, Yuqian Deng, Hongming Zhang, Dan Roth | (参考訳) ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、webインターフェースから即座に応答を得られるようになります。
このような柔軟性を得るために、バックエンドモデルをゼロショットで構築する。
wikipediaから構築された新しいデータセットをトレーニングすることで、ラベル認識テキスト分類器は、トレーニング済みの言語モデルの暗黙の知識を効果的に活用して、これまで見たことのないラベルを処理することができます。
ラベルセットの異なるドメインから4つのデータセットにまたがるモデルを評価する。
実験により、オープンドメインシナリオにおける既存のゼロショットベースラインよりも大幅に改善され、ドメイン内のデータに基づいてトレーニングされた弱い教師付きモデルと競合することが示された。 We introduce an open-domain topic classification system that accepts user-defined taxonomy in real time. Users will be able to classify a text snippet with respect to any candidate labels they want, and get instant response from our web interface. To obtain such flexibility, we build the backend model in a zero-shot way. By training on a new dataset constructed from Wikipedia, our label-aware text classifier can effectively utilize implicit knowledge in the pretrained language model to handle labels it has never seen before. We evaluate our model across four datasets from various domains with different label sets. Experiments show that the model significantly improves over existing zero-shot baselines in open-domain scenarios, and performs competitively with weakly-supervised models trained on in-domain data. | 翻訳日:2023-07-03 14:03:08 公開日:2023-06-29 |
# 丸い容量の不等式に対するニューラルネットワーク分離アルゴリズム A Neural Separation Algorithm for the Rounded Capacity Inequalities ( http://arxiv.org/abs/2306.17283v1 ) ライセンス: Link先を確認 | Hyeonah Kim and Jinkyoo Park and Changhyun Kwon | (参考訳) 切削平面法は、様々な車両経路問題(vrps)の最適解を求める分岐・切削・分岐価格・切削アルゴリズムを成功させる鍵となる手法である。
様々なカットのうち、丸い容量の不等式(rcis)が最も基本的なものである。
rcisを生成するには、正確な解を得るのに時間がかかる分離問題を解く必要があるため、ヒューリスティックな手法が広く使われている。
グラフニューラルネットワーク(gnn)を用いて,厳密な分離問題の解法を学習するグラフ粗粒化を用いた,学習に基づく分離ヒューリスティックアルゴリズムを設計した。
分離アルゴリズムを切断平面法に組み込んで,最大1,000人の顧客を抱えた静電容量VRP(CVRP)の低いバウンドを求める。
CVRPSEPは,VRPの解決に使用される様々なカットのための,一般的な分離ソフトウェアパッケージである。
計算結果から,CVRPSEPは400人以上の顧客を抱える大規模問題に対して,CVRPSEPよりも低い限界が得られ,CVRPSEPは400人未満の問題に対して高い能力を示した。 The cutting plane method is a key technique for successful branch-and-cut and branch-price-and-cut algorithms that find the exact optimal solutions for various vehicle routing problems (VRPs). Among various cuts, the rounded capacity inequalities (RCIs) are the most fundamental. To generate RCIs, we need to solve the separation problem, whose exact solution takes a long time to obtain; therefore, heuristic methods are widely used. We design a learning-based separation heuristic algorithm with graph coarsening that learns the solutions of the exact separation problem with a graph neural network (GNN), which is trained with small instances of 50 to 100 customers. We embed our separation algorithm within the cutting plane method to find a lower bound for the capacitated VRP (CVRP) with up to 1,000 customers. We compare the performance of our approach with CVRPSEP, a popular separation software package for various cuts used in solving VRPs. Our computational results show that our approach finds better lower bounds than CVRPSEP for large-scale problems with 400 or more customers, while CVRPSEP shows strong competency for problems with less than 400 customers. | 翻訳日:2023-07-03 14:02:49 公開日:2023-06-29 |
# 大規模言語モデルを用いた並列プログラムのモデリング Modeling Parallel Programs using Large Language Models ( http://arxiv.org/abs/2306.17281v1 ) ライセンス: Link先を確認 | Daniel Nichols, Aniruddha Marathe, Harshitha Menon, Todd Gamblin, Abhinav Bhatele | (参考訳) ハイパフォーマンスコンピューティング(HPC)における並列ソフトウェアコードは、エクサスケール時代に入るにつれて、複雑さとスケールが増し続けている。
多様なハードウェアとプログラミングパラダイムによって、並列ソフトウェアの開発、最適化、保守が開発者の負担になる。
これらの負担を軽減する方法のひとつは、自動開発と分析ツールだ。
このようなツールは、生産性を高め、エラーの可能性を減らす開発者のために、複雑で/または改善的なタスクを実行することができる。
これまでのところ、コード開発やパフォーマンス分析のためのツールは、実行可能なタスクの複雑さに制限されている。
しかし、近年の言語モデリングの進歩と、現在オンラインで利用できるコード関連データの豊富さにより、これらのツールは予測言語モデルを利用してより複雑なタスクを自動化するようになった。
本稿では,大規模言語モデル(LLM)が,高性能および科学的コードに特有のタスクにどのように適用できるかを示す。
並列コードに特有のコードとパフォーマンスデータを用いてLCMをトレーニングする。
我々は、HPC関連タスクにおける最近のLLMを比較し、並列コードで訓練された新しいモデルHPC-Coderを導入する。
実験では,一般モデルでは不可能なHPC関数の自動補完,OpenMPプラグマを用いたループのデコレーション,および2つの科学応用リポジトリにおける性能変化のモデル化が可能であることを示す。 Parallel software codes in high performance computing (HPC) continue to grow in complexity and scale as we enter the exascale era. A diverse set of emerging hardware and programming paradigms make developing, optimizing, and maintaining parallel software burdensome for developers. One way to alleviate some of these burdens is with automated development and analysis tools. Such tools can perform complex and/or remedial tasks for developers that increase their productivity and decrease the chance for error. So far, such tools for code development and performance analysis have been limited in the complexity of tasks they can perform. However, with recent advancements in language modeling, and the wealth of code related data that is now available online, these tools have started to utilize predictive language models to automate more complex tasks. In this paper, we show how large language models (LLMs) can be applied to tasks specific to high performance and scientific codes. We train LLMs using code and performance data that is specific to parallel codes. We compare several recent LLMs on HPC related tasks and introduce a new model, HPC-Coder, trained on parallel code. In our experiments we show that this model can auto-complete HPC functions where general models cannot, decorate for loops with OpenMP pragmas, and model performance changes in two scientific application repositories. | 翻訳日:2023-07-03 14:02:13 公開日:2023-06-29 |
# 安全臨界強化学習のための確率的制約 Probabilistic Constraint for Safety-Critical Reinforcement Learning ( http://arxiv.org/abs/2306.17279v1 ) ライセンス: Link先を確認 | Weiqin Chen, Dharmashankar Subramanian and Santiago Paternain | (参考訳) 本稿では,確率的制約付き強化学習(RL)における安全な政策学習の問題について考察する。
具体的には、安全なポリシーまたはコントローラは、高い確率で与えられた安全なセットにおいてエージェントの軌道を維持するものである。
我々は,この確率的制約条件と,既存の文献でよく研究される累積制約条件とを関連づける。
我々は、確率的制約条件が最適性と安全性(制約満足度)の観点からより良いトレードオフをもたらすことを解明する理論的境界を提供する。
この研究で明らかになったように、確率的制約を扱う際に遭遇する課題は、勾配に対する明示的な表現がないことから生じる。
当社の先行研究は,spg-reinforce(safe policy gradient-reinforce)と呼ぶ,確率的制約に対する明示的な勾配表現を提供する。
本研究では, SPG-Actor-Critic を改良し, SPG-REINFORCE よりも低分散に導いた。
両方のSPGの注目すべき点は、固有のアルゴリズムの独立性であり、様々なポリシーベースのアルゴリズムにまたがって応用できる。
さらに,両SPGを用いて安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
その後、アルゴリズムの収束を包含する理論分析と、平均におけるほぼ最適性と実現可能性を含む理論分析が続く。
さらに,提案手法を実験実験によって検証した。
これらの実験は, 最適性と安全性のトレードオフを検証・解析し, 2つのSPGの有効性と, 理論的貢献を実証することを目的としている。 In this paper, we consider the problem of learning safe policies for probabilistic-constrained reinforcement learning (RL). Specifically, a safe policy or controller is one that, with high probability, maintains the trajectory of the agent in a given safe set. We establish a connection between this probabilistic-constrained setting and the cumulative-constrained formulation that is frequently explored in the existing literature. We provide theoretical bounds elucidating that the probabilistic-constrained setting offers a better trade-off in terms of optimality and safety (constraint satisfaction). The challenge encountered when dealing with the probabilistic constraints, as explored in this work, arises from the absence of explicit expressions for their gradients. Our prior work provides such an explicit gradient expression for probabilistic constraints which we term Safe Policy Gradient-REINFORCE (SPG-REINFORCE). In this work, we provide an improved gradient SPG-Actor-Critic that leads to a lower variance than SPG-REINFORCE, which is substantiated by our theoretical results. A noteworthy aspect of both SPGs is their inherent algorithm independence, rendering them versatile for application across a range of policy-based algorithms. Furthermore, we propose a Safe Primal-Dual algorithm that can leverage both SPGs to learn safe policies. It is subsequently followed by theoretical analyses that encompass the convergence of the algorithm, as well as the near-optimality and feasibility on average. In addition, we test the proposed approaches by a series of empirical experiments. These experiments aim to examine and analyze the inherent trade-offs between the optimality and safety, and serve to substantiate the efficacy of two SPGs, as well as our theoretical contributions. | 翻訳日:2023-07-03 14:01:39 公開日:2023-06-29 |
# 電子スピンダイオードにおける磁気ノイズ保護状態による量子センシング Quantum sensing via magnetic-noise-protected states in an electronic spin dyad ( http://arxiv.org/abs/2306.17273v1 ) ライセンス: Link先を確認 | Carlos A. Meriles, Pablo R. Zangara, and Daniela Pagliero | (参考訳) 量子ビットのコヒーレンス寿命を延ばすことは量子技術の実装と展開の中心であり、特に物質ホストに固有の様々なノイズ源が限界的な役割を果たす固体においてである。
ここでは,非ゼロ結晶場と常磁性中心S'=1/2に近接するスピンS=1で形成されるヘテロスピン系のコヒーレントスピンダイナミクスを理論的に検討する。
我々はdyadの特異エネルギー準位構造に乗じて磁場非感受性遷移周波数に関連する2つの準位を同定し、理論的にはそれらの間のゼロ量子コヒーレンスが著しく長寿命であることを示す。
さらに、これらのコヒーレンスは「局所的」に選択的に敏感であり、「球状」な磁場変動とは対照的であり、これらのスピンダイアドは精密磁力計のナノスケール勾配計や磁気ノイズのない電気測定および熱センシングのプローブとして利用することができることを示唆している。 Extending the coherence lifetime of a qubit is central to the implementation and deployment of quantum technologies, particularly in the solid-state where various noise sources intrinsic to the material host play a limiting role. Here, we theoretically investigate the coherent spin dynamics of a hetero-spin system formed by a spin S=1 featuring a non-zero crystal field and in proximity to a paramagnetic center S'=1/2. We capitalize on the singular energy level structure of the dyad to identify pairs of levels associated to magnetic-field-insensitive transition frequencies, and theoretically show that the zero-quantum coherences we create between them can be remarkably long-lived. Further, we find these coherences are selectively sensitive to 'local' - as opposed to 'global' - field fluctuations, suggesting these spin dyads could be exploited as nanoscale gradiometers for precision magnetometry or as probes for magnetic-noise-free electrometry and thermal sensing. | 翻訳日:2023-07-03 14:01:14 公開日:2023-06-29 |
# ブロックチェーンベースのフェデレーション学習とデータプライバシに関する調査 A Survey on Blockchain-Based Federated Learning and Data Privacy ( http://arxiv.org/abs/2306.17338v1 ) ライセンス: Link先を確認 | Bipin Chhetri, Saroj Gopali, Rukayat Olapojoye, Samin Dehbash, Akbar Siami Namin | (参考訳) フェデレーテッド・ラーニング(Federated Learning)は、複数のクライアントがローカルな計算能力とモデルの伝達を活用することでコラボレーションできる分散機械学習パラダイムである。
この手法は、不均一デバイスにトレーニングデータを分散することにより、データプライバシを確保しつつ、集中型機械学習手法に関連するコストとプライバシの懸念を軽減する。
一方で、フェデレーション学習は、ストレージ、転送、共有に使用されるプライバシ保護機構が欠如しているため、データ所有者やサプライヤにとって大きなリスクとなるため、データ漏洩の欠点がある。
ブロックチェーン技術は、特にIndustrial Internet of Things(IIoT)設定において、フェデレーションラーニングにおいてセキュアなデータ共有プラットフォームを提供するための有望な技術として登場した。
この調査は、ブロックチェーンベースのフェデレーション学習アーキテクチャで採用されているさまざまなデータプライバシメカニズムのパフォーマンスとセキュリティを比較することを目的としている。
ブロックチェーン技術が提供するフェデレーション学習のためのセキュアなデータ共有プラットフォームに関する既存の文献を体系的にレビューし、ブロックチェーンベースのフェデレーション学習とその必須構成要素、その原則と潜在的な応用について詳細に概観する。
本調査の主な貢献は,ブロックチェーンに基づくフェデレーション学習における重要な研究課題を特定し,今後の研究の方向性を提案することである。 Federated learning is a decentralized machine learning paradigm that allows multiple clients to collaborate by leveraging local computational power and the models transmission. This method reduces the costs and privacy concerns associated with centralized machine learning methods while ensuring data privacy by distributing training data across heterogeneous devices. On the other hand, federated learning has the drawback of data leakage due to the lack of privacy-preserving mechanisms employed during storage, transfer, and sharing, thus posing significant risks to data owners and suppliers. Blockchain technology has emerged as a promising technology for offering secure data-sharing platforms in federated learning, especially in Industrial Internet of Things (IIoT) settings. This survey aims to compare the performance and security of various data privacy mechanisms adopted in blockchain-based federated learning architectures. We conduct a systematic review of existing literature on secure data-sharing platforms for federated learning provided by blockchain technology, providing an in-depth overview of blockchain-based federated learning, its essential components, and discussing its principles, and potential applications. The primary contribution of this survey paper is to identify critical research questions and propose potential directions for future research in blockchain-based federated learning. | 翻訳日:2023-07-03 13:52:42 公開日:2023-06-29 |
# 医療リスク予測のための診断不確かさモデル Diagnosis Uncertain Models For Medical Risk Prediction ( http://arxiv.org/abs/2306.17337v1 ) ライセンス: Link先を確認 | Alexander Peysakhovich, Rich Caruana, Yin Aphinyanaphongs | (参考訳) 生命徴候,検査値,既往歴などの患者特徴にアクセスするが,患者の診断にはアクセスできない患者リスクモデルを検討する。
例えば、トリアージの目的でintake timeにデプロイされたモデルで発生する。
このような「すべての原因」リスクモデルは、診断をまたがる優れた一般化であるが、予測可能な障害モードを有することを示す。
同じラボ/ヴィタル/ヒストリープロファイルが異なるリスクプロファイル(例えば、E.coli vs. MRSA)で診断できる場合、リスク推定は2つのプロファイルの確率重み付き平均である。
これは稀であるが非常にリスクの高い診断のリスクを過小評価する。
患者診断の不確実性から生じるリスク予測の不確実性を明示的にモデル化し,この問題に対する対策を提案する。
これにより、実践者は単一のリスク番号を超えた患者のリスクを理解することができる。 We consider a patient risk models which has access to patient features such as vital signs, lab values, and prior history but does not have access to a patient's diagnosis. For example, this occurs in a model deployed at intake time for triage purposes. We show that such `all-cause' risk models have good generalization across diagnoses but have a predictable failure mode. When the same lab/vital/history profiles can result from diagnoses with different risk profiles (e.g. E.coli vs. MRSA) the risk estimate is a probability weighted average of these two profiles. This leads to an under-estimation of risk for rare but highly risky diagnoses. We propose a fix for this problem by explicitly modeling the uncertainty in risk prediction coming from uncertainty in patient diagnoses. This gives practitioners an interpretable way to understand patient risk beyond a single risk number. | 翻訳日:2023-07-03 13:52:20 公開日:2023-06-29 |
# 凸解析とODEを用いた安定ニューラルネットワークの設計 Designing Stable Neural Networks using Convex Analysis and ODEs ( http://arxiv.org/abs/2306.17332v1 ) ライセンス: Link先を確認 | Ferdia Sherry, Elena Celledoni, Matthias J. Ehrhardt, Davide Murari, Brynjulf Owren, Carola-Bibiane Sch\"onlieb | (参考訳) 通常の微分方程式の数値積分に関する古典的な研究により、重みのスペクトルノルムが適切に制約されている限り、非膨張(1-Lipschitz)作用素を符号化するResNetスタイルのニューラルネットワークアーキテクチャを提案する。
これは、たとえ重みのスペクトルノルムが制約されているとしても、最悪の場合、ネットワークの深さとともに指数関数的に成長するリプシッツ定数を持つ通常のResNetアーキテクチャとは対照的である。
提案アーキテクチャのさらなる解析により,ネットワークが平均演算子であることを保証するため,重みのスペクトルノルムがさらに制約されることが示され,Plug-and-Playアルゴリズムにおいて学習されたデノイザの自然な候補となる。
スペクトルノルム制約を適応的に強制する新しい手法を用いて,これらの制約を伴っても,性能ネットワークを訓練することは可能であることを示す。
提案手法は, 逆ロバストな画像分類の問題, 画像のデノージング問題, そして最後にデブラーリングの逆問題に適用できる。 Motivated by classical work on the numerical integration of ordinary differential equations we present a ResNet-styled neural network architecture that encodes non-expansive (1-Lipschitz) operators, as long as the spectral norms of the weights are appropriately constrained. This is to be contrasted with the ordinary ResNet architecture which, even if the spectral norms of the weights are constrained, has a Lipschitz constant that, in the worst case, grows exponentially with the depth of the network. Further analysis of the proposed architecture shows that the spectral norms of the weights can be further constrained to ensure that the network is an averaged operator, making it a natural candidate for a learned denoiser in Plug-and-Play algorithms. Using a novel adaptive way of enforcing the spectral norm constraints, we show that, even with these constraints, it is possible to train performant networks. The proposed architecture is applied to the problem of adversarially robust image classification, to image denoising, and finally to the inverse problem of deblurring. | 翻訳日:2023-07-03 13:52:08 公開日:2023-06-29 |
# Kernel $\epsilon$-Greedy for Contextual Bandits Kernel $\epsilon$-Greedy for Contextual Bandits ( http://arxiv.org/abs/2306.17329v1 ) ライセンス: Link先を確認 | Sakshi Arya and Bharath K. Sriperumbudur | (参考訳) 我々はコンテキスト・バンディットのための$\epsilon$-greedy戦略のカーネル化バージョンを検討する。
より正確には、有限個の腕を持つ集合において、平均報酬関数は再生核ヒルベルト空間(RKHS)にあると考える。
報酬関数に対するオンライン重み付きカーネルリッジ回帰推定器を提案する。
探索確率列 $\{\epsilon_t\}_t$ と正規化パラメータ $\{\lambda_t\}_t$ の選択に関するいくつかの条件の下で、提案する推定器が一貫していることを示す。
また、カーネルと対応するRKHSの任意の選択に対して、RKHSの内在次元に依存するサブ線形後悔率が得られることを示す。
さらに、有限次元 RKHS のマージン条件下での最適後悔率 $\sqrt{T}$ を達成する。 We consider a kernelized version of the $\epsilon$-greedy strategy for contextual bandits. More precisely, in a setting with finitely many arms, we consider that the mean reward functions lie in a reproducing kernel Hilbert space (RKHS). We propose an online weighted kernel ridge regression estimator for the reward functions. Under some conditions on the exploration probability sequence, $\{\epsilon_t\}_t$, and choice of the regularization parameter, $\{\lambda_t\}_t$, we show that the proposed estimator is consistent. We also show that for any choice of kernel and the corresponding RKHS, we achieve a sub-linear regret rate depending on the intrinsic dimensionality of the RKHS. Furthermore, we achieve the optimal regret rate of $\sqrt{T}$ under a margin condition for finite-dimensional RKHS. | 翻訳日:2023-07-03 13:51:49 公開日:2023-06-29 |
# 状態空間削減と入力セグメンテーションによるDNN解析のためのスケーリングモデル検査(拡張版) Scaling Model Checking for DNN Analysis via State-Space Reduction and Input Segmentation (Extended Version) ( http://arxiv.org/abs/2306.17323v1 ) ライセンス: Link先を確認 | Mahum Naseer and Osman Hasan and Muhammad Shafique | (参考訳) その優れた学習能力と実世界のアプリケーションの性能により、ニューラルネットワーク(nns)に基づく機械学習システムの利用は継続的に増加している。
しかし、文献における様々なケーススタディと経験的知見は、nn入力のわずかな変化が誤動作や望ましくないnn行動につながる可能性を示唆している。
これは、あるNNの行動に関する保証を提供することを目的として、公式な分析にかなりの関心を惹き付けている。
既存のフレームワークは、トレーニングされたNNに対して、満足度解決と線形プログラミングを使用して堅牢性と/または安全性を保証する。
我々は、幅広いNN特性を分析するための最初のモデルチェックベースのフレームワークであるFANNetを提案した。
しかし、モデルチェックに関連する状態空間の爆発はスケーラビリティの問題を引き起こし、FANNetは小さなNNにのみ適用できる。
本研究は,形式的NN解析のスケーラビリティとタイミング効率を向上させるために,状態空間の削減と入力セグメンテーション手法を開発する。
最先端のFANNetと比較して、我々の新しいモデルチェックベースのフレームワークは、検証の時間オーバーヘッドを最大8000倍に減らし、約80ドル以上のネットワークパラメータを持つNNに適用できる。
これにより、FANNetにすでに含まれているすべてのNNプロパティに加えて、新しいフレームワークを使用してNN安全性プロパティの分析が可能になる。
このフレームワークは、医療データセットとよく認識されているACAS Xu NNでトレーニングされたNNの特性を効率的に分析できることが示されている。 Owing to their remarkable learning capabilities and performance in real-world applications, the use of machine learning systems based on Neural Networks (NNs) has been continuously increasing. However, various case studies and empirical findings in the literature suggest that slight variations to NN inputs can lead to erroneous and undesirable NN behavior. This has led to considerable interest in their formal analysis, aiming to provide guarantees regarding a given NN's behavior. Existing frameworks provide robustness and/or safety guarantees for the trained NNs, using satisfiability solving and linear programming. We proposed FANNet, the first model checking-based framework for analyzing a broader range of NN properties. However, the state-space explosion associated with model checking entails a scalability problem, making the FANNet applicable only to small NNs. This work develops state-space reduction and input segmentation approaches, to improve the scalability and timing efficiency of formal NN analysis. Compared to the state-of-the-art FANNet, this enables our new model checking-based framework to reduce the verification's timing overhead by a factor of up to 8000, making the framework applicable to NNs even with approximately $80$ times more network parameters. This in turn allows the analysis of NN safety properties using the new framework, in addition to all the NN properties already included with FANNet. The framework is shown to be efficiently able to analyze properties of NNs trained on healthcare datasets as well as the well--acknowledged ACAS Xu NNs. | 翻訳日:2023-07-03 13:51:34 公開日:2023-06-29 |
# Citations as Queries:Rerankerとして言語モデルを用いたソース属性 Citations as Queries: Source Attribution Using Language Models as Rerankers ( http://arxiv.org/abs/2306.17322v1 ) ライセンス: Link先を確認 | Ryan Muther and David Smith | (参考訳) 本稿では,様々な言語モデルを微調整して,テキストの書き直しに使用したソースを探索する手法について検討する。
ベースラインBM25検索モデルを用いて候補ソースを検索した後、ソース属性のタスクにおける有効性を確認するために、様々な順位付け手法をテストする。
英語ウィキペディアと中世アラビア語歴史書の2つのデータセットについて実験を行い,様々な検索と生成に基づくリストラモデルを用いて実験を行った。
特に,様々なリレーティングモデルの性能に及ぼす監督の程度の影響について理解することを目指す。
半教師付きメソッドは、ターゲット文書とソース文書の潜在的にコストのかかるスパンレベルのアノテーションを避けながら、完全に教師付きメソッドとほぼ同等に効果的であることがわかった。 This paper explores new methods for locating the sources used to write a text, by fine-tuning a variety of language models to rerank candidate sources. After retrieving candidates sources using a baseline BM25 retrieval model, a variety of reranking methods are tested to see how effective they are at the task of source attribution. We conduct experiments on two datasets, English Wikipedia and medieval Arabic historical writing, and employ a variety of retrieval and generation based reranking models. In particular, we seek to understand how the degree of supervision required affects the performance of various reranking models. We find that semisupervised methods can be nearly as effective as fully supervised methods while avoiding potentially costly span-level annotation of the target and source documents. | 翻訳日:2023-07-03 13:51:09 公開日:2023-06-29 |
# 視覚効果のためのトレーニングフリー神経マット抽出 Training-Free Neural Matte Extraction for Visual Effects ( http://arxiv.org/abs/2306.17321v1 ) ライセンス: Link先を確認 | Sharif Elcott, J.P. Lewis, Nori Kanazawa, Christoph Bregler | (参考訳) alpha mattingはビデオ会議や映画、テレビ、ソーシャルメディアサイトで広く使われている。
マット抽出問題に対するディープラーニングアプローチは、一貫した主題(正面の人間)のためにビデオ会議に適しているが、トレーニングベースのアプローチは、さまざまな主題(宇宙船、モンスターなど)が1本の映画にわずか数回しか現れないエンターテイメントビデオには、ある程度無意味である。
視覚効果生成の仮定を特に対象とする,トレーニングフリーの高品質なニューラルネットワーク抽出手法を提案する。
我々のアプローチは、ディープニューラルネットワークを最適化して単一のイメージに適合させ、特定のイメージのディープエンコーディングを提供するディープイメージに基づいています。
我々は、ペナルティメート層における表現を用いて、粗く不完全な「トリマップ」制約を補間する。
このアプローチで処理されたビデオは時間的に一貫性がある。
アルゴリズムは非常にシンプルで驚くほど効果的です。 Alpha matting is widely used in video conferencing as well as in movies, television, and social media sites. Deep learning approaches to the matte extraction problem are well suited to video conferencing due to the consistent subject matter (front-facing humans), however training-based approaches are somewhat pointless for entertainment videos where varied subjects (spaceships, monsters, etc.) may appear only a few times in a single movie -- if a method of creating ground truth for training exists, just use that method to produce the desired mattes. We introduce a training-free high quality neural matte extraction approach that specifically targets the assumptions of visual effects production. Our approach is based on the deep image prior, which optimizes a deep neural network to fit a single image, thereby providing a deep encoding of the particular image. We make use of the representations in the penultimate layer to interpolate coarse and incomplete "trimap" constraints. Videos processed with this approach are temporally consistent. The algorithm is both very simple and surprisingly effective. | 翻訳日:2023-07-03 13:50:55 公開日:2023-06-29 |
# ReMaX: 効率的なパノプティカルセグメンテーションのトレーニングを改善するための緩和 ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation ( http://arxiv.org/abs/2306.17319v1 ) ライセンス: Link先を確認 | Shuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr, Liang-Chieh Chen | (参考訳) 本稿では,効率の良いパンオプティカルセグメンテーションのためのマスクトランスフォーマの訓練を容易にする新しいメカニズムを提案する。
我々は、その複雑さが高いため、汎視的セグメンテーションの訓練目的が必然的に偽陽性のペナル化につながることを観察した。
このような不均衡な損失は、特に効率的なモデルにおいて、エンドツーエンドのマスク変換器ベースのアーキテクチャのトレーニングプロセスを難しくする。
本稿では,汎視的セグメンテーションのトレーニング中にマスク予測とクラス予測に緩和を加えたReMaXを提案する。
トレーニング中のこれらの単純な緩和手法により、我々のモデルは推論に余分な計算コストを課すことなく、明確なマージン \textbf{without} によって一貫して改善できることを示した。
提案手法をMobileNetV3-Smallのような効率的なバックボーンと組み合わせることで,COCO,ADE20K,Cityscapes上での効率的なパノプティックセグメンテーションを実現する。
コードと事前トレーニングされたチェックポイントは、 \url{https://github.com/google-research/deeplab2}で入手できる。 This paper presents a new mechanism to facilitate the training of mask transformers for efficient panoptic segmentation, democratizing its deployment. We observe that due to its high complexity, the training objective of panoptic segmentation will inevitably lead to much higher false positive penalization. Such unbalanced loss makes the training process of the end-to-end mask-transformer based architectures difficult, especially for efficient models. In this paper, we present ReMaX that adds relaxation to mask predictions and class predictions during training for panoptic segmentation. We demonstrate that via these simple relaxation techniques during training, our model can be consistently improved by a clear margin \textbf{without} any extra computational cost on inference. By combining our method with efficient backbones like MobileNetV3-Small, our method achieves new state-of-the-art results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes. Code and pre-trained checkpoints will be available at \url{https://github.com/google-research/deeplab2}. | 翻訳日:2023-07-03 13:50:36 公開日:2023-06-29 |
# spectator qubitsによる雑音検出と量子特性工学 Noise Detection with Spectator Qubits and Quantum Feature Engineering ( http://arxiv.org/abs/2103.13018v2 ) ライセンス: Link先を確認 | Akram Youssry, Gerardo A. Paz-Silva, Christopher Ferrie | (参考訳) ノイズの量子ビットを目標状態へ駆動する最適制御パルスの設計は、量子工学にとって困難かつ重要な課題である。
システムに影響を及ぼす量子ノイズの特性が動的である場合、モデルの更新を確実にするための周期的特徴付け手順が不可欠である。
その結果、キュービットの動作が頻繁に中断される。
本稿では,この課題に対処するプロトコルとして,spectator qubitを用いて雑音をリアルタイムに監視する手法を提案する。
我々は,このプロトコルを設計するための機械学習に基づく量子特徴工学手法を開発した。
プロトコルの複雑さは、量子計算中のリアルタイム実行を可能にするキャラクタリゼーションフェーズでフロントロードされる。
本稿では,プロトコルの良好な性能を示す数値シミュレーションの結果を示す。 Designing optimal control pulses that drive a noisy qubit to a target state is a challenging and crucial task for quantum engineering. In a situation where the properties of the quantum noise affecting the system are dynamic, a periodic characterization procedure is essential to ensure the models are updated. As a result, the operation of the qubit is disrupted frequently. In this paper, we propose a protocol that addresses this challenge by making use of a spectator qubit to monitor the noise in real-time. We develop a machine-learning-based quantum feature engineering approach for designing the protocol. The complexity of the protocol is front-loaded in a characterization phase, which allow real-time execution during the quantum computations. We present the results of numerical simulations that showcase the favorable performance of the protocol. | 翻訳日:2023-06-30 19:50:06 公開日:2023-06-29 |
# 不均一変形補償ネットワークによる学習ビデオ圧縮 Learned Video Compression via Heterogeneous Deformable Compensation Network ( http://arxiv.org/abs/2207.04589v3 ) ライセンス: Link先を確認 | Huairui Wang, Zhenzhong Chen, Chang Wen Chen | (参考訳) 学習されたビデオ圧縮は、動画圧縮技術の発展において重要な研究テーマとして最近登場しており、動き補償は最も難しい問題の一つであると考えられている。
本稿では,一大変形性カーネルのダウンサンプリング機能領域における不安定な圧縮性能の問題に対処するために,異種変形性補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、光学フローワーピングやシングルサイズカーネルの変形可能なアライメントを利用する代わりに、提案アルゴリズムは、隣接する2つのフレームから特徴を抽出し、コンテンツ適応不均一な変形可能な(HetDeform)カーネルオフセットを推定する。
次に,HetDeform畳み込みによる参照特徴の変換を行い,動き補償を実現する。
さらに、より効率的なデータガウス化と一般化されたディビジョン正規化を実現するために、空間近傍分割正規化(SNCDN)を設計する。
さらに,最終品質向上のためのコンテキスト情報と時間情報を活用するマルチフレーム拡張再構成モジュールを提案する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。 Learned video compression has recently emerged as an essential research topic in developing advanced video compression technologies, where motion compensation is considered one of the most challenging issues. In this paper, we propose a learned video compression framework via heterogeneous deformable compensation strategy (HDCVC) to tackle the problems of unstable compression performance caused by single-size deformable kernels in downsampled feature domain. More specifically, instead of utilizing optical flow warping or single-size-kernel deformable alignment, the proposed algorithm extracts features from the two adjacent frames to estimate content-adaptive heterogeneous deformable (HetDeform) kernel offsets. Then we transform the reference features with the HetDeform convolution to accomplish motion compensation. Moreover, we design a Spatial-Neighborhood-Conditioned Divisive Normalization (SNCDN) to achieve more effective data Gaussianization combined with the Generalized Divisive Normalization. Furthermore, we propose a multi-frame enhanced reconstruction module for exploiting context and temporal information for final quality enhancement. Experimental results indicate that HDCVC achieves superior performance than the recent state-of-the-art learned video compression approaches. | 翻訳日:2023-06-30 19:48:59 公開日:2023-06-29 |
# n$^2$m$^2$:非知覚および動的環境における任意の移動操作動作の学習ナビゲーション N$^2$M$^2$: Learning Navigation for Arbitrary Mobile Manipulation Motions in Unseen and Dynamic Environments ( http://arxiv.org/abs/2206.08737v2 ) ライセンス: Link先を確認 | Daniel Honerkamp, Tim Welschehold, Abhinav Valada | (参考訳) 産業とサービスロボティクスの両方で重要であるにもかかわらず、モバイル操作は、エンドエフェクタの軌道生成とナビゲーションスキルのシームレスな統合、そして長いホリゾンに対する推論を必要とするため、依然として大きな課題である。
既存の方法は、大きな構成空間を制御したり、動的で未知の環境をナビゲートするのに苦労する。
本研究では,移動体操作タスクをタスク空間におけるエンドエフェクタのための簡易な動作生成器と,運動の運動性を考慮した移動体ベースのための強化学習エージェントに分解する提案を行った。
本研究では,モバイル操作のためのニューラルナビゲーション(N$^2$M$^2$)を導入し,この分解を複雑な障害物環境に拡張し,実世界の環境において幅広いタスクに対処できるようにする。
結果として得られたアプローチは、動的障害や環境変化に即座に反応しながら、未探索の環境において、目に見えない長時間ホリゾンタスクを実行することができる。
同時に、新しいモバイル操作タスクを定義するための簡単な方法を提供する。
提案手法は,マルチキネマティックに多様な移動マニピュレータ上での大規模シミュレーションと実世界実験において有効であることを示す。
コードとビデオはhttp://mobile-rl.cs.uni-freiburg.deで公開されている。 Despite its importance in both industrial and service robotics, mobile manipulation remains a significant challenge as it requires a seamless integration of end-effector trajectory generation with navigation skills as well as reasoning over long-horizons. Existing methods struggle to control the large configuration space, and to navigate dynamic and unknown environments. In previous work, we proposed to decompose mobile manipulation tasks into a simplified motion generator for the end-effector in task space and a trained reinforcement learning agent for the mobile base to account for kinematic feasibility of the motion. In this work, we introduce Neural Navigation for Mobile Manipulation (N$^2$M$^2$) which extends this decomposition to complex obstacle environments and enables it to tackle a broad range of tasks in real world settings. The resulting approach can perform unseen, long-horizon tasks in unexplored environments while instantly reacting to dynamic obstacles and environmental changes. At the same time, it provides a simple way to define new mobile manipulation tasks. We demonstrate the capabilities of our proposed approach in extensive simulation and real-world experiments on multiple kinematically diverse mobile manipulators. Code and videos are publicly available at http://mobile-rl.cs.uni-freiburg.de. | 翻訳日:2023-06-30 19:48:39 公開日:2023-06-29 |
# スマートフォン内蔵センサデータを用いたユーザの社会的状況と身近な場所のオンデバイスモデリング On-device modeling of user's social context and familiar places from smartphone-embedded sensor data ( http://arxiv.org/abs/2205.08790v2 ) ライセンス: Link先を確認 | Mattia Giovanni Campana, Franca Delmastro | (参考訳) コンテキストモデリングと認識は、モバイルおよびユビキタスコンピューティングアプリケーションがユーザの状況に適応できるようにする複雑なタスクを表す。
現在のソリューションは主に、集中型アーキテクチャで一般的に処理される限られたコンテキスト情報に重点を置いており、ユーザの個人情報をプライバシリークに暴露する可能性があり、パーソナライズ機能が欠落している。
これらの理由から、オンデバイスコンテキストモデリングと認識は、この分野における現在の研究トレンドを表している。
モバイル環境におけるユーザのコンテキストを特徴付ける異なる情報のうち、社会的相互作用や訪問場所は日常生活シナリオの特徴づけに大いに寄与している。
本稿では,モバイル端末上で直接egoネットワークに基づいて,ユーザの社会的コンテキストと位置情報をモデル化する新しい,教師なし,かつ軽量なアプローチを提案する。
このモデルに基づいて、スマートフォン内蔵センサーデータから高レベルで意味に富んだコンテキスト特徴を抽出することができる。
具体的には、ユーザーとデバイス間の物理的およびサイバー的社会的相互作用に関するデータを利用する。
位置情報のコンテキストに関しては,GPS座標と近接装置の両方の観点から,ユーザのコンテキストに対する特定の位置情報の親しみ度を生の位置情報データよりもモデル化することが重要と考えられる。
実世界の5つのデータセットを用いて,社会的および位置的エゴネットワークの構造を評価し,提案したモデルのセマンティックな評価と,モバイルコンピューティングの性能の観点からの複雑性評価を提供する。
最後に,3つの機械学習アルゴリズムによる日常的状況認識の性能を示すことで,抽出された特徴の関連性を実証し,aurocの3%,精度9%,再現率5%の改善を得た。 Context modeling and recognition represent complex tasks that allow mobile and ubiquitous computing applications to adapt to the user's situation. Current solutions mainly focus on limited context information generally processed on centralized architectures, potentially exposing users' personal data to privacy leakage, and missing personalization features. For these reasons on-device context modeling and recognition represent the current research trend in this area. Among the different information characterizing the user's context in mobile environments, social interactions and visited locations remarkably contribute to the characterization of daily life scenarios. In this paper we propose a novel, unsupervised and lightweight approach to model the user's social context and her locations based on ego networks directly on the user mobile device. Relying on this model, the system is able to extract high-level and semantic-rich context features from smartphone-embedded sensors data. Specifically, for the social context it exploits data related to both physical and cyber social interactions among users and their devices. As far as location context is concerned, we assume that it is more relevant to model the familiarity degree of a specific location for the user's context than the raw location data, both in terms of GPS coordinates and proximity devices. By using 5 real-world datasets, we assess the structure of the social and location ego networks, we provide a semantic evaluation of the proposed models and a complexity evaluation in terms of mobile computing performance. Finally, we demonstrate the relevance of the extracted features by showing the performance of 3 machine learning algorithms to recognize daily-life situations, obtaining an improvement of 3% of AUROC, 9% of Precision, and 5% in terms of Recall with respect to use only features related to physical context. | 翻訳日:2023-06-30 19:48:14 公開日:2023-06-29 |
# 複数の画像破損に対するテスト時間適応のための共分散認識特徴と事前計算ソース統計 Covariance-aware Feature Alignment with Pre-computed Source Statistics for Test-time Adaptation to Multiple Image Corruptions ( http://arxiv.org/abs/2204.13263v2 ) ライセンス: Link先を確認 | Kazuki Adachi, Shin'ya Yamaguchi, Atsutoshi Kumagai | (参考訳) 実世界の画像認識システムは、しばしば破損した入力画像に直面し、分散シフトを引き起こし、モデルの性能を低下させる。
これらのシステムは、中央サーバーで単一の予測モデルを使用して、都市や車に分散したカメラのような様々な環境から送られた画像を処理する。
このような単一モデルはテスト時間で不均一な方法で劣化する。
したがって、高いコストで再トレーニングされるのではなく、テスト中に複数の腐敗に即座に適応する必要がある。
トレーニングデータセットにアクセスせずにモデルを適応することを目的としたテスト時適応(TTA)は、この問題に対処可能な設定のひとつだ。
既存のTTAメソッドは、実際には単一の汚職に対してうまく機能する。
しかし、適応能力は、より現実的な複数のタイプの腐敗が発生した場合に制限される。
これは、分散シフトがより複雑になり、複数の汚職が発生した場合に適応が困難になるためである。
実際,TTA後に分布ギャップが大きいことが実験的に確認された。
テスト中の分散ギャップに対処するために,共分散認識特徴アライメント (CAFe) と呼ばれる新しいTTA手法を提案する。
CAFeは、複数の種類の汚職を含む画像汚損に対して、以前のTTA手法よりも優れていることを実証的に示す。 Real-world image recognition systems often face corrupted input images, which cause distribution shifts and degrade the performance of models. These systems often use a single prediction model in a central server and process images sent from various environments, such as cameras distributed in cities or cars. Such single models face images corrupted in heterogeneous ways in test time. Thus, they require to instantly adapt to the multiple corruptions during testing rather than being re-trained at a high cost. Test-time adaptation (TTA), which aims to adapt models without accessing the training dataset, is one of the settings that can address this problem. Existing TTA methods indeed work well on a single corruption. However, the adaptation ability is limited when multiple types of corruption occur, which is more realistic. We hypothesize this is because the distribution shift is more complicated, and the adaptation becomes more difficult in case of multiple corruptions. In fact, we experimentally found that a larger distribution gap remains after TTA. To address the distribution gap during testing, we propose a novel TTA method named Covariance-Aware Feature alignment (CAFe). We empirically show that CAFe outperforms prior TTA methods on image corruptions, including multiple types of corruptions. | 翻訳日:2023-06-30 19:47:33 公開日:2023-06-29 |
# なぜ干渉現象が量子論の本質を捉えないのか Why interference phenomena do not capture the essence of quantum theory ( http://arxiv.org/abs/2111.13727v5 ) ライセンス: Link先を確認 | Lorenzo Catani, Matthew Leifer, David Schmid, Robert W. Spekkens | (参考訳) 量子干渉現象は古典的世界観に挑戦していると見なされている。
ファインマンは、それらが量子力学の唯一の謎と基本的な特異性であるとまで宣言した。
基本的な干渉現象は、光子は粒子でも波でもない、むしろ2つの可能性の間を切り替えるジキル・アンド・ハイドのような実体であり、現実はオブザーバーに依存している、システムは測定に先立って特性を持っていないか、あるいは非局所的または時間的因果的影響を受ける性質を持っている、など、多くの急進的な解釈の結論を受け入れることを強いる。
本研究では,このような結論は基本的な干渉現象によって強制されるものではないことを示す。
我々は、量子干渉の関連する現象論を再現する古典的離散場('toy field theory')の統計理論である量子理論の代替を記述しながら、これらの過激な解釈的主張を拒絶する。
elitzur-vaidman bomb tester、wheeler's delay-choice experiment、quantum eraser experimentなど、これらの解釈的主張を支持すると思われる多くの関連する干渉実験も再現している。
玩具場理論の系はフィールドモードであり、それぞれが常に粒子のような性質(離散占有数)と波のような性質(離散位相)を持っている。
これら2つの性質は共同所有であるが、両者が共同で知ることはできないとする理論もある。
一般に非局所的あるいは後方的因果的影響を好んで引用される現象学は、遠方や過去のシステムについての推論の観点から説明され、観察者に依存した全ては、現実そのものではなく、観察者の現実の知識である。 Quantum interference phenomena are widely viewed as posing a challenge to the classical worldview. Feynman even went so far as to proclaim that they are the only mystery and the basic peculiarity of quantum mechanics. Many have also argued that basic interference phenomena force us to accept a number of radical interpretational conclusions, including: that a photon is neither a particle nor a wave but rather a Jekyll-and-Hyde sort of entity that toggles between the two possibilities, that reality is observer-dependent, and that systems either do not have properties prior to measurements or else have properties that are subject to nonlocal or backwards-in-time causal influences. In this work, we show that such conclusions are not, in fact, forced on us by basic interference phenomena. We do so by describing an alternative to quantum theory, a statistical theory of a classical discrete field (the `toy field theory') that reproduces the relevant phenomenology of quantum interference while rejecting these radical interpretational claims. It also reproduces a number of related interference experiments that are thought to support these interpretational claims, such as the Elitzur-Vaidman bomb tester, Wheeler's delayed-choice experiment, and the quantum eraser experiment. The systems in the toy field theory are field modes, each of which possesses, at all times, both a particle-like property (a discrete occupation number) and a wave-like property (a discrete phase). Although these two properties are jointly possessed, the theory stipulates that they cannot be jointly known. The phenomenology that is generally cited in favour of nonlocal or backwards-in-time causal influences ends up being explained in terms of inferences about distant or past systems, and all that is observer-dependent is the observer's knowledge of reality, not reality itself. | 翻訳日:2023-06-30 19:46:58 公開日:2023-06-29 |
# 宇宙マイクロ波背景における実空間絡み合い Real-space entanglement in the Cosmic Microwave Background ( http://arxiv.org/abs/2106.15100v3 ) ライセンス: Link先を確認 | Jerome Martin, Vincent Vennin | (参考訳) 我々は、実空間における宇宙マイクロ波背景変動(CMB)の絡み合いエントロピー、相互情報、および量子不協和を計算する。
そのために,2つの異なる空間的位置におけるこれらのゆらぎの測定は,2分割連続ガウス系によって記述できることを示した。
これにより、曲率摂動のフーリエ空間パワースペクトルの観点から、相互情報と量子不協和の明確な公式が導かれる。
すると、反対の波のモーメントの間のフーリエ空間に量子の絡み合いが、量子スクイージングの効果として構築され、実空間に移されるのが分かる。
特に、平面空間時間における2つの測定間の距離の4番目のパワーとして崩壊する相互情報と量子不協和は、宇宙学的な背景において一定である。
しかし、CMBで観測されたスケールでは、それらは非常に抑制され、原始ブラックホールが形成された場合、はるかに小さなスケールでオーダーワン値に達することができる。 We compute the entanglement entropy, mutual information and quantum discord of the Cosmic Microwave Background (CMB) fluctuations in real space. To that end, we first show that measurements of these fluctuations at two distinct spatial locations can be described by a bipartite, continuous Gaussian system. This leads to explicit formulas for the mutual information and the quantum discord in terms of the Fourier-space power spectra of the curvature perturbation. We then find that quantum entanglement, that builds up in Fourier space between opposite wave momenta as an effect of quantum squeezing, is transferred to real space. In particular, both the mutual information and quantum discord, which decay as the fourth power of the distance between the two measurements in flat space time, asymptotes a constant in cosmological backgrounds. At the scales probed in the CMB however, they are highly suppressed, while they can reach order-one values at much smaller scales, where primordial black holes could have formed. | 翻訳日:2023-06-30 19:46:24 公開日:2023-06-29 |
# CDMA: 汎用ミニマックス問題のための実践的クロスデバイスフェデレーション学習アルゴリズム CDMA: A Practical Cross-Device Federated Learning Algorithm for General Minimax Problems ( http://arxiv.org/abs/2105.14216v4 ) ライセンス: Link先を確認 | Jiahao Xie, Chao Zhang, Zebang Shen, Weijie Liu, Hui Qian | (参考訳) ミニマックス問題は、堅牢な敵対学習やGAN(Generative Adversarial Network)トレーニングを含む、幅広い重要な応用で発生する。
近年,federated learning (fl)パラダイムにおけるミニマックス問題のアルゴリズムが注目されている。
一般的なミニマックス問題に対する既存のフェデレーションアルゴリズムは、トレーニングラウンドごとに完全な集約(すなわち、すべてのクライアントからのローカルモデル情報の集約)を必要とする。
したがって、多くの信頼性の低いモバイル/IoTデバイスを含むクロスデバイスセッティングとして知られるFLの重要な設定には適用できない。
本稿では,デバイス間FL設定における一般ミニマックス問題に対するCDMAという実用的なアルゴリズムを開発した。
CDMAはStart-Immediately-With-Enough-Ensponsesメカニズムに基づいており、サーバはまずクライアントのサブセットに信号を送り、各ラウンドで十分なクライアントから応答を受けたときにクライアントが報告したローカル結果の集約を開始する。
このメカニズムにより、CDMAは低いクライアント可用性に耐性がある。
さらに、CDMAはクライアントのローカル更新ステップに軽量なグローバル修正が組み込まれており、ネットワーク接続の遅い影響を軽減している。
我々は,超パラメータの異なる選択の下でCDMAの理論的保証を確立し,AUC最大化,頑健な敵ネットワークトレーニング,GANトレーニングタスクについて実験を行った。
理論的および実験的結果はCDMAの効率を示す。 Minimax problems arise in a wide range of important applications including robust adversarial learning and Generative Adversarial Network (GAN) training. Recently, algorithms for minimax problems in the Federated Learning (FL) paradigm have received considerable interest. Existing federated algorithms for general minimax problems require the full aggregation (i.e., aggregation of local model information from all clients) in each training round. Thus, they are inapplicable to an important setting of FL known as the cross-device setting, which involves numerous unreliable mobile/IoT devices. In this paper, we develop the first practical algorithm named CDMA for general minimax problems in the cross-device FL setting. CDMA is based on a Start-Immediately-With-Enough-Responses mechanism, in which the server first signals a subset of clients to perform local computation and then starts to aggregate the local results reported by clients once it receives responses from enough clients in each round. With this mechanism, CDMA is resilient to the low client availability. In addition, CDMA is incorporated with a lightweight global correction in the local update steps of clients, which mitigates the impact of slow network connections. We establish theoretical guarantees of CDMA under different choices of hyperparameters and conduct experiments on AUC maximization, robust adversarial network training, and GAN training tasks. Theoretical and experimental results demonstrate the efficiency of CDMA. | 翻訳日:2023-06-30 19:45:50 公開日:2023-06-29 |
# 共鳴価結合状態の分離性と絡み合い Separability and entanglement of resonating valence-bond states ( http://arxiv.org/abs/2212.11740v3 ) ライセンス: Link先を確認 | Gilles Parez, Cl\'ement Berthiere, William Witczak-Krempa | (参考訳) 我々はロクサー・キヴェルソン状態(RK)と共鳴価結合状態(RVB)の分離性と絡み合いについて検討した。
これらの状態は、量子スピン液体と物質の量子臨界状態を記述することができるため、凝縮物質物理学において重要な役割を果たす。
任意のタイル性グラフ上のディマー rk 状態に対して、k$ の切り離されたサブシステムの縮小密度行列の正確な分離性が証明され、二成分の欠如とサブシステム間の多成分の絡み合いが示唆される。
より一般的な局所的制約を持つRK状態に対しては、熱力学極限における分離性を主張し、密度行列が正確に分離可能でない場合でも、任意の局所的RK状態が対数否定性を持たないことを示す。
隣接するサブシステムの場合、基礎となる統計モデルの分割関数の観点から対数否定性の正確な式が見つかる。
RVB状態の場合、切断されたサブシステムの分離性は、サブシステム間の距離$d$で指数関数的に小さく、対数ネガティビティは$d$で指数関数的に抑制される。
任意の小さな比$d/L$であっても、分離性はスケーリングの限界を保ち、$L$はサブシステムの特性サイズである。
この結果は任意の格子を対象とし、あるガッピング量子スピン液体やギャップのない量子臨界系を含むrkおよびrvb状態の広いクラスを包含する。 We investigate separability and entanglement of Rokhsar-Kivelson (RK) states and resonating valence-bond (RVB) states. These states play a prominent role in condensed matter physics, as they can describe quantum spin liquids and quantum critical states of matter, depending on their underlying lattices. For dimer RK states on arbitrary tileable graphs, we prove the exact separability of the reduced density matrix of $k$ disconnected subsystems, implying the absence of bipartite and multipartite entanglement between the subsystems. For more general RK states with local constraints, we argue separability in the thermodynamic limit, and show that any local RK state has zero logarithmic negativity, even if the density matrix is not exactly separable. In the case of adjacent subsystems, we find an exact expression for the logarithmic negativity in terms of partition functions of the underlying statistical model. For RVB states, we show separability for disconnected subsystems up to exponentially small terms in the distance $d$ between the subsystems, and that the logarithmic negativity is exponentially suppressed with $d$. We argue that separability does hold in the scaling limit, even for arbitrarily small ratio $d/L$, where $L$ is the characteristic size of the subsystems. Our results hold for arbitrary lattices, and encompass a large class of RK and RVB states, which include certain gapped quantum spin liquids and gapless quantum critical systems. | 翻訳日:2023-06-30 19:37:55 公開日:2023-06-29 |
# 1次元双極子量子ガスの急速分布と運動量分布 Rapidity and momentum distributions of 1D dipolar quantum gases ( http://arxiv.org/abs/2211.09118v2 ) ライセンス: Link先を確認 | Kuan-Yu Li, Yicheng Zhang, Kangning Yang, Kuan-Yu Lin, Sarang Gopalakrishnan, Marcos Rigol, and Benjamin L. Lev | (参考訳) ジスプロシウムの高磁場1次元ボース気体の平衡状態における双極子-双極子相互作用を破る可変積分性の影響について検討した。
強い相関関係にあるトンクス・ギラルドー系では、急速度と運動量分布は双極子相互作用にほとんど影響を受けないことを実験的に観察した。
対照的に,接触相互作用の強度を低下させると,これらの分布の顕著な変化が生じる。
本研究は,双極子相互作用の短距離部分の寄与により,接触相互作用のみを持つ1次元気体の配列として系をモデル化することで,主な実験結果が得られた。
理論実験対応の改善には、短距離と長距離の両方の相互作用を持つほぼ可積分モデルに適した新しいツールが必要である。 We explore the effect of tunable integrability breaking dipole-dipole interactions in the equilibrium states of highly magnetic 1D Bose gases of dysprosium at low temperatures. We experimentally observe that in the strongly correlated Tonks-Girardeau regime, rapidity and momentum distributions are nearly unaffected by the dipolar interactions. By contrast, we also observe that significant changes of these distributions occur when decreasing the strength of the contact interactions. We show that the main experimental observations are captured by modeling the system as an array of 1D gases with only contact interactions, dressed by the contribution of the short-range part of the dipolar interactions. Improvements to theory-experiment correspondence will require new tools tailored to near-integrable models possessing both short and long-range interactions. | 翻訳日:2023-06-30 19:37:30 公開日:2023-06-29 |
# マヨラナ非局在化による表面符号のコヒーレント誤差閾値 Coherent error threshold for surface codes from Majorana delocalization ( http://arxiv.org/abs/2211.00655v2 ) ライセンス: Link先を確認 | Florian Venn, Jan Behrends, Benjamin B\'eri | (参考訳) 統計力学マッピングは、量子エラー補正に関する重要な洞察を提供する。
しかし、既存の写像は非コヒーレントノイズを仮定し、例えばスプリアスゲート回転によるコヒーレントエラーを無視する。
x$- または $z$-rotations (replacing bit または phase flips) として、表面コードをコヒーレントなエラーでマッピングし、複雑なカップリングを持つ二次元(2d)イジングモデル、さらに2d majorana散乱ネットワークにマップします。
以上より,コヒーレントおよび非コヒーレント誤差の補正において,共通点と質的差異の両方を明らかにする。
どちらも、2Dネットワークを1Dフェルミオンにリンクさせることで明確に示されるように、誤差補正位相写像は$\mathbb{Z}_2$-nontrivial 2D 絶縁体である。
しかし、回転角 $\phi_\text{th}$ を超えて、非コヒーレントエラーに対して$\mathbb{z}_2$-trivial insulator の代わりに、コヒーレントエラーは majorana 金属にマップされる。
この$\phi_\text{th}$は理論上達成可能なストレージ閾値である。
数値的には $\phi_\text{th}\approx0.14\pi$ である。
対応するビットフリップ率 $\sin^2(\phi_\text{th})\approx 0.18$ は既知の不整合しきい値 $p_\text{th}\approx0.11$ を超える。 Statistical mechanics mappings provide key insights on quantum error correction. However, existing mappings assume incoherent noise, thus ignoring coherent errors due to, e.g., spurious gate rotations. We map the surface code with coherent errors, taken as $X$- or $Z$-rotations (replacing bit or phase flips), to a two-dimensional (2D) Ising model with complex couplings, and further to a 2D Majorana scattering network. Our mappings reveal both commonalities and qualitative differences in correcting coherent and incoherent errors. For both, the error-correcting phase maps, as we explicitly show by linking 2D networks to 1D fermions, to a $\mathbb{Z}_2$-nontrivial 2D insulator. However, beyond a rotation angle $\phi_\text{th}$, instead of a $\mathbb{Z}_2$-trivial insulator as for incoherent errors, coherent errors map to a Majorana metal. This $\phi_\text{th}$ is the theoretically achievable storage threshold. We numerically find $\phi_\text{th}\approx0.14\pi$. The corresponding bit-flip rate $\sin^2(\phi_\text{th})\approx 0.18$ exceeds the known incoherent threshold $p_\text{th}\approx0.11$. | 翻訳日:2023-06-30 19:37:16 公開日:2023-06-29 |
# RLにおける一般化のための事前学習の力について:確率的便益と硬さ On the Power of Pre-training for Generalization in RL: Provable Benefits and Hardness ( http://arxiv.org/abs/2210.10464v2 ) ライセンス: Link先を確認 | Haotian Ye, Xiaoyu Chen, Liwei Wang, Simon S. Du | (参考訳) 強化学習(RL)の一般化は、目標環境に一般化する訓練中にエージェントを学ぶことを目的としている。
本稿では,理論的な側面からrl一般化について考察する。
対象環境との相互作用が許されていない場合、我々は得られる最善策が平均的な意味でほぼ最適であると証明し、この目標を達成するアルゴリズムを設計する。
さらに, エージェントが対象環境と相互作用することが許された場合, 漸近的に事前学習による改善がほぼ一定であることを示す驚くべき結果が得られる。
一方,非漸近的なシステムでは,効率的なアルゴリズムを設計し,状態動作空間とは無関係な対象環境に拘束された分布に基づく後悔を証明する。 Generalization in Reinforcement Learning (RL) aims to learn an agent during training that generalizes to the target environment. This paper studies RL generalization from a theoretical aspect: how much can we expect pre-training over training environments to be helpful? When the interaction with the target environment is not allowed, we certify that the best we can obtain is a near-optimal policy in an average sense, and we design an algorithm that achieves this goal. Furthermore, when the agent is allowed to interact with the target environment, we give a surprising result showing that asymptotically, the improvement from pre-training is at most a constant factor. On the other hand, in the non-asymptotic regime, we design an efficient algorithm and prove a distribution-based regret bound in the target environment that is independent of the state-action space. | 翻訳日:2023-06-30 19:36:49 公開日:2023-06-29 |
# 変分量子非直交最適化 Variational Quantum Non-Orthogonal Optimization ( http://arxiv.org/abs/2210.04639v2 ) ライセンス: Link先を確認 | Pablo Bermejo, Roman Orus | (参考訳) 現在のユニバーサル量子コンピュータは、ノイズの量子ビットが限られている。
このため、大規模な複雑な最適化問題を解くことは困難である。
本稿では,量子システムの非直交状態において離散的古典変数を符号化する量子最適化スキームを提案する。
我々は、量子コンピュータ上で1ビット以上の古典変数を扱う個々の量子ビットを持つ非直交量子ビット状態のケースを開発する。
このアイデアと変分量子固有解法(VQE)と量子状態トモグラフィーを組み合わせることで、複雑な最適化問題を解決するために量子ハードウェアに必要な量子ビットの数を著しく削減できることを示す。
我々は、15量子ビットのみを用いて、次数8と15変数の多項式を最適化し、アルゴリズムをベンチマークした。
我々の提案は、今日の限定量子ハードウェアにおいて、現実の有用な最適化問題を解決するための道を開く。 Current universal quantum computers have a limited number of noisy qubits. Because of this, it is difficult to use them to solve large-scale complex optimization problems. In this paper we tackle this issue by proposing a quantum optimization scheme where discrete classical variables are encoded in non-orthogonal states of the quantum system. We develop the case of non-orthogonal qubit states, with individual qubits on the quantum computer handling more than one bit classical variable. Combining this idea with Variational Quantum Eigensolvers (VQE) and quantum state tomography, we show that it is possible to significantly reduce the number of qubits required by quantum hardware to solve complex optimization problems. We benchmark our algorithm by successfully optimizing a polynomial of degree 8 and 15 variables using only 15 qubits. Our proposal opens the path towards solving real-life useful optimization problems in today's limited quantum hardware. | 翻訳日:2023-06-30 19:36:36 公開日:2023-06-29 |
# 任意のschr\"odinger cat状態に対する最適化。
II。
消散の有無における応用 Optimizing for an arbitrary Schr\"odinger cat state. II. Application in the presence of dissipation ( http://arxiv.org/abs/2209.14678v2 ) ライセンス: Link先を確認 | Matthias G. Krauss, Daniel M. Reich, Christiane P. Koch | (参考訳) ここでは、任意の猫状態をターゲットにした最適化を、共用論文で導出し、量子システムダイナミクスの開放に拡張する。
発振器に崩壊するjaynes-cummingsモデルに適用すると、強い散逸と大きな猫の根源は、絡み合った猫の状態を作るための制御戦略が変化していることが分かる。
本研究は,量子技術における実用的応用のための量子最適制御ツールボックスの汎用性を示す。 We extend here the optimization functional targeting arbitrary cat states, derived in the companion paper, to open quantum system dynamics. Applying it to a Jaynes-Cummings model with decay on the oscillator, we find, for strong dissipation and large cat radii, a change in the control strategy for preparing an entangled cat state. Our results illustrate the versatility of the quantum optimal control toolbox for practical applications in the quantum technologies. | 翻訳日:2023-06-30 19:36:19 公開日:2023-06-29 |
# 任意のschr\"odinger cat状態に対する最適化 Optimizing for an arbitrary Schr\"odinger cat state ( http://arxiv.org/abs/2209.14675v2 ) ライセンス: Link先を確認 | Matthias G. Krauss, Christiane P. Koch, Daniel M. Reich | (参考訳) 任意の猫状態に対する最適化のための関数集合を導出し、2光子駆動を持つカー非線形ハミルトニアンのダイナミクスを最適化することでその応用を実証する。
フレームワークの汎用性により,最大絡み合った猫状態の最適化に向けて,Jaynes-Cummingsモデルに適用することが可能となる。
得られた制御場の戦略を特定し,猫状態の励起関数として量子速度限界を決定する。
最後に、最適化関数をオープン量子系力学に拡張し、振動子に減衰したJaynes-Cummingsモデルに適用する。
強い放散と大型ネコの放散では, 放散を伴わない症例と比較してコントロール戦略の変化がみられた。
本研究は,複雑な物理タスクに特化された機能を備えた最適制御のパワーと,量子技術における実用的応用のための量子最適制御ツールボックスの汎用性に注目した。 We derive a set of functionals for optimization towards an arbitrary cat state and demonstrate their application by optimizing the dynamics of a Kerr-nonlinear Hamiltonian with two-photon driving. The versatility of our framework allows us to adapt our functional towards optimization of maximally entangled cat states, applying it to a Jaynes-Cummings model. We identify the strategy of the obtained control fields and determine the quantum speed limit as a function of the cat state's excitation. Finally, we extend our optimization functionals to open quantum system dynamics and apply it to the Jaynes-Cummings model with decay on the oscillator. For strong dissipation and large cat radii, we find a change in the control strategy compared to the case without dissipation. Our results highlight the power of optimal control with functionals specifically crafted for complex physical tasks and the versatility of the quantum optimal control toolbox for practical applications in the quantum technologies. | 翻訳日:2023-06-30 19:36:10 公開日:2023-06-29 |
# ソフトウェアテストタスクのための強化学習フレームワークの比較 A Comparison of Reinforcement Learning Frameworks for Software Testing Tasks ( http://arxiv.org/abs/2208.12136v3 ) ライセンス: Link先を確認 | Paulina Stevia Nouwou Mindom and Amin Nikanjam and Foutse Khomh | (参考訳) ソフトウェアテスト活動は、ソフトウェア製品のアーティファクトと振る舞いを検査し、潜在的な欠陥を見つけ、製品が期待される要件を満たしていることを保証する。
近年,Deep Reinforcement Learning (DRL) はゲームテストや回帰テスト,テストケースの優先順位付けといった複雑なテストタスクに成功し,プロセスの自動化と継続的適応を実現している。
DRLアルゴリズムをスクラッチから実装するか、あるいはDRLフレームワークを使用してDRLを使用することができる。
DRLフレームワークは、DRLアプリケーションの開発を容易にし、高速化するために、十分に保守された実装されたDRLアルゴリズムを提供する。
開発者はこれらのフレームワークを使って、ソフトウェアテストを含むさまざまな領域の問題を解決する。
しかし、我々の知る限り、DRLフレームワークにおける実装アルゴリズムの有効性と性能を実証的に評価する研究は存在しない。
さらに、実践者が別のDRLフレームワークを選択するのに役立つ文献に欠けているガイドラインもある。
本稿では,継続的インテグレーション(CI)とゲームテストという2つの重要なソフトウェアテストタスクに対して,慎重に選択されたDRLアルゴリズムの適用を実証的に検討する。
ゲームテストタスクでは、単純なゲームで実験を行い、drlアルゴリズムを使用してバグを検出するためにゲームを探索する。
以上の結果から,TensorforceなどのDRLフレームワークが最近の文献のアプローチより優れていることが示唆された。
テストケースを優先するために、さまざまなフレームワークからのDRLアルゴリズムを使用してテストケースをランク付けするCI環境で実験を行います。
以上の結果から,実装アルゴリズムの性能差は極めて大きいことを示し,さらなる調査の動機となった。 Software testing activities scrutinize the artifacts and the behavior of a software product to find possible defects and ensure that the product meets its expected requirements. Recently, Deep Reinforcement Learning (DRL) has been successfully employed in complex testing tasks such as game testing, regression testing, and test case prioritization to automate the process and provide continuous adaptation. Practitioners can employ DRL by implementing from scratch a DRL algorithm or using a DRL framework. DRL frameworks offer well-maintained implemented state-of-the-art DRL algorithms to facilitate and speed up the development of DRL applications. Developers have widely used these frameworks to solve problems in various domains including software testing. However, to the best of our knowledge, there is no study that empirically evaluates the effectiveness and performance of implemented algorithms in DRL frameworks. Moreover, some guidelines are lacking from the literature that would help practitioners choose one DRL framework over another. In this paper, we empirically investigate the applications of carefully selected DRL algorithms on two important software testing tasks: test case prioritization in the context of Continuous Integration (CI) and game testing. For the game testing task, we conduct experiments on a simple game and use DRL algorithms to explore the game to detect bugs. Results show that some of the selected DRL frameworks such as Tensorforce outperform recent approaches in the literature. To prioritize test cases, we run experiments on a CI environment where DRL algorithms from different frameworks are used to rank the test cases. Our results show that the performance difference between implemented algorithms in some cases is considerable, motivating further investigation. | 翻訳日:2023-06-30 19:35:36 公開日:2023-06-29 |
# 単一量子ビット計測による情報抽出の最適化 Optimizing the information extracted by a single qubit measurement ( http://arxiv.org/abs/2207.09479v2 ) ライセンス: Link先を確認 | Stefano Polla, Gian-Luca R. Anselmetti, Thomas E. O'Brien | (参考訳) 我々は、$N$-qubitの量子状態準備で1ビットの情報のみを抽出する量子計算を考える。
これは、システムの残りの部分がエラーを検出するために測定されるエラー軽減スキームに関係している。
線形分解による演算子の期待値の推定をビットワイズ測定可能な項に最適化する。
最適分解は固有値 $\pm1$ を持つ反射の項でなければならないことが証明される。
高速フォワード作用素の最適反射分解を見いだし、係数 $n^{0.7}$ による単純なポーリ分解に対する数値的改善を示す。 We consider a quantum computation that only extracts one bit of information per $N$-qubit quantum state preparation. This is relevant for error mitigation schemes where the remainder of the system is measured to detect errors. We optimize the estimation of the expectation value of an operator by its linear decomposition into bitwise-measurable terms. We prove that optimal decompositions must be in terms of reflections with eigenvalues $\pm1$. We find the optimal reflection decomposition of a fast-forwardable operator, and show a numerical improvement over a simple Pauli decomposition by a factor $N^{0.7}$ | 翻訳日:2023-06-30 19:35:10 公開日:2023-06-29 |
# TransformersがDirected Graphsを発表 Transformers Meet Directed Graphs ( http://arxiv.org/abs/2302.00049v2 ) ライセンス: Link先を確認 | Simon Geisler, Yujia Li, Daniel Mankowitz, Ali Taylan Cemgil, Stephan G\"unnemann, Cosmin Paduraru | (参考訳) トランスフォーマーは当初、テキストのシーケンシャル・ツー・シーケンスモデルとして提案されたが、画像、オーディオ、ビデオ、無向グラフなど、幅広いモダリティにおいて不可欠となった。
しかし、有向グラフのトランスフォーマーは、ソースコードや論理回路を含むユビキタスなドメインに適用できるにもかかわらず、驚くほど未熟な話題である。
本研究では,(1)磁気ラプラシアンの固有ベクトル,(2)組合せラプラシアンの方向認識一般化,(2)方向ランダムウォークエンコーディングという,有向グラフに対する方向認識と構造認識の2つの位置符号化を提案する。
実験では,ソートネットワークの正当性テストやソースコード理解など,下流のさまざまなタスクにおいて,方向情報の追加が有効であることを示す。
データフロー中心のグラフ構築とともに、我々のモデルはOpen Graph Benchmark Code2における技術の先行状態を14.7%向上させる。 Transformers were originally proposed as a sequence-to-sequence model for text but have become vital for a wide range of modalities, including images, audio, video, and undirected graphs. However, transformers for directed graphs are a surprisingly underexplored topic, despite their applicability to ubiquitous domains, including source code and logic circuits. In this work, we propose two direction- and structure-aware positional encodings for directed graphs: (1) the eigenvectors of the Magnetic Laplacian - a direction-aware generalization of the combinatorial Laplacian; (2) directional random walk encodings. Empirically, we show that the extra directionality information is useful in various downstream tasks, including correctness testing of sorting networks and source code understanding. Together with a data-flow-centric graph construction, our model outperforms the prior state of the art on the Open Graph Benchmark Code2 relatively by 14.7%. | 翻訳日:2023-06-30 19:29:47 公開日:2023-06-29 |
# 局所変換における絡み合い状態と絡み合い基底の対応 Correspondence between entangled states and entangled bases under local transformations ( http://arxiv.org/abs/2301.13285v2 ) ライセンス: Link先を確認 | Florian Pimpel, Martin J. Renner and Armin Tavakoli | (参考訳) 純粋に絡み合った状態が、すべてのベクトルが元の状態の局所ユニタリ変換であるような測定基底に関連付けられるかどうかを調べる。
局所次元が 2, 4$ または 8$ の双党状態の場合、全ての状態が基底に対応することを証明している。
via numerics では、2つの qutrits と 3つの qubits についても、同じ結論を強く証明している。
しかし、4つの量子ビットのいくつかの状態では基底が見つからないため、全ての量子状態が対応する測度を持つわけではないと推測される。
さらに, \textit{any} 状態を基底に変換する局所ユニタリが存在するかどうかについても検討する。
そのような状態に依存しない構成が一般の量子状態には存在しないことを示すが、実数値の$n$-qubit状態に対して存在することは、$n=2,3$であることと、奇数局所次元の任意の多部系においてそのような構成が不可能であることは証明する。
その結果, 粒子数と寸法に強く依存する等絡状態と等絡状態の関係が強く示唆された。 We investigate whether pure entangled states can be associated to a measurement basis in which all vectors are local unitary transformations of the original state. We prove that for bipartite states with a local dimension that is either $2, 4$ or $8$, every state corresponds to a basis. Via numerics we strongly evidence the same conclusion also for two qutrits and three qubits. However, for some states of four qubits we are unable to find a basis, leading us to conjecture that not all quantum states admit a corresponding measurement. Furthermore, we investigate whether there can exist a set of local unitaries that transform \textit{any} state into a basis. While we show that such a state-independent construction cannot exist for general quantum states, we prove that it does exist for real-valued $n$-qubit states if and only if $n=2,3$, and that such constructions are impossible for any multipartite system of an odd local dimension. Our results suggest a rich relationship between entangled states and iso-entangled measurements with a strong dependence on both particle numbers and dimension. | 翻訳日:2023-06-30 19:29:33 公開日:2023-06-29 |
# 予測メンテナンスのための連続学習:概要と課題 Continual Learning for Predictive Maintenance: Overview and Challenges ( http://arxiv.org/abs/2301.12467v2 ) ライセンス: Link先を確認 | Julio Hurtado and Dario Salvati and Rudy Semola and Mattia Bosio and Vincenzo Lomonaco | (参考訳) ディープラーニング技術は, 工学的問題を効果的かつ効率的に解くための主要なプロペラの1つとなっている。
例えば、予測保守手法は、異なるマシンや運用状況でメンテナンスが必要なときの予測を改善するために使われてきた。
しかし、これらのモデルは通常、問題の現在の状態のみを反映した固定分布上でトレーニングされるため、ディープラーニングの手法には制限がない。
内部要因や外部要因によって問題の状態が変化し、一般化や適応の欠如により性能が低下する。
この定常的なトレーニングセットとは対照的に、現実世界のアプリケーションは環境を常に変更し、進化するシナリオにモデルを常に適応させる必要がある。
この取り組みを支援するために、連続学習法は、予測モデルに絶えず適応し、デプロイ後に新しい知識を取り入れる方法を提案する。
これらの手法の利点にもかかわらず、現実の問題に適用するには依然として課題がある。
本稿では,予測的保守,非定常環境,連続的学習について概説するとともに,実世界のアプリケーション,特に予測的保守における連続的学習の現状について概観する。
次に,予測メンテナンスと継続学習の課題について議論し,両分野の交点における今後の方向性について述べる。
最後に、より現実的な環境での継続的学習手法の適用を好むベンチマークを作成するための新しい手法を提案し、予測保守の具体例を示す。 Deep learning techniques have become one of the main propellers for solving engineering problems effectively and efficiently. For instance, Predictive Maintenance methods have been used to improve predictions of when maintenance is needed on different machines and operative contexts. However, deep learning methods are not without limitations, as these models are normally trained on a fixed distribution that only reflects the current state of the problem. Due to internal or external factors, the state of the problem can change, and the performance decreases due to the lack of generalization and adaptation. Contrary to this stationary training set, real-world applications change their environments constantly, creating the need to constantly adapt the model to evolving scenarios. To aid in this endeavor, Continual Learning methods propose ways to constantly adapt prediction models and incorporate new knowledge after deployment. Despite the advantages of these techniques, there are still challenges to applying them to real-world problems. In this work, we present a brief introduction to predictive maintenance, non-stationary environments, and continual learning, together with an extensive review of the current state of applying continual learning in real-world applications and specifically in predictive maintenance. We then discuss the current challenges of both predictive maintenance and continual learning, proposing future directions at the intersection of both areas. Finally, we propose a novel way to create benchmarks that favor the application of continuous learning methods in more realistic environments, giving specific examples of predictive maintenance. | 翻訳日:2023-06-30 19:29:15 公開日:2023-06-29 |
# DeciLS-PBO:擬似ブール最適化のための効率的な局所探索法 DeciLS-PBO: an Effective Local Search Method for Pseudo-Boolean Optimization ( http://arxiv.org/abs/2301.12251v2 ) ライセンス: Link先を確認 | Luyu Jiang, Dantong Ouyang, Qi Zhang, and Liming Zhang | (参考訳) 局所探索は大規模組合せ最適化問題を解く効果的な手法であり,近年,いくつかの微妙なメカニズムにより著しい進歩を遂げている。
本稿では,PBO(Pseudo-Boolean Optimization)を解く際の局所探索アルゴリズムを改善する方法として,PBO(Pseudo-Boolean Optimization)の2つの方法を見出した。
我々は、変数と与えられた式の間のブリッジを構築する中間者の役割を担っているので、この条項に関するさらなる洞察を得ようと試みる。
そこで我々はまず,PBO問題への単位伝搬に基づくデシミテーションアルゴリズムの組合せを拡張し,PBO問題に対する単位節の定義をさらに一般化し,初期割り当てを構築するための既存の解法LS-PBOに適用した。
最近のPBコンペティションのベンチマークと、最小幅の信頼性帯域、無線センサネットワーク最適化、座席配置問題を含む3つの実世界のアプリケーションベンチマーク実験は、我々のアルゴリズムであるDeciLS-PBOが最先端のアルゴリズムと比較して有望な性能を示していることを示している。 Local search is an effective method for solving large-scale combinatorial optimization problems, and it has made remarkable progress in recent years through several subtle mechanisms. In this paper, we found two ways to improve the local search algorithms in solving Pseudo-Boolean Optimization (PBO): Firstly, some of those mechanisms such as unit propagation are merely used in solving MaxSAT before, which can be generalized to solve PBO as well; Secondly, the existing local search algorithms utilize the heuristic on variables, so-called score, to mainly guide the search. We attempt to gain more insights into the clause, as it plays the role of a middleman who builds a bridge between variables and the given formula. Hence, we first extended the combination of unit propagation-based decimation algorithm to PBO problem, giving a further generalized definition of unit clause for PBO problem, and apply it to the existing solver LS-PBO for constructing an initial assignment; then, we introduced a new heuristic on clauses, dubbed care, to set a higher priority for the clauses that are less satisfied in current iterations. Experiments on benchmarks from the most recent PB Competition, as well as three real-world application benchmarks including minimum-width confidence band, wireless sensor network optimization, and seating arrangement problems show that our algorithm DeciLS-PBO has a promising performance compared to the state-of-the-art algorithms. | 翻訳日:2023-06-30 19:28:53 公開日:2023-06-29 |
# SWARM並列性:大規模モデルのトレーニングは驚くほどコミュニケーション効率が良い SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient ( http://arxiv.org/abs/2301.11913v2 ) ライセンス: Link先を確認 | Max Ryabinin, Tim Dettmers, Michael Diskin, Alexander Borzunov | (参考訳) 多くのディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
本研究では、安価な"プリエンプティブル"インスタンスを使用したり、複数のリージョンから既存のリソースをプールするという、大規模なモデルをトレーニングするための代替設定を検討する。
これらの条件下で既存のモデル並列アルゴリズムの性能を解析し、より大きなモデルのトレーニングが通信集約化の少ない構成を見つける。
これらの結果に基づき、不連結で不均一で信頼性の低いデバイスを対象としたモデル並列学習アルゴリズムSWARM並列性を提案する。
SWARMは、障害時に再バランスするノード間で一時的なランダム化パイプラインを生成する。
本研究の成果を実証的に検証し,既存の大規模トレーニング手法と比較した。
最後に,200Mb/s未満のプリエンプティブルなT4 GPU上で1Bの共有パラメータ(約13Bの共有前)で大きなTransformer言語モデルをトレーニングするための圧縮戦略を組み合わせる。 Many deep learning applications benefit from using large models with billions of parameters. Training these models is notoriously expensive due to the need for specialized HPC clusters. In this work, we consider alternative setups for training large models: using cheap "preemptible" instances or pooling existing resources from multiple regions. We analyze the performance of existing model-parallel algorithms in these conditions and find configurations where training larger models becomes less communication-intensive. Based on these findings, we propose SWARM parallelism, a model-parallel training algorithm designed for poorly connected, heterogeneous and unreliable devices. SWARM creates temporary randomized pipelines between nodes that are rebalanced in case of failure. We empirically validate our findings and compare SWARM parallelism with existing large-scale training approaches. Finally, we combine our insights with compression strategies to train a large Transformer language model with 1B shared parameters (approximately 13B before sharing) on preemptible T4 GPUs with less than 200Mb/s network. | 翻訳日:2023-06-30 19:28:24 公開日:2023-06-29 |
# MooseNet:PLDAモジュールによる音声合成のためのトレーニング可能なメトリック MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module ( http://arxiv.org/abs/2301.07087v2 ) ライセンス: Link先を確認 | Ond\v{r}ej Pl\'atek, Ond\v{r}ej Du\v{s}ek | (参考訳) 本稿では,聴取者の平均オピニオンスコア(MOS)を予測するトレーニング可能な音声メトリックであるMooseNetを紹介する。
本稿では,自己教師付き学習(SSL)ニューラルネットワーク(NN)モデルから得られた埋め込みの上に,確率線形識別分析(PLDA)生成モデルを用いた新しい手法を提案する。
PLDAは136発話(例えば1分間の訓練時間)でのみ訓練された場合のみ、非微細SSLモデルとうまく機能し、PLDAはタスク固有の微調整を伴う最先端モデルでさえも、様々な神経MOS予測モデルを一貫して改善することを示す。
本研究では,低リソースシナリオにおいてsslモデルの微調整よりもpldaトレーニングが優れていることを示す。
また、便利なオプティマイザ選択と、コントラストとマルチタスクのトレーニング目標によるSSLモデルの微調整も改善する。
細調整した MooseNet NN と PLDA モジュールは,VoiceMOS Challenge データの SSL ベースラインを越え,最高の結果を得る。 We present MooseNet, a trainable speech metric that predicts the listeners' Mean Opinion Score (MOS). We propose a novel approach where the Probabilistic Linear Discriminative Analysis (PLDA) generative model is used on top of an embedding obtained from a self-supervised learning (SSL) neural network (NN) model. We show that PLDA works well with a non-finetuned SSL model when trained only on 136 utterances (ca. one minute training time) and that PLDA consistently improves various neural MOS prediction models, even state-of-the-art models with task-specific fine-tuning. Our ablation study shows PLDA training superiority over SSL model fine-tuning in a low-resource scenario. We also improve SSL model fine-tuning using a convenient optimizer choice and additional contrastive and multi-task training objectives. The fine-tuned MooseNet NN with the PLDA module achieves the best results, surpassing the SSL baseline on the VoiceMOS Challenge data. | 翻訳日:2023-06-30 19:28:11 公開日:2023-06-29 |
# 弾道ゆらぎ理論からの絡みR'enyiエントロピー:自由フェルミオンの場合 Entanglement R\'enyi Entropies from Ballistic Fluctuation Theory: the free fermionic case ( http://arxiv.org/abs/2301.02326v2 ) ライセンス: Link先を確認 | Giuseppe Del Vecchio Del Vecchio and Benjamin Doyon and Paola Ruggiero | (参考訳) 有限密度状態における絡み合いエントロピーの大規模挙動は、平衡状態の内外において、粒子対の物理像を用いて理解することができる。
しかし、この絵の完全な理論的起源はまだ完全には定まっていない。
本研究では,熱力学と流体力学のゆらぎに対する大縮退理論と関係し,絡み合いエントロピーについて考察する。
モデルのオイラー流体力学に基づく弾道ゆらぎ理論(BFT)の普遍的枠組みを,レプリカアプローチにおけるR'enyiエンタングルメントエントロピー計算の出発点である 'emph{branch-point twist field} の相関関数に適用する。
アイデアを説明するために自由フェルミオン系に注目し、R'enyiエンタングルメントエントロピーの平衡挙動と力学の両方がBFTから完全に導出可能であることを示す。
特に,量子クエンチの後に長距離相関が発達することを強調し,エンタングルメント成長の構造を説明する。
さらに, この成長は電荷輸送のゆらぎと関連し, 電荷のゆらぎと先に観測された絡み合いの関係を量子クエンチに一般化することを示した。
本稿では, エンタングルメントの大規模挙動が流体力学的変動に起源があることを示唆する。 The large-scale behaviour of entanglement entropy in finite-density states, in and out of equilibrium, can be understood using the physical picture of particle pairs. However, the full theoretical origin of this picture is not fully established yet. In this work, we clarify this picture by investigating entanglement entropy using its connection with the large-deviation theory for thermodynamic and hydrodynamic fluctuations. We apply the universal framework of Ballistic Fluctuation Theory (BFT), based the Euler hydrodynamics of the model, to correlation functions of \emph{branch-point twist fields}, the starting point for computing R\'enyi entanglement entropies within the replica approach. Focusing on free fermionic systems in order to illustrate the ideas, we show that both the equilibrium behavior and the dynamics of R\'enyi entanglement entropies can be fully derived from the BFT. In particular, we emphasise that long-range correlations develop after quantum quenches, and accounting for these explain the structure of the entanglement growth. We further show that this growth is related to fluctuations of charge transport, generalising to quantum quenches the relation between charge fluctuations and entanglement observed earlier. The general ideas we introduce suggest that the large-scale behaviour of entanglement has its origin within hydrodynamic fluctuations. | 翻訳日:2023-06-30 19:27:52 公開日:2023-06-29 |
# ベイズ脳の構成的説明のための数学的基礎 Mathematical Foundations for a Compositional Account of the Bayesian Brain ( http://arxiv.org/abs/2212.12538v2 ) ライセンス: Link先を確認 | Toby St Clere Smithe | (参考訳) この論文は、活発な推論とベイズ脳の構成的説明に向けた最初のステップを報告している。
具体的には、現代応用圏理論のツールを用いて、近似推論のための関手的意味論を提供する。
そのために、ベイズレンズの新しい概念である「シンタクティック」側で定義し、ベイズレンズの更新が構成レンズパターンに従って構成されることを示す。
ベイズレンズを用いて統計ゲームのフィブレーションを定義し、統計推論の様々な問題を対応するセクションとして分類する: 相対エントロピーの連鎖則は厳密なセクションとして形式化され、最大確率推定と自由エネルギーはラックス切断を与える。
この過程で,'copy-composition'という新たな概念を導入する。
一般開放力学系(特に決定論的、確率的、ランダム、離散的、連続時間)を多項式関手(英語版)のある種のコラージュとして新たに定式化し、モノイドのオピデックス付き圏(あるいは、一般化多項式関手(英語版)の多元圏(英語版)(multicategories for multicategories of generalized polynomial functors)にまとめる。
レンズを制御する動的システムと、我々の関門意味論のターゲットを提供するシステムである、シリアのモノイド双圏を定義するために、これらのオピニッジ付きカテゴリを使用する。
そこで我々は, 予測符号化ニューラルネットワークの双方向構成構造を自由エネルギー原理で説明し, 大脳皮質の双方向性に公式な数学的基盤を与える関手を構築した。
その過程で、線形回路図の多重カテゴリの代数を用いて、レートコードニューラルネットワークを構成する方法を説明し、その後、レンズと多項式関手によってこれを仮定することを示す。 This dissertation reports some first steps towards a compositional account of active inference and the Bayesian brain. Specifically, we use the tools of contemporary applied category theory to supply functorial semantics for approximate inference. To do so, we define on the `syntactic' side the new notion of Bayesian lens and show that Bayesian updating composes according to the compositional lens pattern. Using Bayesian lenses, and inspired by compositional game theory, we define fibrations of statistical games and classify various problems of statistical inference as corresponding sections: the chain rule of the relative entropy is formalized as a strict section, while maximum likelihood estimation and the free energy give lax sections. In the process, we introduce a new notion of `copy-composition'. On the `semantic' side, we present a new formalization of general open dynamical systems (particularly: deterministic, stochastic, and random; and discrete- and continuous-time) as certain coalgebras of polynomial functors, which we show collect into monoidal opindexed categories (or, alternatively, into algebras for multicategories of generalized polynomial functors). We use these opindexed categories to define monoidal bicategories of cilia: dynamical systems which control lenses, and which supply the target for our functorial semantics. Accordingly, we construct functors which explain the bidirectional compositional structure of predictive coding neural circuits under the free energy principle, thereby giving a formal mathematical underpinning to the bidirectionality observed in the cortex. Along the way, we explain how to compose rate-coded neural circuits using an algebra for a multicategory of linear circuit diagrams, showing subsequently that this is subsumed by lenses and polynomial functors. | 翻訳日:2023-06-30 19:26:29 公開日:2023-06-29 |
# メタキャリブレーション規則化ニューラルネットワーク Meta-Calibration Regularized Neural Networks ( http://arxiv.org/abs/2303.15057v2 ) ライセンス: Link先を確認 | Cheng Wang and Jacek Golebiowski | (参考訳) 予測確率と真正性確率のミスマッチは、現代のディープニューラルネットワークでよく確認されている。
最近の研究は、従来の目的と並んでキャリブレーション誤差のプロキシを最適化することで、キャリブレーションモデルを直接訓練することでこの問題に対処することを目的としている。
近年,メタ校正(Meta-Calibration, MC)により, メタラーニングによる校正モデル学習の有効性が示された。
本研究では,(1)ガンマネットワーク(gamma-net),(2)ガンマネットワークの最適化のための焦点損失のための連続空間におけるサンプル回りガンマを学習するメタネットワーク,(2)ガンマネットを円滑に最適化することを目的とした,ガウス型カーネル型不偏微分型eceであるsmoous expected calibration error(sece)という2つの主成分をmcに拡張する。
提案手法は,予測性能を維持しつつ,より優れたキャリブレーションに向けてニューラルネットワークを定式化する。
私たちの実験は
(a)連続空間におけるサンプルワイドガンマの学習は、効果的に校正を行うことができる。
b) SECE は ガンマネットをスムーズに最適化し, 双極子スキームの堅牢性を向上させる。
(c)ガンマネットとSECEの組み合わせは,様々なキャリブレーション指標で最高のキャリブレーション性能を達成し,最近提案された3つのデータセットに対する複数の手法と比較して,非常に競争力のある予測性能を維持する。 Miscalibration-the mismatch between predicted probability and the true correctness likelihood-has been frequently identified in modern deep neural networks. Recent work in the field aims to address this problem by training calibrated models directly by optimizing a proxy of the calibration error alongside the conventional objective. Recently, Meta-Calibration (MC) showed the effectiveness of using meta-learning for learning better calibrated models. In this work, we extend MC with two main components: (1) gamma network (gamma-net), a meta network to learn a sample-wise gamma at a continuous space for focal loss for optimizing backbone network; (2) smooth expected calibration error (SECE), a Gaussian-kernel based unbiased and differentiable ECE which aims to smoothly optimizing gamma-net. The proposed method regularizes neural network towards better calibration meanwhile retain predictive performance. Our experiments show that (a) learning sample-wise gamma at continuous space can effectively perform calibration; (b) SECE smoothly optimise gamma-net towards better robustness to binning schemes; (c) the combination of gamma-net and SECE achieve the best calibration performance across various calibration metrics and retain very competitive predictive performance as compared to multiple recently proposed methods on three datasets. | 翻訳日:2023-06-30 19:18:14 公開日:2023-06-29 |
# VAD:効率的な自律運転のためのベクトル的シーン表現 VAD: Vectorized Scene Representation for Efficient Autonomous Driving ( http://arxiv.org/abs/2303.12077v2 ) ライセンス: Link先を確認 | Bo Jiang, Shaoyu Chen, Qing Xu, Bencheng Liao, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang | (参考訳) 自律運転は、信頼できる軌道計画のために周囲の環境を包括的に理解する必要がある。
以前の作品では、高密度ラスタ化シーン表現(エージェント占有率やセマンティックマップなど)を使用して計画を行い、計算集約的で、インスタンスレベルの構造情報を見逃している。
本稿では,運転シーンを完全ベクトル化表現としてモデル化した,エンドツーエンドの自律走行ベクトル化パラダイムであるvadを提案する。
提案するベクトル化パラダイムには2つの大きな利点がある。
一方、VADはベクトル化されたエージェントの動きとマップ要素を明示的なインスタンスレベルの計画制約として利用し、計画の安全性を効果的に改善する。
一方、VADは計算集約的なラスタ化表現と手作業で設計された後処理のステップを取り除き、従来のエンドツーエンドの計画手法よりもはるかに高速である。
VADは、nuScenesデータセット上で最先端のエンドツーエンドプランニングパフォーマンスを達成し、以前のベストメソッドを大きなマージンで上回る。
我々のベースモデルであるVAD-Baseは平均衝突速度を29.0%削減し、2.5倍速く走らせる。
さらに、軽量なVAD-Tinyは推論速度(最大9.3倍)を大幅に改善し、計画性能も同等に向上した。
VADの優れた性能と高い効率は、自動運転システムの現実的な展開に不可欠であると考えています。
コードとモデルは、将来の研究を促進するためにリリースされる。 Autonomous driving requires a comprehensive understanding of the surrounding environment for reliable trajectory planning. Previous works rely on dense rasterized scene representation (e.g., agent occupancy and semantic map) to perform planning, which is computationally intensive and misses the instance-level structure information. In this paper, we propose VAD, an end-to-end vectorized paradigm for autonomous driving, which models the driving scene as a fully vectorized representation. The proposed vectorized paradigm has two significant advantages. On one hand, VAD exploits the vectorized agent motion and map elements as explicit instance-level planning constraints which effectively improves planning safety. On the other hand, VAD runs much faster than previous end-to-end planning methods by getting rid of computation-intensive rasterized representation and hand-designed post-processing steps. VAD achieves state-of-the-art end-to-end planning performance on the nuScenes dataset, outperforming the previous best method by a large margin. Our base model, VAD-Base, greatly reduces the average collision rate by 29.0% and runs 2.5x faster. Besides, a lightweight variant, VAD-Tiny, greatly improves the inference speed (up to 9.3x) while achieving comparable planning performance. We believe the excellent performance and the high efficiency of VAD are critical for the real-world deployment of an autonomous driving system. Code and models will be released for facilitating future research. | 翻訳日:2023-06-30 19:17:48 公開日:2023-06-29 |
# 量子計測における普遍性 Universality in Quantum Measurements ( http://arxiv.org/abs/2303.07966v3 ) ライセンス: Link先を確認 | Avijit Lahiri | (参考訳) 本稿では, 波動関数崩壊仮説とは違って, 波動関数のユニタリなSchr\odinger進化と整合した理論として出現するという, 2つの一般的な原理の形で, 測定装置の環境誘起デコヒーレンスに基づく量子計測理論のアプローチの主な特徴を概観する。
我々は、量子論が現実を記述せず、我々の現象的現実を文脈内で解釈する「it解釈」を構成するという、プランクスケールが交差しないような、哲学的性質のいくつかの観察で締めくくった。
プランクスケールを超えて、現実の根本的に新しい解釈が現れる可能性が高い。 We briefly review a number of major features of the approach to quantum measurement theory based on environment-induced decoherence of the measuring apparatus, and summarize our observations in the form of a couple of general principles that, unlike the wave function collapse hypothesis, emerge as ones consistent with the unitary Schr\"odinger evolution of wave functions. We conclude with a few observations of a philosophical nature, to the effect that that quantum theory does not purport to describe reality but constitutes an {\it interpretation} of our phenomenal reality within a context -- one where the Planck scale is not crossed. Beyond the Planck scale, a radically new interpretation of reality is likely to emerge. | 翻訳日:2023-06-30 19:17:09 公開日:2023-06-29 |
# 時空間的因果注意機構を有する解釈可能な水位予測器 Interpretable Water Level Forecaster with Spatiotemporal Causal Attention Mechanisms ( http://arxiv.org/abs/2303.00515v6 ) ライセンス: Link先を確認 | Sunghcul Hong, Yunjin Choi and Jong-June Jeon | (参考訳) ハン川の水位を予測することは交通の制御と自然災害の回避に不可欠である。
漢川の流れは様々な複雑に結びついている要因の影響を受けている。
したがって、単純な予測マシンはシリアルパターンをキャプチャできないことが多い。
一方、複雑な予測モデルは、モデル出力の解釈可能性を失う。
本研究は,先行知識に基づく因果関係を利用した新しいトランスフォーマーを用いたニューラルネットワークモデルを提案する。
変圧器は空間的および時間的因果関係をマスク付き多層ネットワークで記述した時空間的注意重みからなる。
本モデルでは,既存の時空間予測モデルに対して2つの利点がある。
第一に、モデルにより各部位に不均一な予測が可能となり、フレキシブルな回帰が因果ネットワークに適用できる。
次に、モデルは部分的に同定された因果構造に適合する。
その結果,モデルを通じて,適用可能な因果ネットワークの制約を緩和した。
実データ分析では,2016年から2021年までのハン川データセットを用いて,提案したモデルとディープラーニングモデルを比較し,干潟力から生じる季節性などの事前知識と解釈可能な一貫性のあるモデルを提供することを確認する。
さらに、予測性能では、最先端モデルよりも、あるいは競合モデルの方が優れています。 Forecasting the water level of the Han River is essential to control traffic and avoid natural disasters. The stream flow of the Han River is affected by various and intricately connected factors. Thus, a simple forecasting machine frequently fails to capture its serial pattern. On the other hand, a complex predictive model loses the interpretability of the model output. This work proposes a neural network model with a novel transformer exploiting a causal relationship based on prior knowledge. The transformer consists of spatiotemporal attention weight that describes the spatial and temporal causation with multilayer networks with masking. Our model has two distinguished advantages against the existing spatiotemporal forecasting models. First, the model allows the heterogeneous predictors for each site such that a flexible regression is applicable to the causal network. Next, the model is adapted to partially identified causal structures. As a result, we have relaxed the constraints of the applicable causal network through our model. In real data analysis, we use the Han River dataset from 2016 to 2021, compare the proposed model with deep learning models, and confirm that our model provides an interpretable and consistent model with prior knowledge, such as a seasonality arising from the tidal force. Furthermore, in prediction performance, our model is better than or competitive with the state-of-the-art models. | 翻訳日:2023-06-30 19:16:56 公開日:2023-06-29 |
# 組合せ最適化問題の高速解に対する確率的量子アニーリング Stochastic Simulated Quantum Annealing for Fast Solution of Combinatorial Optimization Problems ( http://arxiv.org/abs/2302.12454v3 ) ライセンス: Link先を確認 | Naoya Onizawa and Ryoma Sasaki and Duckgyu Shin and Warren J. Gross and Takahiro Hanyu | (参考訳) 本稿では,大規模組合せ最適化問題に対する確率的量子アニール法(SSQA)を提案する。
SSQAは確率計算と量子モンテカルロに基づいて設計されており、古典計算において複数のスピン(確率ビット)のレプリカを使用することで量子アニール(QA)をシミュレートすることができる。
確率計算を用いることで、効率的な並列スピン状態更新アルゴリズムが実現し、世界最小エネルギーに関する解を素早く探索することができる。
したがって、SSQAは大規模な問題に対して量子的アニールを実現し、QAとは異なり、完全に連結されたモデルを組合せ最適化で扱うことができる。
提案手法は,典型的な組合せ最適化問題であるグラフ同型問題に対してMATLABで評価する。
提案手法は,従来の確率的擬似焼鈍法よりもはるかに高速な収束速度を実現する。
さらに、従来のSA法と比較して、QAよりも100倍大きい問題サイズと25倍大きい問題サイズを同様の収束確率で処理することができる。 In this paper, we introduce stochastic simulated quantum annealing (SSQA) for large-scale combinatorial optimization problems. SSQA is designed based on stochastic computing and quantum Monte Carlo, which can simulate quantum annealing (QA) by using multiple replicas of spins (probabilistic bits) in classical computing. The use of stochastic computing leads to an efficient parallel spin-state update algorithm, enabling quick search for a solution around the global minimum energy. Therefore, SSQA realizes quantum-like annealing for large-scale problems and can handle fully connected models in combinatorial optimization, unlike QA. The proposed method is evaluated in MATLAB on graph isomorphism problems, which are typical combinatorial optimization problems. The proposed method achieves a convergence speed an order of magnitude faster than a conventional stochastic simulaated annealing method. Additionally, it can handle a 100-times larger problem size compared to QA and a 25-times larger problem size compared to a traditional SA method, respectively, for similar convergence probabilities. | 翻訳日:2023-06-30 19:16:37 公開日:2023-06-29 |
# 量子回路を持つ多次元フーリエ級数 Multidimensional Fourier series with quantum circuits ( http://arxiv.org/abs/2302.03389v3 ) ライセンス: Link先を確認 | Berta Casas, Alba Cervera-Lierta | (参考訳) 量子機械学習は、機械学習と量子計算を統合することを目的とした分野である。
近年、この分野は、古典的機械学習問題に新たな洞察をもたらす可能性を持つ活発な研究分野として浮上している。
この分野における課題の1つは、古典的ニューラルネットワークのように、パラメトリズド量子回路の表現可能性と普遍関数近似器となる能力を探ることである。
最近の研究では、量子教師付き学習モデルにより、任意の1次元フーリエ級数に適合し、それらの普遍性を証明できることが示されている。
しかし、多次元関数のモデルは、同じ詳細レベルでは研究されていない。
本研究では,多次元フーリエ列を生成する各種回路アンサーゼの表現性について検討する。
いくつかのアンサーゼに対して、そのような関数を適合させるために必要な自由度は、回路によって生成されるヒルベルト空間の可利用度よりも速く成長する。
例えば、シングルキュートモデルは任意の多次元フーリエ級数を表すために限定的なパワーを持つ。
それにもかかわらず、自由度を満たすためにより多くの四角形またはより高い局所次元を用いて回路のヒルベルト空間を拡大できることを示し、それによってモデルの普遍性を保証する。 Quantum machine learning is the field that aims to integrate machine learning with quantum computation. In recent years, the field has emerged as an active research area with the potential to bring new insights to classical machine learning problems. One of the challenges in the field is to explore the expressibility of parametrized quantum circuits and their ability to be universal function approximators, as classical neural networks are. Recent works have shown that with a quantum supervised learning model, we can fit any one-dimensional Fourier series, proving their universality. However, models for multidimensional functions have not been explored in the same level of detail. In this work, we study the expressibility of various types of circuit ansatzes that generate multidimensional Fourier series. We found that, for some ansatzes, the degrees of freedom required for fitting such functions grow faster than the available degrees in the Hilbert space generated by the circuits. For example, single-qudit models have limited power to represent arbitrary multidimensional Fourier series. Despite this, we show that we can enlarge the Hilbert space of the circuit by using more qudits or higher local dimensions to meet the degrees of freedom requirements, thus ensuring the universality of the models. | 翻訳日:2023-06-30 19:16:06 公開日:2023-06-29 |
# 共振スペクトル位相フリップによる広帯域2光子吸収の促進 Enhancement of broadband entangled two-photon absorption by resonant spectral phase flips ( http://arxiv.org/abs/2302.02846v3 ) ライセンス: Link先を確認 | Baihong Li and Holger F. Hofmann | (参考訳) 広帯域エネルギー-時間絡み合いは、正確な2光子共鳴と非常に短い一致時間を組み合わせることで、2光子吸収率(TPA)を高めるために用いられる。
この短い一致時間のため、ブロードバンドTPAは中間レベルのスペクトルに敏感ではないため、中間遷移が完全に仮想である場合に最適な選択となる。
異なる中間共鳴の場合、中間共鳴と一致する位相分散を導入することにより、TPAを強化することができる。
ここでは、特定の周波数以上の全ての周波数の位相が、この周波数以下の周波数に対して半波長シフトされる単一光子スペクトルにおける位相フリップの効果を考察する。
位相が反転する周波数をスキャンして中間共鳴の位置を明らかにすることができる。
共振位相フリップは、典型的な共鳴を特徴づける分散の非対称な虚部への寄与を最大化し、結果としてtpa速度を大幅に向上させる。
TPAのボソニック対称性により、2つの光子の周波数差が共鳴の直線幅よりもはるかに高いときに共鳴が起こると、増強が最強となる。
以上の結果から, 直接光子検出が困難なスペクトル下端の位相感度分光には, 広帯域の位相反転型tpaが適する可能性が示唆された。 Broadband energy-time entanglement can be used to enhance the rate of two-photon absorption (TPA) by combining a precise two-photon resonance with a very short coincidence time. Because of this short coincidence time, broadband TPA is not sensitive to the spectrum of intermediate levels, making it the optimal choice when the intermediate transitions are entirely virtual. In the case of distinct intermediate resonances, it is possible to enhance TPA by introducing a phase dispersion that matches the intermediate resonances. Here, we consider the effects of a phase flip in the single photon spectrum, where the phases of all frequencies above a certain frequency are shifted by half a wavelength relative to the frequencies below this frequency. The frequency at which the phase is flipped can then be scanned to reveal the position of intermediate resonances. We find that a resonant phase flip maximizes the contributions of the asymmetric imaginary part of the dispersion that characterizes a typical resonance, resulting in a considerable enhancement of the TPA rate. Due to the bosonic symmetry of TPA, the enhancement is strongest when the resonance occurs when the frequency difference of the two photons is much higher than the linewidth of the resonance. Our results indicate that broadband entangled TPA with spectral phase flips may be suitable for phase-sensitive spectroscopy at the lower end of the spectrum where direct photon detection is difficult. | 翻訳日:2023-06-30 19:15:50 公開日:2023-06-29 |
# 物理インフォームドトークントランス Physics Informed Token Transformer ( http://arxiv.org/abs/2305.08757v2 ) ライセンス: Link先を確認 | Cooper Lorsung, Zijie Li, Amir Barati Farimani | (参考訳) 偏微分方程式 (Partial Differential Equations, PDE) は、科学と工学の多くの分野の中核である。
古典的なアプローチはしばしば違法に遅いが、機械学習モデルはシステム情報を完全に組み込むことができないことが多い。
過去数年間、トランスフォーマーは人工知能の分野に大きな影響を与え、PDEアプリケーションでの利用が増加している。
しかし、その成功にもかかわらず、現在トランスフォーマーは物理と推論の統合を欠いている。
本研究の目的は、PITT: Physics Informed Token Transformerを導入することである。
PITTの目的は、偏微分方程式(PDE)を学習プロセスに埋め込むことによって物理学の知識を統合することである。
PITTは方程式トークン化法を用いて解析駆動型数値更新演算子を学習する。
PDEのトークン化と部分微分の埋め込みにより、トランスフォーマーモデルは物理過程の背後にある基礎知識を認識する。
これを証明するために、PITTは1Dと2DのPDEニューラル演算子予測タスクに挑戦する。
その結果,pitは一般的なニューラル演算子モデルよりも優れており,制御方程式から物理的に関連のある情報を抽出できることがわかった。 Solving Partial Differential Equations (PDEs) is the core of many fields of science and engineering. While classical approaches are often prohibitively slow, machine learning models often fail to incorporate complete system information. Over the past few years, transformers have had a significant impact on the field of Artificial Intelligence and have seen increased usage in PDE applications. However, despite their success, transformers currently lack integration with physics and reasoning. This study aims to address this issue by introducing PITT: Physics Informed Token Transformer. The purpose of PITT is to incorporate the knowledge of physics by embedding partial differential equations (PDEs) into the learning process. PITT uses an equation tokenization method to learn an analytically-driven numerical update operator. By tokenizing PDEs and embedding partial derivatives, the transformer models become aware of the underlying knowledge behind physical processes. To demonstrate this, PITT is tested on challenging 1D and 2D PDE neural operator prediction tasks. The results show that PITT outperforms popular neural operator models and has the ability to extract physically relevant information from governing equations. | 翻訳日:2023-06-30 19:09:47 公開日:2023-06-29 |
# 量子力学の別の基礎 An alternative foundation of quantum mechanics ( http://arxiv.org/abs/2305.06727v4 ) ライセンス: Link先を確認 | Inge S. Helland | (参考訳) 本稿では,量子論への新たなアプローチを提案する。
この基礎は、まず理論変数、すなわちアクセス可能あるいはアクセス不能な物理変数、すなわちアクターが任意に鋭い数値をそれらに割り当てることは可能または不可能であると考えられる。
認識論的プロセスでは、アクセス可能な変数は、アクターまたは一部の通信アクターと接続された理想的な観察である。
群作用はこれらの変数上で定義され、群表現論はヒルベルト空間形式論の発展の基礎となる。
アクセス可能な理論変数に対応する作用素が導出され、離散の場合、可能な物理値はこれらの作用素の固有値であると主張する。
このアプローチによって示唆される量子状態(あるいは固有ベクトル空間)の解釈は、自然に焦点を絞った質問であり、これらの質問に対する鋭い答えである。
質問はボーアが定義した意味で補完的かもしれない。
論文の焦点は、提案された量子論の基礎に関連する数学的定理である。
ここで、このアプローチで必要とされる群と変換は、アクセス可能な変数が有限次元である場合に明示的に構成できることを示す。
これは理論をかなり単純化する。
この理論をより一般化するために、最終的に到達不能変数 ia の概念は概念の概念に置き換えられ、この関係において圏論の側面は群論に置き換わる。
量子力学の解釈に関する議論は、基礎問題の徹底的な処理の後に行われるべきだと私は考えています。
ここで提案される解釈は、量子論の一般的なエピステミック解釈と呼ばれる。 A new approach towards quantum theory is proposed in this paper. The basis is first taken to be theoretical variables, physical variables that may be accessible or inaccessible, i.e., it may be possible or impossible for an actor to assign arbitrarily sharp numerical values to them. In an epistemic process, the accessible variables are just ideal observations connected to an actor or to some communicating actors. Group actions are defined on these variables, and group representation theory is the basis for developing the Hilbert space formalism. Operators corresponding to accessible theoretical variables are derived, and in the discrete case it is argued that the possible physical values are the eigenvalues of these operators. The interpretation of quantum states (or eigenvector spaces) implied by this approach is as focused questions to nature together with sharp answers to those questions. The questions may be complementary in the sense defined by Bohr. The focus of the paper are some mathematical theorems associated with the proposed foundation of quantum theory. It is shown here that the groups and transformation needed in this approach can be constructed explicitly in the case where the accessible variables are finite-dimensional. This simplifies the theory considerably. To make the theory more general, at the end the concept of inaccessible variables ia replaced by the concept of notions, and in this connection, aspects of category theory replaces group theory. It is my view that the discussion on the interpretation of quantum mechanics should come after a thorough treatment of the foundation issue. The interpretation proposed here may be called a general epistemic interpretation of quantum theory. | 翻訳日:2023-06-30 19:09:00 公開日:2023-06-29 |
# 量子回路のセキュアコンパイルのためのランダム化可逆ゲートベース難読化 Randomized Reversible Gate-Based Obfuscation for Secured Compilation of Quantum Circuit ( http://arxiv.org/abs/2305.01133v2 ) ライセンス: Link先を確認 | Subrata Das, Swaroop Ghosh | (参考訳) 与えられた問題に対する信頼性の高い結果を提供する量子回路の成功は、短期雑音量子コンピュータのゲート数と深さに依存する。
ハードウェアのネイティブゲートにハイレベルゲートを分解し、回路を最適化する量子回路コンパイラは、量子コンピューティングにおいて重要な役割を果たす。
しかし、特に大規模量子回路において、最適化プロセスの品質と時間の複雑さは著しく異なる。
その結果、サードパーティの(しばしば信頼性の低い/信頼できない)コンパイラが登場し、いわゆる信頼されたコンパイラよりも複雑な量子回路の最適化がより高速であると主張した。
しかし、信頼できないコンパイラは、量子回路に埋め込まれた機密知的財産権(IP)の盗難など、深刻なセキュリティリスクを引き起こす可能性がある。
本研究では,ランダム化可逆ゲートを用いた量子回路の難読化手法を提案する。
アイデアは、小さなランダム回路を元の回路に挿入し、信頼できないコンパイラに送ることである。
回路機能が破損しているため、敵は誤ったipを取得できる。
しかし、ユーザは不正な出力後コンパイルを受けることもできる。
この問題を回避するため、コンパイルされた回路のランダム回路の逆を結合して元の機能を復元する。
本手法の実用性は,ベンチマーク回路上で徹底的な実験を行い,全変動距離(tvd)を算出して難読化の質を測定することで実証する。
提案手法は, 最大1.92のTVDを実現し, これまでに報告した難読化法よりも少なくとも2倍高い性能を示した。
また,新しいリバースエンジニアリング(RE)手法を提案し,その提案した難読化がRE攻撃に対する耐性を示す。
提案手法は, フィリティの最小劣化(平均で約1%から3%)を導入する。 The success of quantum circuits in providing reliable outcomes for a given problem depends on the gate count and depth in near-term noisy quantum computers. Quantum circuit compilers that decompose high-level gates to native gates of the hardware and optimize the circuit play a key role in quantum computing. However, the quality and time complexity of the optimization process can vary significantly especially for practically relevant large-scale quantum circuits. As a result, third-party (often less-trusted/untrusted) compilers have emerged, claiming to provide better and faster optimization of complex quantum circuits than so-called trusted compilers. However, untrusted compilers can pose severe security risks, such as the theft of sensitive intellectual property (IP) embedded within the quantum circuit. We propose an obfuscation technique for quantum circuits using randomized reversible gates to protect them from such attacks during compilation. The idea is to insert a small random circuit into the original circuit and send it to the untrusted compiler. Since the circuit function is corrupted, the adversary may get incorrect IP. However, the user may also get incorrect output post-compilation. To circumvent this issue, we concatenate the inverse of the random circuit in the compiled circuit to recover the original functionality. We demonstrate the practicality of our method by conducting exhaustive experiments on a set of benchmark circuits and measuring the quality of obfuscation by calculating the Total Variation Distance (TVD) metric. Our method achieves TVD of up to 1.92 and performs at least 2X better than a previously reported obfuscation method. We also propose a novel adversarial reverse engineering (RE) approach and show that the proposed obfuscation is resilient against RE attacks. The proposed technique introduces minimal degradation in fidelity (~1% to ~3% on average). | 翻訳日:2023-06-30 19:08:04 公開日:2023-06-29 |
# 自己引用グラフを用いたインパクト指向文脈学者のプロファイリング Impact-Oriented Contextual Scholar Profiling using Self-Citation Graphs ( http://arxiv.org/abs/2304.12217v3 ) ライセンス: Link先を確認 | Yuankai Luo, Lei Shi, Mufan Xu, Yuwen Ji, Fengli Xiao, Chunming Hu, Zhiguang Shan | (参考訳) 研究者の科学的影響を定量的にプロファイリングすることは、現代研究社会にとって重要である。
現代の文献指標(h-indexなど)やリスト、ネットワークの実践は、学者のランキングではよく機能するが、プロファイル推論や理解のような学者中心の分析的なタスクには構造化された文脈を提供していない。
本稿では,構造化コンテキスト,研究者中心,進化に富む3つの必須要件を満たす,グラフベースの新たな学術プロファイルのスイートであるgeneticflow(gf)を提案する。
何百万人もの学者による大規模学術データソース上でGFを計算するためのフレームワークを提案する。
このフレームワークは、新しい教師なしアドバイザ・アドバイザ検出アルゴリズム、解釈可能な特徴を用いたよく設計された引用型分類器、微調整されたグラフニューラルネットワーク(GNN)モデルを含んでいる。
科学賞推理の実際の課題について評価を行う。
実験の結果,ベストgfプロファイルのf1スコアは,検討した6つのコンピュータサイエンス分野において,インパクトインジケータや書誌ネットワークの代替手法を有意に上回っていることがわかった。
さらに、63.6%-66.5%のノードと12.5%-29.9%のエッジを持つコアgfプロファイルは、6つのフィールドのうち5つで既存の方法を大きく上回っている。
GFプロファイリングの結果の可視化は、高インパクト研究者のための人間の説明可能なパターンも明らかにする。 Quantitatively profiling a scholar's scientific impact is important to modern research society. Current practices with bibliometric indicators (e.g., h-index), lists, and networks perform well at scholar ranking, but do not provide structured context for scholar-centric, analytical tasks such as profile reasoning and understanding. This work presents GeneticFlow (GF), a suite of novel graph-based scholar profiles that fulfill three essential requirements: structured-context, scholar-centric, and evolution-rich. We propose a framework to compute GF over large-scale academic data sources with millions of scholars. The framework encompasses a new unsupervised advisor-advisee detection algorithm, a well-engineered citation type classifier using interpretable features, and a fine-tuned graph neural network (GNN) model. Evaluations are conducted on the real-world task of scientific award inference. Experiment outcomes show that the F1 score of best GF profile significantly outperforms alternative methods of impact indicators and bibliometric networks in all the 6 computer science fields considered. Moreover, the core GF profiles, with 63.6%-66.5% nodes and 12.5%-29.9% edges of the full profile, still significantly outrun existing methods in 5 out of 6 fields studied. Visualization of GF profiling result also reveals human explainable patterns for high-impact scholars. | 翻訳日:2023-06-30 19:07:38 公開日:2023-06-29 |
# チューナブルレンジ量子回路における動的遷移としてのスクランブルの開始 Onset of scrambling as a dynamical transition in tunable-range quantum circuits ( http://arxiv.org/abs/2304.09833v3 ) ライセンス: Link先を確認 | Sridevi Kuriyattil, Tomohiro Hashizume, Gregory Bentsen, and Andrew J. Daley | (参考訳) 高速スクランブル多体量子システムでは、情報の拡散と絡み合いがシステムサイズと対数的に増加する時間スケールに基づいて構築される。
これは、多体システムの力学を理解することや、絡み合ったリソース状態やエラー訂正コードを効率的に生成することに対する基本的な関心である。
本研究では,長距離接続のレベルが異なる量子回路におけるスクランブルの開始点を示す動的遷移を同定する。
特に、異なる構造の回路の相互作用範囲の関数として、三部構造相互情報は、異なる動的挙動の2つの明確に定義された状態の間の臨界点周辺のスケーリング崩壊を示す。
この遷移を、関連する長距離ブラウン回路モデルで解析的に研究し、この遷移がパラメータ空間の特定の領域における長距離イジングモデルの統計力学にどのようにマッピングできるかを示す。
このマッピングは、クリフォード回路数値から抽出された臨界指数と一致する平均場臨界指数$\nu = -1/(1+s_c)$を予測する。
従来のパワー-ロー相互作用を持つシステムに加えて、中性原子配列を用いた実験で実現可能な決定論的スパース回路における同じ現象を同定する。 In a fast scrambling many-body quantum system, information is spread and entanglement is built up on a timescale that grows logarithmically with the system size. This is of fundamental interest in understanding the dynamics of many-body systems, as well as in efficiently producing entangled resource states and error-correcting codes. In this work, we identify a dynamical transition marking the onset of scrambling in quantum circuits with different levels of long-range connectivity. In particular, we show that as a function of the interaction range for circuits of different structures, the tripartite mutual information exhibits a scaling collapse around a critical point between two clearly defined regimes of different dynamical behaviour. We study this transition analytically in a related long-range Brownian circuit model and show how the transition can be mapped onto the statistical mechanics of a long-range Ising model in a particular region of parameter space. This mapping predicts mean-field critical exponents $\nu = -1/(1+s_c)$, which are consistent with the critical exponents extracted from Clifford circuit numerics. In addition to systems with conventional power-law interactions, we identify the same phenomenon in deterministic, sparse circuits that can be realised in experiments with neutral atom arrays. | 翻訳日:2023-06-30 19:07:14 公開日:2023-06-29 |
# 熱原子集合体の例外点の観測 Observation of Exceptional Points in Thermal Atomic Ensembles ( http://arxiv.org/abs/2304.06985v2 ) ライセンス: Link先を確認 | Chao Liang and Yuanjiang Tang and An-Ning Xu and Yong-Chun Liu | (参考訳) 非エルミート系における例外点(EPs)は近年広く関心を集めており、高感度化に向けた興味深い展望を生み出している。
しかし、EPは、量子センシングの最も重要なプラットフォームの一つである熱原子アンサンブルではまだ実現されていない。
ここでは,多層熱原子アンサンブル中のEPを実験的に観察し,一桁の磁場の高感度センシングを実現する。
我々は、原子の豊富なエネルギー準位を生かし、励起状態とレーザーカップリングして、異なるエネルギー準位に対して不均衡な崩壊率をもたらすことにより、選択されたエネルギー準位に対して効果的な崩壊を構築する。
さらに,吸収特性と分散特性を両立させた共振ピークの分離を検出するための光偏光回転測定法を提案し,従来の伝送計測法に比べて分割の増大が有利であることを示す。
また, 本システムでは, 効果的な結合強度と減衰速度は柔軟に調整可能であり, epの位置は調整可能であり, 測定範囲を拡大する。
我々の研究は、EPと非エルミート物理学を研究するための新しい制御可能なプラットフォームを提供するだけでなく、EP強化センサーの設計のための新しいアイデアを提供し、磁場やその他の物理量の高精度センシングにおける実践的応用のための現実的な機会を開く。 Exceptional points (EPs) in non-Hermitian systems have recently attracted wide interests and spawned intriguing prospects for enhanced sensing. However, EPs have not yet been realized in thermal atomic ensembles, which is one of the most important platforms for quantum sensing. Here we experimentally observe EPs in multi-level thermal atomic ensembles, and realize enhanced sensing of magnetic field for one order of magnitude. We take advantage of the rich energy levels of atoms and construct effective decays for selected energy levels by employing laser coupling with the excited state, yielding unbalanced decay rates for different energy levels, which finally results in the existence of EPs. Furthermore, we propose the optical polarization rotation measurement scheme to detect the splitting of the resonance peaks, which makes use of both the absorption and dispersion properties, and shows advantage with enhanced splitting compared with the conventional transmission measurement scheme. Besides, in our system both the effective coupling strength and decay rates are flexibly adjustable, and thus the position of the EPs are tunable, which expands the measurement range. Our work not only provides a new controllable platform for studying EPs and non-Hermitian physics, but also provide new ideas for the design of EP-enhanced sensors and opens up realistic opportunities for practical applications in the high-precision sensing of magnetic field and other physical quantities. | 翻訳日:2023-06-30 19:06:53 公開日:2023-06-29 |
# 共有意図性の計算機構と合理性と意識に関する推測について On Computational Mechanisms for Shared Intentionality, and Speculation on Rationality and Consciousness ( http://arxiv.org/abs/2306.13657v2 ) ライセンス: Link先を確認 | John Rushby | (参考訳) 人類の特異な特質は、新しい行動、協調行動、チームワークを行う能力である。
このためには、目標、計画、アイデアを個人の脳間で伝達し、意思を共有することが必要です。
ダビッド・マーの情報処理モデルを用いて、前言語論的計算エージェント間の共有意図性を実現するための基本的なメカニズムの特徴を導き、現在のAIベースのロボットにどのように実装できるかを示す。
より投機的に、この思考実験によって引き起こされるメカニズムは人間に適用され、人間の合理性や観察と一致した意図的・現象的意識の側面を説明するために拡張される。
これは、合理性と意識について、私がSIFT(Shared Intentionality First Theory)と呼ぶものを生み出します。
共有意図の重要性は、これまでも認識され、主張されてきたが、一般的には社会学的あるいは行動学的観点から認識されている。
SIFTは、基礎となるメカニズムにコンピュータ科学の視点を適用することで、以前の仕事を補完する。 A singular attribute of humankind is our ability to undertake novel, cooperative behavior, or teamwork. This requires that we can communicate goals, plans, and ideas between the brains of individuals to create shared intentionality. Using the information processing model of David Marr, I derive necessary characteristics of basic mechanisms to enable shared intentionality between prelinguistic computational agents and indicate how these could be implemented in present-day AI-based robots. More speculatively, I suggest the mechanisms derived by this thought experiment apply to humans and extend to provide explanations for human rationality and aspects of intentional and phenomenal consciousness that accord with observation. This yields what I call the Shared Intentionality First Theory (SIFT) for rationality and consciousness. The significance of shared intentionality has been recognized and advocated previously, but typically from a sociological or behavioral point of view. SIFT complements prior work by applying a computer science perspective to the underlying mechanisms. | 翻訳日:2023-06-30 18:58:44 公開日:2023-06-29 |
# 量子JPEG Quantum JPEG ( http://arxiv.org/abs/2306.09323v2 ) ライセンス: Link先を確認 | Simone Roncallo, Lorenzo Maccone, Chiara Macchiavello | (参考訳) JPEGアルゴリズムは、その高空間周波数成分をフィルタリングすることによりデジタル画像を圧縮する。
同様に、量子フーリエ変換を用いて画像の高周波量子ビットを破棄し、それを低い解像度にダウンサンプリングする量子プロトコルを導入する。
これにより、ストレージと通信のための限られた量子リソースでさえ、画像をキャプチャ、圧縮、送信することができる。
我々は,このプロトコルが古典的プロトコルに対して有利である条件下で示す。 The JPEG algorithm compresses a digital image by filtering its high spatial-frequency components. Similarly, we introduce a quantum protocol that uses the quantum Fourier transform to discard the high-frequency qubits of an image, downsampling it to a lower resolution. This allows to capture, compress and send images even with limited quantum resources for storage and communication. We show under which conditions this protocol is advantageous with respect to its classical counterpart. | 翻訳日:2023-06-30 18:58:07 公開日:2023-06-29 |
# エネルギー時系列解析と予測のための深層学習 Deep Learning for Energy Time-Series Analysis and Forecasting ( http://arxiv.org/abs/2306.09129v2 ) ライセンス: Link先を確認 | Maria Tzelepi, Charalampos Symeonidis, Paraskevi Nousi, Efstratios Kakaletsis, Theodoros Manousis, Pavlos Tosidis, Nikos Nikolaidis and Anastasios Tefas | (参考訳) エネルギー時系列分析(Energy time-series analysis)は、過去のエネルギー観測とおそらく外的要因を分析し、未来を予測するプロセスを記述する。
電力需要予測、パーソナライズされたエネルギー消費予測、再生可能エネルギー発生予測など、エネルギー時系列分析と予測の全般的な分野において、さまざまなタスクが関与している。
広範囲の視覚タスクにおけるDeep Learning(DL)の異常なパフォーマンスに続いて、DLモデルは時系列予測タスクでうまく活用されている。
本稿では,エネルギー時系列予測タスクの性能向上を目的とした多種多様なDL手法について,特にギリシャエネルギー市場に注目し,その実践に必要な知識を読者に提供することを目的とする。 Energy time-series analysis describes the process of analyzing past energy observations and possibly external factors so as to predict the future. Different tasks are involved in the general field of energy time-series analysis and forecasting, with electric load demand forecasting, personalized energy consumption forecasting, as well as renewable energy generation forecasting being among the most common ones. Following the exceptional performance of Deep Learning (DL) in a broad area of vision tasks, DL models have successfully been utilized in time-series forecasting tasks. This paper aims to provide insight into various DL methods geared towards improving the performance in energy time-series forecasting tasks, with special emphasis in Greek Energy Market, and equip the reader with the necessary knowledge to apply these methods in practice. | 翻訳日:2023-06-30 18:58:00 公開日:2023-06-29 |
# 大型鋳造シリコンフォトニクスにおける波長可変量子エミッタ Tunable quantum emitters on large-scale foundry silicon photonics ( http://arxiv.org/abs/2306.06460v3 ) ライセンス: Link先を確認 | Hugo Larocque, Mustafa Atabey Buyukkaya, Carlos Errando-Herranz, Samuel Harper, Jacques Carolan, Chang-Min Lee, Christopher J.K. Richardson, Gerald L. Leake, Daniel J. Coleman, Michael L. Fanto, Edo Waks, Dirk Englund | (参考訳) 単一光子と単一原子系のレベルでの大規模多体量子システム制御は、量子情報科学と技術における中心的な目標である。
集中的な研究と開発により、鋳物ベースのシリコン・オン・インシュレーターフォトニック集積回路は、個々のモードをプログラム可能な大規模光制御のための主要なプラットフォームへと推進された。
しかし、原子量子系と単一エミッタのチューナビリティを統合することは、未解決の課題である。
ここでは,高輝度赤外半導体量子ドット単一光子エミッタを含む複数InAs/InPマイクロチップレットを300〜mmのファクトリープロセスで作製したシリコンオン絶縁体フォトニック集積回路に結合することで,この障壁を克服する。
このプラットフォームでは、共振蛍光による単一光子放出と、電気的に制御された不揮発性メモリによるスケーラブルな発光波長可変性を実現する。
フォトニックと量子システムの複合制御は、半導体ファイントリーで製造されるプログラマブルな量子情報プロセッサへの扉を開く。 Controlling large-scale many-body quantum systems at the level of single photons and single atomic systems is a central goal in quantum information science and technology. Intensive research and development has propelled foundry-based silicon-on-insulator photonic integrated circuits to a leading platform for large-scale optical control with individual mode programmability. However, integrating atomic quantum systems with single-emitter tunability remains an open challenge. Here, we overcome this barrier through the hybrid integration of multiple InAs/InP microchiplets containing high-brightness infrared semiconductor quantum dot single photon emitters into advanced silicon-on-insulator photonic integrated circuits fabricated in a 300~mm foundry process. With this platform, we achieve single photon emission via resonance fluorescence and scalable emission wavelength tunability through an electrically controlled non-volatile memory. The combined control of photonic and quantum systems opens the door to programmable quantum information processors manufactured in leading semiconductor foundries. | 翻訳日:2023-06-30 18:57:48 公開日:2023-06-29 |
# 空間最適化同型行列乗算によるプライバシー保護PCAの改善 Improved Privacy-Preserving PCA Using Space-optimized Homomorphic Matrix Multiplication ( http://arxiv.org/abs/2305.17341v3 ) ライセンス: Link先を確認 | Xirong Ma | (参考訳) 主成分分析(principal component analysis, pca)は、機械学習とデータ分析の分野で広く利用されている重要な技術である。
情報の損失を最小限に抑えながら、データセットの次元性を低減することを目的としている。
近年,セキュアなクラウドコンピューティングシナリオにおいて,プライバシ保護型PCAアルゴリズムの同型暗号化を活用する取り組みが進められている。
これらのアプローチは一般にPowerMethodと呼ばれるPCAルーチンを使用し、共分散行列を入力として、データセットの一次成分に対応する近似固有ベクトルを生成する。
しかし、それらの性能は、効率的な同型共分散行列計算回路とPowerMethodアルゴリズムの正確な同型ベクトル正規化戦略が存在しないことで制約される。
本研究では,これらの制約に対処するプライバシ保存型pcaに対する新しいアプローチを提案する。 Principal Component Analysis (PCA) is a pivotal technique widely utilized in the realms of machine learning and data analysis. It aims to reduce the dimensionality of a dataset while minimizing the loss of information. In recent years, there have been endeavors to utilize homomorphic encryption in privacy-preserving PCA algorithms for the secure cloud computing scenario. These approaches commonly employ a PCA routine known as PowerMethod, which takes the covariance matrix as input and generates an approximate eigenvector corresponding to the primary component of the dataset. However, their performance is constrained by the absence of an efficient homomorphic covariance matrix computation circuit and an accurate homomorphic vector normalization strategy in the PowerMethod algorithm. In this study, we propose a novel approach to privacy-preserving PCA that addresses these limitations, resulting in superior efficiency, accuracy, and scalability compared to previous approaches | 翻訳日:2023-06-30 18:57:35 公開日:2023-06-29 |
# SVDinsTN:効率的な構造探索を用いたテンソルネットワーク表現の統合手法 SVDinsTN: An Integrated Method for Tensor Network Representation with Efficient Structure Search ( http://arxiv.org/abs/2305.14912v2 ) ライセンス: Link先を確認 | Yu-Bang Zheng, Xi-Le Zhao, Junhua Zeng, Chao Li, Qibin Zhao, Heng-Chao Li, Ting-Zhu Huang | (参考訳) テンソルネットワーク(TN)表現は、データ解析と機械学習の強力な技術である。
TN構造探索(TN-SS)の課題は、コンパクトな表現を実現するために最適な構造を探すことを目的としている。
既存のTN-SS法は主に、繰り返し構造評価によって計算コストが過大になる2段階最適化法を採用している。
この問題に対処するために,svd-inspired tn decomposition (svdinstn) という効率的な統合型(シングルレベル)手法を提案する。
完全接続されたTNの各エッジに対角係数を挿入することにより、TNコアと対角因子を同時に計算し、最もコンパクトなTN構造を示す因子の空間性を明らかにする。
実世界のデータを用いた実験結果から,SVDinsTNは既存のTN-SS法と比較して,実行時の約10\sim{}10^3$倍の加速を実現し,表現能力の水準を維持した。 Tensor network (TN) representation is a powerful technique for data analysis and machine learning. It practically involves a challenging TN structure search (TN-SS) problem, which aims to search for the optimal structure to achieve a compact representation. Existing TN-SS methods mainly adopt a bi-level optimization method that leads to excessive computational costs due to repeated structure evaluations. To address this issue, we propose an efficient integrated (single-level) method named SVD-inspired TN decomposition (SVDinsTN), eliminating the need for repeated tedious structure evaluation. By inserting a diagonal factor for each edge of the fully-connected TN, we calculate TN cores and diagonal factors simultaneously, with factor sparsity revealing the most compact TN structure. Experimental results on real-world data demonstrate that SVDinsTN achieves approximately $10\sim{}10^3$ times acceleration in runtime compared to the existing TN-SS methods while maintaining a comparable level of representation ability. | 翻訳日:2023-06-30 18:57:22 公開日:2023-06-29 |
# データ中毒攻撃における検出不能とロバスト性 Pick your Poison: Undetectability versus Robustness in Data Poisoning Attacks ( http://arxiv.org/abs/2305.09671v2 ) ライセンス: Link先を確認 | Nils Lukas and Florian Kerschbaum | (参考訳) 大量のWebスクラッドデータに基づいてトレーニングされたディープイメージ分類モデルは、データ中毒(バックドアモデルのためのメカニズム)の影響を受けやすい。
トレーニング中に見られる少量の有毒なサンプルは、推論中にモデルの整合性を著しく損なう可能性がある。
既存の作業は効果的な防御をどちらも考慮している
(i)補修又は補修によりモデルの整合性を回復する
(ii)攻撃を検出する。
攻撃者は、検知可能性(オーバーポゾン)を犠牲にして堅牢性を高めたり、堅牢性(アンダーポゾン)を犠牲にして検出可能性を減らすことができる。
実際には、攻撃は検出不能で堅牢でなければならない。
検出可能だが堅牢な攻撃は、人間の注意と厳格なモデル評価を惹きつけるか、モデルを再訓練または破棄させる。
対照的に、検出不能だが堅牢性に欠ける攻撃は、モデルの精度に最小限の影響で修復できる。
我々の研究は、現在の攻撃評価手法に固有の欠陥を指摘し、このトレードオフを微妙にバランスを取り、堅牢で検出不能なままでいなければならないすべてのデータ中毒攻撃者に対する限界を提起している。
より強力な防御者の存在を示すために、我々は防御方法を提案する。
(i)検出または検出する
二 信頼できる画像ラベル対の限られた量を用いて有毒な模型を修理すること。
以上の結果から,堅牢で検出不能な攻撃者に対する脅威は少なくなることがわかった。
我々の防御は、CIFAR-10のクリーンデータの1%とImageNetの2.5%を使用して、テストされたすべての攻撃を最大で2%の精度で軽減します。
CLIPのような大規模視覚言語モデルを評価することで,防衛のスケーラビリティを実証する。
モデルのパラメータを操作できるアタッカーは、データ中毒攻撃者よりも低い検出性で高いロバスト性を達成することができるため、リスクが高くなる。 Deep image classification models trained on vast amounts of web-scraped data are susceptible to data poisoning - a mechanism for backdooring models. A small number of poisoned samples seen during training can severely undermine a model's integrity during inference. Existing work considers an effective defense as one that either (i) restores a model's integrity through repair or (ii) detects an attack. We argue that this approach overlooks a crucial trade-off: Attackers can increase robustness at the expense of detectability (over-poisoning) or decrease detectability at the cost of robustness (under-poisoning). In practice, attacks should remain both undetectable and robust. Detectable but robust attacks draw human attention and rigorous model evaluation or cause the model to be re-trained or discarded. In contrast, attacks that are undetectable but lack robustness can be repaired with minimal impact on model accuracy. Our research points to intrinsic flaws in current attack evaluation methods and raises the bar for all data poisoning attackers who must delicately balance this trade-off to remain robust and undetectable. To demonstrate the existence of more potent defenders, we propose defenses designed to (i) detect or (ii) repair poisoned models using a limited amount of trusted image-label pairs. Our results show that an attacker who needs to be robust and undetectable is substantially less threatening. Our defenses mitigate all tested attacks with a maximum accuracy decline of 2% using only 1% of clean data on CIFAR-10 and 2.5% on ImageNet. We demonstrate the scalability of our defenses by evaluating large vision-language models, such as CLIP. Attackers who can manipulate the model's parameters pose an elevated risk as they can achieve higher robustness at low detectability compared to data poisoning attackers. | 翻訳日:2023-06-30 18:57:04 公開日:2023-06-29 |
# 動的学習システムにおけるアルゴリズム検閲 Algorithmic Censoring in Dynamic Learning Systems ( http://arxiv.org/abs/2305.09035v2 ) ライセンス: Link先を確認 | Jennifer Chien, Margaret Roberts, Berk Ustun | (参考訳) 選択的ラベリングを受ける動的学習システムは検閲、すなわち1つ以上の点の部分群に割り当てられた持続的負の予測を示す。
消費者金融のようなアプリケーションでは、この結果、永続的に拒否され、トレーニングデータに入らない申請者のグループになります。
本研究では,検閲を形式化し,その発生方法を示し,検出の難しさを強調する。
検閲やランダム化探索に対する保護措置も検討しています - どちらも、守られないポイントのラベルを確実に収集するものです。
その結果、検閲されたグループの例がトレーニングデータに入力され、モデルの修正が可能になる。
以上の結果から,検閲の無防備な害を浮き彫りにし,様々なデータ生成プロセスにおける緩和戦略の有効性を実証した。 Dynamic learning systems subject to selective labeling exhibit censoring, i.e. persistent negative predictions assigned to one or more subgroups of points. In applications like consumer finance, this results in groups of applicants that are persistently denied and thus never enter into the training data. In this work, we formalize censoring, demonstrate how it can arise, and highlight difficulties in detection. We consider safeguards against censoring - recourse and randomized-exploration - both of which ensure we collect labels for points that would otherwise go unobserved. The resulting techniques allow examples from censored groups to enter into the training data and correct the model. Our results highlight the otherwise unmeasured harms of censoring and demonstrate the effectiveness of mitigation strategies across a range of data generating processes. | 翻訳日:2023-06-30 18:56:34 公開日:2023-06-29 |
# 「これは疑わしい反応です!」:nlp攻撃を検出するためにlogitsのバリエーションを解釈する "That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks ( http://arxiv.org/abs/2204.04636v2 ) ライセンス: Link先を確認 | Edoardo Mosca and Shreyash Agarwal and Javier Rando and Georg Groh | (参考訳) 敵攻撃は、現在の機械学習研究で直面する大きな課題である。
これらの目的に作られた入力は、安全クリティカルなアプリケーションへのデプロイを前に、最も先進的なモデルでさえも愚かである。
コンピュータビジョンの広範な研究は、信頼できる防衛戦略を開発するために行われている。
しかし、同じ問題が自然言語処理では研究されていない。
本研究は,逆行文例のモデル非依存検出法を提案する。
このアプローチは、入力テキストを摂動する際にターゲット分類器のロジット内のパターンを識別する。
提案した検出器は、対向入力を認識する際の現在の最先端性能を改善し、異なるNLPモデル、データセット、ワードレベルの攻撃に対して強力な一般化能力を示す。 Adversarial attacks are a major challenge faced by current machine learning research. These purposely crafted inputs fool even the most advanced models, precluding their deployment in safety-critical applications. Extensive research in computer vision has been carried to develop reliable defense strategies. However, the same issue remains less explored in natural language processing. Our work presents a model-agnostic detector of adversarial text examples. The approach identifies patterns in the logits of the target classifier when perturbing the input text. The proposed detector improves the current state-of-the-art performance in recognizing adversarial inputs and exhibits strong generalization capabilities across different NLP models, datasets, and word-level attacks. | 翻訳日:2023-06-30 17:10:48 公開日:2023-06-29 |
# AIは最近よりネガティブになったか? Did AI get more negative recently? ( http://arxiv.org/abs/2202.13610v3 ) ライセンス: Link先を確認 | Dominik Beese and Beg\"um Altunba\c{s} and G\"orkem G\"uzeler and Steffen Eger | (参考訳) 本稿では,自然言語処理(NLP)と機械学習(ML)の分野における科学論文を,人工知能(AI)のコアサブフィールドとして分類する。
(i)既存モデルに勝る斬新な技術の導入により、現況を拡大する。
(ii)既存の最先端、すなわち、ある性質(間違った評価、誤ったデータセット、誤解を招くタスク仕様など)に関して不足していることを主に批判している。
私たちは下記の貢献について言及する
(i)「肯定的な姿勢」と貢献を有すること
(ii)「否定的姿勢」(関連業務)を有すること。
我々はNLPとMLから1.5k以上の論文に注釈を付け、SciBERTベースのモデルをトレーニングし、そのタイトルと抽象に基づいて論文のスタンスを自動的に予測する。
その後,過去35年間のnlpおよびmlにおける41k以上の論文の大規模傾向を解析した結果,論文は時間とともに有意に肯定的となったが,否定的な論文も否定的になり,近年ではかなり否定的な論文が観察された。
否定的な論文は引用の観点でもより影響力がある。 In this paper, we classify scientific articles in the domain of natural language processing (NLP) and machine learning (ML), as core subfields of artificial intelligence (AI), into whether (i) they extend the current state-of-the-art by the introduction of novel techniques which beat existing models or whether (ii) they mainly criticize the existing state-of-the-art, i.e. that it is deficient with respect to some property (e.g. wrong evaluation, wrong datasets, misleading task specification). We refer to contributions under (i) as having a 'positive stance' and contributions under (ii) as having a 'negative stance' (to related work). We annotate over 1.5 k papers from NLP and ML to train a SciBERT-based model to automatically predict the stance of a paper based on its title and abstract. We then analyse large-scale trends on over 41 k papers from the last approximately 35 years in NLP and ML, finding that papers have become substantially more positive over time, but negative papers also got more negative and we observe considerably more negative papers in recent years. Negative papers are also more influential in terms of citations they receive. | 翻訳日:2023-06-30 17:10:36 公開日:2023-06-29 |
# グラフェン上の勾配流:存在、収束、連続性方程式 Gradient flows on graphons: existence, convergence, continuity equations ( http://arxiv.org/abs/2111.09459v3 ) ライセンス: Link先を確認 | Sewoong Oh, Soumik Pal, Raghav Somani, Raghavendra Tripathi | (参考訳) 確率測度上のワッサーシュタイン勾配流は、様々な最適化問題に多くの応用を見出した。
通常は、勾配型ポテンシャルを含む平均場相互作用によって進化する交換可能な粒子系の連続極限として生じる。
しかし、多層ニューラルネットワークのような多くの問題において、いわゆる粒子はノードが交換可能な大きなグラフ上のエッジ重みである。
このような大きなグラフは、その大きさが無限大になるにつれて、グラトンと呼ばれる連続体極限に収束することが知られている。
辺重みの適当な関数のユークリッド勾配流は、グラノンの空間上の曲線によって与えられる新しい連続極限に収束し、勾配流あるいはより技術的には最大勾配の曲線として適切に記述できることを示す。
準同型函数やスカラーエントロピーのようなグラトン上のいくつかの自然関数は、この集合によってカバーされ、その例が詳細に研究されている。 Wasserstein gradient flows on probability measures have found a host of applications in various optimization problems. They typically arise as the continuum limit of exchangeable particle systems evolving by some mean-field interaction involving a gradient-type potential. However, in many problems, such as in multi-layer neural networks, the so-called particles are edge weights on large graphs whose nodes are exchangeable. Such large graphs are known to converge to continuum limits called graphons as their size grow to infinity. We show that the Euclidean gradient flow of a suitable function of the edge-weights converges to a novel continuum limit given by a curve on the space of graphons that can be appropriately described as a gradient flow or, more technically, a curve of maximal slope. Several natural functions on graphons, such as homomorphism functions and the scalar entropy, are covered by our set-up, and the examples have been worked out in detail. | 翻訳日:2023-06-30 17:10:17 公開日:2023-06-29 |
# 予測計算のための地盤真理のパースペクティビスト的転換に向けて Toward a Perspectivist Turn in Ground Truthing for Predictive Computing ( http://arxiv.org/abs/2109.04270v3 ) ライセンス: Link先を確認 | Valerio Basile, Federico Cabitza, Andrea Campagner, Michael Fell | (参考訳) ほとんどの人工知能アプリケーションは教師付き機械学習(ML)に基づいており、最終的には手動で注釈付けされたデータに基づいている。
アノテーションのプロセスは多数決で行われ、MLモデルの評価に関する最近の研究で強調されているように、しばしば問題となることが証明されている。
本稿では,MLプロセスの知識表現ステップに関わる人的対象の意見と視点を統合する手法の採用に向けて,従来の金標準データセットから遠ざかるデータパースペクティビズム(Data perspectivism)と呼ばれる,異なるパラダイムを記述し,提唱する。
本提案は,より主観的なタスク(例えば,人間言語に関連するタスク)だけでなく,客観的に理解されるタスク(例えば,医学的意思決定)に対する提案の可能性について述べるとともに,mlにおけるパースペクティビズム的スタンスを採用することの主な利点と,これらのスタンスを実践するための様々な方法について述べる。
最後に、一連の勧告を共有し、MLにおけるパースペクティビズムのスタンスを進めるための研究課題を概説する。 Most Artificial Intelligence applications are based on supervised machine learning (ML), which ultimately grounds on manually annotated data. The annotation process is often performed in terms of a majority vote and this has been proved to be often problematic, as highlighted by recent studies on the evaluation of ML models. In this article we describe and advocate for a different paradigm, which we call data perspectivism, which moves away from traditional gold standard datasets, towards the adoption of methods that integrate the opinions and perspectives of the human subjects involved in the knowledge representation step of ML processes. Drawing on previous works which inspired our proposal we describe the potential of our proposal for not only the more subjective tasks (e.g. those related to human language) but also to tasks commonly understood as objective (e.g. medical decision making), and present the main advantages of adopting a perspectivist stance in ML, as well as possible disadvantages, and various ways in which such a stance can be implemented in practice. Finally, we share a set of recommendations and outline a research agenda to advance the perspectivist stance in ML. | 翻訳日:2023-06-30 17:10:00 公開日:2023-06-29 |
# 人間と人工感情のシミュレーション(共有) Simulation of Human and Artificial Emotion (SHArE) ( http://arxiv.org/abs/2011.02151v2 ) ライセンス: Link先を確認 | Kwadwo Opong-Mensah | (参考訳) 人間と人工感情のシミュレーションフレームワーク(share)は、心理学、神経科学、人工知能の間で伝達可能なパラメータの観点から感情のアーキテクチャを記述する。
これらのパラメータは抽象概念として定義したり、個々のニューロンの電圧レベルまで微粒化することができる。
このモデルは、様々な精神疾患に対する新しい治療ソリューションにつながる可能性のある、人間の感情的軌道設計を可能にする。
人工知能のためのこの研究は、機械の感情や動機を観察する手段としてニューラルネットワークに適用できるコンパクトな表記法を提供する。 The framework for Simulation of Human and Artificial Emotion (SHArE) describes the architecture of emotion in terms of parameters transferable between psychology, neuroscience, and artificial intelligence. These parameters can be defined as abstract concepts or granularized down to the voltage levels of individual neurons. This model enables emotional trajectory design for humans which may lead to novel therapeutic solutions for various mental health concerns. For artificial intelligence, this work provides a compact notation which can be applied to neural networks as a means to observe the emotions and motivations of machines. | 翻訳日:2023-06-30 17:09:36 公開日:2023-06-29 |
# 機械指導による強化学習者の人的消費調査 Using Machine Teaching to Investigate Human Assumptions when Teaching Reinforcement Learners ( http://arxiv.org/abs/2009.02476v4 ) ライセンス: Link先を確認 | Yun-Shiuan Chuang, Xuezhou Zhang, Yuzhe Ma, Mark K. Ho, Joseph L. Austerweil, Xiaojin Zhu | (参考訳) 成功する教育には、学習者がどのように学習するか - 学習者が世界から経験を使って内部状態を更新するか - を仮定する必要がある。
報奨と罰則を用いて学習者がオンラインで教えるとき、学習者に期待するものについて検討する。
我々は,共通強化学習法,q-learningに着目し,行動実験を用いてどのような仮定を持つかを検討する。
そこで我々はまず,機械教育最適化問題として問題を定式化し,規範的基準を確立する。
機械教育最適化問題を解くために,環境学習者をシミュレートし,フィードバックが学習者の内的状態に与える影響を予測する深層学習近似法を用いる。
理想的な探索探索タスクを教えるとき、学習者の学習と割引率についてどう考えるか?
行動実験では,学習者が割引率の小さい値と学習率の大きい値を使用すれば,比較的効率的かつ効果的にQ学習者にタスクを教えることができることがわかった。
しかし、それらは依然として準最適である。
また、フィードバックがQ-Learnerの内部状態にどのように影響するかをリアルタイムに更新することで、教える上で弱く役立ちます。
この結果から,評価フィードバックを用いた学習の仕方や,直感的に機械エージェントを設計する方法についてのガイダンスが得られた。 Successful teaching requires an assumption of how the learner learns - how the learner uses experiences from the world to update their internal states. We investigate what expectations people have about a learner when they teach them in an online manner using rewards and punishment. We focus on a common reinforcement learning method, Q-learning, and examine what assumptions people have using a behavioral experiment. To do so, we first establish a normative standard, by formulating the problem as a machine teaching optimization problem. To solve the machine teaching optimization problem, we use a deep learning approximation method which simulates learners in the environment and learns to predict how feedback affects the learner's internal states. What do people assume about a learner's learning and discount rates when they teach them an idealized exploration-exploitation task? In a behavioral experiment, we find that people can teach the task to Q-learners in a relatively efficient and effective manner when the learner uses a small value for its discounting rate and a large value for its learning rate. However, they still are suboptimal. We also find that providing people with real-time updates of how possible feedback would affect the Q-learner's internal states weakly helps them teach. Our results reveal how people teach using evaluative feedback and provide guidance for how engineers should design machine agents in a manner that is intuitive for people. | 翻訳日:2023-06-30 17:09:28 公開日:2023-06-29 |
# 有向非巡回グラフ上のトランスフォーマー Transformers over Directed Acyclic Graphs ( http://arxiv.org/abs/2210.13148v5 ) ライセンス: Link先を確認 | Yuankai Luo, Veronika Thost, Lei Shi | (参考訳) トランスフォーマーモデルは最近、グラフ表現学習で人気を博し、通常のグラフニューラルネットワークでキャプチャされたもの以上の複雑な関係を学習する可能性がある。
主な研究課題は、グラフの構造バイアスをトランスフォーマーアーキテクチャにどのように注入するかであり、非方向の分子グラフや近年ではより大きなネットワークグラフにもいくつかの提案がなされている。
本稿では,有向非巡回グラフ (DAG) 上のトランスフォーマーについて検討し,(1) トランスフォーマーの通常の二次的複雑性よりもはるかに効率的で,同時にDAG構造を忠実に捉えた注意機構,(2) 前者を補完するDAGの部分的順序の位置エンコーディングを提案する。
我々は、ソースコードグラフから引用ネットワークのノードへの分類に至るまで、さまざまなタスクに対する我々のアプローチを厳格に評価し、グラフトランスフォーマーを一般的にDAGに適合したグラフニューラルネットワークを上回り、品質と効率の両面でSOTAグラフトランスフォーマーの性能を向上させるという2つの重要な側面において有効であることを示す。 Transformer models have recently gained popularity in graph representation learning as they have the potential to learn complex relationships beyond the ones captured by regular graph neural networks. The main research question is how to inject the structural bias of graphs into the transformer architecture, and several proposals have been made for undirected molecular graphs and, recently, also for larger network graphs. In this paper, we study transformers over directed acyclic graphs (DAGs) and propose architecture adaptations tailored to DAGs: (1) An attention mechanism that is considerably more efficient than the regular quadratic complexity of transformers and at the same time faithfully captures the DAG structure, and (2) a positional encoding of the DAG's partial order, complementing the former. We rigorously evaluate our approach over various types of tasks, ranging from classifying source code graphs to nodes in citation networks, and show that it is effective in two important aspects: in making graph transformers generally outperform graph neural networks tailored to DAGs and in improving SOTA graph transformer performance in terms of both quality and efficiency. | 翻訳日:2023-06-30 17:05:03 公開日:2023-06-29 |
# 対数線形ガードネスとその意義 Log-linear Guardedness and its Implications ( http://arxiv.org/abs/2210.10012v2 ) ライセンス: Link先を確認 | Shauli Ravfogel, Yoav Goldberg, Ryan Cotterell | (参考訳) 線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、扱いやすく有用であることが判明している。
しかし、この除去が修正表現で訓練された下流分類器の挙動に与える影響は、完全には理解されていない。
本研究では,対数線形ガードドネスの概念を,その表現から直接その概念を予測できない敵に定義し,その意味について検討する。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
しかし,マルチクラス対数線形モデルであるemph{can}が,対数線形ガード性の本質的な限界を下流バイアス緩和手法として指摘し,間接的に概念を回復することを示す。
これらの結果は線形消去法の理論的限界に光を当て、神経モデルにおける内因バイアスと外因バイアスの関係についてさらなる研究の必要性を強調した。 Methods for erasing human-interpretable concepts from neural representations that assume linearity have been found to be tractable and useful. However, the impact of this removal on the behavior of downstream classifiers trained on the modified representations is not fully understood. In this work, we formally define the notion of log-linear guardedness as the inability of an adversary to predict the concept directly from the representation, and study its implications. We show that, in the binary case, under certain assumptions, a downstream log-linear model cannot recover the erased concept. However, we demonstrate that a multiclass log-linear model \emph{can} be constructed that indirectly recovers the concept in some cases, pointing to the inherent limitations of log-linear guardedness as a downstream bias mitigation technique. These findings shed light on the theoretical limitations of linear erasure methods and highlight the need for further research on the connections between intrinsic and extrinsic bias in neural models. | 翻訳日:2023-06-30 17:04:40 公開日:2023-06-29 |
# テスト時の物体検出のためのクエリベースハードイメージ検索 Query-based Hard-Image Retrieval for Object Detection at Test Time ( http://arxiv.org/abs/2209.11559v2 ) ライセンス: Link先を確認 | Edward Ayers, Jonathan Sadeghi, John Redford, Romain Mueller, Puneet K. Dokania | (参考訳) オブジェクト検出器の性能が不十分な画像を見つけることで、オブジェクト検出器のエラー挙動を捉えたいという長年の関心がある。
自動運転のような現実世界のアプリケーションでは、検出性能の単純な要件を超えて潜在的な障害を特徴付けることも重要である。
例えば、エゴ車に近い歩行者の発見に失敗した場合、一般的には距離を逸した車両の発見よりも近い検査が必要となる。
このような潜在的な障害をテスト時に予測する問題は、検出の不確実性に基づく文献や従来の手法では、そのようなきめ細かいエラーの特徴化に非依存であるため、ほとんど見過ごされてきた。
そこで本研究では,問合せが「ハードネス」の特定の定義である問合せベースのハード画像検索タスクとして「ハード」画像を見つける問題を再検討し,この課題を大規模な問合せに対して解決できる簡易かつ直感的な方法を提案する。
提案手法は完全にポストホックであり,地平線アノテーションを必要とせず,検出器の選択に依存せず,地平線の代わりに単純な確率モデルを用いた効率的なモンテカルロ推定に依存する。
ラベル付きデータなしで特定の検出器の硬い画像を確実に識別する多種多様なクエリに有効に適用できることを実験的に示す。
我々は、広く使われているRetinaNet、Faster-RCNN、Mask-RCNN、Cascade Mask-RCNNオブジェクト検出器を用いて、ランキングと分類タスクの結果を提供する。
このプロジェクトのコードはhttps://github.com/fiveai/hardestで入手できる。 There is a longstanding interest in capturing the error behaviour of object detectors by finding images where their performance is likely to be unsatisfactory. In real-world applications such as autonomous driving, it is also crucial to characterise potential failures beyond simple requirements of detection performance. For example, a missed detection of a pedestrian close to an ego vehicle will generally require closer inspection than a missed detection of a car in the distance. The problem of predicting such potential failures at test time has largely been overlooked in the literature and conventional approaches based on detection uncertainty fall short in that they are agnostic to such fine-grained characterisation of errors. In this work, we propose to reformulate the problem of finding "hard" images as a query-based hard image retrieval task, where queries are specific definitions of "hardness", and offer a simple and intuitive method that can solve this task for a large family of queries. Our method is entirely post-hoc, does not require ground-truth annotations, is independent of the choice of a detector, and relies on an efficient Monte Carlo estimation that uses a simple stochastic model in place of the ground-truth. We show experimentally that it can be applied successfully to a wide variety of queries for which it can reliably identify hard images for a given detector without any labelled data. We provide results on ranking and classification tasks using the widely used RetinaNet, Faster-RCNN, Mask-RCNN, and Cascade Mask-RCNN object detectors. The code for this project is available at https://github.com/fiveai/hardest. | 翻訳日:2023-06-30 17:04:25 公開日:2023-06-29 |
# マジック:準ロバスト分類器の反転によるマスク誘導画像合成 MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust Classifier ( http://arxiv.org/abs/2209.11549v2 ) ライセンス: Link先を確認 | Mozhdeh Rouhsedaghat, Masoud Monajatipoor, Kai-Wei Chang, Iacopo Masi | (参考訳) 我々は,強力な正則化器を備えた準ロバスト分類器を反転させることで,単一画像の操作を制御できるワンショットマスク誘導画像合成法を提案する。
提案手法であるmagicは,事前学習された準ロバスト分類器からの構造化勾配を活用し,その分類精度を維持しつつ入力セマンティクスを保存し,合成の信頼性を保証する。
複雑なプリミティブを使用してプロセスを監視したり、注意マップを弱い監視信号として使用する現在の方法とは異なり、MAGICは強力な空間的先行を強制するガイド二項マスクによって駆動される入力上の勾配を集約する。
magicは、形状と位置制御、強い非剛性変形、繰り返しオブジェクトの存在下でのコピー/モブ操作を実現する1つのフレームワークで一連の操作を実装し、ユーザーはバイナリガイドマスクを単純に指定するだけで合成をしっかりと制御できる。
本研究と知見は,imagenetから採取した同一画像の質的比較,および機械知覚を用いた定量的解析,および100名以上の合成品質を支持できるユーザ調査によって裏付けられた。
プロジェクトページ: https://mozhdehrouhsedaghat.github.io/magic.html
コードはhttps://github.com/mozhdehrouhsedaghat/magicで入手できる。 We offer a method for one-shot mask-guided image synthesis that allows controlling manipulations of a single image by inverting a quasi-robust classifier equipped with strong regularizers. Our proposed method, entitled MAGIC, leverages structured gradients from a pre-trained quasi-robust classifier to better preserve the input semantics while preserving its classification accuracy, thereby guaranteeing credibility in the synthesis. Unlike current methods that use complex primitives to supervise the process or use attention maps as a weak supervisory signal, MAGIC aggregates gradients over the input, driven by a guide binary mask that enforces a strong, spatial prior. MAGIC implements a series of manipulations with a single framework achieving shape and location control, intense non-rigid shape deformations, and copy/move operations in the presence of repeating objects and gives users firm control over the synthesis by requiring to simply specify binary guide masks. Our study and findings are supported by various qualitative comparisons with the state-of-the-art on the same images sampled from ImageNet and quantitative analysis using machine perception along with a user survey of 100+ participants that endorse our synthesis quality. Project page at https://mozhdehrouhsedaghat.github.io/magic.html. Code is available at https://github.com/mozhdehrouhsedaghat/magic | 翻訳日:2023-06-30 17:03:45 公開日:2023-06-29 |
# 木の平面線型化における辺長の期待和。
理論と応用 The expected sum of edge lengths in planar linearizations of trees. Theory and applications ( http://arxiv.org/abs/2207.05564v3 ) ライセンス: Link先を確認 | Llu\'is Alemany-Puig and Ramon Ferrer-i-Cancho | (参考訳) 依存木は人間の言語の文の構文構造を表現する非常に成功したモデルであることが証明されている。
これらの構造では、頂点は単語であり、辺は構文的に依存する単語を接続する。
これらの依存関係が短い傾向は、辺の長さまたはその変異の合計のランダムなベースラインを用いて実証されている。
ユビキタスベースライン(ユビキタスベースライン)は、射影順序付け(エッジが交差せず、文の根語が任意のエッジで覆われていない場合)において期待される和であり、時間$O(n)$で計算できる。
ここでは、より弱い形式的制約、すなわち計画性に焦点を当てます。
理論的領域では、文が与えられたとき、その単語の一様ランダムな平面の置換を生成するために、平面の置換数または効率的なアルゴリズムが生成される。
また,平面配置における期待和と射影配置における期待和との関係を示す。
アプリケーション領域では、エッジ長さの合計の期待値を計算するために$o(n)$-timeアルゴリズムを導出する。
また,本研究を並列コーパスに適用し,依存性構造に対する形式的制約の強さが増すにつれて,実際の依存関係距離とランダムベースラインとのギャップが減少し,依存関係距離最小化効果の一部を形式的制約が吸収することが示唆された。
本研究では,ランダム平面線形化をベースラインとする依存性距離最小化に関する過去の研究を再現する方法を提案する。 Dependency trees have proven to be a very successful model to represent the syntactic structure of sentences of human languages. In these structures, vertices are words and edges connect syntactically-dependent words. The tendency of these dependencies to be short has been demonstrated using random baselines for the sum of the lengths of the edges or its variants. A ubiquitous baseline is the expected sum in projective orderings (wherein edges do not cross and the root word of the sentence is not covered by any edge), that can be computed in time $O(n)$. Here we focus on a weaker formal constraint, namely planarity. In the theoretical domain, we present a characterization of planarity that, given a sentence, yields either the number of planar permutations or an efficient algorithm to generate uniformly random planar permutations of the words. We also show the relationship between the expected sum in planar arrangements and the expected sum in projective arrangements. In the domain of applications, we derive a $O(n)$-time algorithm to calculate the expected value of the sum of edge lengths. We also apply this research to a parallel corpus and find that the gap between actual dependency distance and the random baseline reduces as the strength of the formal constraint on dependency structures increases, suggesting that formal constraints absorb part of the dependency distance minimization effect. Our research paves the way for replicating past research on dependency distance minimization using random planar linearizations as random baseline. | 翻訳日:2023-06-30 17:03:04 公開日:2023-06-29 |
# ORA3D:マルチビュー3Dオブジェクト検出を意識したオーバーラップ領域 ORA3D: Overlap Region Aware Multi-view 3D Object Detection ( http://arxiv.org/abs/2207.00865v4 ) ライセンス: Link先を確認 | Wonseok Roh, Gyusam Chang, Seokha Moon, Giljoo Nam, Chanyoung Kim, Younghyun Kim, Jinkyu Kim, Sangpil Kim | (参考訳) 現在のマルチビュー3Dオブジェクト検出手法では,重なり合う領域のオブジェクトを適切に検出できないことが多く,シーンに対するネットワークの理解は単眼で検出するネットワークに限られることが多い。
さらに、重なり合う領域のオブジェクトは、多くの場合、カメラの歪みによる変形に悩まされ、ドメインシフトを引き起こす。
この問題を軽減するために,(1)弱深度スーパービジョンのステレオ差分推定と(2)逆オーバーラップ領域判別器の2つの主要なモジュールを提案する。
前者は従来のステレオ不等式推定法を用いて重複領域から信頼できる不等式情報を得る。
そこで本研究では,両眼像の幾何学的ポテンシャルを十分に活用し,全体的な検出精度を向上させるネットワークの整備を提案する。
さらに、後者のモジュールは、非オーバーラップ領域と重なり領域との間の表現ギャップを最小化する。
提案手法の有効性を,大規模マルチビュー3次元物体検出データを用いて実証する。
実験の結果,提案手法は現在の最先端モデル,すなわちDETR3DとBEVDetよりも優れていた。 Current multi-view 3D object detection methods often fail to detect objects in the overlap region properly, and the networks' understanding of the scene is often limited to that of a monocular detection network. Moreover, objects in the overlap region are often largely occluded or suffer from deformation due to camera distortion, causing a domain shift. To mitigate this issue, we propose using the following two main modules: (1) Stereo Disparity Estimation for Weak Depth Supervision and (2) Adversarial Overlap Region Discriminator. The former utilizes the traditional stereo disparity estimation method to obtain reliable disparity information from the overlap region. Given the disparity estimates as supervision, we propose regularizing the network to fully utilize the geometric potential of binocular images and improve the overall detection accuracy accordingly. Further, the latter module minimizes the representational gap between non-overlap and overlapping regions. We demonstrate the effectiveness of the proposed method with the nuScenes large-scale multi-view 3D object detection data. Our experiments show that our proposed method outperforms current state-of-the-art models, i.e., DETR3D and BEVDet. | 翻訳日:2023-06-30 17:02:37 公開日:2023-06-29 |
# テキスト生成評価における埋め込み,クラスタ,文字列の有用性について On the Usefulness of Embeddings, Clusters and Strings for Text Generator Evaluation ( http://arxiv.org/abs/2205.16001v4 ) ライセンス: Link先を確認 | Tiago Pimentel, Clara Meister, Ryan Cotterell | (参考訳) 言語生成のための優れた自動評価指標は、テキスト品質の人間の判断と理想的に相関する。
しかし、そのようなメトリクスが多数存在し、言語ジェネレータの迅速かつ効率的な進歩を阻害している。
例外は、最近提案されたMauveである。
理論上、モーヴは文字列上の2つの確率分布(評価中の言語生成器を表すもの、真の自然言語分布を表すもの)の間の情報理論的な分岐を測定する。
モーヴの著者は、その成功は彼らの提案された発散の質的な性質に由来すると主張している。
しかし実際には、この分散は計算不能であるため、Mauveはクラスタ上の多項分布間のばらつきを測定して近似し、クラスタ割り当ては事前訓練された言語モデルの埋め込みに基づいて文字列をグループ化することで達成される。
しかし、私たちが示すように、これは理論や実践において厳密な近似ではない。
mauveはなぜそんなにうまく機能するのか?
本研究は,Mauveが誤った理由で正しいことを示し,新たに提案された発散はハイパフォーマンスには必要ないことを示した。
実際、古典的なダイバージェンスとクラスタベースの近似が組み合わさって、より優れた評価指標として機能する可能性がある。
この分析により、テキストの構文的およびコヒーレンスレベルの特徴をエンコードすることで、表面的な特徴を無視しながら、これらのクラスタベースの文字列分布の代用品は、単に最先端言語ジェネレータを評価するのに適していると結論づけることができます。 A good automatic evaluation metric for language generation ideally correlates highly with human judgements of text quality. Yet, there is a dearth of such metrics, which inhibits the rapid and efficient progress of language generators. One exception is the recently proposed Mauve. In theory, Mauve measures an information-theoretic divergence between two probability distributions over strings: one representing the language generator under evaluation; the other representing the true natural language distribution. Mauve's authors argue that its success comes from the qualitative properties of their proposed divergence. Yet in practice, as this divergence is uncomputable, Mauve approximates it by measuring the divergence between multinomial distributions over clusters instead, where cluster assignments are attained by grouping strings based on a pre-trained language model's embeddings. As we show, however, this is not a tight approximation -- in either theory or practice. This begs the question: why does Mauve work so well? In this work, we show that Mauve was right for the wrong reasons, and that its newly proposed divergence is not necessary for its high performance. In fact, classical divergences paired with its proposed cluster-based approximation may actually serve as better evaluation metrics. We finish the paper with a probing analysis; this analysis leads us to conclude that -- by encoding syntactic- and coherence-level features of text, while ignoring surface-level features -- such cluster-based substitutes to string distributions may simply be better for evaluating state-of-the-art language generators. | 翻訳日:2023-06-30 17:01:36 公開日:2023-06-29 |
# 統合多視点教師なし特徴選択とグラフ学習 Joint Multi-view Unsupervised Feature Selection and Graph Learning ( http://arxiv.org/abs/2204.08247v2 ) ライセンス: Link先を確認 | Si-Guo Fang, Dong Huang, Chang-Dong Wang, Yong Tang | (参考訳) 大幅な進歩にもかかわらず、以前のマルチビューの教師なし機能選択手法は、ほとんど2つの制限に苦しむ。
まず、クラスタ構造または類似性構造を用いて特徴選択を導くが、これは相互利益を伴う共同定式化の可能性を無視している。
第2に,グローバル構造学習とローカル構造学習のどちらでも類似性構造を学ぶことがよくあり,グローバル構造学習とローカル構造認識のいずれにおいてもグラフ学習の能力に欠ける。
そこで本稿では,JMVFG(Jonti-view unsupervised feature selection and graph learning)アプローチについて述べる。
特に,多視点特徴選択を直交分解で定式化し,各対象行列をビュー固有基底行列とビュー一貫性クラスタインジケータに分解する。
クロススペース局所性保存は、投影空間におけるクラスタ構造学習と、元の空間における類似性学習(グラフ学習)とを橋渡しするために組み込まれている。
さらに,クラスタ構造,大域的および局所的類似性構造,多視点整合性と不整合を同時に学習し,理論的に証明された収束により交互最適化アルゴリズムを開発するための統一目的関数を提案する。
様々な実世界のマルチビューデータセットに対する大規模な実験は、マルチビューの特徴選択とグラフ学習の両方において、我々のアプローチの優位性を示している。
コードはhttps://github.com/huangdonghere/jmvfgで入手できる。 Despite significant progress, previous multi-view unsupervised feature selection methods mostly suffer from two limitations. First, they generally utilize either cluster structure or similarity structure to guide the feature selection, which neglect the possibility of a joint formulation with mutual benefits. Second, they often learn the similarity structure by either global structure learning or local structure learning, which lack the capability of graph learning with both global and local structural awareness. In light of this, this paper presents a joint multi-view unsupervised feature selection and graph learning (JMVFG) approach. Particularly, we formulate the multi-view feature selection with orthogonal decomposition, where each target matrix is decomposed into a view-specific basis matrix and a view-consistent cluster indicator. The cross-space locality preservation is incorporated to bridge the cluster structure learning in the projected space and the similarity learning (i.e., graph learning) in the original space. Further, a unified objective function is presented to enable the simultaneous learning of the cluster structure, the global and local similarity structures, and the multi-view consistency and inconsistency, upon which an alternating optimization algorithm is developed with theoretically proved convergence. Extensive experiments on a variety of real-world multi-view datasets demonstrate the superiority of our approach for both the multi-view feature selection and graph learning tasks. The code is available at https://github.com/huangdonghere/JMVFG. | 翻訳日:2023-06-30 17:01:10 公開日:2023-06-29 |
# 強ギャップに対する最適速度をもつ確率的サドル点問題に対する微分プライベートアルゴリズム Differentially Private Algorithms for the Stochastic Saddle Point Problem with Optimal Rates for the Strong Gap ( http://arxiv.org/abs/2302.12909v2 ) ライセンス: Link先を確認 | Raef Bassily and Crist\'obal Guzm\'an and Michael Menart | (参考訳) n$ がデータセットサイズであり、$d$ が問題の次元である場合、convex-concave lipschitz stochastic saddle point problem (stochastic minimax optimization) は $(\epsilon,\delta)$-differential privacy with \emph{strong (primal-dual) gap} rate of $\tilde o\big(\frac{1}{\sqrt{n}} + \frac{\sqrt{d}}{n\epsilon}\big)$ で解くことができる。
この速度はほぼ最適であり、微分プライベート確率最適化の既存の下限に基づいている。
具体的には,サドル点問題に対する再帰正則化手法の斬新な実装と解析を通じて,強いギャップの強い上限を証明した。
この値は、損失関数が滑らかであれば、$O\big(\min\big\{\frac{n^2\epsilon^{1.5}}{\sqrt{d}}, n^{3/2}\big\}\big)$勾配複雑性、$\tilde{O}(n)$勾配複雑性で達成できることを示す。
この手法の副産物として,経験的目的に対して一定の$\alpha$素数的精度保証を満たしたサブルーチンへのブラックボックスアクセスを与えられた場合,確率的サドルポイント問題に対して,$\tilde{o}(\alpha+\frac{1}{\sqrt{n}})$という強いギャップを持つ解を与える汎用アルゴリズムを開発した。
この$\alpha$-accuracy条件は、近位点法や確率勾配降下昇降法のような経験的鞍点問題に対する標準アルゴリズムによって満たされていることを示す。
さらに,単純な問題であっても,アルゴリズムがゼロの弱ギャップを持ち,$\Omega(1)$強ギャップに悩まされることが示されている。
また、安定性と精度の間には根本的なトレードオフがあることも示している。
具体的には、任意の$\Delta$-stableアルゴリズムは経験的ギャップ$\Omega\big(\frac{1}{\Delta n}\big)$であり、この境界は厳密であることを示す。
この結果は、経験的リスク最小化の問題にも特に当てはまり、独立した関心を持つ可能性がある。 We show that convex-concave Lipschitz stochastic saddle point problems (also known as stochastic minimax optimization) can be solved under the constraint of $(\epsilon,\delta)$-differential privacy with \emph{strong (primal-dual) gap} rate of $\tilde O\big(\frac{1}{\sqrt{n}} + \frac{\sqrt{d}}{n\epsilon}\big)$, where $n$ is the dataset size and $d$ is the dimension of the problem. This rate is nearly optimal, based on existing lower bounds in differentially private stochastic optimization. Specifically, we prove a tight upper bound on the strong gap via novel implementation and analysis of the recursive regularization technique repurposed for saddle point problems. We show that this rate can be attained with $O\big(\min\big\{\frac{n^2\epsilon^{1.5}}{\sqrt{d}}, n^{3/2}\big\}\big)$ gradient complexity, and $\tilde{O}(n)$ gradient complexity if the loss function is smooth. As a byproduct of our method, we develop a general algorithm that, given a black-box access to a subroutine satisfying a certain $\alpha$ primal-dual accuracy guarantee with respect to the empirical objective, gives a solution to the stochastic saddle point problem with a strong gap of $\tilde{O}(\alpha+\frac{1}{\sqrt{n}})$. We show that this $\alpha$-accuracy condition is satisfied by standard algorithms for the empirical saddle point problem such as the proximal point method and the stochastic gradient descent ascent algorithm. Further, we show that even for simple problems it is possible for an algorithm to have zero weak gap and suffer from $\Omega(1)$ strong gap. We also show that there exists a fundamental tradeoff between stability and accuracy. Specifically, we show that any $\Delta$-stable algorithm has empirical gap $\Omega\big(\frac{1}{\Delta n}\big)$, and that this bound is tight. This result also holds also more specifically for empirical risk minimization problems and may be of independent interest. | 翻訳日:2023-06-30 16:55:32 公開日:2023-06-29 |
# KDEformer:カーネル密度推定によるトランスフォーマーの高速化 KDEformer: Accelerating Transformers via Kernel Density Estimation ( http://arxiv.org/abs/2302.02451v2 ) ライセンス: Link先を確認 | Amir Zandieh, Insu Han, Majid Daliri, Amin Karbasi | (参考訳) ドット生成注意機構は、シーケンスモデリングのための現代のディープアーキテクチャ(例えばトランスフォーマー)において重要な役割を担っているが、このモデルのna\"ive exact computationは、シーケンス長の二次時間とメモリの複雑さを伴い、長いシーケンスモデルのトレーニングを妨げる。
臨界ボトルネックは、ソフトマックス関数の分母における分割関数の計算と、値の行列とのソフトマックス行列の乗算によるものである。
我々は,前者をカーネル密度推定問題(kde)の変種に還元し,より効率的なkdeソルバを用いて,サブサンプリングベースの高速行列生成により後者を高速化できることを示す。
提案したKDEformerは、スペクトルノルム境界の証明が可能なサブ四進時間で注意を近似することができる。
実験により、KDEformerは、様々な事前学習モデルにおいて、精度、メモリ、ランタイムの点で、他の注目度よりも優れていることを確認した。
BigGAN画像生成では,4\times$ Speedupによる正確な計算よりも優れた生成スコアが得られる。
T2T-ViTを使ったImageNet分類では、KDEformerは18\times$ Speedup、精度低下は0.5\%$以下である。 Dot-product attention mechanism plays a crucial role in modern deep architectures (e.g., Transformer) for sequence modeling, however, na\"ive exact computation of this model incurs quadratic time and memory complexities in sequence length, hindering the training of long-sequence models. Critical bottlenecks are due to the computation of partition functions in the denominator of softmax function as well as the multiplication of the softmax matrix with the matrix of values. Our key observation is that the former can be reduced to a variant of the kernel density estimation (KDE) problem, and an efficient KDE solver can be further utilized to accelerate the latter via subsampling-based fast matrix products. Our proposed KDEformer can approximate the attention in sub-quadratic time with provable spectral norm bounds, while all prior results merely provide entry-wise error bounds. Empirically, we verify that KDEformer outperforms other attention approximations in terms of accuracy, memory, and runtime on various pre-trained models. On BigGAN image generation, we achieve better generative scores than the exact computation with over $4\times$ speedup. For ImageNet classification with T2T-ViT, KDEformer shows over $18\times$ speedup while the accuracy drop is less than $0.5\%$. | 翻訳日:2023-06-30 16:54:15 公開日:2023-06-29 |
# 多テクスチャ合成のための幾何学的自動エンコーダ A geometrically aware auto-encoder for multi-texture synthesis ( http://arxiv.org/abs/2302.01616v3 ) ライセンス: Link先を確認 | Pierrick Chatillon, Yann Gousseau, Sidonie Lefebvre | (参考訳) マルチテクスチャ合成のための自動エンコーダアーキテクチャを提案する。
このアプローチは、第2次ニューラルネットワーク統計のためのコンパクトエンコーダと、適応的周期的コンテンツを含むジェネレータの両方に依存する。
画像はコンパクトで幾何学的に整合した潜在空間に埋め込まれ、テクスチャ表現とその空間的組織は切り離されている。
テクスチャ合成と補間タスクは、これらの潜在コードから直接行うことができる。
実験により,我々のモデルは,視覚的品質および各種テクスチャ関連指標の観点から,最先端のフィードフォワード法より優れていることが示された。 We propose an auto-encoder architecture for multi-texture synthesis. The approach relies on both a compact encoder accounting for second order neural statistics and a generator incorporating adaptive periodic content. Images are embedded in a compact and geometrically consistent latent space, where the texture representation and its spatial organisation are disentangled. Texture synthesis and interpolation tasks can be performed directly from these latent codes. Our experiments demonstrate that our model outperforms state-of-the-art feed-forward methods in terms of visual quality and various texture related metrics. | 翻訳日:2023-06-30 16:53:52 公開日:2023-06-29 |
# タイムラプスカメラ記録における小昆虫の運動情報物体検出 Motion Informed Object Detection of Small Insects in Time-lapse Camera Recordings ( http://arxiv.org/abs/2212.00423v2 ) ライセンス: Link先を確認 | Kim Bjerge, Carsten Eie Frigaard and Henrik Karstoft | (参考訳) 受粉者としての昆虫は、生態系管理や世界食糧生産において重要な役割を担っている。
しかし、昆虫の個体数は減少しており、効率的なモニタリング方法を求めている。
既存の方法は、自然界の昆虫の映像やタイムラプス画像を分析するが、昆虫は自然植生の複雑なダイナミックな場面で小さな物体であるため、分析は難しい。
本研究では,夏期の2ヶ月間に3種の異なる植物種を訪れるミツバチのデータセットを提供する。
データセットは107,387個のアノテーテッド・タイムラプス画像で構成されており、9,423個のアノテーテッド・昆虫が含まれている。
タイムラプスRGB画像における昆虫検出のためのパイプラインを提案する。
パイプラインは2段階のプロセスで構成される。
まず、時間経過RGB画像は、画像中の昆虫を強化するために前処理される。
このモーション・インフォーム・エンハンスメントテクニックは、動きと色を使って画像中の昆虫を強化する。
次に、強化された画像を畳み込みニューラルネットワーク(CNN)オブジェクト検出器に入力する。
本手法は, より高速な領域ベースCNN (Faster R-CNN) とYou Only Look Once (YOLO) のディープラーニングオブジェクト検出器の改良を行う。
Motion-Informed-Enhancementを用いて、YOLO-detectorは平均マイクロF1スコアを0.49から0.71に改善し、Faster R-CNN-detectorは平均マイクロF1スコアを0.32から0.56に改善する。
本研究のデータセットと提案手法は,空飛ぶ昆虫のタイムラプスカメラモニタリングを自動化するための一歩である。
データセットは https://vision.eng.au.dk/mie/ Insects as pollinators play a crucial role in ecosystem management and world food production. However, insect populations are declining, calling for efficient methods of insect monitoring. Existing methods analyze video or time-lapse images of insects in nature, but the analysis is challenging since insects are small objects in complex and dynamic scenes of natural vegetation. In this work, we provide a dataset of primary honeybees visiting three different plant species during two months of the summer period. The dataset consists of 107,387 annotated time-lapse images from multiple cameras, including 9,423 annotated insects. We present a method pipeline for detecting insects in time-lapse RGB images. The pipeline consists of a two-step process. Firstly, the time-lapse RGB images are preprocessed to enhance insects in the images. This Motion-Informed-Enhancement technique uses motion and colors to enhance insects in images. Secondly, the enhanced images are subsequently fed into a Convolutional Neural network (CNN) object detector. The method improves the deep learning object detectors You Only Look Once (YOLO) and Faster Region-based CNN (Faster R-CNN). Using Motion-Informed-Enhancement, the YOLO-detector improves the average micro F1-score from 0.49 to 0.71, and the Faster R-CNN-detector improves the average micro F1-score from 0.32 to 0.56 on the dataset. Our dataset and proposed method provide a step forward to automate the time-lapse camera monitoring of flying insects. The dataset is published on: https://vision.eng.au.dk/mie/ | 翻訳日:2023-06-30 16:53:27 公開日:2023-06-29 |
# 実践における説明可能性:セネガルの携帯電話データから電化率を推定する Explainability in Practice: Estimating Electrification Rates from Mobile Phone Data in Senegal ( http://arxiv.org/abs/2211.06277v2 ) ライセンス: Link先を確認 | Laura State, Hadrien Salat, Stefania Rubrichi and Zbigniew Smoreda | (参考訳) 説明可能な人工知能(XAI)は、解釈可能な機械学習(ML)モデルについての説明を提供する。
多くの技術的アプローチが存在するが、現実世界のデータセットにおけるこれらのテクニックの検証の欠如がある。
本研究では,セネガルの携帯電話データに基づく電化率の推定を訓練したMLモデルであるXAIのユースケースを提案する。
データは2014/15年のorangeによるdata for development challengeに由来する。
2つのモデル非依存な局所的な説明手法を適用し、モデルが検証できるが、人口密度に関して偏りがあることを見出す。
我々は、現在利用可能なXAIメソッドによって制限される可能性のあるデータ処理とモデル設計の2つの主な課題と、説明を解釈するためのドメイン知識の重要性を指摘して、論文を締めくくります。 Explainable artificial intelligence (XAI) provides explanations for not interpretable machine learning (ML) models. While many technical approaches exist, there is a lack of validation of these techniques on real-world datasets. In this work, we present a use-case of XAI: an ML model which is trained to estimate electrification rates based on mobile phone data in Senegal. The data originate from the Data for Development challenge by Orange in 2014/15. We apply two model-agnostic, local explanation techniques and find that while the model can be verified, it is biased with respect to the population density. We conclude our paper by pointing to the two main challenges we encountered during our work: data processing and model design that might be restricted by currently available XAI methods, and the importance of domain knowledge to interpret explanations. | 翻訳日:2023-06-30 16:53:01 公開日:2023-06-29 |
# iSmallNet:赤外小ターゲット検出のためのラベル疎結合ネットワーク iSmallNet: Densely Nested Network with Label Decoupling for Infrared Small Target Detection ( http://arxiv.org/abs/2210.16561v2 ) ライセンス: Link先を確認 | Zhiheng Hu, Yongzhen Wang, Peng Li, Jie Qin, Haoran Xie, Mingqiang Wei | (参考訳) 小さなターゲットは、しばしば赤外線画像の散らかった背景に沈む。
従来の検出器は誤報を発生させる傾向があるが、cnnベースの検出器は深い層で小さなターゲットを失う。
この目的のために,赤外小物体検出のためのラベルデカップリング付きマルチストリーム高密度ネストネットワークiSmallNetを提案する。
一方,小型ターゲットの形状情報を十分に活用するために,ラベル付きグラウンドルース (gt) マップを内部地図と境界地図に分離する。
gtマップは、2つの追加マップと協調して、小さなオブジェクト境界の不均衡な分布に取り組む。
一方,2つのキーモジュールを微妙に設計し,提案するネットワークに組み込んで全体の性能を向上させる。
まず, 深層層における小さなターゲットを維持するため, 多様なコンテキスト情報を探索するマルチスケールネスト型相互作用モジュールを開発した。
第2に,多粒性情報を統合する内部境界融合モジュールを開発する。
NUAA-SIRSTとNUDT-SIRSTの実験は、iSmallNetが11の最先端検出器よりも優れていることを示している。 Small targets are often submerged in cluttered backgrounds of infrared images. Conventional detectors tend to generate false alarms, while CNN-based detectors lose small targets in deep layers. To this end, we propose iSmallNet, a multi-stream densely nested network with label decoupling for infrared small object detection. On the one hand, to fully exploit the shape information of small targets, we decouple the original labeled ground-truth (GT) map into an interior map and a boundary one. The GT map, in collaboration with the two additional maps, tackles the unbalanced distribution of small object boundaries. On the other hand, two key modules are delicately designed and incorporated into the proposed network to boost the overall performance. First, to maintain small targets in deep layers, we develop a multi-scale nested interaction module to explore a wide range of context information. Second, we develop an interior-boundary fusion module to integrate multi-granularity information. Experiments on NUAA-SIRST and NUDT-SIRST clearly show the superiority of iSmallNet over 11 state-of-the-art detectors. | 翻訳日:2023-06-30 16:52:06 公開日:2023-06-29 |
# 臨床試験における患者の事前スクリーニングの改善 : 大規模言語モデルによる医師支援 Improving Patient Pre-screening for Clinical Trials: Assisting Physicians with Large Language Models ( http://arxiv.org/abs/2304.07396v2 ) ライセンス: Link先を確認 | Danny M. den Hamer, Perry Schoor, Tobias B. Polak and Daniel Kapitan | (参考訳) 患者の臨床試験を検討する医師は、多くのテキストベースの適格性基準を検査する手間がかかる。
LLM(Large Language Models)は、医学的検査を含む臨床情報抽出や臨床推論においてよく機能するが、現実のシナリオでは機能しない。
本稿では,患者の総合的医療プロファイルに基づく臨床治験の適性判定に医師を支援するために,インストラクションGPTを用いたことを検討する。
単発,選択推論,チェーン・オブ・シントを併用したプロンプト戦略を用いて,10個の合成患者プロファイル上でのLCMの性能について検討した。
成績は、4つのレベルで評価される: 医学的プロファイルが与えられた試験からスクリーニング可能な適格基準を識別する能力、患者が適格かどうかの個々の基準を分類する能力、患者が臨床試験を受ける資格があるかどうかの全体分類、医師が検査する基準の割合。
我々は146回の臨床試験と合計4,135の適格性基準について評価した。
LLMは基準の72% (2,994/4,135) を正しく識別することができた。
また,スクリーニング基準の72% (341/471) が正しく評価された。
その結果、試験レベルの分類は適当か不可とされ、0.5のリコールとなった。
LLMを医用ループで活用することにより、診断基準の90%を減らしつつ、臨床試験レベルで1.0のリコールと0.71の精度を達成することができる。
LLMは、医師が臨床試験のために患者の事前スクリーニングを行うのを助けるために使用できる。
命令調整されたLLMにチェーン・オブ・プリート・レスポンスを強制することにより、推論を透過化し、医師による意思決定プロセスが実現し、現実のシナリオでの使用が可能なシステムを実現する。 Physicians considering clinical trials for their patients are met with the laborious process of checking many text based eligibility criteria. Large Language Models (LLMs) have shown to perform well for clinical information extraction and clinical reasoning, including medical tests, but not yet in real-world scenarios. This paper investigates the use of InstructGPT to assist physicians in determining eligibility for clinical trials based on a patient's summarised medical profile. Using a prompting strategy combining one-shot, selection-inference and chain-of-thought techniques, we investigate the performance of LLMs on 10 synthetically created patient profiles. Performance is evaluated at four levels: ability to identify screenable eligibility criteria from a trial given a medical profile; ability to classify for each individual criterion whether the patient qualifies; the overall classification whether a patient is eligible for a clinical trial and the percentage of criteria to be screened by physician. We evaluated against 146 clinical trials and a total of 4,135 eligibility criteria. The LLM was able to correctly identify the screenability of 72% (2,994/4,135) of the criteria. Additionally, 72% (341/471) of the screenable criteria were evaluated correctly. The resulting trial level classification as eligible or ineligible resulted in a recall of 0.5. By leveraging LLMs with a physician-in-the-loop, a recall of 1.0 and precision of 0.71 on clinical trial level can be achieved while reducing the amount of criteria to be checked by an estimated 90%. LLMs can be used to assist physicians with pre-screening of patients for clinical trials. By forcing instruction-tuned LLMs to produce chain-of-thought responses, the reasoning can be made transparent to and the decision process becomes amenable by physicians, thereby making such a system feasible for use in real-world scenarios. | 翻訳日:2023-06-30 16:45:23 公開日:2023-06-29 |
# 合成画像の興味ある性質:生成的対向ネットワークから拡散モデルへ Intriguing properties of synthetic images: from generative adversarial networks to diffusion models ( http://arxiv.org/abs/2304.06408v2 ) ライセンス: Link先を確認 | Riccardo Corvi, Davide Cozzolino, Giovanni Poggi, Koki Nagano, Luisa Verdoliva | (参考訳) 偽画像の検出はコンピュータビジョンの大きな目標になりつつある。
このニーズは、生成的逆ネットワーク(gan)に基づく合成法の継続的な改善、さらには拡散モデル(dm)に基づく強力な手法の出現によってますます圧迫されてきている。
この目的に向けて、実際の画像と偽画像を区別する画像の特徴について洞察を得ることが重要である。
本稿では,実画像と実画像の最も科学的に関連のある特徴を探索することを目的とした,異なる家族の多数の画像生成器の系統的研究について報告する。
Our experiments provide a number of interesting observations and shed light on some intriguing properties of synthetic images: (1) not only the GAN models but also the DM and VQ-GAN (Vector Quantized Generative Adversarial Networks) models give rise to visible artifacts in the Fourier domain and exhibit anomalous regular patterns in the autocorrelation; (2) when the dataset used to train the model lacks sufficient variety, its biases can be transferred to the generated images; (3) synthetic and real images exhibit significant differences in the mid-high frequency signal content, observable in their radial and angular spectral power distributions. Detecting fake images is becoming a major goal of computer vision. This need is becoming more and more pressing with the continuous improvement of synthesis methods based on Generative Adversarial Networks (GAN), and even more with the appearance of powerful methods based on Diffusion Models (DM). Towards this end, it is important to gain insight into which image features better discriminate fake images from real ones. In this paper we report on our systematic study of a large number of image generators of different families, aimed at discovering the most forensically relevant characteristics of real and generated images. Our experiments provide a number of interesting observations and shed light on some intriguing properties of synthetic images: (1) not only the GAN models but also the DM and VQ-GAN (Vector Quantized Generative Adversarial Networks) models give rise to visible artifacts in the Fourier domain and exhibit anomalous regular patterns in the autocorrelation; (2) when the dataset used to train the model lacks sufficient variety, its biases can be transferred to the generated images; (3) synthetic and real images exhibit significant differences in the mid-high frequency signal content, observable in their radial and angular spectral power distributions. | 翻訳日:2023-06-30 16:44:50 公開日:2023-06-29 |
# バイオメディカルイメージングのためのスケールスペースハイパーネット Scale-Space Hypernetworks for Efficient Biomedical Imaging ( http://arxiv.org/abs/2304.05448v2 ) ライセンス: Link先を確認 | Jose Javier Gonzalez Ortiz, John Guttag, Adrian Dalca | (参考訳) 畳み込みニューラルネットワーク(CNN)は、様々な医療画像解析タスクに使用される主要なモデルである。
推論時には、これらのモデルは特に体積データに対して計算集約的である。
原則として、CNNアーキテクチャのダウンサンプル層とアップサンプル層の再スケーリング係数を演算することにより、計算効率の精度を交換することができる。
しかし、既存のモデルでは、精度と効率のトレードオフを適切に調査することは違法に高価である。
そこで本研究では,内部再スケーリング要因の異なるCNNのスペクトルを学習するSSHN(Scale-Space HyperNetworks)を提案する。
1つのSSHNは、固定された再スケーリング係数を持つ多数の異なるネットワークをトレーニングした結果と一致し、時折超えているモデルのパレート精度効率曲線全体を特徴付ける。
提案手法は,SSHNを固定因子および動的再スケーリング因子の戦略と比較し,いくつかの医用画像解析アプリケーションで実証した。
SSHNはトレーニングコストのごく一部で、より精度と効率のよいトレードオフを一貫して提供しています。
トレーニングされたSSHNは、推論時に特定のニーズに対して精度と計算効率を適切にバランスさせる再スケーリング係数を素早く選択することができる。 Convolutional Neural Networks (CNNs) are the predominant model used for a variety of medical image analysis tasks. At inference time, these models are computationally intensive, especially with volumetric data. In principle, it is possible to trade accuracy for computational efficiency by manipulating the rescaling factor in the downsample and upsample layers of CNN architectures. However, properly exploring the accuracy-efficiency trade-off is prohibitively expensive with existing models. To address this, we introduce Scale-Space HyperNetworks (SSHN), a method that learns a spectrum of CNNs with varying internal rescaling factors. A single SSHN characterizes an entire Pareto accuracy-efficiency curve of models that match, and occasionally surpass, the outcomes of training many separate networks with fixed rescaling factors. We demonstrate the proposed approach in several medical image analysis applications, comparing SSHN against strategies with both fixed and dynamic rescaling factors. We find that SSHN consistently provides a better accuracy-efficiency trade-off at a fraction of the training cost. Trained SSHNs enable the user to quickly choose a rescaling factor that appropriately balances accuracy and computational efficiency for their particular needs at inference. | 翻訳日:2023-06-30 16:44:32 公開日:2023-06-29 |
# 顔モデルのアイデンティティロバスト性向上 Improving Identity-Robustness for Face Models ( http://arxiv.org/abs/2304.03838v2 ) ライセンス: Link先を確認 | Qi Qi, Shervin Ardeshir | (参考訳) 多くのタスクでディープラーニングモデルの成功にもかかわらず、そのようなモデルがショートカットを学習することや、無関係な共同設立者に対する堅牢性の欠如に懸念がある。
人間の顔を直接訓練するモデルに関しては、機密性の高い共同ファウンダーは人間のアイデンティティである。
多くの顔関連タスクは理想的にはアイデンティティ非依存で、異なる個人間で均一に実行すべきである(すなわち公平である)。
このような堅牢性とパフォーマンスの均一性を測定し、強制するひとつの方法は、トレーニング中にそれを強制し、アイデンティティ関連の情報が大規模に利用可能であると仮定することである。
しかし、プライバシーの懸念とそのような情報収集コストのため、これはしばしばそうではなく、ほとんどの顔データセットは入力画像と対応するタスク関連ラベルを含む。
したがって、このようなアノテーションを必要とせずにid関連ロバスト性を改善することが非常に重要である。
ここでは,顔認識埋め込みベクターを,アイデンティティのプロキシとして使用して,このような堅牢性を実現する。
各クラス内の希少なサンプルを暗黙的に強調するために, 顔認識埋め込み空間の構造を用いることを提案する。
我々は, プロキシ埋め込み空間における条件逆密度(CID)に応じて, サンプルを重み付けする。
実験の結果,このような単純なサンプル重み付け方式はトレーニングの堅牢性を向上するだけでなく,その堅牢性によって全体的な性能を向上させることが示唆された。
また、トレーニング中にこのような制約を適用すると、データセット内の異なるレベルのバイアスにかなり敏感なモデルが得られることも示します。 Despite the success of deep-learning models in many tasks, there have been concerns about such models learning shortcuts, and their lack of robustness to irrelevant confounders. When it comes to models directly trained on human faces, a sensitive confounder is that of human identities. Many face-related tasks should ideally be identity-independent, and perform uniformly across different individuals (i.e. be fair). One way to measure and enforce such robustness and performance uniformity is through enforcing it during training, assuming identity-related information is available at scale. However, due to privacy concerns and also the cost of collecting such information, this is often not the case, and most face datasets simply contain input images and their corresponding task-related labels. Thus, improving identity-related robustness without the need for such annotations is of great importance. Here, we explore using face-recognition embedding vectors, as proxies for identities, to enforce such robustness. We propose to use the structure in the face-recognition embedding space, to implicitly emphasize rare samples within each class. We do so by weighting samples according to their conditional inverse density (CID) in the proxy embedding space. Our experiments suggest that such a simple sample weighting scheme, not only improves the training robustness, it often improves the overall performance as a result of such robustness. We also show that employing such constraints during training results in models that are significantly less sensitive to different levels of bias in the dataset. | 翻訳日:2023-06-30 16:44:14 公開日:2023-06-29 |
# 自動車軌道生成・サロゲート交通安全指標におけるコンピュータビジョン技術の進歩と応用 Advances and Applications of Computer Vision Techniques in Vehicle Trajectory Generation and Surrogate Traffic Safety Indicators ( http://arxiv.org/abs/2303.15231v2 ) ライセンス: Link先を確認 | Mohamed Abdel-Aty, Zijin Wang, Ou Zheng, Amr Abdelraouf | (参考訳) コンピュータビジョン (cv) 技術の適用は, 交通衝突や近距離ミスの観点からの微視的交通安全分析を大規模に促進する。
しかし,映像処理と交通安全モデリングは2つの異なる研究領域であり,両者のギャップを体系的に埋めることに重点を置いている研究は少ないため,交通研究者や実践者に対応するガイダンスを提供する必要がある。
本研究の目的は,SSMを用いた交通安全モデリングにおけるCV技術の適用の見直しと,今後の最善策を提案することである。
車両の検知と追跡に使用されるCVアルゴリズムを,最先端モデルへの早期アプローチとして高レベルに要約する。
そして、車両軌道抽出のためのビデオ前処理および後処理技術を導入する。
車両軌道データに対するSSMの詳細な検討と交通安全解析への応用について述べる。
最後に、トラヒックビデオ処理とSSMに基づく安全分析の実践的課題について論じ、利用可能な、あるいは潜在的なソリューションについて述べる。
本レビューは, 交通研究者や技術者がビデオ処理に適したcv技術の選択や, 各種交通安全研究目的のssmの利用を支援することを目的としている。 The application of Computer Vision (CV) techniques massively stimulates microscopic traffic safety analysis from the perspective of traffic conflicts and near misses, which is usually measured using Surrogate Safety Measures (SSM). However, as video processing and traffic safety modeling are two separate research domains and few research have focused on systematically bridging the gap between them, it is necessary to provide transportation researchers and practitioners with corresponding guidance. With this aim in mind, this paper focuses on reviewing the applications of CV techniques in traffic safety modeling using SSM and suggesting the best way forward. The CV algorithm that are used for vehicle detection and tracking from early approaches to the state-of-the-art models are summarized at a high level. Then, the video pre-processing and post-processing techniques for vehicle trajectory extraction are introduced. A detailed review of SSMs for vehicle trajectory data along with their application on traffic safety analysis is presented. Finally, practical issues in traffic video processing and SSM-based safety analysis are discussed, and the available or potential solutions are provided. This review is expected to assist transportation researchers and engineers with the selection of suitable CV techniques for video processing, and the usage of SSMs for various traffic safety research objectives. | 翻訳日:2023-06-30 16:43:45 公開日:2023-06-29 |
# 一般化マルチモーダル核融合検出フレームワーク A Generalized Multi-Modal Fusion Detection Framework ( http://arxiv.org/abs/2303.07064v2 ) ライセンス: Link先を確認 | Leichao Cui, Xiuxian Li, Min Meng, and Xiaoyu Mo | (参考訳) LiDARポイントクラウドは、自動運転において最も一般的なデータソースになっている。
しかし、点雲のスパース性のため、特定のシナリオでは正確かつ信頼性の高い検出は達成できない。
点雲との相補性から,画像の注目が高まっている。
ある程度の成功はあるが、既存の核融合法は硬核融合を行うか直接的に融合しない。
本稿では,マルチモーダル特徴を用いたMMFusionと呼ばれる汎用3次元検出フレームワークを提案する。
このフレームワークは、複雑なシーンにおける3D検出を改善するために、LiDARと画像の正確な融合を実現することを目的としている。
我々のフレームワークは、LiDARストリームとカメラストリームの2つの別々のストリームで構成されており、任意の単一モーダル特徴抽出ネットワークと互換性がある。
lidarストリーム内のvoxel局所知覚モジュールは、局所的な特徴表現を強化し、マルチモーダル特徴融合モジュールは、異なるストリームからの機能出力を選択的に組み合わせ、より優れた融合を達成する。
広範な実験により,提案手法は既存のベンチマークよりも優れており,特にkittiベンチマークによる自転車や歩行者の検出において,強固な堅牢性と一般化能力を有する。
願わくば私たちの研究は、自動運転タスクのマルチモーダル融合に関するさらなる研究を刺激するだろう。 LiDAR point clouds have become the most common data source in autonomous driving. However, due to the sparsity of point clouds, accurate and reliable detection cannot be achieved in specific scenarios. Because of their complementarity with point clouds, images are getting increasing attention. Although with some success, existing fusion methods either perform hard fusion or do not fuse in a direct manner. In this paper, we propose a generic 3D detection framework called MMFusion, using multi-modal features. The framework aims to achieve accurate fusion between LiDAR and images to improve 3D detection in complex scenes. Our framework consists of two separate streams: the LiDAR stream and the camera stream, which can be compatible with any single-modal feature extraction network. The Voxel Local Perception Module in the LiDAR stream enhances local feature representation, and then the Multi-modal Feature Fusion Module selectively combines feature output from different streams to achieve better fusion. Extensive experiments have shown that our framework not only outperforms existing benchmarks but also improves their detection, especially for detecting cyclists and pedestrians on KITTI benchmarks, with strong robustness and generalization capabilities. Hopefully, our work will stimulate more research into multi-modal fusion for autonomous driving tasks. | 翻訳日:2023-06-30 16:42:53 公開日:2023-06-29 |
# 限られたデータを用いたパラメータ効率調整におけるデータ拡張の有効性 Effectiveness of Data Augmentation for Parameter Efficient Tuning with Limited Data ( http://arxiv.org/abs/2303.02577v2 ) ライセンス: Link先を確認 | Stephen Obadinma, Hongyu Guo, Xiaodan Zhu | (参考訳) 近年の研究では、事前訓練された言語モデル上でプレフィックスチューニング(P-tuning)のようなパラメータ効率のよいチューニング技術を用いることで、微調整に匹敵する性能が得られる一方で、トレーニング可能なパラメータを劇的に削減できることを示した。
それにもかかわらず、低データ体制下での学習を改善するための一般的な戦略であるデータ拡張の文脈におけるそのような手法の有効性は、十分に検討されていない。
本稿では,P-tuning v2 と LoRA の2つの一般的なパラメータ効率的なチューニング手法を用いた場合,EDA,Back Translation,Mixup などのタスク非依存データ拡張手法の有効性について検討する。
p-チューニングとloraモデルの性能向上にはデータ拡張が有効であるが,各手法の有効性は異なっており,特に大規模モデルや難易度の高いタスクでは,その性能が著しく低下する可能性がある。
さらに,P-tuningの文表現を微調整と比較して分析し,P-tuningが拡張データの異なるクラスから文埋め込みを分離するより限定的な能力を示すことを示す。
さらに、大きく変更されたデータに対して、パフォーマンスが劣る。
しかし、単純なコントラスト損失関数を追加することでプレフィックスチューニングの問題を軽減することができ、結果としてデータパフォーマンスが大幅に向上することを示す。 Recent work has demonstrated that using parameter efficient tuning techniques such as prefix tuning (or P-tuning) on pretrained language models can yield performance that is comparable or superior to fine-tuning while dramatically reducing trainable parameters. Nevertheless, the effectiveness of such methods under the context of data augmentation, a common strategy to improve learning under low data regimes, has not been fully explored. In this paper, we examine the effectiveness of several popular task-agnostic data augmentation techniques, i.e., EDA, Back Translation, and Mixup, when using two general parameter efficient tuning methods, P-tuning v2 and LoRA, under data scarcity. We show that data augmentation can be used to boost the performance of P-tuning and LoRA models, but the effectiveness of each technique varies and certain methods can lead to a notable degradation in performance, particularly when using larger models and on harder tasks. We further analyze the sentence representations of P-tuning compared to fine-tuning to help understand the above behaviour, and reveal how P-tuning generally presents a more limited ability to separate the sentence embeddings from different classes of augmented data. In addition, it displays poorer performance on heavily altered data. However, we demonstrate that by adding a simple contrastive loss function it can help mitigate such issues for prefix tuning, resulting in sizable improvements to augmented data performance. | 翻訳日:2023-06-30 16:42:34 公開日:2023-06-29 |
# 低リソース医用画像解析のための自己教師あり表現学習の検討 Exploring Self-Supervised Representation Learning For Low-Resource Medical Image Analysis ( http://arxiv.org/abs/2303.02245v2 ) ライセンス: Link先を確認 | Soumitri Chattopadhyay, Soham Ganguly, Sreejit Chaudhury, Sayan Nag, Samiran Chattopadhyay | (参考訳) 自己教師付き学習(SSL)の成功の大部分は、ラベルのない大規模なデータセットが利用可能であることによるものだ。
しかし、自然画像とは大きく異なる医療画像のような専門領域では、データ可用性の仮定は非現実的で非現実的であり、データそのものはスカンディティであり、特定の予後のタスクのために収集された小さなデータベースに含まれている。
そこで我々は,小規模医用画像データセットにおける自己教師付き学習アルゴリズムの適用性を検討する。
特に,公開アクセス可能な3つの医療画像データセットに対して,最先端SSL手法を4ドルで評価した。
我々の調査によると、ドメイン内の低リソースSSL事前トレーニングは、大規模なデータセット(ImageNetなど)から学習を転送する際の競合的な性能をもたらす。
さらに,大規模画像コーパスにおける事前学習の必要性を回避するためのさらなる研究に資する貴重な洞察を提供するために,経験的知見を広範囲に分析した。
われわれの知る限りでは、これは低リソースの医療データセットの自己超越性を探究する最初の試みである。 The success of self-supervised learning (SSL) has mostly been attributed to the availability of unlabeled yet large-scale datasets. However, in a specialized domain such as medical imaging which is a lot different from natural images, the assumption of data availability is unrealistic and impractical, as the data itself is scanty and found in small databases, collected for specific prognosis tasks. To this end, we seek to investigate the applicability of self-supervised learning algorithms on small-scale medical imaging datasets. In particular, we evaluate $4$ state-of-the-art SSL methods on three publicly accessible \emph{small} medical imaging datasets. Our investigation reveals that in-domain low-resource SSL pre-training can yield competitive performance to transfer learning from large-scale datasets (such as ImageNet). Furthermore, we extensively analyse our empirical findings to provide valuable insights that can motivate for further research towards circumventing the need for pre-training on a large image corpus. To the best of our knowledge, this is the first attempt to holistically explore self-supervision on low-resource medical datasets. | 翻訳日:2023-06-30 16:42:10 公開日:2023-06-29 |
# マルチエージェント強化学習におけるエキスパートフリーオンライン転送学習 Expert-Free Online Transfer Learning in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.01170v2 ) ライセンス: Link先を確認 | Alberto Castagna and Ivana Dusparic | (参考訳) 強化学習(rl)におけるトランスファーラーニングは、外部知識によるトレーニングフェーズを強化する方法を導入することで、深層rlのトレーニング問題、すなわち探索コスト、データ可用性、収束時間を克服するために広く研究されている。
一般的に知識は専門家から初心者に移される。
これにより、初心者エージェントの問題は解決されるが、そのような転送が効果的になるためには、エキスパートエージェントのタスクを十分に理解する必要がある。
本稿では,マルチエージェントシステムにおけるエキスパートフリーリアルタイム動的トランスファー学習を実現するアルゴリズムであるExpert-Free Online Transfer Learning (EF-OnTL)を提案する。
専用の専門家は存在せず、エージェントのパフォーマンスや不確実性に基づいて、転送ステップ毎に転送するトランスファーソースエージェントと知識を動的に選択する。
不確実性推定を改善するため,RLエージェントと環境相互作用から不確実性を評価するRNDの拡張であるState Action Reward Next-State Random Network Distillation (sars-RND)を提案する。
専門家エージェントの有無に関わらず,ef-ontlが非転送シナリオやアドバイスベースのベースラインに対して,cart-pole,mt-pp,hfo(half field offense)という3つのベンチマークタスクで有効性を示す。
その結果,ef-ontlは外部入力やしきい値チューニングを必要とせず,アドバイスベースのベースラインと比較した場合,全体的な比較性能が得られることがわかった。
EF-OnTLは、対処されるタスクの複雑さに関連する改善によって、非トランスファーよりも優れています。 Transfer learning in Reinforcement Learning (RL) has been widely studied to overcome training issues of Deep-RL, i.e., exploration cost, data availability and convergence time, by introducing a way to enhance training phase with external knowledge. Generally, knowledge is transferred from expert-agents to novices. While this fixes the issue for a novice agent, a good understanding of the task on expert agent is required for such transfer to be effective. As an alternative, in this paper we propose Expert-Free Online Transfer Learning (EF-OnTL), an algorithm that enables expert-free real-time dynamic transfer learning in multi-agent system. No dedicated expert exists, and transfer source agent and knowledge to be transferred are dynamically selected at each transfer step based on agents' performance and uncertainty. To improve uncertainty estimation, we also propose State Action Reward Next-State Random Network Distillation (sars-RND), an extension of RND that estimates uncertainty from RL agent-environment interaction. We demonstrate EF-OnTL effectiveness against a no-transfer scenario and advice-based baselines, with and without expert agents, in three benchmark tasks: Cart-Pole, a grid-based Multi-Team Predator-Prey (mt-pp) and Half Field Offense (HFO). Our results show that EF-OnTL achieve overall comparable performance when compared against advice-based baselines while not requiring any external input nor threshold tuning. EF-OnTL outperforms no-transfer with an improvement related to the complexity of the task addressed. | 翻訳日:2023-06-30 16:41:52 公開日:2023-06-29 |
# Python Wrapper - HPOベンチマーク上でのマルチファイダリティ最適化のシミュレーション Python Wrapper for Simulating Multi-Fidelity Optimization on HPO Benchmarks without Any Wait ( http://arxiv.org/abs/2305.17595v2 ) ライセンス: Link先を確認 | Shuhei Watanabe | (参考訳) ディープラーニング(DL)のハイパーパラメータ(HP)最適化は高性能に不可欠である。
DLは訓練に数時間から数日を要することが多いため、HP最適化(HPO)は高額であることが多い。
これにより表型ベンチマークやsurrogateベンチマークが出現し、dlの(予測的な)パフォーマンスを分数で特定のhp構成でクエリできるようになった。
しかし、DLトレーニングの実際の実行時間はクエリ応答時間と大きく異なるため、非同期HPOのシミュレータ、例えばマルチフィデリティ最適化は、na\\ive実装で各イテレーションで実際の実行を待たなければならない。
この問題を緩和するため、Pythonラッパーを開発し、その使用法を説明しました。
このラッパーは各作業者に待機させ、実際の実験と全く同じ評価順序を、数時間待つのではなく、わずか10^{-2}$秒で得るようにします。
実装はhttps://github.com/nabenabe0928/mfhpo-simulator/で利用可能です。 Hyperparameter (HP) optimization of deep learning (DL) is essential for high performance. As DL often requires several hours to days for its training, HP optimization (HPO) of DL is often prohibitively expensive. This boosted the emergence of tabular or surrogate benchmarks, which enable querying the (predictive) performance of DL with a specific HP configuration in a fraction. However, since the actual runtime of a DL training is significantly different from its query response time, simulators of an asynchronous HPO, e.g. multi-fidelity optimization, must wait for the actual runtime at each iteration in a na\"ive implementation; otherwise, the evaluation order during simulation does not match with the real experiment. To ease this issue, we developed a Python wrapper and describe its usage. This wrapper forces each worker to wait so that we yield exactly the same evaluation order as in the real experiment with only $10^{-2}$ seconds of waiting instead of waiting several hours. Our implementation is available at https://github.com/nabenabe0928/mfhpo-simulator/. | 翻訳日:2023-06-30 16:35:30 公開日:2023-06-29 |
# LiDARデータによる逆気象効果のエネルギーベース検出 Energy-based Detection of Adverse Weather Effects in LiDAR Data ( http://arxiv.org/abs/2305.16129v3 ) ライセンス: Link先を確認 | Aldi Piroli, Vinzenz Dallabetta, Johannes Kopp, Marc Walessa, Daniel Meissner, Klaus Dietmayer | (参考訳) 自動運転車は環境を知覚するためにLiDARセンサーを利用する。
雨、雪、霧などの悪天候はこれらのセンサーに悪影響を及ぼし、測定に望ましくないノイズを導入することで信頼性を低下させる。
本研究では,LiDARデータにおける悪天候の影響を検出する新しい手法を提案する。
我々は,この問題を外れ値検出タスクとして再構成し,エネルギーベースのフレームワークを用いて点群内の外れ値を検出する。
より具体的には、低エネルギースコアと異常点と高エネルギースコアを、悪天候の影響をロバストに検出できる異常値とを関連付けることを学ぶ。
広範な実験において,本手法は従来の手法よりも悪天候検出性能が良好で,気象効果の良さが高まることを示した。
さらに,本手法を用いて,外乱検出とセマンティックセグメンテーションを同時に行う方法を示す。
最後に、悪天候下でのLiDAR知覚の研究分野の拡大を支援するため、高速道路のようなシナリオにラベル付き車両噴霧データを含むセマンティックスパイデータセットをリリースする。
データセットはhttps://semantic-spray-dataset.github.ioで入手できる。 Autonomous vehicles rely on LiDAR sensors to perceive the environment. Adverse weather conditions like rain, snow, and fog negatively affect these sensors, reducing their reliability by introducing unwanted noise in the measurements. In this work, we tackle this problem by proposing a novel approach for detecting adverse weather effects in LiDAR data. We reformulate this problem as an outlier detection task and use an energy-based framework to detect outliers in point clouds. More specifically, our method learns to associate low energy scores with inlier points and high energy scores with outliers allowing for robust detection of adverse weather effects. In extensive experiments, we show that our method performs better in adverse weather detection and has higher robustness to unseen weather effects than previous state-of-the-art methods. Furthermore, we show how our method can be used to perform simultaneous outlier detection and semantic segmentation. Finally, to help expand the research field of LiDAR perception in adverse weather, we release the SemanticSpray dataset, which contains labeled vehicle spray data in highway-like scenarios. The dataset is available at https://semantic-spray-dataset.github.io . | 翻訳日:2023-06-30 16:35:15 公開日:2023-06-29 |
# ChatCAD+:LLMを用いたユニバーサルで信頼性の高いインタラクティブCADを目指して ChatCAD+: Towards a Universal and Reliable Interactive CAD using LLMs ( http://arxiv.org/abs/2305.15964v3 ) ライセンス: Link先を確認 | Zihao Zhao, Sheng Wang, Jinchen Gu, Yitao Zhu, Lanzhuju Mei, Zixu Zhuang, Zhiming Cui, Qian Wang, Dinggang Shen | (参考訳) コンピュータ支援診断(cad)と大規模言語モデル(llms)の統合は、特にデジタル家族医師や臨床助手の役割において、臨床応用において大きな可能性を秘めている。
しかし、この分野の現在の研究は、特に適用可能な画像ドメインの制限範囲と、全体的な処理能力を制限する信頼性の低い医療アドバイスの提供など、制限によって苦しめられている。
さらに、LSMと放射線技師の筆記スタイルのミスマッチは、その実用性を損なう。
これらの課題に対処するために,汎用的で信頼性の高いChatCAD+を導入する。
多様なドメインからの医療画像を処理し、信頼できる医療アドバイスを提供するために、信頼できる医療ウェブサイトからの最新の情報を活用することができる。
さらに、既存の臨床ワークフローへのシームレスな統合を可能にする、例報告によるレポート生成性能を改善するテンプレート検索システムも組み込まれている。
ソースコードはhttps://github.com/zhaozh10/ChatCADで入手できる。 The integration of Computer-Assisted Diagnosis (CAD) with Large Language Models (LLMs) holds great potential in clinical applications, specifically in the roles of digital family doctors and clinic assistants. However, current works in this field are plagued by limitations, specifically a restricted scope of applicable image domains and the provision of unreliable medical advice This restricts their overall processing capabilities. Furthermore, the mismatch in writing style between LLMs and radiologists undermines their practical usefulness. To tackle these challenges, we introduce ChatCAD+, which is designed to be universal and reliable. It is capable of handling medical images from diverse domains and leveraging up-to-date information from reputable medical websites to provide reliable medical advice. Additionally, it incorporates a template retrieval system that improves report generation performance via exemplar reports, enabling seamless integration into existing clinical workflows. The source code is available at https://github.com/zhaozh10/ChatCAD. | 翻訳日:2023-06-30 16:34:56 公開日:2023-06-29 |
# マルチスケール特徴ピラミッドネットワークに基づく画像分割アルゴリズム An image segmentation algorithm based on multi-scale feature pyramid network ( http://arxiv.org/abs/2305.10631v4 ) ライセンス: Link先を確認 | Yu Xiao, Xin Yang, Sijuan Huang, Lihua Guo | (参考訳) 医療画像分割は臨床疾患の治療における関連する定量的解析の前提条件として特に重要である。
例えば、臨床頚癌放射線療法では、腹腔下MRI画像を取得すると、MRI画像中の臓器と腫瘍の高速かつ正確な画像セグメント化が臨床放射線治療のプロセスを最適化することができるが、従来のアプローチでは、時間と手間のかかる専門医による手動アノテーションが用いられており、腹部下MRI画像の自動臓器セグメント化は貴重な研究トピックである。 Medical image segmentation is particularly critical as a prerequisite for relevant quantitative analysis in the treatment of clinical diseases. For example, in clinical cervical cancer radiotherapy, after acquiring subabdominal MRI images, a fast and accurate image segmentation of organs and tumors in MRI images can optimize the clinical radiotherapy process, whereas traditional approaches use manual annotation by specialist doctors, which is time-consuming and laborious, therefore, automatic organ segmentation of subabdominal MRI images is a valuable research topic. | 翻訳日:2023-06-30 16:34:39 公開日:2023-06-29 |
# 知覚データを用いたガウスの混合学習 Learning Mixtures of Gaussians with Censored Data ( http://arxiv.org/abs/2305.04127v2 ) ライセンス: Link先を確認 | Wai Ming Tai, Bryon Aragam | (参考訳) ガウシアンと検閲データとの混合学習の問題について検討する。
検閲されたデータを用いた統計的学習は古典的な問題であり、多くの実用的な応用があるが、ガウス混合のような単純な潜在変数モデルに対する有限サンプル保証は欠落している。
正式には、単変量ガウスの混合である$$ \sum_{i=1}^k w_i \mathcal{N}(\mu_i,\sigma^2)から検閲されたデータを与えられる。
目標は、ウェイト $w_i$ と平均 $\mu_i$ を学ぶことである。
我々は、$w_i$と$\varepsilon$エラー内の平均$\mu_i$を推定するために、$\frac{1}{\varepsilon^{o(k)}}$サンプルだけを取るアルゴリズムを提案する。 We study the problem of learning mixtures of Gaussians with censored data. Statistical learning with censored data is a classical problem, with numerous practical applications, however, finite-sample guarantees for even simple latent variable models such as Gaussian mixtures are missing. Formally, we are given censored data from a mixture of univariate Gaussians $$ \sum_{i=1}^k w_i \mathcal{N}(\mu_i,\sigma^2), $$ i.e. the sample is observed only if it lies inside a set $S$. The goal is to learn the weights $w_i$ and the means $\mu_i$. We propose an algorithm that takes only $\frac{1}{\varepsilon^{O(k)}}$ samples to estimate the weights $w_i$ and the means $\mu_i$ within $\varepsilon$ error. | 翻訳日:2023-06-30 16:34:28 公開日:2023-06-29 |
# 実世界3次元バンドル問題のためのベンチマークデータセットとインスタンス生成 Benchmark dataset and instance generator for Real-World Three-Dimensional Bin Packing Problems ( http://arxiv.org/abs/2304.14712v4 ) ライセンス: Link先を確認 | Eneko Osaba, Esther Villar-Rodriguez and Sebasti\'an V. Romero | (参考訳) 本稿では,実世界のビンパッキング問題のベンチマークを提案する。
このデータセットは、サイズ(38から53までのパッケージ数)とユーザ定義要件に関して、さまざまなレベルの複雑性を持つ12のインスタンスで構成されている。
実際、これらのインスタンスを構築するために、いくつかの実世界指向の制約が考慮されました。
一 アイテム及びビン寸法
二 重量制限
三 パッケージカテゴリー間の親和性
四 パッケージ注文の優先事項及び
v) ロードバランシング。
データに加えて、Q4RealBPP-DataGenというデータセット生成用の独自のPythonスクリプトも提供しています。
このベンチマークは量子ソルバの性能を評価するために最初に提案された。
したがって、この一連のインスタンスの特性は、現在の量子デバイスの制限に従って設計されている。
さらに、データセットジェネレータは汎用ベンチマークの構築を可能にする。
この記事では、量子コンピューティング研究者が現実世界のビンパッキング問題に取り組むことを奨励するベースラインを提供する。 In this article, a benchmark for real-world bin packing problems is proposed. This dataset consists of 12 instances of varying levels of complexity regarding size (with the number of packages ranging from 38 to 53) and user-defined requirements. In fact, several real-world-oriented restrictions were taken into account to build these instances: i) item and bin dimensions, ii) weight restrictions, iii) affinities among package categories iv) preferences for package ordering and v) load balancing. Besides the data, we also offer an own developed Python script for the dataset generation, coined Q4RealBPP-DataGen. The benchmark was initially proposed to evaluate the performance of quantum solvers. Therefore, the characteristics of this set of instances were designed according to the current limitations of quantum devices. Additionally, the dataset generator is included to allow the construction of general-purpose benchmarks. The data introduced in this article provides a baseline that will encourage quantum computing researchers to work on real-world bin packing problems. | 翻訳日:2023-06-30 16:34:12 公開日:2023-06-29 |
# chatgpt対最先端モデル:keyphrase生成タスクにおけるベンチマーク研究 ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task ( http://arxiv.org/abs/2304.14177v2 ) ライセンス: Link先を確認 | Roberto Mart\'inez-Cruz, Alvaro J. L\'opez-L\'opez, Jos\'e Portela | (参考訳) ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。
しかし、ChatGPTのキーフレーズ生成能力は、文書の内容を正確に反映した情報的フレーズを識別する、限定的な研究がなされている。
本研究では,ChatGPTのキーフレーズ生成性能を最先端モデルと比較し,ドメイン適応と長文からのキーフレーズ生成という2つの重要な課題に対する解決策としての可能性をテストする。
学術論文やニュースドメインから入手可能な6つのデータセットについて実験を行い,短い文書と長い文書の両方のパフォーマンスを分析した。
以上の結果から,ChatGPTはすべてのテストデータセットや環境において現在の最先端モデルよりも優れており,多様なドメインやドキュメント長に順応する高品質なキーフレーズを生成する。 Transformer-based language models, including ChatGPT, have demonstrated exceptional performance in various natural language generation tasks. However, there has been limited research evaluating ChatGPT's keyphrase generation ability, which involves identifying informative phrases that accurately reflect a document's content. This study seeks to address this gap by comparing ChatGPT's keyphrase generation performance with state-of-the-art models, while also testing its potential as a solution for two significant challenges in the field: domain adaptation and keyphrase generation from long documents. We conducted experiments on six publicly available datasets from scientific articles and news domains, analyzing performance on both short and long documents. Our results show that ChatGPT outperforms current state-of-the-art models in all tested datasets and environments, generating high-quality keyphrases that adapt well to diverse domains and document lengths. | 翻訳日:2023-06-30 16:33:59 公開日:2023-06-29 |
# 3次元物体検出のための群等価BEV Group Equivariant BEV for 3D Object Detection ( http://arxiv.org/abs/2304.13390v2 ) ライセンス: Link先を確認 | Hongwei Liu, Jian Yang, Jianfeng Zhang, Dongheng Shao, Jielong Guo, Shaobo Li, Xuan Tang, Xian Wei | (参考訳) 近年, 3次元物体検出が注目され, 実道路シナリオにおける連続的改善が達成されている。
環境情報は、単一のセンサまたはマルチセンサー融合から収集され、興味のある物体を検出する。
しかし、現在の3dオブジェクト検出アプローチのほとんどは、車両に搭載されたセンサーから収集されたデータが様々な摂動特性を含む動的運転シーンを考慮せず、オブジェクトの検出精度を向上させるための高度なネットワークアーキテクチャの開発に重点を置いている。
結果として、既存の作業はいまだに摂動問題に対処できない。
この問題を解決するために,群同変理論に基づく群同変鳥眼視ネットワーク(GeqBevNet)を提案し,BEV融合物体検出ネットワークに群同変の概念を導入する。
群同変ネットワークを融合したBEV特徴写像に埋め込んで、BEVレベルの回転同変特徴抽出を容易にし、平均方向誤差を低くする。
GeqBevNetの有効性を示すために、ネットワークはnuScenes検証データセット上で検証され、mAOEは0.325に削減できる。
実験により,GeqBevNetは実際の道路シーンの3次元物体検出において,より回転同変な特徴を抽出し,物体方向予測の性能を向上させることができることが示された。 Recently, 3D object detection has attracted significant attention and achieved continuous improvement in real road scenarios. The environmental information is collected from a single sensor or multi-sensor fusion to detect interested objects. However, most of the current 3D object detection approaches focus on developing advanced network architectures to improve the detection precision of the object rather than considering the dynamic driving scenes, where data collected from sensors equipped in the vehicle contain various perturbation features. As a result, existing work cannot still tackle the perturbation issue. In order to solve this problem, we propose a group equivariant bird's eye view network (GeqBevNet) based on the group equivariant theory, which introduces the concept of group equivariant into the BEV fusion object detection network. The group equivariant network is embedded into the fused BEV feature map to facilitate the BEV-level rotational equivariant feature extraction, thus leading to lower average orientation error. In order to demonstrate the effectiveness of the GeqBevNet, the network is verified on the nuScenes validation dataset in which mAOE can be decreased to 0.325. Experimental results demonstrate that GeqBevNet can extract more rotational equivariant features in the 3D object detection of the actual road scene and improve the performance of object orientation prediction. | 翻訳日:2023-06-30 16:33:28 公開日:2023-06-29 |
# コントラスト学習によるマンモグラフィ画像解析のための領域一般化 Domain Generalization for Mammographic Image Analysis with Contrastive Learning ( http://arxiv.org/abs/2304.10226v4 ) ライセンス: Link先を確認 | Zheren Li, Zhiming Cui, Lichi Zhang, Sheng Wang, Chenjin Lei, Xi Ouyang, Dongdong Chen, Xiangyu Zhao, Yajia Gu, Zaiyi Liu, Chunling Liu, Dinggang Shen, Jie-Zhi Cheng | (参考訳) 深層学習技術はマンモグラフィーのコンピュータ支援診断手法において, 画像解析の課題に効果的に対処することが示されている。
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を持つ大規模データが必要である。
データの多様性は、ベンダーのさまざまなスキャナの使用から生じることが多い。
しかし実際には、トレーニングに十分な量の多様なデータを集めることは現実的ではない。
この目的のために、より優れたスタイルの一般化機能を備えた深層学習モデルを実現するために、新しいコントラスト学習が開発された。
具体的には、事前学習モデルとして、スタイル多様性に対する堅牢な特徴埋め込みを求めるために、マルチスタイル・マルチビュー・非教師なしセルフラーニングスキームを実施する。
その後、事前訓練されたネットワークは、質量検出、マッチング、バイラッド評価、乳房密度分類などの下流タスクにさらに微調整される。
提案手法は様々なベンダースタイルのドメインといくつかの公開データセットのマンモグラムを用いて広範囲に厳密に評価されている。
実験結果から,提案手法は,観察領域と見えない領域の両方のデータに対する4つのマンモグラフィ画像タスクの性能を効果的に向上し,多くの最先端(SOTA)一般化手法より優れていることが示唆された。 The deep learning technique has been shown to be effectively addressed several image analysis tasks in the computer-aided diagnosis scheme for mammography. The training of an efficacious deep learning model requires large data with diverse styles and qualities. The diversity of data often comes from the use of various scanners of vendors. But, in practice, it is impractical to collect a sufficient amount of diverse data for training. To this end, a novel contrastive learning is developed to equip the deep learning models with better style generalization capability. Specifically, the multi-style and multi-view unsupervised self-learning scheme is carried out to seek robust feature embedding against style diversity as a pretrained model. Afterward, the pretrained network is further fine-tuned to the downstream tasks, e.g., mass detection, matching, BI-RADS rating, and breast density classification. The proposed method has been evaluated extensively and rigorously with mammograms from various vendor style domains and several public datasets. The experimental results suggest that the proposed domain generalization method can effectively improve performance of four mammographic image tasks on the data from both seen and unseen domains, and outperform many state-of-the-art (SOTA) generalization methods. | 翻訳日:2023-06-30 16:33:07 公開日:2023-06-29 |
# ハイパーネットワーク学習を改善するマグニチュード不変パラメトリゼーション Magnitude Invariant Parametrizations Improve Hypernetwork Learning ( http://arxiv.org/abs/2304.07645v2 ) ライセンス: Link先を確認 | Jose Javier Gonzalez Ortiz, John Guttag, Adrian Dalca | (参考訳) 他のニューラルネットワークのパラメータを予測するニューラルネットワークであるハイパーネットワークは、画像生成からマルチタスク学習まで、さまざまなアプリケーションでうまく使われている強力なモデルである。
残念ながら、既存のハイパーネットワークはトレーニングが難しいことが多い。
トレーニングは通常、非ハイパーネットワークモデルよりもずっと遅く収束し、収束率はハイパーパラメータの選択に非常に敏感である。
本研究では,ハイパーネットワークの入力と出力の比例性という,ハイパーネットワークのトレーニングの課題に寄与する基礎的かつ従来不明な問題を特定する。
分析的にも経験的にも不安定な最適化につながり、収束が遅くなり、時には学習が妨げられることを実証する。
我々は、MIP(Magnitude Invariant Parametrizations)と呼ばれる改訂されたハイパーネットワークの定式化を用いて、この問題に対する簡単な解決策を提案する。
提案手法は,複数のハイパーネットワークタスクにおいて,一貫してトレーニングを安定させ,より高速な収束を実現する。
さらに、アクティベーション関数、正規化戦略、入力次元、ハイパーネットワークアーキテクチャの選択を含む包括的アブレーション研究を行い、MIPが全てのシナリオにおけるトレーニングを改善することを確認する。
既存のネットワークをMIPベースのハイパーネットワークに変換するための使い易いコードを提供します。 Hypernetworks, neural networks that predict the parameters of another neural network, are powerful models that have been successfully used in diverse applications from image generation to multi-task learning. Unfortunately, existing hypernetworks are often challenging to train. Training typically converges far more slowly than for non-hypernetwork models, and the rate of convergence can be very sensitive to hyperparameter choices. In this work, we identify a fundamental and previously unidentified problem that contributes to the challenge of training hypernetworks: a magnitude proportionality between the inputs and outputs of the hypernetwork. We demonstrate both analytically and empirically that this can lead to unstable optimization, thereby slowing down convergence, and sometimes even preventing any learning. We present a simple solution to this problem using a revised hypernetwork formulation that we call Magnitude Invariant Parametrizations (MIP). We demonstrate the proposed solution on several hypernetwork tasks, where it consistently stabilizes training and achieves faster convergence. Furthermore, we perform a comprehensive ablation study including choices of activation function, normalization strategies, input dimensionality, and hypernetwork architecture; and find that MIP improves training in all scenarios. We provide easy-to-use code that can turn existing networks into MIP-based hypernetworks. | 翻訳日:2023-06-30 16:32:45 公開日:2023-06-29 |
# コントラスト学習におけるインスタンス間類似性モデリング Inter-Instance Similarity Modeling for Contrastive Learning ( http://arxiv.org/abs/2306.12243v3 ) ライセンス: Link先を確認 | Chengchao Shen, Dawei Liu, Hao Tang, Zhe Qu, Jianxin Wang | (参考訳) 既存のコントラスト学習手法は、自然画像間のリッチなインスタンス間類似性を必然的に無視する自己教師付き学習のプリテキストタスクとして、ワンホットのインスタンス識別を広く採用している。
本論文では,視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案し,画像間のインスタンス間類似性をモデル化する。
ViTの特質に従い、ミニバッチからの複数の画像をパッチレベルでランダムに混合し、ViT用の混合画像パッチシーケンスを構築する。
既存のサンプル混合法と比較して,patchmixは2枚以上の画像を柔軟かつ効率的に混合し,自然画像間のより複雑な類似性をシミュレートできる。
このように、我々のコントラスト的枠組みは、現実のコントラスト的目的と基底的真理のギャップを著しく減らすことができる。
実験の結果,提案手法は,ImageNet-1KとCIFARデータセットの双方において,画像Net-1Kの線形精度が3.0%,CIFAR100の8.7%向上した。
さらに,本手法は,下流タスクにおける先行転送性能,オブジェクト検出,COCOデータセット上のインスタンスセグメンテーションを実現する。
コードはhttps://github.com/visresearch/patchmixで入手できる。 The existing contrastive learning methods widely adopt one-hot instance discrimination as pretext task for self-supervised learning, which inevitably neglects rich inter-instance similarities among natural images, then leading to potential representation degeneration. In this paper, we propose a novel image mix method, PatchMix, for contrastive learning in Vision Transformer (ViT), to model inter-instance similarities among images. Following the nature of ViT, we randomly mix multiple images from mini-batch in patch level to construct mixed image patch sequences for ViT. Compared to the existing sample mix methods, our PatchMix can flexibly and efficiently mix more than two images and simulate more complicated similarity relations among natural images. In this manner, our contrastive framework can significantly reduce the gap between contrastive objective and ground truth in reality. Experimental results demonstrate that our proposed method significantly outperforms the previous state-of-the-art on both ImageNet-1K and CIFAR datasets, e.g., 3.0% linear accuracy improvement on ImageNet-1K and 8.7% kNN accuracy improvement on CIFAR100. Moreover, our method achieves the leading transfer performance on downstream tasks, object detection and instance segmentation on COCO dataset. The code is available at https://github.com/visresearch/patchmix | 翻訳日:2023-06-30 16:24:46 公開日:2023-06-29 |
# 近位誘導によるチューニングフリー実画像編集の改善 Improving Tuning-Free Real Image Editing with Proximal Guidance ( http://arxiv.org/abs/2306.05414v2 ) ライセンス: Link先を確認 | Ligong Han, Song Wen, Qi Chen, Zhixing Zhang, Kunpeng Song, Mengwei Ren, Ruijiang Gao, Yuxiao Chen, Di Liu, Qilong Zhangli, Anastasis Stathopoulos, Jindong Jiang, Zhaoyang Xia, Akash Srivastava, Dimitris Metaxas | (参考訳) DDIMインバージョンは拡散法における実際の画像編集の可能性を明らかにした。
しかし、DDIM再構成の精度は、より大きな分類器フリーガイダンス(CFG)スケールが編集の強化に使われているため劣化する。
null-text inversion (nti) は、レコンストラクションとインバージョントラジェクタをより大きなcfgスケールに合わせるためにnull埋め込みを最適化し、クロスアテンション制御による実際の画像編集を可能にする。
負のプロンプト反転(NPI)はさらに、NTIのトレーニング不要閉形式解を提供する。
しかし、アーティファクトを導入し、DDIMの再構築品質に制約されている。
これらの制限を克服するため,我々は近位指導法を提案し,それをNPIに組み込む。
我々は、NPIを正規化期間と再構築指導で強化し、トレーニングフリーな性質を生かしながらアーティファクトを減らす。
さらに,概念を拡張して相互自己着脱制御を組み込むことにより,編集プロセスにおける幾何およびレイアウト変更を可能にする。
提案手法は,計算オーバーヘッドを最小限に抑えることで,実画像編集作業に効果的に対処する。 DDIM inversion has revealed the remarkable potential of real image editing within diffusion-based methods. However, the accuracy of DDIM reconstruction degrades as larger classifier-free guidance (CFG) scales being used for enhanced editing. Null-text inversion (NTI) optimizes null embeddings to align the reconstruction and inversion trajectories with larger CFG scales, enabling real image editing with cross-attention control. Negative-prompt inversion (NPI) further offers a training-free closed-form solution of NTI. However, it may introduce artifacts and is still constrained by DDIM reconstruction quality. To overcome these limitations, we propose proximal guidance and incorporate it to NPI with cross-attention control. We enhance NPI with a regularization term and reconstruction guidance, which reduces artifacts while capitalizing on its training-free nature. Additionally, we extend the concepts to incorporate mutual self-attention control, enabling geometry and layout alterations in the editing process. Our method provides an efficient and straightforward approach, effectively addressing real image editing tasks with minimal computational overhead. | 翻訳日:2023-06-30 16:23:37 公開日:2023-06-29 |
# 4Dの人間:トランスフォーマーで人間の再構築と追跡 Humans in 4D: Reconstructing and Tracking Humans with Transformers ( http://arxiv.org/abs/2305.20091v2 ) ライセンス: Link先を確認 | Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik | (参考訳) 我々は,人間を再構築し,時間とともに追跡する手法を提案する。
このアプローチの核となるのが,人間のメッシュ回復のためのネットワークの完全"トランスフォーマライズ"版である。
このネットワークであるHMR 2.0は、芸術の状態を前進させ、過去に1枚の画像から再構成することが困難であった異常なポーズを分析する能力を示す。
ビデオの解析には,hmr 2.0からの3次元再構成を3dで動作するトラッキングシステムへの入力として用いる。
これにより、複数の人に対応でき、オクルージョンイベントを通じてアイデンティティを維持できます。
我々の完全なアプローチである4DHumansは、モノクロビデオから人々を追跡するための最先端の結果を得る。
さらに,HMR 2.0が行動認識の下流タスクに与える影響を実証し,従来のポーズに基づく行動認識手法よりも顕著に改善した。
私たちのコードとモデルはプロジェクトのwebサイト(https://shubham-goel.github.io/4dhumans/)で利用可能です。 We present an approach to reconstruct humans and track them over time. At the core of our approach, we propose a fully "transformerized" version of a network for human mesh recovery. This network, HMR 2.0, advances the state of the art and shows the capability to analyze unusual poses that have in the past been difficult to reconstruct from single images. To analyze video, we use 3D reconstructions from HMR 2.0 as input to a tracking system that operates in 3D. This enables us to deal with multiple people and maintain identities through occlusion events. Our complete approach, 4DHumans, achieves state-of-the-art results for tracking people from monocular video. Furthermore, we demonstrate the effectiveness of HMR 2.0 on the downstream task of action recognition, achieving significant improvements over previous pose-based action recognition approaches. Our code and models are available on the project website: https://shubham-goel.github.io/4dhumans/. | 翻訳日:2023-06-30 16:23:15 公開日:2023-06-29 |
# ソースコードモデルのためのデータ拡張アプローチ:調査 Data Augmentation Approaches for Source Code Models: A Survey ( http://arxiv.org/abs/2305.19915v3 ) ライセンス: Link先を確認 | Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li, Xiaoning Du, Zhenchang Xing, David Lo | (参考訳) 多くの重要なタスクにおけるソースコードの採用が増加し、トレーニングデータを強化し、これらのモデルの様々な機能(堅牢性や一般化可能性)を改善するためのデータ拡張(DA)技術の開発が動機となっている。
一連のdaメソッドが提案され、ソースコードモデル用に調整されているが、その効果と影響を理解するための包括的な調査と調査が欠けている。
本稿では,既存の文献を体系的にコンパイル・カプセル化し,その分野の包括的概要を提供するため,ソースコードのデータ拡張に関する包括的かつ統合的な調査を行うことで,このギャップを埋める。
まず、ソースコードモデルモデルアプローチのためのDAの分類を構築し、続いて、著名な方法論的実証的アプローチについて議論する。
次に、da品質を最適化するための一般的な戦略とテクニックを紹介します。
その後、広く受け入れられたソースコードのシナリオやダウンストリームタスクで有用性を見出す手法の基盤となる。
最後に,今後の研究の課題と可能性について概説する。
本論文は, ソースコードモデルのための既存のda文献のコーパスを非神秘化し, この領域におけるさらなる探索を促進することを目的としている。
補完として、ソースコードモデルに関するDAの更新最新文書のリストをホストする、継続的に更新されたGitHubレポジトリを、 \url{https://github.com/terryyz/DataAug4Code}で公開します。 The increasingly popular adoption of source code in many critical tasks motivates the development of data augmentation (DA) techniques to enhance training data and improve various capabilities (e.g., robustness and generalizability) of these models. Although a series of DA methods have been proposed and tailored for source code models, there lacks a comprehensive survey and examination to understand their effectiveness and implications. This paper fills this gap by conducting a comprehensive and integrative survey of data augmentation for source code, wherein we systematically compile and encapsulate existing literature to provide a comprehensive overview of the field. We start by constructing a taxonomy of DA for source code models model approaches, followed by a discussion on prominent, methodologically illustrative approaches. Next, we highlight the general strategies and techniques to optimize the DA quality. Subsequently, we underscore techniques that find utility in widely-accepted source code scenarios and downstream tasks. Finally, we outline the prevailing challenges and potential opportunities for future research. In essence, this paper endeavors to demystify the corpus of existing literature on DA for source code models, and foster further exploration in this sphere. Complementing this, we present a continually updated GitHub repository that hosts a list of update-to-date papers on DA for source code models, accessible at \url{https://github.com/terryyz/DataAug4Code}. | 翻訳日:2023-06-30 16:23:01 公開日:2023-06-29 |
# 局所的特徴を持つ類似のソースドメインに基づく多元逆伝達学習 Multi-source adversarial transfer learning based on similar source domains with local features ( http://arxiv.org/abs/2305.19067v2 ) ライセンス: Link先を確認 | Yifu Zhang, Hongru Li, Shimeng Shi, Youqi Li, Jiansong Zhang | (参考訳) 転送学習は他のドメインからの知識を活用し、多くのアプリケーションで成功している。
転送学習方法は、ソースとターゲットドメインの全体的な類似性に依存する。
しかし、場合によっては、全体的な類似のソースドメインを提供することは不可能であり、類似のローカル機能を持つソースドメインのみを提供することができる。
転校学習は可能か?
本稿では,ソース領域と対象領域が局所的類似性しか持たない転送シナリオを処理するために,ソース領域と局所的特徴類似性に基づく多元逆伝達学習手法を提案する。
サブネットワークを介して、単一ソースドメインと対象ドメイン間の転送可能なローカル特徴を抽出する。
具体的には、サブネットワークの特徴抽出器をドメイン判別器によって誘導し、ソースドメインとターゲットドメインとの間の転送可能な知識を学習する。
抽出した特徴をアテンションモジュールで重み付けし、非伝達可能な局所特徴を抑えるとともに、伝達可能な局所特徴を増強する。
同じバッチで異なるサブネットワーク内のターゲットドメインからのデータが全く同じであるように、我々は、後続のローカル機能融合が必要とされる重要な機能を完成させる可能性を提供するために、マルチソースドメイン独立戦略を設計しました。
本手法の有効性を検証するため,データセットを「局所カルバナ画像マスキングデータセット」とした。
提案手法を画像分割タスクに適用することで、他の複数ソース転送学習手法よりも優れた転送性能が得られる。
ソースドメインとターゲットドメインが局所的類似性しか持たない転送シナリオに対して,設計した転送学習が実現可能であることを示す。 Transfer learning leverages knowledge from other domains and has been successful in many applications. Transfer learning methods rely on the overall similarity of the source and target domains. However, in some cases, it is impossible to provide an overall similar source domain, and only some source domains with similar local features can be provided. Can transfer learning be achieved? In this regard, we propose a multi-source adversarial transfer learning method based on local feature similarity to the source domain to handle transfer scenarios where the source and target domains have only local similarities. This method extracts transferable local features between a single source domain and the target domain through a sub-network. Specifically, the feature extractor of the sub-network is induced by the domain discriminator to learn transferable knowledge between the source domain and the target domain. The extracted features are then weighted by an attention module to suppress non-transferable local features while enhancing transferable local features. In order to ensure that the data from the target domain in different sub-networks in the same batch is exactly the same, we designed a multi-source domain independent strategy to provide the possibility for later local feature fusion to complete the key features required. In order to verify the effectiveness of the method, we made the dataset "Local Carvana Image Masking Dataset". Applying the proposed method to the image segmentation task of the proposed dataset achieves better transfer performance than other multi-source transfer learning methods. It is shown that the designed transfer learning method is feasible for transfer scenarios where the source and target domains have only local similarities. | 翻訳日:2023-06-30 16:22:40 公開日:2023-06-29 |
# GazeGNN:胸部X線分類のためのGaze-Guided Graph Neural Network GazeGNN: A Gaze-Guided Graph Neural Network for Chest X-ray Classification ( http://arxiv.org/abs/2305.18221v2 ) ライセンス: Link先を確認 | Bin Wang, Hongyi Pan, Armstrong Aboah, Zheyuan Zhang, Elif Keles, Drew Torigian, Baris Turkbey, Elizabeth Krupinski, Jayaram Udupa, Ulas Bagci | (参考訳) 視線追跡の研究は、人間の視覚世界との相互作用を理解するのに役立つため、コンピュータビジョンにおいて重要である。
特に、医療画像などのリスクの高いアプリケーションでは、アイトラッキングは、放射線技師や他の医療専門家が診断や臨床目的で画像を探し、分析し、解釈する方法を理解するのに役立ちます。
そのため、近年では、眼球追跡技術の病気分類への応用が盛んに行われている。
現代の研究は通常、視線追跡装置が収集した視線情報を視覚的注意マップ(VAM)に変換して学習過程を監督する。
しかし、これは時間を要する前処理であり、放射線科医の日常業務にアイトラッキングを適用することを妨げる。
そこで本研究では,生の視線データをvamsに変換することなく活用する,新しい視線誘導グラフニューラルネットワーク(gnn)であるgazgnnを提案する。
GazeGNNでは、視線を直接画像分類に統合するために、画像と視線パターン情報をモデル化する統一表現グラフを作成します。
この利点により、文献の中で初めてリアルタイム、リアルタイム、エンドツーエンドの病気分類アルゴリズムを開発した。
この成果は、放射線科医の日常業務にリアルタイムアイトラッキング技術を統合する実用性と実現性を示している。
われわれの知る限り、GazeGNNはGNNを採用して画像と視線データを統合した最初の作品だ。
胸部X線データを用いた実験により,提案手法は既存手法と比較して最も優れた分類性能を示した。
コードは利用可能です。 Eye tracking research is important in computer vision because it can help us understand how humans interact with the visual world. Specifically for high-risk applications, such as in medical imaging, eye tracking can help us to comprehend how radiologists and other medical professionals search, analyze, and interpret images for diagnostic and clinical purposes. Hence, the application of eye tracking techniques in disease classification has become increasingly popular in recent years. Contemporary works usually transform gaze information collected by eye tracking devices into visual attention maps (VAMs) to supervise the learning process. However, this is a time-consuming preprocessing step, which stops us from applying eye tracking to radiologists' daily work. To solve this problem, we propose a novel gaze-guided graph neural network (GNN), GazeGNN, to leverage raw eye-gaze data without being converted into VAMs. In GazeGNN, to directly integrate eye gaze into image classification, we create a unified representation graph that models both images and gaze pattern information. With this benefit, we develop a real-time, real-world, end-to-end disease classification algorithm for the first time in the literature. This achievement demonstrates the practicality and feasibility of integrating real-time eye tracking techniques into the daily work of radiologists. To our best knowledge, GazeGNN is the first work that adopts GNN to integrate image and eye-gaze data. Our experiments on the public chest X-ray dataset show that our proposed method exhibits the best classification performance compared to existing methods. The code is available. | 翻訳日:2023-06-30 16:22:15 公開日:2023-06-29 |
# 自分のデータを持ってこい!
大規模言語モデルの自己監督評価 Bring Your Own Data! Self-Supervised Evaluation for Large Language Models ( http://arxiv.org/abs/2306.13651v2 ) ライセンス: Link先を確認 | Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping and Tom Goldstein | (参考訳) 大規模言語モデル(LLM)の台頭と多様なドメインへのユビキタスな展開により、現実的なデータに対する言語モデルの振る舞いを測定することが不可欠である。
例えば、クライアント対応のチャットボットをデプロイする企業は、モデルを誇張されたクライアント要求に応答しないようにしなければならない。
現在の評価では、人間によるラベル付き小さなドメイン特化データセットを用いてこの問題にアプローチしている。
これらの評価セットはしばしば狭く単純化された分布からサンプリングされ、データソースは無意識にトレーニングセットにリークされ、誤った評価につながる可能性がある。
これらの欠点を回避すべく,入力テキストの感度や変換の不均一性を解析し,llmの自己教師あり評価のための枠組みを提案する。
自己教師付き評価は、野生またはライブモデルデプロイメント中に収集されたデータセット上のLCMの挙動を直接監視することができる。
我々は,文法構造やトークン化エラーに対する感受性に加えて,クローズドブック知識,毒性,長期コンテキスト依存を測定するための自己指導型評価戦略を実証する。
類似の人ラベルベンチマークと比較すると、自己監督評価と人監督評価の相関が強いことが分かる。
自己管理パラダイムは、ラベル付きデータに依存する現在の評価戦略を補完する。 With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data. | 翻訳日:2023-06-30 16:13:39 公開日:2023-06-29 |
# DreamEditor: テキスト駆動の3Dシーン編集 DreamEditor: Text-Driven 3D Scene Editing with Neural Fields ( http://arxiv.org/abs/2306.13455v2 ) ライセンス: Link先を確認 | Jingyu Zhuang, Chen Wang, Lingjie Liu, Liang Lin, Guanbin Li | (参考訳) ニューラルフィールドは、視覚合成とシーン再構成において素晴らしい進歩を遂げている。
しかしながら、これらのニューラルフィールドの編集は、幾何学とテクスチャ情報の暗黙的なエンコーディングのため、依然として困難である。
本稿では,ユーザがテキストプロンプトを用いて制御されたニューラルネットワークの編集を行うことができる新しいフレームワークであるDreamEditorを提案する。
シーンをメッシュベースのニューラルネットワークとして表現することで、dreameditorは特定の領域内でローカライズされた編集を可能にする。
DreamEditorは、事前訓練されたテキスト間拡散モデルのテキストエンコーダを使用して、テキストプロンプトのセマンティクスに基づいて編集される領域を自動的に識別する。
その後、dreameditorは編集領域を最適化し、その形状とテクスチャをスコア蒸留サンプリング[29]によりテキストプロンプトに調整する。
広範な実験により、dreameditorは、与えられたテキストプロンプトに従って現実世界のシーンのニューラルフィールドを正確に編集でき、無関係な領域における一貫性を確保している。
DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。 Neural fields have achieved impressive advancements in view synthesis and scene reconstruction. However, editing these neural fields remains challenging due to the implicit encoding of geometry and texture information. In this paper, we propose DreamEditor, a novel framework that enables users to perform controlled editing of neural fields using text prompts. By representing scenes as mesh-based neural fields, DreamEditor allows localized editing within specific regions. DreamEditor utilizes the text encoder of a pretrained text-to-Image diffusion model to automatically identify the regions to be edited based on the semantics of the text prompts. Subsequently, DreamEditor optimizes the editing region and aligns its geometry and texture with the text prompts through score distillation sampling [29]. Extensive experiments have demonstrated that DreamEditor can accurately edit neural fields of real-world scenes according to the given text prompts while ensuring consistency in irrelevant areas. DreamEditor generates highly realistic textures and geometry, significantly surpassing previous works in both quantitative and qualitative evaluations. | 翻訳日:2023-06-30 16:13:17 公開日:2023-06-29 |
# HVAC制御のためのLaxity-Aware Scalable Reinforcement Learning Laxity-Aware Scalable Reinforcement Learning for HVAC Control ( http://arxiv.org/abs/2306.16619v1 ) ライセンス: Link先を確認 | Ruohong Liu, Yuxin Pan, Yize Chen | (参考訳) 需要の柔軟性は、グリッドバランスの維持、ピーク需要の削減、顧客のエネルギー請求の節約において重要な役割を果たす。
高度にシフト可能な負荷と建物のエネルギー消費への重要な貢献から、暖房、換気、空調(HVAC)システムは、電力価格と電力システムのニーズに応じてエネルギー消費を調整することで、電力システムに貴重な需要フレキシビリティを提供することができる。
この柔軟性を運用時間と電力の両方で活用するには、多数のHVACシステムの負荷柔軟性を正確にモデル化し、集約し、効率的な制御アルゴリズムを設計する必要がある。
本稿では,各HVAC操作要求の緊急レベルを定量化するために,Laxityの概念を活用することにより,モデリングと制御における次元問題の呪いに取り組む。
さらに,多くのHVACシステムに対する2段階のエネルギー最適化手法を提案する。
低レベルには、HVAC負荷の遅延情報を集約するアグリゲータと、制御器の総電力に基づいて個々のHVACシステムにリアルタイム電力を割り当てる最小遅延優先(LLF)ルールを使用する。
HVACシステムの複雑で不確実な性質のため、我々は強化学習(RL)ベースのコントローラを利用して、集約された遅延情報と電力価格に基づいて総電力をスケジュールする。
本研究では, 大規模HVACシステムの温度制御と省エネ性能を, 気候・電力市場条件の異なる単ゾーン・多ゾーンのシナリオで評価した。
実験の結果,提案手法はテストシナリオの大部分において集中型手法よりも優れており,いくつかのシナリオではモデルベース手法と相容れない性能を示した。 Demand flexibility plays a vital role in maintaining grid balance, reducing peak demand, and saving customers' energy bills. Given their highly shiftable load and significant contribution to a building's energy consumption, Heating, Ventilation, and Air Conditioning (HVAC) systems can provide valuable demand flexibility to the power systems by adjusting their energy consumption in response to electricity price and power system needs. To exploit this flexibility in both operation time and power, it is imperative to accurately model and aggregate the load flexibility of a large population of HVAC systems as well as designing effective control algorithms. In this paper, we tackle the curse of dimensionality issue in modeling and control by utilizing the concept of laxity to quantify the emergency level of each HVAC operation request. We further propose a two-level approach to address energy optimization for a large population of HVAC systems. The lower level involves an aggregator to aggregate HVAC load laxity information and use least-laxity-first (LLF) rule to allocate real-time power for individual HVAC systems based on the controller's total power. Due to the complex and uncertain nature of HVAC systems, we leverage a reinforcement learning (RL)-based controller to schedule the total power based on the aggregated laxity information and electricity price. We evaluate the temperature control and energy cost saving performance of a large-scale group of HVAC systems in both single-zone and multi-zone scenarios, under varying climate and electricity market conditions. The experiment results indicate that proposed approach outperforms the centralized methods in the majority of test scenarios, and performs comparably to model-based method in some scenarios. | 翻訳日:2023-06-30 15:19:10 公開日:2023-06-29 |
# リーマン多様体上のゲームに対する曲率非依存な最終Iterate Convergence Curvature-Independent Last-Iterate Convergence for Games on Riemannian Manifolds ( http://arxiv.org/abs/2306.16617v1 ) ライセンス: Link先を確認 | Yang Cai, Michael I. Jordan, Tianyi Lin, Argyris Oikonomou, Emmanouil-Vasileios Vlatakis-Gkaragkounis | (参考訳) 機械学習やデータ解析における多くの応用は、リーマン多様体上の平衡計算として定式化することができる。
ユークリッド的アルゴリズムの広範な研究にもかかわらず、リーマン勾配に基づくアルゴリズムの性能は不透明で理解されていない。
我々は、リーマン勾配降下(RGD)の元々のスキームを再検討し、測地的単調性仮定の下で解析する。
我々の主な貢献は、距離歪み現象にもかかわらず、多様体の曲率に無依存なステップサイズを持つrgdスキームが、測地学的に強い単調設定において曲率非依存で線形なラストイットレート収束率を達成することを示すことである。
我々の知る限りでは、リーマン集合における曲率非依存率やラストイテレート収束は、これまで考えられていなかった。 Numerous applications in machine learning and data analytics can be formulated as equilibrium computation over Riemannian manifolds. Despite the extensive investigation of their Euclidean counterparts, the performance of Riemannian gradient-based algorithms remain opaque and poorly understood. We revisit the original scheme of Riemannian gradient descent (RGD) and analyze it under a geodesic monotonicity assumption, which includes the well-studied geodesically convex-concave min-max optimization problem as a special case. Our main contribution is to show that, despite the phenomenon of distance distortion, the RGD scheme, with a step size that is agnostic to the manifold's curvature, achieves a curvature-independent and linear last-iterate convergence rate in the geodesically strongly monotone setting. To the best of our knowledge, the possibility of curvature-independent rates and/or last-iterate convergence in the Riemannian setting has not been considered before. | 翻訳日:2023-06-30 15:18:39 公開日:2023-06-29 |
# 多視点画像を用いた3次元メッシュ再構築のための頂点熱マップの表現学習 Representation learning of vertex heatmaps for 3D human mesh reconstruction from multi-view images ( http://arxiv.org/abs/2306.16615v1 ) ライセンス: Link先を確認 | Sungho Chun, Sungbum Park, Ju Yong Chang | (参考訳) 本研究では,マルチビュー画像からの3次元メッシュ再構成の問題に対処する。
近年,入力画像からの体積熱マップ表現に基づくスキン付き多人線形モデル(SMPL)に基づくヒューマンメッシュ頂点を直接推定する手法の性能が向上した。
オートエンコーダを用いた頂点ヒートマップの表現学習は,このような手法の性能向上に役立つことを示す。
Vertex Heatmap Autoencoder (VHA)は、大規模モーションキャプチャーデータセットであるAMASSを用いて、潜時符号の形で可塑性人間のメッシュの多様体を学習する。
ボディコード予測器(BCP)は、VHAに先立つ学習体を用いて、遅延コードに基づく監督と事前訓練された重みの移動を通じて、多視点画像から人間のメッシュ再構築を行う。
Human3.6MとLightStageデータセットの実験によると、提案手法は従来の手法より優れ、最先端のヒューマンメッシュ再構築性能を実現する。 This study addresses the problem of 3D human mesh reconstruction from multi-view images. Recently, approaches that directly estimate the skinned multi-person linear model (SMPL)-based human mesh vertices based on volumetric heatmap representation from input images have shown good performance. We show that representation learning of vertex heatmaps using an autoencoder helps improve the performance of such approaches. Vertex heatmap autoencoder (VHA) learns the manifold of plausible human meshes in the form of latent codes using AMASS, which is a large-scale motion capture dataset. Body code predictor (BCP) utilizes the learned body prior from VHA for human mesh reconstruction from multi-view images through latent code-based supervision and transfer of pretrained weights. According to experiments on Human3.6M and LightStage datasets, the proposed method outperforms previous methods and achieves state-of-the-art human mesh reconstruction performance. | 翻訳日:2023-06-30 15:18:22 公開日:2023-06-29 |
# グループベースロバストネス:実世界のロバストネスをカスタマイズするための汎用フレームワーク Group-based Robustness: A General Framework for Customized Robustness in the Real World ( http://arxiv.org/abs/2306.16614v1 ) ライセンス: Link先を確認 | Weiran Lin and Keane Lucas and Neo Eyal and Lujo Bauer and Michael K. Reiter and Mahmood Sharif | (参考訳) 機械学習モデルは、誤分類を引き起こすためにパーターブモデル入力の回避攻撃に弱いことが知られている。
本研究では,既存の攻撃によって真の脅威を正確に評価できない実世界のシナリオを特定する。
具体的には、対象とするロバスト性を測定する従来の指標は、あるソースクラスから別のターゲットクラスへの攻撃に耐えるモデルの能力を適切に反映していない。
既存の手法の欠点に対処するため,既存の手法を補完し,特定の攻撃シナリオにおけるモデル性能を評価するのに適した,グループベースロバストネスと呼ばれる新しい指標を正式に定義する。
従来のロバスト性指標が適用されない状況において,特定の脅威モデルに対するモデルの脆弱性を区別できることが,グループベースのロバスト性を示す。
さらに,グループベースロバストネスを効率的に高精度に測定する。
1)損失関数を2つ提案し,
2)新たな攻撃戦略を3つ挙げる。
実験により,新たな損失関数を用いた回避サンプルの発見は,対象クラス数に匹敵する計算係数を削減し,新たな攻撃戦略を用いた回避サンプルの発見は,ブルートフォース探索法と比較して最大99%の時間を節約できることを示した。
最後に,最大 3.52$\times$ でグループベースロバスト性を向上させる防衛手法を提案する。 Machine-learning models are known to be vulnerable to evasion attacks that perturb model inputs to induce misclassifications. In this work, we identify real-world scenarios where the true threat cannot be assessed accurately by existing attacks. Specifically, we find that conventional metrics measuring targeted and untargeted robustness do not appropriately reflect a model's ability to withstand attacks from one set of source classes to another set of target classes. To address the shortcomings of existing methods, we formally define a new metric, termed group-based robustness, that complements existing metrics and is better-suited for evaluating model performance in certain attack scenarios. We show empirically that group-based robustness allows us to distinguish between models' vulnerability against specific threat models in situations where traditional robustness metrics do not apply. Moreover, to measure group-based robustness efficiently and accurately, we 1) propose two loss functions and 2) identify three new attack strategies. We show empirically that with comparable success rates, finding evasive samples using our new loss functions saves computation by a factor as large as the number of targeted classes, and finding evasive samples using our new attack strategies saves time by up to 99\% compared to brute-force search methods. Finally, we propose a defense method that increases group-based robustness by up to 3.52$\times$. | 翻訳日:2023-06-30 15:18:09 公開日:2023-06-29 |
# GuidedMixup:Saliency Mapsでガイドされた効率的な混合戦略 GuidedMixup: An Efficient Mixup Strategy Guided by Saliency Maps ( http://arxiv.org/abs/2306.16612v1 ) ライセンス: Link先を確認 | Minsoo Kang, Suhyun Kim | (参考訳) データ拡張は、オーバーフィッティングを効果的に防止し、ノイズの多いデータセットに対してモデルをより堅牢にするため、イメージトレーニングプロセスの不可欠な部分となっている。
近年の混合強化戦略は, 監視信号である塩分量情報を強化可能な混合マスクを生成するために進歩している。
しかし、これらの手法はミキシングマスクを最適化するために計算負荷が大きい。
そこで,本研究では,計算オーバーヘッドの少ない混合画像の高度領域を維持することを目的とした,新しいサリエンシー・アウェア・ミックスアップ法であるguidedmixupを提案する。
本研究では,ペア画像の高度領域の競合を最小限に抑え,ミックスアップ画像の高精細化を実現するための効率的なペアリングアルゴリズムを開発した。
また、2対の画像をスムーズに補間することにより、各画素のミックスアップ比を制御し、サルエント領域をよりよく保存する。
いくつかのデータセットにおける実験は、guidedmixupが分類データセットの強化オーバーヘッドと一般化性能との間に良いトレードオフをもたらすことを示している。
また,この手法は,データセットの破損や縮小による実験において良好な性能を示す。 Data augmentation is now an essential part of the image training process, as it effectively prevents overfitting and makes the model more robust against noisy datasets. Recent mixing augmentation strategies have advanced to generate the mixup mask that can enrich the saliency information, which is a supervisory signal. However, these methods incur a significant computational burden to optimize the mixup mask. From this motivation, we propose a novel saliency-aware mixup method, GuidedMixup, which aims to retain the salient regions in mixup images with low computational overhead. We develop an efficient pairing algorithm that pursues to minimize the conflict of salient regions of paired images and achieve rich saliency in mixup images. Moreover, GuidedMixup controls the mixup ratio for each pixel to better preserve the salient region by interpolating two paired images smoothly. The experiments on several datasets demonstrate that GuidedMixup provides a good trade-off between augmentation overhead and generalization performance on classification datasets. In addition, our method shows good performance in experiments with corrupted or reduced datasets. | 翻訳日:2023-06-30 15:17:42 公開日:2023-06-29 |
# 量子誤差検出によるベイズ量子位相推定の実証 Demonstrating Bayesian Quantum Phase Estimation with Quantum Error Detection ( http://arxiv.org/abs/2306.16608v1 ) ライセンス: Link先を確認 | Kentaro Yamamoto, Samuel Duffield, Yuta Kikuchi, David Mu\~noz Ramo | (参考訳) 量子位相推定(QPE)は多くの異なる量子アルゴリズムの構成要素として機能し、計算化学問題において重要な応用を見出す。
量子ハードウェアの急速な開発にもかかわらず、大きな回路深さと完全なフォールトトレラントプロトコルでハードウェアをノイズから守るための量子リソースの欠如により、化学問題に対するQPEの実験的な実証は依然として困難である。
本研究では,量子コンピュータ上でqpeアルゴリズムを実演することにより,フォールトトレラント量子コンピューティングへの一歩を踏み出した。
qpeに対するベイズ的アプローチを採用し、最適なパラメータ選択のためのルーチンを導入し、ハードウェア機能に合わせて慎重に調整された$[[[n+2,n,2]$量子エラー検出コードを組み合わせる。
単純な量子化学の例として、2量子ハミルトニアンで表される水素分子を取り、QPEプロトコルを用いて基底状態エネルギーを推定する。
実験では、物理2量子ビットゲートを最大920個含む量子回路を用いて、正確な値の6\times 10^{-3}$ hartree内の基底状態エネルギーを推定する。 Quantum phase estimation (QPE) serves as a building block of many different quantum algorithms and finds important applications in computational chemistry problems. Despite the rapid development of quantum hardware, experimental demonstration of QPE for chemistry problems remains challenging due to its large circuit depth and the lack of quantum resources to protect the hardware from noise with fully fault-tolerant protocols. In the present work, we take a step towards fault-tolerant quantum computing by demonstrating a QPE algorithm on a Quantinuum trapped-ion computer. We employ a Bayesian approach to QPE and introduce a routine for optimal parameter selection, which we combine with a $[[ n+2,n,2 ]]$ quantum error detection code carefully tailored to the hardware capabilities. As a simple quantum chemistry example, we take a hydrogen molecule represented by a two-qubit Hamiltonian and estimate its ground state energy using our QPE protocol. In the experiment, we use the quantum circuits containing as many as 920 physical two-qubit gates to estimate the ground state energy within $6\times 10^{-3}$ hartree of the exact value. | 翻訳日:2023-06-30 15:17:23 公開日:2023-06-29 |
# EgoCOL: Egocentric Camera pose Estimation for Openworld 3D object Localization @Ego4D Challenge 2023 EgoCOL: Egocentric Camera pose estimation for Open-world 3D object Localization @Ego4D challenge 2023 ( http://arxiv.org/abs/2306.16606v1 ) ライセンス: Link先を確認 | Cristhian Forigua, Maria Escobar, Jordi Pont-Tuset, Kevis-Kokitsi Maninis and Pablo Arbel\'aez | (参考訳) オープンワールド3Dオブジェクトローカライゼーションのためのエゴセントリックカメラポーズ推定法であるEgoCOLを提案する。
提案手法は,2次元のカメラポーズをビデオとスキャンで独立に再現し,高いリコール精度と精度で3次元レンダリングにおける自己中心型フレームのカメラポーズを推定する。
提案手法をVisual Query (VQ) 3DオブジェクトローカライズEgo4Dベンチマークで広く評価した。
Ego4D Visual Queries 3D Localization Challenge at CVPR 2023 in the val and test setでは、Ego4Dベースラインの62%と59%のカメラポーズを推定することができる。
私たちのコードはhttps://github.com/BCV-Uniandes/EgoCOLで公開されています。 We present EgoCOL, an egocentric camera pose estimation method for open-world 3D object localization. Our method leverages sparse camera pose reconstructions in a two-fold manner, video and scan independently, to estimate the camera pose of egocentric frames in 3D renders with high recall and precision. We extensively evaluate our method on the Visual Query (VQ) 3D object localization Ego4D benchmark. EgoCOL can estimate 62% and 59% more camera poses than the Ego4D baseline in the Ego4D Visual Queries 3D Localization challenge at CVPR 2023 in the val and test sets, respectively. Our code is publicly available at https://github.com/BCV-Uniandes/EgoCOL | 翻訳日:2023-06-30 15:17:02 公開日:2023-06-29 |
# KITE:セマンティックマニピュレーションのためのキーポイント型ポリシー KITE: Keypoint-Conditioned Policies for Semantic Manipulation ( http://arxiv.org/abs/2306.16605v1 ) ライセンス: Link先を確認 | Priya Sundaresan, Suneel Belkhale, Dorsa Sadigh, Jeannette Bohg | (参考訳) 自然言語は人間とロボットに便利な共有インターフェースを提供するが、ロボットが言語コマンドを解釈し従わせることは、操作において長年の課題である。
動作指示追従ロボットを実現するための重要なステップは、ロボットが「ぬいぐるみを拾い上げる」といった高レベルな指示から「象の左耳を磨く」といったより詳細な入力まで、異なる特異性で言語を解釈する意味操作を実現することである。
そこで我々は,シーンセマンティクス(視覚的場面における異なるオブジェクトの識別)とオブジェクトセマンティクス(正確にはオブジェクトインスタンス内の異なる部分のローカライズ)の両方に対応する意味操作のための2段階のフレームワークであるKeypoints + Instructions to Execution (KITE)を提案する。
KITEは、まず2次元画像キーポイントを通して視覚シーンに入力命令を接地し、下流アクション推論のための高精度なオブジェクト中心バイアスを提供する。
KITEはRGB-Dシーンの観察を行い、学習されたキーポイント条件のスキルを実行して命令を実行する。
キーポイントの精度とパラメータ化スキルを組み合わせることで、シーンやオブジェクトのバリエーションを一般化したきめ細かい操作が可能になる。
実世界の3つの環境 – 長距離6-DoFテーブルトップ操作,意味的把握,高精度コーヒー製造タスク – において,KITEを実証した。
これらの設定では、KITEはそれぞれ75%、70%、全体の71%の成功率を達成している。
KITEは、キーポイントベースのグラウンドよりも事前訓練されたビジュアル言語モデルを選択するフレームワークや、エンドツーエンドのビジュモータコントロールを優先して省略スキルを向上する。
追加資料、データセット、コード、ビデオは、私たちのWebサイトにある。 While natural language offers a convenient shared interface for humans and robots, enabling robots to interpret and follow language commands remains a longstanding challenge in manipulation. A crucial step to realizing a performant instruction-following robot is achieving semantic manipulation, where a robot interprets language at different specificities, from high-level instructions like "Pick up the stuffed animal" to more detailed inputs like "Grab the left ear of the elephant." To tackle this, we propose Keypoints + Instructions to Execution (KITE), a two-step framework for semantic manipulation which attends to both scene semantics (distinguishing between different objects in a visual scene) and object semantics (precisely localizing different parts within an object instance). KITE first grounds an input instruction in a visual scene through 2D image keypoints, providing a highly accurate object-centric bias for downstream action inference. Provided an RGB-D scene observation, KITE then executes a learned keypoint-conditioned skill to carry out the instruction. The combined precision of keypoints and parameterized skills enables fine-grained manipulation with generalization to scene and object variations. Empirically, we demonstrate KITE in 3 real-world environments: long-horizon 6-DoF tabletop manipulation, semantic grasping, and a high-precision coffee-making task. In these settings, KITE achieves a 75%, 70%, and 71% overall success rate for instruction-following, respectively. KITE outperforms frameworks that opt for pre-trained visual language models over keypoint-based grounding, or omit skills in favor of end-to-end visuomotor control, all while being trained from fewer or comparable amounts of demonstrations. Supplementary material, datasets, code, and videos can be found on our website: http://tinyurl.com/kite-site. | 翻訳日:2023-06-30 15:16:48 公開日:2023-06-29 |
# 紫外光子計数単画素イメージング Ultraviolet photon-counting single-pixel imaging ( http://arxiv.org/abs/2306.16640v1 ) ライセンス: Link先を確認 | Jun-Tian Ye, Chao Yu, Wenwen Li, Zheng-Ping Li, Hai Lu, Rong Zhang, Jun Zhang, Feihu Xu, and Jian-Wei Pan | (参考訳) 紫外域で光子計数単画素イメージングを行う。
本研究の目的は、4H-SiC単光子アバランシェダイオード(SPAD)に基づく高性能な単一光子検出器を開発することである。
構造化照明を用いて、192$\times$192の圧縮画像を4fpsのフレームレートで再構成する。
紫外線特性の優れた性能を示すために,我々は単一画素イメージングシステムを用いて,低強度照射下での異なる透明物体の識別と識別を行う。
以上の結果から, 一般紫外線イメージング応用への実用的な解決策が得られた。 We demonstrate photon-counting single-pixel imaging in the ultraviolet region. Toward this target, we develop a high-performance compact single-photon detector based on a 4H-SiC single-photon avalanche diode (SPAD), where a tailored readout circuit with active hold-off time is designed to restrain detector noise and operate the SPAD in free-running mode. We use structured illumination to reconstruct 192$\times$192 compressed images at a 4 fps frame rate. To show the superior capability of ultraviolet characteristics, we use our single-pixel imaging system to identify and distinguish different transparent objects under low-intensity irradiation, and image ultraviolet light sources. The results provide a practical solution for general ultraviolet imaging applications. | 翻訳日:2023-06-30 15:08:11 公開日:2023-06-29 |
# デジタル学習ゲームにおけるChatGPTの十進スキルとフィードバック生成の評価 Evaluating ChatGPT's Decimal Skills and Feedback Generation in a Digital Learning Game ( http://arxiv.org/abs/2306.16639v1 ) ライセンス: Link先を確認 | Huy A. Nguyen, Hayden Stec, Xinying Hou, Sarah Di, Bruce M. McLaren | (参考訳) オープン・エンド・セルフ・エクスラレーションは、複数の研究において堅牢な学習を促進することが示されているが、学生の入力の制約のない性質のため、技術強化学習における自動学習とフィードバックに重大な課題が生じる。
本稿では,近年の大規模言語モデル,特にChatGPTがこの問題に対処できるかどうかを検討する。
学習ゲーム「十進点」の先行研究から得られた十進演習と学生データを用いて, 5,000以上のオープンエンド自己説明応答を有するチャットgptのゲーム内エクササイズ解決能力, (2) 答えの正しさの決定, 3) 誤答に対する有意義なフィードバックについて検討した。
その結果、chatgptは概念的な質問にうまく答えることができたが、十進数と数列の問題に苦しんだ。
さらに,学生の回答の75%の正しさを正確に評価し,人間のインストラクターと同様,全般的に高品質なフィードバックが得られた。
本稿では,ChatGPTの強みと弱みについて論じ,デジタル教育と学習における使用事例を拡大するためのいくつかの場を提案する。 While open-ended self-explanations have been shown to promote robust learning in multiple studies, they pose significant challenges to automated grading and feedback in technology-enhanced learning, due to the unconstrained nature of the students' input. Our work investigates whether recent advances in Large Language Models, and in particular ChatGPT, can address this issue. Using decimal exercises and student data from a prior study of the learning game Decimal Point, with more than 5,000 open-ended self-explanation responses, we investigate ChatGPT's capability in (1) solving the in-game exercises, (2) determining the correctness of students' answers, and (3) providing meaningful feedback to incorrect answers. Our results showed that ChatGPT can respond well to conceptual questions, but struggled with decimal place values and number line problems. In addition, it was able to accurately assess the correctness of 75% of the students' answers and generated generally high-quality feedback, similar to human instructors. We conclude with a discussion of ChatGPT's strengths and weaknesses and suggest several venues for extending its use cases in digital teaching and learning. | 翻訳日:2023-06-30 15:07:56 公開日:2023-06-29 |
# GPTの否定検出評価:xNot360データセットによる解析 A negation detection assessment of GPTs: analysis with the xNot360 dataset ( http://arxiv.org/abs/2306.16638v1 ) ライセンス: Link先を確認 | Ha Thanh Nguyen, Randy Goebel, Francesca Toni, Kostas Stathis, Ken Satoh | (参考訳) 否定は自然言語の基本的側面であり、コミュニケーションと理解において重要な役割を果たす。
本研究は, GPT-2, GPT-3, GPT-3.5, GPT-4の否定検出性能を評価する。
独自のxnot360データセットに適用したゼロショット予測手法を用いて,自然言語における否定の同定に焦点を当てた。
提案手法は,第2文が第1文を否定するか否かを示すためにラベル付けされた文対を調べる。
GPT-4はGPT-3.5を上回り,GPT-3.5は顕著な性能低下を示した。
否定検出におけるgptモデルの全体的な習熟度は比較的低く、このタスクが自然言語理解能力の境界を押し上げることを示している。
我々は、否定処理におけるGPTモデルの制約を強調するだけでなく、医療、科学、法といった高度な領域における論理的信頼性の重要性も強調する。 Negation is a fundamental aspect of natural language, playing a critical role in communication and comprehension. Our study assesses the negation detection performance of Generative Pre-trained Transformer (GPT) models, specifically GPT-2, GPT-3, GPT-3.5, and GPT-4. We focus on the identification of negation in natural language using a zero-shot prediction approach applied to our custom xNot360 dataset. Our approach examines sentence pairs labeled to indicate whether the second sentence negates the first. Our findings expose a considerable performance disparity among the GPT models, with GPT-4 surpassing its counterparts and GPT-3.5 displaying a marked performance reduction. The overall proficiency of the GPT models in negation detection remains relatively modest, indicating that this task pushes the boundaries of their natural language understanding capabilities. We not only highlight the constraints of GPT models in handling negation but also emphasize the importance of logical reliability in high-stakes domains such as healthcare, science, and law. | 翻訳日:2023-06-30 15:07:32 公開日:2023-06-29 |
# CMATH:あなたの言語モデルは中国の小学校数学テストに合格できるのか? CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? ( http://arxiv.org/abs/2306.16636v1 ) ライセンス: Link先を確認 | Tianwen Wei, Jian Luan, Wei Liu, Shuang Dong, Bin Wang | (参考訳) 中国小学校数学語問題 (CMATH) データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。
このデータセットは、以下の質問を評価するためのベンチマークツールを提供することを目的としている。小学校数学のグレードレベルにおいて、人気のある大言語モデル(LLM)の能力はどのレベルに対応しているのか?
商用とオープンソースの両方の選択肢を含む,多種多様なLLMを評価し,GPT-4のみが小学校6学年すべてで成功(精度$\geq$ 60\%)し,他のモデルも学年ごとにフェールすることを確認した。
さらに,CMATHデータセットの元々の問題に注意をそらすことで,複数のトップパフォーマンスLCMのロバスト性を評価する。
以上の結果から, GPT-4はロバスト性を維持し, 他のモデルでは失敗することがわかった。
本研究は, LLMの算術的・推論能力の限界を明らかにするとともに, 開発・発展の促進を期待する。 We present the Chinese Elementary School Math Word Problems (CMATH) dataset, comprising 1.7k elementary school-level math word problems with detailed annotations, source from actual Chinese workbooks and exams. This dataset aims to provide a benchmark tool for assessing the following question: to what grade level of elementary school math do the abilities of popular large language models (LLMs) correspond? We evaluate a variety of popular LLMs, including both commercial and open-source options, and discover that only GPT-4 achieves success (accuracy $\geq$ 60\%) across all six elementary school grades, while other models falter at different grade levels. Furthermore, we assess the robustness of several top-performing LLMs by augmenting the original problems in the CMATH dataset with distracting information. Our findings reveal that GPT-4 is able to maintains robustness, while other model fail. We anticipate that our study will expose limitations in LLMs' arithmetic and reasoning capabilities, and promote their ongoing development and advancement. | 翻訳日:2023-06-30 15:07:14 公開日:2023-06-29 |
# ディープフェイク検出の公平性向上 Improving Fairness in Deepfake Detection ( http://arxiv.org/abs/2306.16635v1 ) ライセンス: Link先を確認 | Yan Ju, Shu Hu, Shan Jia, George H. Chen, Siwei Lyu | (参考訳) 近年の効果的なディープフェイク検出モデルの開発にもかかわらず、近年の研究では、ディープフェイク検出モデルの開発に使用されるトレーニングデータのバイアスが、異なる人種や性別の人口集団に対して不公平なパフォーマンスをもたらすことが示されている。
このような結果、これらのグループは不公平に標的にされ、または検出から除外され、分類されていないディープフェイクが世論を操り、モデルの信頼を損なうことができる。
これらの研究はディープフェイク検出における不公平さの同定と評価に重点を置いているが,アルゴリズムレベルでのディープフェイク検出の公平性問題に対処する手法は開発されていない。
そこで本研究では,新しい損失関数を提案すれば,人口統計学的要因を認識できない方法で,ディープフェイク検出モデルをトレーニングできるという,ディープフェイク検出フェアネスを改善する最初の試みを行う。
4つのdeepfakeデータセットと5つのdeepfake検出器に関する広範な実験は、deepfake検出フェアネスを改善するためのアプローチの有効性と柔軟性を示しています。 Despite the development of effective deepfake detection models in recent years, several recent studies have demonstrated that biases in the training data utilized to develop deepfake detection models can lead to unfair performance for demographic groups of different races and/or genders. Such can result in these groups being unfairly targeted or excluded from detection, allowing misclassified deepfakes to manipulate public opinion and erode trust in the model. While these studies have focused on identifying and evaluating the unfairness in deepfake detection, no methods have been developed to address the fairness issue of deepfake detection at the algorithm level. In this work, we make the first attempt to improve deepfake detection fairness by proposing novel loss functions to train fair deepfake detection models in ways that are agnostic or aware of demographic factors. Extensive experiments on four deepfake datasets and five deepfake detectors demonstrate the effectiveness and flexibility of our approach in improving the deepfake detection fairness. | 翻訳日:2023-06-30 15:06:57 公開日:2023-06-29 |
# 量子情報測度に対する純度に基づく連続性境界 Purity based continuity bounds for quantum information measures ( http://arxiv.org/abs/2306.16631v1 ) ライセンス: Link先を確認 | Komal Kumar and Nirman Ganguly | (参考訳) 量子情報理論では、通信容量は主にエントロピー公式によって与えられる。
このようなエントロピー量の連続性は、量子状態の摂動に対する均一性を維持するため、重要である。
伝統的に、連続性境界はトレース距離の観点から提供され、これは量子状態の集合上のボナフィド計量である。
本研究では,関連する量子状態の純度差に基づく各種情報測度の連続性境界を導出する。
有限次元系において、系の純度距離と次元にのみ依存するフォン・ノイマンエントロピーの連続性境界を確立する。
次に条件付きフォン・ノイマンエントロピーに対して、条件付きサブシステムの次元を含まない純度距離の観点から一様連続性境界を求める。
さらに、相対エントロピー距離、量子相互情報、量子条件相互情報といった他のエントロピー量に対する一様連続性境界を導出する。
応用として, 純度に対する赤道絡みのばらつきについて検討する。
また、量子マルコフ連鎖に任意に近接する量子状態の量子条件相互情報に対する有界値を得る。 In quantum information theory, communication capacities are mostly given in terms of entropic formulas. Continuity of such entropic quantities are significant, as they lend themselves to maintain uniformity against perturbations of quantum states. Traditionally, continuity bounds have been provided in terms of the trace distance, which is a bonafide metric on the set of quantum states. In the present contribution we derive continuity bounds for various information measures based on the difference in purity of the concerned quantum states. In a finite-dimensional system, we establish continuity bounds for von Neumann entropy which depend only on purity distance and dimension of the system. We then obtain uniform continuity bounds for conditional von Neumann entropy in terms of purity distance which is free of the dimension of the conditioning subsystem. Furthermore, we derive the uniform continuity bounds for other entropic quantities like relative entropy distance, quantum mutual information and quantum conditional mutual information. As an application, we investigate the variation in squashed entanglement with respect to purity. We also obtain a bound to the quantum conditional mutual information of a quantum state which is arbitrarily close to a quantum Markov chain. | 翻訳日:2023-06-30 15:06:38 公開日:2023-06-29 |
# ブロックチェーンによるエッジインテリジェンスのためのプライバシ対応データ共有を目指すスマートヘルスケア Towards Blockchain-Assisted Privacy-Aware Data Sharing For Edge Intelligence: A Smart Healthcare Perspective ( http://arxiv.org/abs/2306.16630v1 ) ライセンス: Link先を確認 | Youyang Qu, Lichuan Ma, Wenjie Ye, Xuemeng Zhai, Shui Yu, Yunfeng Li, and David Smith | (参考訳) インテリジェントな医療機器とビッグデータ分析の普及は、smart healthcare network (shns) の開発を著しく促進している。
診断精度を高めるために、SHNの異なる参加者は、機密情報を含む健康データを共有する。
したがって、データ交換プロセスは、特に複数のソース(リンク攻撃)からの健康データの統合がさらなる漏洩をもたらすと、プライバシー上の懸念を引き起こす。
リンク攻撃はプライバシドメインにおける支配的な攻撃の一種であり、プライベートデータマイニングにさまざまなデータソースを活用することができる。
さらに、敵は健康データを改ざんするために毒殺攻撃を起こし、誤診断や身体的損傷につながる。
個人の健康データを保護するために,ユーザ間の信頼度に基づく個人差分プライバシーモデルを提案する。
信頼は、定義されたコミュニティ密度によって評価され、対応するプライバシー保護レベルは、微分プライバシーによって制約された制御可能なランダム化ノイズにマッピングされる。
個人差分プライバシーにおけるリンク攻撃を回避するため,マルコフ確率過程を用いたノイズ相関分離機構を設計した。
さらに,ブロックチェーン上でのコミュニティモデルを構築し,SHN上での個人データ送信において,毒性攻撃のリスクを軽減する。
提案手法の有効性と優位性を実証するため,ベンチマークデータセット上で広範囲な実験を行った。 The popularization of intelligent healthcare devices and big data analytics significantly boosts the development of smart healthcare networks (SHNs). To enhance the precision of diagnosis, different participants in SHNs share health data that contains sensitive information. Therefore, the data exchange process raises privacy concerns, especially when the integration of health data from multiple sources (linkage attack) results in further leakage. Linkage attack is a type of dominant attack in the privacy domain, which can leverage various data sources for private data mining. Furthermore, adversaries launch poisoning attacks to falsify the health data, which leads to misdiagnosing or even physical damage. To protect private health data, we propose a personalized differential privacy model based on the trust levels among users. The trust is evaluated by a defined community density, while the corresponding privacy protection level is mapped to controllable randomized noise constrained by differential privacy. To avoid linkage attacks in personalized differential privacy, we designed a noise correlation decoupling mechanism using a Markov stochastic process. In addition, we build the community model on a blockchain, which can mitigate the risk of poisoning attacks during differentially private data transmission over SHNs. To testify the effectiveness and superiority of the proposed approach, we conduct extensive experiments on benchmark datasets. | 翻訳日:2023-06-30 15:06:20 公開日:2023-06-29 |
# MNISQ: NISQ時代の量子コンピュータにおける機械学習のための大規模量子回路データセット MNISQ: A Large-Scale Quantum Circuit Dataset for Machine Learning on/for Quantum Computers in the NISQ era ( http://arxiv.org/abs/2306.16627v1 ) ライセンス: Link先を確認 | Leonardo Placidi, Ryuichiro Hataya, Toshio Mori, Koki Aoyama, Hayata Morisaki, Kosuke Mitarai, Keisuke Fujii | (参考訳) ノイズ中規模量子時代における量子と古典的機械学習の両コミュニティを対象とした,最初の大規模データセットであるMNISQを紹介する。
MNISQは9つのサブデータセットから構成される4,950,000のデータポイントで構成されている。
古典的な情報(例えばMNISTデータセット)の量子符号化からデータセットを構築することで、量子形式、回路として、古典形式で、量子回路記述(量子プログラミング言語、QASM)としてデータセットを2つの形式で提供します。
実際、量子コンピュータに関連する機械学習の研究は、量子コンピュータのパワーを活用した機械学習の強化と、最先端の古典的機械学習方法論を活用した量子コンピューティングの進歩という、2つの課題を負っている。
そこで我々は,量子モデルと古典モデルの両方で課題に取り組むため,データセット上で回路分類を行う。
量子解法では、量子カーネル法を用いて回路データセットをテストし、最大9,7\%の精度で優れた結果を示す。
古典の世界では、量子回路データの基盤となる量子力学的構造は自明ではない。
それにもかかわらず、我々はStructured State Space Sequence Model (S4)、Transformer、LSTMの3つの古典モデルでデータセットをテストする。
特に、トークン化されたQASMシーケンスに適用されたS4モデルは、79\%の精度に到達した。
これらの結果は、量子回路関連データセットは量子上有利である可能性が高いだけでなく、最先端の機械学習手法が量子回路の分類と認識に有能であることを示している。
最後に、量子および古典的な機械学習コミュニティに、私たちのような量子古典的データセットを構築し、実験から将来のベンチマークを構築するための根本的な課題を委ねます。
データセットはgithubからアクセスでき、回路はqulacsやqiskitで簡単に実行できる。 We introduce the first large-scale dataset, MNISQ, for both the Quantum and the Classical Machine Learning community during the Noisy Intermediate-Scale Quantum era. MNISQ consists of 4,950,000 data points organized in 9 subdatasets. Building our dataset from the quantum encoding of classical information (e.g., MNIST dataset), we deliver a dataset in a dual form: in quantum form, as circuits, and in classical form, as quantum circuit descriptions (quantum programming language, QASM). In fact, also the Machine Learning research related to quantum computers undertakes a dual challenge: enhancing machine learning exploiting the power of quantum computers, while also leveraging state-of-the-art classical machine learning methodologies to help the advancement of quantum computing. Therefore, we perform circuit classification on our dataset, tackling the task with both quantum and classical models. In the quantum endeavor, we test our circuit dataset with Quantum Kernel methods, and we show excellent results up to $97\%$ accuracy. In the classical world, the underlying quantum mechanical structures within the quantum circuit data are not trivial. Nevertheless, we test our dataset on three classical models: Structured State Space sequence model (S4), Transformer and LSTM. In particular, the S4 model applied on the tokenized QASM sequences reaches an impressive $77\%$ accuracy. These findings illustrate that quantum circuit-related datasets are likely to be quantum advantageous, but also that state-of-the-art machine learning methodologies can competently classify and recognize quantum circuits. We finally entrust the quantum and classical machine learning community the fundamental challenge to build more quantum-classical datasets like ours and to build future benchmarks from our experiments. The dataset is accessible on GitHub and its circuits are easily run in qulacs or qiskit. | 翻訳日:2023-06-30 15:05:56 公開日:2023-06-29 |
# リモートセンシングアプリケーションのためのセグメンション任意のモデル(SAM):ゼロから1ショットまで The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot ( http://arxiv.org/abs/2306.16623v1 ) ライセンス: Link先を確認 | Lucas Prado Osco, Qiusheng Wu, Eduardo Lopes de Lemos, Wesley Nunes Gon\c{c}alves, Ana Paula Marques Ramos, Jonathan Li, Jos\'e Marcato Junior | (参考訳) セグメンテーションはリモートセンシング画像処理の重要なステップである。
本研究では,メタAIによる画像分割モデルであるSegment Anything Model (SAM) をリモートセンシング画像解析分野に適用することを目的としている。
SAMは例外的な一般化能力とゼロショット学習で知られており、様々な地理的文脈から航空画像や軌道画像を処理するための有望なアプローチとなっている。
私たちの調査では、バウンディングボックス、個々のポイント、テキスト記述子など、さまざまな入力プロンプトを使って、SAMをマルチスケールデータセットでテストしました。
モデルの性能を向上させるために,テキストプロンプト由来の汎用例とワンショットトレーニングを組み合わせた新しい自動手法を実装した。
この調整により精度が向上し、SAMのリモートセンシング画像への展開の可能性が強調され、手動のアノテーションの必要性が軽減された。
空間分解能の低い画像で発生する限界にもかかわらず、SAMはリモートセンシングデータ解析に有望な適応性を示す。
補足的な微調整技術や他のネットワークとの統合により,モデルの習熟度を高めるための今後の研究を推奨する。
さらに,オンラインレポジトリにおける修正のオープンソースコードを提供し,SAMのリモートセンシング領域への適応をさらに促進する。 Segmentation is an essential step for remote sensing image processing. This study aims to advance the application of the Segment Anything Model (SAM), an innovative image segmentation model by Meta AI, in the field of remote sensing image analysis. SAM is known for its exceptional generalization capabilities and zero-shot learning, making it a promising approach to processing aerial and orbital images from diverse geographical contexts. Our exploration involved testing SAM across multi-scale datasets using various input prompts, such as bounding boxes, individual points, and text descriptors. To enhance the model's performance, we implemented a novel automated technique that combines a text-prompt-derived general example with one-shot training. This adjustment resulted in an improvement in accuracy, underscoring SAM's potential for deployment in remote sensing imagery and reducing the need for manual annotation. Despite the limitations encountered with lower spatial resolution images, SAM exhibits promising adaptability to remote sensing data analysis. We recommend future research to enhance the model's proficiency through integration with supplementary fine-tuning techniques and other networks. Furthermore, we provide the open-source code of our modifications on online repositories, encouraging further and broader adaptations of SAM to the remote sensing domain. | 翻訳日:2023-06-30 15:05:27 公開日:2023-06-29 |
# ラマンスペクトルからの混合成分濃度予測のための1次元畳み込みニューラルネットワークの性能評価 Assessing the Performance of 1D-Convolution Neural Networks to Predict Concentration of Mixture Components from Raman Spectra ( http://arxiv.org/abs/2306.16621v1 ) ライセンス: Link先を確認 | Dexter Antonio, Hannah O'Toole, Randy Carney, Ambarish Kulkarni, Ahmet Palazoglu | (参考訳) ラマン分光法の新たな応用は、生薬製造中の化学反応器の状態を監視することである。
ラマンシフト強度は化学種の濃度と線形にスケールするため、非破壊光照射を無ラベルでリアルタイム濃度を解析的に決定することができる。
化学計測アルゴリズムは、反応が進行するにつれてバイオリアクターの複雑な混合物から生成されるラマンスペクトルを解釈するために用いられる。
特定のバイオリアクター環境に最適なアルゴリズムを見つけることは、ラマン混合データセットが不足しているため困難である。
RaMix Pythonパッケージは、制御可能なノイズレベルを持つ合成Raman混合データセットの生成を可能にして、リアルタイム監視アプリケーションに対するさまざまな化学アルゴリズムタイプの有用性を評価することで、この問題に対処している。
このパッケージの能力を実証し、異なる化学アルゴリズムの性能を比較するために、RaMix Pythonパッケージを使用して48のシミュレーションスペクトルデータセットを生成した。
4つのテストアルゴリズムには、部分最小二乗回帰(PLS)、単純なニューラルネットワーク、単純な畳み込みニューラルネットワーク(単純なCNN)、ResNetアーキテクチャ(ResNet)を備えた1D畳み込みニューラルネットワークが含まれる。
plsと単純なcnnモデルの性能は同等であることが判明し、plsアルゴリズムはデータセットの83\%で他のモデルよりもわずかに優れていた。
単純なcnnモデルは、大きな高ノイズデータセット上で他のモデルよりも優れており、畳み込みニューラルネットワークのノイズスペクトルの解析におけるplsよりも優れた能力を示している。
これらの結果から,cnnは無加工のノイズスペクトルから濃度情報を自動的に抽出し,産業用医薬品製造のプロセス制御を向上できる可能性が示唆された。
このプロジェクトのコードはgithub.com/DexterAntonio/RaMixで入手できる。 An emerging application of Raman spectroscopy is monitoring the state of chemical reactors during biologic drug production. Raman shift intensities scale linearly with the concentrations of chemical species and thus can be used to analytically determine real-time concentrations using non-destructive light irradiation in a label-free manner. Chemometric algorithms are used to interpret Raman spectra produced from complex mixtures of bioreactor contents as a reaction evolves. Finding the optimal algorithm for a specific bioreactor environment is challenging due to the lack of freely available Raman mixture datasets. The RaMix Python package addresses this challenge by enabling the generation of synthetic Raman mixture datasets with controllable noise levels to assess the utility of different chemometric algorithm types for real-time monitoring applications. To demonstrate the capabilities of this package and compare the performance of different chemometric algorithms, 48 datasets of simulated spectra were generated using the RaMix Python package. The four tested algorithms include partial least squares regression (PLS), a simple neural network, a simple convolutional neural network (simple CNN), and a 1D convolutional neural network with a ResNet architecture (ResNet). The performance of the PLS and simple CNN model was found to be comparable, with the PLS algorithm slightly outperforming the other models on 83\% of the data sets. The simple CNN model outperforms the other models on large, high noise datasets, demonstrating the superior capability of convolutional neural networks compared to PLS in analyzing noisy spectra. These results demonstrate the promise of CNNs to automatically extract concentration information from unprocessed, noisy spectra, allowing for better process control of industrial drug production. Code for this project is available at github.com/DexterAntonio/RaMix. | 翻訳日:2023-06-30 15:05:06 公開日:2023-06-29 |
# 自律走行における車線検出のためのリアルタイム非教師なし領域適応 Real-Time Fully Unsupervised Domain Adaptation for Lane Detection in Autonomous Driving ( http://arxiv.org/abs/2306.16660v1 ) ライセンス: Link先を確認 | Kshitij Bhardwaj, Zishen Wan, Arijit Raychowdhury, Ryan Goldhahn | (参考訳) 深層ニューラルネットワークは自動運転に多く利用されているが、訓練を受けていない新しい環境条件に適応する必要がある。
本稿では,レーン検出の安全性を重要視するアプリケーションに着目し,モデルのバッチ正規化パラメータのみを適応する軽量で教師なし,リアルタイム適応手法を提案する。
本手法は,nvidia jetson orin上で30fpsという厳密な制約下で,デバイス上での適応を行うことができることを示す。
これは最先端の半教師付き適応アルゴリズムと同様の精度(92.19%)を示すが、リアルタイム適応をサポートしない。 While deep neural networks are being utilized heavily for autonomous driving, they need to be adapted to new unseen environmental conditions for which they were not trained. We focus on a safety critical application of lane detection, and propose a lightweight, fully unsupervised, real-time adaptation approach that only adapts the batch-normalization parameters of the model. We demonstrate that our technique can perform inference, followed by on-device adaptation, under a tight constraint of 30 FPS on Nvidia Jetson Orin. It shows similar accuracy (avg. of 92.19%) as a state-of-the-art semi-supervised adaptation algorithm but which does not support real-time adaptation. | 翻訳日:2023-06-30 14:59:41 公開日:2023-06-29 |
# ランダム回路サンプリングにおける非一元雑音の影響 Effect of non-unital noise on random circuit sampling ( http://arxiv.org/abs/2306.16659v1 ) ライセンス: Link先を確認 | Bill Fefferman, Soumik Ghosh, Michael Gullans, Kohdai Kuroiwa, and Kunal Sharma | (参考訳) 本研究では,実ハードウェアに存在するノイズの種類から着想を得て,無作為量子回路の出力分布を定騒音率の非一元雑音源で検討する。
非分極化チャネルのような単位的源が存在する場合でも、結合ノイズチャネルの下での分布は、いかなる深さでも最大エントロピー分布に決して似ていない。
これを証明するために、そのような回路の出力分布は、回路の深さに関係なく、決して"フラット"な値ではないような$\unicode{x2014}$を反集中しないことを証明します。
これはノイズのないランダム量子回路やユニタリノイズのみを持つ回路の挙動とは対照的であり、どちらも十分に大きな深さで反集中する。
その結果,本研究の結果は, ノイズの多いランダム回路サンプリングの難易度と難易度の両方に興味深いアルゴリズム的意味を持つことがわかった。 In this work, drawing inspiration from the type of noise present in real hardware, we study the output distribution of random quantum circuits under practical non-unital noise sources with constant noise rates. We show that even in the presence of unital sources like the depolarizing channel, the distribution, under the combined noise channel, never resembles a maximally entropic distribution at any depth. To show this, we prove that the output distribution of such circuits never anticoncentrates $\unicode{x2014}$ meaning it is never too "flat" $\unicode{x2014}$ regardless of the depth of the circuit. This is in stark contrast to the behavior of noiseless random quantum circuits or those with only unital noise, both of which anticoncentrate at sufficiently large depths. As consequences, our results have interesting algorithmic implications on both the hardness and easiness of noisy random circuit sampling, since anticoncentration is a critical property exploited by both state-of-the-art classical hardness and easiness results. | 翻訳日:2023-06-30 14:59:12 公開日:2023-06-29 |
# 開語彙領域適応のためのプロンプトアンサンブル自己学習 Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation ( http://arxiv.org/abs/2306.16658v1 ) ライセンス: Link先を確認 | Jiaxing Huang, Jingyi Zhang, Han Qiu, Sheng Jin, Shijian Lu | (参考訳) 従来のドメイン適応はソースドメインとターゲットドメインで同じ語彙を前提としており、異なる語彙でターゲットドメインを扱いながら、転送の柔軟性と効率の制限に悩まされることが多い。
画像とテキストの両方を推論してオープン語彙の視覚認識を可能にする最近の視覚言語モデル(VLM)に触発されて、未学習のVLMをソースモデルとして配置し、任意の未学習のターゲットドメインに転送する、新しい教師なしドメイン適応フレームワークであるオープン語彙ドメイン適応(OVDA)について検討する。
この目的のために,視覚と言語間の相乗効果を利用して画像とテキストの分布における領域差を同時に緩和するPEST(Prompt Ensemble Self-training)手法を設計する。
特に、ペストは視覚および言語モダリティ内および言語間における複数のプロンプトの相補的特性を利用し、視覚情報と言語情報の共用と、ラベルなしのターゲットドメインにおける画像-テキスト対応の効果的な学習を可能にする。
さらに、PESTは時間的プロンプトアンサンブルを通じて時間的情報をキャプチャし、学習済みのターゲット情報を記憶するのに役立つ。
大規模な実験により、PESTは10の画像認識タスクにおいて、最先端のタスクを一貫して上回ります。 Traditional domain adaptation assumes the same vocabulary across source and target domains, which often struggles with limited transfer flexibility and efficiency while handling target domains with different vocabularies. Inspired by recent vision-language models (VLMs) that enable open-vocabulary visual recognition by reasoning on both images and texts, we study open-vocabulary domain adaptation (OVDA), a new unsupervised domain adaptation framework that positions a pre-trained VLM as the source model and transfers it towards arbitrary unlabelled target domains. To this end, we design a Prompt Ensemble Self-training (PEST) technique that exploits the synergy between vision and language to mitigate the domain discrepancies in image and text distributions simultaneously. Specifically, PEST makes use of the complementary property of multiple prompts within and across vision and language modalities, which enables joint exploitation of vision and language information and effective learning of image-text correspondences in the unlabelled target domains. Additionally, PEST captures temporal information via temporal prompt ensemble which helps memorize previously learnt target information. Extensive experiments show that PEST outperforms the state-of-the-art consistently across 10 image recognition tasks. | 翻訳日:2023-06-30 14:58:53 公開日:2023-06-29 |
# Unrolled Diffusion Model を用いた自己監督MRI再構成 Self-Supervised MRI Reconstruction with Unrolled Diffusion Models ( http://arxiv.org/abs/2306.16654v1 ) ライセンス: Link先を確認 | Yilmaz Korkmaz, Tolga Cukur, Vishal Patel | (参考訳) 磁気共鳴イメージング(MRI)は優れた軟組織コントラストを生成するが、本質的には遅い画像モダリティである。
高速化されたMRIスキャンを再構成する深層学習手法が最近提案されている。
しかし、既存の手法は、画像の忠実度、文脈感度、およびモデルトレーニングのための完全サンプル取得への依存に関する様々な制限に悩まされている。
これらの制約を包括的に解決するために,自己監督型拡散再構成モデル(SSDiffRecon)を提案する。
ssdiffreconは、物理処理のためのデータ一貫性ブロックと逆拡散ステップのためのクロスアテンショントランスをインターリーブする、未ロールアーキテクチャとして条件付き拡散プロセスを表現している。
最近のMRI再構成の拡散法とは異なり、アンダーサンプルk空間データのみを用いてSSDiffReconを訓練するための自己超越戦略が採用されている。
公開脳MRデータセットに関する総合的な実験は、SSDiffReconの再構築速度と品質の観点から、最先端の教師付きベースラインと自己監督ベースラインに対する優位性を実証している。
実装はhttps://github.com/yilmazkorkmaz1/SSDiffReconで公開される。 Magnetic Resonance Imaging (MRI) produces excellent soft tissue contrast, albeit it is an inherently slow imaging modality. Promising deep learning methods have recently been proposed to reconstruct accelerated MRI scans. However, existing methods still suffer from various limitations regarding image fidelity, contextual sensitivity, and reliance on fully-sampled acquisitions for model training. To comprehensively address these limitations, we propose a novel self-supervised deep reconstruction model, named Self-Supervised Diffusion Reconstruction (SSDiffRecon). SSDiffRecon expresses a conditional diffusion process as an unrolled architecture that interleaves cross-attention transformers for reverse diffusion steps with data-consistency blocks for physics-driven processing. Unlike recent diffusion methods for MRI reconstruction, a self-supervision strategy is adopted to train SSDiffRecon using only undersampled k-space data. Comprehensive experiments on public brain MR datasets demonstrates the superiority of SSDiffRecon against state-of-the-art supervised, and self-supervised baselines in terms of reconstruction speed and quality. Implementation will be available at https://github.com/yilmazkorkmaz1/SSDiffRecon. | 翻訳日:2023-06-30 14:58:30 公開日:2023-06-29 |
# マルチソースセマンティックグラフに基づくマルチモーダルサルカズム記述生成 Multi-source Semantic Graph-based Multimodal Sarcasm Explanation Generation ( http://arxiv.org/abs/2306.16650v1 ) ライセンス: Link先を確認 | Liqiang Jing, Xuemeng Song, Kun Ouyang, Mengzhao Jia, Liqiang Nie | (参考訳) マルチモーダル・サーカズム説明(multimodal sarcasm description、muse)は、新しい挑戦的なタスクであり、なぜサーカズムを含むのかを説明するために、マルチモーダル・ソーシャル・ポスト(画像およびキャプション)のための自然言語文を生成することを目的としている。
既存の先駆的な研究はBARTのバックボーンで大きな成功を収めているが、視覚的特徴空間とデコーダの意味空間、画像のオブジェクトレベルのメタデータ、および潜在的な外部知識とのギャップを見落としている。
本研究では,これらの制約を解決するために,TEAM という新しいmulTi-source sEmantic grAph-based Multimodal sarcasm explain scheme を提案する。
特にTEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
一方、TEAMはConceptNetを利用して、入力テキストと抽出されたオブジェクトメタデータの外部関連知識概念を得る。
その後、TEAMはマルチソースセマンティックグラフを導入し、複数のソース(キャプション、オブジェクトメタデータ、外部知識)の意味関係を包括的に特徴付け、皮肉な推論を容易にする。
公開データセットMOREの大規模な実験は、最先端の手法よりもモデルの優位性を検証する。 Multimodal Sarcasm Explanation (MuSE) is a new yet challenging task, which aims to generate a natural language sentence for a multimodal social post (an image as well as its caption) to explain why it contains sarcasm. Although the existing pioneer study has achieved great success with the BART backbone, it overlooks the gap between the visual feature space and the decoder semantic space, the object-level metadata of the image, as well as the potential external knowledge. To solve these limitations, in this work, we propose a novel mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, named TEAM. In particular, TEAM extracts the object-level semantic meta-data instead of the traditional global visual features from the input image. Meanwhile, TEAM resorts to ConceptNet to obtain the external related knowledge concepts for the input text and the extracted object meta-data. Thereafter, TEAM introduces a multi-source semantic graph that comprehensively characterize the multi-source (i.e., caption, object meta-data, external knowledge) semantic relations to facilitate the sarcasm reasoning. Extensive experiments on a public released dataset MORE verify the superiority of our model over cutting-edge methods. | 翻訳日:2023-06-30 14:58:08 公開日:2023-06-29 |
# ZeroGen: 複数のOracleを使ったゼロショットマルチモーダルテキスト生成 ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple Oracles ( http://arxiv.org/abs/2306.16649v1 ) ライセンス: Link先を確認 | Haoqin Tu, Bowen Yang, Xianfeng Zhao | (参考訳) 必要な属性によるテキストコンテンツの自動生成は、人々が長く追求してきた野心的なタスクです。
既存の研究は言語モデル (LM) に一助制御を組み込むことで一連の進歩を遂げているが、マルチモーダル信号と高効率の制御可能な文を生成する方法は未解決の問題である。
そこで我々は,マルチモーダル信号を用いたゼロショット制御可能なテキスト生成の新しいパラダイムを提案する(\textsc{zerogen})。
具体的には、‘textsc{ZeroGen} はトークンレベルから文レベルまで連続的にテキストと画像の制御を利用し、デコード時にそれらを統一された確率空間にマッピングする。
さらに、モーダル間トレードオフを改善するために、全ての制御重みを規制する効果的な動的重み付け機構を導入する。
さらに,異なるモーダリティからの信号間の奥行き関係や奥行き関係を調べるために,実質的な実験を行った。
3つのダウンストリームタスクにおける経験的成果を奨励すると、\textsc{zerogen} はキャプションタスクに対して、大きなマージンを持つだけでなく、より高度な制御を持つマルチモーダルニュース生成において大きな可能性を秘めている。
私たちのコードはhttps://github.com/imkett/zerogenでリリースします。 Automatically generating textual content with desired attributes is an ambitious task that people have pursued long. Existing works have made a series of progress in incorporating unimodal controls into language models (LMs), whereas how to generate controllable sentences with multimodal signals and high efficiency remains an open question. To tackle the puzzle, we propose a new paradigm of zero-shot controllable text generation with multimodal signals (\textsc{ZeroGen}). Specifically, \textsc{ZeroGen} leverages controls of text and image successively from token-level to sentence-level and maps them into a unified probability space at decoding, which customizes the LM outputs by weighted addition without extra training. To achieve better inter-modal trade-offs, we further introduce an effective dynamic weighting mechanism to regulate all control weights. Moreover, we conduct substantial experiments to probe the relationship of being in-depth or in-width between signals from distinct modalities. Encouraging empirical results on three downstream tasks show that \textsc{ZeroGen} not only outperforms its counterparts on captioning tasks by a large margin but also shows great potential in multimodal news generation with a higher degree of control. Our code will be released at https://github.com/ImKeTT/ZeroGen. | 翻訳日:2023-06-30 14:57:44 公開日:2023-06-29 |
# 複素ガウス摂動に対するプライベート共分散近似と固有値ギャップ境界 Private Covariance Approximation and Eigenvalue-Gap Bounds for Complex Gaussian Perturbations ( http://arxiv.org/abs/2306.16648v1 ) ライセンス: Link先を確認 | Oren Mangoubi, Nisheeth K. Vishnoi | (参考訳) 我々は、$d \times d$ covariance matrix $M$を$(\varepsilon,\delta)$-differential privacyの下でランク-$k$行列で近似する問題を考える。
ガウス機構の複素変種を提示・解析し、この機構によって出力される行列の差のフロベニウスノルムと、$m$ の最高のランク-$k$近似は、$k$ と $k+1$'th の固有値の間に適切な大きな差があるとき、大まかに$\tilde{o}(\sqrt{kd})$ で区切られることを示した。
これは、同じ境界に対して、$M$のすべてのトップ-$k$固有値のペア間のギャップが少なくとも$\sqrt{d}$であるような以前の作業を改善する。
解析では、複素行列ブラウン運動の固有値が実数よりも多く減少するという事実を利用し、その固有値の進化を規定するdysonの確率微分方程式を用いて、複素ガウス雑音によって摂動される行列の固有値が高いギャップを持つことを示す。
本研究は, 平均ケース摂動下における低ランク近似の解析と, 独立興味を持つ確率行列に対する固有値ギャップの理解に寄与する。 We consider the problem of approximating a $d \times d$ covariance matrix $M$ with a rank-$k$ matrix under $(\varepsilon,\delta)$-differential privacy. We present and analyze a complex variant of the Gaussian mechanism and show that the Frobenius norm of the difference between the matrix output by this mechanism and the best rank-$k$ approximation to $M$ is bounded by roughly $\tilde{O}(\sqrt{kd})$, whenever there is an appropriately large gap between the $k$'th and the $k+1$'th eigenvalues of $M$. This improves on previous work that requires that the gap between every pair of top-$k$ eigenvalues of $M$ is at least $\sqrt{d}$ for a similar bound. Our analysis leverages the fact that the eigenvalues of complex matrix Brownian motion repel more than in the real case, and uses Dyson's stochastic differential equations governing the evolution of its eigenvalues to show that the eigenvalues of the matrix $M$ perturbed by complex Gaussian noise have large gaps with high probability. Our results contribute to the analysis of low-rank approximations under average-case perturbations and to an understanding of eigenvalue gaps for random matrices, which may be of independent interest. | 翻訳日:2023-06-30 14:57:17 公開日:2023-06-29 |
# 深部平衡多モード核融合 Deep Equilibrium Multimodal Fusion ( http://arxiv.org/abs/2306.16645v1 ) ライセンス: Link先を確認 | Jinhong Ni, Yalong Bai, Wei Zhang, Ting Yao, Tao Mei | (参考訳) マルチモーダル融合(multimodal fusion)は、複数のモーダルに存在する補完的情報を統合し、近年注目を集めている。
既存の融合アプローチのほとんどは、トレーニングと推論の間に固定された融合戦略を学ぶか、ある程度の情報だけを融合させることができる。
このような解は、特に情報的マルチモーダル融合のために考慮すべき複雑なモダリティ内およびモダリティ間相関が存在する場合、モダリティ間の相互作用のダイナミクスを完全に捉えることができない。
本稿では,動的マルチモーダル融合プロセスの固定点を探索し,適応的かつ再帰的に特徴相関をモデル化することで,多モーダル核融合に向けた新しいDeep equilibrium (DEQ)法を提案する。
この新しい手法は、低レベルから高レベルまで多モード間のリッチな情報をエンコードし、様々なマルチモーダルフレームワークに簡単にプラグインできる。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の大規模な実験により,DEC融合の優位性が示された。
さらに驚くべきことに、DEC融合は複数のマルチモーダルベンチマークにおける最先端のパフォーマンスを一貫して達成する。
コードはリリースされます。 Multimodal fusion integrates the complementary information present in multiple modalities and has gained much attention recently. Most existing fusion approaches either learn a fixed fusion strategy during training and inference, or are only capable of fusing the information to a certain extent. Such solutions may fail to fully capture the dynamics of interactions across modalities especially when there are complex intra- and inter-modality correlations to be considered for informative multimodal fusion. In this paper, we propose a novel deep equilibrium (DEQ) method towards multimodal fusion via seeking a fixed point of the dynamic multimodal fusion process and modeling the feature correlations in an adaptive and recursive manner. This new way encodes the rich information within and across modalities thoroughly from low level to high level for efficacious downstream multimodal learning and is readily pluggable to various multimodal frameworks. Extensive experiments on BRCA, MM-IMDB, CMU-MOSI, SUN RGB-D, and VQA-v2 demonstrate the superiority of our DEQ fusion. More remarkably, DEQ fusion consistently achieves state-of-the-art performance on multiple multimodal benchmarks. The code will be released. | 翻訳日:2023-06-30 14:56:47 公開日:2023-06-29 |
# 確率的言語知識とトークンレベルのテキスト拡張 Probabilistic Linguistic Knowledge and Token-level Text Augmentation ( http://arxiv.org/abs/2306.16644v1 ) ライセンス: Link先を確認 | Zhengxiang Wang | (参考訳) 本稿では,トークンレベルのテキスト強化の有効性と,言語的に動機付けられた評価文脈における確率的言語知識の役割について検討する。
REDAとREDA$_{NG}$という2つのテキスト拡張プログラムが開発され、どちらもトークンレベルのテキスト編集操作であるSynonym Replacement (SR)、Random Swap (RS)、Random Insertion (RI)、Random Deletion (RD)、Random Mix (RM)を実装した。
REDA$_{NG}$は、事前訓練された$n$-gram言語モデルを利用して、REDAの出力から最も可能性の高い拡張テキストを選択する。
中国語と英語の2つの質問マッチング分類タスクについて、包括的およびきめ細かい実験を行った。
その結果,5種類のトークンレベルのテキスト増補手法の汎用的有効性は,これらを併用するか,個別に適用するかにかかわらず強く否定され,トランスフォーマーを含む多種多様な共通分類モデルが適用された。
さらに,確率的言語知識の役割は最小限であることが判明した。 This paper investigates the effectiveness of token-level text augmentation and the role of probabilistic linguistic knowledge within a linguistically-motivated evaluation context. Two text augmentation programs, REDA and REDA$_{NG}$, were developed, both implementing five token-level text editing operations: Synonym Replacement (SR), Random Swap (RS), Random Insertion (RI), Random Deletion (RD), and Random Mix (RM). REDA$_{NG}$ leverages pretrained $n$-gram language models to select the most likely augmented texts from REDA's output. Comprehensive and fine-grained experiments were conducted on a binary question matching classification task in both Chinese and English. The results strongly refute the general effectiveness of the five token-level text augmentation techniques under investigation, whether applied together or separately, and irrespective of various common classification model types used, including transformers. Furthermore, the role of probabilistic linguistic knowledge is found to be minimal. | 翻訳日:2023-06-30 14:56:26 公開日:2023-06-29 |
# AIを活用した文章作成の未来 The Future of AI-Assisted Writing ( http://arxiv.org/abs/2306.16641v1 ) ライセンス: Link先を確認 | Carlos Alves Pereira, Tanay Komarlu, and Wael Mobeirek | (参考訳) 自然言語生成モデルの開発は、強力な人工知能支援書記ツールの開発につながった。
これらのツールは、ユーザのニーズを予測し、執筆時に積極的に提案を行うことができる。
本研究では,情報検索レンズ(プル・アンド・プッシュ)を用いて,そのようなツールの比較ユーザスタディを行う。
具体的には,ai支援ライティングのユーザニーズ,2つのパラダイムが品質に与える影響,ライティングプロダクトのオーナシップ,ライティングプロセスの効率と楽しみについて検討する。
また、AI支援書き込みのバイアスの影響についても理解したいと思っています。
我々の研究結果によると、ユーザーは執筆におけるAIのシームレスな支援を歓迎している。
さらに、AIは、ユーザーがより明確で簡潔に書きながら、文章のアイデアを多様化するのに役立つ。
ユーザはAI支援の書き込みツールとのコラボレーションも楽しんだが、所有権の欠如を感じなかった。
最後に、参加者は実験で偏見を経験しなかったが、将来のAI支援書記ツールで対処すべき明示的で明確な懸念を表明している。 The development of Natural Language Generation models has led to the creation of powerful Artificial Intelligence-assisted writing tools. These tools are capable of predicting users' needs and actively providing suggestions as they write. In this work, we conduct a comparative user-study between such tools from an information retrieval lens: pull and push. Specifically, we investigate the user demand of AI-assisted writing, the impact of the two paradigms on quality, ownership of the writing product, and efficiency and enjoyment of the writing process. We also seek to understand the impact of bias of AI-assisted writing. Our findings show that users welcome seamless assistance of AI in their writing. Furthermore, AI helped users to diversify the ideas in their writing while keeping it clear and concise more quickly. Users also enjoyed the collaboration with AI-assisted writing tools and did not feel a lack of ownership. Finally, although participants did not experience bias in our experiments, they still expressed explicit and clear concerns that should be addressed in future AI-assisted writing tools. | 翻訳日:2023-06-30 14:56:06 公開日:2023-06-29 |
# SRL: 分散強化学習を10万コア以上に拡張 SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores ( http://arxiv.org/abs/2306.16688v1 ) ライセンス: Link先を確認 | Zhiyu Mei, Wei Fu, Guangju Wang, Huanchen Zhang, Yi Wu | (参考訳) 強化学習(RL)タスクの継続的な複雑化により、分散RLシステムは、インテリジェントエージェントを訓練するために大量のデータを効率的に生成し、処理する必要がある。
しかし、既存のオープンソースライブラリにはさまざまな制限があり、大規模なトレーニングが必要な困難なシナリオでの使用を妨げている。
OpenAIとDeepMindの産業システムは大規模なRLトレーニングを成功させたが、システムアーキテクチャと実装の詳細はコミュニティに開示されていない。
本稿では,多種多様なアプリケーションにまたがる実践的RLトレーニングを汎用フレームワークに統一し,詳細な最適化を可能にするRLトレーニングのデータフローに関する新しい抽象化を提案する。
この抽象化に続いて,ReaLly Scalable RL (SRL) と呼ばれるスケーラブルで効率的で拡張可能な分散RLシステムを開発した。
SRLのシステムアーキテクチャは、主要なRL計算コンポーネントを分離し、大規模並列化トレーニングを可能にする。
さらにSRLは、カスタマイズされたアルゴリズムのためのユーザフレンドリーで拡張可能なインターフェースを提供する。
評価の結果,SRLは単一マシンと中規模クラスタの両方で既存の学術図書館よりも優れていた。
大規模なクラスタでは、SRLの新しいアーキテクチャは、既存のライブラリで採用されている設計選択と比較して最大3.7倍のスピードアップをもたらす。
また,openai の産業システムであるrapid との直接ベンチマーク比較を行った。
SRLはOpenAIが報告したのと同じソリューションを、ウォールタイムで最大5倍のスピードアップで再現する。
さらに,SRLを15k以上のCPUコアと32のA100 GPUにスケールアップすることにより,隠れ・探究環境におけるSRLの性能を著しく向上させる。
特に、SRLは、そのような大規模なRL実験を行った最初の学術コミュニティである。 The ever-growing complexity of reinforcement learning (RL) tasks demands a distributed RL system to efficiently generate and process a massive amount of data to train intelligent agents. However, existing open-source libraries suffer from various limitations, which impede their practical use in challenging scenarios where large-scale training is necessary. While industrial systems from OpenAI and DeepMind have achieved successful large-scale RL training, their system architecture and implementation details remain undisclosed to the community. In this paper, we present a novel abstraction on the dataflows of RL training, which unifies practical RL training across diverse applications into a general framework and enables fine-grained optimizations. Following this abstraction, we develop a scalable, efficient, and extensible distributed RL system called ReaLly Scalable RL (SRL). The system architecture of SRL separates major RL computation components and allows massively parallelized training. Moreover, SRL offers user-friendly and extensible interfaces for customized algorithms. Our evaluation shows that SRL outperforms existing academic libraries in both a single machine and a medium-sized cluster. In a large-scale cluster, the novel architecture of SRL leads to up to 3.7x speedup compared to the design choices adopted by the existing libraries. We also conduct a direct benchmark comparison to OpenAI's industrial system, Rapid, in the challenging hide-and-seek environment. SRL reproduces the same solution as reported by OpenAI with up to 5x speedup in wall-clock time. Furthermore, we also examine the performance of SRL in a much harder variant of the hide-and-seek environment and achieve substantial learning speedup by scaling SRL to over 15k CPU cores and 32 A100 GPUs. Notably, SRL is the first in the academic community to perform RL experiments at such a large scale. | 翻訳日:2023-06-30 14:48:34 公開日:2023-06-29 |
# パッチの最小スパンツリーとして集団を記憶することで遺伝的アルゴリズムの時間と記憶効率を改善する Improving Time and Memory Efficiency of Genetic Algorithms by Storing Populations as Minimum Spanning Trees of Patches ( http://arxiv.org/abs/2306.16686v1 ) ライセンス: Link先を確認 | Maxim Buzdalov | (参考訳) 進化的アルゴリズムの多くの応用において、演算子を適用して集団を保存する計算コストは適合度評価のコストに匹敵する。
さらに、操作者が正確に何を変えたかを知ることで、スクラッチからよりもはるかに効率よくフィットネス値を再計算することができる。
関連する時間とメモリの改善は、単純な進化アルゴリズム、特定の遺伝的アルゴリズムが少ないこと、グレーボックス最適化の文脈で利用可能であるが、すべてのアルゴリズムではそうではない。
本稿は、この状況を改善するための第一歩となる。
個体群を最小限のスパンニングツリーとして保存し, 頂点は個体に対応するが, メタ情報のみを格納し, エッジは個体間の構造的差異やパッチを格納し, 簡単な実装の代替となることを示す。
私たちの実験では、メモリ使用量と計算コストの両面で、重要な、あるいは漸近的な改善 -- クロスオーバー演算子の実行を含む! In many applications of evolutionary algorithms the computational cost of applying operators and storing populations is comparable to the cost of fitness evaluation. Furthermore, by knowing what exactly has changed in an individual by an operator, it is possible to recompute fitness value much more efficiently than from scratch. The associated time and memory improvements have been available for simple evolutionary algorithms, few specific genetic algorithms and in the context of gray-box optimization, but not for all algorithms, and the main reason is that it is difficult to achieve in algorithms using large arbitrarily structured populations. This paper makes a first step towards improving this situation. We show that storing the population as a minimum spanning tree, where vertices correspond to individuals but only contain meta-information about them, and edges store structural differences, or patches, between the individuals, is a viable alternative to the straightforward implementation. Our experiments suggest that significant, even asymptotic, improvements -- including execution of crossover operators! -- can be achieved in terms of both memory usage and computational costs. | 翻訳日:2023-06-30 14:48:08 公開日:2023-06-29 |
# Graphical Neural Activity Threadsによるスパイクニューラルネットワークの分解 Decomposing spiking neural networks with Graphical Neural Activity Threads ( http://arxiv.org/abs/2306.16684v1 ) ライセンス: Link先を確認 | Bradley H. Theilman, Felix Wang, Fred Rothganger, James B. Aimone | (参考訳) スパイキングニューラルネットワークにおける情報処理の十分な理解には、神経活動の適切な計算的抽象化が必要である。
伝統的に、神経集団状態ベクトルはニューラルネットワークをスパイクするのに最も一般的な抽象化であるが、これはネットワーク自体に明らかに関係しないビンに人工的に時間を分割する必要がある。
本稿では,神経活動を複数の非結合な並列スレッドに分解するスパイキングニューラルネットワークの解析手法を紹介する。
我々は、スパイクのペア間の因果関係度を推定し、これらの推定値を用いて、個々のスパイクを通じてネットワークアクティビティがどのように進化するかを追跡する有向非循環グラフを構築する。
このスパイク活動のグラフは、自然に空間と時間に重なる解離連結成分に分解され、GNAT(Graphical Neural Activity Threads)と呼ばれる。
本研究では,大きなスパイクデータセットで再起する類似のスレッドを見つけるための効率的なアルゴリズムを提案する。
GNAT分析によって提供されるスパイクニューラルネットワークの画像は、スパイクニューラルネットワークの時空間分散力学に自然に適応するスパイクニューラルネットワークの新しい抽象化を示している。 A satisfactory understanding of information processing in spiking neural networks requires appropriate computational abstractions of neural activity. Traditionally, the neural population state vector has been the most common abstraction applied to spiking neural networks, but this requires artificially partitioning time into bins that are not obviously relevant to the network itself. We introduce a distinct set of techniques for analyzing spiking neural networks that decomposes neural activity into multiple, disjoint, parallel threads of activity. We construct these threads by estimating the degree of causal relatedness between pairs of spikes, then use these estimates to construct a directed acyclic graph that traces how the network activity evolves through individual spikes. We find that this graph of spiking activity naturally decomposes into disjoint connected components that overlap in space and time, which we call Graphical Neural Activity Threads (GNATs). We provide an efficient algorithm for finding analogous threads that reoccur in large spiking datasets, revealing that seemingly distinct spike trains are composed of similar underlying threads of activity, a hallmark of compositionality. The picture of spiking neural networks provided by our GNAT analysis points to new abstractions for spiking neural computation that are naturally adapted to the spatiotemporally distributed dynamics of spiking neural networks. | 翻訳日:2023-06-30 14:47:50 公開日:2023-06-29 |
# ストリーミングエゴセントリックなアクション予測:評価スキームとアプローチ Streaming egocentric action anticipation: An evaluation scheme and approach ( http://arxiv.org/abs/2306.16682v1 ) ライセンス: Link先を確認 | Antonino Furnari, Giovanni Maria Farinella | (参考訳) エゴセントリックアクション予測は、カメラ装着者が過去の観察から行う将来のアクションを予測することを目的としている。
予測イベントが起こる前に未来に関する予測が利用可能になるが、ほとんどのアプローチはそのような予測を行うのに必要な計算時間に注意を払わない。
結果として、現在の評価スキームは、入力ビデオが観察された直後に予測が利用可能である、すなわち無視可能なランタイムを仮定し、過度に楽観的な評価につながる可能性があると仮定している。
モデルが現在の入力セグメントを処理した後にのみ、予測がオンラインで実行され、利用可能であると仮定したストリーミング・エゴセントリックなアクション評価方式を提案する。
同じ予測地平線を考慮に入れた全てのモデルを評価するため、より遅いモデルは事前にサンプリングされた時間セグメントに基づいて予測を行うべきである。
ストリーミング評価のシナリオにおいて,モデルランタイムが性能に影響を与えるという観測に基づいて,新たな過去の蒸留損失を伴う知識蒸留技術を用いて最適化されたフィードフォワード3D CNNに基づく軽量アクション予測モデルを提案する。
EPIC-KITCHENS-55, EPIC-KITCHENS-100, EGTEA Gaze+の3つの一般的なデータセットの実験結果が示す。
(i)提案手法は,古典的評価と比較して,最先端手法のランキングが異なる。
(ii)軽量なアプローチは、計算コストが高い手法に匹敵する傾向にあり、
(iii) フィードフォワード3次元cnnと知識蒸留に基づく提案モデルは, ストリーミング・エゴセントリックな行動予測シナリオにおける現在の技術を上回る。 Egocentric action anticipation aims to predict the future actions the camera wearer will perform from the observation of the past. While predictions about the future should be available before the predicted events take place, most approaches do not pay attention to the computational time required to make such predictions. As a result, current evaluation schemes assume that predictions are available right after the input video is observed, i.e., presuming a negligible runtime, which may lead to overly optimistic evaluations. We propose a streaming egocentric action evaluation scheme which assumes that predictions are performed online and made available only after the model has processed the current input segment, which depends on its runtime. To evaluate all models considering the same prediction horizon, we hence propose that slower models should base their predictions on temporal segments sampled ahead of time. Based on the observation that model runtime can affect performance in the considered streaming evaluation scenario, we further propose a lightweight action anticipation model based on feed-forward 3D CNNs which is optimized using knowledge distillation techniques with a novel past-to-future distillation loss. Experiments on the three popular datasets EPIC-KITCHENS-55, EPIC-KITCHENS-100 and EGTEA Gaze+ show that (i) the proposed evaluation scheme induces a different ranking on state-of-the-art methods as compared to classic evaluations, (ii) lightweight approaches tend to outmatch more computationally expensive ones, and (iii) the proposed model based on feed-forward 3D CNNs and knowledge distillation outperforms current art in the streaming egocentric action anticipation scenario. | 翻訳日:2023-06-30 14:47:28 公開日:2023-06-29 |
# binaryvit:binary vision transformersを畳み込みモデルにプッシュする BinaryViT: Pushing Binary Vision Transformers Towards Convolutional Models ( http://arxiv.org/abs/2306.16678v1 ) ライセンス: Link先を確認 | Phuoc-Hoan Charles Le, Xinlin Li | (参考訳) 視覚トランスフォーマー(vits)の人気が高まるとともに、コンピューティングリソースが限られているエッジデバイスへのデプロイにおいて、より効率的で計算コストの少ないものにすることへの関心が高まっている。
バイナリ化は、重みとアクティベーションがバイナリにある場合のポップカウント演算を用いて、ViTモデルのサイズと計算コストを大幅に削減するのに役立つ。
しかし、ImageNet-1kのような多数のクラスを持つデータセット上のCNNと比較して、畳み込みニューラルネットワーク(CNN)のバイナライズ手法や既存のバイナライズ手法を直接適用すると、ViTのパフォーマンスが低下する。
広範な分析により、DeiTのようなバイナリバニラViTは、バイナリバニラViTよりもはるかに高い表現能力を持つようにCNNが持つ重要なアーキテクチャ特性の多くを見逃していることがわかった。
そこで我々は、CNNアーキテクチャにインスパイアされたBinaryViTを提案し、CNNアーキテクチャから純粋なViTアーキテクチャへの操作を含め、畳み込みを導入することなくバイナリViTの表現能力を向上する。
これには、トークンプーリング層の代わりに平均プーリング層、複数の平均プーリング分岐を含むブロック、各主残差接続が付加される直前のアフィン変換、ピラミッド構造が含まれる。
ImageNet-1kデータセットの実験結果は、これらの操作の有効性を示し、バイナリ純粋なViTモデルと従来の最先端(SOTA)バイナリCNNモデルとの競合を可能にする。 With the increasing popularity and the increasing size of vision transformers (ViTs), there has been an increasing interest in making them more efficient and less computationally costly for deployment on edge devices with limited computing resources. Binarization can be used to help reduce the size of ViT models and their computational cost significantly, using popcount operations when the weights and the activations are in binary. However, ViTs suffer a larger performance drop when directly applying convolutional neural network (CNN) binarization methods or existing binarization methods to binarize ViTs compared to CNNs on datasets with a large number of classes such as ImageNet-1k. With extensive analysis, we find that binary vanilla ViTs such as DeiT miss out on a lot of key architectural properties that CNNs have that allow binary CNNs to have much higher representational capability than binary vanilla ViT. Therefore, we propose BinaryViT, in which inspired by the CNN architecture, we include operations from the CNN architecture into a pure ViT architecture to enrich the representational capability of a binary ViT without introducing convolutions. These include an average pooling layer instead of a token pooling layer, a block that contains multiple average pooling branches, an affine transformation right before the addition of each main residual connection, and a pyramid structure. Experimental results on the ImageNet-1k dataset show the effectiveness of these operations that allow a binary pure ViT model to be competitive with previous state-of-the-art (SOTA) binary CNN models. | 翻訳日:2023-06-30 14:47:04 公開日:2023-06-29 |
# VCMのためのエンドツーエンド学習型マルチスケール特徴圧縮 End-to-End Learnable Multi-Scale Feature Compression for VCM ( http://arxiv.org/abs/2306.16670v1 ) ライセンス: Link先を確認 | Yeongwoong Kim, Hyewon Jeong, Janghyun Yu, Younhee Kim, Jooyoung Lee, Se Yoon Jeong, and Hui Yong Kim | (参考訳) ディープラーニングベースのマシンビジョンアプリケーションの普及により、ビデオ符号化(VCM)と呼ばれる新しいタイプの圧縮が生まれている。
VCMは従来のビデオコーディングとは異なり、人間の視覚的品質ではなく、マシンビジョンのパフォーマンスに最適化されている。
MPEG-VCMの特徴圧縮トラックでは,画像から抽出したマルチスケール特徴を圧縮する。
近年,MPEG-VCM機能アンカーに対するBDレートを最大96%削減できる多目的ビデオ符号化(VVC)標準方式が実証されている。
しかし、vvcは抽出された特徴ではなく、自然画像のために設計されたため、まだ最適ではない。
さらに、VVCの符号化複雑性が高いため、性能を犠牲にすることなく軽量エンコーダの設計が困難になる。
これらの課題に対処するため,我々は,抽出された特徴のエンドツーエンド最適化と軽量エンコーダの設計を両立する,新しいマルチスケール特徴圧縮手法を提案する。
提案モデルは,学習可能な圧縮機とマルチスケール特徴融合ネットワークを組み合わせることで,マルチスケール特徴の冗長性を効果的に除去する。
融合ネットワークと圧縮ネットワークを単純にカスケードする代わりに、融合処理と符号化処理をインターリーブ方式で統合する。
提案モデルでは,まず大規模特徴を符号化して潜伏表現を取得し,さらに小型特徴量で潜伏表現を融合する。
この処理は、最小のスケール特徴が融合するまで連続して行われ、最終段階のエントロピー符号化によりエントロピー符号化が行われる。
その結果,本モデルはBDレートを少なくとも52%削減し,オブジェクト検出に要する符号化時間を$\times5$から$\times27$に短縮した。
このモデルは,非圧縮特徴量の0.002~0.003%しか持たず,ほぼロスレスなタスク性能を達成できることは注目に値する。 The proliferation of deep learning-based machine vision applications has given rise to a new type of compression, so called video coding for machine (VCM). VCM differs from traditional video coding in that it is optimized for machine vision performance instead of human visual quality. In the feature compression track of MPEG-VCM, multi-scale features extracted from images are subject to compression. Recent feature compression works have demonstrated that the versatile video coding (VVC) standard-based approach can achieve a BD-rate reduction of up to 96% against MPEG-VCM feature anchor. However, it is still sub-optimal as VVC was not designed for extracted features but for natural images. Moreover, the high encoding complexity of VVC makes it difficult to design a lightweight encoder without sacrificing performance. To address these challenges, we propose a novel multi-scale feature compression method that enables both the end-to-end optimization on the extracted features and the design of lightweight encoders. The proposed model combines a learnable compressor with a multi-scale feature fusion network so that the redundancy in the multi-scale features is effectively removed. Instead of simply cascading the fusion network and the compression network, we integrate the fusion and encoding processes in an interleaved way. Our model first encodes a larger-scale feature to obtain a latent representation and then fuses the latent with a smaller-scale feature. This process is successively performed until the smallest-scale feature is fused and then the encoded latent at the final stage is entropy-coded for transmission. The results show that our model outperforms previous approaches by at least 52% BD-rate reduction and has $\times5$ to $\times27$ times less encoding time for object detection. It is noteworthy that our model can attain near-lossless task performance with only 0.002-0.003% of the uncompressed feature data size. | 翻訳日:2023-06-30 14:46:37 公開日:2023-06-29 |
# 非線形ホロノミック量子計算とその最適制御 Nonadiabatic Holonomic Quantum Computation and Its Optimal Control ( http://arxiv.org/abs/2306.16667v1 ) ライセンス: Link先を確認 | Yan Liang, Pu Shen, Tao Chen, and Zheng-Yuan Xue | (参考訳) 幾何相は、進化経路のグローバルな性質にのみ依存するため、ある種の局所雑音に耐性を持つ固有の性質を有する。
一方、非可換幾何位相は行列形式であり、したがって自然に高性能量子ゲート(いわゆるホロノミック量子計算)を実装するのに使うことができる。
本稿では,非断熱的ホロノミック量子計算の最近の進歩を概観し,ゲート忠実性とロバスト性の観点からゲート性能を向上させるための様々な最適制御手法に注目した。
さらに, 物理的実現の可能性や, 実験的実現の具体例にも注目する。
最後に、これらすべての努力により、最先端技術において、実装されたホロノミック量子ゲートの性能は、特定の条件下での従来の動的ゲートよりも優れる。 Geometric phase has the intrinsic property of being resistant to some types of local noises as it only depends on global properties of the evolution path. Meanwhile, the non-Abelian geometric phase is in the matrix form, and thus can naturally be used to implement high performance quantum gates, i.e., the so-called holonomic quantum computation. This article reviews recent advances in nonadiabatic holonomic quantum computation, and focuses on various optimal control approaches that can improve the gate performance, in terms of the gate fidelity and robustness. Besides, we also pay special attention to its possible physical realizations and some concrete examples of experimental realizations. Finally, with all these efforts, within state-of-the-art technology, the performance of the implemented holonomic quantum gates can outperform the conventional dynamical ones, under certain conditions. | 翻訳日:2023-06-30 14:46:06 公開日:2023-06-29 |
# 学習レベル表現を用いたゲームレベルのブレンディング Game Level Blending using a Learned Level Representation ( http://arxiv.org/abs/2306.16666v1 ) ライセンス: Link先を確認 | Venkata Sai Revanth Atmakuri, Seth Cooper and Matthew Guzdial | (参考訳) 機械学習によるゲームレベルのブレンドは、プロシーデュラルコンテンツ生成(pcgml)技術を用いて、ゲームレベルの特徴を組み合わせてユニークで新しいゲームレベルを作成するプロセスであり、近年は人気が高まっている。
しかし、既存の多くの技術は人間によるアノテートレベル表現に依存しており、ゲームレベルでのブレンドは限られた数のアノテートゲームに限られている。
注釈付きゲームであっても、研究者はブレンドを可能にするために追加の共有表現を作成する必要がある。
本稿では,クラスタリングに基づくタイル埋め込み (cte) を応用したゲームレベルブレンディングの新たな手法を提案する。
CTEはゲームレベルのタイルを連続ベクトル表現として表現し、視覚的、文脈的、行動的な情報を統一する。
我々はこのアプローチを2つのクラシックゲーム、Lode RunnerとThe Legend of Zeldaに適用する。
我々は,cte表現とブレンディングタスクにおける共通的なヒューマンアノテート表現を比較した評価を行い,人間のアノテーションを必要とせずにcteが同等あるいは優れた性能を持つことを示す。 Game level blending via machine learning, the process of combining features of game levels to create unique and novel game levels using Procedural Content Generation via Machine Learning (PCGML) techniques, has gained increasing popularity in recent years. However, many existing techniques rely on human-annotated level representations, which limits game level blending to a limited number of annotated games. Even with annotated games, researchers often need to author an additional shared representation to make blending possible. In this paper, we present a novel approach to game level blending that employs Clustering-based Tile Embeddings (CTE), a learned level representation technique that can serve as a level representation for unannotated games and a unified level representation across games without the need for human annotation. CTE represents game level tiles as a continuous vector representation, unifying their visual, contextual, and behavioral information. We apply this approach to two classic Nintendo games, Lode Runner and The Legend of Zelda. We run an evaluation comparing the CTE representation to a common, human-annotated representation in the blending task and find that CTE has comparable or better performance without the need for human annotation. | 翻訳日:2023-06-30 14:45:51 公開日:2023-06-29 |
# ゲームプレイビデオを用いたジョイントレベル生成と翻訳 Joint Level Generation and Translation Using Gameplay Videos ( http://arxiv.org/abs/2306.16662v1 ) ライセンス: Link先を確認 | Negar Mirgati and Matthew Guzdial | (参考訳) 機械学習(pcgml)による手続き的コンテンツ生成は、画像やテキスト生成など、注釈付きデータに制限のある分野とは別個の大きなハードルに直面している。
機械学習による手続き的レベルの生成には、レベル画像以外の二次表現が必要である。
しかし、このような表現を得るための現在の方法は、手間と時間を要するため、この問題に寄与する。
そこで本研究では,人間のアノテートゲーム2本のゲームプレイビデオを利用して,同時翻訳と生成を同時に行うことを学ぶ新しいマルチテイルフレームワークを開発した。
フレームワークの翻訳テールはゲームプレイビデオフレームを等価な二次表現に変換することができ、生成テールは新規なレベルセグメントを生成することができる。
フレームワークとベースラインの比較と評価結果から,レベル生成タスクと翻訳タスクを組み合わせることで,両タスクの全体的な性能向上につながる可能性が示唆された。
これはアノテートレベルデータを制限するための可能な解決策であり、将来のバージョンが目に見えないゲームに一般化する可能性を実証する。 Procedural Content Generation via Machine Learning (PCGML) faces a significant hurdle that sets it apart from other fields, such as image or text generation, which is limited annotated data. Many existing methods for procedural level generation via machine learning require a secondary representation besides level images. However, the current methods for obtaining such representations are laborious and time-consuming, which contributes to this problem. In this work, we aim to address this problem by utilizing gameplay videos of two human-annotated games to develop a novel multi-tail framework that learns to perform simultaneous level translation and generation. The translation tail of our framework can convert gameplay video frames to an equivalent secondary representation, while its generation tail can produce novel level segments. Evaluation results and comparisons between our framework and baselines suggest that combining the level generation and translation tasks can lead to an overall improved performance regarding both tasks. This represents a possible solution to limited annotated level data, and we demonstrate the potential for future versions to generalize to unseen games. | 翻訳日:2023-06-30 14:45:31 公開日:2023-06-29 |
# naturalinversion: 現実世界の一貫性を改善するデータフリー画像合成 NaturalInversion: Data-Free Image Synthesis Improving Real-World Consistency ( http://arxiv.org/abs/2306.16661v1 ) ライセンス: Link先を確認 | Yujin Kim, Dogyun Park, Dohee Kim, Suhyun Kim | (参考訳) 実データを用いずに元のデータ分布とよく一致する画像を合成する,新しいモデルインバージョンベース手法であるnaturalinversionを提案する。
In NaturalInversion, we propose: (1) a Feature Transfer Pyramid which uses enhanced image prior of the original data by combining the multi-scale feature maps extracted from the pre-trained classifier, (2) a one-to-one approach generative model where only one batch of images are synthesized by one generator to bring the non-linearity to optimization and to ease the overall optimizing process, (3) learnable Adaptive Channel Scaling parameters which are end-to-end trained to scale the output image channel to utilize the original image prior further.
このNaturalInversionでは,CIFAR-10/100で訓練された分類器の画像を合成し,画像の可視化と追加分析により,従来のデータ分布とより整合性を示す。
さらに,提案手法の有効性を実証する知識蒸留や刈り取りなどの各種応用において,合成画像が先行研究よりも優れていた。 We introduce NaturalInversion, a novel model inversion-based method to synthesize images that agrees well with the original data distribution without using real data. In NaturalInversion, we propose: (1) a Feature Transfer Pyramid which uses enhanced image prior of the original data by combining the multi-scale feature maps extracted from the pre-trained classifier, (2) a one-to-one approach generative model where only one batch of images are synthesized by one generator to bring the non-linearity to optimization and to ease the overall optimizing process, (3) learnable Adaptive Channel Scaling parameters which are end-to-end trained to scale the output image channel to utilize the original image prior further. With our NaturalInversion, we synthesize images from classifiers trained on CIFAR-10/100 and show that our images are more consistent with original data distribution than prior works by visualization and additional analysis. Furthermore, our synthesized images outperform prior works on various applications such as knowledge distillation and pruning, demonstrating the effectiveness of our proposed method. | 翻訳日:2023-06-30 14:45:13 公開日:2023-06-29 |
# 言語学習用非負の子音の自動音声認識 Automatic Speech Recognition of Non-Native Child Speech for Language Learning Applications ( http://arxiv.org/abs/2306.16710v1 ) ライセンス: Link先を確認 | Simone Wills, Yu Bai, Cristian Tejedor-Garcia, Catia Cucchiarini, Helmer Strik | (参考訳) ボイスボットは、特に第二言語学習の文脈において、言語スキルの開発を支援する新しい道を提供する。
しかし、音声ボットは、主にネイティブな大人のスピーカーに向けられている。
外国語習得を支援する音声ボットの開発を目的として,最先端asrシステムであるwav2vec2.0とwhisper aiの性能評価を試みた。
オランダ語母語・非母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語と母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母子)の読み・母語母語母語母語母語母語母の発話について評価を行った。
また, 子どもの発音や流布状況を把握するために, ASR 技術の有用性についても検討した。
その結果,近年のasrトランスフォーマモデルでは,子どもや非母語音声の難易度に拘わらず,音素の発音品質に関する詳細なフィードバックを抽出できる。 Voicebots have provided a new avenue for supporting the development of language skills, particularly within the context of second language learning. Voicebots, though, have largely been geared towards native adult speakers. We sought to assess the performance of two state-of-the-art ASR systems, Wav2Vec2.0 and Whisper AI, with a view to developing a voicebot that can support children acquiring a foreign language. We evaluated their performance on read and extemporaneous speech of native and non-native Dutch children. We also investigated the utility of using ASR technology to provide insight into the children's pronunciation and fluency. The results show that recent, pre-trained ASR transformer-based models achieve acceptable performance from which detailed feedback on phoneme pronunciation quality can be extracted, despite the challenging nature of child and non-native speech. | 翻訳日:2023-06-30 14:39:32 公開日:2023-06-29 |
# NCL++: 長距離視覚認識のためのNested Collaborative Learning NCL++: Nested Collaborative Learning for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2306.16709v1 ) ライセンス: Link先を確認 | Zichang Tan, Jun Li, Jinhao Du, Jun Wan, Zhen Lei, Guodong Guo | (参考訳) 近年,ロングテールの視覚認識が注目されている。
長期学習において極めて不均衡なデータ分布のため、学習プロセスは極めて不確実性を示す。
例えば、同じイメージ上の異なる専門家の予測は、同じトレーニング設定にもかかわらず、著しく異なる。
そこで,この不確実性を軽減するために,ncl++ (nested collaborative learning) を提案する。
具体的に言うと、協調学習は、専門家間協調学習(InterCL)と専門家間協調学習(IntraCL)の2つの折り返しからなる。
in-terclは複数の専門家が協力して同時に学び、異なる専門家の間で知識を伝達することを目指している。
イントラCLはInterCLと似ているが、単一の専門家内で同じイメージの複数の拡張コピーを共同で学習することを目的としている。
長期学習における協調学習を実現するため,異なる専門家と増補されたコピーの間で一貫した予測を強制するために,バランスの取れたオンライン蒸留を提案する。
さらに,混乱したカテゴリの注意深い識別能力を向上させるために,高い予測スコアを持つ負のカテゴリをハードカテゴリとして選択するハードカテゴリマイニング(hcm)を提案する。
そして、協調学習はネストされた方法で定式化され、学習は全視点からだけでなく、部分的な視点からいくつかの難しいカテゴリに対して行われる。
実験結果から, 一つのモデルやアンサンブルを用いても, 最先端の手法よりも優れた手法が得られた。
コードは公開される予定だ。 Long-tailed visual recognition has received increasing attention in recent years. Due to the extremely imbalanced data distribution in long-tailed learning, the learning process shows great uncertainties. For example, the predictions of different experts on the same image vary remarkably despite the same training settings. To alleviate the uncertainty, we propose a Nested Collaborative Learning (NCL++) which tackles the long-tailed learning problem by a collaborative learning. To be specific, the collaborative learning consists of two folds, namely inter-expert collaborative learning (InterCL) and intra-expert collaborative learning (IntraCL). In-terCL learns multiple experts collaboratively and concurrently, aiming to transfer the knowledge among different experts. IntraCL is similar to InterCL, but it aims to conduct the collaborative learning on multiple augmented copies of the same image within the single expert. To achieve the collaborative learning in long-tailed learning, the balanced online distillation is proposed to force the consistent predictions among different experts and augmented copies, which reduces the learning uncertainties. Moreover, in order to improve the meticulous distinguishing ability on the confusing categories, we further propose a Hard Category Mining (HCM), which selects the negative categories with high predicted scores as the hard categories. Then, the collaborative learning is formulated in a nested way, in which the learning is conducted on not just all categories from a full perspective but some hard categories from a partial perspective. Extensive experiments manifest the superiority of our method with outperforming the state-of-the-art whether with using a single model or an ensemble. The code will be publicly released. | 翻訳日:2023-06-30 14:39:05 公開日:2023-06-29 |
# DiffusionSTR:シーンテキスト認識のための拡散モデル DiffusionSTR: Diffusion Model for Scene Text Recognition ( http://arxiv.org/abs/2306.16707v1 ) ライセンス: Link先を確認 | Masato Fujitake | (参考訳) 本稿では,野生のテキストを認識するために拡散モデルを用いたエンドツーエンドのテキスト認識フレームワークであるDiffusionSTRを提案する。
既存の研究では、シーンテキスト認識タスクを画像からテキストへの変換と見なしているが、拡散モデルでは画像の下のテキストとして再考している。
拡散モデルが初めてテキスト認識に適用できることを示す。
さらに, 公開データセットを用いた実験結果から, 提案手法は最先端手法と比較して, 競争精度が向上することが示された。 This paper presents Diffusion Model for Scene Text Recognition (DiffusionSTR), an end-to-end text recognition framework using diffusion models for recognizing text in the wild. While existing studies have viewed the scene text recognition task as an image-to-text transformation, we rethought it as a text-text one under images in a diffusion model. We show for the first time that the diffusion model can be applied to text recognition. Furthermore, experimental results on publicly available datasets show that the proposed method achieves competitive accuracy compared to state-of-the-art methods. | 翻訳日:2023-06-30 14:38:37 公開日:2023-06-29 |
# NNQS-Transformer:Ab initio量子化学のための効率よくスケーラブルなニューラルネットワーク量子状態アプローチ NNQS-Transformer: an Efficient and Scalable Neural Network Quantum States Approach for Ab initio Quantum Chemistry ( http://arxiv.org/abs/2306.16705v1 ) ライセンス: Link先を確認 | Yangjun Wu, Chu Guo, Yi Fan, Pengyu Zhou, Honghui Shang | (参考訳) ニューラルネットワーク量子状態(NNQS)は、量子多体問題に対する有望な候補として浮上しているが、その実践的応用はサンプリングと局所エネルギー計算のコストが高いためにしばしば妨げられている。
電子構造計算のための高性能NNQS法を開発した。
The major innovations include: (1) A transformer based architecture as the quantum wave function ansatz; (2) A data-centric parallelization scheme for the variational Monte Carlo (VMC) algorithm which preserves data locality and well adapts for different computing architectures; (3) A parallel batch sampling strategy which reduces the sampling cost and achieves good load balance; (4) A parallel local energy evaluation scheme which is both memory and computationally efficient; (5) Study of real chemical systems demonstrates both the superior accuracy of our method compared to state-of-the-art and the strong and weak scalability for large molecular systems with up to $120$ spin orbitals. Neural network quantum state (NNQS) has emerged as a promising candidate for quantum many-body problems, but its practical applications are often hindered by the high cost of sampling and local energy calculation. We develop a high-performance NNQS method for \textit{ab initio} electronic structure calculations. The major innovations include: (1) A transformer based architecture as the quantum wave function ansatz; (2) A data-centric parallelization scheme for the variational Monte Carlo (VMC) algorithm which preserves data locality and well adapts for different computing architectures; (3) A parallel batch sampling strategy which reduces the sampling cost and achieves good load balance; (4) A parallel local energy evaluation scheme which is both memory and computationally efficient; (5) Study of real chemical systems demonstrates both the superior accuracy of our method compared to state-of-the-art and the strong and weak scalability for large molecular systems with up to $120$ spin orbitals. | 翻訳日:2023-06-30 14:38:26 公開日:2023-06-29 |
# 連合学習のための弾性拘束型メタリーナー Elastically-Constrained Meta-Learner for Federated Learning ( http://arxiv.org/abs/2306.16703v1 ) ライセンス: Link先を確認 | Peng Lan, Donglai Chen, Xie Chong, Keshu Chen, Jinyuan He, Juntao Zhang, Yonghong Chen and Yan Xu | (参考訳) フェデレーション学習(federated learning)は、データ共有を禁止する複数のパーティに対して、機械学習モデルを協調的にトレーニングするアプローチである。
フェデレーション学習の課題のひとつは、単一のモデルがすべてのクライアントのデータ分散に適合できないため、クライアント間の非iidデータである。
Per-FedAvgのようなメタ学習は、この課題に対処するために導入された。
メタラーニングはすべてのクライアントで初期パラメータを共有することを学ぶ。
各クライアントは勾配降下を使用して、初期化をローカルデータ分布に迅速に適応させ、モデルのパーソナライズを実現する。
しかしながら、非凸損失関数とサンプリング更新のランダム性のため、メタラーニングアプローチは、同じクライアントに対して局所的適応において不安定な目標を持つ。
この適応方向の変動はメタラーニングの収束を妨げる。
この課題を克服するために、歴史的局所適応モデルを用いて内部ループの方向を制限し、弾性拘束法を提案する。
その結果、現在のラウンドインナーループは歴史的な目標を保持し、より良いソリューションに適応する。
実験により,提案手法はメタラーニングの収束を促進させ,計算やコミュニケーションを増すことなくパーソナライズを向上できることが示された。
提案手法は3つの公開データセットにおいて,すべての指標でSOTAを達成した。 Federated learning is an approach to collaboratively training machine learning models for multiple parties that prohibit data sharing. One of the challenges in federated learning is non-IID data between clients, as a single model can not fit the data distribution for all clients. Meta-learning, such as Per-FedAvg, is introduced to cope with the challenge. Meta-learning learns shared initial parameters for all clients. Each client employs gradient descent to adapt the initialization to local data distributions quickly to realize model personalization. However, due to non-convex loss function and randomness of sampling update, meta-learning approaches have unstable goals in local adaptation for the same client. This fluctuation in different adaptation directions hinders the convergence in meta-learning. To overcome this challenge, we use the historical local adapted model to restrict the direction of the inner loop and propose an elastic-constrained method. As a result, the current round inner loop keeps historical goals and adapts to better solutions. Experiments show our method boosts meta-learning convergence and improves personalization without additional calculation and communication. Our method achieved SOTA on all metrics in three public datasets. | 翻訳日:2023-06-30 14:38:10 公開日:2023-06-29 |
# TrojanNet: 機械学習による量子回路中のトロイの木検出 TrojanNet: Detecting Trojans in Quantum Circuits using Machine Learning ( http://arxiv.org/abs/2306.16701v1 ) ライセンス: Link先を確認 | Subrata Das, Swaroop Ghosh | (参考訳) 量子コンピューティングは様々なアプリケーションにとって大きな可能性を秘めているが、そのセキュリティは依然として重要な関心事である。
量子回路は、現在のノイズの多い量子コンピュータの成功確率を高めるために、深さとゲート数を最適化するために高品質のコンパイラを必要とする。
効率的だが信頼できない、信頼できないコンパイラが増えているが、トロイの木馬の挿入のような改ざんのリスクがある。
本稿では,Trojan-inserted 回路の検出と分類により,量子回路のセキュリティを高める新しいアプローチであるTrojanNetを提案する。
特に,幅広い最適化問題の解法としてよく用いられる量子近似最適化アルゴリズム(qaoa)回路に着目した。
本稿では,Trojan挿入がQAOA回路に与える影響を調査し,TrojanNetと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを開発し,その存在を正確に同定する。
Qiskitフレームワークを使用して、トロイジャンゲートタイプ、ゲートの数、挿入位置、コンパイラバックエンドのバリエーションを導入し、12の多様なデータセットを生成する。
これらのデータセットは、もともとのトロイの木製QAOA回路と対応するトロイの木製回路の両方で構成されている。
生成されたデータセットは、TrojanNetモデルのトレーニングと評価に使用される。
実験の結果、平均精度は98.80%、平均F1スコアは98.53%で、トロイの木馬挿入QAOA回路を効果的に検出し分類する。
最後に,従来のネットリストに特化して設計されたTrojanNetと既存の機械学習に基づくTrojan検出手法のパフォーマンス比較を行う。 Quantum computing holds tremendous potential for various applications, but its security remains a crucial concern. Quantum circuits need high-quality compilers to optimize the depth and gate count to boost the success probability on current noisy quantum computers. There is a rise of efficient but unreliable/untrusted compilers; however, they present a risk of tampering such as Trojan insertion. We propose TrojanNet, a novel approach to enhance the security of quantum circuits by detecting and classifying Trojan-inserted circuits. In particular, we focus on the Quantum Approximate Optimization Algorithm (QAOA) circuit that is popular in solving a wide range of optimization problems. We investigate the impact of Trojan insertion on QAOA circuits and develop a Convolutional Neural Network (CNN) model, referred to as TrojanNet, to identify their presence accurately. Using the Qiskit framework, we generate 12 diverse datasets by introducing variations in Trojan gate types, the number of gates, insertion locations, and compiler backends. These datasets consist of both original Trojan-free QAOA circuits and their corresponding Trojan-inserted counterparts. The generated datasets are then utilized for training and evaluating the TrojanNet model. Experimental results showcase an average accuracy of 98.80% and an average F1-score of 98.53% in effectively detecting and classifying Trojan-inserted QAOA circuits. Finally, we conduct a performance comparison between TrojanNet and existing machine learning-based Trojan detection methods specifically designed for conventional netlists. | 翻訳日:2023-06-30 14:37:51 公開日:2023-06-29 |
# 物体杭操作のための動的解法モデル学習 Dynamic-Resolution Model Learning for Object Pile Manipulation ( http://arxiv.org/abs/2306.16700v1 ) ライセンス: Link先を確認 | Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu | (参考訳) 視覚観察から学んだ動力学モデルは、様々なロボット操作タスクに有効であることが示されている。
このようなダイナミックスモデルを学ぶ上で重要な質問の1つは、どのシーン表現を使うべきかである。
先行作業は通常、固定次元や分解能で表現を仮定するが、これは単純なタスクでは非効率であり、より複雑なタスクでは非効率である。
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。
具体的には,環境の動的解像度粒子表現を構築し,グラフニューラルネットワーク(gnns)を用いて,抽象レベルの連続的な選択を可能にする統一ダイナミクスモデルを学ぶ。
テスト時間の間、エージェントは各モデル予測制御(MPC)ステップにおける最適分解能を適応的に決定することができる。
我々は, 調理, 農業, 製造, 薬品への応用においてよく見られる課題である, 被写体操作の手法を評価する。
シミュレーションと実世界の両方において総合的な評価を行い,コーヒー豆,アーモンド,トウモロコシ等を用いた粒状物塊の収集,選別,再分配において,最先端の固定解像度ベースラインよりもはるかに優れた性能が得られることを示す。 Dynamics models learned from visual observations have shown to be effective in various robotic manipulation tasks. One of the key questions for learning such dynamics models is what scene representation to use. Prior works typically assume representation at a fixed dimension or resolution, which may be inefficient for simple tasks and ineffective for more complicated tasks. In this work, we investigate how to learn dynamic and adaptive representations at different levels of abstraction to achieve the optimal trade-off between efficiency and effectiveness. Specifically, we construct dynamic-resolution particle representations of the environment and learn a unified dynamics model using graph neural networks (GNNs) that allows continuous selection of the abstraction level. During test time, the agent can adaptively determine the optimal resolution at each model-predictive control (MPC) step. We evaluate our method in object pile manipulation, a task we commonly encounter in cooking, agriculture, manufacturing, and pharmaceutical applications. Through comprehensive evaluations both in the simulation and the real world, we show that our method achieves significantly better performance than state-of-the-art fixed-resolution baselines at the gathering, sorting, and redistribution of granular object piles made with various instances like coffee beans, almonds, corn, etc. | 翻訳日:2023-06-30 14:37:25 公開日:2023-06-29 |
# Rapid-INR: 命令型ニューラル表現を用いたCPUフリーDNNトレーニング Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation ( http://arxiv.org/abs/2306.16699v1 ) ライセンス: Link先を確認 | Hanqiu Chen, Hang Yang, Stephen BR Fitzmeyer, Cong Hao | (参考訳) Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。
INRはオブジェクトを連続関数として表現する。
従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。
しかし、INRは画像圧縮以外の様々な応用の可能性を秘めている。
本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。
我々の手法では、トレーニング中のCPUとGPU間の重要なデータ通信オーバーヘッドを軽減するため、データセット全体をGPU上でINR形式で直接保存する。
さらに、INRからRGBフォーマットへの復号処理は高度に並列化され、オンザフライで実行される。
圧縮をさらに強化するため,従来の作業に基づいて,反復的かつ動的プルーニングとレイヤワイド量子化を提案する。
resnet-18バックボーンネットワークと、画像サイズが異なる3つのデータセットを用いて、画像分類タスクにおけるフレームワークを評価した。
rapid-inrは、オリジナルのデータセットサイズのわずか5%のメモリ消費を削減し、pytorchトレーニングパイプライン上で最大6$\times$のスピードアップを達成し、daliトレーニングパイプライン上で最大1.2倍のスピードアップを実現している。
重要なことに、Rapid-INRは他のコンピュータビジョンタスクやバックボーンネットワークに適切なエンジニアリング努力で容易に適用できる。
実装コードはhttps://anonymous.4open.science/r/inr-4bf7で公開しています。 Implicit Neural Representation (INR) is an innovative approach for representing complex shapes or objects without explicitly defining their geometry or surface structure. Instead, INR represents objects as continuous functions. Previous research has demonstrated the effectiveness of using neural networks as INR for image compression, showcasing comparable performance to traditional methods such as JPEG. However, INR holds potential for various applications beyond image compression. This paper introduces Rapid-INR, a novel approach that utilizes INR for encoding and compressing images, thereby accelerating neural network training in computer vision tasks. Our methodology involves storing the whole dataset directly in INR format on a GPU, mitigating the significant data communication overhead between the CPU and GPU during training. Additionally, the decoding process from INR to RGB format is highly parallelized and executed on-the-fly. To further enhance compression, we propose iterative and dynamic pruning, as well as layer-wise quantization, building upon previous work. We evaluate our framework on the image classification task, utilizing the ResNet-18 backbone network and three commonly used datasets with varying image sizes. Rapid-INR reduces memory consumption to only 5% of the original dataset size and achieves a maximum 6$\times$ speedup over the PyTorch training pipeline, as well as a maximum 1.2x speedup over the DALI training pipeline, with only a marginal decrease in accuracy. Importantly, Rapid-INR can be readily applied to other computer vision tasks and backbone networks with reasonable engineering efforts. Our implementation code is publicly available at https://anonymous.4open.science/r/INR-4BF7. | 翻訳日:2023-06-30 14:37:04 公開日:2023-06-29 |
# ニューラルポラライザー:毒物浄化による軽量で効果的なバックドア防御 Neural Polarizer: A Lightweight and Effective Backdoor Defense via Purifying Poisoned Features ( http://arxiv.org/abs/2306.16697v1 ) ライセンス: Link先を確認 | Mingli Zhu, Shaokui Wei, Hongyuan Zha, Baoyuan Wu | (参考訳) 近年,ディープニューラルネットワークのバックドア攻撃に対する感受性が実証されている。
バックドアモデルが与えられた場合、トリガーを伴う有毒サンプルの予測はトリガー情報によって支配されるが、トリガー情報と良性情報は共存する。
偏光器が特定の偏光を通すことができる光偏光器の機構に着想を得て, 学習可能なニューラル偏光器をバックドアモデルに中間層として挿入することで, 良質な情報を維持しつつ, トリガ情報を用いて汚染試料を浄化する新しいバックドアディフェンス法を提案する。
ニューラル偏光器は1つの軽量線形変換層としてインスタンス化され、限られたクリーンデータセットに基づいて、よく設計された2レベル最適化問題の解法によって学習される。
バックドアモデルの全パラメータをよく調整する他の微調整ベースの防御手法と比較して、提案手法はより効率的でクリーンなデータを必要としないような追加のレイヤを学習するだけである。
大規模な実験は、ニューラルネットワークアーキテクチャやデータセット、特に非常に限られたクリーンデータにおいて、バックドアを除去する手法の有効性と効率を実証する。 Recent studies have demonstrated the susceptibility of deep neural networks to backdoor attacks. Given a backdoored model, its prediction of a poisoned sample with trigger will be dominated by the trigger information, though trigger information and benign information coexist. Inspired by the mechanism of the optical polarizer that a polarizer could pass light waves with particular polarizations while filtering light waves with other polarizations, we propose a novel backdoor defense method by inserting a learnable neural polarizer into the backdoored model as an intermediate layer, in order to purify the poisoned sample via filtering trigger information while maintaining benign information. The neural polarizer is instantiated as one lightweight linear transformation layer, which is learned through solving a well designed bi-level optimization problem, based on a limited clean dataset. Compared to other fine-tuning-based defense methods which often adjust all parameters of the backdoored model, the proposed method only needs to learn one additional layer, such that it is more efficient and requires less clean data. Extensive experiments demonstrate the effectiveness and efficiency of our method in removing backdoors across various neural network architectures and datasets, especially in the case of very limited clean data. | 翻訳日:2023-06-30 14:36:37 公開日:2023-06-29 |
# 最適化正方形誤差を用いた量子振幅推定 Quantum Amplitude Estimation with Optimized Squared Error ( http://arxiv.org/abs/2306.16695v1 ) ライセンス: Link先を確認 | Xi Lu, Hongwei Lin | (参考訳) 本稿では,量子位相推定回路の初期状態の最適化により,量子振幅推定の誤差挙動を最適化する手法を提案する。
このような最適化された量子振幅推定(OQAE)アルゴリズムは、標準偏差(STD)$\sim 2.565/L$を達成することができる。 We introduce a method to optimize the error behavior of quantum amplitude estimation by optimizing the initial state of the quantum phase estimation circuit. Such optimized quantum amplitude estimation (OQAE) algorithm can achieve a standard deviation (STD) $\sim 2.565/L$, which overwhelms existing algorithm with an STD about $>4/L$, where $L$ is the number of oracle calls. | 翻訳日:2023-06-30 14:36:13 公開日:2023-06-29 |
# 逆例ゲームにおける最適ランダム化戦略に向けて Towards Optimal Randomized Strategies in Adversarial Example Game ( http://arxiv.org/abs/2306.16738v1 ) ライセンス: Link先を確認 | Jiahao Xie, Chao Zhang, Weijie Liu, Wensong Bai, Hui Qian | (参考訳) 敵対的なサンプル攻撃に対するディープニューラルネットワークモデルの脆弱性は多くの人工知能アプリケーションにおいて実践的な課題である。
最近の研究は、敵の訓練におけるランダム化の利用が、敵のサンプル攻撃に対する最適な戦略を見つける鍵であることを示している。
しかし、ディフェンダーと攻撃者がランダム化戦略を使用できる完全にランダム化された環境では、そのような最適な戦略を見つけるための効率的なアルゴリズムは存在しない。
このギャップを埋めるために、確率分布空間上の新しい無限次元連続時間フローを用いて問題をモデル化するFRATと呼ばれるアルゴリズムを提案する。
FRATはディフェンダー用の軽量な混合モデルを維持し、各イテレーションにおける混合重みとモデルパラメータを効率的に更新する柔軟性を備えている。
さらに、FRATは軽量サンプリングサブルーチンを使用して攻撃者のためのランダムな戦略を構築する。
我々は、FRATの連続時間制限がディフェンダーとアタッカーによって形成されたゼロサムゲームにおいて混合ナッシュ平衡に収束することを証明する。
CIFAR-10およびCIFAR-100データセット上でのFRATの効率も実験により実証された。 The vulnerability of deep neural network models to adversarial example attacks is a practical challenge in many artificial intelligence applications. A recent line of work shows that the use of randomization in adversarial training is the key to find optimal strategies against adversarial example attacks. However, in a fully randomized setting where both the defender and the attacker can use randomized strategies, there are no efficient algorithm for finding such an optimal strategy. To fill the gap, we propose the first algorithm of its kind, called FRAT, which models the problem with a new infinite-dimensional continuous-time flow on probability distribution spaces. FRAT maintains a lightweight mixture of models for the defender, with flexibility to efficiently update mixing weights and model parameters at each iteration. Furthermore, FRAT utilizes lightweight sampling subroutines to construct a random strategy for the attacker. We prove that the continuous-time limit of FRAT converges to a mixed Nash equilibria in a zero-sum game formed by a defender and an attacker. Experimental results also demonstrate the efficiency of FRAT on CIFAR-10 and CIFAR-100 datasets. | 翻訳日:2023-06-30 14:28:50 公開日:2023-06-29 |
# GraMMaR:3次元動作再構成のための地上認識運動モデル GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction ( http://arxiv.org/abs/2306.16736v1 ) ライセンス: Link先を確認 | Sihan Ma, Qiong Cao, Hongwei Yi, Jing Zhang, Dacheng Tao | (参考訳) 複雑な人間と地面の相互作用を非神秘化することは、rgbビデオから正確かつ現実的な3d人間の動きの再構築に不可欠である。
従来の手法では、暗黙的または疎密な方法で人間と地上の相互作用をモデル化しており、しばしばノイズや不確実性に直面した時に非現実的で誤った動きをもたらす。
対照的に、我々のアプローチはこれらの相互作用を密で連続的な方法で明示的に表現している。
そこで本研究では,動き列の各時間ステップにおける各関節面と接地面の遷移と相互作用の分布を協調的に学習する,3次元動作再構成のための新しい接地認識運動モデルであるグラマーを提案する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
トレーニング後,GraMMaRを二元的優先度として活用する共同最適化戦略を確立し,楽観的な接地運動空間への最適化を規則化する。
これは、想定または学習された地上面に関係なく、現実的で一貫性のある運動再構成をもたらす。
AMASS と AIST++ のデータセットを広範囲に評価することにより,複雑であいまいな人間-地上相互作用を含む難解なケースにおいて,優れた一般化と識別能力を示す。
コードはリリースされます。 Demystifying complex human-ground interactions is essential for accurate and realistic 3D human motion reconstruction from RGB videos, as it ensures consistency between the humans and the ground plane. Prior methods have modeled human-ground interactions either implicitly or in a sparse manner, often resulting in unrealistic and incorrect motions when faced with noise and uncertainty. In contrast, our approach explicitly represents these interactions in a dense and continuous manner. To this end, we propose a novel Ground-aware Motion Model for 3D Human Motion Reconstruction, named GraMMaR, which jointly learns the distribution of transitions in both pose and interaction between every joint and ground plane at each time step of a motion sequence. It is trained to explicitly promote consistency between the motion and distance change towards the ground. After training, we establish a joint optimization strategy that utilizes GraMMaR as a dual-prior, regularizing the optimization towards the space of plausible ground-aware motions. This leads to realistic and coherent motion reconstruction, irrespective of the assumed or learned ground plane. Through extensive evaluation on the AMASS and AIST++ datasets, our model demonstrates good generalization and discriminating abilities in challenging cases including complex and ambiguous human-ground interactions. The code will be released. | 翻訳日:2023-06-30 14:28:35 公開日:2023-06-29 |
# デジタル画像処理技術を用いた損傷葉面計測と解析の統一的展望 Unified View of Damage leaves Planimetry & Analysis Using Digital Images Processing Techniques ( http://arxiv.org/abs/2306.16734v1 ) ライセンス: Link先を確認 | Pijush Kanti Kumar, DeepKiran Munjal, Sunita Rani, Anurag Dutta, Liton Chandra Voumik and A. Ramamoorthy | (参考訳) 植物における葉の病気の検出は一般的に、葉面に現れるパターンを視覚的に観察する。
しかし、これらの視覚的に観察可能なパターンの微妙な変化に基づいて区別される病気は多い。
本稿では,画像処理技術を用いて植物葉病の同定を試みる。
本研究はキツネ葉カンカー病の検出に焦点を当てた。
カンカーは葉の細菌感染である。
キツネの症状には葉に茶色の斑点があり、しばしば水っぽいか油っぽい外観を持つ。
斑点(植物学では病変と呼ばれる)は通常黄色である。
葉のハローに囲まれ、葉の上部と下部の両方に見られる。
本報告では,シトラス葉カンカー病の検出に用いられている様々な方法について述べる。
使用する方法はヒストグラム比較とk平均クラスタリングである。
これらの方法を用いて,葉のパターンに基づくヒストグラムに基づいて,キツネの発達が検出された。
このように得られた結果は、農業分野の専門家との相談を経て、使用するプロセスに適した治療法を特定するために使用できる。 The detection of leaf diseases in plants generally involves visual observation of patterns appearing on the leaf surface. However, there are many diseases that are distinguished based on very subtle changes in these visually observable patterns. This paper attempts to identify plant leaf diseases using image processing techniques. The focus of this study is on the detection of citrus leaf canker disease. Canker is a bacterial infection of leaves. Symptoms of citrus cankers include brown spots on the leaves, often with a watery or oily appearance. The spots (called lesions in botany) are usually yellow. It is surrounded by a halo of the leaves and is found on both the top and bottom of the leaf. This paper describes various methods that have been used to detect citrus leaf canker disease. The methods used are histogram comparison and k-means clustering. Using these methods, citrus canker development was detected based on histograms generated based on leaf patterns. The results thus obtained can be used, after consultation with experts in the field of agriculture, to identify suitable treatments for the processes used. | 翻訳日:2023-06-30 14:28:13 公開日:2023-06-29 |
# 適応型特徴学習によるマルチスセナリオランキング Multi-Scenario Ranking with Adaptive Feature Learning ( http://arxiv.org/abs/2306.16732v1 ) ライセンス: Link先を確認 | Yu Tian, Bofang Li, Si Chen, Xubin Li, Hongbo Deng, Jian Xu, Bo Zheng, Qian Wang, Chenliang Li | (参考訳) 近年,多目的学習(msl)は,異なるシナリオからの学習の転送,データのスパーシティの軽減,メンテナンスコストの低減などにより,業界のレコメンデーションや検索システムで広く利用されている。
これらの取り組みは、Auxiliary Network、Expert Network、Multi-Tower Networkなど、より最適なネットワーク構造を探索することで異なるMSLパラダイムを作成する。
異なるシナリオが特定の特性を持ち、ユーザの意図を全く異なるものにすることができるのは直感的です。
言い換えれば、異なるシナリオ下で異なる種類の補助的特徴が様々な重要性を持つ。
シナリオを意識したより差別的な特徴表現により、最適なネットワーク構造を検索することなく、より優れたランク付け性能を得ることができる。
残念ながら、この単純なアイデアは、主に実世界のシステムでは見過ごされているが、多くの希望がある。解析によって、マルチスセナリオスキームによる適応的特徴学習の合理性も検証される。
さらに、Alibabaの検索広告プラットフォームにおけるA/Bテストの結果は、Mariaがプロダクション環境で優れていることを示している。 Recently, Multi-Scenario Learning (MSL) is widely used in recommendation and retrieval systems in the industry because it facilitates transfer learning from different scenarios, mitigating data sparsity and reducing maintenance cost. These efforts produce different MSL paradigms by searching more optimal network structure, such as Auxiliary Network, Expert Network, and Multi-Tower Network. It is intuitive that different scenarios could hold their specific characteristics, activating the user's intents quite differently. In other words, different kinds of auxiliary features would bear varying importance under different scenarios. With more discriminative feature representations refined in a scenario-aware manner, better ranking performance could be easily obtained without expensive search for the optimal network structure. Unfortunately, this simple idea is mainly overlooked but much desired in real-world systems.Further analysis also validates the rationality of adaptive feature learning under a multi-scenario scheme. Moreover, our A/B test results on the Alibaba search advertising platform also demonstrate that Maria is superior in production environments. | 翻訳日:2023-06-30 14:27:59 公開日:2023-06-29 |
# テキストエンターメントモデルにおけるパラフラスティックロバスト性の評価 Evaluating Paraphrastic Robustness in Textual Entailment Models ( http://arxiv.org/abs/2306.16722v1 ) ライセンス: Link先を確認 | Dhruv Verma, Yash Kumar Lal, Shreyashee Sinha, Benjamin Van Durme, Adam Poliak | (参考訳) パラフレージングにロバストなモデルかどうかを評価するために,1,126組のreceptive textual entailment (rte) サンプルを収集したparteを提案する。
RTEモデルが言語を理解している場合、その予測は同じ意味を持つ入力間で一貫性があるべきであると仮定する。
評価セットを用いて,実例を言い換えると,RTEモデルの予測が変化するかどうかを判断する。
実験の結果,現代モデルでは8~16 %の言い回しで予測が変化しており,まだ改善の余地があることが示唆された。 We present PaRTE, a collection of 1,126 pairs of Recognizing Textual Entailment (RTE) examples to evaluate whether models are robust to paraphrasing. We posit that if RTE models understand language, their predictions should be consistent across inputs that share the same meaning. We use the evaluation set to determine if RTE models' predictions change when examples are paraphrased. In our experiments, contemporary models change their predictions on 8-16\% of paraphrased examples, indicating that there is still room for improvement. | 翻訳日:2023-06-30 14:27:41 公開日:2023-06-29 |
# オブジェクト指向物体検出のためのメトリクス整列サンプル選択と臨界特徴サンプリング Metric-aligned Sample Selection and Critical Feature Sampling for Oriented Object Detection ( http://arxiv.org/abs/2306.16718v1 ) ライセンス: Link先を確認 | Peng Sun, Yongbin Zheng, Wenqi Wu, Wanying Xu and Shengjian Bai | (参考訳) 任意指向のオブジェクト検出は、比較的新しいが難しいタスクである。
目覚ましい進展はあったものの、方向、スケール、アスペクト比、および空中画像における物体の視覚的外観のパターンの多様さにより、未解決の問題が多く残っている。
既存の手法の多くは粗粒度固定ラベル割当戦略を採用しており、分類スコアと局所化精度の不整合に苦しむ。
まず, 固定IoU戦略によるサンプル選択と回帰損失計算の整合性を評価するために, サンプルの品質を評価するためにアフィン変換を導入し, 距離に基づくラベル割り当て戦略を提案する。
提案手法は,物体の形状と回転特性に応じて動的に試料を選択可能である。
第2に,分類と局所化の不整合性に対処するため,分類タスクのサンプリング位置の局所化改善を行い,重要な特徴を正確に抽出する臨界特徴サンプリング(CFS)モジュールを提案する。
第3に,学習中の提案の統計に基づいて回帰損失関数の形を変え,高品質なサンプルを適応的に選択するためのスケール制御型smoous $l_1$ loss (sc-loss)を提案する。
大規模な実験は、DOTA、FAIR1M-1.0、HRSC2016、UCAS-AODの4つの挑戦的な回転物体検出データセットに対して行われた。
その結果,提案する検出器の最先端の精度が得られた。 Arbitrary-oriented object detection is a relatively emerging but challenging task. Although remarkable progress has been made, there still remain many unsolved issues due to the large diversity of patterns in orientation, scale, aspect ratio, and visual appearance of objects in aerial images. Most of the existing methods adopt a coarse-grained fixed label assignment strategy and suffer from the inconsistency between the classification score and localization accuracy. First, to align the metric inconsistency between sample selection and regression loss calculation caused by fixed IoU strategy, we introduce affine transformation to evaluate the quality of samples and propose a distance-based label assignment strategy. The proposed metric-aligned selection (MAS) strategy can dynamically select samples according to the shape and rotation characteristic of objects. Second, to further address the inconsistency between classification and localization, we propose a critical feature sampling (CFS) module, which performs localization refinement on the sampling location for classification task to extract critical features accurately. Third, we present a scale-controlled smooth $L_1$ loss (SC-Loss) to adaptively select high quality samples by changing the form of regression loss function based on the statistics of proposals during training. Extensive experiments are conducted on four challenging rotated object detection datasets DOTA, FAIR1M-1.0, HRSC2016, and UCAS-AOD. The results show the state-of-the-art accuracy of the proposed detector. | 翻訳日:2023-06-30 14:27:31 公開日:2023-06-29 |
# 深部ヘテロケクタスティック回帰の病態の解明 Understanding Pathologies of Deep Heteroskedastic Regression ( http://arxiv.org/abs/2306.16717v1 ) ライセンス: Link先を確認 | Eliot Wong-Toi, Alex Boyd, Vincent Fortuin, Stephan Mandt | (参考訳) 最近の研究では、ヘテロスケダスティック神経回帰モデルを用いて実世界のデータをモデル化する際の負の結果が報告されている。
特に、過パラメータモデルの場合、平均と分散ネットワークは、すべてのデータポイントに適合する(予測された分散をゼロに縮小する)か、予測されたすべての残差に正確に一致する出力分散で一定の予測を学ぶ(すなわち、ターゲットを純粋なノイズとして説明する)のに十分強力である。
本稿では統計物理学の観点からこれらの困難を考察する。
観測された不安定性はニューラルネットワークアーキテクチャに特有ではないが、過剰パラメータ条件付きガウス確率モデルの場理論にすでに存在することを示す。
光仮定の下では、数値的に解ける非パラメトリック自由エネルギーを導出する。
その結果得られた解は実世界データに適合する経験モデルと優れた質的一致を示し、特に相転移の存在、すなわち、2つのネットワーク上の正規化強度を変化させてレグレッサーの挙動の質的差異を証明する。
そこで本研究では,ヘテロスケダティック回帰モデルを慎重に正規化する必要性を理論的に説明する。
さらに,本理論の知見は,ナイーブアプローチよりも二次的に効率的であるこの正則化を最適化するためのスキームを示唆する。 Several recent studies have reported negative results when using heteroskedastic neural regression models to model real-world data. In particular, for overparameterized models, the mean and variance networks are powerful enough to either fit every single data point (while shrinking the predicted variances to zero), or to learn a constant prediction with an output variance exactly matching every predicted residual (i.e., explaining the targets as pure noise). This paper studies these difficulties from the perspective of statistical physics. We show that the observed instabilities are not specific to any neural network architecture but are already present in a field theory of an overparameterized conditional Gaussian likelihood model. Under light assumptions, we derive a nonparametric free energy that can be solved numerically. The resulting solutions show excellent qualitative agreement with empirical model fits on real-world data and, in particular, prove the existence of phase transitions, i.e., abrupt, qualitative differences in the behaviors of the regressors upon varying the regularization strengths on the two networks. Our work thus provides a theoretical explanation for the necessity to carefully regularize heteroskedastic regression models. Moreover, the insights from our theory suggest a scheme for optimizing this regularization which is quadratically more efficient than the naive approach. | 翻訳日:2023-06-30 14:27:06 公開日:2023-06-29 |
# 高周波フロッケ駆動による固有状態の予熱安定性 Prethermal stability of eigenstates under high frequency Floquet driving ( http://arxiv.org/abs/2306.16716v1 ) ライセンス: Link先を確認 | Nicholas O'Dea, Fiona Burnell, Anushya Chandran, Vedika Khemani | (参考訳) 高周波駆動を受ける系は、フロッケ前熱化、すなわち、駆動周波数が大きい時間スケールで指数関数的にゆっくりと熱する($\tau_{\rm h} \sim \exp(\omega)$)。
それでも、局所観測性はエネルギー保存過程を通じてより早く崩壊し、初期状態の忠実度が急速に低下すると予想されている。
ここでは、平均的なハミルトン状態の固有状態である$H_0$は、一般的な初期状態が急速に崩壊しても、幅広い周波数で指数関数的に長い寿命を示す。
H_0$ が量子不足、あるいは低い絡み合いの強い励起固有状態を持つとき、これは特定の初期状態における局所可観測物の長時間の非熱的挙動をもたらす。
ゾーン間チャネルがエネルギー吸収による忠実性減衰を引き起こす、すなわち、フロケットゾーン間のカップリングによって、$\tau_{\rm f}$を遅い加熱時間スケールに結びつける、ゾーン内チャネルが同じフロケットゾーン内の状態間のハイブリダイゼーションを引き起こす、という2つのチャネル理論を示す。
本研究は,Floquet 工学を用いた多体ハミルトンの創出のための実験的アプローチの堅牢性について報告する。 Systems subject to high-frequency driving exhibit Floquet prethermalization, that is, they heat exponentially slowly on a time scale that is large in the drive frequency, $\tau_{\rm h} \sim \exp(\omega)$. Nonetheless, local observables can decay much faster via energy conserving processes, which are expected to cause a rapid decay in the fidelity of an initial state. Here we show instead that the fidelities of eigenstates of the time-averaged Hamiltonian, $H_0$, display an exponentially long lifetime over a wide range of frequencies -- even as generic initial states decay rapidly. When $H_0$ has quantum scars, or highly excited-eigenstates of low entanglement, this leads to long-lived non-thermal behavior of local observables in certain initial states. We present a two-channel theory describing the fidelity decay time $\tau_{\rm f}$: the interzone channel causes fidelity decay through energy absorption i.e. coupling across Floquet zones, and ties $\tau_{\rm f}$ to the slow heating time scale, while the intrazone channel causes hybridization between states in the same Floquet zone. Our work informs the robustness of experimental approaches for using Floquet engineering to generate interesting many-body Hamiltonians, with and without scars. | 翻訳日:2023-06-30 14:26:42 公開日:2023-06-29 |
# SimPLe: DCE-MRIにおける乳がんの重症化のための類似性認識プロパゲーション学習 SimPLe: Similarity-Aware Propagation Learning for Weakly-Supervised Breast Cancer Segmentation in DCE-MRI ( http://arxiv.org/abs/2306.16714v1 ) ライセンス: Link先を確認 | Yuming Zhong and Yi Wang | (参考訳) 乳腺ダイナミックコントラスト強調画像(DCE-MRI)は,高リスク乳癌のスクリーニングおよび予後評価において重要な役割を担っている。
乳癌領域の分節化は乳房mriのその後の解析に必須である。
セグメンテーションネットワークのトレーニングにおけるアノテーションの取り組みを軽減するため,乳がんセグメンテーションのアノテーションとして極端点を用いた弱制御戦略を提案する。
ベルやホイッスルを使わずに、我々の戦略は、ルーチントレーニング手順の学習能力、すなわち、列車 - 微調整プロセスを完全に活用することに焦点を当てます。
ネットワークはまず、極端点を用いて生成された擬似マスクを使用して自分自身を訓練し、コントラスト損失を最小限にすることで、ネットワークにがん性ボクセルのより代表的な特徴を学ぶように促す。
そして、トレーニングされたネットワークは、ラベルを伝播するためにラベルなしと正のボクセル間の特徴的類似性を利用する類似性認識伝播学習(SimPLe)戦略を用いて、自身を微調整する。
最後に、ネットワークは、以前の微調整ネットワークで生成された擬似マスクを使用することで、自分自身を再訓練する。
生検乳癌患者206例を対象に, dce-mriデータを用いた検討を行った。
実験により,SimPLe 戦略を用いてネットワークを効果的に微調整し,Dice の平均値が 81% であることを示す。 Breast dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI) plays an important role in the screening and prognosis assessment of high-risk breast cancer. The segmentation of cancerous regions is essential useful for the subsequent analysis of breast MRI. To alleviate the annotation effort to train the segmentation networks, we propose a weakly-supervised strategy using extreme points as annotations for breast cancer segmentation. Without using any bells and whistles, our strategy focuses on fully exploiting the learning capability of the routine training procedure, i.e., the train - fine-tune - retrain process. The network first utilizes the pseudo-masks generated using the extreme points to train itself, by minimizing a contrastive loss, which encourages the network to learn more representative features for cancerous voxels. Then the trained network fine-tunes itself by using a similarity-aware propagation learning (SimPLe) strategy, which leverages feature similarity between unlabeled and positive voxels to propagate labels. Finally the network retrains itself by employing the pseudo-masks generated using previous fine-tuned network. The proposed method is evaluated on our collected DCE-MRI dataset containing 206 patients with biopsy-proven breast cancers. Experimental results demonstrate our method effectively fine-tunes the network by using the SimPLe strategy, and achieves a mean Dice value of 81%. | 翻訳日:2023-06-30 14:26:16 公開日:2023-06-29 |
# 画像プールからの回答マイニング:検索に基づく視覚的質問応答に向けて Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering ( http://arxiv.org/abs/2306.16713v1 ) ライセンス: Link先を確認 | Abhirama Subramanyam Penamakuri, Manish Gupta, Mithun Das Gupta, Anand Mishra | (参考訳) 本研究では,コンテキストとして与えられた関連画像と無関係画像のプールから回答を抽出する必要がある場合の視覚的質問応答について検討する。
このような設定のために、モデルはまず、プールから関連する画像を取得し、これらの画像から質問に答えなければならない。
本稿では,この問題を検索に基づく視覚質問応答(略してRETVQA)と呼ぶ。
RETVQAは、伝統的に研究されてきたVisual Question Answering (VQA)とは異なる、より困難なものである。
本稿では,RETVQAタスクの解決に向けて,疑問を呈し,関連エンコーダを用いて画像の検索を行うMulti Image BART(MI-BART)を提案する。
さらに,この領域で最大のデータセットであるRETVQAを導入し,VQAのマルチイメージと検索要件,異種画像のプール上でのメタデータに依存しない質問,分類指向とオープンな生成的回答の混合を期待する。
提案フレームワークは,提案したデータセット,すなわちRETVQAでは76.5%,流布率79.3%の精度を達成し,また,公開可能なWebQAデータセットの画像セグメントでは,それぞれ4.9%,11.8%の精度で最先端の手法を上回っている。 We study visual question answering in a setting where the answer has to be mined from a pool of relevant and irrelevant images given as a context. For such a setting, a model must first retrieve relevant images from the pool and answer the question from these retrieved images. We refer to this problem as retrieval-based visual question answering (or RETVQA in short). The RETVQA is distinctively different and more challenging than the traditionally-studied Visual Question Answering (VQA), where a given question has to be answered with a single relevant image in context. Towards solving the RETVQA task, we propose a unified Multi Image BART (MI-BART) that takes a question and retrieved images using our relevance encoder for free-form fluent answer generation. Further, we introduce the largest dataset in this space, namely RETVQA, which has the following salient features: multi-image and retrieval requirement for VQA, metadata-independent questions over a pool of heterogeneous images, expecting a mix of classification-oriented and open-ended generative answers. Our proposed framework achieves an accuracy of 76.5% and a fluency of 79.3% on the proposed dataset, namely RETVQA and also outperforms state-of-the-art methods by 4.9% and 11.8% on the image segment of the publicly available WebQA dataset on the accuracy and fluency metrics, respectively. | 翻訳日:2023-06-30 14:25:54 公開日:2023-06-29 |
# DialoGPS:マルチスレッド会話におけるデータ拡張のための連続意味空間における対話パスサンプリング DialoGPS: Dialogue Path Sampling in Continuous Semantic Space for Data Augmentation in Multi-Turn Conversations ( http://arxiv.org/abs/2306.16770v1 ) ライセンス: Link先を確認 | Ang Lv, Jinpeng Li, Yuhan Chen, Xing Gao, Ji Zhang, Rui Yan | (参考訳) オープンドメインの対話生成タスクでは、ほとんどのデータセットのコンテキストとレスポンスは1対1でマッピングされ、重要な多対多の特徴に違反する。
このようなパターンがなければ、モデルはあまり一般化せず、安全に応答することを好む。
多くの試みは、一対多の視点から複数ターンの設定か、多対多の視点で行われているが、シングルターンの設定に限定されている。
多対多の多ターン対話に対する大きな課題は、各ターンを意味的類似性で個別に置き換えることが、脆弱なコンテキストコヒーレンスを損なうことである。
本稿では,マルチターン対話のための最初の多対多拡張手法である連続意味空間における対話パスサンプリング(dialogps)手法を提案する。
具体的には、特別なガウス過程であるBrownian Bridgeに対話をマッピングする。
潜在変数をサンプリングして連続空間におけるコヒーレントな対話経路を形成する。
対話パスは、新しいマルチターン対話に対応し、拡張トレーニングデータとして使用される。
自動評価と人的評価の両方でDialoGPSの効果を示す。 In open-domain dialogue generation tasks, contexts and responses in most datasets are one-to-one mapped, violating an important many-to-many characteristic: a context leads to various responses, and a response answers multiple contexts. Without such patterns, models poorly generalize and prefer responding safely. Many attempts have been made in either multi-turn settings from a one-to-many perspective or in a many-to-many perspective but limited to single-turn settings. The major challenge to many-to-many augment multi-turn dialogues is that discretely replacing each turn with semantic similarity breaks fragile context coherence. In this paper, we propose DialoGue Path Sampling (DialoGPS) method in continuous semantic space, the first many-to-many augmentation method for multi-turn dialogues. Specifically, we map a dialogue to our extended Brownian Bridge, a special Gaussian process. We sample latent variables to form coherent dialogue paths in the continuous space. A dialogue path corresponds to a new multi-turn dialogue and is used as augmented training data. We show the effect of DialoGPS with both automatic and human evaluation. | 翻訳日:2023-06-30 14:20:02 公開日:2023-06-29 |
# 畳み込み・非畳み込み操作によるDNN推論・訓練の性能解析 Performance Analysis of DNN Inference/Training with Convolution and non-Convolution Operations ( http://arxiv.org/abs/2306.16767v1 ) ライセンス: Link先を確認 | Hadi Esmaeilzadeh, Soroush Ghodrati, Andrew B. Kahng, Sean Kinzer, Susmita Dey Manasi, Sachin S. Sapatnekar, and Zhiang Wang | (参考訳) 今日のディープラーニングアクセラレータのパフォーマンス分析フレームワークには、2つの大きな制限がある。
第一に、現代の畳み込みニューラルネットワーク(cnns)は畳み込み以外の多くの種類の層で構成されており、特にトレーニング中は、これらのフレームワークは畳み込み層のみに焦点を当てている。
第二に、これらのフレームワークは一般的に推論をターゲットとしており、トレーニング操作のサポートがない。
本研究は、ASICベースの一般的なハードウェアアクセラレーションプラットフォームのための新しいパフォーマンス分析フレームワーク、SimDITを提案する。
SimDITのモデリングは、CNN推論と高度にパラメータ化可能なハードウェア基板上でのトレーニングの両方の畳み込みと非畳み込み操作を包括的にカバーしている。
SimDITはバックエンドのシリコン実装フローと統合されており、CNN推論およびトレーニングワークロードを実行するための詳細なエンドツーエンドのパフォーマンス統計(データアクセスコスト、サイクルカウント、エネルギ、パワー)を提供する。
SimDIT対応のパフォーマンス分析によると、64X64の処理アレイでは、ResNet-50トレーニングワークロード全体の59.5%が非畳み込み操作である。
さらに、利用可能なオフチップDRAM帯域とオンチップSRAMリソースを最適に分散することにより、ResNet-50推論のための汎用静的リソース割り当てよりも18倍の性能向上を実現している。 Today's performance analysis frameworks for deep learning accelerators suffer from two significant limitations. First, although modern convolutional neural network (CNNs) consist of many types of layers other than convolution, especially during training, these frameworks largely focus on convolution layers only. Second, these frameworks are generally targeted towards inference, and lack support for training operations. This work proposes a novel performance analysis framework, SimDIT, for general ASIC-based systolic hardware accelerator platforms. The modeling effort of SimDIT comprehensively covers convolution and non-convolution operations of both CNN inference and training on a highly parameterizable hardware substrate. SimDIT is integrated with a backend silicon implementation flow and provides detailed end-to-end performance statistics (i.e., data access cost, cycle counts, energy, and power) for executing CNN inference and training workloads. SimDIT-enabled performance analysis reveals that on a 64X64 processing array, non-convolution operations constitute 59.5% of total runtime for ResNet-50 training workload. In addition, by optimally distributing available off-chip DRAM bandwidth and on-chip SRAM resources, SimDIT achieves 18X performance improvement over a generic static resource allocation for ResNet-50 inference. | 翻訳日:2023-06-30 14:19:37 公開日:2023-06-29 |
# テキスト, 表, 画像による質問応答のための統一言語表現 Unified Language Representation for Question Answering over Text, Tables, and Images ( http://arxiv.org/abs/2306.16762v1 ) ライセンス: Link先を確認 | Bowen Yu, Cheng Fu, Haiyang Yu, Fei Huang, Yongbin Li | (参考訳) 複雑な質問に答えようとするとき、人々は視覚、テキスト、表データといった複数の情報ソースに依存することが多い。
この問題に対する以前のアプローチでは、マルチモーダル空間における入力特徴やモデル構造の設計に重点を置いており、クロスモーダル推論やデータ効率のトレーニングには柔軟性がない。
本稿では,検索,ランキング,生成という3つのステップによって解決可能な,より単純なテキスト的qa問題へとタスクを単純化するために,画像とテーブルを統一した言語表現に変換するパラダイムを提案する。
このアイデアは、事前訓練された言語モデルのパワーを活用し、Solarと呼ばれるフレームワークで実装されている。
実験の結果,Solarの既存手法は,MultimodalQAとMMCoQAの2つのデータセットで10.6-32.3 ptsで上回っていることがわかった。
さらに、SolarはWebQAのリーダーボードで最高のパフォーマンスを達成する When trying to answer complex questions, people often rely on multiple sources of information, such as visual, textual, and tabular data. Previous approaches to this problem have focused on designing input features or model structure in the multi-modal space, which is inflexible for cross-modal reasoning or data-efficient training. In this paper, we call for an alternative paradigm, which transforms the images and tables into unified language representations, so that we can simplify the task into a simpler textual QA problem that can be solved using three steps: retrieval, ranking, and generation, all within a language space. This idea takes advantage of the power of pre-trained language models and is implemented in a framework called Solar. Our experimental results show that Solar outperforms all existing methods by 10.6-32.3 pts on two datasets, MultimodalQA and MMCoQA, across ten different metrics. Additionally, Solar achieves the best performance on the WebQA leaderboard | 翻訳日:2023-06-30 14:19:16 公開日:2023-06-29 |
# Moreau Envelope による二段階プログラムの差分凸変換とアルゴリズム Moreau Envelope Based Difference-of-weakly-Convex Reformulation and Algorithm for Bilevel Programs ( http://arxiv.org/abs/2306.16761v1 ) ライセンス: Link先を確認 | Lucy L. Gao, Jane J. Ye, Haian Yin, Shangzhi Zeng, Jin Zhang | (参考訳) 最近Ye et al. (Mathematical Programming 2023) は、値関数アプローチの修正に基づく凸アルゴリズムの差を利用して、ハイパーパラメータ選択に関する応用に焦点を当てた、特定の二段階プログラムのクラスを解くアルゴリズムを設計している。
提案アルゴリズムは,サポートベクトルマシンモデルや最小絶対縮小・選択演算子モデルなど,低レベル問題が完全に凸である場合に特に強力である。
本稿では,機械学習と統計学に関するさらなる応用のために,下層完全凸性から弱凸性までの基礎となる仮定を実質的に弱める。
そこで本研究では,低レベル問題のモローエンベロープを用いた新しい改質を提案し,この改質が弱凸プログラムの違いであることを示す。
その後,弱凸プログラムのこの差分を解決する逐次収束アルゴリズムを開発した。
提案手法の有効性を評価するため, 弾性ネット, スパース群ラッソ, RBFカーネルサポートベクトルマシンモデルから, 双レベルハイパーパラメータ選択問題に対する数値実験を行った。 Recently, Ye et al. (Mathematical Programming 2023) designed an algorithm for solving a specific class of bilevel programs with an emphasis on applications related to hyperparameter selection, utilizing the difference of convex algorithm based on the value function approach reformulation. The proposed algorithm is particularly powerful when the lower level problem is fully convex , such as a support vector machine model or a least absolute shrinkage and selection operator model. In this paper, to suit more applications related to machine learning and statistics, we substantially weaken the underlying assumption from lower level full convexity to weak convexity. Accordingly, we propose a new reformulation using Moreau envelope of the lower level problem and demonstrate that this reformulation is a difference of weakly convex program. Subsequently, we develop a sequentially convergent algorithm for solving this difference of weakly convex program. To evaluate the effectiveness of our approach, we conduct numerical experiments on the bilevel hyperparameter selection problem from elastic net, sparse group lasso, and RBF kernel support vector machine models. | 翻訳日:2023-06-30 14:18:57 公開日:2023-06-29 |
# バードコール分類のための半教師付きデータセットアノテーションによる転送学習 Transfer Learning with Semi-Supervised Dataset Annotation for Birdcall Classification ( http://arxiv.org/abs/2306.16760v1 ) ライセンス: Link先を確認 | Anthony Miyaguchi, Nathan Zhong, Murilo Gustineli, and Chris Hayduk | (参考訳) 本稿では,記録された音環境におけるアフリカ鳥種識別に着目したbirdclef 2023コンペティションにおいて,半教師付きデータセットアノテーションを用いたトランスファー学習について検討する。
提案手法では,既存の市販モデルであるBirdNETとMixITを用いて,競争における表現とラベルの課題に対処する。
birdnetが学習した埋め込み空間を探索し,教師付き学習のための注釈付きデータセットを導出するプロセスを提案する。
我々の実験は、競争リーダーボードの性能を最大化するための様々なモデルと特徴工学的アプローチを含む。
本研究は,鳥類種を分類する手法の有効性を示し,同様のタスクにおける伝達学習と半教師付きデータセットアノテーションの可能性を強調した。 We present working notes on transfer learning with semi-supervised dataset annotation for the BirdCLEF 2023 competition, focused on identifying African bird species in recorded soundscapes. Our approach utilizes existing off-the-shelf models, BirdNET and MixIT, to address representation and labeling challenges in the competition. We explore the embedding space learned by BirdNET and propose a process to derive an annotated dataset for supervised learning. Our experiments involve various models and feature engineering approaches to maximize performance on the competition leaderboard. The results demonstrate the effectiveness of our approach in classifying bird species and highlight the potential of transfer learning and semi-supervised dataset annotation in similar tasks. | 翻訳日:2023-06-30 14:18:37 公開日:2023-06-29 |
# saaformer : 超スペクトル画像分類のためのスペクトル-空間アキシャルアグリゲーショントランス SaaFormer: Spectral-spatial Axial Aggregation Transformer for Hyperspectral Image Classification ( http://arxiv.org/abs/2306.16759v1 ) ライセンス: Link先を確認 | Enzhe Zhao, Zhichang Guo, Yao Li, Dazhi Zhang | (参考訳) 地球の観測衛星や航空機から撮影したハイパースペクトル画像(HSI)は、農業、環境モニタリング、鉱業などの分野でますます重要になっている。
利用可能なハイパースペクトルデータセットが限られているため、pixel-wise random samplingは最も一般的に使用されるトレーニング-テストデータセット分割アプローチであり、トレーニングとテストデータセットのサンプル間にかなりの重複がある。
さらに,より重なりが強い領域は分類精度が高いことが実験的に示唆された。
したがって、画素単位のランダムサンプリングアプローチは、データ漏洩のリスクをもたらす。
そこで本研究では,データ漏洩の可能性を最小限に抑えるブロックワイズサンプリング手法を提案する。
また,2dcnnなどのモデルにおけるデータ漏洩の存在も実験的に確認した。
さらに,HSIを長周期3次元画像とみなす超スペクトル画像分類器の課題に対処するため,スペクトル空間軸アグリゲーショントランスフォーマモデル,すなわちSaaFormerを提案する。
このモデルは軸集約注意と多値スペクトル空間抽出の2つの主成分からなる。
この軸集約注意機構は、空間的次元特徴を集約しながら、ハイパースペクトル画像の各画素位置におけるスペクトル帯域間の連続性と相関を効果的に活用する。
これにより、SaaFormerはブロックワイドサンプリングでも高い精度を維持することができる。
多層スペクトル空間抽出構造は、異なる物質成分の特定のスペクトル帯域に対する感度を捉え、より広範囲のスペクトル詳細に集中できるように設計されている。
6つの公開データセットの結果から,本モデルではランダムサンプリングでは同等の性能を示し,ブロックワイドサンプリングパーティションでは他の手法よりも優れていた。 Hyperspectral images (HSI) captured from earth observing satellites and aircraft is becoming increasingly important for applications in agriculture, environmental monitoring, mining, etc. Due to the limited available hyperspectral datasets, the pixel-wise random sampling is the most commonly used training-test dataset partition approach, which has significant overlap between samples in training and test datasets. Furthermore, our experimental observations indicates that regions with larger overlap often exhibit higher classification accuracy. Consequently, the pixel-wise random sampling approach poses a risk of data leakage. Thus, we propose a block-wise sampling method to minimize the potential for data leakage. Our experimental findings also confirm the presence of data leakage in models such as 2DCNN. Further, We propose a spectral-spatial axial aggregation transformer model, namely SaaFormer, to address the challenges associated with hyperspectral image classifier that considers HSI as long sequential three-dimensional images. The model comprises two primary components: axial aggregation attention and multi-level spectral-spatial extraction. The axial aggregation attention mechanism effectively exploits the continuity and correlation among spectral bands at each pixel position in hyperspectral images, while aggregating spatial dimension features. This enables SaaFormer to maintain high precision even under block-wise sampling. The multi-level spectral-spatial extraction structure is designed to capture the sensitivity of different material components to specific spectral bands, allowing the model to focus on a broader range of spectral details. The results on six publicly available datasets demonstrate that our model exhibits comparable performance when using random sampling, while significantly outperforming other methods when employing block-wise sampling partition. | 翻訳日:2023-06-30 14:18:24 公開日:2023-06-29 |
# マルチタイム量子通信:興味深いが反現実的ではない」へのコメント Comment on "Multitime quantum communication: Interesting but not counterfactual" ( http://arxiv.org/abs/2306.16756v1 ) ライセンス: Link先を確認 | Lev Vaidman | (参考訳) 最近の論文で、Robert Griffiths (Phys. Rev. A 107, 062219 (2023))は、Salihらによって導入された2つの政党間での情報伝達プロトコルを分析した。
[Phys.Rev.110, 170502(2013)]
このプロトコルのカウンターファクトリティについてかなりの議論があり、グリフィスは「コースト」と呼ばれる新しいチャネル利用の尺度を導入することでそれを解決することを提案した。
この措置が適切ではないのは, 対実性の概念の定義のきっかけとなった, もともとの対話自由度測定プロトコルが, 対実性の定義に反するものではないからである。 In a recent paper, Robert Griffiths [Phys. Rev. A 107, 062219 (2023)] analyzed a protocol for transmission of information between two parties introduced by Salih et al. [Phys. Rev. Lett. 110, 170502 (2013)]. There is a considerable controversy about the counterfactuality of this protocol, and Griffiths suggested to resolve it by introducing a new measure of channel usage, which he called "Cost". I argue that this measure is not appropriate because the original interaction-free measurement protocol which triggered the definition of the concept of counterfactuality is not counterfactual according to this measure. | 翻訳日:2023-06-30 14:17:57 公開日:2023-06-29 |
# 時間差動の固有部分空間と強化学習における価値近似の改善 Eigensubspace of Temporal-Difference Dynamics and How It Improves Value Approximation in Reinforcement Learning ( http://arxiv.org/abs/2306.16750v1 ) ライセンス: Link先を確認 | Qiang He and Tianyi Zhou and Meng Fang and Setareh Maghsudi | (参考訳) 深部強化学習(RL)のための新しい値近似法,すなわち固有部分空間正規化批判(ERC)を提案する。
ERCは、マルコフ決定プロセス(MDP)に関連する遷移カーネルの1-固有部分空間で定義される経路に従う、時間差分法(TD)法におけるQ値近似誤差のダイナミクスの解析によって動機付けられる。
これは、以前のdeep rlアプローチで使われていないtd学習の基本特性を明らかにする。
ercでは、1-固有部分空間に傾向を持つ近似誤差を導く正則化器を提案し、より効率的で安定な値近似経路を導出する。
さらに、理論的にERC法の収束を証明した。
さらに、理論的解析と実験により、ERCは値関数の分散を効果的に減少させることを示した。
DMControlベンチマークの26のタスクのうち、ERCは20の最先端メソッドよりも優れています。
さらに、Q値近似と分散還元において大きな利点を示す。
私たちのコードはhttps://sites.google.com/view/erc-ecml23/で利用可能です。 We propose a novel value approximation method, namely Eigensubspace Regularized Critic (ERC) for deep reinforcement learning (RL). ERC is motivated by an analysis of the dynamics of Q-value approximation error in the Temporal-Difference (TD) method, which follows a path defined by the 1-eigensubspace of the transition kernel associated with the Markov Decision Process (MDP). It reveals a fundamental property of TD learning that has remained unused in previous deep RL approaches. In ERC, we propose a regularizer that guides the approximation error tending towards the 1-eigensubspace, resulting in a more efficient and stable path of value approximation. Moreover, we theoretically prove the convergence of the ERC method. Besides, theoretical analysis and experiments demonstrate that ERC effectively reduces the variance of value functions. Among 26 tasks in the DMControl benchmark, ERC outperforms state-of-the-art methods for 20. Besides, it shows significant advantages in Q-value approximation and variance reduction. Our code is available at https://sites.google.com/view/erc-ecml23/. | 翻訳日:2023-06-30 14:17:46 公開日:2023-06-29 |
# 大規模自己監視プリトレインによる内視鏡映像解析の基礎モデル Foundation Model for Endoscopy Video Analysis via Large-scale Self-supervised Pre-train ( http://arxiv.org/abs/2306.16741v1 ) ライセンス: Link先を確認 | Zhao Wang, Chang Liu, Shaoting Zhang, Qi Dou | (参考訳) 基礎モデルは、疾患診断やテキストレポート生成など、様々な応用で顕著な成功を収めている。
現在まで,内視鏡的映像解析の基礎モデルが欠落している。
本稿では,大規模な内視鏡映像データを用いた基礎モデルであるEndo-FMを提案する。
まず,空間的および時間的次元にまたがる局所的および大域的長距離依存性をキャプチャするビデオトランスフォーマーを構築する。
第2に,グローバルおよびローカルビューを用いたトランスフォーマーモデルの事前学習を行い,空間的・時間的変動に頑健にし,異なる場面で識別できるようにする。
基礎モデルを開発するために,上海の蓮華病院の青山支部から収集した9つの公開データセットとプライベートデータセットを組み合わせることで,大規模内視鏡映像データセットを構築した。
私たちのデータセット全体は、最大500万フレームの33Kビデオクリップで構成されており、さまざまなプロトコル、対象臓器、疾患タイプが含まれています。
トレーニング済みのEndo-FMは、バックボーンとして機能し、微調整により、所定のダウンストリームタスクに容易に適用できる。
分類,セグメンテーション,検出を含む3種類のダウンストリームタスクの実験により,私たちのEndo-FMは,VCL(3.1% F1,4.8% Dice,5.5% F1,5.9% F1)やST-Adapter(5.9% F1,9.6% Dice,9.9% F1など,最先端の自己指導型事前学習およびアダプタベースのトランスファー学習手法をはるかに超えた。
コード、データセット、モデルはhttps://github.com/med-air/Endo-FMでリリースされている。 Foundation models have exhibited remarkable success in various applications, such as disease diagnosis and text report generation. To date, a foundation model for endoscopic video analysis is still lacking. In this paper, we propose Endo-FM, a foundation model specifically developed using massive endoscopic video data. First, we build a video transformer, which captures both local and global long-range dependencies across spatial and temporal dimensions. Second, we pre-train our transformer model using global and local views via a self-supervised manner, aiming to make it robust to spatial-temporal variations and discriminative across different scenes. To develop the foundation model, we construct a large-scale endoscopy video dataset by combining 9 publicly available datasets and a privately collected dataset from Baoshan Branch of Renji Hospital in Shanghai, China. Our dataset overall consists of over 33K video clips with up to 5 million frames, encompassing various protocols, target organs, and disease types. Our pre-trained Endo-FM can be easily adopted for a given downtream task via fine-tuning by serving as the backbone. With experiments on 3 different types of downstream tasks, including classification, segmentation, and detection, our Endo-FM surpasses the current state-of-the-art self-supervised pre-training and adapter-based transfer learning methods by a significant margin, such as VCL (3.1% F1 for classification, 4.8% Dice for segmentation, and 5.5% F1 for detection) and ST-Adapter (5.9% F1 for classification, 9.6% Dice for segmentation, and 9.9% F1 for detection). Code, datasets, and models are released at https://github.com/med-air/Endo-FM. | 翻訳日:2023-06-30 14:17:30 公開日:2023-06-29 |
# ソーシャルロボットナビゲーションアルゴリズムの評価のための原則とガイドライン Principles and Guidelines for Evaluating Social Robot Navigation Algorithms ( http://arxiv.org/abs/2306.16740v1 ) ライセンス: Link先を確認 | Anthony Francis (1), Claudia Perez-D'Arpino (2), Chengshu Li (3), Fei Xia (4), Alexandre Alahi (5), Rachid Alami (15), Aniket Bera (6), Abhijat Biswas (7), Joydeep Biswas (8), Rohan Chandra (8), Hao-Tien Lewis Chiang (4), Michael Everett (10), Sehoon Ha (11), Justin Hart (8), Jonathan P. How (9), Haresh Karnan (8), Tsang-Wei Edward Lee (4), Luis J. Manso (12), Reuth Mirksy (13), Soeren Pirk (14), Phani Teja Singamaneni (15), Peter Stone (8,16), Ada V. Taylor (7), Peter Trautman (17), Nathan Tsoi (18), Marynel Vazquez (18), Xuesu Xiao (19), Peng Xu (4), Naoki Yokoyama (11), Alexander Toshev (20), Roberto Martin-Martin (8) ((1) Logical Robotics, (2) NVIDIA, (3) Stanford, (4) Google, (5) EPFL, (6) Purdue, (7) CMU, (8) UT Austin, (9) MIT, (10) Northeastern, (11) Georgia Tech, (12) Aston, (13) Bar Ilan, (14) Adobe, (15) LAAS-CNRS, Universite de Toulouse, (16) Sony AI, (17) Honda, (18) Yale, (19) GMU, (20) Apple) | (参考訳) ロボットを広く展開する上での最大の課題は、人間の居住環境におけるナビゲーションである。
社会ナビゲーションの分野は近年飛躍的に進歩しているが、静的な環境で動くロボットエージェントだけでなく、ダイナミックな人間エージェントや、ロボットの行動の適切性に対する認識を含むため、社会ナビゲーションに取り組むアルゴリズムの公正な評価は依然として難しいままである。
対照的に、明確で繰り返し可能なベンチマークは、コンピュータビジョン、自然言語処理、従来のロボットナビゲーションといった分野の進歩を加速し、研究者はアルゴリズムを公平に比較し、既存のソリューションの限界を明らかにし、将来有望な新しい方向性を示す。
同じアプローチがソーシャルナビゲーションに有効だと信じています。
本稿では,ソーシャルロボットのナビゲーションを評価するために,共通で広くアクセス可能な,反復可能なベンチマーク基準への道を開く。
私たちの貢献には
(a)安全、快適、適性、礼儀正しさ、社会的能力、エージェントの理解、活動性、文脈に対する応答性の原則を尊重するものとしての社会的ナビゲーティングロボットの定義
(b)ソーシャルナビゲーションを評価するためのメトリクスの使用、シナリオの開発、ベンチマーク、データセット、シミュレータに関するガイドライン
(c) 異なるシミュレータ、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークの設計。 A major challenge to deploying robots widely is navigation in human-populated environments, commonly referred to as social robot navigation. While the field of social navigation has advanced tremendously in recent years, the fair evaluation of algorithms that tackle social navigation remains hard because it involves not just robotic agents moving in static environments but also dynamic human agents and their perceptions of the appropriateness of robot behavior. In contrast, clear, repeatable, and accessible benchmarks have accelerated progress in fields like computer vision, natural language processing and traditional robot navigation by enabling researchers to fairly compare algorithms, revealing limitations of existing solutions and illuminating promising new directions. We believe the same approach can benefit social navigation. In this paper, we pave the road towards common, widely accessible, and repeatable benchmarking criteria to evaluate social robot navigation. Our contributions include (a) a definition of a socially navigating robot as one that respects the principles of safety, comfort, legibility, politeness, social competency, agent understanding, proactivity, and responsiveness to context, (b) guidelines for the use of metrics, development of scenarios, benchmarks, datasets, and simulators to evaluate social navigation, and (c) a design of a social navigation metrics framework to make it easier to compare results from different simulators, robots and datasets. | 翻訳日:2023-06-30 14:16:57 公開日:2023-06-29 |
# 量子アニーラを用いた弦モデルの構築 String Model Building on Quantum Annealers ( http://arxiv.org/abs/2306.16801v1 ) ライセンス: Link先を確認 | Steven A. Abel, Luca A. Nutricati, John Rizos | (参考訳) 量子アニーラ上での弦模型の直接構築を初めて検討し,モデル発見過程におけるその効率と有効性について検討した。
シミュレーションアニール、ランダムスキャン、遺伝的アルゴリズムといった従来の手法と徹底的に比較することで、量子アニールがもたらす潜在的な利点を強調し、この研究はランダムスキャンや遺伝的アルゴリズムの約50倍、シミュレーションアニールの約4倍の速さを約束する。 We explore for the first time the direct construction of string models on quantum annealers, and investigate their efficiency and effectiveness in the model discovery process. Through a thorough comparison with traditional methods such as simulated annealing, random scans, and genetic algorithms, we highlight the potential advantages offered by quantum annealers, which in this study promised to be roughly fifty times faster than random scans and genetic algorithm and approximately four times faster than simulated annealing. | 翻訳日:2023-06-30 14:10:05 公開日:2023-06-29 |
# LeanAI:AI実装を効果的に計画するAEC実践者のための方法 LeanAI: A method for AEC practitioners to effectively plan AI implementations ( http://arxiv.org/abs/2306.16799v1 ) ライセンス: Link先を確認 | Ashwin Agrawal, Vishal Singh, and Martin Fischer | (参考訳) 人工知能(AI)の最近の発展は、建築、工学、建設(AEC)業界において前例のない自動化の機会を提供する。
しかし、AIの使用に関する熱意にもかかわらず、現在のビッグデータプロジェクトの85%は失敗している。
AEC業界でAIプロジェクトが失敗する主な理由の1つは、AIの計画や使用を決定した人とそれを実装する人との接続の切断である。
AECの実践者は、AIの能力と限界を明確に理解していないことが多く、AIが解決すべきもの、解決すべきもの、解決すべきものを明確に区別することができない。
この理解の欠如は、ai計画が解決できるかどうかを考慮せずに、aiが何を解決するべきかというビジョンに基づいているため、ai計画と実装の切り離しに繋がる。
この課題に対処するために、この研究はLeanAIメソッドを導入している。
この手法は、50時間以上のインタビューデータを含むAEC産業におけるAI実装の分析を継続するいくつかの縦断研究のデータを用いて開発されている。
LeanAIメソッドは、AIが解決すべきもの、解決すべきもの、解決すべきものについて記述し、実践者が関連するステークホルダーを巻き込むことで、計画プロセスの初期段階でこれらのコンポーネントを明確に表現することを強制する。
この方法を利用することで、実践者はAI実装を効果的に計画し、成功の可能性を高め、最終的にはAIの採用をスピードアップすることができる。
ケース例は、メソッドの有用性を例示します。 Recent developments in Artificial Intelligence (AI) provide unprecedented automation opportunities in the Architecture, Engineering, and Construction (AEC) industry. However, despite the enthusiasm regarding the use of AI, 85% of current big data projects fail. One of the main reasons for AI project failures in the AEC industry is the disconnect between those who plan or decide to use AI and those who implement it. AEC practitioners often lack a clear understanding of the capabilities and limitations of AI, leading to a failure to distinguish between what AI should solve, what it can solve, and what it will solve, treating these categories as if they are interchangeable. This lack of understanding results in the disconnect between AI planning and implementation because the planning is based on a vision of what AI should solve without considering if it can or will solve it. To address this challenge, this work introduces the LeanAI method. The method has been developed using data from several ongoing longitudinal studies analyzing AI implementations in the AEC industry, which involved 50+ hours of interview data. The LeanAI method delineates what AI should solve, what it can solve, and what it will solve, forcing practitioners to clearly articulate these components early in the planning process itself by involving the relevant stakeholders. By utilizing the method, practitioners can effectively plan AI implementations, thus increasing the likelihood of success and ultimately speeding up the adoption of AI. A case example illustrates the usefulness of the method. | 翻訳日:2023-06-30 14:09:50 公開日:2023-06-29 |
# AR用配向バウンディングボックスを用いた物体検出における環境条件の評価 Evaluation of Environmental Conditions on Object Detection using Oriented Bounding Boxes for AR Applications ( http://arxiv.org/abs/2306.16798v1 ) ライセンス: Link先を確認 | Vladislav Li, Barbara Villarini, Jean-Christophe Nebel, Thomas Lagkas, Panagiotis Sarigiannidis, Vasileios Argyriou | (参考訳) 拡張現実(AR)の目的は、ユーザーと環境の間のインタラクティブな体験を作り出すために、自然画像やビデオにデジタルコンテンツを追加することである。
シーン分析と物体認識はARにおいて重要な役割を担っている。
本研究では,向き付けられた境界ボックスを用いたディープネットワークの検出と認識を行い,性能と処理時間を改善する新しい手法を提案する。
このアプローチは、コンピュータビジョンタスクで一般的に使用される実画像データセット(dotaデータセット)と、異なる環境、照明、取得条件をシミュレートする合成データセットの2つのデータセットを用いて評価される。
評価の焦点は、検出や認識が難しい小さなオブジェクトである。
その結果, 提案手法は, 試験条件のほとんどにおいて, 平均精度と小型物体の精度が向上する傾向にあることがわかった。 The objective of augmented reality (AR) is to add digital content to natural images and videos to create an interactive experience between the user and the environment. Scene analysis and object recognition play a crucial role in AR, as they must be performed quickly and accurately. In this study, a new approach is proposed that involves using oriented bounding boxes with a detection and recognition deep network to improve performance and processing time. The approach is evaluated using two datasets: a real image dataset (DOTA dataset) commonly used for computer vision tasks, and a synthetic dataset that simulates different environmental, lighting, and acquisition conditions. The focus of the evaluation is on small objects, which are difficult to detect and recognise. The results indicate that the proposed approach tends to produce better Average Precision and greater accuracy for small objects in most of the tested conditions. | 翻訳日:2023-06-30 14:08:51 公開日:2023-06-29 |
# 条件付き生成のための大規模言語モデル機能のベンチマーク Benchmarking Large Language Model Capabilities for Conditional Generation ( http://arxiv.org/abs/2306.16793v1 ) ライセンス: Link先を確認 | Joshua Maynez, Priyanka Agrawal, Sebastian Gehrmann | (参考訳) 事前訓練された大規模言語モデル(PLM)は、自然言語処理における最も新しい発展を支えている。
彼らはフィールドをアプリケーション固有のモデルパイプラインから、幅広いタスクに適応した単一のモデルに移行した。
GPT-3 や PaLM のような自己回帰型 PLM は、少数ショット学習のような手法とともに、出力のモダリティを分類や回帰ではなく生成にシフトしている。
ユビキタスな使用にもかかわらず、これらのモデルを導入する際に言語モデルの生成品質を評価することは滅多にない。
さらに、既存の世代のタスク - 高いレベルでシステムを比較するために使用できる - が、人々が採用している実際のユースケースとどのように異なるのかは不明だ。
本研究では,既存のアプリケーション固有の生成ベンチマークをPLMに適用し,スケール,アーキテクチャ,入力,出力言語といった次元に沿った自然言語生成タスクにおけるPLMの限界と能力について,詳細な実証的研究を行う。
以上の結果から,plmは異なるデータレジームに適用し,複数の言語に一般化し,与えられたタスク設定にどのplmを使用するべきかを知らせる。
今後のplmの開発において、生成能力をベンチマークする場合に考慮すべきベストプラクティスを共有します。 Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like few-shot learning, have additionally shifted the output modality to generation instead of classification or regression. Despite their ubiquitous use, the generation quality of language models is rarely evaluated when these models are introduced. Additionally, it is unclear how existing generation tasks--while they can be used to compare systems at a high level--relate to the real world use cases for which people have been adopting them. In this work, we discuss how to adapt existing application-specific generation benchmarks to PLMs and provide an in-depth, empirical study of the limitations and capabilities of PLMs in natural language generation tasks along dimensions such as scale, architecture, input and output language. Our results show that PLMs differ in their applicability to different data regimes and their generalization to multiple languages and inform which PLMs to use for a given generation task setup. We share best practices to be taken into consideration when benchmarking generation capabilities during the development of upcoming PLMs. | 翻訳日:2023-06-30 14:08:22 公開日:2023-06-29 |
# Sparse Model Soups: モデル平均化によるプルニング改善のためのレシピ Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging ( http://arxiv.org/abs/2306.16788v1 ) ライセンス: Link先を確認 | Max Zimmer, Christoph Spiegel, Sebastian Pokutta | (参考訳) ニューラルネットワークはプルーニングによって著しく圧縮され、予測性能を維持しながら、ストレージと浮動小数点演算をかなり少なくする必要のあるスパースモデルとなる。
モデルスープ(wortsman et al., 2022)は、推論時間を増加させることなく、複数のモデルのパラメータを1つに平均することで、一般化と分散性能を向上させる。
しかし, 任意のスパースモデルの平均化は, 疎結合性の違いによる全体の疎度を減少させるため, 疎度とパラメータ平均化の両面を活用した同一損失盆地内のモデル同定は困難である。
本稿では,バッチ順序付けや重みの減衰といったハイパーパラメータ構成の異なる反復的マグニチュードプルーニング(imp)の単回再訓練フェーズを探索することで,平均化に適したモデルを作成し,設計により疎結合性を共有することを実証する。
これらのモデルを平均すると、個々のコンポーネントと比較して一般化性能が大幅に向上する。
このアイデアに基づいて,各プルー・リトレインサイクルを前フェーズの平均モデルで開始することによりスパースモデルをマージする新しい手法であるスパースモデルスープ(SMS)を導入する。
SMSはスパース性を維持し、モジュールで完全に並列化可能なネットワークの利点を生かし、IMPのパフォーマンスを大幅に改善する。
さらに,SMSは,トレーニングアプローチにおける最先端プルーニングの性能向上に有効であることを示す。 Neural networks can be significantly compressed by pruning, leading to sparse models requiring considerably less storage and floating-point operations while maintaining predictive performance. Model soups (Wortsman et al., 2022) improve generalization and out-of-distribution performance by averaging the parameters of multiple models into a single one without increased inference time. However, identifying models in the same loss basin to leverage both sparsity and parameter averaging is challenging, as averaging arbitrary sparse models reduces the overall sparsity due to differing sparse connectivities. In this work, we address these challenges by demonstrating that exploring a single retraining phase of Iterative Magnitude Pruning (IMP) with varying hyperparameter configurations, such as batch ordering or weight decay, produces models that are suitable for averaging and share the same sparse connectivity by design. Averaging these models significantly enhances generalization performance compared to their individual components. Building on this idea, we introduce Sparse Model Soups (SMS), a novel method for merging sparse models by initiating each prune-retrain cycle with the averaged model of the previous phase. SMS maintains sparsity, exploits sparse network benefits being modular and fully parallelizable, and substantially improves IMP's performance. Additionally, we demonstrate that SMS can be adapted to enhance the performance of state-of-the-art pruning during training approaches. | 翻訳日:2023-06-30 14:08:02 公開日:2023-06-29 |
# 自動運転車の意思決定のためのデータセットに関する調査 A Survey on Datasets for Decision-making of Autonomous Vehicle ( http://arxiv.org/abs/2306.16784v1 ) ライセンス: Link先を確認 | Yuning Wang, Zeyu Han, Yining Xing, Shaobing Xu, Jianqiang Wang | (参考訳) 自動運転車(av)は将来の輸送システムを再構築することが期待されており、意思決定は高レベルの自動運転に向けた重要なモジュールの1つである。
ルールベースの手法がうまく対応できないような複雑なシナリオを克服するために、データ駆動型意思決定アプローチはますます焦点を絞っている。
データ駆動手法の開発に使用されるデータセットは、意思決定のパフォーマンスに劇的に影響を与えるため、既存のデータセットに関する包括的な洞察を得ることが必要である。
収集源の観点からは、運転データを車、環境、運転者関連データに分割することができる。
本研究では,これら3つのカテゴリの最先端データセットを比較し,使用するセンサ,アノテーション,運転シナリオなどの特徴を要約する。
データセットの特徴に基づいて、av意思決定のさまざまな側面におけるデータセットの潜在的応用も結論付け、研究者が独自の研究を支援する適切なデータセットを見つけるのを支援する。
avデータセット開発の今後の動向を概説する。 Autonomous vehicles (AV) are expected to reshape future transportation systems, and decision-making is one of the critical modules toward high-level automated driving. To overcome those complicated scenarios that rule-based methods could not cope with well, data-driven decision-making approaches have aroused more and more focus. The datasets to be used in developing data-driven methods dramatically influences the performance of decision-making, hence it is necessary to have a comprehensive insight into the existing datasets. From the aspects of collection sources, driving data can be divided into vehicle, environment, and driver related data. This study compares the state-of-the-art datasets of these three categories and summarizes their features including sensors used, annotation, and driving scenarios. Based on the characteristics of the datasets, this survey also concludes the potential applications of datasets on various aspects of AV decision-making, assisting researchers to find appropriate ones to support their own research. The future trends of AV dataset development are summarized. | 翻訳日:2023-06-30 14:07:33 公開日:2023-06-29 |
# 周波数領域における低光度強調 Low-Light Enhancement in the Frequency Domain ( http://arxiv.org/abs/2306.16782v1 ) ライセンス: Link先を確認 | Hao Chen and Zhi Jin | (参考訳) 低照度画像には、可視性、高密度ノイズ、偏光色がよく見られる。
これらの視覚障害は、オブジェクト検出や追跡といった高レベルの視覚タスクの性能をさらに低下させる。
この問題に対処するために,画像コントラストを増大させるための画像強調手法がいくつか提案されている。
しかし,そのほとんどは空間領域にのみ実装されており,ノイズ信号の影響を強く受けることができる。
そこで本研究では,周波数領域で学習した残差再帰型マルチウェーブレット畳み込みニューラルネットワークr2-mwcnnを提案する。
このエンドツーエンドのトレーニング可能なネットワークは、入力特徴マップを異なる周波数に分割するためにマルチレベル離散ウェーブレット変換を利用する。
より現実的な結果を得るために,色歪みを補正するチャネルワイズ損失関数を提案する。
実験の結果,提案したR2-MWCNNは,最先端の手法よりも定量的かつ定性的に優れていることがわかった。 Decreased visibility, intensive noise, and biased color are the common problems existing in low-light images. These visual disturbances further reduce the performance of high-level vision tasks, such as object detection, and tracking. To address this issue, some image enhancement methods have been proposed to increase the image contrast. However, most of them are implemented only in the spatial domain, which can be severely influenced by noise signals while enhancing. Hence, in this work, we propose a novel residual recurrent multi-wavelet convolutional neural network R2-MWCNN learned in the frequency domain that can simultaneously increase the image contrast and reduce noise signals well. This end-to-end trainable network utilizes a multi-level discrete wavelet transform to divide input feature maps into distinct frequencies, resulting in a better denoise impact. A channel-wise loss function is proposed to correct the color distortion for more realistic results. Extensive experiments demonstrate that our proposed R2-MWCNN outperforms the state-of-the-art methods quantitively and qualitatively. | 翻訳日:2023-06-30 14:07:17 公開日:2023-06-29 |
# 分子特性予測のためのグラフサンプリングに基づくメタラーニング Graph Sampling-based Meta-Learning for Molecular Property Prediction ( http://arxiv.org/abs/2306.16780v1 ) ライセンス: Link先を確認 | Xiang Zhuang, Qiang Zhang, Bin Wu, Keyan Ding, Yin Fang, Huajun Chen | (参考訳) 分子特性は通常限られた数のサンプルで観察され、研究者は性質予測を数発の問題と見なしている。
先行研究によって無視された重要な事実の1つは、それぞれの分子が複数の異なる性質を同時に記録できることである。
分子と性質の多対多相関を効果的に活用するために,グラフサンプリングに基づくメタラーニング(GS-Meta)フレームワークを提案する。
まず,分子と特性はノードであり,特性ラベルはエッジを決定する。
そして,MPGのトポロジ的情報を利用するため,MPGのサブグラフとしてメタラーニングのエピソードを再構成し,対象特性ノード,分子ノード,補助特性ノードを含む。
第3に,サブグラフ形式におけるエピソード同士の独立性がなくなったため,サブグラフの一貫性と識別を考慮したコントラスト損失関数を用いて,サブグラフサンプリングプロセスをスケジュールすることを提案する。
5つの一般的なベンチマークでの大規模な実験では、GS-MetaはROC-AUCで5.71%-6.93%の最先端の手法を一貫して上回り、提案された各モジュールの有効性を検証する。
私たちのコードはhttps://github.com/hicai-zju/gs-metaで利用可能です。 Molecular property is usually observed with a limited number of samples, and researchers have considered property prediction as a few-shot problem. One important fact that has been ignored by prior works is that each molecule can be recorded with several different properties simultaneously. To effectively utilize many-to-many correlations of molecules and properties, we propose a Graph Sampling-based Meta-learning (GS-Meta) framework for few-shot molecular property prediction. First, we construct a Molecule-Property relation Graph (MPG): molecule and properties are nodes, while property labels decide edges. Then, to utilize the topological information of MPG, we reformulate an episode in meta-learning as a subgraph of the MPG, containing a target property node, molecule nodes, and auxiliary property nodes. Third, as episodes in the form of subgraphs are no longer independent of each other, we propose to schedule the subgraph sampling process with a contrastive loss function, which considers the consistency and discrimination of subgraphs. Extensive experiments on 5 commonly-used benchmarks show GS-Meta consistently outperforms state-of-the-art methods by 5.71%-6.93% in ROC-AUC and verify the effectiveness of each proposed module. Our code is available at https://github.com/HICAI-ZJU/GS-Meta. | 翻訳日:2023-06-30 14:07:00 公開日:2023-06-29 |
# stop pre-training: 視覚言語モデルを未認識言語に適応させる Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages ( http://arxiv.org/abs/2306.16774v1 ) ライセンス: Link先を確認 | Yasmine Karoui, R\'emi Lebret, Negar Foroutan, Karl Aberer | (参考訳) VLP(Vision-Language Pre-Training)は、画像テキスト検索、視覚的エンターテイメント、視覚的推論など、多くの視覚言語タスクのパフォーマンスを向上させる。
事前学習は主に英語の語彙データベースと画像クエリを利用する。
以前の研究は、英語の事前学習がゼロショット設定で他の言語にうまく移行しないことを示した。
しかし、多言語事前訓練言語モデル(MPLM)は、様々な単一モーダル言語タスクにおいて優れている。
本稿では,MPLMを用いてVLPを未知の言語に適応させる手法を提案する。
非英語言語に対するテキストエンコーダの訓練には,言語間コンテキスト化トークン埋め込み方式を用いる。
我々のアプローチは画像入力を必要とせず、主に機械翻訳を使用し、対象言語データの必要性をなくす。
本稿では,3つのタスク(画像テキスト検索,視覚的エンターメント,自然言語の視覚的推論)に対して,この手法が並列コーパスを大きく必要とせず,最先端の多言語視覚言語モデルよりも優れていることを示す。
私たちのコードはhttps://github.com/yasminekaroui/clicoteaで利用可能です。 Vision-Language Pre-training (VLP) has advanced the performance of many vision-language tasks, such as image-text retrieval, visual entailment, and visual reasoning. The pre-training mostly utilizes lexical databases and image queries in English. Previous work has demonstrated that the pre-training in English does not transfer well to other languages in a zero-shot setting. However, multilingual pre-trained language models (MPLM) have excelled at a variety of single-modal language tasks. In this paper, we propose a simple yet efficient approach to adapt VLP to unseen languages using MPLM. We utilize a cross-lingual contextualized token embeddings alignment approach to train text encoders for non-English languages. Our approach does not require image input and primarily uses machine translation, eliminating the need for target language data. Our evaluation across three distinct tasks (image-text retrieval, visual entailment, and natural language visual reasoning) demonstrates that this approach outperforms the state-of-the-art multilingual vision-language models without requiring large parallel corpora. Our code is available at https://github.com/Yasminekaroui/CliCoTea. | 翻訳日:2023-06-30 14:06:36 公開日:2023-06-29 |
# シンセティック・ヒューマングループ活動から学ぶ Learning from Synthetic Human Group Activities ( http://arxiv.org/abs/2306.16772v1 ) ライセンス: Link先を確認 | Che-Jui Chang, Honglu Zhou, Parth Goel, Aditya Bhat, Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic, Mubbasir Kapadia | (参考訳) 複雑なヒューマンインタラクションとグループアクティビティの理解は、人間中心のコンピュータビジョンにおいて注目を集めている。
しかし,大規模ラベル付き実世界のデータセットの取得が困難であるため,関連タスクの進行が妨げられている。
この問題を軽減するために,マルチビューマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティ・データジェネレータであるM3Actを提案する。
Unityエンジンによって駆動されるM3Actには、シミュレーション可能な3Dシーンと人的資産、設定可能な照明とカメラシステム、高度にパラメータ化されたモジュラグループアクティビティ、データ生成プロセス中のドメインランダム化が含まれている。
我々のデータジェネレータは、複数の視点、モダリティ(RGB画像、2Dポーズ、3Dモーション)、個人と多人数グループ(2Dバウンディングボックス、2Dセグメンテーションマスク、個別アクション、グループアクティビティカテゴリ)の大規模データセットを生成することができる。
M3Actを用いて2次元骨格に基づくグループ行動認識とRGBに基づく多人数ポーズトラッキングのための合成データ事前学習を行う。
その結果,本合成データセットからの学習により,実世界のデータセットにおけるモデル性能が大幅に向上し,cad2上では5.59%,7.32%,hieveでは6.63%向上した。
合成データによる事前トレーニングは、下流タスク(最大6.8%)におけるモデル収束を高速化する。
さらに、M3Actは3Dグループ活動生成のための新しい研究課題を開く。
m3act3dは87.6時間の3dモーションデータセットで、従来のマルチパーソンデータセットよりもグループサイズが大きく、人間インタラクションの複雑さが高い。
複数のメトリクスを定義し、新しいタスクの競争基準を提案する。 The understanding of complex human interactions and group activities has garnered attention in human-centric computer vision. However, the advancement of the related tasks is hindered due to the difficulty of obtaining large-scale labeled real-world datasets. To mitigate the issue, we propose M3Act, a multi-view multi-group multi-person human atomic action and group activity data generator. Powered by the Unity engine, M3Act contains simulation-ready 3D scenes and human assets, configurable lighting and camera systems, highly parameterized modular group activities, and a large degree of domain randomization during the data generation process. Our data generator is capable of generating large-scale datasets of human activities with multiple viewpoints, modalities (RGB images, 2D poses, 3D motions), and high-quality annotations for individual persons and multi-person groups (2D bounding boxes, instance segmentation masks, individual actions and group activity categories). Using M3Act, we perform synthetic data pre-training for 2D skeleton-based group activity recognition and RGB-based multi-person pose tracking. The results indicate that learning from our synthetic datasets largely improves the model performances on real-world datasets, with the highest gain of 5.59% and 7.32% respectively in group and person recognition accuracy on CAD2, as well as an improvement of 6.63 in MOTP on HiEve. Pre-training with our synthetic data also leads to faster model convergence on downstream tasks (up to 6.8% faster). Moreover, M3Act opens new research problems for 3D group activity generation. We release M3Act3D, an 87.6-hour 3D motion dataset of human activities with larger group sizes and higher complexity of inter-person interactions than previous multi-person datasets. We define multiple metrics and propose a competitive baseline for the novel task. | 翻訳日:2023-06-30 14:06:14 公開日:2023-06-29 |
# 天文光学望遠鏡のインテリジェンス:現状と今後の展望 Intelligence of Astronomical Optical Telescope: Present Status and Future Perspectives ( http://arxiv.org/abs/2306.16834v1 ) ライセンス: Link先を確認 | Tianzhu Hu, Kang Huang, Jingyi Cai, Xiushan Pang, Yonghui Hou, Yong Zhang, Huaiqing Wang, Xiangqun Cui | (参考訳) 人工知能技術は天文学で広く使われており、新しい人工知能技術や応用シナリオが常に出現している。
天文学における人工知能技術の応用について、多くの論文がレビューされている。
しかし、関連する記事は望遠鏡の知能を別々に言及することがほとんどなく、これらの論文から望遠鏡の知性の現状と研究のホットスポットを理解することは困難である。
本稿では、人工知能技術の発展史と望遠鏡の重要技術の難しさを融合し、望遠鏡インテリジェンスの開発と研究のホットスポットを包括的に紹介するとともに、望遠鏡インテリジェンスの様々な研究方向に関する統計的分析を行い、研究方向のメリットを定義した。
様々な研究方向が評価され、各望遠鏡の知能の研究動向が指摘されている。
最後に、人工知能技術の利点と望遠鏡の開発動向により、将来の望遠鏡インテリジェンスの研究ホットスポットが与えられる。 Artificial intelligence technology has been widely used in astronomy, and new artificial intelligence technologies and application scenarios are constantly emerging. There have been a large number of papers reviewing the application of artificial intelligence technology in astronomy. However, relevant articles seldom mention telescope intelligence separately, and it is difficult to understand the current development status and research hotspots of telescope intelligence from these papers. This paper combines the development history of artificial intelligence technology and the difficulties of critical technologies of telescopes, comprehensively introduces the development and research hotspots of telescope intelligence, then conducts statistical analysis on various research directions of telescope intelligence and defines the research directions' merits. All kinds of research directions are evaluated, and the research trend of each telescope's intelligence is pointed out. Finally, according to the advantages of artificial intelligence technology and the development trend of telescopes, future research hotspots of telescope intelligence are given. | 翻訳日:2023-06-30 14:00:16 公開日:2023-06-29 |
# テンソルネットワーク状態とモンテカルロサンプリングを用いた古典的量子基底状態生成 Classical-Assisted Quantum Ground State Preparation with Tensor Network States and Monte Carlo Sampling ( http://arxiv.org/abs/2306.16831v1 ) ライセンス: Link先を確認 | Feng-Yu Le, Zhao-Yun Chen, Lu Wang, Cheng Xue, Chao Wang, Yong-Jian Han, Yu-Chun Wu, Qing Yan, Shaojun Dong, and Guo-Ping Guo | (参考訳) 量子コンピューティングは凝縮マッター物理と化学において基底状態を見つけるための潜在的な解決策を提供する。
しかし、実効的な基底状態の準備は任意のハミルトニアンにとって計算的に難しい。
真の基底状態と非自明な重なり合いの試行状態を作成することを含め、この問題を効率的に解くためには、ある仮定を提案する必要がある。
本稿では,量子多体系の古典的支援による量子基底状態生成法を提案し,テンソルネットワーク状態 (tns) とモンテカルロサンプリング (mc) を組み合わせて,実基底状態と非自明な重なりを持つ試行状態を作成する。
初期のフォールトトレラント量子コンピュータ上で量子アルゴリズムによって効率的に作成できるtnsをサンプリングして、スパーストライアル状態を抽出する。
本手法は, 実地状態と実地状態との重なり合いをランダムな試行状態と比較して多項式的に改善することを示し, スピン-1/2$$J_1$-$J_2$Heisenbergモデルで数値実験を行った。
さらに,本手法は古典的数値法と量子アルゴリズムをハイブリダイズする新しい手法であり,他の分野における基底状態の生成にインスピレーションをもたらす。 Quantum computing offers potential solutions for finding ground states in condensed-matter physics and chemistry. However, achieving effective ground state preparation is also computationally hard for arbitrary Hamiltonians. It is necessary to propose certain assumptions to make this problem efficiently solvable, including preparing a trial state of a non-trivial overlap with the genuine ground state. Here, we propose a classical-assisted quantum ground state preparation method for quantum many-body systems, combining Tensor Network States (TNS) and Monte Carlo (MC) sampling as a heuristic method to prepare a trial state with a non-trivial overlap with the genuine ground state. We extract a sparse trial state by sampling from TNS, which can be efficiently prepared by a quantum algorithm on early fault-tolerant quantum computers. Our method demonstrates a polynomial improvement in scaling of overlap between the trial state and genuine ground state compared to random trial states, as evidenced by numerical tests on the spin-$1/2$ $J_1$-$J_2$ Heisenberg model. Furthermore, our method is a novel approach to hybridize a classical numerical method and a quantum algorithm and brings inspiration to ground state preparation in other fields. | 翻訳日:2023-06-30 13:59:59 公開日:2023-06-29 |
# ディープニューラルネットワークのサンプリング重み Sampling weights of deep neural networks ( http://arxiv.org/abs/2306.16830v1 ) ライセンス: Link先を確認 | Erik Lien Bolager and Iryna Burak and Chinmay Datar and Qing Sun and Felix Dietrich | (参考訳) 完全連結ニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。
教師付き学習では、トレーニングされたネットワークを得るために、内部ネットワークパラメータの反復最適化や勾配計算は不要である。
サンプリングはランダム特徴モデルのアイデアに基づいている。
しかし、例えば正規分布のようなデータ非依存分布の代わりに、教師付き学習問題の入力データと出力トレーニングデータの両方を使用して、浅層ネットワークと深層ネットワークの両方をサンプリングする。
構築したサンプルネットワークが普遍近似であることを示す。
また,本手法は剛体変換や入力データのスケーリングに不変であることを示す。
これは、多くの一般的な前処理技術がもはや不要であることを意味する。
バロン関数の場合、サンプリングされた浅層ネットワークの$L^2$-approximation誤差はニューロン数の平方根によって減少する。
数値実験では、サンプルネットワークは反復的に訓練されたネットワークと同等の精度を達成できるが、桁違いに高速に構築できることを示した。
テストケースでは、OpenMLの分類ベンチマーク、関数空間内のマップを表すニューラル演算子のサンプリング、よく知られたアーキテクチャを用いたトランスファー学習を含む。 We introduce a probability distribution, combined with an efficient sampling algorithm, for weights and biases of fully-connected neural networks. In a supervised learning context, no iterative optimization or gradient computations of internal network parameters are needed to obtain a trained network. The sampling is based on the idea of random feature models. However, instead of a data-agnostic distribution, e.g., a normal distribution, we use both the input and the output training data of the supervised learning problem to sample both shallow and deep networks. We prove that the sampled networks we construct are universal approximators. We also show that our sampling scheme is invariant to rigid body transformations and scaling of the input data. This implies many popular pre-processing techniques are no longer required. For Barron functions, we show that the $L^2$-approximation error of sampled shallow networks decreases with the square root of the number of neurons. In numerical experiments, we demonstrate that sampled networks achieve comparable accuracy as iteratively trained ones, but can be constructed orders of magnitude faster. Our test cases involve a classification benchmark from OpenML, sampling of neural operators to represent maps in function spaces, and transfer learning using well-known architectures. | 翻訳日:2023-06-30 13:59:36 公開日:2023-06-29 |
# SaGess: スケーラブルグラフ生成のための拡散モデルをサンプリングする SaGess: Sampling Graph Denoising Diffusion Model for Scalable Graph Generation ( http://arxiv.org/abs/2306.16827v1 ) ライセンス: Link先を確認 | Stratis Limnios, Praveen Selvaraj, Mihai Cucuringu, Carsten Maple, Gesine Reinert, Andrew Elliott | (参考訳) 近年,特に画像生成における合成データ生成の最先端手法として,拡散生成モデルが注目されている。
これらのアプローチは、表型やグラフデータ生成といった他のアプリケーションでも成功している。
しかし、計算の複雑さのために、今日までこれらの技術のグラフデータへの応用は、分子モデリングで使われるような小さなグラフに限定されてきた。
本稿では,分散モデル (DiGress) を一般化した分割・分散フレームワークで拡張することにより,大規模な実世界のネットワークを生成可能な離散化拡散手法SaGessを提案する。
このアルゴリズムは、ディグレスを訓練するために初期グラフのサブグラフの被覆をサンプリングすることで、より大きなグラフを生成することができる。
その後、SaGessはDiGressによって生成された部分グラフを使用して合成グラフを構築する。
そこで本研究では,合成データと合成データとのグラフ統計を比較することで,いくつかの競合手法に対する合成データの品質評価を行い,それを用いて生成した合成データの有用性を評価し,タスク駆動モデル,すなわちリンク予測を訓練する。
私たちの実験では、sagessはグラフメトリクスとリンク予測タスクの両方において、最先端グラフ生成メソッドの大部分を大きな要因で上回っています。 Over recent years, denoising diffusion generative models have come to be considered as state-of-the-art methods for synthetic data generation, especially in the case of generating images. These approaches have also proved successful in other applications such as tabular and graph data generation. However, due to computational complexity, to this date, the application of these techniques to graph data has been restricted to small graphs, such as those used in molecular modeling. In this paper, we propose SaGess, a discrete denoising diffusion approach, which is able to generate large real-world networks by augmenting a diffusion model (DiGress) with a generalized divide-and-conquer framework. The algorithm is capable of generating larger graphs by sampling a covering of subgraphs of the initial graph in order to train DiGress. SaGess then constructs a synthetic graph using the subgraphs that have been generated by DiGress. We evaluate the quality of the synthetic data sets against several competitor methods by comparing graph statistics between the original and synthetic samples, as well as evaluating the utility of the synthetic data set produced by using it to train a task-driven model, namely link prediction. In our experiments, SaGess, outperforms most of the one-shot state-of-the-art graph generating methods by a significant factor, both on the graph metrics and on the link prediction task. | 翻訳日:2023-06-30 13:59:16 公開日:2023-06-29 |
# ドメイン適応による病院管理の静的予測の長大化 Length of Stay prediction for Hospital Management using Domain Adaptation ( http://arxiv.org/abs/2306.16823v1 ) ライセンス: Link先を確認 | Lyse Naomi Wamba Momo, Nyalleng Moorosi, Elaine O. Nsoesie, Frank Rademakers, Bart De Moor | (参考訳) 入院期間 (LoS) は, 入院の効率的な計画, リソースの割り当て, ケアの改善に利用することができる重要な管理指標である。
過去の患者データと機械学習技術を用いて、LoS予測モデルを開発することができる。
倫理的には、これらのモデルは単位頭部の代わりに患者の退院には使用できないが、効果的な病院計画のための病院管理システムには最も必要である。
したがって, 本システムの設計は, 真の病院環境での作業に適応すべきである。
本研究では,早期入院型LOSを,潜在的ソースドメインから学習した情報を活用するためにドメイン適応を適用して,入院単位の粒度レベルで予測する。
eicu-crdから110,079例,60,492例,集中治療単位8例,9例の時間変動データをそれぞれ抽出した。
これらは、ソースドメインモデルをトレーニングするために、短期記憶と完全に接続されたネットワークに供給され、その重みは、ターゲットドメインでのトレーニングを開始するために部分的にまたは完全に転送された。
重み移動がモデル説明可能性に及ぼす影響を調べるために,Shapley Additive exPlanations (SHAP)アルゴリズムを用いた。
提案した重み移動モデルでは,予測精度(1%から5%)と目標領域の計算時間(最大2時間)が統計的に有意な向上を示した。
提案手法は, 倫理委員会, 計算基盤, 時間によるデータアクセスのプロセスを容易にする病院管理のための適応型臨床意思決定支援システムを提供する。 Inpatient length of stay (LoS) is an important managerial metric which if known in advance can be used to efficiently plan admissions, allocate resources and improve care. Using historical patient data and machine learning techniques, LoS prediction models can be developed. Ethically, these models can not be used for patient discharge in lieu of unit heads but are of utmost necessity for hospital management systems in charge of effective hospital planning. Therefore, the design of the prediction system should be adapted to work in a true hospital setting. In this study, we predict early hospital LoS at the granular level of admission units by applying domain adaptation to leverage information learned from a potential source domain. Time-varying data from 110,079 and 60,492 patient stays to 8 and 9 intensive care units were respectively extracted from eICU-CRD and MIMIC-IV. These were fed into a Long-Short Term Memory and a Fully connected network to train a source domain model, the weights of which were transferred either partially or fully to initiate training in target domains. Shapley Additive exPlanations (SHAP) algorithms were used to study the effect of weight transfer on model explanability. Compared to the benchmark, the proposed weight transfer model showed statistically significant gains in prediction accuracy (between 1% and 5%) as well as computation time (up to 2hrs) for some target domains. The proposed method thus provides an adapted clinical decision support system for hospital management that can ease processes of data access via ethical committee, computation infrastructures and time. | 翻訳日:2023-06-30 13:58:53 公開日:2023-06-29 |
# 逆タンパク質フォールディングのためのグラフデノイング拡散 Graph Denoising Diffusion for Inverse Protein Folding ( http://arxiv.org/abs/2306.16819v1 ) ライセンス: Link先を確認 | Kai Yi, Bingxin Zhou, Yiqing Shen, Pietro Li\`o, Yu Guang Wang | (参考訳) 逆タンパク質折り畳みは、多くの可能なアミノ酸配列が単一の同一のタンパク質バックボーンに折り畳むことができる、固有の一対多のマッピング特性のために難しい。
このタスクは、実行可能な列を識別するだけでなく、潜在的な解の多様性も表す。
しかし、トランスフォーマーベースの自己回帰モデルのような既存の差別モデルでは、多様な可算解をカプセル化することが困難である。
対照的に、拡散確率モデルは、生成的アプローチの新しいジャンルとして、決定されたタンパク質バックボーンの多様な配列候補を生成する可能性がある。
本稿では,逆タンパク質の折り畳みに対する新しい拡散モデルを提案する。そこでは,タンパク質のバックボーンが対応するアミノ酸残基の拡散過程を案内する。
本モデルでは, ノードの物理化学的性質と局所環境に基づくアミノ酸の結合分布を推定する。
さらに, 拡散前処理にアミノ酸置換マトリックスを用い, アミノ酸の生物学的に有意な事前知識をその空間的および逐次的隣人およびそれ自身から符号化することにより, 生成過程のサンプリング空間を減少させる。
本モデルでは, 一般的な塩基配列回復法に対して最先端のパフォーマンスを実現し, 決定されたタンパク質骨格構造に対して, 多様なタンパク質配列を生成できる可能性を示す。 Inverse protein folding is challenging due to its inherent one-to-many mapping characteristic, where numerous possible amino acid sequences can fold into a single, identical protein backbone. This task involves not only identifying viable sequences but also representing the sheer diversity of potential solutions. However, existing discriminative models, such as transformer-based auto-regressive models, struggle to encapsulate the diverse range of plausible solutions. In contrast, diffusion probabilistic models, as an emerging genre of generative approaches, offer the potential to generate a diverse set of sequence candidates for determined protein backbones. We propose a novel graph denoising diffusion model for inverse protein folding, where a given protein backbone guides the diffusion process on the corresponding amino acid residue types. The model infers the joint distribution of amino acids conditioned on the nodes' physiochemical properties and local environment. Moreover, we utilize amino acid replacement matrices for the diffusion forward process, encoding the biologically-meaningful prior knowledge of amino acids from their spatial and sequential neighbors as well as themselves, which reduces the sampling space of the generative process. Our model achieves state-of-the-art performance over a set of popular baseline methods in sequence recovery and exhibits great potential in generating diverse protein sequences for a determined protein backbone structure. | 翻訳日:2023-06-30 13:58:26 公開日:2023-06-29 |
# 時間的アンサンブルによるオンライン連続学習性能と安定性の向上 Improving Online Continual Learning Performance and Stability with Temporal Ensembles ( http://arxiv.org/abs/2306.16817v1 ) ライセンス: Link先を確認 | Albin Soutif--Cormerais, Antonio Carta, Joost Van de Weijer | (参考訳) ニューラルネットワークは、大規模なデータセットで大量のイテレーションをトレーニングする場合、非常に効果的です。
しかし、非定常的なデータストリームでトレーニングされた場合、(1)データの可用性を制限するオンライン設定により、(2)データの非定常的な性質のために悲惨な忘れをし、その性能が低下する。
さらに、最近のいくつかの研究(Caccia et al., 2022; Lange et al., 2023) arXiv:2205.1345(2) は、連続学習で使用されるリプレイ法が、連続的にモデルを評価する際に遭遇する安定性のギャップに悩まされていることを示した。
本稿では,オンライン連続学習の性能と安定性向上のためのモデルアンサンブルの効果について検討する。
オンライン連続学習において,様々なトレーニングタスクから生み出すナレーション的アンサンブルモデルにより,性能が著しく向上していることに気付く。
この観察から,半教師付き学習アンサンブル法からインスピレーションを得た軽量の時間アンサンブルを用いて,実験時の重量(EMA)の指数移動平均を計算し,文献からのいくつかの手法と組み合わせることで,性能と安定性を劇的に向上させることができることを示す。 Neural networks are very effective when trained on large datasets for a large number of iterations. However, when they are trained on non-stationary streams of data and in an online fashion, their performance is reduced (1) by the online setup, which limits the availability of data, (2) due to catastrophic forgetting because of the non-stationary nature of the data. Furthermore, several recent works (Caccia et al., 2022; Lange et al., 2023) arXiv:2205.1345(2) showed that replay methods used in continual learning suffer from the stability gap, encountered when evaluating the model continually (rather than only on task boundaries). In this article, we study the effect of model ensembling as a way to improve performance and stability in online continual learning. We notice that naively ensembling models coming from a variety of training tasks increases the performance in online continual learning considerably. Starting from this observation, and drawing inspirations from semi-supervised learning ensembling methods, we use a lightweight temporal ensemble that computes the exponential moving average of the weights (EMA) at test time, and show that it can drastically increase the performance and stability when used in combination with several methods from the literature. | 翻訳日:2023-06-30 13:58:01 公開日:2023-06-29 |
# 周期的および準周期的駆動型異方性ディッケモデル Periodically and quasiperiodically driven-anisotropic Dicke model ( http://arxiv.org/abs/2306.16809v1 ) ライセンス: Link先を確認 | Pragna Das, Devendra Singh Bhakuni, Lea F. Santosn and Auditya Sharma | (参考訳) 周期駆動の存在下で準周期駆動下での異方性ディッケモデルの解析を行う。
この実験可能なモデルにおける駆動誘起現象の研究は、本格的な多体量子系よりも単純であるが、多くの興味深い特徴を示すのに十分な富があるため重要である。
準周期的フィボナッチ(三重モーゼ)駆動下では, 加熱前の駆動周波数の指数(伸張指数)で増大する予熱プラトーが特徴的である。
対照的に、モデルが周期的に駆動されると、動力学は加熱を受けない台地に達する。
いずれの場合も、プラトー値は初期状態のエネルギーと非駆動ハミルトニアンのパラメータに依存する。
驚いたことに、この値は周期駆動の周波数が減少するにつれて、常に無限温度状態に単調に近づくとは限らない。
また、駆動が量子臨界点をどう修正するかを示し、中間周波数におけるレベル統計の分析に関連するオープンな疑問を議論する。 We analyze the anisotropic Dicke model in the presence of a periodic drive and under a quasiperiodic drive. The study of drive-induced phenomena in this experimentally accesible model is important since although it is simpler than full-fledged many-body quantum systems, it is still rich enough to exhibit many interesting features. We show that under a quasiperiodic Fibonacci (Thue-Morse) drive, the system features a prethermal plateau that increases as an exponential (stretched exponential) with the driving frequency before heating to an infinite-temperature state. In contrast, when the model is periodically driven, the dynamics reaches a plateau that is not followed by heating. In either case, the plateau value depends on the energy of the initial state and on the parameters of the undriven Hamiltonian. Surprisingly, this value does not always approach the infinite-temperature state monotonically as the frequency of the periodic drive decreases. We also show how the drive modifies the quantum critical point and discuss open questions associated with the analysis of level statistics at intermediate frequencies. | 翻訳日:2023-06-30 13:57:35 公開日:2023-06-29 |
# CLIPAG: ジェネレータフリーのテキスト・ツー・イメージ生成を目指して CLIPAG: Towards Generator-Free Text-to-Image Generation ( http://arxiv.org/abs/2306.16805v1 ) ライセンス: Link先を確認 | Roy Ganz, Michael Elad | (参考訳) Perceptually Aligned Gradients (PAG)は、頑健な画像分類モデルで観察される興味深い特性を指し、入力勾配は人間の知覚と一致し、意味的な意味を表わす。
この現象は大きな研究の注目を集めているが、一様視のみのアーキテクチャの文脈でのみ研究されている。
本稿では,pagの研究を視覚言語アーキテクチャに拡張し,多様な画像テキストタスクやアプリケーションの基礎を形成する。
クリップの可逆的ロバスト化の微調整を通じて、ロバストな視覚言語モデルがバニラモデルとは対照的にpagを示すことを実証する。
この研究は、複数の視覚言語生成タスクにおいて、CLIP と PAG (CLIPAG) の利点を明らかにする。
特に,CLIPAGを"plug-n-play"形式でシームレスに統合することで,視覚言語生成アプリケーションを大幅に改善することを示す。
さらに、PAGプロパティを活用することで、CLIPAGは生成モデルなしでテキストから画像を生成することができる。 Perceptually Aligned Gradients (PAG) refer to an intriguing property observed in robust image classification models, wherein their input gradients align with human perception and pose semantic meanings. While this phenomenon has gained significant research attention, it was solely studied in the context of unimodal vision-only architectures. In this work, we extend the study of PAG to Vision-Language architectures, which form the foundations for diverse image-text tasks and applications. Through an adversarial robustification finetuning of CLIP, we demonstrate that robust Vision-Language models exhibit PAG in contrast to their vanilla counterparts. This work reveals the merits of CLIP with PAG (CLIPAG) in several vision-language generative tasks. Notably, we show that seamlessly integrating CLIPAG in a "plug-n-play" manner leads to substantial improvements in vision-language generative applications. Furthermore, leveraging its PAG property, CLIPAG enables text-to-image generation without any generative model, which typically requires huge generators. | 翻訳日:2023-06-30 13:57:18 公開日:2023-06-29 |
# その報酬をもらえませんか?
偽りの貢献分析による長期クレジット割り当て Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis ( http://arxiv.org/abs/2306.16803v1 ) ライセンス: Link先を確認 | Alexander Meulemans, Simon Schug, Seijin Kobayashi, Nathaniel Daw, Gregory Wayne | (参考訳) 強化学習をより効率的にするためには、アクションが将来の報酬に与える影響を測定するためのより良い信用割当方法が必要である。
HCA(Hindsight Credit Assignment)に基づいて、モデルベースの新しい信用割当アルゴリズムであるCOCOA(Counterfactual Contribution Analysis)を導入する。
我々のアルゴリズムは、反事実クエリを定量化することで、その後の報酬を得る際の行動の寄与度を測定することによって、正確な信用割り当てを達成します。
hcaで行われているように、貢献度を計測する w.r.t. 報酬状態は、貢献の散逸を招き、多くの関連環境において、hca が高分散強化推定値に向かって低下することを示している。
代わりに、報酬オブジェクトの貢献度や学習された表現を測定し、より低い分散を伴う勾配推定をもたらす。
我々は、長期クレジット割り当て能力を評価するために特別に設計された一連の問題で実験を行う。
動的計画法を用いることで,新たなモデルに基づく信用割当手法の性能向上は,hcaや共通ベースラインと比較してバイアスやばらつきが小さいことによるものであることを示す。
本研究は,成果を報奨するための行動貢献のモデル化をクレジット割り当てに活用できることを示し,サンプル効率のよい強化学習への新たな道を開く。 To make reinforcement learning more sample efficient, we need better credit assignment methods that measure an action's influence on future rewards. Building upon Hindsight Credit Assignment (HCA), we introduce Counterfactual Contribution Analysis (COCOA), a new family of model-based credit assignment algorithms. Our algorithms achieve precise credit assignment by measuring the contribution of actions upon obtaining subsequent rewards, by quantifying a counterfactual query: "Would the agent still have reached this reward if it had taken another action?". We show that measuring contributions w.r.t. rewarding states, as is done in HCA, results in spurious estimates of contributions, causing HCA to degrade towards the high-variance REINFORCE estimator in many relevant environments. Instead, we measure contributions w.r.t. rewards or learned representations of the rewarding objects, resulting in gradient estimates with lower variance. We run experiments on a suite of problems specifically designed to evaluate long-term credit assignment capabilities. By using dynamic programming, we measure ground-truth policy gradients and show that the improved performance of our new model-based credit assignment methods is due to lower bias and variance compared to HCA and common baselines. Our results demonstrate how modeling action contributions towards rewarding outcomes can be leveraged for credit assignment, opening a new path towards sample-efficient reinforcement learning. | 翻訳日:2023-06-30 13:57:00 公開日:2023-06-29 |
# 持続可能パームツリー栽培:レッドパームウィービルの早期検出とマッピングにiotとマルチモーダルデータを活用する Sustainable Palm Tree Farming: Leveraging IoT and Multi-Modal Data for Early Detection and Mapping of Red Palm Weevil ( http://arxiv.org/abs/2306.16862v1 ) ライセンス: Link先を確認 | Yosra Hajjaji, Ayyub Alzahem, Wadii Boulila, Imed Riadh Farah, Anis Koubaa | (参考訳) レッド・パーム・ウィービル(RPW)は高度に破壊的な昆虫であり、経済的損失を招き、世界中のヤシの栽培に影響を及ぼす。
本稿では,RPWの早期検出・管理に先進技術を活用することで,持続的ヤシ作の革新的アプローチを提案する。
コンピュータビジョン,深層学習(DL),モノのインターネット(IoT),地理空間データを組み合わせて,RPWに寄生するヤシを効果的に検出・分類する。
主なフェーズは,(1)IoTデバイスからの音声データを用いたDL分類,(2)UAV画像上のYOLOv8を用いたヤシ木検出,(3)地理空間データを用いたRPWマッピングである。
当社のカスタムdlモデルはパームツリーの検出とローカライズにおいて100%精度とリコールを達成している。
地理空間データの統合により、効率的なモニタリングとターゲット管理戦略のための総合的なRPW分布マップの作成が可能になる。
この技術によるアプローチは、農業当局、農家、研究者がRPWの感染を管理し、ヤシの木プランテーションの生産性を保護している。 The Red Palm Weevil (RPW) is a highly destructive insect causing economic losses and impacting palm tree farming worldwide. This paper proposes an innovative approach for sustainable palm tree farming by utilizing advanced technologies for the early detection and management of RPW. Our approach combines computer vision, deep learning (DL), the Internet of Things (IoT), and geospatial data to detect and classify RPW-infested palm trees effectively. The main phases include; (1) DL classification using sound data from IoT devices, (2) palm tree detection using YOLOv8 on UAV images, and (3) RPW mapping using geospatial data. Our custom DL model achieves 100% precision and recall in detecting and localizing infested palm trees. Integrating geospatial data enables the creation of a comprehensive RPW distribution map for efficient monitoring and targeted management strategies. This technology-driven approach benefits agricultural authorities, farmers, and researchers in managing RPW infestations and safeguarding palm tree plantations' productivity. | 翻訳日:2023-06-30 13:49:13 公開日:2023-06-29 |
# ArrayBot: Touchによる汎用分散操作のための強化学習 ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch ( http://arxiv.org/abs/2306.16857v1 ) ライセンス: Link先を確認 | Zhengrong Xue, Han Zhang, Jingwen Cheng, Zhengmao He, Yuanchen Ju, Changyi Lin, Gu Zhang, Huazhe Xu | (参考訳) 本稿では,触覚センサと一体化した16ドル16セントの縦スライド柱からなる分散操作システムであるArrayBotを紹介し,テーブルトップオブジェクトを同時にサポートし,知覚し,操作することができる。
分散操作を一般化するために,強化学習(rl)アルゴリズムを用いて制御ポリシの自動発見を行う。
大規模冗長動作に対して,周波数領域における空間的局所的動作パッチと低周波動作を考慮し,動作空間の再形成を提案する。
このリフォームされたアクション空間では、触覚観察のみを通して様々な物体を移動させることができるRLエージェントを訓練する。
驚くべきことに、発見されたポリシーはシミュレータで見えない物体の形に一般化できるだけでなく、ドメインのランダム化なしに物理的なロボットに転送できる。
デプロイされたポリシを活用することで、分散操作のためのarraybot上のrlの膨大な可能性を示す、豊富な実世界の操作タスクを提供する。 We present ArrayBot, a distributed manipulation system consisting of a $16 \times 16$ array of vertically sliding pillars integrated with tactile sensors, which can simultaneously support, perceive, and manipulate the tabletop objects. Towards generalizable distributed manipulation, we leverage reinforcement learning (RL) algorithms for the automatic discovery of control policies. In the face of the massively redundant actions, we propose to reshape the action space by considering the spatially local action patch and the low-frequency actions in the frequency domain. With this reshaped action space, we train RL agents that can relocate diverse objects through tactile observations only. Surprisingly, we find that the discovered policy can not only generalize to unseen object shapes in the simulator but also transfer to the physical robot without any domain randomization. Leveraging the deployed policy, we present abundant real-world manipulation tasks, illustrating the vast potential of RL on ArrayBot for distributed manipulation. | 翻訳日:2023-06-30 13:48:52 公開日:2023-06-29 |
# RNN隠れ状態ベクトルと意味的接地真実の関係について On the Relationship Between RNN Hidden State Vectors and Semantic Ground Truth ( http://arxiv.org/abs/2306.16854v1 ) ライセンス: Link先を確認 | Edi Mu\v{s}kardin and Martin Tappler and Ingo Pill and Bernhard K. Aichernig and Thomas Pock | (参考訳) 本稿では、リカレントニューラルネットワーク(RNN)の隠れ状態ベクトルが意味論的に類似したベクトルのクラスタを形成する傾向にあり、クラスタリング仮説を検証した。
この仮説は近年、RNNの分析において仮定されているが、現代のニューラルネットワークアーキテクチャにおいて、その妥当性は十分に研究されていない。
正規言語を認識するために訓練されたRNNの文脈におけるクラスタリング仮説を検討した。
これにより、RNNの精度と隠れ状態ベクトルの分布を比較することができる。
まず、RNNの隠れ状態ベクトルを意味的に異なるクラスに(部分的に線形に)分離することから始める。
我々は,複数の非教師付きクラスタリング手法を用いて,隠れ状態ベクトル空間上のクラスタ解析を継続する。
本研究では,クラスタ群が同一状態と意味的に類似しているかどうかを基底モデルで決定することにより,クラスタ関数の精度とクラスタリング仮説の有効性を正式に解析する。
本評価は, クラスタリング仮説の妥当性を, 多数例で裏付けるものである。
十分に訓練されたrnnの隠れた状態ベクトルは分離可能であり、教師なしのクラスタリング技術は類似した状態ベクトルのクラスターを見つけるのに成功している。 We examine the assumption that the hidden-state vectors of recurrent neural networks (RNNs) tend to form clusters of semantically similar vectors, which we dub the clustering hypothesis. While this hypothesis has been assumed in the analysis of RNNs in recent years, its validity has not been studied thoroughly on modern neural network architectures. We examine the clustering hypothesis in the context of RNNs that were trained to recognize regular languages. This enables us to draw on perfect ground-truth automata in our evaluation, against which we can compare the RNN's accuracy and the distribution of the hidden-state vectors. We start with examining the (piecewise linear) separability of an RNN's hidden-state vectors into semantically different classes. We continue the analysis by computing clusters over the hidden-state vector space with multiple state-of-the-art unsupervised clustering approaches. We formally analyze the accuracy of computed clustering functions and the validity of the clustering hypothesis by determining whether clusters group semantically similar vectors to the same state in the ground-truth model. Our evaluation supports the validity of the clustering hypothesis in the majority of examined cases. We observed that the hidden-state vectors of well-trained RNNs are separable, and that the unsupervised clustering techniques succeed in finding clusters of similar state vectors. | 翻訳日:2023-06-30 13:48:38 公開日:2023-06-29 |
# 情報的非平衡の動的資源理論 The Dynamical Resource Theory of Informational Non-Equilibrium ( http://arxiv.org/abs/2306.16848v1 ) ライセンス: Link先を確認 | Benjamin Stratton, Chung-Yun Hsieh, Paul Skrzypczyk | (参考訳) 情報は熱力学の理解に欠かせない。
彼らの相互作用は、熱力学変換への情報的貢献を分離できる完全に縮退したハミルトニアンを通じて研究されている。
この設定では、最大混合状態以外の全ての状態は情報非平衡状態であると考えられる。
情報的非平衡を維持するために量子力学の能力をどのように特徴付けるか?
ここでは, 情報的非平衡可観測性に関する動的資源理論を導入し, この問いへの答えを述べる。
許容される演算のキャラクタリゼーションは、キュービットチャネルとn次元ワイル共変チャネル(一般チャネルの物理的関連部分集合)に対して与えられる。
ベル状態測定を伴う状態識別ゲームの操作解釈が与えられる。
最後に、チャネルの古典的容量と情報非平衡を維持する能力との明示的なリンクを作る。 Information is instrumental in our understanding of thermodynamics. Their interplay has been studied through completely degenerate Hamiltonians whereby the informational contributions to thermodynamic transformations can be isolated. In this setting, all states other then the maximally mixed state are considered to be in informational non-equilibrium. An important yet still open question is: how to characterise the ability of quantum dynamics to maintain informational non-equilibrium? Here, the dynamical resource theory of informational non-equilibrium preservability is introduced to begin providing an answer to this question. A characterisation of the allowed operations is given for qubit channels and the n dimensional Weyl-covariant channels - a physically relevant subset of the general channels. An operational interpretation of a state discrimination game with Bell state measurements is given. Finally, an explicit link between a channels classical capacity and its ability to maintain informational non-equilibrium is made. | 翻訳日:2023-06-30 13:48:17 公開日:2023-06-29 |
# ICDaeLST:軽量高速移動用インテンシティ制御型詳細注意強調装置 ICDaeLST: Intensity-Controllable Detail Attention-enhanced for Lightweight Fast Style Transfer ( http://arxiv.org/abs/2306.16846v1 ) ライセンス: Link先を確認 | Jiang Shi Qi | (参考訳) 主流のスタイル転送法は通常、訓練済みの深層畳み込みニューラルネットワーク(VGG)モデルをエンコーダとして使用するか、より複雑なモデル構造を使用してより優れたスタイル転送効果を達成する。
これにより、限られたリソースや4K画像などの高解像度画像処理により、実用的なタスクの処理速度が極めて遅くなり、スタイル転送モデルの実用的価値が著しく損なわれる。
ICDaeLST と呼ばれる細部注意強調機能を備えた軽量かつ高速なスタイルトランスファーモデルを提案する。
このモデルは最小で浅く、小さなアーキテクチャを採用し、効率的な前方推論のために非常にコンパクトな軽量モデルを形成する。
その構造は単純でパラメータは限られているが、スタイル判別器を導入し、高レベルなグローバル視点からコンテンツ画像の意味的および構造的情報を保存し、低レベルな視点からコンテンツ画像の詳細な情報を保存するための浅い細部注意強調モジュールを設計することにより、全体的な色とテクスチャの構造マッチングが向上する。
また,初回推論時の制御可能な強度(主観的判断に基づく細部保持とテクスチャ構造伝達の程度を調整)を実現し,ユーザの主観的スタイライゼーション効果評価を満足させる。
現在の最高の性能と軽量なモデルと比較して、モデルサイズが17~250倍小さく、速度が0.26~6.5倍で、4K高解像度画像の処理速度が0.38秒高速であるのに対し、より優れたスタイル転送品質とコンテンツ構造と詳細保持を実現する。 The mainstream style transfer methods usually use pre-trained deep convolutional neural network (VGG) models as encoders, or use more complex model structures to achieve better style transfer effects. This leads to extremely slow processing speeds for practical tasks due to limited resources or higher resolution image processing, such as 4K images, severely hindering the practical application value of style transfer models. We introduce a lightweight and fast styletransfer model with controllable detail attention enhancement, named ICDaeLST. The model adopts a minimal, shallow, and small architecture, forming a very compact lightweight model for efficient forward inference. Although its structure is simple and has limited parameters, we achieve better overall color and texture structure matching by introducing a style discriminator, design additional global semantic invariance loss to preserve the semantic and structural information of the content image from a high-level global perspective, and design a shallow detail attention enhancement module to preserve the detail information of the content image from a low-level detail perspective. We also achieve controllable intensity during inference for the first time (adjusting the degree of detail retention and texture structure transfer based on subjective judgment) to meet different users' subjective evaluation of stylization effects. Compared with the current best-performing and most lightweight models, our model achieves better style transfer quality and better content structure and detail retention, while having a smaller model size (17-250 times smaller) and faster speed (0.26-6.5 times faster), and achieves the fastest processing speed of 0.38s on 4K high-resolution images. | 翻訳日:2023-06-30 13:48:05 公開日:2023-06-29 |
# 低次元ヒルベルト空間における量子パロンドゲーム Quantum Parrondo Games in Low-Dimensional Hilbert Spaces ( http://arxiv.org/abs/2306.16845v1 ) ライセンス: Link先を確認 | Andreas Mielke | (参考訳) 低次元ヒルベルト空間上のパロンドゲームの量子不変量を考える。
parrondoゲームを形成する2つのゲームは、長さ$m$の小さなサイクルで量子ウォーキングとして実装されます。
ヒルベルト空間の次元は 2m$ である。
量子コインによって実現される2つのゲームのランダムな列を調べることにより、全ヒルベルト空間次元は 4m$ となる。
この方法で構成された量子パロンドゲームでは、長期の極限で体系的な勝利や損失が発生することを示す。
サイクル上のエンタグルメントと自己干渉のため、ゲームはパラメータによって勝利や損失に対してかなり複雑な構造をもたらす。 We consider quantum variants of Parrondo games on low-dimensional Hilbert spaces. The two games which form the Parrondo game are implemented as quantum walks on a small cycle of length $M$. The dimension of the Hilbert space is $2M$. We investigate a random sequence of these two games which is realized by a quantum coin, so that the total Hilbert space dimension is $4M$. We show that in the quantum Parrondo game constructed in this way a systematic win or loss occurs in the long time limit. Due to entaglement and self-interference on the cycle, the game yields a rather complex structure for the win or loss depending on the parameters. | 翻訳日:2023-06-30 13:47:25 公開日:2023-06-29 |
# ワイヤマスク誘導ブラックボックス最適化によるマクロ配置 Macro Placement by Wire-Mask-Guided Black-Box Optimization ( http://arxiv.org/abs/2306.16844v1 ) ライセンス: Link先を確認 | Yunqi Shi, Ke Xue, Lei Song, Chao Qian | (参考訳) 超大規模統合(VLSI)技術の開発は、チップフロアプランニングにおける電子設計自動化(EDA)技術に新たな課題を提起している。
この過程において、マクロ配置は重要なサブプロブレムであり、全マクロの位置を最小化することと重なりを避けることを目的として決定しようとする。
以前の方法としては、パッキングベース、分析、強化学習法がある。
本稿では,マクロ配置のための新しいblack-box optimization(bbo)フレームワーク(wiremask-bbo)を提案する。
異なるBBOアルゴリズムを組み込んだWireMask-BBOは、経験的に従来の手法よりも大幅に改善し、より少ない時間でHPWLを大幅に短縮する。
さらに、既存の配置を初期解として微調整することで、hpwlの50%の改善をもたらすことができる。
WireMask-BBOは、チップフロアプランニングの品質と効率を大幅に改善する可能性があり、EDAの研究者や実践者にアピールし、BBOの適用を促進する。 The development of very large-scale integration (VLSI) technology has posed new challenges for electronic design automation (EDA) techniques in chip floorplanning. During this process, macro placement is an important subproblem, which tries to determine the positions of all macros with the aim of minimizing half-perimeter wirelength (HPWL) and avoiding overlapping. Previous methods include packing-based, analytical and reinforcement learning methods. In this paper, we propose a new black-box optimization (BBO) framework (called WireMask-BBO) for macro placement, by using a wire-mask-guided greedy procedure for objective evaluation. Equipped with different BBO algorithms, WireMask-BBO empirically achieves significant improvements over previous methods, i.e., achieves significantly shorter HPWL by using much less time. Furthermore, it can fine-tune existing placements by treating them as initial solutions, which can bring up to 50% improvement in HPWL. WireMask-BBO has the potential to significantly improve the quality and efficiency of chip floorplanning, which makes it appealing to researchers and practitioners in EDA and will also promote the application of BBO. | 翻訳日:2023-06-30 13:47:16 公開日:2023-06-29 |
# トークン化とノイズなしチャネル Tokenization and the Noiseless Channel ( http://arxiv.org/abs/2306.16842v1 ) ライセンス: Link先を確認 | Vil\'em Zouhar, Clara Meister, Juan Luis Gastaldi, Li Du, Mrinmaya Sachan, Ryan Cotterell | (参考訳) サブワードトークン化は多くのNLPパイプラインの重要な部分である。
しかしながら、トークンライザとハイパーパラメータの組み合わせによって、下流モデルのパフォーマンスが他のものよりも向上する理由については、ほとんど分かっていない。
そこで, 優れたトークン化器は, ある入力をモデルに伝達する手段であり, トークン分布の最大エントロピーに対するシャノンエントロピーの比として, 情報理論の用語で効率を定量化することができる。
しかし、シャノンエントロピーによる最適符号化は、非常に長い符号を低周波トークンに、非常に短い符号を高周波トークンに割り当てる。
一方、r\'enyiエントロピーの観点で効率を定義すると、非常に高いまたは非常に低い周波数のトークンを持つ分布をペナルティ化する。
機械翻訳において、R'enyiエントロピーと$\alpha = 2.5$は、圧縮された長さに対してわずか$-0.32$に対して$0.78$と非常に強い相関を持つ。 Subword tokenization is a key part of many NLP pipelines. However, little is known about why some tokenizer and hyperparameter combinations lead to better downstream model performance than others. We propose that good tokenizers lead to \emph{efficient} channel usage, where the channel is the means by which some input is conveyed to the model and efficiency can be quantified in information-theoretic terms as the ratio of the Shannon entropy to the maximum possible entropy of the token distribution. Yet, an optimal encoding according to Shannon entropy assigns extremely long codes to low-frequency tokens and very short codes to high-frequency tokens. Defining efficiency in terms of R\'enyi entropy, on the other hand, penalizes distributions with either very high or very low-frequency tokens. In machine translation, we find that across multiple tokenizers, the R\'enyi entropy with $\alpha = 2.5$ has a very strong correlation with \textsc{Bleu}: $0.78$ in comparison to just $-0.32$ for compressed length. | 翻訳日:2023-06-30 13:46:57 公開日:2023-06-29 |
# 勾配最適化法によるカーネルリッジ回帰の解法 Solving Kernel Ridge Regression with Gradient-Based Optimization Methods ( http://arxiv.org/abs/2306.16838v1 ) ライセンス: Link先を確認 | Oskar Allerbo, Rebecka J\"ornsten | (参考訳) カーネルリッジ回帰 (kernel ridge regression, krr) は線形リッジ回帰の非線形一般化である。
本稿では,krrの目的関数の等価な定式化について紹介し,リッジペナルティ以外のペナルティの使用と,勾配降下の観点からカーネルリッジ回帰の研究を両立させる。
連続時間の観点から、KGFとKRRの違いを理論的に拘束できるような、早期停止による正規化を伴う閉形式解、カーネル勾配流、KGFを導出する。
リッジペナルティを$\ell_1$と$\ell_\infty$ペナルティに置き換えることでKRRを一般化し、KGFとKRRの類似性と同様、これらのペナルティを用いて得られる解は、早期停止と組み合わせて前方回帰(座標降下)および符号勾配降下から得られるものと非常によく似ているという事実を利用する。
したがって、計算的に重い近位勾配勾配アルゴリズムの必要性が軽減される。
これらの罰則とそれに対応する勾配に基づく最適化アルゴリズムは,それぞれ信号駆動型およびロバスト回帰解を生成する。
また、カーネルがトレーニング中に変化することを許すカーネル勾配勾配について検討し、これが一般化に与える影響を理論的に解決する。
そこで本研究では,トランスレーショナル不変カーネルの帯域幅の更新方式を提案し,トレーニング中の帯域幅をゼロにすることで,ハイパーパラメータ選択の必要性を回避する。
実データおよび合成データにおいて,トレーニング中の帯域幅が,クロスバリデーションと限界確率最大化によって選択された一定帯域幅を用いていかに減少するかを実証する。
また、帯域幅を小さくすることで、ゼロトレーニングエラーとダブル降下動作の両方を実現できることを示す。 Kernel ridge regression, KRR, is a non-linear generalization of linear ridge regression. Here, we introduce an equivalent formulation of the objective function of KRR, opening up both for using other penalties than the ridge penalty and for studying kernel ridge regression from the perspective of gradient descent. Using a continuous-time perspective, we derive a closed-form solution, kernel gradient flow, KGF, with regularization through early stopping, which allows us to theoretically bound the differences between KGF and KRR. We generalize KRR by replacing the ridge penalty with the $\ell_1$ and $\ell_\infty$ penalties and utilize the fact that analogously to the similarities between KGF and KRR, the solutions obtained when using these penalties are very similar to those obtained from forward stagewise regression (also known as coordinate descent) and sign gradient descent in combination with early stopping. Thus the need for computationally heavy proximal gradient descent algorithms can be alleviated. We show theoretically and empirically how these penalties, and corresponding gradient-based optimization algorithms, produce signal-driven and robust regression solutions, respectively. We also investigate kernel gradient descent where the kernel is allowed to change during training, and theoretically address the effects this has on generalization. Based on our findings, we propose an update scheme for the bandwidth of translational-invariant kernels, where we let the bandwidth decrease to zero during training, thus circumventing the need for hyper-parameter selection. We demonstrate on real and synthetic data how decreasing the bandwidth during training outperforms using a constant bandwidth, selected by cross-validation and marginal likelihood maximization. We also show that using a decreasing bandwidth, we are able to achieve both zero training error and a double descent behavior. | 翻訳日:2023-06-30 13:46:36 公開日:2023-06-29 |
# バイトペア符号化の形式的展望 A Formal Perspective on Byte-Pair Encoding ( http://arxiv.org/abs/2306.16837v1 ) ライセンス: Link先を確認 | Vil\'em Zouhar, Clara Meister, Juan Luis Gastaldi, Li Du, Tim Vieira, Mrinmaya Sachan, Ryan Cotterell | (参考訳) Byte-Pair Encoding (BPE) は、当初圧縮法として考案されたにもかかわらず、NLPでデータをトークン化する一般的なアルゴリズムである。
BPEは、顔の値にグリージーなアルゴリズムのように見えるが、BPEが解決しようとしている基礎となる最適化問題は、まだ定まっていない。
BPEを組合せ最適化問題として定式化する。
部分モジュラ関数を通じて、反復的グリーディバージョンは、最適なマージシーケンスの近似である1-e^{-{\sigma(\boldsymbol{\mu}^\star)}}(1-e^{-{\sigma(\boldsymbol{\mu}^\star)}})であり、ここで${\sigma(\boldsymbol{\mu}^\star)}$ は最適なマージシーケンスである$\boldsymbol{\mu}^\star$ に対する全後方曲率である。
経験上、近似の下限は 0.37$ である。
我々は、ランタイムの複雑さを$\mathcal{O}\left(N M\right)$から$\mathcal{O}\left(N \log M\right)$に改善するBPEのより高速な実装を提供する。
最後に,ブルートフォースアルゴリズムの最適bpeに対する最適化を行う。 Byte-Pair Encoding (BPE) is a popular algorithm used for tokenizing data in NLP, despite being devised initially as a compression method. BPE appears to be a greedy algorithm at face value, but the underlying optimization problem that BPE seeks to solve has not yet been laid down. We formalize BPE as a combinatorial optimization problem. Via submodular functions, we prove that the iterative greedy version is a $\frac{1}{{\sigma(\boldsymbol{\mu}^\star)}}(1-e^{-{\sigma(\boldsymbol{\mu}^\star)}})$-approximation of an optimal merge sequence, where ${\sigma(\boldsymbol{\mu}^\star)}$ is the total backward curvature with respect to the optimal merge sequence $\boldsymbol{\mu}^\star$. Empirically the lower bound of the approximation is $\approx 0.37$. We provide a faster implementation of BPE which improves the runtime complexity from $\mathcal{O}\left(N M\right)$ to $\mathcal{O}\left(N \log M\right)$, where $N$ is the sequence length and $M$ is the merge count. Finally, we optimize the brute-force algorithm for optimal BPE using memoization. | 翻訳日:2023-06-30 13:46:03 公開日:2023-06-29 |
# トレーサブルなグループワイズ自己最適化型特徴変換学習--双対最適化の視点から Traceable Group-Wise Self-Optimizing Feature Transformation Learning: A Dual Optimization Perspective ( http://arxiv.org/abs/2306.16893v1 ) ライセンス: Link先を確認 | Meng Xiao, Dongjie Wang, Min Wu, Kunpeng Liu, Hui Xiong, Yuanchun Zhou, Yanjie Fu | (参考訳) 機能変換は、既存の特徴を数学的に精錬することで、効果的な表現空間を再構築することを目的としている。
これは次元の呪いと戦うための重要なアプローチとして機能し、モデルの一般化を強化し、データの分散を緩和し、古典的なモデルの適用性を拡張する。
既存の研究は主にドメイン知識に基づく特徴工学や学習潜在表現に焦点を当てている。
しかし、これらの手法は洞察に富むが、完全な自動化がなく、トレース可能で最適な表現空間を得られない。
機械学習タスクの機能空間を再構築する場合、これらの制限に同時に対処できるだろうか?
最初の作業は、新しい自己最適化フレームワークを導入することで、この課題への先駆的な一歩を踏み出した。
このフレームワークは、3つのカスケード強化エージェントの力を利用して、改善された特徴変換の組み合わせを生成するための候補特徴と操作を自動的に選択する。
印象的な進歩にもかかわらず、その効果と一般化能力を高める余地があった。
この拡張ジャーナルバージョンでは、最初の作業は2つの異なるが相互に結びついた視点から進めます。
1) 特徴的相互作用をより効果的に捉えるためにグラフベースの状態表現手法を統合し,q値の過大評価を緩和するための異なるq学習戦略を展開する原フレームワークの改良を提案する。
2) モデル収束を加速し, 特徴変換性能を向上させるために, 自己最適化フレームワーク全体を訓練するために, 新たな最適化手法(アクタクリティカル)を利用する。
最後に,本フレームワークの有効性と一般化能力を検証するため,広範な実験を行い,包括的な分析を行う。 Feature transformation aims to reconstruct an effective representation space by mathematically refining the existing features. It serves as a pivotal approach to combat the curse of dimensionality, enhance model generalization, mitigate data sparsity, and extend the applicability of classical models. Existing research predominantly focuses on domain knowledge-based feature engineering or learning latent representations. However, these methods, while insightful, lack full automation and fail to yield a traceable and optimal representation space. An indispensable question arises: Can we concurrently address these limitations when reconstructing a feature space for a machine-learning task? Our initial work took a pioneering step towards this challenge by introducing a novel self-optimizing framework. This framework leverages the power of three cascading reinforced agents to automatically select candidate features and operations for generating improved feature transformation combinations. Despite the impressive strides made, there was room for enhancing its effectiveness and generalization capability. In this extended journal version, we advance our initial work from two distinct yet interconnected perspectives: 1) We propose a refinement of the original framework, which integrates a graph-based state representation method to capture the feature interactions more effectively and develop different Q-learning strategies to alleviate Q-value overestimation further. 2) We utilize a new optimization technique (actor-critic) to train the entire self-optimizing framework in order to accelerate the model convergence and improve the feature transformation performance. Finally, to validate the improved effectiveness and generalization capability of our framework, we perform extensive experiments and conduct comprehensive analyses. | 翻訳日:2023-06-30 13:38:58 公開日:2023-06-29 |
# 社会的ネットワークにおける精神保健障害予測のためのハグ・フェイス・トランスフォーマーの力 Harnessing the Power of Hugging Face Transformers for Predicting Mental Health Disorders in Social Networks ( http://arxiv.org/abs/2306.16891v1 ) ライセンス: Link先を確認 | Alireza Pourkeyvan, Ramin Safa, Ali Sorourkhah | (参考訳) 精神疾患の早期診断と介入は重傷の予防と治療成績の改善を促進する。
ソーシャルメディアと事前学習言語モデルを用いて、ユーザ生成データを用いて精神疾患の症状を予測する方法について検討した。
近年の研究では,Hugging Faceの4種類のBERTモデルと,うつ病の自動診断に使用される標準的な機械学習技術を比較した。
その結果、新しいモデルは97%の精度で以前の手法より優れていることがわかった。
過去の知見を補完しながら結果を分析した結果、わずかなデータ(ユーザーの生体情報など)でも精神疾患を予測できる可能性があることがわかった。
ソーシャルメディアデータはメンタルヘルススクリーニングの優れた情報源であり、事前訓練されたモデルは、この重要なタスクを効果的に自動化することができると結論づける。 Early diagnosis of mental disorders and intervention can facilitate the prevention of severe injuries and the improvement of treatment results. Using social media and pre-trained language models, this study explores how user-generated data can be used to predict mental disorder symptoms. Our study compares four different BERT models of Hugging Face with standard machine learning techniques used in automatic depression diagnosis in recent literature. The results show that new models outperform the previous approach with an accuracy rate of up to 97%. Analyzing the results while complementing past findings, we find that even tiny amounts of data (like users' bio descriptions) have the potential to predict mental disorders. We conclude that social media data is an excellent source of mental health screening, and pre-trained models can effectively automate this critical task. | 翻訳日:2023-06-30 13:38:34 公開日:2023-06-29 |
# ドローンを用いた交通監視のための軌道ポアソン・マルチバーヌーリ混合フィルタ Trajectory Poisson multi-Bernoulli mixture filter for traffic monitoring using a drone ( http://arxiv.org/abs/2306.16890v1 ) ライセンス: Link先を確認 | \'Angel F. Garc\'ia-Fern\'andez and Jimin Xiao | (参考訳) 本稿では,光・熱カメラ搭載ドローンを用いた交通監視のためのマルチオブジェクトトラッキング(mot)アルゴリズムを提案する。
画像上の物体検出は、カメラの種類ごとにニューラルネットワークを用いて行われる。
カメラは方向方向センサ(DOA)としてモデル化されている。
各DOA検出は、地上の車両位置をカメラに投影することで平均方向を求めるvon-Mises Fisher分布に従う。
次に、ベイズMOTアルゴリズムであるPoisson multi-Bernoulli mix filter (TPMBM)を用いて、車両軌道の集合を最適に推定する。
また,測定モデルのためのパラメータ推定アルゴリズムを開発した。
合成および実験データセットにおけるTPMBMフィルタの精度を検証した。 This paper proposes a multi-object tracking (MOT) algorithm for traffic monitoring using a drone equipped with optical and thermal cameras. Object detections on the images are obtained using a neural network for each type of camera. The cameras are modelled as direction-of-arrival (DOA) sensors. Each DOA detection follows a von-Mises Fisher distribution, whose mean direction is obtain by projecting a vehicle position on the ground to the camera. We then use the trajectory Poisson multi-Bernoulli mixture filter (TPMBM), which is a Bayesian MOT algorithm, to optimally estimate the set of vehicle trajectories. We have also developed a parameter estimation algorithm for the measurement model. We have tested the accuracy of the resulting TPMBM filter in synthetic and experimental data sets. | 翻訳日:2023-06-30 13:38:20 公開日:2023-06-29 |
# 非推移ゲームのためのポリシー空間の多様性 Policy Space Diversity for Non-Transitive Games ( http://arxiv.org/abs/2306.16884v1 ) ライセンス: Link先を確認 | Jian Yao, Weiming Liu, Haobo Fu, Yaodong Yang, Stephen McAleer, Qiang Fu, Wei Yang | (参考訳) Policy-Space Response Oracles (PSRO) はマルチエージェント非推移ゲームにおいて Nash Equilibrium (NE) を近似するための強力なアルゴリズムフレームワークである。
これまで多くの研究がpsroの政策多様性を推進してきた。
既存の多様性指標の大きな弱点は、より多様性のある(多様性指標による)人口が必ずしも(私たちが論文で証明したように)NEに対するより良い近似を意味するとは限らないことである。
この問題を緩和するため,我々は,neへの近似性が向上する新しい多様性指標を提案する。
一方, 状態-作用サンプルのみを用いて, 多様性指標を最適化するための実用的, 適正な手法を開発した。
多様性の正則化をPSROの最適応答解に組み込むことで、PSROの新たな変種であるポリシー空間多様性PSRO(PSD-PSRO)を得る。
PSD-PSROの収束特性について述べる。
実証的な実験により、psd-psroは最先端のpsroよりも悪用可能なポリシーを多く作り出すのに効果的であることが示されている。 Policy-Space Response Oracles (PSRO) is an influential algorithm framework for approximating a Nash Equilibrium (NE) in multi-agent non-transitive games. Many previous studies have been trying to promote policy diversity in PSRO. A major weakness in existing diversity metrics is that a more diverse (according to their diversity metrics) population does not necessarily mean (as we proved in the paper) a better approximation to a NE. To alleviate this problem, we propose a new diversity metric, the improvement of which guarantees a better approximation to a NE. Meanwhile, we develop a practical and well-justified method to optimize our diversity metric using only state-action samples. By incorporating our diversity regularization into the best response solving in PSRO, we obtain a new PSRO variant, Policy Space Diversity PSRO (PSD-PSRO). We present the convergence property of PSD-PSRO. Empirically, extensive experiments on various games demonstrate that PSD-PSRO is more effective in producing significantly less exploitable policies than state-of-the-art PSRO variants. | 翻訳日:2023-06-30 13:38:08 公開日:2023-06-29 |
# 手術段階と計器認識:適切なデータセットの分割の同定法 Surgical Phase and Instrument Recognition: How to identify appropriate Dataset Splits ( http://arxiv.org/abs/2306.16879v1 ) ライセンス: Link先を確認 | Georgii Kostiuchik, Lalith Sharan, Benedikt Mayer, Ivo Wolf, Bernhard Preim, Sandy Engelhardt | (参考訳) 目的:手術ワークフローの複雑な性質から,手術ワークフローと時間データからの機器認識のための機械学習モデルの開発が困難な課題である。
特に、データの不均衡分布は、外科的ワークフロー認識の領域における大きな課題の1つである。
有意義な結果を得るためには,データのトレーニング,検証,テストセットへの注意深く分割することや,適切な評価指標の選択が不可欠である。
方法:本稿では,データセット分割のインタラクティブな探索を可能にするオープンウェブアプリケーションを提案する。
提案するビジュアルフレームワークは,外科的ワークフロー認識のためのデータセット分割の評価を容易にする。
現在、手術段階の可視化と器具のアノテーションをサポートしている。
結果: cholec80データセットのデータセット分割を用いて,インタラクティブな可視化の検証を行う。
このデータセット分割は、強いデータ不均衡のケースを反映して特別に選択された。
ソフトウェアを用いて,各セットに表現されていない手術器具の位相,位相遷移,組み合わせを同定することができた。
結論: 高度に不均衡なクラス分布において有意義な結果を得るためには, 適切な分割の選択に関して特別な注意が必要である。
インタラクティブなデータ可視化は、マシンラーニングデータセットの評価に有望なアプローチである。
ソースコードはhttps://github.com/Cardio-AI/endovis-mlで入手できる。 Purpose: The development of machine learning models for surgical workflow and instrument recognition from temporal data represents a challenging task due to the complex nature of surgical workflows. In particular, the imbalanced distribution of data is one of the major challenges in the domain of surgical workflow recognition. In order to obtain meaningful results, careful partitioning of data into training, validation, and test sets, as well as the selection of suitable evaluation metrics are crucial. Methods: In this work, we present an openly available web-based application that enables interactive exploration of dataset partitions. The proposed visual framework facilitates the assessment of dataset splits for surgical workflow recognition, especially with regard to identifying sub-optimal dataset splits. Currently, it supports visualization of surgical phase and instrument annotations. Results: In order to validate the dedicated interactive visualizations, we use a dataset split of the Cholec80 dataset. This dataset split was specifically selected to reflect a case of strong data imbalance. Using our software, we were able to identify phases, phase transitions, and combinations of surgical instruments that were not represented in one of the sets. Conclusion: In order to obtain meaningful results in highly unbalanced class distributions, special care should be taken with respect to the selection of an appropriate split. Interactive data visualization represents a promising approach for the assessment of machine learning datasets. The source code is available at https://github.com/Cardio-AI/endovis-ml | 翻訳日:2023-06-30 13:37:50 公開日:2023-06-29 |
# ボルツマンマシンと量子多体問題 Boltzmann machines and quantum many-body problems ( http://arxiv.org/abs/2306.16877v1 ) ライセンス: Link先を確認 | Yusuke Nomura | (参考訳) 量子多体問題を解析し、量子状態の絡み合った構造を解明することは、幅広い分野に共通する大きな挑戦である。
近年,機械学習を用いた新しいアプローチが導入されている。
このアイデアは、非自明な量子相関(量子エンタングルメント)をニューラルネットワークに"組み込む"ことである。
集中的な開発を通じて、ニューラルネットワーク法は量子多体問題を分析する新しい強力なツールになりつつある。
様々な人工ニューラルネットワークの中で、このトピックレビューはボルツマンマシンに焦点を当て、最近の開発と応用の概要を提供する。 Analyzing quantum many-body problems and elucidating the entangled structure of quantum states is a grand challenge common to a wide range of fields. Recently, for this challenge, a novel approach using machine learning has been introduced. The idea is to "embed" nontrivial quantum correlations (quantum entanglement) into artificial neural networks. Through intensive developments, artificial neural network methods are becoming a new powerful tool for analyzing quantum many-body problems. Among various artificial neural networks, this topical review focuses on Boltzmann machines and provides an overview of recent developments and applications. | 翻訳日:2023-06-30 13:37:32 公開日:2023-06-29 |
# エピソードなメタトレーニングのオーバーフィッティングを理解する Understanding the Overfitting of the Episodic Meta-training ( http://arxiv.org/abs/2306.16873v1 ) ライセンス: Link先を確認 | Siqi Hui, Sanping Zhou, Ye deng, Jinjun Wang | (参考訳) 2段階のいくつかの分類法の成功にもかかわらず、エピソードなメタトレーニング段階では、モデルは厳しいオーバーフィッティングに苦しむ。
我々は、このモデルが、新しいクラス一般化を抑圧しながら、基礎クラス識別に適した表面的特徴を過剰に学習すること、すなわち、過剰な差別によって引き起こされると仮定する。
過度な差別を罰するために,教師モデルから新たな一般化知識を維持するための知識蒸留技術を導入する。
具体的には,教師モデルの線形分類器の出力分布と生徒モデルの出力分布との間には,メタトレーニング中の検証精度が最もよい教師モデルを選択し,対称kullback-leibler (skl) の発散を制限する。
この単純なアプローチは、標準的なメタトレーニングプロセスより優れている。
さらに,メタトレーニングのためのNearest Neighbor Symmetric Kullback-Leibler (NNSKL) の分岐を提案し,知識蒸留技術の限界を推し進める。
NNSKLは、クエリの埋め込みとサポートセンターの関係に影響を及ぼす近隣の分類器の出力を入力し、ペナルティ化する。
メタトレーニングにおいてsklとnnsklを組み合わせることで、モデルはさらに優れたパフォーマンスを実現し、いくつかのベンチマークで最先端の結果を上回っている。 Despite the success of two-stage few-shot classification methods, in the episodic meta-training stage, the model suffers severe overfitting. We hypothesize that it is caused by over-discrimination, i.e., the model learns to over-rely on the superficial features that fit for base class discrimination while suppressing the novel class generalization. To penalize over-discrimination, we introduce knowledge distillation techniques to keep novel generalization knowledge from the teacher model during training. Specifically, we select the teacher model as the one with the best validation accuracy during meta-training and restrict the symmetric Kullback-Leibler (SKL) divergence between the output distribution of the linear classifier of the teacher model and that of the student model. This simple approach outperforms the standard meta-training process. We further propose the Nearest Neighbor Symmetric Kullback-Leibler (NNSKL) divergence for meta-training to push the limits of knowledge distillation techniques. NNSKL takes few-shot tasks as input and penalizes the output of the nearest neighbor classifier, which possesses an impact on the relationships between query embedding and support centers. By combining SKL and NNSKL in meta-training, the model achieves even better performance and surpasses state-of-the-art results on several benchmarks. | 翻訳日:2023-06-30 13:37:25 公開日:2023-06-29 |
# 自己複製チューリングマシンを目指して Towards a Self-Replicating Turing Machine ( http://arxiv.org/abs/2306.16872v1 ) ライセンス: Link先を確認 | Ralph P. Lano | (参考訳) von neumann の universal constructor と universal copier の部分的実装を提供し、最小の仮定を用いた3種類の単純なビルディングブロックから始める。
同じ原則を使ってチューリングマシンも構築しています。
両者を組み合わせることで、自己複製型チューリングマシンの提案にたどり着きます。
我々の構成は、望めば突然変異を許容し、簡単な記述言語を提供します。 We provide partial implementations of von Neumann's universal constructor and universal copier, starting out with three types of simple building blocks using minimal assumptions. Using the same principles, we also construct Turing machines. Combining both, we arrive at a proposal for a self-replicating Turing machine. Our construction allows for mutations if desired, and we give a simple description language. | 翻訳日:2023-06-30 13:37:00 公開日:2023-06-29 |
# NeuralFuse:低電圧レジームにおけるアクセス制限型ニューラルネットワーク推論の精度向上のための学習 NeuralFuse: Learning to Improve the Accuracy of Access-Limited Neural Network Inference in Low-Voltage Regimes ( http://arxiv.org/abs/2306.16869v1 ) ライセンス: Link先を確認 | Hao-Lun Sun, Lei Hsiung, Nandhini Chandramoorthy, Pin-Yu Chen, Tsung-Yi Ho | (参考訳) ディープラーニング(Deep Neural Network, DNN)は、機械学習においてユビキタスになったが、そのエネルギー消費は注目すべき問題である。
供給電圧の低下はエネルギー消費を減らす効果的な戦略である。
しかし、サプライ電圧を積極的にスケールダウンすると、モデルパラメータが格納されている静的ランダムアクセスメモリ(SRAM)において、ランダムビットフリップによる精度低下につながる可能性がある。
この課題に対処するために,我々は,入力変換を学習してエラー耐性データ表現を生成することで低電圧環境における精度とエネルギーのトレードオフに対処する,新しいアドオンモジュールneuralfuseを紹介する。
NeuralFuseは、名目と低電圧の両方のシナリオでDNNの精度を保護する。
さらに、NeuralFuseは実装が容易で、構成不可能なハードウェアやクラウドベースのAPIへのリモートアクセスなど、限られたアクセスでDNNに簡単に適用できる。
実験の結果、1%のビット誤り率で、neuralfuseはsramメモリアクセスエネルギーを最大24%削減し、精度を最大57%向上できることが示されている。
我々の知る限りでは、これは低電圧によるビットエラーに対処する最初のモデルに依存しないアプローチである。
ソースコードはhttps://github.com/ibm/neuralfuseで入手できる。 Deep neural networks (DNNs) have become ubiquitous in machine learning, but their energy consumption remains a notable issue. Lowering the supply voltage is an effective strategy for reducing energy consumption. However, aggressively scaling down the supply voltage can lead to accuracy degradation due to random bit flips in static random access memory (SRAM) where model parameters are stored. To address this challenge, we introduce NeuralFuse, a novel add-on module that addresses the accuracy-energy tradeoff in low-voltage regimes by learning input transformations to generate error-resistant data representations. NeuralFuse protects DNN accuracy in both nominal and low-voltage scenarios. Moreover, NeuralFuse is easy to implement and can be readily applied to DNNs with limited access, such as non-configurable hardware or remote access to cloud-based APIs. Experimental results demonstrate that, at a 1% bit error rate, NeuralFuse can reduce SRAM memory access energy by up to 24% while improving accuracy by up to 57%. To the best of our knowledge, this is the first model-agnostic approach (i.e., no model retraining) to address low-voltage-induced bit errors. The source code is available at https://github.com/IBM/NeuralFuse. | 翻訳日:2023-06-30 13:36:54 公開日:2023-06-29 |
# 100光子フォック状態を用いたハイゼンベルク制限量子メトロジー Heisenberg-limited quantum metrology using 100-photon Fock states ( http://arxiv.org/abs/2306.16919v1 ) ライセンス: Link先を確認 | Xiaowei Deng and Sai Li and Zi-Jie Chen and Zhongchu Ni and Yanyan Cai and Jiasheng Mai and Libo Zhang and Pan Zheng and Haifeng Yu and Chang-Ling Zou and Song Liu and Fei Yan and Yuan Xu and Dapeng Yu | (参考訳) 量子メートル法は、高精度測定において古典力学の限界を超える有望な道として登場した。
しかし、量子力学の実践的な実装は、大規模システムにおける外乱量子状態を操作するという課題によって妨げられている。
本稿では,大きな光子数フォック状態を用いたハイゼンベルク制限量子メトロロジーを実現するためのハードウェア効率の高い手法を提案し,実証する。
我々は,高品位超伝導マイクロ波キャビティにおいて,最大100個の光子を持つフォック状態を効率よく生成するプログラマブル光子数フィルタを開発した。
変位および位相測定におけるこれらの非常に非自明な状態を用いて、ハイゼンベルク限界に近い精度のスケーリングを示し、最大で14.8dbのメトロジカルゲインを達成する。
我々のハードウェア効率のよい量子メロジは、機械的および光学的システムに拡張することができ、ボソニック量子系における高いメロジカルゲインのための実用的なソリューションを提供し、ラジオメトリーや新しい粒子の探索に期待できる。 Quantum metrology has emerged as a promising avenue for surpassing the limitations of classical mechanics in high-precision measurements. However, the practical implementation of quantum metrology is hindered by the challenges of manipulating exotic quantum states in large systems. Here, we propose and demonstrate a hardware-efficient approach to achieve Heisenberg-limited quantum metrology using large photon-number Fock states. We have developed a programmable photon number filter that efficiently generates Fock states with up to 100 photons in a high-quality superconducting microwave cavity. Using these highly nontrivial states in displacement and phase measurements, we demonstrate a precision scaling close to the Heisenberg limit and achieve a maximum metrological gain of up to 14.8 dB. Our hardware-efficient quantum metrology can be extended to mechanical and optical systems and provides a practical solution for high metrological gain in bosonic quantum systems, promising potential applications in radiometry and the search for new particles. | 翻訳日:2023-06-30 13:29:13 公開日:2023-06-29 |
# PCDAL:医療画像セグメンテーションと分類のための摂動一貫性駆動型アクティブラーニングアプローチ PCDAL: A Perturbation Consistency-Driven Active Learning Approach for Medical Image Segmentation and Classification ( http://arxiv.org/abs/2306.16918v1 ) ライセンス: Link先を確認 | Tao Wang, Xinlin Zhang, Yuanbo Zhou, Junlin Lan, Tao Tan, Min Du, Qinquan Gao and Tong Tong | (参考訳) 近年,深層学習は医用画像診断を支援する画期的な技術となっている。
畳み込みニューラルネットワーク(CNN)を用いた監視学習は、最先端のパフォーマンスを提供し、さまざまな医用画像のセグメンテーションと分類のベンチマークとして機能している。
しかし、教師付き学習は大規模な注釈付きデータに深く依存しており、医療画像アプリケーションで取得するには高価で時間を要する。
アクティブラーニング(al)法は、ラベルのないデータプールからより価値のある例を選択することでアノテーションコストを削減するために、自然画像分類タスクに広く適用されてきた。
しかし, 医用画像セグメンテーションタスクへの応用は限定的であり, 3次元医用画像セグメンテーションに特化して設計されたALベースの手法は存在しない。
この制限に対処するために,2次元医用画像分類,セグメンテーション,および3次元医用画像分割タスクに同時に適用可能なALベースの手法を提案する。
我々は、Kvasir Dataset, COVID-19 infection Segmentation Dataset, BraTS2019 Datasetの3つの医用画像データセットに対して、提案したアクティブラーニング手法を広範囲に検証した。
実験の結果,PCDALは2次元分類やセグメンテーション,3次元分割タスクにおいて,アノテーションが少なく,大幅な性能向上が達成できた。
この研究のコードはhttps://github.com/ortonwang/pcdalで入手できる。 In recent years, deep learning has become a breakthrough technique in assisting medical image diagnosis. Supervised learning using convolutional neural networks (CNN) provides state-of-the-art performance and has served as a benchmark for various medical image segmentation and classification. However, supervised learning deeply relies on large-scale annotated data, which is expensive, time-consuming, and even impractical to acquire in medical imaging applications. Active Learning (AL) methods have been widely applied in natural image classification tasks to reduce annotation costs by selecting more valuable examples from the unlabeled data pool. However, their application in medical image segmentation tasks is limited, and there is currently no effective and universal AL-based method specifically designed for 3D medical image segmentation. To address this limitation, we propose an AL-based method that can be simultaneously applied to 2D medical image classification, segmentation, and 3D medical image segmentation tasks. We extensively validated our proposed active learning method on three publicly available and challenging medical image datasets, Kvasir Dataset, COVID-19 Infection Segmentation Dataset, and BraTS2019 Dataset. The experimental results demonstrate that our PCDAL can achieve significantly improved performance with fewer annotations in 2D classification and segmentation and 3D segmentation tasks. The codes of this study are available at https://github.com/ortonwang/PCDAL. | 翻訳日:2023-06-30 13:28:57 公開日:2023-06-29 |
# The Drunkard's Odometry:デフォーミングシーンにおけるカメラの動きの推定 The Drunkard's Odometry: Estimating Camera Motion in Deforming Scenes ( http://arxiv.org/abs/2306.16917v1 ) ライセンス: Link先を確認 | David Recasens, Martin R. Oswald, Marc Pollefeys, Javier Civera | (参考訳) 変形可能なシーンでのカメラの動きの推定は、複雑でオープンな研究課題となる。
動作技術による既存の非剛体構造の多くは、アンカリング基準を確立するために、シーン部分以外の静的なシーン部分も観察することを前提としている。
しかし、この仮定は、エンドスコピーのような特定の応用の場合では当てはまらない。
探索軌道の最も困難なシナリオに対処する変形可能なオドメトリーとSLAMパイプラインは、堅牢性の欠如と適切な定量的評価手法に悩まされている。
この課題を共通ベンチマークで解決するために,dryard's datasetという,視覚ナビゲーションと変形可能な環境における再構成を目的とした合成データの集合を提案する。
このデータセットは、全ての表面が時間とともに非剛性変形を示す3dシーンの中で、地上真理を持つ最初の探索的カメラトラジェクタである。
リアルな3Dビルディングのシミュレーションでは、カメラポーズ、RGB画像、奥行き、光学フロー、高解像度で通常の地図など、膨大な量のデータと地上の真実ラベルを得ることができる。
さらに,光学的フロー推定を剛体カメラ運動と非剛体シーン変形に分解するDrunkard's Odometryと呼ばれる新しい変形可能なオドメトリー法を提案する。
このデータを検証するため,本研究は,基底データを必要としない新しい追跡誤差測定法とともに,いくつかのベースラインの評価を含む。
データセットとコード: https://davidrecasens.github.io/thedrunkard'sodometry/ Estimating camera motion in deformable scenes poses a complex and open research challenge. Most existing non-rigid structure from motion techniques assume to observe also static scene parts besides deforming scene parts in order to establish an anchoring reference. However, this assumption does not hold true in certain relevant application cases such as endoscopies. Deformable odometry and SLAM pipelines, which tackle the most challenging scenario of exploratory trajectories, suffer from a lack of robustness and proper quantitative evaluation methodologies. To tackle this issue with a common benchmark, we introduce the Drunkard's Dataset, a challenging collection of synthetic data targeting visual navigation and reconstruction in deformable environments. This dataset is the first large set of exploratory camera trajectories with ground truth inside 3D scenes where every surface exhibits non-rigid deformations over time. Simulations in realistic 3D buildings lets us obtain a vast amount of data and ground truth labels, including camera poses, RGB images and depth, optical flow and normal maps at high resolution and quality. We further present a novel deformable odometry method, dubbed the Drunkard's Odometry, which decomposes optical flow estimates into rigid-body camera motion and non-rigid scene deformations. In order to validate our data, our work contains an evaluation of several baselines as well as a novel tracking error metric which does not require ground truth data. Dataset and code: https://davidrecasens.github.io/TheDrunkard'sOdometry/ | 翻訳日:2023-06-30 13:28:30 公開日:2023-06-29 |
# 順序に従う: 順序付き転送ハイパーパラメータ最適化の導入 Obeying the Order: Introducing Ordered Transfer Hyperparameter Optimisation ( http://arxiv.org/abs/2306.16916v1 ) ライセンス: Link先を確認 | Sigrid Passano Hellan, Huibin Shen, Fran\c{c}ois-Xavier Aubet, David Salinas and Aaron Klein | (参考訳) 我々は、タスクが逐次順序に従う過パラメータ最適化(HPO)のための転送学習のバージョンである、順序付き転送ハイパーパラメータ最適化(OTHPO)を導入する。
最先端のHPOとは異なり、各タスクはその直前のタスクと最も相関していると仮定される。
これは多くのデプロイされた設定と一致し、ハイパーパラメータはより多くのデータが収集されるにつれて再調整される。
本稿では,関連する問題との違いを概説し,最先端のHPOよりも優れたOTHPO法を提案する。
10のベンチマークを用いた順序付けの重要性を実証的に示す。
ベンチマークは徐々にデータを蓄積し、XGBoost、ランダムフォレスト、近似k-アネレスト隣人、弾性ネット、サポートベクターマシン、および別の実世界のモチベーション最適化問題にまたがる。
我々はこのベンチマークをオープンソース化し、注文転送HPOの今後の研究を促進する。 We introduce ordered transfer hyperparameter optimisation (OTHPO), a version of transfer learning for hyperparameter optimisation (HPO) where the tasks follow a sequential order. Unlike for state-of-the-art transfer HPO, the assumption is that each task is most correlated to those immediately before it. This matches many deployed settings, where hyperparameters are retuned as more data is collected; for instance tuning a sequence of movie recommendation systems as more movies and ratings are added. We propose a formal definition, outline the differences to related problems and propose a basic OTHPO method that outperforms state-of-the-art transfer HPO. We empirically show the importance of taking order into account using ten benchmarks. The benchmarks are in the setting of gradually accumulating data, and span XGBoost, random forest, approximate k-nearest neighbor, elastic net, support vector machines and a separate real-world motivated optimisation problem. We open source the benchmarks to foster future research on ordered transfer HPO. | 翻訳日:2023-06-30 13:28:04 公開日:2023-06-29 |
# 公衆衛生データストリームのための計算支援品質制御 Computationally Assisted Quality Control for Public Health Data Streams ( http://arxiv.org/abs/2306.16914v1 ) ライセンス: Link先を確認 | Ananya Joshi, Kathryn Mazaitis, Roni Rosenfeld, Bryan Wilder | (参考訳) 公衆衛生データストリーム(COVID-19ケースなど)の不規則性は、公衆衛生ステークホルダーにとってデータ駆動による意思決定を妨げる。
毎日更新される何千もの公衆衛生データストリームから、最も重要なデータポイントをリアルタイムでコンピュータが生成するリストは、専門家のレビュワーがこれらの不備を特定するのに役立つだろう。
しかし、既存の異常検出フレームワークは、データ量や公衆衛生ストリームの統計特性を考慮していないため、このタスクではパフォーマンスが悪くなっている。
そこで我々は,統計特性を明示的に把握するために,単純でスケーラブルなモデルを用いた公衆衛生データユーザのための実用的な異常検出フレームワーク flash (flagging stream in public health) を開発した。
人間の専門家がFraSHと既存の手法(ディープラーニングアプローチを含む)を評価する実験では、FraSHはこのタスクのデータボリュームにスケールし、これらのメソッドを平均精度でマッチングまたはオーバーし、ユーザが経験的に有益であると評価するアウトリーポイントを特定する。
これらの結果に基づいて、FraSHは、公衆衛生関係者が使用するデータストリームにデプロイされている。 Irregularities in public health data streams (like COVID-19 Cases) hamper data-driven decision-making for public health stakeholders. A real-time, computer-generated list of the most important, outlying data points from thousands of daily-updated public health data streams could assist an expert reviewer in identifying these irregularities. However, existing outlier detection frameworks perform poorly on this task because they do not account for the data volume or for the statistical properties of public health streams. Accordingly, we developed FlaSH (Flagging Streams in public Health), a practical outlier detection framework for public health data users that uses simple, scalable models to capture these statistical properties explicitly. In an experiment where human experts evaluate FlaSH and existing methods (including deep learning approaches), FlaSH scales to the data volume of this task, matches or exceeds these other methods in mean accuracy, and identifies the outlier points that users empirically rate as more helpful. Based on these results, FlaSH has been deployed on data streams used by public health stakeholders. | 翻訳日:2023-06-30 13:27:48 公開日:2023-06-29 |
# 厳しい制約のあるアプリケーションにおけるAutoML AutoML in Heavily Constrained Applications ( http://arxiv.org/abs/2306.16913v1 ) ライセンス: Link先を確認 | Felix Neutatz and Marius Lindauer and Ziawasch Abedjan | (参考訳) タスクに対する機械学習パイプラインの最適化には、さまざまなハイパーパラメータの慎重な設定が必要で、通常は、トレーニングデータセットのハイパーパラメータを最適化するAutoMLシステムによってサポートされている。
しかし、AutoMLシステム自身の2階のメタ設定に依存するため、AutoMLプロセスのパフォーマンスは大幅に異なる可能性がある。
現在のAutoMLシステムは、独自の設定を特定のユースケースに自動的に適応することはできない。
さらに、パイプラインとその生成の有効性と効率に関するユーザ定義のアプリケーション制約をコンパイルすることはできない。
本稿では,メタラーニングを用いて,検索戦略や検証戦略,検索空間など,独自のAutoMLパラメータを手作業で自動的に適用するCamlを提案する。
Camlの動的AutoML戦略は、ユーザ定義の制約を考慮に入れ、高い予測性能で制約を満たすパイプラインを得る。 Optimizing a machine learning pipeline for a task at hand requires careful configuration of various hyperparameters, typically supported by an AutoML system that optimizes the hyperparameters for the given training dataset. Yet, depending on the AutoML system's own second-order meta-configuration, the performance of the AutoML process can vary significantly. Current AutoML systems cannot automatically adapt their own configuration to a specific use case. Further, they cannot compile user-defined application constraints on the effectiveness and efficiency of the pipeline and its generation. In this paper, we propose Caml, which uses meta-learning to automatically adapt its own AutoML parameters, such as the search strategy, the validation strategy, and the search space, for a task at hand. The dynamic AutoML strategy of Caml takes user-defined constraints into account and obtains constraint-satisfying pipelines with high predictive performance. | 翻訳日:2023-06-30 13:27:29 公開日:2023-06-29 |
# マルチモーダルデータセットに対する数値データインプテーション:確率的最接近核密度アプローチ Numerical Data Imputation for Multimodal Data Sets: A Probabilistic Nearest-Neighbor Kernel Density Approach ( http://arxiv.org/abs/2306.16906v1 ) ライセンス: Link先を確認 | Floria Lalande and Kenji Doya | (参考訳) 数値データインプテーションアルゴリズムは、欠落した値を推定で置き換え、不完全なデータセットを活用する。
現在の計算法は、観測されていない基底真理と暗示値との誤差を最小化する。
しかし、この戦略はマルチモーダル分布や複雑な分布の存在下では、悪影響をもたらすアーティファクトを生み出す可能性がある。
この問題に対処するために、近辺推定(k$NN)と密度推定(KDE)を組み合わせたデータ計算法である$k$NN$\times$KDEアルゴリズムを導入する。
異なるデータ欠落シナリオと様々なデータ欠落率を有する人工的および実世界のデータを用いた従来のデータインプテーション手法と比較し,本手法が複雑なオリジナルデータ構造に対応し,データインプテーション誤差を低減し,確率的推定を現在の手法よりも高い確率で提供することを示す。
コードはオープンソースでコミュニティ向けにリリースします。 https://github.com/deltafloflo/knnxkde Numerical data imputation algorithms replace missing values by estimates to leverage incomplete data sets. Current imputation methods seek to minimize the error between the unobserved ground truth and the imputed values. But this strategy can create artifacts leading to poor imputation in the presence of multimodal or complex distributions. To tackle this problem, we introduce the $k$NN$\times$KDE algorithm: a data imputation method combining nearest neighbor estimation ($k$NN) and density estimation with Gaussian kernels (KDE). We compare our method with previous data imputation methods using artificial and real-world data with different data missing scenarios and various data missing rates, and show that our method can cope with complex original data structure, yields lower data imputation errors, and provides probabilistic estimates with higher likelihood than current methods. We release the code in open-source for the community: https://github.com/DeltaFloflo/knnxkde | 翻訳日:2023-06-30 13:27:17 公開日:2023-06-29 |
# ASRデコードのためのクロスユーザコンテキストの活用 Leveraging Cross-Utterance Context For ASR Decoding ( http://arxiv.org/abs/2306.16903v1 ) ライセンス: Link先を確認 | Robert Flynn and Anton Ragni | (参考訳) 外部言語モデル(LM)は、しばしば自動音声認識システムの復号段階に組み込まれるが、これらのモデルは通常、限られた文脈で機能する。
クロス発話情報は第2パスの再スコーリング中に有益であることが示されているが、これは第1パスlmで利用可能な局所情報に基づいて仮説空間を制限する。
本研究では,ビームサーチによる音響モデルのクロス発話復号化のための長文変換器LMの導入について検討し,n-best再構成の結果との比較を行った。
その結果,ビームサーチにより,発話コンテキストの改善が可能となった。
長いフォーマットのデータセットAMIを評価すると、単一の発話設定と比較して、開発とテストセットに対して0.7\%と0.3\%の絶対的な減少を示し、以前のコンテキストの最大500トークンを含むと改善される。
tedlium-1に対する評価も提供されており、大幅な改善は0.1\%程度である。 While external language models (LMs) are often incorporated into the decoding stage of automated speech recognition systems, these models usually operate with limited context. Cross utterance information has been shown to be beneficial during second pass re-scoring, however this limits the hypothesis space based on the local information available to the first pass LM. In this work, we investigate the incorporation of long-context transformer LMs for cross-utterance decoding of acoustic models via beam search, and compare against results from n-best rescoring. Results demonstrate that beam search allows for an improved use of cross-utterance context. When evaluating on the long-format dataset AMI, results show a 0.7\% and 0.3\% absolute reduction on dev and test sets compared to the single-utterance setting, with improvements when including up to 500 tokens of prior context. Evaluations are also provided for Tedlium-1 with less significant improvements of around 0.1\% absolute. | 翻訳日:2023-06-30 13:26:59 公開日:2023-06-29 |
# クエリツールから因果アーキテクトへ:データから先進的な因果発見のための大規模言語モデル From Query Tools to Causal Architects: Harnessing Large Language Models for Advanced Causal Discovery from Data ( http://arxiv.org/abs/2306.16902v1 ) ライセンス: Link先を確認 | Taiyu Ban, Lyvzhou Chen, Xiangyu Wang, Huanhuan Chen | (参考訳) 大規模言語モデル (LLMs) は、医学、科学、法律など、社会に影響を及ぼす多くの領域における概念間の因果解析の優れた能力を示す。
様々な因果発見および推論タスクにおけるLLM性能に関する最近の研究は、因果関係の古典的な3段階の枠組みに新たなはしごを生じさせている。
本稿では,知識に基づくllm因果分析とデータ駆動因果構造学習を組み合わせた新しいフレームワークを提案することにより,llmによる因果発見の最近の研究を前進させる。
LLMを問合せツール以上のものにするとともに, 因果関係の自然法則や新法則の発見にその力を生かし, 既存の因果関係の貴重な専門知識を客観的データの統計的分析に統合し, 因果構造学習のための新しい実践的基盤を構築する。
本稿では,与えられた変数から因果グラフを抽出し,llm事前因果関係がデータからの因果構造回復に与える影響を評価するためのプロンプトセットを提案する。
我々は、データから復元された因果構造の品質に関するLLMの専門知識の大幅な向上を実証するとともに、それらに対処する潜在的アプローチとともに、重要な課題と課題を特定した。
先駆的な研究として,LLMが古典的因果発見と推論のために開きつつある新たなフロンティアを強調し,データ駆動因果解析におけるLLM機能の普及を促進することを目的とする。 Large Language Models (LLMs) exhibit exceptional abilities for causal analysis between concepts in numerous societally impactful domains, including medicine, science, and law. Recent research on LLM performance in various causal discovery and inference tasks has given rise to a new ladder in the classical three-stage framework of causality. In this paper, we advance the current research of LLM-driven causal discovery by proposing a novel framework that combines knowledge-based LLM causal analysis with data-driven causal structure learning. To make LLM more than a query tool and to leverage its power in discovering natural and new laws of causality, we integrate the valuable LLM expertise on existing causal mechanisms into statistical analysis of objective data to build a novel and practical baseline for causal structure learning. We introduce a universal set of prompts designed to extract causal graphs from given variables and assess the influence of LLM prior causality on recovering causal structures from data. We demonstrate the significant enhancement of LLM expertise on the quality of recovered causal structures from data, while also identifying critical challenges and issues, along with potential approaches to address them. As a pioneering study, this paper aims to emphasize the new frontier that LLMs are opening for classical causal discovery and inference, and to encourage the widespread adoption of LLM capabilities in data-driven causal analysis. | 翻訳日:2023-06-30 13:26:42 公開日:2023-06-29 |
# 空腹nlp研究の実態調査(dis)と課題 Surveying (Dis)Parities and Concerns of Compute Hungry NLP Research ( http://arxiv.org/abs/2306.16900v1 ) ライセンス: Link先を確認 | Ji-Ung Lee, Haritz Puerto, Betty van Aken, Yuki Arase, Jessica Zosa Forde, Leon Derczynski, Andreas R\"uckl\'e, Iryna Gurevych, Roy Schwartz, Emma Strubell, Jesse Dodge | (参考訳) NLPの最近の多くの改良は、数十億のパラメータを持つ大規模事前学習言語モデル(PLM)の開発と使用に起因している。
大きなモデルサイズは、計算コストをそのようなモデルを訓練し評価するための主な制限要素にし、plmの研究の持続可能性、再現性、包括性に関する深刻な懸念を提起している。
これらの懸念はしばしば個人的な経験と観察に基づいている。
しかし、それらを調査する大規模な調査は行われていなかった。
本研究は, 環境影響, 株式, ピアレビューの影響の3つのトピックについて, これらの懸念を定量化するための最初の試みである。
NLPコミュニティから312人の参加者を対象に調査を行い、高齢者、アカデミア、産業におけるグループ内およびグループ内における既存(格差)と、それらがピアレビュープロセスに与える影響を把握した。
それぞれのトピックについて分析を行い、発見された格差を軽減するためのレコメンデーションを作成します。
最後に、自由テキスト応答における多くの参加者による追加の懸念について論じる。 Many recent improvements in NLP stem from the development and use of large pre-trained language models (PLMs) with billions of parameters. Large model sizes makes computational cost one of the main limiting factors for training and evaluating such models; and has raised severe concerns about the sustainability, reproducibility, and inclusiveness for researching PLMs. These concerns are often based on personal experiences and observations. However, there had not been any large-scale surveys that investigate them. In this work, we provide a first attempt to quantify these concerns regarding three topics, namely, environmental impact, equity, and impact on peer reviewing. By conducting a survey with 312 participants from the NLP community, we capture existing (dis)parities between different and within groups with respect to seniority, academia, and industry; and their impact on the peer reviewing process. For each topic, we provide an analysis and devise recommendations to mitigate found disparities, some of which already successfully implemented. Finally, we discuss additional concerns raised by many participants in free-text responses. | 翻訳日:2023-06-30 13:26:16 公開日:2023-06-29 |
# 不連続ガレルキン時間領域法を用いた高精度カシミール・ポルダー力計算 High-accuracy Casimir-Polder force calculations using the Discontinuous Galerkin Time-Domain method ( http://arxiv.org/abs/2306.16939v1 ) ライセンス: Link先を確認 | Philip Tr{\o}st Kristensen, Bettina Beverungen, Francesco Intravaia, Kurt Busch | (参考訳) マイクロ構造材料近傍のカシミール・ポルダー力の高精度計算のための数値時間領域アプローチについて述べる。
時間領域の定式化を用いることで、非局所応答関数を含む高度な材料モデルによって記述された幅広い材料を調査することができる。
そこで,本手法の収束特性を徹底的に検証したいくつかの例を用いて検証を行い,解析的基準計算と比較すると,平均相対誤差は100万分の1程度であることがわかった。
応用例として,流体力学ドローモデルにより記述された鋭い金くさび近傍のカシミール・ポルダー力の異方性誘起反発挙動について検討する。 We describe a numerical time-domain approach for high-accuracy calculations of Casimir-Polder forces near micro-structured materials. The use of a time-domain formulation enables the investigation of a broad range of materials described by advanced material models, including nonlocal response functions. We validate the method by a number of example calculations for which we thoroughly investigate the convergence properties of the method, and comparing to analytical reference calculations, we find average relative errors as low as a few parts in a million. As an application example, we investigate the anisotropy-induced repulsive behavior of the Casimir-Polder force near a sharp gold wedge described by a hydrodynamic Drude model. | 翻訳日:2023-06-30 13:21:22 公開日:2023-06-29 |
# 等価ニューラルネットワークを用いた翻訳の復元 Restore Translation Using Equivariant Neural Networks ( http://arxiv.org/abs/2306.16938v1 ) ライセンス: Link先を確認 | Yihan Wang and Lijia Yu and Xiao-Shan Gao | (参考訳) 翻訳や回転などの空間変換への不変性は、ニューラルネットワークを分類するための望ましい性質と基本的な設計原理である。
しかし、一般的に使用される畳み込みニューラルネットワーク(cnns)は、実際には小さな翻訳にも非常に敏感である。
変換不変モデルを設計したり、変換を評価することで、正確なあるいは近似的な変換不変性を達成するための膨大な研究がある。
これらの作業は通常、標準CNNを変更し、標準データセットのパフォーマンスを損なう。
本稿では、分類器を変更する代わりに、同じデータセットの任意の分類器に入力される元の入力に変換された(あるいは回転された)入力を復元する事前分類器復元器を提案する。
復元子は、テンソル空間上の変換同変であるアフィン作用素に十分かつ必要な条件を与える理論的な結果に基づいている。 Invariance to spatial transformations such as translations and rotations is a desirable property and a basic design principle for classification neural networks. However, the commonly used convolutional neural networks (CNNs) are actually very sensitive to even small translations. There exist vast works to achieve exact or approximate transformation invariance by designing transformation-invariant models or assessing the transformations. These works usually make changes to the standard CNNs and harm the performance on standard datasets. In this paper, rather than modifying the classifier, we propose a pre-classifier restorer to recover translated (or even rotated) inputs to the original ones which will be fed into any classifier for the same dataset. The restorer is based on a theoretical result which gives a sufficient and necessary condition for an affine operator to be translational equivariant on a tensor space. | 翻訳日:2023-06-30 13:21:10 公開日:2023-06-29 |
# DreamDiffusion:脳波信号から高画質画像を生成する DreamDiffusion: Generating High-Quality Images from Brain EEG Signals ( http://arxiv.org/abs/2306.16934v1 ) ライセンス: Link先を確認 | Yunpeng Bai, Xintao Wang, Yanpei Cao, Yixiao Ge, Chun Yuan, Ying Shan | (参考訳) 本稿では,脳脳波(EEG)信号から直接,思考をテキストに変換することなく高品質な画像を生成する新しい手法であるDreamDiffusionを紹介する。
DreamDiffusionは、事前訓練されたテキスト・ツー・イメージモデルを活用し、時間マスキング信号モデリングを使用して、効果的で堅牢なEEG表現のためにEEGエンコーダを事前訓練する。
さらに、この方法は、CLIPイメージエンコーダを活用して、EEG、テキスト、画像埋め込みを限られたEEGイメージペアでより良く整合させることができる。
総じて,提案手法は,ノイズや情報量,個人差などの画像生成に脳波信号を使用するという課題を克服し,有望な結果を得る。
定量的および定性的な結果から,提案手法の有効性は,コンピュータビジョンや神経科学に応用可能な,ポータブルで低コストな「思考からイメージ」に向けた重要なステップであることが示された。 This paper introduces DreamDiffusion, a novel method for generating high-quality images directly from brain electroencephalogram (EEG) signals, without the need to translate thoughts into text. DreamDiffusion leverages pre-trained text-to-image models and employs temporal masked signal modeling to pre-train the EEG encoder for effective and robust EEG representations. Additionally, the method further leverages the CLIP image encoder to provide extra supervision to better align EEG, text, and image embeddings with limited EEG-image pairs. Overall, the proposed method overcomes the challenges of using EEG signals for image generation, such as noise, limited information, and individual differences, and achieves promising results. Quantitative and qualitative results demonstrate the effectiveness of the proposed method as a significant step towards portable and low-cost ``thoughts-to-image'', with potential applications in neuroscience and computer vision. | 翻訳日:2023-06-30 13:20:57 公開日:2023-06-29 |
# UMASS_BioNLP at MEDIQA-Chat 2023: LLMsは高品質なノート指向の医師と患者との会話を生成できるか? UMASS_BioNLP at MEDIQA-Chat 2023: Can LLMs generate high-quality synthetic note-oriented doctor-patient conversations? ( http://arxiv.org/abs/2306.16931v1 ) ライセンス: Link先を確認 | Junda Wang, Zonghai Yao, Avijit Mitra, Samuel Osebe, Zhichao Yang, Hong Yu | (参考訳) 本稿では,タスクAとタスクCの共有タスクであるMEDIQA-Chat 2023に参加するUMASS_BioNLPチームについて述べる。
特にtask-cに着目し,質の高い会話データセットを生成するために,医師・患者連携ループと呼ばれる新しいllms協調システムを提案する。
実験の結果, ROUGE, 医療コンセプトリコール, BLEU, 自己BLEUなどの自動測定値から, 適切な評価値が得られることがわかった。
さらに,提案手法とChatGPT, GPT-4の比較分析を行った。
この分析は、高品質なデータセットを生成するために協調LLMを利用する可能性についても検討する。 This paper presents UMASS_BioNLP team participation in the MEDIQA-Chat 2023 shared task for Task-A and Task-C. We focus especially on Task-C and propose a novel LLMs cooperation system named a doctor-patient loop to generate high-quality conversation data sets. The experiment results demonstrate that our approaches yield reasonable performance as evaluated by automatic metrics such as ROUGE, medical concept recall, BLEU, and Self-BLEU. Furthermore, we conducted a comparative analysis between our proposed method and ChatGPT and GPT-4. This analysis also investigates the potential of utilizing cooperation LLMs to generate high-quality datasets. | 翻訳日:2023-06-30 13:20:28 公開日:2023-06-29 |
# one-2-3-45: 1つの画像から3dメッシュまでを45秒で最適化 One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization ( http://arxiv.org/abs/2306.16928v1 ) ライセンス: Link先を確認 | Minghua Liu, Chao Xu, Haian Jin, Linghao Chen, Mukund Varma T, Zexiang Xu, Hao Su | (参考訳) 単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題だが難しい課題である。
既存の手法の多くは、2次元拡散モデルの指導の下でニューラルネットワークの放射場を最適化するが、長い最適化時間、3次元不整合結果、貧弱な幾何学に苦しむ。
本研究では,任意の物体の1つの画像を入力として取り込み,単一のフィードフォワードパスで完全な360度3Dテクスチャメッシュを生成する手法を提案する。
1つの画像が与えられた場合、まずビュー条件付き2次元拡散モデルZero123を用いて、入力ビュー用のマルチビュー画像を生成し、それからそれを3次元空間に引き上げる。
従来の再構成手法は一貫性のないマルチビュー予測に苦慮しているため,SDFに基づく一般化可能なニューラルサーフェス再構成法に基づいて3次元再構成モジュールを構築し,360度メッシュの再構築を可能にするための重要なトレーニング戦略を提案する。
コストのかかる最適化がなければ,既存の手法よりもはるかに少ない時間で3次元形状を再構成する。
さらに,より優れた幾何学を好み,さらに3次元の一貫性のある結果を生成し,入力画像に密着する。
我々は,合成データとインザ・ワイルド画像の両方に対するアプローチを評価し,メッシュ品質とランタイムの両面でその優位性を示す。
さらに,本手法は,既成のテキストから画像への拡散モデルと統合することにより,テキストから3dへのタスクをシームレスにサポートする。 Single image 3D reconstruction is an important but challenging task that requires extensive knowledge of our natural world. Many existing methods solve this problem by optimizing a neural radiance field under the guidance of 2D diffusion models but suffer from lengthy optimization time, 3D inconsistency results, and poor geometry. In this work, we propose a novel method that takes a single image of any object as input and generates a full 360-degree 3D textured mesh in a single feed-forward pass. Given a single image, we first use a view-conditioned 2D diffusion model, Zero123, to generate multi-view images for the input view, and then aim to lift them up to 3D space. Since traditional reconstruction methods struggle with inconsistent multi-view predictions, we build our 3D reconstruction module upon an SDF-based generalizable neural surface reconstruction method and propose several critical training strategies to enable the reconstruction of 360-degree meshes. Without costly optimizations, our method reconstructs 3D shapes in significantly less time than existing methods. Moreover, our method favors better geometry, generates more 3D consistent results, and adheres more closely to the input image. We evaluate our approach on both synthetic data and in-the-wild images and demonstrate its superiority in terms of both mesh quality and runtime. In addition, our approach can seamlessly support the text-to-3D task by integrating with off-the-shelf text-to-image diffusion models. | 翻訳日:2023-06-30 13:20:10 公開日:2023-06-29 |
# エンドツーエンドの自動運転:挑戦とフロンティア End-to-end Autonomous Driving: Challenges and Frontiers ( http://arxiv.org/abs/2306.16927v1 ) ライセンス: Link先を確認 | Li Chen, Penghao Wu, Kashyap Chitta, Bernhard Jaeger, Andreas Geiger, Hongyang Li | (参考訳) 自動運転車コミュニティは、検出やモーション予測といった個々のタスクに集中するのではなく、生のセンサー入力を使用して車両の動き計画を生成する、エンドツーエンドのアルゴリズムフレームワークを採用するアプローチの急速な成長を目撃している。
モジュールパイプラインと比較して、エンドツーエンドのシステムは、知覚と計画のための共同機能最適化の恩恵を受ける。
この分野は、大規模データセットの可用性、クローズドループ評価、挑戦的なシナリオで効果的に機能する自動運転アルゴリズムの必要性の増加によって繁栄している。
本調査では,250以上の論文の総合的な分析を行い,エンドツーエンド自動運転におけるモチベーション,ロードマップ,方法論,課題,今後の動向について紹介する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
さらに、基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
今後の研究を容易にするため、関連する文献やオープンソースプロジェクトへの最新のリンクを含むアクティブリポジトリをhttps://github.com/OpenDriveLab/End-to-end-Autonomous-Drivingで維持しています。 The autonomous driving community has witnessed a rapid growth in approaches that embrace an end-to-end algorithm framework, utilizing raw sensor input to generate vehicle motion plans, instead of concentrating on individual tasks such as detection and motion prediction. End-to-end systems, in comparison to modular pipelines, benefit from joint feature optimization for perception and planning. This field has flourished due to the availability of large-scale datasets, closed-loop evaluation, and the increasing need for autonomous driving algorithms to perform effectively in challenging scenarios. In this survey, we provide a comprehensive analysis of more than 250 papers, covering the motivation, roadmap, methodology, challenges, and future trends in end-to-end autonomous driving. We delve into several critical challenges, including multi-modality, interpretability, causal confusion, robustness, and world models, amongst others. Additionally, we discuss current advancements in foundation models and visual pre-training, as well as how to incorporate these techniques within the end-to-end driving framework. To facilitate future research, we maintain an active repository that contains up-to-date links to relevant literature and open-source projects at https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving. | 翻訳日:2023-06-30 13:19:19 公開日:2023-06-29 |
# OSP: 2段階同期による分散モデルトレーニングの強化 OSP: Boosting Distributed Model Training with 2-stage Synchronization ( http://arxiv.org/abs/2306.16926v1 ) ライセンス: Link先を確認 | Zixuan Chen, Lei Shi, Xuandong Liu, Jiahui Li, Sen Liu, Yang Xu | (参考訳) 分散ディープラーニング(DDL)は、データセットとモデルの大きなサイズでディープラーニングタスクをトレーニングする効率を高めることを目的とした、有望な研究分野である。
DDLノードの計算能力が向上し続けており、ノード間のネットワーク接続が大きなボトルネックとなっている。
パラメータサーバベースのDDLにおいて、このボトルネックに対処するために、勾配圧縮の様々な手法とモデル同期の改善が提案されている。
しかし、これら2つの手法は、廃棄された勾配による精度の損失を生じさせ、それぞれモデル同期のスループットを低下させる可能性がある。
これらの課題に対処するために,2段階同期方式による効率的な通信を実現し,局所勾配パラメータ補正 (lgp) を用いて,staleパラメータによる精度損失を回避する新しいモデル同期法,ospを提案する。
OSPのプロトタイプはPyTorchを使用して実装され、9ノードテストベッドで一般的に使用されるディープラーニングモデルとデータセットで評価されている。
評価の結果,OSPは一般的な同期モデルと比較して,精度の低下を伴わずに最大50%のスループット向上を実現可能であることがわかった。 Distributed deep learning (DDL) is a promising research area, which aims to increase the efficiency of training deep learning tasks with large size of datasets and models. As the computation capability of DDL nodes continues to increase, the network connection between nodes is becoming a major bottleneck. Various methods of gradient compression and improved model synchronization have been proposed to address this bottleneck in Parameter-Server-based DDL. However, these two types of methods can result in accuracy loss due to discarded gradients and have limited enhancement on the throughput of model synchronization, respectively. To address these challenges, we propose a new model synchronization method named Overlapped Synchronization Parallel (OSP), which achieves efficient communication with a 2-stage synchronization approach and uses Local-Gradient-based Parameter correction (LGP) to avoid accuracy loss caused by stale parameters. The prototype of OSP has been implemented using PyTorch and evaluated on commonly used deep learning models and datasets with a 9-node testbed. Evaluation results show that OSP can achieve up to 50\% improvement in throughput without accuracy loss compared to popular synchronization models. | 翻訳日:2023-06-30 13:18:41 公開日:2023-06-29 |
# MIS-FM:大規模無注釈データセットを用いた基礎モデルを用いた3次元医用画像分割 MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained on a Large-Scale Unannotated Dataset ( http://arxiv.org/abs/2306.16925v1 ) ライセンス: Link先を確認 | Guotai Wang, Jianghao Wu, Xiangde Luo, Xinglong Liu, Kang Li, Shaoting Zhang | (参考訳) 大規模3Dボリュームでの事前トレーニングは、トレーニング画像とアノテーションが制限されたターゲットの医療画像データセットにおけるセグメンテーション性能を改善する可能性がある。
大規模事前学習データセットにおける画素レベルのセグメンテーションアノテーションの取得コストが高いため,未指定画像による事前学習が望ましい。
本研究では,3次元セグメンテーションモデルを事前学習するための,VF(Volume Fusion)と呼ばれる新しい自己教師型学習戦略を提案する。
予め定義された離散的融合係数のセットに基づいて、前景のサブボリュームから背景のサブボリュームへのランダムなパッチを融合させ、手動アノテーションなしで自己教師付き分割タスクとして定式化された各ボクセルの融合係数をモデルに予測させる。
さらに,臓器や病変のスケールの異なる下流セグメンテーションタスクに移行するのに適した並列畳み込みと変圧器ブロックに基づく新しいネットワークアーキテクチャを提案する。
頭頸部,胸腹部,胸部,腹部など,異なる下流領域を対象とする実験により,本モデルがスクラッチからトレーニングに優れており,また,いくつかの最先端の自己管理訓練方法やセグメンテーションモデルも有意な成績を示した。
コードと事前トレーニングされたモデルはhttps://github.com/openmedlab/mis-fmで入手できる。 Pretraining with large-scale 3D volumes has a potential for improving the segmentation performance on a target medical image dataset where the training images and annotations are limited. Due to the high cost of acquiring pixel-level segmentation annotations on the large-scale pretraining dataset, pretraining with unannotated images is highly desirable. In this work, we propose a novel self-supervised learning strategy named Volume Fusion (VF) for pretraining 3D segmentation models. It fuses several random patches from a foreground sub-volume to a background sub-volume based on a predefined set of discrete fusion coefficients, and forces the model to predict the fusion coefficient of each voxel, which is formulated as a self-supervised segmentation task without manual annotations. Additionally, we propose a novel network architecture based on parallel convolution and transformer blocks that is suitable to be transferred to different downstream segmentation tasks with various scales of organs and lesions. The proposed model was pretrained with 110k unannotated 3D CT volumes, and experiments with different downstream segmentation targets including head and neck organs, thoracic/abdominal organs showed that our pretrained model largely outperformed training from scratch and several state-of-the-art self-supervised training methods and segmentation models. The code and pretrained model are available at https://github.com/openmedlab/MIS-FM. | 翻訳日:2023-06-30 13:18:20 公開日:2023-06-29 |
# nautilus:ディープラーニングによるベイズの重要性向上 NAUTILUS: boosting Bayesian importance nested sampling with deep learning ( http://arxiv.org/abs/2306.16923v1 ) ライセンス: Link先を確認 | Johannes U. Lange | (参考訳) 本研究では,ベイジアン後部における重要ネストサンプリング(INS)手法の効率化と深層学習を用いたエビデンス推定手法を提案する。
バニラネストサンプリング(NS)やマルコフ連鎖モンテカルロ(MCMC)アルゴリズムのような拒絶に基づくサンプリング手法とは異なり、重要サンプリング技術は後部および証拠推定にすべての可能性評価を使うことができる。
しかし、効率的なサンプリングには、後方分布をよく模倣した提案分布が必要である。
この課題を達成するために,ニューラルネットワーク回帰による ins とディープラーニングを組み合わせる方法を示す。
ベイジアン後方およびエビデンス推定のためのこの技術のリファレンスオープンソースpython実装であるnautilusも紹介する。
我々はnautilusをemcee、dynesty、ultranest、pocomcなどの一般的なnsおよびmcmcパッケージと比較し、様々な挑戦的な合成問題と、太陽系外惑星検出、銀河sedフィッティング、宇宙論における現実世界の応用について比較した。
すべてのアプリケーションにおいて、NAUTILUSのサンプリング効率は、他のすべてのサンプルよりもかなり高く、多くの場合、桁違いに高い。
同時に、NAUTILUSは極めて正確な結果を提供し、テストされた他の全てのサンプルよりも可能性の低い評価を必要とする。
また、NAUTILUSは、可能性の次元に優れたスケーリングを持ち、多くのCPUに容易に並列化可能であることを示す。 We introduce a novel approach to boost the efficiency of the importance nested sampling (INS) technique for Bayesian posterior and evidence estimation using deep learning. Unlike rejection-based sampling methods such as vanilla nested sampling (NS) or Markov chain Monte Carlo (MCMC) algorithms, importance sampling techniques can use all likelihood evaluations for posterior and evidence estimation. However, for efficient importance sampling, one needs proposal distributions that closely mimic the posterior distributions. We show how to combine INS with deep learning via neural network regression to accomplish this task. We also introduce NAUTILUS, a reference open-source Python implementation of this technique for Bayesian posterior and evidence estimation. We compare NAUTILUS against popular NS and MCMC packages, including EMCEE, DYNESTY, ULTRANEST and POCOMC, on a variety of challenging synthetic problems and real-world applications in exoplanet detection, galaxy SED fitting and cosmology. In all applications, the sampling efficiency of NAUTILUS is substantially higher than that of all other samplers, often by more than an order of magnitude. Simultaneously, NAUTILUS delivers highly accurate results and needs fewer likelihood evaluations than all other samplers tested. We also show that NAUTILUS has good scaling with the dimensionality of the likelihood and is easily parallelizable to many CPUs. | 翻訳日:2023-06-30 13:17:52 公開日:2023-06-29 |
# 混合入力を用いたパリティ目標に対するカリキュラム学習の有用性 Provable Advantage of Curriculum Learning on Parity Targets with Mixed Inputs ( http://arxiv.org/abs/2306.16921v1 ) ライセンス: Link先を確認 | Emmanuel Abbe, Elisabetta Cornacchia, Aryo Lotfi | (参考訳) 実験結果から, カリキュラム学習, すなわち, より複雑なものよりも簡単な例を提示することで, 学習効率が向上することが示唆された。
最近の理論的な結果は、サンプリング分布を変えることでニューラルネットワークがパリティを学習するのに役立つことも示している。
Here we show a separation result in the number of training steps with standard (bounded) learning rates on a common sample distribution: if the data distribution is a mixture of sparse and dense inputs, there exists a regime in which a 2-layer ReLU neural network trained by a curriculum noisy-GD (or SGD) algorithm that uses sparse examples first, can learn parities of sufficiently large degree, while any fully connected neural network of possibly larger width or depth trained by noisy-GD on the unordered samples cannot learn without additional steps.
また,理論結果の特定の構成を超えた質的分離を支援する実験結果を提供する。 Experimental results have shown that curriculum learning, i.e., presenting simpler examples before more complex ones, can improve the efficiency of learning. Some recent theoretical results also showed that changing the sampling distribution can help neural networks learn parities, with formal results only for large learning rates and one-step arguments. Here we show a separation result in the number of training steps with standard (bounded) learning rates on a common sample distribution: if the data distribution is a mixture of sparse and dense inputs, there exists a regime in which a 2-layer ReLU neural network trained by a curriculum noisy-GD (or SGD) algorithm that uses sparse examples first, can learn parities of sufficiently large degree, while any fully connected neural network of possibly larger width or depth trained by noisy-GD on the unordered samples cannot learn without additional steps. We also provide experimental results supporting the qualitative separation beyond the specific regime of the theoretical results. | 翻訳日:2023-06-30 13:17:26 公開日:2023-06-29 |
# ベイズ境界補正によるブラックボックス識別 Defending Black-box Classifiers by Bayesian Boundary Correction ( http://arxiv.org/abs/2306.16979v1 ) ライセンス: Link先を確認 | He Wang and Yunfeng Diao | (参考訳) ディープニューラルネットワークに基づく分類器は、現在広く存在する脆弱性が潜在的な脅威からそれらを守るために研究を呼び起こしている敵の攻撃によって、最近挑戦されている。
脆弱な分類器が与えられた場合、既存の防御メソッドはほとんどがホワイトボックスであり、しばしば修正された損失関数/訓練レジームの下で被害者を再訓練する必要がある。
被害者のモデル/データ/トレーニング仕様は、通常はユーザーには利用できないが、限られた計算リソースなどの理由で、再トレーニングは不可能である。
そこで我々は,新しいブラックボックス防衛フレームワークを提案する。
事前訓練された分類器を、モデル仕様に関する知識がほとんどない回復力のあるものにすることができる。
これは、それらの結合確率を最大化するために、クリーンデータ、逆例、および分類器に関する新しい共同ベイズ処理によって達成される。
さらに、犠牲者を無傷に保つ新しいポストトレイン戦略も装備されている。
我々はベイズ境界補正フレームワーク(bbc)と命名する。
BBCは、さまざまなデータタイプに容易に適応できる汎用的で柔軟なフレームワークである。
我々は,静的データと動的データの両方に対して,画像分類と骨格に基づく人間の活動認識のためにBBCをインスタンス化する。
徹底的な評価の結果、bbcは従来の防御方法に比べて、堅牢性が優れており、クリーンな精度を損なうことなく堅牢性を高めることができることがわかった。 Classifiers based on deep neural networks have been recently challenged by Adversarial Attack, where the widely existing vulnerability has invoked the research in defending them from potential threats. Given a vulnerable classifier, existing defense methods are mostly white-box and often require re-training the victim under modified loss functions/training regimes. While the model/data/training specifics of the victim are usually unavailable to the user, re-training is unappealing, if not impossible for reasons such as limited computational resources. To this end, we propose a new black-box defense framework. It can turn any pre-trained classifier into a resilient one with little knowledge of the model specifics. This is achieved by new joint Bayesian treatments on the clean data, the adversarial examples and the classifier, for maximizing their joint probability. It is further equipped with a new post-train strategy which keeps the victim intact. We name our framework Bayesian Boundary Correction (BBC). BBC is a general and flexible framework that can easily adapt to different data types. We instantiate BBC for image classification and skeleton-based human activity recognition, for both static and dynamic data. Exhaustive evaluation shows that BBC has superior robustness and can enhance robustness without severely hurting the clean accuracy, compared with existing defense methods. | 翻訳日:2023-06-30 13:09:58 公開日:2023-06-29 |
# 未知環境におけるオンライン被覆経路計画のためのエンドツーエンド強化学習 End-to-end Reinforcement Learning for Online Coverage Path Planning in Unknown Environments ( http://arxiv.org/abs/2306.16978v1 ) ライセンス: Link先を確認 | Arvi Jonnarth, Jie Zhao, Michael Felsberg | (参考訳) カバレッジパスプランニングは、与えられた制限領域のフリースペース全体をカバーする最短経路を見つけるための問題であり、ロボット芝刈りや掃除機、デミングや検索・検索といった応用がある。
オフラインメソッドは、確実に完了し、場合によっては、既知の環境に最適なパスを見つけることができるが、その価値は、環境が事前に知られていないオンラインシナリオ、特に静的な障害が存在する場合に限定される。
本研究では、未知環境に対処可能なオンラインカバレッジパス計画問題に対して、連続状態と行動空間におけるエンドツーエンド強化学習に基づくアプローチを提案する。
我々は,グローバルマップと局所感覚入力の両方から観測空間を構築し,エージェントが長期経路を計画できるようにし,同時に短期的障害物検出を行う。
大規模環境を考慮したマルチスケールマップ入力表現を提案する。
さらに,学習経路における露光空間の薄片を除去するための,新しい総変動報酬項を提案する。
提案手法の有効性を検証するため,最近の強化学習に基づく手法の性能を上回って,距離センサを用いたシミュレーション実験を行った。 Coverage path planning is the problem of finding the shortest path that covers the entire free space of a given confined area, with applications ranging from robotic lawn mowing and vacuum cleaning, to demining and search-and-rescue tasks. While offline methods can find provably complete, and in some cases optimal, paths for known environments, their value is limited in online scenarios where the environment is not known beforehand, especially in the presence of non-static obstacles. We propose an end-to-end reinforcement learning-based approach in continuous state and action space, for the online coverage path planning problem that can handle unknown environments. We construct the observation space from both global maps and local sensory inputs, allowing the agent to plan a long-term path, and simultaneously act on short-term obstacle detections. To account for large-scale environments, we propose to use a multi-scale map input representation. Furthermore, we propose a novel total variation reward term for eliminating thin strips of uncovered space in the learned path. To validate the effectiveness of our approach, we perform extensive experiments in simulation with a distance sensor, surpassing the performance of a recent reinforcement learning-based approach. | 翻訳日:2023-06-30 13:09:38 公開日:2023-06-29 |
# diffusion-jump gnn: 学習可能なメトリックフィルタによるホモフィリエーション Diffusion-Jump GNNs: Homophiliation via Learnable Metric Filters ( http://arxiv.org/abs/2306.16976v1 ) ライセンス: Link先を確認 | Ahmed Begga, Francisco Escolano, Miguel Angel Lozano, Edwin R. Hancock | (参考訳) 高次グラフニューラルネットワーク (HO-GNN) は, ラベル分布がグラフ構造と相関しない不均一な潜伏空間を推定するために開発された。
しかし、既存のHO-GNNのほとんどはホップベース、すなわち遷移行列のパワーに依存している。
その結果、これらのアーキテクチャは分類損失に対して完全には反応せず、得られた構造フィルタは静的にサポートされている。
言い換えれば、フィルタのサポートも係数もこれらのネットワークでは学習できない。
その代わりに、フィルターの組み合わせを学ぶために制限される。
上記の問題に対処するために, ジャンプに作用する漸近拡散距離に依存する拡散ジャンプgnnを提案する。
拡散ポンプは、各構造フィルタの支持と係数の両方を決定する対向距離を生成する。
これらのフィルタは、同じラベルを持つ散乱ノード間の結合を見つけるために幅広いスケールを探索するため、ジャンプと呼ばれる。
実際、完全なプロセスは分類損失によって制御される。
ジャンプと拡散距離の両方が分類誤差に反応する(つまり、それらは学習可能である)。
ホモフィル化(英: Homophiliation)、すなわち、ヘテロフィル的状態における断片的に滑らかな潜在空間を学習する過程は、ディリクレ問題として定式化される: 既知のラベルは境界ノードを決定し、拡散パンプは、半教師なし群と正準教師なし群との最小偏差を保証する。
これにより、拡散距離の両方が更新され、その結果、分類誤差を最小限に抑えるためにジャンプされる。
ディリクレの定式化にはいくつかの利点がある。
これは、エッジヘテロフィリーを超えた新しい尺度である構造ヘテロフィリーの定義につながる。
また、(学習可能な)拡散距離とのリンクを調査し、ランダムウォークと確率拡散を吸収する。 High-order Graph Neural Networks (HO-GNNs) have been developed to infer consistent latent spaces in the heterophilic regime, where the label distribution is not correlated with the graph structure. However, most of the existing HO-GNNs are hop-based, i.e., they rely on the powers of the transition matrix. As a result, these architectures are not fully reactive to the classification loss and the achieved structural filters have static supports. In other words, neither the filters' supports nor their coefficients can be learned with these networks. They are confined, instead, to learn combinations of filters. To address the above concerns, we propose Diffusion-jump GNNs a method relying on asymptotic diffusion distances that operates on jumps. A diffusion-pump generates pairwise distances whose projections determine both the support and coefficients of each structural filter. These filters are called jumps because they explore a wide range of scales in order to find bonds between scattered nodes with the same label. Actually, the full process is controlled by the classification loss. Both the jumps and the diffusion distances react to classification errors (i.e. they are learnable). Homophiliation, i.e., the process of learning piecewise smooth latent spaces in the heterophilic regime, is formulated as a Dirichlet problem: the known labels determine the border nodes and the diffusion-pump ensures a minimal deviation of the semi-supervised grouping from a canonical unsupervised grouping. This triggers the update of both the diffusion distances and, consequently, the jumps in order to minimize the classification error. The Dirichlet formulation has several advantages. It leads to the definition of structural heterophily, a novel measure beyond edge heterophily. It also allows us to investigate links with (learnable) diffusion distances, absorbing random walks and stochastic diffusion. | 翻訳日:2023-06-30 13:09:18 公開日:2023-06-29 |
# 要約因果グラフによる直接効果の同定可能性 Identifiability of direct effects from summary causal graphs ( http://arxiv.org/abs/2306.16958v1 ) ライセンス: Link先を確認 | Simon Ferreira and Charles K. Assaad | (参考訳) 動的構造因果モデル(scms)は、ある変数の変更が他の変数にどのように影響するかを計測し、他の変数を定数に保ちながら直接効果について、動的システムにおいて推論するための強力なフレームワークである。
動的構造因果モデルにおける因果関係は、フルタイム因果グラフで定性的に表すことができる。
線形性と因果係数を仮定し、フルタイム因果グラフを与えられた場合、直接因果効果は常に同定可能であり、いわゆる単一ドア基準によって与えられる変数の集合を調整してデータから推定することができる。
しかし、多くのアプリケーションでは、このようなグラフは様々な理由で利用できないが、それでも専門家は時系列間の因果関係を表すフルタイム因果グラフの抽象化にアクセスできる。
本稿では,その直接効果が要約因果グラフからグラフィカルに識別可能なすべての事例を特徴付ける完全識別可能性結果と,その直接効果が識別可能であれば,その直接効果を推定するために使用できる2つの健全な有限調整セットを与える。 Dynamic structural causal models (SCMs) are a powerful framework for reasoning in dynamic systems about direct effects which measure how a change in one variable affects another variable while holding all other variables constant. The causal relations in a dynamic structural causal model can be qualitatively represented with a full-time causal graph. Assuming linearity and causal sufficiency and given the full-time causal graph, the direct causal effect is always identifiable and can be estimated from data by adjusting on any set of variables given by the so-called single-door criterion. However, in many application such a graph is not available for various reasons but nevertheless experts have access to an abstraction of the full-time causal graph which represents causal relations between time series while omitting temporal information. This paper presents a complete identifiability result which characterizes all cases for which the direct effect is graphically identifiable from summary causal graphs and gives two sound finite adjustment sets that can be used to estimate the direct effect whenever it is identifiable. | 翻訳日:2023-06-30 13:08:46 公開日:2023-06-29 |
# ソースフリー非教師なしドメイン適応のための相互推論ネットワーク Cross-Inferential Networks for Source-free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2306.16957v1 ) ライセンス: Link先を確認 | Yushun Tang, Qinghai Guo, and Zhihai He | (参考訳) ソースフリー非教師付きドメイン適応(UDA)における中心的な課題は、ターゲット領域における適応型ネットワークモデルの予測結果を評価するための効果的なアプローチがないことである。
この課題に対処するために,クロス推論ネットワーク (CIN) と呼ばれる新しい手法を提案する。
我々の考えは、ネットワークモデルを用いて符号化された特徴からサンプルラベルを予測する際に、これらの予測結果を用いて、派生ラベルを用いた新しいトレーニングサンプルを構築し、ターゲットドメインで異なるが互換性のあるタスクを実行する新しい検査ネットワークを学ぶことである。
具体的には、ベースネットワークモデルの予測結果から、トレーニングラベルを注意深く構築したサンプルのトリプレットの相対順序付けを検査者ネットワークに指示しながら、ベースネットワークモデルが画像分類を行う。
2つの類似度尺度、ネットワーク間の相関行列類似度とアテンション整合性を開発し、UDAプロセスの重要なガイダンスを提供する。
ベンチマークデータを用いた実験の結果,提案手法はソースフリーUDAの性能を著しく向上させることができることが示された。 One central challenge in source-free unsupervised domain adaptation (UDA) is the lack of an effective approach to evaluate the prediction results of the adapted network model in the target domain. To address this challenge, we propose to explore a new method called cross-inferential networks (CIN). Our main idea is that, when we adapt the network model to predict the sample labels from encoded features, we use these prediction results to construct new training samples with derived labels to learn a new examiner network that performs a different but compatible task in the target domain. Specifically, in this work, the base network model is performing image classification while the examiner network is tasked to perform relative ordering of triplets of samples whose training labels are carefully constructed from the prediction results of the base network model. Two similarity measures, cross-network correlation matrix similarity and attention consistency, are then developed to provide important guidance for the UDA process. Our experimental results on benchmark datasets demonstrate that our proposed CIN approach can significantly improve the performance of source-free UDA. | 翻訳日:2023-06-30 13:08:28 公開日:2023-06-29 |
# MEMD-ABSA:アスペクトベース感性分析のための多要素マルチドメインデータセット MEMD-ABSA: A Multi-Element Multi-Domain Dataset for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2306.16956v1 ) ライセンス: Link先を確認 | Hongjie Cai, Nan Song, Zengzhi Wang, Qiming Xie, Qiankun Zhao, Ke Li, Siwei Wu, Shijie Liu, Jianfei Yu, Rui Xia | (参考訳) アスペクトベースの感情分析は、意見マイニング分野における長年の研究関心であり、近年は、単純なABSAサブタスクからエンドツーエンドのマルチ要素ABSAタスクへと焦点を移している。
しかし、この研究で現在使われているデータセットは特定のタスクの個々の要素に限られており、通常ドメイン内の設定に焦点を当て、暗黙的な側面や意見を無視し、小さなデータスケールを持つ。
これらの課題に対処するために,ABSA 研究の明示的かつ暗黙的な側面と意見を付加した 2 万近いレビュー文と 3 万の四重項を含む 5 つの領域にわたる 4 つの要素を網羅する大規模マルチエレメント・マルチドメイン・データセット (MEMD) を提案する。
一方,複数のabsaサブタスクにおける生成ベースラインと非生成ベースラインをオープンドメイン設定下で評価し,オープンドメインのabsaと暗黙的な側面や意見のマイニングが課題であることを示した。
データセットは \url{https://github.com/NUSTM/MEMD-ABSA} で公開されている。 Aspect-based sentiment analysis is a long-standing research interest in the field of opinion mining, and in recent years, researchers have gradually shifted their focus from simple ABSA subtasks to end-to-end multi-element ABSA tasks. However, the datasets currently used in the research are limited to individual elements of specific tasks, usually focusing on in-domain settings, ignoring implicit aspects and opinions, and with a small data scale. To address these issues, we propose a large-scale Multi-Element Multi-Domain dataset (MEMD) that covers the four elements across five domains, including nearly 20,000 review sentences and 30,000 quadruples annotated with explicit and implicit aspects and opinions for ABSA research. Meanwhile, we evaluate generative and non-generative baselines on multiple ABSA subtasks under the open domain setting, and the results show that open domain ABSA as well as mining implicit aspects and opinions remain ongoing challenges to be addressed. The datasets are publicly released at \url{https://github.com/NUSTM/MEMD-ABSA}. | 翻訳日:2023-06-30 13:08:07 公開日:2023-06-29 |
# グラフベースニューラルデコーダによる音楽階層の予測 Predicting Music Hierarchies with a Graph-Based Neural Decoder ( http://arxiv.org/abs/2306.16955v1 ) ライセンス: Link先を確認 | Francesco Foscarin, Daniel Harasim, Gerhard Widmer | (参考訳) 本稿では,音楽認知研究や音楽分析に使用される階層構造である依存関係木に音楽系列を解析するデータ駆動フレームワークについて述べる。
解析には2つのステップがある。
まず、入力シーケンスを変換器エンコーダに渡してコンテキスト情報で強化する。
そして、分類器が全ての可能な依存弧のグラフをフィルタリングして依存木を生成する。
このシステムの大きなメリットのひとつは、現代的なディープラーニングパイプラインに簡単に統合できることだ。
さらに、特定の記号文法に依存しないため、複数の音楽的特徴を同時に考慮し、逐次的文脈情報を使用し、ノイズのある入力に対する部分的な結果を生成することができる。
音符列の時間間隔木とジャズコード列のハーモニック木という2つの楽譜列のデータセットを用いて,本手法が従来の手法よりも優れていることを示す。 This paper describes a data-driven framework to parse musical sequences into dependency trees, which are hierarchical structures used in music cognition research and music analysis. The parsing involves two steps. First, the input sequence is passed through a transformer encoder to enrich it with contextual information. Then, a classifier filters the graph of all possible dependency arcs to produce the dependency tree. One major benefit of this system is that it can be easily integrated into modern deep-learning pipelines. Moreover, since it does not rely on any particular symbolic grammar, it can consider multiple musical features simultaneously, make use of sequential context information, and produce partial results for noisy inputs. We test our approach on two datasets of musical trees -- time-span trees of monophonic note sequences and harmonic trees of jazz chord sequences -- and show that our approach outperforms previous methods. | 翻訳日:2023-06-30 13:07:44 公開日:2023-06-29 |
# オルタナティブ・テレスコープ・アライメント:効率的なマルチモーダルアライメント法 Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method ( http://arxiv.org/abs/2306.16950v1 ) ライセンス: Link先を確認 | Jiahao Qin and Yitao Xu and Zihong Luo Chengzhi Liu and Zong Lu and Xiaojun Zhang | (参考訳) 特徴アライメントは、マルチモーダルデータを融合する主要な手段である。
本稿では,特徴情報を異なるモダリティから交互にシフト・拡張し,特徴空間に一貫した表現を持つマルチモーダル情報を完全に融合する特徴アライメント手法を提案する。
提案手法は,異なるモーダル特徴間の高レベル相互作用を頑健に捉え,マルチモーダル学習の性能を大幅に向上させることができる。
また,提案手法は,複数のタスクにおいて他の一般的なマルチモーダルスキームよりも優れていることを示す。
ETTとMIT-BIH-Arrhythmiaの実験的評価により,提案手法が技術性能の状態を達成していることを示す。 Feature alignment is the primary means of fusing multimodal data. We propose a feature alignment method that fully fuses multimodal information, which alternately shifts and expands feature information from different modalities to have a consistent representation in a feature space. The proposed method can robustly capture high-level interactions between features of different modalities, thus significantly improving the performance of multimodal learning. We also show that the proposed method outperforms other popular multimodal schemes on multiple tasks. Experimental evaluation of ETT and MIT-BIH-Arrhythmia, datasets shows that the proposed method achieves state of the art performance. | 翻訳日:2023-06-30 13:07:27 公開日:2023-06-29 |
# 寒冷原子を用いた光キャビティの普遍量子最適化 Universal Quantum Optimization with Cold Atoms in an Optical Cavity ( http://arxiv.org/abs/2306.16943v1 ) ライセンス: Link先を確認 | Meng Ye, Ye Tian, Jian Lin, Yuchen Luo, Jiaqi You, Jiazhong Hu, Wenjun Zhang, Wenlan Chen, Xiaopeng Li | (参考訳) 光キャビティ内の低温原子は、近年量子制御能力が急速に進歩している多体物理学の量子シミュレーションに広く利用されている。
ここでは、原子空洞系が任意の接続性を持つ量子最適化に普遍的であることを示す。
単一モードキャビティを考慮し、原子に対する工学的量子ハミルトニアンが数値分割問題(NPP)を直接符号化するラマンカップリング方式を開発する。
原子をキャビティ内の異なる位置に光学式ツイーザーで配置することにより、プログラム性がもたらされる。
NPP溶液は、フォトニックキャビティモードを介して結合された原子量子ビットの基底状態に符号化され、断熱量子コンピューティング(AQC)によって到達できる。
3satおよび頂点被覆問題の明示的なマッピングをキャビティシステムによって効率的に符号化し、原子量量子ビットの線形オーバーヘッドを負うように構成する。
原子空洞符号化はさらに2次非拘束バイナリ最適化(QUBO)問題に拡張される。
符号化プロトコルは、計算問題の2進数自由度数で、原子数スケーリングのコストにおいて最適である。
この理論は、原子空洞系は実用的な量子優位を求める有望な量子最適化プラットフォームであることを示唆している。 Cold atoms in an optical cavity have been widely used for quantum simulations of many-body physics, where the quantum control capability has been advancing rapidly in recent years. Here, we show the atom cavity system is universal for quantum optimization with arbitrary connectivity. We consider a single-mode cavity and develop a Raman coupling scheme by which the engineered quantum Hamiltonian for atoms directly encodes number partition problems (NPPs). The programmability is introduced by placing the atoms at different positions in the cavity with optical tweezers. The NPP solution is encoded in the ground state of atomic qubits coupled through a photonic cavity mode, that can be reached by adiabatic quantum computing (AQC). We construct an explicit mapping for the 3-SAT and vertex cover problems to be efficiently encoded by the cavity system, which costs linear overhead in the number of atomic qubits. The atom cavity encoding is further extended to quadratic unconstrained binary optimization (QUBO) problems. The encoding protocol is optimal in the cost of atom number scaling with the number of binary degrees of freedom of the computation problem. Our theory implies the atom cavity system is a promising quantum optimization platform searching for practical quantum advantage. | 翻訳日:2023-06-30 13:07:14 公開日:2023-06-29 |
# BEDLAM: 詳細なライフライクなアニメーションモーションを展示する身体の合成データセット BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion ( http://arxiv.org/abs/2306.16940v1 ) ライセンス: Link先を確認 | Michael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang | (参考訳) 本研究では,合成データのみを訓練したニューラルネットワークが,実画像からの3次元人物ポーズ・形状推定(hps)の問題に対して最先端の精度を達成することを初めて示す。
以前の合成データセットは小さく、非現実的で、現実的な衣服が欠けていた。
十分な現実性を達成することは簡単ではなく、運動中の全身に対してこれをどのように行うかを示す。
具体的には, BEDLAMデータセットは, SMPL-Xフォーマットの地上3次元物体を用いた単眼RGBビデオを含む。
体型、動き、肌の色、髪、衣服など様々な種類がある。
衣服は、市販の衣服物理シミュレーションを用いて移動体上で現実的にシミュレーションされる。
私たちは、様々な照明とカメラの動きで、リアルなシーンでさまざまな数の人々を描きます。
次に,様々なhpsレグレプタをbedlamを用いてトレーニングし,合成データを用いたトレーニングにもかかわらず,実画像ベンチマークで最先端の精度を得る。
BEDLAMを使用して、モデル設計の選択が正確性に重要であるかを理解する。
優れた総合訓練データにより,HMRのような基本手法が現在のSOTA法(CLIFF)の精度に近づくことが判明した。
BEDLAMは様々なタスクに役立ち、すべての画像、地上の真実の体、3D衣服、サポートコードなどの研究目的に利用できる。
さらに、合成データ生成パイプラインに関する詳細な情報を提供し、他の人が独自のデータセットを生成できるようにする。
https://bedlam.is.tue.mpg.de/. プロジェクトページを参照。 We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked realistic clothing. Achieving sufficient realism is non-trivial and we show how to do this for full bodies in motion. Specifically, our BEDLAM dataset contains monocular RGB videos with ground-truth 3D bodies in SMPL-X format. It includes a diversity of body shapes, motions, skin tones, hair, and clothing. The clothing is realistically simulated on the moving bodies using commercial clothing physics simulation. We render varying numbers of people in realistic scenes with varied lighting and camera motions. We then train various HPS regressors using BEDLAM and achieve state-of-the-art accuracy on real-image benchmarks despite training with synthetic data. We use BEDLAM to gain insights into what model design choices are important for accuracy. With good synthetic training data, we find that a basic method like HMR approaches the accuracy of the current SOTA method (CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes. Additionally, we provide detailed information about our synthetic data generation pipeline, enabling others to generate their own datasets. See the project page: https://bedlam.is.tue.mpg.de/. | 翻訳日:2023-06-30 13:06:53 公開日:2023-06-29 |
# 超伝導量子ビットを完全分離する可変カプラ Tunable coupler to fully decouple superconducting qubits ( http://arxiv.org/abs/2306.17007v1 ) ライセンス: Link先を確認 | Lukas Heunisch, Christopher Eichler, Michael J. Hartmann | (参考訳) 超伝導量子ハードウェアの能力を向上させるには、高いゲートフィダリティと低いクロストーク、特に量子ビットを複数の隣接ノードに結合する大規模デバイスが必要となる。
これら両方の目的の進展は、量子ビットのペア間のすべての相互作用を完全に制御する能力の恩恵を受ける。
本稿では,分散分散したトランスモン量子ビットの完全分離を可能にする新しいカプラモデルを提案する。すなわちzz-クロストークは,量子ビットの計算基底状態の最大局在を維持しながら完全に抑制される。
さらに、分散デチューンされたトランスモン系の場合、カプラの非調和性がアイドリング点において正である場合に限り、これは成り立つ。
ランプ要素モデルに対する40ns CZゲートのシミュレーションにより、トランスモン量子ビットの最先端コヒーレンス時間によって課される限界以下で達成可能なプロセス不忠実性を推算できる。
一方、キュービット間のアイドルゲートは寄生相互作用によってもはや制限されない。
提案手法を大規模集積量子ビットグリッドに適用し, ゲート操作を行う1組の量子ビットをチップの他の部分から完全に分離すると同時に, ゲートの忠実度を個々の量子ビットのコヒーレンス時間によって設定された限界まで押し上げることができることを示した。 Enhancing the capabilities of superconducting quantum hardware, requires higher gate fidelities and lower crosstalk, particularly in larger scale devices, in which qubits are coupled to multiple neighbors. Progress towards both of these objectives would highly benefit from the ability to fully control all interactions between pairs of qubits. Here we propose a new coupler model that allows to fully decouple dispersively detuned Transmon qubits from each other, i.e. ZZ-crosstalk is completely suppressed while maintaining a maximal localization of the qubits' computational basis states. We further reason that, for a dispersively detuned Transmon system, this can only be the case if the anharmonicity of the coupler is positive at the idling point. A simulation of a 40ns CZ-gate for a lumped element model suggests that achievable process infidelity can be pushed below the limit imposed by state-of-the-art coherence times of Transmon qubits. On the other hand, idle gates between qubits are no longer limited by parasitic interactions. We show that our scheme can be applied to large integrated qubit grids, where it allows to fully isolate a pair of qubits, that undergoes a gate operation, from the rest of the chip while simultaneously pushing the fidelity of gates to the limit set by the coherence time of the individual qubits. | 翻訳日:2023-06-30 13:01:20 公開日:2023-06-29 |
# 高精度アライメントによる高品質自動音声オーバ:自己監督型離散音声ユニットによるスーパービジョン High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units ( http://arxiv.org/abs/2306.17005v1 ) ライセンス: Link先を確認 | Junchen Lu, Berrak Sisman, Mingyang Zhang, Haizhou Li | (参考訳) Automatic Voice Over (AVO) の目標は、テキストスクリプトを与えられたサイレントビデオと同期して音声を生成することである。
テキスト音声合成(TTS)に基づく最近のAVOフレームワークは印象的な結果を示している。
しかし,現在の音響特徴の学習目的は,モード間アライメント学習を間接的に監督することであり,同期性能と合成音声品質を制限している。
そこで本研究では,アライメント学習に対するより直接的な監督を行うだけでなく,テキスト映像と音響的特徴のミスマッチを緩和する,自己教師付き離散音声単位予測の学習目標を活用した新しいavo法を提案する。
実験結果から,提案手法は主観的評価と主観的評価の両方においてベースラインを上回り,優れた唇音声同期と高い音声品質を実現する。
コードと音声のサンプルが公開されている。 The goal of Automatic Voice Over (AVO) is to generate speech in sync with a silent video given its text script. Recent AVO frameworks built upon text-to-speech synthesis (TTS) have shown impressive results. However, the current AVO learning objective of acoustic feature reconstruction brings in indirect supervision for inter-modal alignment learning, thus limiting the synchronization performance and synthetic speech quality. To this end, we propose a novel AVO method leveraging the learning objective of self-supervised discrete speech unit prediction, which not only provides more direct supervision for the alignment learning, but also alleviates the mismatch between the text-video context and acoustic features. Experimental results show that our proposed method achieves remarkable lip-speech synchronization and high speech quality by outperforming baselines in both objective and subjective evaluations. Code and speech samples are publicly available. | 翻訳日:2023-06-30 13:00:56 公開日:2023-06-29 |
# 不確実性をもつ状態の熱力学的拘束方程式の学習 Learning thermodynamically constrained equations of state with uncertainty ( http://arxiv.org/abs/2306.17004v1 ) ライセンス: Link先を確認 | Himanshu Sharma, Jim A. Gaffney, Dimitrios Tsapetis, Michael D. Shields | (参考訳) 高エネルギー密度実験の数値シミュレーションでは、物質の熱力学状態変数(特に圧力、体積/密度、エネルギー、温度)を関連付ける状態方程式(EOS)モデルが必要となる。
EOSモデルは典型的には半経験的パラメトリック法を用いて構築され、実験・シミュレーションデータを用いて多くの調整可能なパラメータを調整した物理インフォームド関数形式を仮定する。
キャリブレーションデータ(パラメトリック不確実性)と推定される機能的EOS形式(モデル不確実性)に固有の不確実性があるため、EOS予測の信頼性を向上させるために不確実性定量化(UQ)を実行することが不可欠である。
モデルの不確実性は、物理的に一貫した全ての可能な機能形式の空間を探索する必要があるため、UQ研究にとって困難である。
したがって、熱力学の法則に違反することなく定量化しやすいパラメトリック不確実性を支持するためにしばしば無視される。
本研究は、熱力学的一貫性と安定性の制約を満たしながら、自然にモデルの不確かさを捉えるeosモデルを構築するためのデータ駆動機械学習手法を提案する。
本稿では, eosにおける不確かさを自動計測し, シミュレーションと実験データソースの両方で共同で学習できる, 物理に変形したガウス過程回帰(gpr)に基づく新しい枠組みを提案する。
衝撃ヒューゴニオットのGPRモデルが導出され,その不確実性は提案手法を用いて定量化される。
提案したモデルを用いて, 密度汎関数理論データと実験衝撃ヒューホニオデータの両方を用いて, 炭素のダイヤモンド固体状態のeosを学習し, 熱力学的制約を考慮して予測の不確かさが減少することを示す。 Numerical simulations of high energy-density experiments require equation of state (EOS) models that relate a material's thermodynamic state variables -- specifically pressure, volume/density, energy, and temperature. EOS models are typically constructed using a semi-empirical parametric methodology, which assumes a physics-informed functional form with many tunable parameters calibrated using experimental/simulation data. Since there are inherent uncertainties in the calibration data (parametric uncertainty) and the assumed functional EOS form (model uncertainty), it is essential to perform uncertainty quantification (UQ) to improve confidence in the EOS predictions. Model uncertainty is challenging for UQ studies since it requires exploring the space of all possible physically consistent functional forms. Thus, it is often neglected in favor of parametric uncertainty, which is easier to quantify without violating thermodynamic laws. This work presents a data-driven machine learning approach to constructing EOS models that naturally captures model uncertainty while satisfying the necessary thermodynamic consistency and stability constraints. We propose a novel framework based on physics-informed Gaussian process regression (GPR) that automatically captures total uncertainty in the EOS and can be jointly trained on both simulation and experimental data sources. A GPR model for the shock Hugoniot is derived and its uncertainties are quantified using the proposed framework. We apply the proposed model to learn the EOS for the diamond solid state of carbon, using both density functional theory data and experimental shock Hugoniot data to train the model and show that the prediction uncertainty reduces by considering the thermodynamic constraints. | 翻訳日:2023-06-30 13:00:40 公開日:2023-06-29 |
# motiontrack:lidarカメラ融合を用いたエンドツーエンドトランスフォーマーベースのマルチオブジェクトトレース MotionTrack: End-to-End Transformer-based Multi-Object Tracing with LiDAR-Camera Fusion ( http://arxiv.org/abs/2306.17000v1 ) ライセンス: Link先を確認 | Ce Zhang, Chengjie Zhang, Yiluan Guo, Lingji Chen, Michael Happold | (参考訳) 複数の物体追跡(MOT)は自動運転車の認識に不可欠である。
オブジェクトを同時に検出・追跡するエンドツーエンドのトランスフォーマーベースのアルゴリズムは、MOTタスクに大きな可能性を示す。
しかし、既存の手法のほとんどは単一のオブジェクトカテゴリによるイメージベースのトラッキングに焦点を当てている。
本稿では,マルチモダリティセンサ入力を用いたエンドツーエンドのトランスフォーマーベースmotアルゴリズム(motiontrack)を提案する。
我々の目標は、自律運転環境におけるMOTのトランスフォーマーベースラインを確立することである。
提案アルゴリズムは変換器ベースデータアソシエーション(DA)モジュールと変換器ベースクエリ拡張モジュールから構成され,MOTと多重オブジェクト検出(MOD)を同時に実現する。
MotionTrackとそのバリエーションは、AB3DMOT、CenterTrack、確率的3Dカルマンフィルタといった他の古典的なベースラインモデルと比較して、nuScenesデータセット上のより良い結果(AMOTAスコア0.55)を達成する。
また,修正された注意機構をDAに利用してMOTを実現し,履歴機能を集約してMOD性能を向上させることを証明する。 Multiple Object Tracking (MOT) is crucial to autonomous vehicle perception. End-to-end transformer-based algorithms, which detect and track objects simultaneously, show great potential for the MOT task. However, most existing methods focus on image-based tracking with a single object category. In this paper, we propose an end-to-end transformer-based MOT algorithm (MotionTrack) with multi-modality sensor inputs to track objects with multiple classes. Our objective is to establish a transformer baseline for the MOT in an autonomous driving environment. The proposed algorithm consists of a transformer-based data association (DA) module and a transformer-based query enhancement module to achieve MOT and Multiple Object Detection (MOD) simultaneously. The MotionTrack and its variations achieve better results (AMOTA score at 0.55) on the nuScenes dataset compared with other classical baseline models, such as the AB3DMOT, the CenterTrack, and the probabilistic 3D Kalman filter. In addition, we prove that a modified attention mechanism can be utilized for DA to accomplish the MOT, and aggregate history features to enhance the MOD performance. | 翻訳日:2023-06-30 13:00:09 公開日:2023-06-29 |
# スペクトルバッチ正規化:周波数領域における正規化 Spectral Batch Normalization: Normalization in the Frequency Domain ( http://arxiv.org/abs/2306.16999v1 ) ライセンス: Link先を確認 | Rinor Cakaj, Jens Mehnert, Bin Yang | (参考訳) 正規化は、ディープニューラルネットワークの一般化能力を改善するために使用される一連のテクニックである。
本稿では,スペクトルバッチ正規化(sbn)という,周波数領域における特徴写像の正規化による一般化を改善する新しい手法を提案する。
バッチ正規化(BN)のない残留ネットワークの活性化は、初期化時にネットワークの深さで指数関数的に爆発する傾向がある。
これはパラメータが比較的小さいにもかかわらず、非常に大きな特徴マップノルムをもたらす。
これらの爆発力学は学習に非常に有害である。
BN は、スケーリング係数 $\gamma, \beta$ のウェイト崩壊正則化を特徴写像のノルム上の加法的ペナルティとほぼ同値とし、非常に大きな特徴写像ノルムを一定の程度に防ぐことができる。
しかし, BNの近似的な付加的ペナルティにもかかわらず, ディープニューラルネットワーク(DNN)の特徴マップはネットワークの開始時に爆発する傾向があり, トレーニング全体においてDNNの特徴マップは大きな値を持つことを示した。
この現象は、非レシデントネットワークにおいて弱められた形でも起こる。
SBNは周波数領域でそれらを正規化することで大きな特徴写像に対処する。
実験では,SBNが初期化時の特徴マップの爆発や,トレーニング中の大きな特徴マップ値を防止することを実証的に示す。
さらに、周波数領域における特徴写像の正規化は、より均一な分散周波数成分をもたらす。
これにより、DNNはフィーチャーマップの単一周波数コンポーネントに依存するのを妨げます。
これらはSBNの他の効果とともに、残留および非残留ネットワークのトレーニングに規則化効果を持つ。
本稿では,標準正規化法に加えてSBNを用いることで,画像Net上のResNet50など,DNNの性能が0.71%向上することを示す。 Regularization is a set of techniques that are used to improve the generalization ability of deep neural networks. In this paper, we introduce spectral batch normalization (SBN), a novel effective method to improve generalization by normalizing feature maps in the frequency (spectral) domain. The activations of residual networks without batch normalization (BN) tend to explode exponentially in the depth of the network at initialization. This leads to extremely large feature map norms even though the parameters are relatively small. These explosive dynamics can be very detrimental to learning. BN makes weight decay regularization on the scaling factors $\gamma, \beta$ approximately equivalent to an additive penalty on the norm of the feature maps, which prevents extremely large feature map norms to a certain degree. However, we show experimentally that, despite the approximate additive penalty of BN, feature maps in deep neural networks (DNNs) tend to explode at the beginning of the network and that feature maps of DNNs contain large values during the whole training. This phenomenon also occurs in a weakened form in non-residual networks. SBN addresses large feature maps by normalizing them in the frequency domain. In our experiments, we empirically show that SBN prevents exploding feature maps at initialization and large feature map values during the training. Moreover, the normalization of feature maps in the frequency domain leads to more uniform distributed frequency components. This discourages the DNNs to rely on single frequency components of feature maps. These, together with other effects of SBN, have a regularizing effect on the training of residual and non-residual networks. We show experimentally that using SBN in addition to standard regularization methods improves the performance of DNNs by a relevant margin, e.g. ResNet50 on ImageNet by 0.71%. | 翻訳日:2023-06-30 12:59:47 公開日:2023-06-29 |
# 数値ブラックボックス最適化アルゴリズムによる星の差計算 Computing Star Discrepancies with Numerical Black-Box Optimization Algorithms ( http://arxiv.org/abs/2306.16998v1 ) ライセンス: Link先を確認 | Fran\c{c}ois Cl\'ement, Diederick Vermetten, Jacob de Nobel, Alexandre D. Jesus, Lu\'is Paquete, Carola Doerr | (参考訳) l_{\infty}$ star discrepancy は、$[0,1)^d$ から取られた有限個の点の集合の正則性の尺度である。
低差点集合は数値積分における準モンテカルロ法や他の応用に非常に関係がある。
残念なことに、与えられた点集合のスター差分を計算することは難しい問題であることが知られており、最も正確なアルゴリズムは8.8等級の次元でも不足している。
しかし、L_{\infty}=星の差を定義する大域的な最大値を見つけるのが困難であるにもかかわらず、選択された点での局所評価は安価である。
これにより、ブラックボックス最適化アプローチで問題に対処できる。
この研究では、次元 2 から 15 の広いインスタンスセットを用いて、$L_{\infty}$星差計算問題に関する8つの一般的な数値ブラックボックス最適化アルゴリズムを比較した。
使用済みのオプティマイザが大半のインスタンスで非常にパフォーマンスが悪く、多くの場合、ランダム検索はより洗練された解法よりも優れています。
我々は、最先端の数値ブラックボックス最適化技術が問題の全体構造を捉えられず、将来の発展を導く重要な欠点であると考えている。
また、最もよく知られたアルゴリズムを並列に実装し、その差分を計算する。 The $L_{\infty}$ star discrepancy is a measure for the regularity of a finite set of points taken from $[0,1)^d$. Low discrepancy point sets are highly relevant for Quasi-Monte Carlo methods in numerical integration and several other applications. Unfortunately, computing the $L_{\infty}$ star discrepancy of a given point set is known to be a hard problem, with the best exact algorithms falling short for even moderate dimensions around 8. However, despite the difficulty of finding the global maximum that defines the $L_{\infty}$ star discrepancy of the set, local evaluations at selected points are inexpensive. This makes the problem tractable by black-box optimization approaches. In this work we compare 8 popular numerical black-box optimization algorithms on the $L_{\infty}$ star discrepancy computation problem, using a wide set of instances in dimensions 2 to 15. We show that all used optimizers perform very badly on a large majority of the instances and that in many cases random search outperforms even the more sophisticated solvers. We suspect that state-of-the-art numerical black-box optimization techniques fail to capture the global structure of the problem, an important shortcoming that may guide their future development. We also provide a parallel implementation of the best-known algorithm to compute the discrepancy. | 翻訳日:2023-06-30 12:59:16 公開日:2023-06-29 |
# 最適化誘導巡回自己学習による教師なし3次元登録 Unsupervised 3D registration through optimization-guided cyclical self-training ( http://arxiv.org/abs/2306.16997v1 ) ライセンス: Link先を確認 | Alexander Bigalke, Lasse Hansen, Tony C. W. Mok, Mattias P. Heinrich | (参考訳) 最先端のディープラーニングベースの登録には、3つの異なる学習戦略が採用されている: コストのかかる手動アノテーションを必要とする教師付き学習、ドメインの専門家が設計した手作りの類似度メトリクスに大きく依存する教師なし学習、ドメインシフトを導入する合成データからの学習。
これらの戦略の限界を克服するため,我々は,教師なし登録のための新しい自己教師あり学習パラダイムを提案する。
私たちの考えは2つの重要な洞察に基づいている。
特徴ベース微分可能最適化器
1)ランダムな特徴からでも合理的な登録を行う
2) ノイズラベルによる先行特徴抽出ネットワークの訓練を安定化させる。
その結果、ランダムな特徴から推定される変位場として擬似ラベルが初期化され、学習特徴抽出器からより表現的な特徴に基づいて循環的に更新され、自己強化効果が得られる循環自己学習を提案する。
腹部と肺の登録方法を評価し,メートル法に基づく監督を一貫して上回り,様々な最先端の競争相手を上回っている。
ソースコードはhttps://github.com/multimodallearning/reg-cyclical-self-trainで入手できる。 State-of-the-art deep learning-based registration methods employ three different learning strategies: supervised learning, which requires costly manual annotations, unsupervised learning, which heavily relies on hand-crafted similarity metrics designed by domain experts, or learning from synthetic data, which introduces a domain shift. To overcome the limitations of these strategies, we propose a novel self-supervised learning paradigm for unsupervised registration, relying on self-training. Our idea is based on two key insights. Feature-based differentiable optimizers 1) perform reasonable registration even from random features and 2) stabilize the training of the preceding feature extraction network on noisy labels. Consequently, we propose cyclical self-training, where pseudo labels are initialized as the displacement fields inferred from random features and cyclically updated based on more and more expressive features from the learning feature extractor, yielding a self-reinforcement effect. We evaluate the method for abdomen and lung registration, consistently surpassing metric-based supervision and outperforming diverse state-of-the-art competitors. Source code is available at https://github.com/multimodallearning/reg-cyclical-self-train. | 翻訳日:2023-06-30 12:58:55 公開日:2023-06-29 |
# weight compander: 正規化のための簡単な重量再パラメータ Weight Compander: A Simple Weight Reparameterization for Regularization ( http://arxiv.org/abs/2306.16993v1 ) ライセンス: Link先を確認 | Rinor Cakaj, Jens Mehnert, Bin Yang | (参考訳) 正規化は、ディープニューラルネットワークの一般化能力を改善するために使用される一連のテクニックである。
本稿では,ニューラルネットの重みを非線形関数を用いて再パラメータ化することで一般化を改善する新しい手法である weight compander (wc) を提案する。
これは汎用的で直感的で安価で実装が容易であり、他の様々な正規化手法と組み合わせることができる。
ディープニューラルネットワークの大きな重みは、トレーニングデータに過度に適合する、より複雑なネットワークの兆候である。
さらに、正規化ネットワークは、ゼロ中心の重みが少なく、ゼロ付近の重みの範囲が広い傾向がある。
本稿では,各重みに適用される重み再パラメータ化関数を導入し,重みの程度を制限し,同時に0から遠ざけることで、重み付けを暗黙的に削減する。
これにより、ネットワークにおけるより民主的な意思決定につながる。
第一に、個々の重みは、その大きさの制限のために予測過程にあまり影響を与えない。
第2に、トレーニング中にゼロから追い出されるため、予測プロセスでより多くの重みが使用される。
これにより、入力データからより多くの特徴の抽出が促進され、重み冗長性のレベルが向上し、トレーニングデータとテストデータの統計的差異に対するネットワークの感度が低下する。
提案手法を拡張し,導入した重み再パラメータ関数のハイパーパラメータを学習する。
これはハイパーパラメータの探索を回避し、ネットワークに重みの再パラメータ化とトレーニングの進捗を調整させる機会を与える。
標準正規化法に加えて重みコンパンダを用いることでニューラルネットワークの性能が向上することを示す。 Regularization is a set of techniques that are used to improve the generalization ability of deep neural networks. In this paper, we introduce weight compander (WC), a novel effective method to improve generalization by reparameterizing each weight in deep neural networks using a nonlinear function. It is a general, intuitive, cheap and easy to implement method, which can be combined with various other regularization techniques. Large weights in deep neural networks are a sign of a more complex network that is overfitted to the training data. Moreover, regularized networks tend to have a greater range of weights around zero with fewer weights centered at zero. We introduce a weight reparameterization function which is applied to each weight and implicitly reduces overfitting by restricting the magnitude of the weights while forcing them away from zero at the same time. This leads to a more democratic decision-making in the network. Firstly, individual weights cannot have too much influence in the prediction process due to the restriction of their magnitude. Secondly, more weights are used in the prediction process, since they are forced away from zero during the training. This promotes the extraction of more features from the input data and increases the level of weight redundancy, which makes the network less sensitive to statistical differences between training and test data. We extend our method to learn the hyperparameters of the introduced weight reparameterization function. This avoids hyperparameter search and gives the network the opportunity to align the weight reparameterization with the training progress. We show experimentally that using weight compander in addition to standard regularization methods improves the performance of neural networks. | 翻訳日:2023-06-30 12:58:35 公開日:2023-06-29 |
# Evidential Fusionによる大規模事前学習モデルのマルチモーダル固有認識への統合 Integrating Large Pre-trained Models into Multimodal Named Entity Recognition with Evidential Fusion ( http://arxiv.org/abs/2306.16991v1 ) ライセンス: Link先を確認 | Weide Liu, Xiaoyang Zhong, Jingwen Hou, Shaohua Li, Haozhe Huang and Yuming Fang | (参考訳) MNER(Multimodal Named Entity Recognition)は、Twitterなどのソーシャルメディアプラットフォームから情報を取り出すための重要なタスクである。
現在の手法のほとんどは、テキストと画像の両方から情報を抽出するために注意重みに依存するが、しばしば信頼できず、解釈可能性に欠ける。
そこで本研究では,mnerタスクに不確実性推定を取り入れ,信頼性の高い予測を行う。
提案するアルゴリズムは,各モダリティの分布を正規逆ガンマ分布としてモデル化し,それらの分布を証拠融合機構により統一分布に融合することにより,不確かさの階層的特徴付けと予測精度と信頼性の促進を可能にする。
さらに,MNERにおける事前学習された大規模基盤モデルの可能性を探求し,その頑健な特徴表現を利用した効率的な融合手法を提案する。
2つのデータセットの実験により,提案手法がベースラインを上回り,新しい最先端性能を実現することを示す。 Multimodal Named Entity Recognition (MNER) is a crucial task for information extraction from social media platforms such as Twitter. Most current methods rely on attention weights to extract information from both text and images but are often unreliable and lack interpretability. To address this problem, we propose incorporating uncertainty estimation into the MNER task, producing trustworthy predictions. Our proposed algorithm models the distribution of each modality as a Normal-inverse Gamma distribution, and fuses them into a unified distribution with an evidential fusion mechanism, enabling hierarchical characterization of uncertainties and promotion of prediction accuracy and trustworthiness. Additionally, we explore the potential of pre-trained large foundation models in MNER and propose an efficient fusion approach that leverages their robust feature representations. Experiments on two datasets demonstrate that our proposed method outperforms the baselines and achieves new state-of-the-art performance. | 翻訳日:2023-06-30 12:58:07 公開日:2023-06-29 |
# がん研究のための組織イメージングへの人工知能の適用状況と早期検出 The State of Applying Artificial Intelligence to Tissue Imaging for Cancer Research and Early Detection ( http://arxiv.org/abs/2306.16989v1 ) ライセンス: Link先を確認 | Michael Robben, Amir Hajighasemi, Mohammad Sadegh Nasr, Jai Prakesh Veerla, Anne M. Alsup, Biraaj Rout, Helen H. Shang, Kelli Fowlds, Parisa Boodaghi Malidarreh, Paul Koomey, MD Jillur Rahman Saurav, Jacob M. Luber | (参考訳) 人工知能は、より多くの命を救い、コストを削減し、それによってアクセシビリティを向上する、人間の医学における新たなフロンティアである。
その結果、がんの医療画像、特に組織病理におけるAIの進歩率が爆発的に増加し、既存のシステムへの導入を妨げる倫理的および技術的な問題に開放された。
がん組織イメージングへの応用におけるaiの経路を図示するために、現在の研究を概観し、がんの病理診断と研究をいかに改善できるかを明らかにする。
本稿では,回帰,分類,セグメンテーション,生成,圧縮タスクなど,モデルが開発する5つのコアタスクについて述べる。
このような方法が直面するメリットや課題に対処し,がん予防や治療にどのように適応できるかを検討する。
この論文で紹介された研究は、この分野の始まりであり、我々が注目する基盤の上に将来の実験が構築されるであろう。 Artificial intelligence represents a new frontier in human medicine that could save more lives and reduce the costs, thereby increasing accessibility. As a consequence, the rate of advancement of AI in cancer medical imaging and more particularly tissue pathology has exploded, opening it to ethical and technical questions that could impede its adoption into existing systems. In order to chart the path of AI in its application to cancer tissue imaging, we review current work and identify how it can improve cancer pathology diagnostics and research. In this review, we identify 5 core tasks that models are developed for, including regression, classification, segmentation, generation, and compression tasks. We address the benefits and challenges that such methods face, and how they can be adapted for use in cancer prevention and treatment. The studies looked at in this paper represent the beginning of this field and future experiments will build on the foundations that we highlight. | 翻訳日:2023-06-30 12:57:50 公開日:2023-06-29 |
# スパース知識グラフ補完のための高次グラフ構造探索と展開 Exploring & Exploiting High-Order Graph Structure for Sparse Knowledge Graph Completion ( http://arxiv.org/abs/2306.17034v1 ) ライセンス: Link先を確認 | Tao He, Ming Liu, Yixin Cao, Zekun Wang, Zihao Zheng, Zheng Chu, and Bing Qin | (参考訳) スパースナレッジグラフ(KG)のシナリオは、従来の知識グラフ補完(KGC)手法の課題であり、グラフのスパーシティの増加に伴い、完了性能が急速に低下する。
この問題は、実用用途にスパースKGが広く存在するため、さらに悪化している。
この課題を解決するために、我々は、エンティティ間の価値ある長距離依存性を自動的に捕捉し、不十分な構造特徴を補い、スパースKGCの論理的推論知識を蒸留する新しいフレームワークLR-GCNを提案する。
提案手法はgnnベースの予測器と推論経路蒸留器の2つの主成分からなる。
推論経路蒸留器は、推論経路のような高次グラフ構造を探索し、それらをリッチ・セマンティックエッジとしてエンコードし、予測器に長距離依存を明示的に構成する。
このステップはKGを密度化するのにも重要な役割を担い、スパース問題を効果的に緩和する。
さらに、経路蒸留器は、これらの採掘された推論経路から論理推論知識を予測器にさらに蒸留する。
これら2つのコンポーネントは、よく設計された変分EMアルゴリズムを用いて共同最適化される。
4つのスパースベンチマークの大規模な実験と解析により,提案手法の有効性が示された。 Sparse knowledge graph (KG) scenarios pose a challenge for previous Knowledge Graph Completion (KGC) methods, that is, the completion performance decreases rapidly with the increase of graph sparsity. This problem is also exacerbated because of the widespread existence of sparse KGs in practical applications. To alleviate this challenge, we present a novel framework, LR-GCN, that is able to automatically capture valuable long-range dependency among entities to supplement insufficient structure features and distill logical reasoning knowledge for sparse KGC. The proposed approach comprises two main components: a GNN-based predictor and a reasoning path distiller. The reasoning path distiller explores high-order graph structures such as reasoning paths and encodes them as rich-semantic edges, explicitly compositing long-range dependencies into the predictor. This step also plays an essential role in densifying KGs, effectively alleviating the sparse issue. Furthermore, the path distiller further distills logical reasoning knowledge from these mined reasoning paths into the predictor. These two components are jointly optimized using a well-designed variational EM algorithm. Extensive experiments and analyses on four sparse benchmarks demonstrate the effectiveness of our proposed method. | 翻訳日:2023-06-30 12:49:45 公開日:2023-06-29 |
# 離散・連続強化学習のための安全認識タスク構成 Safety-Aware Task Composition for Discrete and Continuous Reinforcement Learning ( http://arxiv.org/abs/2306.17033v1 ) ライセンス: Link先を確認 | Kevin Leahy and Makai Mann and Zachary Serlin | (参考訳) 構成性は、スケーラブルなシステム設計の重要な側面です。
強化学習(Reinforcement Learning, RL)は近年, タスク学習においてかなりの成功を収めている。
本稿では,機能的・逐次的構成とは対照的に,学習課題のブール構成に着目した。
既存のRLのブール合成は、離散的な作用空間を持つ環境で満足な吸収状態に達することに焦点を当てているが、構成可能な安全性(すなわち回避)の制約をサポートしない。
我々は,学習課題のブール構成における技術の現状を3つの貢献で進める。
一 この枠組みに2つの異なる安全概念を導入すること。
二 安全意味論を施行し、正当性を証明し、かつ、二つの安全概念のトレードオフを分析する方法を示すこと。
iii) 離散作用空間から連続作用空間へブール合成を拡張。
本稿では, グリッド環境における値反復の修正版, 画像観察を伴うグリッド環境におけるディープQネットワーク(DQN), 連続観測および連続動作ブルエ物理環境におけるツイン遅延DDPG(TD3)を用いた手法について述べる。
これらの貢献は,安全特性を満たす政策のゼロショット合成を可能にすることによって,安全強化学習の理論を前進させると信じている。 Compositionality is a critical aspect of scalable system design. Reinforcement learning (RL) has recently shown substantial success in task learning, but has only recently begun to truly leverage composition. In this paper, we focus on Boolean composition of learned tasks as opposed to functional or sequential composition. Existing Boolean composition for RL focuses on reaching a satisfying absorbing state in environments with discrete action spaces, but does not support composable safety (i.e., avoidance) constraints. We advance the state of the art in Boolean composition of learned tasks with three contributions: i) introduce two distinct notions of safety in this framework; ii) show how to enforce either safety semantics, prove correctness (under some assumptions), and analyze the trade-offs between the two safety notions; and iii) extend Boolean composition from discrete action spaces to continuous action spaces. We demonstrate these techniques using modified versions of value iteration in a grid world, Deep Q-Network (DQN) in a grid world with image observations, and Twin Delayed DDPG (TD3) in a continuous-observation and continuous-action Bullet physics environment. We believe that these contributions advance the theory of safe reinforcement learning by allowing zero-shot composition of policies satisfying safety properties. | 翻訳日:2023-06-30 12:49:23 公開日:2023-06-29 |
# 距離空間における効率的なランダム森林に対するメドイド分割 Medoid splits for efficient random forests in metric spaces ( http://arxiv.org/abs/2306.17031v1 ) ライセンス: Link先を確認 | Matthieu Bult\'e and Helle S{\o}rensen | (参考訳) 本稿では,ランダムフォレストアルゴリズムをfr\'echet回帰に適用し,計量空間におけるランダムな対象の文脈における回帰の課題について検討する。
従来のアプローチの限界を認識し,メドイドのアプローチに代えて計算コストのかかるFr'echet平均演算を回避できる新しい分割規則を導入する。
このアプローチは、fr\'echet平均に基づく手続きと漸近同値を示し、関連する回帰推定器の一貫性を確立することによって検証する。
この論文は、適切な理論的枠組みとfr\'echet回帰に対するより効率的な計算手法を提供し、非標準データ型や複雑なユースケースへの応用を広げている。 This paper revisits an adaptation of the random forest algorithm for Fr\'echet regression, addressing the challenge of regression in the context of random objects in metric spaces. Recognizing the limitations of previous approaches, we introduce a new splitting rule that circumvents the computationally expensive operation of Fr\'echet means by substituting with a medoid-based approach. We validate this approach by demonstrating its asymptotic equivalence to Fr\'echet mean-based procedures and establish the consistency of the associated regression estimator. The paper provides a sound theoretical framework and a more efficient computational approach to Fr\'echet regression, broadening its application to non-standard data types and complex use cases. | 翻訳日:2023-06-30 12:48:59 公開日:2023-06-29 |
# SkiROS2:ROSのためのスキルベースのロボット制御プラットフォーム SkiROS2: A skill-based Robot Control Platform for ROS ( http://arxiv.org/abs/2306.17030v1 ) ライセンス: Link先を確認 | Matthias Mayr, Francesco Rovida, Volker Krueger | (参考訳) サービスと産業領域の両方における自律ロボットシステムの必要性はこれまで以上に大きい。
後者では、小さなバッチやプロダクションでの"バッチサイズ1"への移行は、必要な柔軟性を提供するロボット制御システムアーキテクチャの必要性を生み出した。
このようなアーキテクチャには十分な知識統合フレームワークがなければならない。
また、自律的なミッション実行をサポートし、異なるタスクとロボットシステム間の相互運用と相互運用を可能にする必要がある。
ROS上でのスキルベースのロボット制御プラットフォームであるSkiROS2を紹介する。
SkiROS2は、自動化タスク計画とリアクティブ実行のための階層化されたハイブリッドコントロール構造を提案し、世界状態とエンティティを推論するための知識ベースによってサポートされている。
スケジューリングの定式化は、タスクレベルの計画と実行をマージする拡張された振舞いツリーモデルに基づいている。
これにより、高いモジュール化と環境の変化に対する迅速な反応が可能になる。
プレ・ホールド・ポスト条件に基づくスキルの定式化により、ロボットプログラムを組織し、認識から低レベル制御、外部ツールの組み入れまで到達する多様なスキルを構成することができる。
我々はSkiROS2を現場に関連付け,タスク計画,推論,多感覚入力,製造実行システムの統合,強化学習の3つの事例を概説する。 The need for autonomous robot systems in both the service and the industrial domain is larger than ever. In the latter, the transition to small batches or even "batch size 1" in production created a need for robot control system architectures that can provide the required flexibility. Such architectures must not only have a sufficient knowledge integration framework. It must also support autonomous mission execution and allow for interchangeability and interoperability between different tasks and robot systems. We introduce SkiROS2, a skill-based robot control platform on top of ROS. SkiROS2 proposes a layered, hybrid control structure for automated task planning, and reactive execution, supported by a knowledge base for reasoning about the world state and entities. The scheduling formulation builds on the extended behavior tree model that merges task-level planning and execution. This allows for a high degree of modularity and a fast reaction to changes in the environment. The skill formulation based on pre-, hold- and post-conditions allows to organize robot programs and to compose diverse skills reaching from perception to low-level control and the incorporation of external tools. We relate SkiROS2 to the field and outline three example use cases that cover task planning, reasoning, multisensory input, integration in a manufacturing execution system and reinforcement learning. | 翻訳日:2023-06-30 12:48:44 公開日:2023-06-29 |
# 量子チェビシェフ変換:マッピング、埋め込み、学習、サンプリング分布 Quantum Chebyshev Transform: Mapping, Embedding, Learning and Sampling Distributions ( http://arxiv.org/abs/2306.17026v1 ) ライセンス: Link先を確認 | Chelsea A. Williams, Annie E. Paine, Hsin-Yu Wu, Vincent E. Elfving, Oleksandr Kyriienko | (参考訳) チェビシェフ多項式の正則空間における量子モデル構築のパラダイムを開発する。
我々は, 振幅がチェビシェフ多項式で, システムサイズが指数関数的に増加する量子状態にデータをエンコードする方法を示す。
計算基底空間を位相(フーリエ)基底にマッピングする量子フーリエ変換と同様に、計算とチェビシェフ空間のマッピングのための量子回路を記述する。
連続パラメータ化浅部等尺波で表される指数容量の正則チェビシェフ基底を生成するための埋め込み回路を提案する。
これにより、自動量子モデルの微分が可能となり、確率微分方程式の解法が開かれる。
本稿では, 物理的および経済的に動機づけられた分布の生成モデルに適用し, 量子チェビシェフ変換を用いてこれらの分布の効率的なサンプリングを行う。 We develop a paradigm for building quantum models in the orthonormal space of Chebyshev polynomials. We show how to encode data into quantum states with amplitudes being Chebyshev polynomials with degree growing exponentially in the system size. Similar to the quantum Fourier transform which maps computational basis space into the phase (Fourier) basis, we describe the quantum circuit for the mapping between computational and Chebyshev spaces. We propose an embedding circuit for generating the orthonormal Chebyshev basis of exponential capacity, represented by a continuously-parameterized shallow isometry. This enables automatic quantum model differentiation, and opens a route to solving stochastic differential equations. We apply the developed paradigm to generative modeling from physically- and financially-motivated distributions, and use the quantum Chebyshev transform for efficient sampling of these distributions in extended computational basis. | 翻訳日:2023-06-30 12:48:26 公開日:2023-06-29 |
# ヒルベルト空間における不変部分空間問題:量子力学、制御理論、作用素代数、関数解析および加速器物理学の応用を探る Invariant Subspace Problem in Hilbert Spaces: Exploring Applications in Quantum Mechanics, Control Theory, Operator Algebras, Functional Analysis and Accelerator Physics ( http://arxiv.org/abs/2306.17023v1 ) ライセンス: Link先を確認 | Mostafa Behtouei | (参考訳) 本稿では,演算子理論と関数解析における不変部分空間問題について考察し,数学と物理学の様々な分野への応用について検討する。
この問題はヒルベルト空間上の有界線型作用素に対する不変部分空間の存在を扱う。
線形作用素の挙動と不変部分空間の存在を理解することの重要性と、スペクトル理論、作用素代数、量子力学、力学系、加速器物理学との深い関係を幅広く検討する。
これらの応用を徹底的に検討することで、数学や物理学における不変部分空間問題の幅広い影響と妥当性を浮き彫りにする。 This paper explores the Invariant Subspace Problem in operator theory and functional analysis, examining its applications in various branches of mathematics and physics. The problem addresses the existence of invariant subspaces for bounded linear operators on a Hilbert space. We extensively explore the significance of understanding the behavior of linear operators and the existence of invariant subspaces, as well as their profound connections to spectral theory, operator algebras, quantum mechanics, dynamical systems and accelerator physics . By thoroughly exploring these applications, we aim to highlight the wide-ranging impact and relevance of the invariant subspace problem in mathematics and physics. | 翻訳日:2023-06-30 12:48:12 公開日:2023-06-29 |
# ソーシャルメディアから判断文書を用いた犯罪タイプ分類 Classifying Crime Types using Judgment Documents from Social Media ( http://arxiv.org/abs/2306.17020v1 ) ライセンス: Link先を確認 | Haoxuan Xu, Zeyu He, Mengfan Shen, Songning Lai, Ziqiang Han and Yifan Peng | (参考訳) 犯罪行為事実に基づく犯罪種別決定の課題は、社会科学において非常に重要かつ有意義な課題となっている。
しかし今は、犯罪そのものの性質から、データサンプルそのものが均等に分散している、という問題に直面している。
同時に、司法分野のデータセットは公開されておらず、直接トレーニングのために大規模なデータセットを作成することは実用的ではない。
本稿では,NLP処理手法を用いてこの問題を解決するための新しいトレーニングモデルを提案する。
まず,新たなサンプル生成により不均一なデータセット分布の欠陥のバランスをとることができる犯罪事実データプリプロセッシングモジュール(cfdpm)を提案する。
次に、事前トレーニングデータセットとして大規模なオープンソースデータセット(CAIL-big)と、ファインチューニングのために自分自身で収集した小さなデータセットを使用します。
同時に、動的マスキングによる改良されたバートモデルを用いてモデルを改善する。
実験により,提案手法が現在のデータセットにおいて最先端の結果が得られることを示す。
同時に,モジュールCFDPMの有効性が実験によって証明された。
本稿では,犯罪行為などの社会科学テキストの分類に有用な方法論について述べる。
公開ベンチマークに関する広範囲な実験により,提案手法が新たな最先端結果が得られることが示された。 The task of determining crime types based on criminal behavior facts has become a very important and meaningful task in social science. But the problem facing the field now is that the data samples themselves are unevenly distributed, due to the nature of the crime itself. At the same time, data sets in the judicial field are less publicly available, and it is not practical to produce large data sets for direct training. This article proposes a new training model to solve this problem through NLP processing methods. We first propose a Crime Fact Data Preprocessing Module (CFDPM), which can balance the defects of uneven data set distribution by generating new samples. Then we use a large open source dataset (CAIL-big) as our pretraining dataset and a small dataset collected by ourselves for Fine-tuning, giving it good generalization ability to unfamiliar small datasets. At the same time, we use the improved Bert model with dynamic masking to improve the model. Experiments show that the proposed method achieves state-of-the-art results on the present dataset. At the same time, the effectiveness of module CFDPM is proved by experiments. This article provides a valuable methodology contribution for classifying social science texts such as criminal behaviors. Extensive experiments on public benchmarks show that the proposed method achieves new state-of-the-art results. | 翻訳日:2023-06-30 12:47:59 公開日:2023-06-29 |
# 病理学のスライドインデクシングと検索:まだ存在するか? Histopathology Slide Indexing and Search: Are We There Yet? ( http://arxiv.org/abs/2306.17019v1 ) ライセンス: Link先を確認 | Helen H. Shang, Mohammad Sadegh Nasr, Jai Prakash Veerla, Parisa Boodaghi Malidarreh, MD Jillur Rahman Saurav, Amir Hajighasemi, Manfred Huber, Chace Moleta, Jitin Makker, Jacob M. Luber | (参考訳) デジタル病理学スライドの検索と検索は,まだ解決されていない重要な課題である。
本症例では, 固形腫瘍3例に対してyottixel, sish, retcclの3つの最先端病理組織学スライド検索エンジンの臨床適応について検討した。
我々は,各モデルの性能を定性的に評価し,病理医に有用で信頼性の高い検索結果を提供する。
その結果,3つの画像検索エンジンはいずれも一貫して信頼性の高い結果が得られず,診断精度を制限した粒度と微妙な悪性特徴の把握が困難であることが判明した。
また, 臨床応用を成功させるために, 正確で信頼性の高い病理組織像検索エンジンの開発を進めるための, 最小限の要件も提案する。 The search and retrieval of digital histopathology slides is an important task that has yet to be solved. In this case study, we investigate the clinical readiness of three state-of-the-art histopathology slide search engines, Yottixel, SISH, and RetCCL, on three patients with solid tumors. We provide a qualitative assessment of each model's performance in providing retrieval results that are reliable and useful to pathologists. We found that all three image search engines fail to produce consistently reliable results and have difficulties in capturing granular and subtle features of malignancy, limiting their diagnostic accuracy. Based on our findings, we also propose a minimal set of requirements to further advance the development of accurate and reliable histopathology image search engines for successful clinical adoption. | 翻訳日:2023-06-30 12:47:42 公開日:2023-06-29 |
# milli Flow:人間のモーションセンシングのためのミリ波レーダ点雲のシーンフロー推定 milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing ( http://arxiv.org/abs/2306.17010v1 ) ライセンス: Link先を確認 | Fangqiang Ding, Zhen Luo, Peijun Zhao, Chris Xiaoxuan Lu | (参考訳) ユビキタスコンピューティングの時代に近づいているヒューマンモーションセンシングは、意思決定、ユーザインタラクション、パーソナライズサービスといったスマートシステムにおいて重要な役割を果たす。
人間の追跡、ポーズ推定、ジェスチャー認識、行動認識に関する大規模な研究が行われ、従来の方法では主にカメラに基づく。
しかし、カメラの侵入性は、スマートホームアプリケーションでの使用を制限する。
これに対処するため、mmwaveレーダーはプライバシーに優しい機能のために人気を集めている。
本研究では,mmWave 点雲の相補的な動き情報としてのシーンフロー推定のための新しい深層学習手法である \textit{milliFlow} を提案する。
実験の結果,平均3dエンドポイント誤差が4.6cmで,本手法の優れた性能を示すことができた。
さらに,シーンフロー情報を組み込むことにより,人間の行動認識,解析,身体部位追跡の大幅な改善を実現する。
この領域のさらなる研究を促進するため、オープンアクセスのためのコードベースとデータセットを提供しています。 Approaching the era of ubiquitous computing, human motion sensing plays a crucial role in smart systems for decision making, user interaction, and personalized services. Extensive research has been conducted on human tracking, pose estimation, gesture recognition, and activity recognition, which are predominantly based on cameras in traditional methods. However, the intrusive nature of cameras limits their use in smart home applications. To address this, mmWave radars have gained popularity due to their privacy-friendly features. In this work, we propose \textit{milliFlow}, a novel deep learning method for scene flow estimation as a complementary motion information for mmWave point cloud, serving as an intermediate level of features and directly benefiting downstream human motion sensing tasks. Experimental results demonstrate the superior performance of our method with an average 3D endpoint error of 4.6cm, significantly surpassing the competing approaches. Furthermore, by incorporating scene flow information, we achieve remarkable improvements in human activity recognition, human parsing, and human body part tracking. To foster further research in this area, we provide our codebase and dataset for open access. | 翻訳日:2023-06-30 12:47:28 公開日:2023-06-29 |
# MLA-BIN:医療画像分割におけるフェデレーション学習の領域一般化のためのモデルレベルの注意とバッチインスタンススタイルの正規化 MLA-BIN: Model-level Attention and Batch-instance Style Normalization for Domain Generalization of Federated Learning on Medical Image Segmentation ( http://arxiv.org/abs/2306.17008v1 ) ライセンス: Link先を確認 | Fubao Zhu, Yanhui Tian, Chuang Han, Yanting Li, Jiaofen Nan, Ni Yao and Weihua Zhou | (参考訳) フェデレートラーニング(FL)のプライバシ保護メカニズムは、クロスセンター医療コラボレーションとデータ共有に有効なソリューションを提供する。
多地点の医療画像セグメンテーションでは、各医療施設はFLのクライアントとして機能し、そのデータは自然にドメインを形成する。
FLは、見たドメインモデルの性能を改善する可能性を提供します。
しかし、実際のデプロイメントでは、ドメイン一般化 (dg) の問題があり、すなわち、flによって訓練されたunseenドメインでのモデルの性能は低下する。
したがって、本研究では、FLのDGを解決するためにMLA-BINを提案する。
具体的には、モデルレベルのアテンションモジュール(MLA)とバッチインスタンススタイルの正規化(BIN)ブロックが設計された。
MLAは目に見えない領域を、目に見えない領域モデルの線形結合として表現する。
重み係数に対して減衰機構を導入し、ドメイン間データ特徴の類似性に応じて最適な係数acを得る。
MLAは、グローバルモデルが未確認領域にジェネリゼーションすることを可能にする。
BINブロックでは、バッチ正規化(BN)とインスタンス正規化(IN)を組み合わせて、スタイル正規化のためのセグメンテーションネットワークの浅い層を実行し、ドメイン間の画像スタイルの違いがDGに与える影響を解決する。
2つの医用画像セグメンテーションタスクの広範な実験結果は、提案したMLA-BINが最先端の手法より優れていることを示している。 The privacy protection mechanism of federated learning (FL) offers an effective solution for cross-center medical collaboration and data sharing. In multi-site medical image segmentation, each medical site serves as a client of FL, and its data naturally forms a domain. FL supplies the possibility to improve the performance of seen domains model. However, there is a problem of domain generalization (DG) in the actual de-ployment, that is, the performance of the model trained by FL in unseen domains will decrease. Hence, MLA-BIN is proposed to solve the DG of FL in this study. Specifically, the model-level attention module (MLA) and batch-instance style normalization (BIN) block were designed. The MLA represents the unseen domain as a linear combination of seen domain models. The atten-tion mechanism is introduced for the weighting coefficient to obtain the optimal coefficient ac-cording to the similarity of inter-domain data features. MLA enables the global model to gen-eralize to unseen domain. In the BIN block, batch normalization (BN) and instance normalization (IN) are combined to perform the shallow layers of the segmentation network for style normali-zation, solving the influence of inter-domain image style differences on DG. The extensive experimental results of two medical image seg-mentation tasks demonstrate that the proposed MLA-BIN outperforms state-of-the-art methods. | 翻訳日:2023-06-30 12:47:07 公開日:2023-06-29 |
# ディープフェイクを検知する: segment anythingは顔認識とローカライズを満たしている Detect Any Deepfakes: Segment Anything Meets Face Forgery Detection and Localization ( http://arxiv.org/abs/2306.17075v1 ) ライセンス: Link先を確認 | Yingxin Lai, Zhiming Luo, Zitong Yu | (参考訳) コンピュータビジョンの急速な進歩は、顔偽造技術の著しい進歩を刺激し、偽造の検出と操作された領域の正確な局所化に尽力した研究者の注意を惹いた。
それでも、細粒度の監督ラベルが限られているため、ディープフェイク検出モデルは正確な偽造検出と位置決めに不満足に実行する。
この課題に対処するため,我々は,十分に訓練された視覚セグメンテーション基盤モデル,すなわち,顔の偽造検出とローカライズにおいてセグメント・エバンス・モデル(sam)を導入する。
samに基づくマルチスケールアダプタを用いて,短距離および長距離の偽造コンテキストをキャプチャし,効率的な微調整を実現するための,dadf(deepfakes)フレームワークを提案する。
さらに, 鍛造トレースの同定や, フォージェリー領域に対するモデルの感度向上を図るため, 再構成ガイド注意モジュール(RGA)を提案する。
提案フレームワークは,エンドツーエンドの偽造ローカライゼーションと検出最適化をシームレスに統合する。
3つのベンチマークデータセットに対する大規模な実験は、フォージェリ検出とローカライゼーションの両方において、我々のアプローチの優位性を示している。
コードは近くhttps://github.com/laiyingxin2/dadfでリリースされる。 The rapid advancements in computer vision have stimulated remarkable progress in face forgery techniques, capturing the dedicated attention of researchers committed to detecting forgeries and precisely localizing manipulated areas. Nonetheless, with limited fine-grained pixel-wise supervision labels, deepfake detection models perform unsatisfactorily on precise forgery detection and localization. To address this challenge, we introduce the well-trained vision segmentation foundation model, i.e., Segment Anything Model (SAM) in face forgery detection and localization. Based on SAM, we propose the Detect Any Deepfakes (DADF) framework with the Multiscale Adapter, which can capture short- and long-range forgery contexts for efficient fine-tuning. Moreover, to better identify forged traces and augment the model's sensitivity towards forgery regions, Reconstruction Guided Attention (RGA) module is proposed. The proposed framework seamlessly integrates end-to-end forgery localization and detection optimization. Extensive experiments on three benchmark datasets demonstrate the superiority of our approach for both forgery detection and localization. The codes will be released soon at https://github.com/laiyingxin2/DADF. | 翻訳日:2023-06-30 12:41:27 公開日:2023-06-29 |
# 2次元人文推定のための構造誘導拡散モデル Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation ( http://arxiv.org/abs/2306.17074v1 ) ライセンス: Link先を確認 | Zhongwei Qiu, Qiansheng Yang, Jian Wang, Xiyu Wang, Chang Xu, Dongmei Fu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang | (参考訳) 2次元人間のポーズ推定(HPE)の主要なスキームの1つは、ニューラルネットワークによるキーポイントのヒートマップの学習である。
既存の手法は通常、高分解能表現や視覚トランスフォーマーのようなカスタマイズされたアーキテクチャによってヒートマップの品質を向上させる。
本稿では、2次元 HPE をキーポイントとして定式化する新しい手法である \textbf{DiffusionPose} を提案する。
トレーニング中、キーポイントは雑音を加えることによってランダム分布に拡散され、拡散モデルは、画像特徴によって構築された条件に関して、ノイズ付きヒートマップから地中構造熱マップを復元する。
推定中、拡散モデルは初期化ヒートマップから漸進的発振方法でヒートマップを生成する。
さらに, 人体構造情報から, 拡散スポットの性能向上について検討する。
大規模な実験では、広く使用されているCOCO、CrowdPose、AI Challengeデータセットで1.6、1.2、1.2mAPが改善されたDiffusionPoseの長所が示されています。 One of the mainstream schemes for 2D human pose estimation (HPE) is learning keypoints heatmaps by a neural network. Existing methods typically improve the quality of heatmaps by customized architectures, such as high-resolution representation and vision Transformers. In this paper, we propose \textbf{DiffusionPose}, a new scheme that formulates 2D HPE as a keypoints heatmaps generation problem from noised heatmaps. During training, the keypoints are diffused to random distribution by adding noises and the diffusion model learns to recover ground-truth heatmaps from noised heatmaps with respect to conditions constructed by image feature. During inference, the diffusion model generates heatmaps from initialized heatmaps in a progressive denoising way. Moreover, we further explore improving the performance of DiffusionPose with conditions from human structural information. Extensive experiments show the prowess of our DiffusionPose, with improvements of 1.6, 1.2, and 1.2 mAP on widely-used COCO, CrowdPose, and AI Challenge datasets, respectively. | 翻訳日:2023-06-30 12:41:06 公開日:2023-06-29 |
# 計算創造性における学際的手法--人間にインスパイアされたAI研究をいかに形作るか Interdisciplinary Methods in Computational Creativity: How Human Variables Shape Human-Inspired AI Research ( http://arxiv.org/abs/2306.17070v1 ) ライセンス: Link先を確認 | Nadia M. Ady and Faun Rice | (参考訳) 創造性という言葉はもともと人間の心理学の概念を記述していたが、計算創造性(CC)の領域では、より多くなった。
創造性という問題は、それが計算システムの一部である場合、ccのコアと見なされるかもしれない。
人間の心理学から計算への概念の移植によって、創造性の意味やその様な概念をピン留めすることは、CCを超えて人工知能(AI)に広がる広範囲にわたる実践である。
しかし、人間にインスパイアされた計算システムを形作る人間のプロセスはほとんど研究されていない。
本稿では, 人間の文学(社会科学, 心理学, 神経科学)がAI奨学金に入るのか, どのように翻訳されるのかを問う。
この研究は、主に人間にインスパイアされたAI研究者による、奥深く、半構造化された22のインタビューに基づいている。
本稿では,ccに最も関連する知見に注目した。
人間の文学がAIに入るのは、アイデアが家庭の規律の文脈から切り離される可能性があるため、より精査が必要であることを示唆する。
したがって、CC研究者は彼らの実践の意思決定と文脈、特に機械の人間概念を定式化するプラクティスを文書化することを推奨する。
CCとAIの人間要素に関する反射的な注釈を公表することは、有用な記録を提供し、他の分野との対話を許可する。 The word creativity originally described a concept from human psychology, but in the realm of computational creativity (CC), it has become much more. The question of what creativity means when it is part of a computational system might be considered core to CC. Pinning down the meaning of creativity, and concepts like it, becomes salient when researchers port concepts from human psychology to computation, a widespread practice extending beyond CC into artificial intelligence (AI). Yet, the human processes shaping human-inspired computational systems have been little investigated. In this paper, we question which human literatures (social sciences, psychology, neuroscience) enter AI scholarship and how they are translated at the port of entry. This study is based on 22 in-depth, semi-structured interviews, primarily with human-inspired AI researchers, half of whom focus on creativity as a major research area. This paper focuses on findings most relevant to CC. We suggest that which human literature enters AI bears greater scrutiny because ideas may become disconnected from context in their home discipline. Accordingly, we recommend that CC researchers document the decisions and context of their practices, particularly those practices formalizing human concepts for machines. Publishing reflexive commentary on human elements in CC and AI would provide a useful record and permit greater dialogue with other disciplines. | 翻訳日:2023-06-30 12:40:47 公開日:2023-06-29 |
# 連続イベントデータに対するニューラル時間点過程モデルの予測精度について On the Predictive Accuracy of Neural Temporal Point Process Models for Continuous-time Event Data ( http://arxiv.org/abs/2306.17066v1 ) ライセンス: Link先を確認 | Tanguy Bosser and Souhaib Ben Taieb | (参考訳) time point process (tpps) は、非同期イベントシーケンスを連続時間にモデリングするための標準的な数学的フレームワークである。
しかし、古典的なTPPモデルは、しばしば強い仮定によって制約され、複雑な現実世界のイベントダイナミクスを捉える能力を制限する。
この制限を克服するために、研究者はニューラルネットワークパラメトリゼーションを利用してより柔軟で効率的なモデリングを提供するニューラルtppを提案した。
最近の研究は、Neural TPPの有効性を実証しているが、異なるベースライン、データセット、実験的な構成に依存して、統合されたセットアップを欠いていることが多い。
これにより、予測精度の改善を促す重要な要因を特定し、研究の進歩を妨げることが困難になる。
このギャップを埋めるために,最先端ニューラルtppモデルの予測精度を体系的に評価する大規模実験を行った。
本研究は,複数の実世界および合成イベントシーケンスデータセットを包含する。
イベントエンコーディング,履歴エンコーダ,デコーダパラメータ化といった主要なアーキテクチャコンポーネントが時間およびマーク予測タスクに与える影響を徹底的に検討する。
さらに,神経tppモデルの確率的キャリブレーションの難解な領域について検討した。
この結果から,歴史の規模と建築要素が予測精度に与える影響について,洞察に富んだ結論を導いた。
さらに,ニューラルTPPモデルにおけるマーク分布の誤校正にも光を当てた。
本研究の目的は,ニューラルTPPモデルの性能と特性に関する貴重な知見を提供することであり,その強みと限界をよりよく理解することにある。 Temporal Point Processes (TPPs) serve as the standard mathematical framework for modeling asynchronous event sequences in continuous time. However, classical TPP models are often constrained by strong assumptions, limiting their ability to capture complex real-world event dynamics. To overcome this limitation, researchers have proposed Neural TPPs, which leverage neural network parametrizations to offer more flexible and efficient modeling. While recent studies demonstrate the effectiveness of Neural TPPs, they often lack a unified setup, relying on different baselines, datasets, and experimental configurations. This makes it challenging to identify the key factors driving improvements in predictive accuracy, hindering research progress. To bridge this gap, we present a comprehensive large-scale experimental study that systematically evaluates the predictive accuracy of state-of-the-art neural TPP models. Our study encompasses multiple real-world and synthetic event sequence datasets, following a carefully designed unified setup. We thoroughly investigate the influence of major architectural components such as event encoding, history encoder, and decoder parametrization on both time and mark prediction tasks. Additionally, we delve into the less explored area of probabilistic calibration for neural TPP models. By analyzing our results, we draw insightful conclusions regarding the significance of history size and the impact of architectural components on predictive accuracy. Furthermore, we shed light on the miscalibration of mark distributions in neural TPP models. Our study aims to provide valuable insights into the performance and characteristics of neural TPP models, contributing to a better understanding of their strengths and limitations. | 翻訳日:2023-06-30 12:40:22 公開日:2023-06-29 |
# mmWave Wi-Fiアクセスポイントを用いたジェスチャー認識:学習 Gesture Recognition with mmWave Wi-Fi Access Points: Lessons Learned ( http://arxiv.org/abs/2306.17062v1 ) ライセンス: Link先を確認 | Nabeel Nisar Bhat, Rafael Berkvens, Jeroen Famaey | (参考訳) 近年、サブ6GHzのチャネル状態情報(CSI)はWi-Fiセンシング、特にアクティビティやジェスチャー認識に広く利用されている。
本研究では,ジェスチャー認識/位置推定のためのmmwave (60 ghz) wi-fi信号について検討する。
我々は、mmwave wi-fi信号に焦点をあて、高データレート通信だけでなく、拡張現実感(xr)アプリケーションのためのセンシングの改善にも活用できるようにしています。
このため,IEEE 802.11ad デバイスを用いた周期ビームトレーニングから空間ビーム信号-雑音比(SNR)を抽出する。
XRアプリケーションによる10のジェスチャー/目的のセットについて検討する。
2つの環境と3人で実験を行い,ieee 802.11acデバイスからcsiを収集した。
CSIとビームSNRから特徴を抽出するために、ディープニューラルネットワーク(DNN)を利用する。
DNN分類器は、限られたデータセットであっても単一の環境で96.7%の精度でビームSNRタスクの有望な結果を達成する。
また,ビームSNRのCSIに対する堅牢性についても検討した。
実験の結果,CSIの特徴は再トレーニングを伴わずに一般化するが,ビームSNRは一般化しないことがわかった。
そのため、後者では再訓練が必要である。 In recent years, channel state information (CSI) at sub-6 GHz has been widely exploited for Wi-Fi sensing, particularly for activity and gesture recognition. In this work, we instead explore mmWave (60 GHz) Wi-Fi signals for gesture recognition/pose estimation. Our focus is on the mmWave Wi-Fi signals so that they can be used not only for high data rate communication but also for improved sensing e.g., for extended reality (XR) applications. For this reason, we extract spatial beam signal-to-noise ratios (SNRs) from the periodic beam training employed by IEEE 802.11ad devices. We consider a set of 10 gestures/poses motivated by XR applications. We conduct experiments in two environments and with three people.As a comparison, we also collect CSI from IEEE 802.11ac devices. To extract features from the CSI and the beam SNR, we leverage a deep neural network (DNN). The DNN classifier achieves promising results on the beam SNR task with state-of-the-art 96.7% accuracy in a single environment, even with a limited dataset. We also investigate the robustness of the beam SNR against CSI across different environments. Our experiments reveal that features from the CSI generalize without additional re-training, while those from beam SNRs do not. Therefore, re-training is required in the latter case. | 翻訳日:2023-06-30 12:39:58 公開日:2023-06-29 |
# MapKurator System: 歴史地図からのテキストの抽出とリンクのための完全なパイプライン The mapKurator System: A Complete Pipeline for Extracting and Linking Text from Historical Maps ( http://arxiv.org/abs/2306.17059v1 ) ライセンス: Link先を確認 | Jina Kim, Zekun Li, Yijun Lin, Min Namgung, Leeje Jang, Yao-Yi Chiang | (参考訳) 文書には空間的焦点と貴重な地域特性がある。
例えば、不動産や旅行ブログの一覧には、特定の地域の情報が含まれている。
この情報は、人間がどのように環境を知覚するかを特徴づけるのに価値がある。
しかし、この情報を利用するための最初のステップは、文書の空間的焦点(例えば、都市)を特定することである。
文書の空間的焦点を特定する伝統的なアプローチは、文書から位相を検出し、曖昧にすることに依存している。
このアプローチでは、位置句の語彙セットと、位置に関連する重要な単語を無視するアドホックな規則が必要である。
大規模言語モデルを用いた最近のトピックモデリングアプローチでは、いくつかのトピックが取り上げられることが多い。
対照的に、文書の空間的焦点は、国、都市、あるいは近隣であり、それらを組み合わせて、これらのアプローチで考慮されるトピックの数よりもはるかに大きい。
さらに、話題モデリング手法は、文脈の識別が容易なニュース記事の幅広い話題に適用されることが多い。
文書の地理的焦点を効果的に識別するために,文書と位置の異なるエンコーダと共同で表現を学習するマルチロカリットY(JELLY)の簡易かつ効果的な共同埋め込みを提案する。
JELLYは、複数の情報源からの文書から空間的焦点を特定する最先端の手法を著しく上回っている。
また、類似の地域特性を持つ都市と、文書空間の焦点を特定するゼロショット学習を含む、学習された表現の算術に関するケーススタディを示す。 Documents hold spatial focus and valuable locality characteristics. For example, descriptions of listings in real estate or travel blogs contain information about specific local neighborhoods. This information is valuable to characterize how humans perceive their environment. However, the first step to making use of this information is to identify the spatial focus (e.g., a city) of a document. Traditional approaches for identifying the spatial focus of a document rely on detecting and disambiguating toponyms from the document. This approach requires a vocabulary set of location phrases and ad-hoc rules, which ignore important words related to location. Recent topic modeling approaches using large language models often consider a few topics, each with broad coverage. In contrast, the spatial focus of a document can be a country, a city, or even a neighborhood, which together, is much larger than the number of topics considered in these approaches. Additionally, topic modeling methods are often applied to broad topics of news articles where context is easily distinguishable. To identify the geographic focus of a document effectively, we present a simple but effective Joint Embedding of multi-LocaLitY (JELLY), which jointly learns representations with separate encoders of document and location. JELLY significantly outperforms state-of-the-art methods for identifying spatial focus from documents from a number of sources. We also demonstrate case studies on the arithmetic of the learned representations, including identifying cities with similar locality characteristics and zero-shot learning to identify document spatial focus. | 翻訳日:2023-06-30 12:39:38 公開日:2023-06-29 |
# 安全モデルに基づくマルチエージェント平均場強化学習 Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning ( http://arxiv.org/abs/2306.17052v1 ) ライセンス: Link先を確認 | Matej Jusup, Barna P\'asztor, Tadeusz Janik, Kenan Zhang, Francesco Corman, Andreas Krause and Ilija Bogunovic | (参考訳) 多くのアプリケーション、例えば共有モビリティでは、多数のエージェントをコーディネートする必要がある。
平均場強化学習は、代表エージェントのポリシーを最適化することで、結果として生じるスケーラビリティの課題に対処する。
本稿では,エージェントの分布に世界的な制約(キャパシティ制約や最小カバレッジ要件など)が存在する場合の,重要な一般化について述べる。
我々は、未知の遷移ダイナミクスであっても安全なポリシーを実現する最初のモデルベースアルゴリズムであるSafe-$\text{M}^3$-UCRLを提案する。
鍵となる要素として、ログバリアアプローチにおける遷移モデルにおけるエピステミック不確実性を利用して、高い確率で悲観的制約の満足度を保証する。
我々は、多くの共有モビリティオペレーターが直面する車両再配置問題にSafe-$\text{M}^3$-UCRLを示し、深センタクシー軌道データに基づくシミュレーションによりその性能を評価する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。 Many applications, e.g., in shared mobility, require coordinating a large number of agents. Mean-field reinforcement learning addresses the resulting scalability challenge by optimizing the policy of a representative agent. In this paper, we address an important generalization where there exist global constraints on the distribution of agents (e.g., requiring capacity constraints or minimum coverage requirements to be met). We propose Safe-$\text{M}^3$-UCRL, the first model-based algorithm that attains safe policies even in the case of unknown transition dynamics. As a key ingredient, it uses epistemic uncertainty in the transition model within a log-barrier approach to ensure pessimistic constraints satisfaction with high probability. We showcase Safe-$\text{M}^3$-UCRL on the vehicle repositioning problem faced by many shared mobility operators and evaluate its performance through simulations built on Shenzhen taxi trajectory data. Our algorithm effectively meets the demand in critical areas while ensuring service accessibility in regions with low demand. | 翻訳日:2023-06-30 12:39:15 公開日:2023-06-29 |
# 拡散確率モデルのスパイキング Spiking Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2306.17046v1 ) ライセンス: Link先を確認 | Jiahang Cao, Ziqing Wang, Hanzhong Guo, Hao Cheng, Qiang Zhang, Renjing Xu | (参考訳) スパイキングニューラルネットワーク(SNN)は、人工ニューラルネットワーク(ANN)と比較して、二元的および生物駆動的な性質のため、超低エネルギー消費と高い生物学的可視性を有する。
これまでの研究は主に分類タスクにおけるsnsの性能向上に重点を置いてきたが、snsの生成可能性は比較的未解明のままである。
本稿では,SNN を用いた新しい生成モデルである Spking Denoising Diffusion Probabilistic Models (SDDPM) について述べる。
SNNのエネルギー効率をフル活用するために,ANNに匹敵する性能を実現する純粋にスパイクされたU-Netアーキテクチャを提案する。
広範な実験結果から,この手法は生成処理の最先端化を達成し,他のsnベースの生成モデルを大幅に上回って,cifar-10とcelebaデータセットに対して最大12\times$と6\times$の改善を達成していることが明らかとなった。
さらに、トレーニング不要な方法で性能をさらに16.7%向上させることができるしきい値誘導戦略を提案する。
SDDPMはSNN生成の分野での大きな進歩を象徴し、新たな視点と潜在的な探索の道のりを注入している。 Spiking neural networks (SNNs) have ultra-low energy consumption and high biological plausibility due to their binary and bio-driven nature compared with artificial neural networks (ANNs). While previous research has primarily focused on enhancing the performance of SNNs in classification tasks, the generative potential of SNNs remains relatively unexplored. In our paper, we put forward Spiking Denoising Diffusion Probabilistic Models (SDDPM), a new class of SNN-based generative models that achieve high sample quality. To fully exploit the energy efficiency of SNNs, we propose a purely Spiking U-Net architecture, which achieves comparable performance to its ANN counterpart using only 4 time steps, resulting in significantly reduced energy consumption. Extensive experimental results reveal that our approach achieves state-of-the-art on the generative tasks and substantially outperforms other SNN-based generative models, achieving up to $12\times$ and $6\times$ improvement on the CIFAR-10 and the CelebA datasets, respectively. Moreover, we propose a threshold-guided strategy that can further improve the performances by 16.7% in a training-free manner. The SDDPM symbolizes a significant advancement in the field of SNN generation, injecting new perspectives and potential avenues of exploration. | 翻訳日:2023-06-30 12:38:58 公開日:2023-06-29 |
# サイバーセキュリティの法的言語のための文法タグ作成に向けて Towards Grammatical Tagging for the Legal Language of Cybersecurity ( http://arxiv.org/abs/2306.17042v1 ) ライセンス: Link先を確認 | Gianpietro Castiglione, Giampaolo Bella, Daniele Francesco Santamaria | (参考訳) 法律言語は、典型的には法的職業に従事する人々によって使用される言語として理解することができ、言語は、話し言葉と書き言葉の両方で現れる。
サイバーセキュリティに関する最近の法律は明らかに法的言語を用いており、典型的にはケースやサブケースの多さから解釈上の合併症をすべて継承している。
本論では,サイバーセキュリティに関する法的文書から音声の必須部分(POS)を抽出する,サイバーセキュリティの法的言語の本質的解釈の課題に直面する。
この課題は、法律言語のposタグ付けの方法論によって克服されます。
自然言語処理(nlp)のための最先端のオープンソースツールと、ツールの結果を検証する手作業分析を活用する。
結果として、この手法は自動化され、おそらく、前処理ステップの微調整に続く法律言語に対して一般的である。
サイバーセキュリティに関する最も関連性の高いEUの法律、すなわちNIS 2指令に基づいて実証され、そのような関係のある文書を初めて必要不可欠な、構造化された解釈を生成する。
さらに, この結果から, SpaCy や ClausIE などのツールが NIS 2 の法的言語に対する限界に達することが示唆された。 Legal language can be understood as the language typically used by those engaged in the legal profession and, as such, it may come both in spoken or written form. Recent legislation on cybersecurity obviously uses legal language in writing, thus inheriting all its interpretative complications due to the typical abundance of cases and sub-cases as well as to the general richness in detail. This paper faces the challenge of the essential interpretation of the legal language of cybersecurity, namely of the extraction of the essential Parts of Speech (POS) from the legal documents concerning cybersecurity. The challenge is overcome by our methodology for POS tagging of legal language. It leverages state-of-the-art open-source tools for Natural Language Processing (NLP) as well as manual analysis to validate the outcomes of the tools. As a result, the methodology is automated and, arguably, general for any legal language following minor tailoring of the preprocessing step. It is demonstrated over the most relevant EU legislation on cybersecurity, namely on the NIS 2 directive, producing the first, albeit essential, structured interpretation of such a relevant document. Moreover, our findings indicate that tools such as SpaCy and ClausIE reach their limits over the legal language of the NIS 2. | 翻訳日:2023-06-30 12:38:35 公開日:2023-06-29 |
# 進化方程式発見のための単目的および多目的最適化品質の比較 Comparison of Single- and Multi- Objective Optimization Quality for Evolutionary Equation Discovery ( http://arxiv.org/abs/2306.17038v1 ) ライセンス: Link先を確認 | Mikhail Maslyaev and Alexander Hvatov | (参考訳) 進化的微分方程式の発見は、完備可能な用語ライブラリ上のスパースな記号回帰のような従来の手法よりも先行仮定の少ない方程式を得るためのツールであることが証明された。
方程式発見場は2つの独立した方向を含む。
1つは純粋に数学的であり、微分、最適化の対象、および函数空間などとの関係に関するものである。
2つ目は、純粋に最適化問題ステートメント専用である。
どちらのトピックも、重要な前処理やその性質に関する事前知識を必要とせず、より人工知能的な方法で実験データを扱うアルゴリズムの能力を改善するために調査する価値がある。
本稿では, 選択項間の差分のみを考慮した単目的最適化と, 得られた方程式の複雑性を考慮した多目的最適化のいずれかの有意性について考察する。
提案手法は, バーガース方程式, 波動方程式, コルテウェグ・ド・ブリース方程式など, 古典的なモデル例で示されている。 Evolutionary differential equation discovery proved to be a tool to obtain equations with less a priori assumptions than conventional approaches, such as sparse symbolic regression over the complete possible terms library. The equation discovery field contains two independent directions. The first one is purely mathematical and concerns differentiation, the object of optimization and its relation to the functional spaces and others. The second one is dedicated purely to the optimizational problem statement. Both topics are worth investigating to improve the algorithm's ability to handle experimental data a more artificial intelligence way, without significant pre-processing and a priori knowledge of their nature. In the paper, we consider the prevalence of either single-objective optimization, which considers only the discrepancy between selected terms in the equation, or multi-objective optimization, which additionally takes into account the complexity of the obtained equation. The proposed comparison approach is shown on classical model examples -- Burgers equation, wave equation, and Korteweg - de Vries equation. | 翻訳日:2023-06-30 12:38:14 公開日:2023-06-29 |
# ロータクラフト姿勢予測のための深部アンサンブル Deep Ensemble for Rotorcraft Attitude Prediction ( http://arxiv.org/abs/2306.17104v1 ) ライセンス: Link先を確認 | Hikmat Khan, Nidhal Carla Bouaynaya, Ghulam Rasool, Tyler Travis, Lacey Thompson, Charles C. Johnson | (参考訳) 歴史的にロータークラフトのコミュニティは商業航空や一般航空を含む他の航空部門よりも事故率が高い。
人工知能(AI)の最近の進歩と、私たちの生活のさまざまな領域におけるこれらの技術の応用は、興味深く、励まされています。
航空分野向けに適切に開発されると、AI技術はロータークラフトの安全性問題に対処できるシステムの設計を支援する機会を提供する。
我々の最近の研究は、AIアルゴリズムが搭載カメラからのビデオデータを使用し、コックピットゲージから異なる飛行パラメータを正確に識別できることを示した。
これらのaiベースの技術は、飛行状態の情報を記録し飛行後の分析を行うために、特に小型ヘリコプター運用者にとって、潜在的にコスト効率のよいソリューションを提供する。
また、慎重に設計され、訓練されたAIシステムは、外部のシーン(画像やビデオデータ)からロータークラフトの姿勢(ピッチやヨー)を正確に予測できることを示した。
通常のオフザシェルフビデオカメラはロータークラフトコックピット内に設置され、地平線を含む外部シーンを記録する。
aiアルゴリズムは80\%の範囲で正確にロータークラフトの姿勢を識別することができた。
本研究では,5つの異なるカメラ視点を組み合わせることで,姿勢予測精度を94\%に向上させた。
本稿では,パイロット用フロントガラス,パイロット用フロントガラス,パイロット用エレクトロニック・フライト・インスツルメンツ・システム(EFIS)ディスプレイ,パイロット用EFISディスプレイ,姿勢指標計の5つのカメラビューについて述べる。
各カメラからの映像データを用いて,様々な畳み込みニューラルネットワーク(cnns)を訓練し,79\%から90\%の範囲で予測精度を得た。
その後、すべてのCNNから学習知識をアンサンブルし、93.3\%の精度でアンサンブルした。 Historically, the rotorcraft community has experienced a higher fatal accident rate than other aviation segments, including commercial and general aviation. Recent advancements in artificial intelligence (AI) and the application of these technologies in different areas of our lives are both intriguing and encouraging. When developed appropriately for the aviation domain, AI techniques provide an opportunity to help design systems that can address rotorcraft safety challenges. Our recent work demonstrated that AI algorithms could use video data from onboard cameras and correctly identify different flight parameters from cockpit gauges, e.g., indicated airspeed. These AI-based techniques provide a potentially cost-effective solution, especially for small helicopter operators, to record the flight state information and perform post-flight analyses. We also showed that carefully designed and trained AI systems could accurately predict rotorcraft attitude (i.e., pitch and yaw) from outside scenes (images or video data). Ordinary off-the-shelf video cameras were installed inside the rotorcraft cockpit to record the outside scene, including the horizon. The AI algorithm could correctly identify rotorcraft attitude at an accuracy in the range of 80\%. In this work, we combined five different onboard camera viewpoints to improve attitude prediction accuracy to 94\%. In this paper, five onboard camera views included the pilot windshield, co-pilot windshield, pilot Electronic Flight Instrument System (EFIS) display, co-pilot EFIS display, and the attitude indicator gauge. Using video data from each camera view, we trained various convolutional neural networks (CNNs), which achieved prediction accuracy in the range of 79\% % to 90\% %. We subsequently ensembled the learned knowledge from all CNNs and achieved an ensembled accuracy of 93.3\%. | 翻訳日:2023-06-30 12:31:23 公開日:2023-06-29 |
# LyricWhiz: ChatGPTへのWhisperingによるロバストな多言語ゼロショット歌詞の転写 LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT ( http://arxiv.org/abs/2306.17103v1 ) ライセンス: Link先を確認 | Le Zhuo, Ruibin Yuan, Jiahao Pan, Yinghao Ma, Yizhi LI, Ge Zhang, Si Liu, Roger Dannenberg, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wenhu Chen, Wei Xue, Yike Guo | (参考訳) LyricWhizは,岩や金属といった難易度の高いジャンルであっても,様々な歌詞の書き起こしデータセットに対して最先端のパフォーマンスを実現する,頑健で多言語的,ゼロショットの自動書き起こし方式である。
本稿では,弱教師付き頑健な音声認識モデルであるWhisperと,今日のチャットベース大規模言語モデルであるGPT-4を利用する。
提案手法では,音声の書き起こしによって「耳」として,gpt-4は「脳」として機能し,文脈的出力選択と修正のための強力な性能を持つ注釈器として機能する。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低減し,複数の言語で効率的に歌詞を転写できることがわかった。
さらに,LyricWhiz を用いて,MTG-Jamendo に基づく CC-BY-NC-SA 著作権ライセンスによる,初めて公開された大規模多言語文字起こしデータセットを作成し,騒音レベルの推定と評価を行う。
提案手法とデータセットは,多言語による歌詞の書き起こし,難易度の高いタスクの開発を推し進めることが期待できる。 We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task. | 翻訳日:2023-06-30 12:30:54 公開日:2023-06-29 |
# 歩行スキル学習のための重要な感覚フィードバックの同定 Identifying Important Sensory Feedback for Learning Locomotion Skills ( http://arxiv.org/abs/2306.17101v1 ) ライセンス: Link先を確認 | Wanming Yu, Chuanyu Yang, Christopher McGreavy, Eleftherios Triantafyllidis, Guillaume Bellegarda, Milad Shafiee, Auke Jan Ijspeert, and Zhibin Li | (参考訳) ロボットモータースキルは、ニューラルネットワークによる深層強化学習(DRL)を通じて、状態-作用マッピングとして学習することができる。
国家観測の選定は重要であるが、これまでは定量分析の欠如があった。
本稿では,DRLを用いて学習した運動能力に対するフィードバック状態の相対的重要性を定量的に評価する。
当社のアプローチでは,バランスリカバリやトロッティング,バウンディング,ペーシング,ガロッピングなど,ロコモーションスキルの最も重要なフィードバック状態を特定します。
関節位置,重心ベクトル,基本線形および角速度を含む重要な状態のみを用いることで,これらの異なるスキルの様々なテストシナリオにおいて,シミュレーションされた四足歩行ロボットがロバストな性能を達成できることを実証する。
タスクパフォーマンスメトリクスを使用したベンチマークでは、キーステートで学習したロコモーションスキルが、すべてのステートと同等のパフォーマンスを達成でき、キーステートが欠落するとタスクパフォーマンスや学習成功率が大幅に低下することを示している。
この研究は、状態観察と特定の種類の運動スキルの関係を定量的に把握し、ロボット運動学習のガイドラインとなる。
提案手法は,ニューラルネットワークに基づく制御ポリシなどの異なる状態対応マッピングに適用可能であり,最小限の感度依存性を持つ幅広い運動能力の学習が可能となる。 Robot motor skills can be learned through deep reinforcement learning (DRL) by neural networks as state-action mappings. While the selection of state observations is crucial, there has been a lack of quantitative analysis to date. Here, we present a systematic saliency analysis that quantitatively evaluates the relative importance of different feedback states for motor skills learned through DRL. Our approach can identify the most essential feedback states for locomotion skills, including balance recovery, trotting, bounding, pacing and galloping. By using only key states including joint positions, gravity vector, base linear and angular velocities, we demonstrate that a simulated quadruped robot can achieve robust performance in various test scenarios across these distinct skills. The benchmarks using task performance metrics show that locomotion skills learned with key states can achieve comparable performance to those with all states, and the task performance or learning success rate will drop significantly if key states are missing. This work provides quantitative insights into the relationship between state observations and specific types of motor skills, serving as a guideline for robot motor learning. The proposed method is applicable to differentiable state-action mapping, such as neural network based control policies, enabling the learning of a wide range of motor skills with minimal sensing dependencies. | 翻訳日:2023-06-30 12:30:12 公開日:2023-06-29 |
# RL4CO: Combinatorial Optimization Benchmarkのための拡張強化学習 RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark ( http://arxiv.org/abs/2306.17100v1 ) ライセンス: Link先を確認 | Federico Berto, Chuanbo Hua, Junyoung Park, Minsu Kim, Hyeonah Kim, Jiwoo Son, Haeyeon Kim, Joungho Kim, Jinkyoo Park | (参考訳) 組合せ最適化(CO)ベンチマークのための拡張強化学習(RL)であるRL4COを紹介する。
rl4coは最先端のソフトウェアライブラリとモジュラリティや構成管理などの実装のベストプラクティスを採用しており、ニューラルネットワークアーキテクチャ、環境、アルゴリズムの適応について研究者によって効率的かつ容易に修正可能である。
パフォーマンスアセスメントのためのトラベルセールスマン問題(tsp)のような特定のタスクに対する既存のフォーカスとは対照的に、様々な最適化タスクにおけるスケーラビリティと一般化機能の重要性を強調する。
また, サンプル効率, ゼロショット一般化, 各種モデルのデータ分布変化への適応性を系統的に評価した。
実験の結果,新しい指標を用いた評価では,最新の手法が先行手法に遅れをきたすことが明らかとなり,ニューラルコソルバの性能をよりバランスのとれた視点の必要性が示唆された。
RL4COは、複雑な現実世界のタスクに対する新しいソリューションの探求を奨励し、ソフトウェア工学から科学を分離する標準化されたインターフェースを通じて既存の方法と比較できるようにしたい。
ライブラリをhttps://github.com/kaist-silab/rl4coで公開しています。 We introduce RL4CO, an extensive reinforcement learning (RL) for combinatorial optimization (CO) benchmark. RL4CO employs state-of-the-art software libraries as well as best practices in implementation, such as modularity and configuration management, to be efficient and easily modifiable by researchers for adaptations of neural network architecture, environments, and algorithms. Contrary to the existing focus on specific tasks like the traveling salesman problem (TSP) for performance assessment, we underline the importance of scalability and generalization capabilities for diverse optimization tasks. We also systematically benchmark sample efficiency, zero-shot generalization, and adaptability to changes in data distributions of various models. Our experiments show that some recent state-of-the-art methods fall behind their predecessors when evaluated using these new metrics, suggesting the necessity for a more balanced view of the performance of neural CO solvers. We hope RL4CO will encourage the exploration of novel solutions to complex real-world tasks, allowing to compare with existing methods through a standardized interface that decouples the science from the software engineering. We make our library publicly available at https://github.com/kaist-silab/rl4co. | 翻訳日:2023-06-30 12:29:22 公開日:2023-06-29 |
# 栄養失調の緩和におけるロバストな特徴の重要性 The Importance of Robust Features in Mitigating Catastrophic Forgetting ( http://arxiv.org/abs/2306.17091v1 ) ライセンス: Link先を確認 | Hikmat Khan, Nidhal C. Bouaynaya, Ghulam Rasoom | (参考訳) 連続学習(CL)は破滅的な忘れに対処するアプローチであり、新しいタスクやデータ分散のトレーニングでニューラルネットワークが学習した知識を忘れることを指す。
対向ロバスト性は、特徴をロバスト型と非ロバスト型に分解し、ロバストな特徴に基づいて訓練されたモデルが対向ロバスト性を大幅に向上させることを示した。
しかし,clモデルのレンズからのロバストな特徴がclの破滅的忘れることに対する効果についての研究は行われていない。
本稿では、CLロバストデータセットを導入し、標準とCLロバストデータセットの両方で4つのベースラインモデルをトレーニングする。
その結果,CL頑健なデータセットでトレーニングしたCLモデルは,従来学習したタスクを標準データセットでトレーニングした場合よりも,破滅的な忘れを伴わないことがわかった。
本研究は, CLモデルに提供される特徴の意義を強調し, CLの頑健な特徴が破滅的忘れを軽減できることを示した。 Continual learning (CL) is an approach to address catastrophic forgetting, which refers to forgetting previously learned knowledge by neural networks when trained on new tasks or data distributions. The adversarial robustness has decomposed features into robust and non-robust types and demonstrated that models trained on robust features significantly enhance adversarial robustness. However, no study has been conducted on the efficacy of robust features from the lens of the CL model in mitigating catastrophic forgetting in CL. In this paper, we introduce the CL robust dataset and train four baseline models on both the standard and CL robust datasets. Our results demonstrate that the CL models trained on the CL robust dataset experienced less catastrophic forgetting of the previously learned tasks than when trained on the standard dataset. Our observations highlight the significance of the features provided to the underlying CL models, showing that CL robust features can alleviate catastrophic forgetting. | 翻訳日:2023-06-30 12:28:51 公開日:2023-06-29 |
# 多変量時系列予測におけるグラフィカルモデルの発見によるスパーシティ・エクスプロイジョン Sparsity exploitation via discovering graphical models in multi-variate time-series forecasting ( http://arxiv.org/abs/2306.17090v1 ) ライセンス: Link先を確認 | Ngoc-Dung Do, Truong Son Hy, Duy Khuong Nguyen | (参考訳) グラフニューラルネットワーク(GNN)は、異なる時系列間の相関を捉える能力のため、多変量時系列予測(MTSF)タスクに広く応用されている。
これらのグラフに基づく学習手法は、データ相関を表す基礎となるグラフ構造を発見し、理解することで予測性能を向上させる。
明示的な事前グラフ構造が利用できない場合、既存の作品の多くは生成されたグラフのスパース性を保証することができないため、モデル全体の計算コストは高く、解釈しにくい。
本研究では,グラフ生成モジュールとGNN予測モジュールを含む分離学習手法を提案する。
まず、グラフラッソ(GraphLASSO)を使用してデータから空間パターンを直接利用し、静的かつ時間的に変化するケースでグラフ構造を構築する。
次に、これらのグラフ構造と入力データをGCRN(Graph Convolutional Recurrent Network)に適合させて予測モデルをトレーニングする。
実世界の3つのデータセットに対する実験結果から,我々の新しい手法は既存の最先端予測アルゴリズムと競合し,疎密で有意義で説明可能なグラフ構造を提供し,トレーニング時間を約40%短縮することを示した。
pytorchの実装はhttps://github.com/hysonlab/graphlassoで公開しています。 Graph neural networks (GNNs) have been widely applied in multi-variate time-series forecasting (MTSF) tasks because of their capability in capturing the correlations among different time-series. These graph-based learning approaches improve the forecasting performance by discovering and understanding the underlying graph structures, which represent the data correlation. When the explicit prior graph structures are not available, most existing works cannot guarantee the sparsity of the generated graphs that make the overall model computational expensive and less interpretable. In this work, we propose a decoupled training method, which includes a graph generating module and a GNNs forecasting module. First, we use Graphical Lasso (or GraphLASSO) to directly exploit the sparsity pattern from data to build graph structures in both static and time-varying cases. Second, we fit these graph structures and the input data into a Graph Convolutional Recurrent Network (GCRN) to train a forecasting model. The experimental results on three real-world datasets show that our novel approach has competitive performance against existing state-of-the-art forecasting algorithms while providing sparse, meaningful and explainable graph structures and reducing training time by approximately 40%. Our PyTorch implementation is publicly available at https://github.com/HySonLab/GraphLASSO | 翻訳日:2023-06-30 12:28:36 公開日:2023-06-29 |
# 大規模言語モデルを用いた概念指向ディープラーニング Concept-Oriented Deep Learning with Large Language Models ( http://arxiv.org/abs/2306.17089v1 ) ライセンス: Link先を確認 | Daniel T. Chang | (参考訳) 大規模言語モデル(LLM)は、テキスト生成やAIチャットボットを含む多くの自然言語タスクやアプリケーションで成功している。
また、概念指向ディープラーニング(CODL)のための有望な新技術である。
しかし、LLMは概念を理解し、概念整合性を確保することが必須である。
本稿では,テキストからの概念抽出,テキストからの概念グラフ抽出,概念学習など,CODLにおけるLLMの活用について論じる。
人間の知識は象徴的(概念的)知識と具体的(感覚的)知識の両方から成り立っている。
しかし、テキストのみのLLMはシンボリックな(概念的な)知識のみを表現することができる。
一方、マルチモーダルLLMは人間の知識の完全な範囲(概念と感覚)を表現できる。
画像からの概念抽出、画像からの概念グラフ抽出、概念学習など、CODLにおける視覚言語LLMの概念的理解、最も重要なマルチモーダルLLMの活用について論じる。
CODLにLLMを使うことは、スタンドアローンで有用であるが、AIチャットボットのようなLLMアプリケーションの一部として特に有用である。 Large Language Models (LLMs) have been successfully used in many natural-language tasks and applications including text generation and AI chatbots. They also are a promising new technology for concept-oriented deep learning (CODL). However, the prerequisite is that LLMs understand concepts and ensure conceptual consistency. We discuss these in this paper, as well as major uses of LLMs for CODL including concept extraction from text, concept graph extraction from text, and concept learning. Human knowledge consists of both symbolic (conceptual) knowledge and embodied (sensory) knowledge. Text-only LLMs, however, can represent only symbolic (conceptual) knowledge. Multimodal LLMs, on the other hand, are capable of representing the full range (conceptual and sensory) of human knowledge. We discuss conceptual understanding in visual-language LLMs, the most important multimodal LLMs, and major uses of them for CODL including concept extraction from image, concept graph extraction from image, and concept learning. While uses of LLMs for CODL are valuable standalone, they are particularly valuable as part of LLM applications such as AI chatbots. | 翻訳日:2023-06-30 12:28:15 公開日:2023-06-29 |
# 部分空間に制限された最適ミキサーと安定化形式 Optimal mixers restricted to subspaces and the stabilizer formalism ( http://arxiv.org/abs/2306.17083v1 ) ライセンス: Link先を確認 | Franz G. Fuchs | (参考訳) 与えられた部分空間を保存するミキサーの理解と構築を両立させる新しい形式主義を提案する。
この方法は、誤り訂正符号に使用される安定化器形式を接続して利用する。
これは、組合せ最適化問題の解法として一般的なメタヒューリスティックである量子近似最適化アルゴリズム(QAOA)が、問題の制約が大きくて容易に指定可能な部分空間に導かれるような設定に適用される場合に有用である。
提案手法は、制御されたNotゲートの数で資源効率が良く、よく知られたXとXYミキサーの一般化と解釈できるミキサーを構築するための体系的な方法を提供する。
得られた数値例では, 従来の結果と比較してCXゲートが劇的に減少した。
全体として、この新しい視点が量子アルゴリズムの開発にさらなる洞察をもたらすことを期待している。 We present a novel formalism to both understand and construct mixers that preserve a given subspace. The method connects and utilizes the stabilizer formalism that is used in error correcting codes. This can be useful in the setting when the quantum approximate optimization algorithm (QAOA), a popular meta-heuristic for solving combinatorial optimization problems, is applied in the setting where the constraints of the problem lead to a feasible subspace that is large but easy to specify. The proposed method gives a systematic way to construct mixers that are resource efficient in the number of controlled not gates and can be understood as a generalization of the well-known X and XY mixers. The numerical examples provided show a dramatic reduction of CX gates when compared to previous results. Overall, we hope that this new perspective can lead to further insight into the development of quantum algorithms. | 翻訳日:2023-06-30 12:27:59 公開日:2023-06-29 |
# 多波長磁気光学トラップのための最適二元格子 Optimal binary gratings for multi-wavelength magneto-optical traps ( http://arxiv.org/abs/2306.17080v1 ) ライセンス: Link先を確認 | Oliver S. Burrow, Robert J. Fasano, Wesley Brand, Michael W. Wright, Wenbo Li, Andrew D. Ludlow, Erling Riis, Paul F. Griffin, and Aidan S. Arnold | (参考訳) 格子磁気光学トラップは、超低温原子を持つ携帯型気象デバイスのための量子技術である。
しかし、ビーム回折効率と角度は波長に影響され、SrやYbなどの原子を光学格子やツイーザークロックにロードするのによく用いられるように、2つの異なる波長でレーザー冷却を行うための単一光学設計課題が生じる。
本稿では,様々な波長の2次格子を光学的特徴付けし,様々なデューティサイクルの次元のないエッチング深さと周期の観点から,実験格子回折効率データに簡単な経験的適合性を求める。
このモデルでは複雑な3次元光回折表面の計算は避けるが、それでも幅広いパラメータで数パーセントの精度が得られる。
2つまたはそれ以上の波長に最適化されたグレーティングは、先進的な量子技術を実現する幅広い種類の原子種に適した情報的方法で設計することができる。 Grating magneto-optical traps are an enabling quantum technology for portable metrological devices with ultracold atoms. However, beam diffraction efficiency and angle are affected by wavelength, creating a single-optic design challenge for laser cooling in two stages at two distinct wavelengths - as commonly used for loading e.g. Sr or Yb atoms into optical lattice or tweezer clocks. Here, we optically characterize a wide variety of binary gratings at different wavelengths to find a simple empirical fit to experimental grating diffraction efficiency data in terms of dimensionless etch depth and period for various duty cycles. The model avoids complex 3D light-grating surface calculations, yet still yields results accurate to a few percent across a broad range of parameters. Gratings optimized for two (or more) wavelengths can now be designed in an informed manner suitable for a wide class of atomic species enabling advanced quantum technologies. | 翻訳日:2023-06-30 12:27:43 公開日:2023-06-29 |
# RAPGen: ゼロショットにおけるコードの非効率性を修正するアプローチ RAPGen: An Approach for Fixing Code Inefficiencies in Zero-Shot ( http://arxiv.org/abs/2306.17077v1 ) ライセンス: Link先を確認 | Spandan Garg, Roshanak Zilouchian Moghaddam, Neel Sundaresan | (参考訳) パフォーマンスバグは、よくテストされた商用製品に現れうる非機能バグである。
これらのパフォーマンスバグを修正することは重要だが、難しい問題である。
本稿では,この課題に対処し,RAPGen(Retrieval-Augmented Prompt Generation)と呼ばれる新しいアプローチを提案する。
パフォーマンス問題のあるコードスニペットが与えられた後、RAPGenは最初に、以前のパフォーマンスバグ修正の事前構築された知識ベースからプロンプト命令を取得し、その後、検索された命令を使用してプロンプトを生成する。
次に、このプロンプトをゼロショットのLarge Language Model(Codexなど)で使用して修正を生成する。
このアプローチを,パフォーマンスバグフィックスのタスクにおいて,さまざまな迅速なバリエーションと art メソッドの状態と比較した。
我々の評価によると、RAPGenは、C#開発者が過去のパフォーマンス変更を専門家が検証したデータセットで、約60%のケースで開発者よりも同等かそれ以上のパフォーマンス改善提案を生成できる。 Performance bugs are non-functional bugs that can even manifest in well-tested commercial products. Fixing these performance bugs is an important yet challenging problem. In this work, we address this challenge and present a new approach called Retrieval-Augmented Prompt Generation (RAPGen). Given a code snippet with a performance issue, RAPGen first retrieves a prompt instruction from a pre-constructed knowledge-base of previous performance bug fixes and then generates a prompt using the retrieved instruction. It then uses this prompt on a Large Language Model (such as Codex) in zero-shot to generate a fix. We compare our approach with the various prompt variations and state of the art methods in the task of performance bug fixing. Our evaluation shows that RAPGen can generate performance improvement suggestions equivalent or better than a developer in ~60% of the cases, getting ~39% of them verbatim, in an expert-verified dataset of past performance changes made by C# developers. | 翻訳日:2023-06-30 12:27:30 公開日:2023-06-29 |
# 支持ベクトルマシン上での放射基底関数による小惑星の軌道分類 Orbit Classification of asteroids using implementation of radial Basis Function on Support Vector Machines ( http://arxiv.org/abs/2306.17138v1 ) ライセンス: Link先を確認 | Yashvir Tiberwal and Nishchal Dwivedi | (参考訳) 本研究では,小惑星軌道分類のための放射基底関数 (RBF) 支援ベクトルマシン (SVM) の実装に焦点を当てた。
小惑星は重要な天体であり、その軌道は太陽系のダイナミクスを理解する上で重要な役割を果たす。
国際天文学連合は、様々な機械学習技術を試すための遊び場を提供するデータアーカイブを維持している。
本研究では,小惑星分類におけるRBF SVMアルゴリズムの適用について検討する。
その結果,RBF SVMアルゴリズムはデータセットに対して良好な効率と精度を提供することがわかった。
また,RBF SVMアルゴリズムの性能に対する各種パラメータの影響を分析し,最適パラメータ設定を提案する。
本研究では,小惑星軌道の分類に機械学習を用いることの重要性と,RBF SVMアルゴリズムの有効性を明らかにする。 This research paper focuses on the implementation of radial Basis Function (RBF) Support Vector Machines (SVM) for classifying asteroid orbits. Asteroids are important astronomical objects, and their orbits play a crucial role in understanding the dynamics of the solar system. The International Astronomical Union maintains data archives that provide a playground to experiment with various machine-learning techniques. In this study, we explore the application of RBF SVM algorithm to classify asteroids. The results show that the RBF SVM algorithm provides a good efficiency and accuracy to the dataset. We also analyze the impact of various parameters on the performance of the RBF SVM algorithm and present the optimal parameter settings. Our study highlights the importance of using machine learning techniques for classifying asteroid orbits and the effectiveness of the RBF SVM algorithm in this regard. | 翻訳日:2023-06-30 12:21:54 公開日:2023-06-29 |
# PVP: StyleGANを使った編集可能なダイナミックポートレイトに先立ってパーソナライズされたビデオ PVP: Personalized Video Prior for Editable Dynamic Portraits using StyleGAN ( http://arxiv.org/abs/2306.17123v1 ) ライセンス: Link先を確認 | Kai-En Lin and Alex Trevithick and Keli Cheng and Michel Sarkis and Mohsen Ghafoorian and Ning Bi and Gerhard Reitmayr and Ravi Ramamoorthi | (参考訳) ポートレート合成はリアルなデジタルアバターを作り、ユーザーが魅力的な方法で他の人と対話できるようにする。
StyleGANとその拡張の最近の進歩は、人間の顔の光現実的かつ正確な再構成を合成する有望な結果を示している。
しかし,従来の手法は正面顔合成に重点を置いており,ほとんどの手法ではStyleGANのトレーニングデータ分布のために大きな頭部回転を処理できない。
本研究の目的は,顔のモノクロ映像を入力として,極端な頭部ポーズを処理可能な動的肖像画を作成することである。
ユーザーは新しい視点を作り、外観を編集し、顔をアニメーション化することができる。
本手法は,PTI(Philipal tuning inversion)を用いて,モノクロビデオシーケンスからパーソナライズされたビデオの学習を行う。
次にポーズと表現係数をmlpに入力し、潜在ベクトルを操作することで、対象の異なる視点と表現を合成することができる。
また、潜在空間におけるポーズと表現をさらに歪める新しい損失関数を提案する。
また,RTX 3080 上で54 FPS をリアルタイムに動作させることができる。 Portrait synthesis creates realistic digital avatars which enable users to interact with others in a compelling way. Recent advances in StyleGAN and its extensions have shown promising results in synthesizing photorealistic and accurate reconstruction of human faces. However, previous methods often focus on frontal face synthesis and most methods are not able to handle large head rotations due to the training data distribution of StyleGAN. In this work, our goal is to take as input a monocular video of a face, and create an editable dynamic portrait able to handle extreme head poses. The user can create novel viewpoints, edit the appearance, and animate the face. Our method utilizes pivotal tuning inversion (PTI) to learn a personalized video prior from a monocular video sequence. Then we can input pose and expression coefficients to MLPs and manipulate the latent vectors to synthesize different viewpoints and expressions of the subject. We also propose novel loss functions to further disentangle pose and expression in the latent space. Our algorithm shows much better performance over previous approaches on monocular video datasets, and it is also capable of running in real-time at 54 FPS on an RTX 3080. | 翻訳日:2023-06-30 12:21:41 公開日:2023-06-29 |
# ハイパーグラフ製品コードにおける部分的症候群計測 Partial Syndrome Measurement for Hypergraph Product Codes ( http://arxiv.org/abs/2306.17122v1 ) ライセンス: Link先を確認 | Noah Berthusen and Daniel Gottesman | (参考訳) ハイパーグラフ製品コードは、一定のオーバーヘッドでフォールトトレラント量子計算を達成するための有望な方法である。
これらや他の定レートqLDPCコードを2Dに埋め込むには、かなりの数の非局所接続が必要であり、いくつかの量子コンピューティングアーキテクチャでは困難である。
本研究では,この非局所性を実現することを目的とした耐故障性手法を提案し,空間的に離れたキュービットに作用する発電機を非局所性よりも少ない頻度で測定する。
本研究では,本方式の簡易版の性能について検討し,測定した生成器をランダムに選択した。
ハイパーグラフ製品コードと修正された小セットフリップ復号アルゴリズムに適用した場合、測定されるジェネレータの比率が十分に高い場合、しきい値が存在することが証明される。
また, 発生器の定数が一定でない場合でも, 論理誤差率が指数関数的に抑制されることを示す。 Hypergraph product codes are a promising avenue to achieving fault-tolerant quantum computation with constant overhead. When embedding these and other constant-rate qLDPC codes into 2D, a significant number of nonlocal connections are required, posing difficulties for some quantum computing architectures. In this work, we introduce a fault-tolerance scheme that aims to alleviate the effects of implementing this nonlocality by measuring generators acting on spatially distant qubits less frequently than those which do not. We investigate the performance of a simplified version of this scheme, where the measured generators are randomly selected. When applied to hypergraph product codes and a modified small-set-flip decoding algorithm, we prove that for a sufficiently high percentage of generators being measured, a threshold still exists. We also find numerical evidence that the logical error rate is exponentially suppressed even when a large constant fraction of generators are not measured. | 翻訳日:2023-06-30 12:21:21 公開日:2023-06-29 |
# マスク画像モデリングによる核表現の学習 Learning Nuclei Representations with Masked Image Modelling ( http://arxiv.org/abs/2306.17116v1 ) ライセンス: Link先を確認 | Piotr W\'ojcik, Hussein Naji, Adrian Simon, Reinhard B\"uttner, Katarzyna Bo\.zek | (参考訳) Masked Image Modelling (MIM)は、医用画像解析において広く実証されていない強力な自己教師型表現学習パラダイムである。
本研究では,haemotoxylin & eosin (h&e) の核レベルでの高精細な意味表現をとらえるmimの能力を示す。
画像変換器(BEiT)からの双方向エンコーダ表現にインスパイアされ、画像を小さなパッチに分割し、対応する個別の視覚トークンを生成する。
通常、視覚変換器で使用される格子ベースのパッチに加えて、個々の細胞核のパッチも導入する。
画像内におけるこれらの構造の不規則分布の位置エンコーディングを提案する。
細胞核が分節化されているびまん性大細胞型B細胞リンパ腫のH&E-stained whole-slide画像に対して,自己指導でモデルを事前訓練する。
事前学習の目的は、マスクされた画像のオリジナルの離散視覚トークンを回復し、他方のマスクされたオブジェクトインスタンスの視覚トークンを再構築することである。
これら2つの事前学習タスクを結合することで、核の強力なコンテキスト認識表現を構築することができる。
本モデルでは,PanNukeデータセット上のセル分類精度を現行のインスタンスセグメンテーション法と比較して5%以上向上させ,下流分類タスクを微調整することができる。 Masked image modelling (MIM) is a powerful self-supervised representation learning paradigm, whose potential has not been widely demonstrated in medical image analysis. In this work, we show the capacity of MIM to capture rich semantic representations of Haemotoxylin & Eosin (H&E)-stained images at the nuclear level. Inspired by Bidirectional Encoder representation from Image Transformers (BEiT), we split the images into smaller patches and generate corresponding discrete visual tokens. In addition to the regular grid-based patches, typically used in visual Transformers, we introduce patches of individual cell nuclei. We propose positional encoding of the irregular distribution of these structures within an image. We pre-train the model in a self-supervised manner on H&E-stained whole-slide images of diffuse large B-cell lymphoma, where cell nuclei have been segmented. The pre-training objective is to recover the original discrete visual tokens of the masked image on the one hand, and to reconstruct the visual tokens of the masked object instances on the other. Coupling these two pre-training tasks allows us to build powerful, context-aware representations of nuclei. Our model generalizes well and can be fine-tuned on downstream classification tasks, achieving improved cell classification accuracy on PanNuke dataset by more than 5% compared to current instance segmentation methods. | 翻訳日:2023-06-30 12:21:03 公開日:2023-06-29 |
# ミケランジェロ:形状画像テキスト適応潜在表現に基づく条件付き3次元形状生成 Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation ( http://arxiv.org/abs/2306.17115v1 ) ライセンス: Link先を確認 | Zibo Zhao, Wen Liu, Xin Chen, Xianfang Zeng, Rui Wang, Pei Cheng, Bin Fu, Tao Chen, Gang Yu and Shenghua Gao | (参考訳) 本稿では,2次元画像やテキストから一般的な3次元形状を生成するという課題に対処する新しいアライメント・前世代手法を提案する。
画像やテキストから3次元形状への条件生成モデルを直接学習することは,3次元形状が2次元画像やテキストと大きく異なる追加次元を持つため,条件と矛盾する結果を生み出す傾向にある。
3つのモード間の領域ギャップを埋め、マルチモーダル条件の3次元形状生成を容易にするために、形状-画像-テキスト整列空間における3次元形状を表現する。
本フレームワークは,形状-画像-テキスト対応変分自動エンコーダ (SITA-VAE) と条件付き形状遅延拡散モデル (ASLDM) の2つのモデルからなる。
前者は3d形状を画像とテキストに整列した形状潜在空間にエンコードし、トランスベースのデコーダを介して所定の形状埋め込みに対応する細粒度の3dニューラルフィールドを再構成する。
後者のモデルは、画像またはテキスト空間から潜在形状空間への確率的マッピング関数を学習する。
提案手法は,視覚条件入力やテクスチャ条件入力に合致した高品位かつ多彩な3次元形状を生成でき,形状・画像・テキスト対応空間の有効性を検証できることを示す。 We present a novel alignment-before-generation approach to tackle the challenging task of generating general 3D shapes based on 2D images or texts. Directly learning a conditional generative model from images or texts to 3D shapes is prone to producing inconsistent results with the conditions because 3D shapes have an additional dimension whose distribution significantly differs from that of 2D images and texts. To bridge the domain gap among the three modalities and facilitate multi-modal-conditioned 3D shape generation, we explore representing 3D shapes in a shape-image-text-aligned space. Our framework comprises two models: a Shape-Image-Text-Aligned Variational Auto-Encoder (SITA-VAE) and a conditional Aligned Shape Latent Diffusion Model (ASLDM). The former model encodes the 3D shapes into the shape latent space aligned to the image and text and reconstructs the fine-grained 3D neural fields corresponding to given shape embeddings via the transformer-based decoder. The latter model learns a probabilistic mapping function from the image or text space to the latent shape space. Our extensive experiments demonstrate that our proposed approach can generate higher-quality and more diverse 3D shapes that better semantically conform to the visual or textural conditional inputs, validating the effectiveness of the shape-image-text-aligned space for cross-modality 3D shape generation. | 翻訳日:2023-06-30 12:20:40 公開日:2023-06-29 |
# ミリ波原子受信機 A millimeter-wave atomic receiver ( http://arxiv.org/abs/2306.17114v1 ) ライセンス: Link先を確認 | Remy Legaie, Georg Raithel, David A. Anderson | (参考訳) Rydberg量子センサーは、メガヘルツからテラヘルツの電磁波共鳴と、Rydberg原子双極子遷移の超広帯域の電波場に敏感である。
ここでは、連続波レーザーを光周波数コムに安定化した原子ミリ波ヘテロダイン受信機を示す。
我々は、wバンドの原子受信機を信号周波数95.992512~ghzで特徴付け、感度7.9$\mu$v/m/$\sqrt{hz}$とリニアダイナミックレンジ70dbを示す。
我々は、原子受信機における周波数選択基準を開発し、信号周波数オフセットにおける信号拒絶レベルを$\Delta f/f$ = 10$^{-4}$, 10$^{-5}$, 10$^{-6}$, 3-dB, 6-dB, 9-dB, 12-dBバンド幅、フィルタロールオフ、形状因子分析など、ミリ波受信機での使用例を示す。
我々の研究は、原子レシーバ科学と技術の今後の研究と応用、および弱いミリ波および高周波信号検出への重要な進歩を表している。 Rydberg quantum sensors are sensitive to radio-frequency fields across an ultra-wide frequency range spanning megahertz to terahertz electromagnetic waves resonant with Rydberg atom dipole transitions. Here we demonstrate an atomic millimeter-wave heterodyne receiver employing continuous-wave lasers stabilized to an optical frequency comb. We characterize the atomic receiver in the W-band at signal frequency of $f$=95.992512~GHz, and demonstrate a sensitivity of 7.9$\mu$V/m/$\sqrt{Hz}$ and a linear dynamic range of 70dB. We develop frequency selectivity metrics for atomic receivers and demonstrate their use in our millimeter-wave receiver, including signal rejection levels at signal frequency offsets $\Delta f/f$ = 10$^{-4}$, 10$^{-5}$ and 10$^{-6}$, 3-dB, 6-dB, 9-dB and 12-dB bandwidths, filter roll-off, and shape factor analysis. Our work represents an important advance towards future studies and applications of atomic receiver science and technology and in weak millimeter-wave and high-frequency signal detection. | 翻訳日:2023-06-30 12:20:14 公開日:2023-06-29 |
# gansを用いたカード不正検出のための合成人口統計データ生成 Synthetic Demographic Data Generation for Card Fraud Detection Using GANs ( http://arxiv.org/abs/2306.17109v1 ) ライセンス: Link先を確認 | Shuo Wang, Terrence Tricco, Xianta Jiang, Charles Robertson, John Hawkin | (参考訳) 機械学習モデルを使用して合成データを生成することは、多くの分野で一般的になっている。
不正検出に使用できる合成トランザクションを生成する技術も急速に成長しています。
一般に、この合成データは、取引の時間、場所、金額などの情報のみを含んでいる。
通常は個々のユーザの特性を含まない(年齢や性別も時々含まれる)。
比較的複雑な合成人口統計データを使用することで、トランザクションデータの特徴の複雑さが向上し、不正検出性能が向上する可能性がある。
機械学習の開発により、いくつかのディープラーニングモデルは、マイクロシミュレーションなど、他の確立された合成データ生成方法よりもパフォーマンスが良い可能性がある。
本研究では,dggan(deep-learning generative adversarial network)という,年齢層データ生成に使用される学習型ジェネレーショナル・リバーサリー・ネットワーク(gan)を構築した。
モデルはモデルトレーニング中にサンプルを生成し,クラス不均衡問題を克服することが重要であることがわかった。
本研究では,合成データの認識を改善し,カード詐欺検出における合成データ生成の応用について検討する。 Using machine learning models to generate synthetic data has become common in many fields. Technology to generate synthetic transactions that can be used to detect fraud is also growing fast. Generally, this synthetic data contains only information about the transaction, such as the time, place, and amount of money. It does not usually contain the individual user's characteristics (age and gender are occasionally included). Using relatively complex synthetic demographic data may improve the complexity of transaction data features, thus improving the fraud detection performance. Benefiting from developments of machine learning, some deep learning models have potential to perform better than other well-established synthetic data generation methods, such as microsimulation. In this study, we built a deep-learning Generative Adversarial Network (GAN), called DGGAN, which will be used for demographic data generation. Our model generates samples during model training, which we found important to overcame class imbalance issues. This study can help improve the cognition of synthetic data and further explore the application of synthetic data generation in card fraud detection. | 翻訳日:2023-06-30 12:19:49 公開日:2023-06-29 |
# ManimML: アニメーションによる機械学習アーキテクチャのコミュニケーション ManimML: Communicating Machine Learning Architectures with Animation ( http://arxiv.org/abs/2306.17108v1 ) ライセンス: Link先を確認 | Alec Helbling and Duen Horng (Polo) Chau | (参考訳) 近年、機械学習(ML)への関心が爆発的に高まっている。
しかし、ML技術が進歩するにつれて、新しいMLアルゴリズムの説明と視覚化ツールが遅れている。
アニメーションは、時間とともに動的に変化するシステムのエンゲージメントな視覚化を実現する強力なツールであることが示されており、MLアルゴリズムの通信タスクに適している。
しかし、MLアルゴリズムをアニメーションする現在のアプローチは、特定のアルゴリズムをハイライトするアプリケーションや複雑な一般化されたアニメーションソフトウェアを使用するハンドクラフトである。
我々は,コードから直接MLアルゴリズムのアニメーションを生成するオープンソースPythonライブラリManimMLを開発した。
我々は,複雑なアニメーションソフトウェアを学習するよりも,ML実践者の既存のプログラミング知識を活用することを試みた。
ManimMLには、Pytorchのような人気のあるディープラーニングフレームワークを模倣するニューラルネットワークを指定するための、よく知られた構文がある。
ユーザは、既存のニューラルネットワークアーキテクチャを使用して、manimmlでアニメーションの仕様を簡単に記述することができ、システムのさまざまなコンポーネントのアニメーションをニューラルネットワーク全体の最終的なアニメーションに自動生成する。
ManimMLはオープンソースでhttps://github.com/helblazer811/ManimMLで入手できる。 There has been an explosion in interest in machine learning (ML) in recent years due to its applications to science and engineering. However, as ML techniques have advanced, tools for explaining and visualizing novel ML algorithms have lagged behind. Animation has been shown to be a powerful tool for making engaging visualizations of systems that dynamically change over time, which makes it well suited to the task of communicating ML algorithms. However, the current approach to animating ML algorithms is to handcraft applications that highlight specific algorithms or use complex generalized animation software. We developed ManimML, an open-source Python library for easily generating animations of ML algorithms directly from code. We sought to leverage ML practitioners' preexisting knowledge of programming rather than requiring them to learn complex animation software. ManimML has a familiar syntax for specifying neural networks that mimics popular deep learning frameworks like Pytorch. A user can take a preexisting neural network architecture and easily write a specification for an animation in ManimML, which will then automatically compose animations for different components of the system into a final animation of the entire neural network. ManimML is open source and available at https://github.com/helblazer811/ManimML. | 翻訳日:2023-06-30 12:19:34 公開日:2023-06-29 |
# LLaVAR: テキストリッチ画像理解のための強化されたビジュアルインストラクションチューニング LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding ( http://arxiv.org/abs/2306.17107v1 ) ライセンス: Link先を確認 | Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun | (参考訳) インストラクションチューニングは、人間と対話するLarge Language Models(LLM)の優れた能力を解き放つ。
さらに、最近の命令追跡データセットには、視覚入力としての画像が含まれ、画像に基づく命令に対する応答を収集する。
しかし、視覚的な命令調整モデルでは、画像内のテキストの詳細を十分に理解できない。
この作業は、テキストに富んだ画像(例えば映画のポスター、本のカバーなど)で、現在の視覚的な命令チューニングパイプラインを強化する。
具体的には、最初に公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
さらに、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
収集したデータと過去のマルチモーダル命令フォローデータを組み合わせることで、LLaVARはテキストベースのVQAデータセット上でのLLaVAモデルの能力を大幅に向上し(最大20%の精度向上)、ScienceQAでは91.42%の精度を達成する。
GPT-4に基づく命令追従評価は、自然画像とテキストリッチ画像の両方において、モデルの改善を示す。
質的な分析を通じて、LLaVARはテキストと画像を組み合わせた最新の現実世界のオンラインコンテンツに基づいて、人間と有望な相互作用(推論、記述、実験など)を示す。
コード/データ/モデルをhttps://llavar.github.io/で公開しています。 Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model's capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/. | 翻訳日:2023-06-30 12:19:16 公開日:2023-06-29 |
# ニューロンは実際に崩壊したのか?
神経表現におけるきめ細かい構造について Are Neurons Actually Collapsed? On the Fine-Grained Structure in Neural Representations ( http://arxiv.org/abs/2306.17105v1 ) ライセンス: Link先を確認 | Yongyi Yang, Jacob Steinhardt, Wei Hu | (参考訳) 近年の研究では、よく訓練されたニューラルネットワークにおいて、同じラベルを持つトレーニングサンプルの最後の層が互いに崩壊する「ニューラル崩壊」現象が注目されている。
これは、最後の層表現がラベルによって完全に決定され、入力分布の内在構造に依存しないことを示している。
これは完全な記述ではなく、明らかな崩壊は表現において重要なきめ細かい構造を隠蔽することを示す。
具体的には、表現が崩壊しているように見える場合でも、わずかな変動が入力分布の固有構造を忠実かつ正確に捉えることができる。
例えば、収束するまで5つの粗いラベル(2つのクラスを1つのスーパークラスに組み合わせて)を使ってCIFAR-10でトレーニングすると、教師なしクラスタリングによって学習された表現からオリジナルの10クラスのラベルを再構築できる。
再建されたラベルは CIFAR-10 テストセットで 93\% の精度を達成し、同じアーキテクチャの通常の CIFAR-10 の精度とほぼ一致する。
また,簡単な合成設定で細粒度表現構造を示す最初の理論的結果を示す。
以上の結果から, 入力データの構造が神経表現の微細な構造を決定する上で, どのように重要な役割を果たすかが明らかとなった。 Recent work has observed an intriguing ''Neural Collapse'' phenomenon in well-trained neural networks, where the last-layer representations of training samples with the same label collapse into each other. This appears to suggest that the last-layer representations are completely determined by the labels, and do not depend on the intrinsic structure of input distribution. We provide evidence that this is not a complete description, and that the apparent collapse hides important fine-grained structure in the representations. Specifically, even when representations apparently collapse, the small amount of remaining variation can still faithfully and accurately captures the intrinsic structure of input distribution. As an example, if we train on CIFAR-10 using only 5 coarse-grained labels (by combining two classes into one super-class) until convergence, we can reconstruct the original 10-class labels from the learned representations via unsupervised clustering. The reconstructed labels achieve $93\%$ accuracy on the CIFAR-10 test set, nearly matching the normal CIFAR-10 accuracy for the same architecture. We also provide an initial theoretical result showing the fine-grained representation structure in a simplified synthetic setting. Our results show concretely how the structure of input data can play a significant role in determining the fine-grained structure of neural representations, going beyond what Neural Collapse predicts. | 翻訳日:2023-06-30 12:18:47 公開日:2023-06-29 |
# マルチタスク不均質学習による高能率汎用モジュラビジョンモデル An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training ( http://arxiv.org/abs/2306.17165v1 ) ライセンス: Link先を確認 | Zitian Chen, Mingyu Ding, Yikang Shen, Wei Zhan, Masayoshi Tomizuka, Erik Learned-Miller, Chuang Gan | (参考訳) 複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
マルチタスク学習の大幅な進歩にもかかわらず、ほとんどの取り組みはマルチラベルデータから学ぶことに焦点を当てている。
このようなマルチラベルデータセットはレアで、小さく、高価である。
異種とは、異なるタスクラベルを持つイメージセットや、単一タスクデータセットの組み合わせを指す。
このような異種データセットのトレーニングを検討する人は少ない。
汎用ビジョンモデルは依然としてシングルタスク事前トレーニングに支配されており、異なる目的のために設計されたメインストリームのビジョンデータセットを活用することでマルチタスクモデルのスケールアップ方法が不明である。
課題は、データ分散、アーキテクチャ、タスク固有のモジュール、データセットスケール、サンプリング戦略など、ビジョンタスクの内在的な大きな違いを管理することである。
これらの課題に対処するため,我々は,imagenet,coco,ade20kなどの多種多様な主流ビジョンデータセットの分類,検出,セグメンテーションを同時に学習できるように,moe(mixed-of-experts)ビジョントランスフォーマーを修正し,スケールアップすることを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を示す。
創発的なモジュラリティのため、この汎用モデルは高性能コンポーネントに分解され、下流タスクに効率的に適応する。
トレーニングパラメータが少なく、モデルパラメータも少なく、計算量も少なくなります。
さらに、モジュール性により、継続学習のシナリオをフォゲッティングなしで簡単に拡張できる。
最後に、これらの関数を制御および組み合わせることで、下流タスクのさまざまな要求を満たすことができる。 We present a model that can perform multiple vision tasks and can be adapted to other downstream tasks efficiently. Despite considerable progress in multi-task learning, most efforts focus on learning from multi-label data: a single image set with multiple task labels. Such multi-label data sets are rare, small, and expensive. We say heterogeneous to refer to image sets with different task labels, or to combinations of single-task datasets. Few have explored training on such heterogeneous datasets. General-purpose vision models are still dominated by single-task pretraining, and it remains unclear how to scale up multi-task models by leveraging mainstream vision datasets designed for different purposes. The challenges lie in managing large intrinsic differences among vision tasks, including data distribution, architectures, task-specific modules, dataset scales, and sampling strategies. To address these challenges, we propose to modify and scale up mixture-of-experts (MoE) vision transformers, so that they can simultaneously learn classification, detection, and segmentation on diverse mainstream vision datasets including ImageNet, COCO, and ADE20K. Our approach achieves comparable results to single-task state-of-the-art models and demonstrates strong generalization on downstream tasks. Due to its emergent modularity, this general-purpose model decomposes into high-performing components, efficiently adapting to downstream tasks. We can fine-tune it with fewer training parameters, fewer model parameters, and less computation. Additionally, its modularity allows for easy expansion in continual-learning-without-forgetting scenarios. Finally, these functions can be controlled and combined to meet various demands of downstream tasks. | 翻訳日:2023-06-30 12:10:34 公開日:2023-06-29 |
# 雑音量子力学の古典シミュレーションのための最適軌道展開 Optimized trajectory unraveling for classical simulation of noisy quantum dynamics ( http://arxiv.org/abs/2306.17161v1 ) ライセンス: Link先を確認 | Zhuo Chen, Yimu Bao, Soonwon Choi | (参考訳) 開量子系の力学は、非一意的な監視過程にある純粋な状態軌道のアンサンブルに展開することでシミュレートすることができる。
本稿では,任意のデコヒーレンスチャネルに対して,エンタングルメント相転移のしきい値を下げるアンレーブリングスキームを最適化し,より広いデコヒーレンスレートのオープンダイナミクスの効率的な古典的シミュレーションを可能にすることを示す。
ノイズのあるランダムユニタリ回路をパラダイム的な例として、平均で閾値を最小化する最適なアンレーブ基底を解析的に導出する。
さらに,与えられた雑音チャネルに対する非レーブ基底を適応的に最適化するヒューリスティックアルゴリズムを提案する。
雑音の多いハミルトン力学に適用すると、ヒューリスティックなアプローチは、従来の量子軌道法を超えた行列積状態に基づく効率的な古典的シミュレーションの体系を実際に拡張する。
最後に,複数の量子ビットと時間ステップを含む準局所アンレーブリングを用いて,任意に小さいが有限のデコヒーレンスレートを持つオープンシステムを効率的にシミュレートする可能性を評価する。 The dynamics of open quantum systems can be simulated by unraveling it into an ensemble of pure state trajectories undergoing non-unitary monitored evolution, which has recently been shown to undergo measurement-induced entanglement phase transition. Here, we show that, for an arbitrary decoherence channel, one can optimize the unraveling scheme to lower the threshold for entanglement phase transition, thereby enabling efficient classical simulation of the open dynamics for a broader range of decoherence rates. Taking noisy random unitary circuits as a paradigmatic example, we analytically derive the optimum unraveling basis that on average minimizes the threshold. Moreover, we present a heuristic algorithm that adaptively optimizes the unraveling basis for given noise channels, also significantly extending the simulatable regime. When applied to noisy Hamiltonian dynamics, the heuristic approach indeed extends the regime of efficient classical simulation based on matrix product states beyond conventional quantum trajectory methods. Finally, we assess the possibility of using a quasi-local unraveling, which involves multiple qubits and time steps, to efficiently simulate open systems with an arbitrarily small but finite decoherence rate. | 翻訳日:2023-06-30 12:10:06 公開日:2023-06-29 |
# 雑音型中間スケール量子コンピュータにおける適応変分量子アルゴリズム Adaptive variational quantum algorithms on a noisy intermediate scale quantum computer ( http://arxiv.org/abs/2306.17159v1 ) ライセンス: Link先を確認 | C\'esar Feniou, Baptiste Claudon, Muhammad Hassan, Axel Courtat, Olivier Adjoua, Yvon Maday, Jean-Philip Piquemal | (参考訳) ハイブリッド量子古典アルゴリズムは、量子多体系をシミュレートする古典的な計算方法よりも優れた可能性を持っている。
特に適応変分量子固有解器(VQE)は、コンパクトな量子回路を用いて高精度なアンザッツ波動関数を生成する能力を示した。
しかし、これらの手法の現在の量子処理ユニット(QPU)への実践的な実装は、演算子選択ステップ中に多項式スケーリング数を測定すること、高次元のノイズの多いコスト関数を最適化すること、といった大きな課題に直面している。
本研究では,これらの困難を克服する新しい手法を導入し,高速GPU加速量子シミュレータと組み合わされた25量子ビットの誤差緩和量子ハードウェア上でハイブリッド適応アルゴリズムを実行する。
物理応用として,キュービット数や演算子プールのサイズに関わらず,各イテレーションに5つの回路計測しか必要としない新しいグリーディADAPT-VQE法を用いて,25体Isingモデルの基底状態を計算する。
化学応用として、分子系の基底状態を近似するために、この欲求とオーバーラップ-ADAPT-VQEアルゴリズムを組み合わせる。
これらのハイブリッドQPU/シミュレータ計算の実装が成功したことにより、適応VQEアルゴリズムがQPUに適用可能となり、量子コンピューティングの短期的優位性に関するさらなる楽観性がもたらされる。 Hybrid quantum-classical algorithms hold the potential to outperform classical computing methods for simulating quantum many-body systems. Adaptive Variational Quantum Eigensolvers (VQE) in particular have demonstrated an ability to generate highly accurate ansatz wave-functions using compact quantum circuits. However, the practical implementation of these methods on current quantum processing units (QPUs) faces significant challenges: the requirement to measure a polynomially scaling number of observables during the operator selection step, followed by the need to optimize a high-dimensional, noisy cost-function. In this study, we introduce new techniques to overcome these difficulties and execute hybrid adaptive algorithms on a 25-qubit error-mitigated quantum hardware coupled to a high performance GPU-accelerated quantum simulator. As a physics application, we compute the ground state of a 25-body Ising model using a novel greedy ADAPT-VQE procedure that requires only five circuit measurements for each iteration, regardless of the number of qubits and the size of the operator pool. As a chemistry application, we combine this greedy approach with the Overlap-ADAPT-VQE algorithm to approximate the ground state of a molecular system. The successful implementation of these hybrid QPU/simulator computations enhances the applicability of adaptive VQE algorithms on QPUs and instills further optimism regarding the near-term advantages of quantum computing. | 翻訳日:2023-06-30 12:09:44 公開日:2023-06-29 |
# プログラミング教育のための生成AI: ChatGPT, GPT-4, Human Tutorsのベンチマーク Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors ( http://arxiv.org/abs/2306.17156v1 ) ライセンス: Link先を確認 | Tung Phung, Victor-Alexandru P\u{a}durean, Jos\'e Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares | (参考訳) 生成型AIと大規模言語モデルは、入門プログラミングに次世代の教育技術を活用することによって、コンピューティング教育の強化に大いに貢献する。
最近の研究は、プログラミング教育に関連する様々なシナリオについてこれらのモデルを研究しているが、それらは、既に時代遅れのモデルや特定のシナリオのみを考えるため、いくつかの理由で制限されている。
その結果、包括的なプログラミング教育シナリオのための最先端モデルをベンチマークする体系的な研究が欠如している。
本研究では,chatgpt (gpt-3.5) と gpt-4 の2つのモデルを体系的に評価し,その性能を人間の指導者と比較した。
オンラインプラットフォームから5つのPythonプログラミング問題と実世界のバグジープログラムを評価し,専門家によるアノテーションによるパフォーマンス評価を行った。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
これらの結果は、GPT-4がいまだに苦戦している設定も強調し、これらのモデルの性能を改善する技術開発におけるエキサイティングな方向性を提供する。 Generative AI and large language models hold great promise in enhancing computing education by powering next-generation educational technologies for introductory programming. Recent works have studied these models for different scenarios relevant to programming education; however, these works are limited for several reasons, as they typically consider already outdated models or only specific scenario(s). Consequently, there is a lack of a systematic study that benchmarks state-of-the-art models for a comprehensive set of programming education scenarios. In our work, we systematically evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human tutors for a variety of scenarios. We evaluate using five introductory Python programming problems and real-world buggy programs from an online platform, and assess performance using expert-based annotations. Our results show that GPT-4 drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human tutors' performance for several scenarios. These results also highlight settings where GPT-4 still struggles, providing exciting future directions on developing techniques to improve the performance of these models. | 翻訳日:2023-06-30 12:09:18 公開日:2023-06-29 |
# 中心スピンのコヒーレンス限界を超える環境スピン欠陥の同定と制御 Identification and control of an environmental spin defect beyond the coherence limit of a central spin ( http://arxiv.org/abs/2306.17155v1 ) ライセンス: Link先を確認 | Alexander Ungar, Paola Cappellaro, Alexandre Cooper, Won Kyu Calvin Sun | (参考訳) 光学活性スピンの環境における電子スピン欠陥は、固体量子レジスタ(特に量子メトロロジーや量子通信における応用)のサイズと性能を向上させるのに使うことができる。
多ビット電子スピンレジスタは、ダイヤモンド中の窒素空洞(NV)中心の環境においてダークスピンを用いて実現されているが、これらのレジスタはNVに直接結合するスピンのみを含み、その最大サイズを著しく制限している。
この問題に対処するため,電子スピンレジスタのサイズを拡大するためのスケーラブルなアプローチを提案する。
提案手法は、両共振制御配列とともに弱い結合のプローブスピンを利用して、中心NVスピンと直接結合しない環境スピンとの間のスピン偏極の移動を仲介する。
中央nvのコヒーレンス限界外の未知の電子スピンの検出とコヒーレント制御を実証するために,本手法を実験的に実現する。
我々の研究は、ナノスケールセンシングを推進し、誤り訂正のための相関ノイズスペクトロスコピーを可能にし、量子通信のためのスピンチェーン量子ワイヤの実現を促進する、より大きな量子スピンレジスタの工学的手法を開拓する。 Electronic spin defects in the environment of an optically-active spin can be used to increase the size and hence the performance of solid-state quantum registers, especially for applications in quantum metrology and quantum communication. Although multi-qubit electronic-spin registers have been realized using dark spins in the environment of a Nitrogen-Vacancy (NV) center in diamond, these registers have only included spins directly coupled to the NV, significantly restricting their maximum attainable size. To address this problem, we present a scalable approach to increase the size of electronic-spin registers. Our approach exploits a weakly-coupled probe spin together with double-resonance control sequences to mediate the transfer of spin polarization between the central NV spin and an environmental spin that is not directly coupled to it. We experimentally realize this approach to demonstrate the detection and coherent control of an unknown electronic spin outside the coherence limit of a central NV. Our work paves the way for engineering larger quantum spin registers, which have the potential to advance nanoscale sensing, enable correlated noise spectroscopy for error correction, and facilitate the realization of spin-chain quantum wires for quantum communication. | 翻訳日:2023-06-30 12:08:54 公開日:2023-06-29 |
# あらゆる場面であらゆるものを生成する Generate Anything Anywhere in Any Scene ( http://arxiv.org/abs/2306.17154v1 ) ライセンス: Link先を確認 | Yuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee | (参考訳) テキストから画像への拡散モデルは、様々な分野にまたがる幅広い適用性のために、かなりの関心を集めている。
しかし、パーソナライズされたオブジェクト生成のためのコントロール可能なモデルの作成には課題が続いている。
本稿では,まず,既存のパーソナライズされた生成モデルの絡み合い問題を特定し,拡散モデルがオブジェクトのアイデンティティのみに焦点をあてるように指導する,分かりやすく効率的なデータ拡張トレーニング戦略を提案する。
予め訓練した制御可能な拡散モデルからプラグアンドプレイアダプタ層を挿入することにより、生成した各パーソナライズされたオブジェクトの位置とサイズを制御することができる。
推論中,生成画像の品質と忠実度を維持するため,地域誘導サンプリング手法を提案する。
本手法はパーソナライズされたオブジェクトに対して同等または優れた忠実性を実現し,リアルでパーソナライズされた画像を生成することができる,堅牢で汎用的で制御可能なテキスト間拡散モデルを実現する。
本手法は,アート,エンタテインメント,広告デザインなど,様々なアプリケーションに対して有意な可能性を示す。 Text-to-image diffusion models have attracted considerable interest due to their wide applicability across diverse fields. However, challenges persist in creating controllable models for personalized object generation. In this paper, we first identify the entanglement issues in existing personalized generative models, and then propose a straightforward and efficient data augmentation training strategy that guides the diffusion model to focus solely on object identity. By inserting the plug-and-play adapter layers from a pre-trained controllable diffusion model, our model obtains the ability to control the location and size of each generated personalized object. During inference, we propose a regionally-guided sampling technique to maintain the quality and fidelity of the generated images. Our method achieves comparable or superior fidelity for personalized objects, yielding a robust, versatile, and controllable text-to-image diffusion model that is capable of generating realistic and personalized images. Our approach demonstrates significant potential for various applications, such as those in art, entertainment, and advertising design. | 翻訳日:2023-06-30 12:08:33 公開日:2023-06-29 |
# 統計集約のための局所的リスク境界 Local Risk Bounds for Statistical Aggregation ( http://arxiv.org/abs/2306.17151v1 ) ライセンス: Link先を確認 | Jaouad Mourtada and Tomas Va\v{s}kevi\v{c}ius and Nikita Zhivotovskiy | (参考訳) 集約の問題では、与えられた基底予測器のクラスを組み合わせて、最良の予測とほぼ同等の精度で予測を行うことが目的である。
この柔軟なフレームワークでは、クラスの構造やターゲットの性質について仮定はありません。
集合は、逐次的および統計的文脈の両方で研究されている。
2つの問題の間にはいくつかの重要な違いがあるが、どちらの場合も古典的な結果は同じ大域的複雑性尺度である。
本稿では,大域的複雑性をより小さく局所的に置き換えることで,統計的設定における集約理論における古典的結果を再検討し,引き締める。
証明のいくつかは、カトニによって導入されたPAC-Bayesローカライゼーション技術に基づいている。
その他の結果の中で、Lung と Barron による指数重み推定器の古典的境界の局所化バージョンと Q-集約推定器の偏差最適境界を証明した。
これらの境界は、固定設計回帰のための Dai, Rigollet と Zhang の結果とランダム設計回帰のための Lecu\e と Rigollet の結果よりも改善されている。 In the problem of aggregation, the aim is to combine a given class of base predictors to achieve predictions nearly as accurate as the best one. In this flexible framework, no assumption is made on the structure of the class or the nature of the target. Aggregation has been studied in both sequential and statistical contexts. Despite some important differences between the two problems, the classical results in both cases feature the same global complexity measure. In this paper, we revisit and tighten classical results in the theory of aggregation in the statistical setting by replacing the global complexity with a smaller, local one. Some of our proofs build on the PAC-Bayes localization technique introduced by Catoni. Among other results, we prove localized versions of the classical bound for the exponential weights estimator due to Leung and Barron and deviation-optimal bounds for the Q-aggregation estimator. These bounds improve over the results of Dai, Rigollet and Zhang for fixed design regression and the results of Lecu\'e and Rigollet for random design regression. | 翻訳日:2023-06-30 12:08:17 公開日:2023-06-29 |
# 部分デコーダとしての信念伝播 Belief propagation as a partial decoder ( http://arxiv.org/abs/2306.17142v1 ) ライセンス: Link先を確認 | Laura Caune, Joan Camps, Brendan Reid, and Earl Campbell | (参考訳) フォールトトレラント量子計算の基本的な課題の1つは、十分に高速な量子デコーダの実現である。
本稿では,デコードサイクルを高速化する新しい2段デコーダを提案する。
第一段階では、信念伝播に基づく部分復号器を用いて、高い確率で発生した誤りを訂正する。
第2段階では、従来のデコーダが残したエラーを補正する。
回路レベル雑音下での表面符号を用いた2段デコーダの性能をシミュレーションにより検討した。
従来のデコーダが最小ウェイトの完全マッチングである場合、部分デコーダを付加することで帯域幅要件が減少し、速度が向上し、論理精度が向上する。
具体的には,パラメータレジームに応じて,最小ウェイトの完全マッチングステージを平均2x-4xまで一貫して高速化し,しきい値を0.94から1.01に引き上げる。 One of the fundamental challenges in enabling fault-tolerant quantum computation is realising fast enough quantum decoders. We present a new two-stage decoder that accelerates the decoding cycle. In the first stage, a partial decoder based on belief propagation is used to correct errors that occurred with high probability. In the second stage, a conventional decoder corrects any remaining errors. We study the performance of our two-stage decoder with simulations using the surface code under circuit-level noise. When the conventional decoder is minimum-weight perfect matching, adding the partial decoder decreases bandwidth requirements, increases speed and improves logical accuracy. Specifically, we observe partial decoding consistently speeds up the minimum-weight perfect matching stage by between 2x-4x on average depending on the parameter regime, and raises the threshold from 0.94 to 1.01. | 翻訳日:2023-06-30 12:08:00 公開日:2023-06-29 |
# フィルタ付き拡散:ブラックボックス拡散モデルのための高速フィルタガイダンス Filtered-Guided Diffusion: Fast Filter Guidance for Black-Box Diffusion Models ( http://arxiv.org/abs/2306.17141v1 ) ライセンス: Link先を確認 | Zeqi Gu, Abe Davis | (参考訳) 拡散に基づく生成モデルの最近の進歩は、画像から画像への翻訳と編集の素晴らしい約束を示している。
この分野での最近の作業は、拡散プロセスに対する追加のトレーニングやアーキテクチャ固有の調整に依存している。
本研究では,この低レベル制御の多くは,追加のトレーニングや拡散モデルの特徴へのアクセスなしに実現可能であることを示す。
本手法は,各拡散ステップの入力に対して,前ステップの出力に基づいて適応的にフィルタを適用する。
特に、このアプローチは特定のアーキテクチャやサンプリングに依存せず、ネットワークの内部機能にアクセスせずに実行できるため、他の技術やサンプル、拡散アーキテクチャと簡単に組み合わせることができる。
さらに、パフォーマンスに対するコストは無視でき、他のアプローチよりもガイダンス強度の継続的な調整が可能である。
FGDは、最近のアーキテクチャ依存アプローチと競合する、高速で強力なベースラインを提供する。
さらにFGDは、他の最先端I2I法の構造ガイダンスを強化するための単純なアドオンとしても使用できる。
最後に、この手法の導出は、他の最近のアーキテクチャ固有のi2iアプローチの重要なコンポーネントである自己注意の影響をよりアーキテクチャに依存しない方法で理解するのに役立ちます。
プロジェクトページ: https://github.com/jaclyngu/FilteredGuidedDiffusion Recent advances in diffusion-based generative models have shown incredible promise for Image-to-Image translation and editing. Most recent work in this space relies on additional training or architecture-specific adjustments to the diffusion process. In this work, we show that much of this low-level control can be achieved without additional training or any access to features of the diffusion model. Our method simply applies a filter to the input of each diffusion step based on the output of the previous step in an adaptive manner. Notably, this approach does not depend on any specific architecture or sampler and can be done without access to internal features of the network, making it easy to combine with other techniques, samplers, and diffusion architectures. Furthermore, it has negligible cost to performance, and allows for more continuous adjustment of guidance strength than other approaches. We show FGD offers a fast and strong baseline that is competitive with recent architecture-dependent approaches. Furthermore, FGD can also be used as a simple add-on to enhance the structural guidance of other state-of-the-art I2I methods. Finally, our derivation of this method helps to understand the impact of self attention, a key component of other recent architecture-specific I2I approaches, in a more architecture-independent way. Project page: https://github.com/jaclyngu/FilteredGuidedDiffusion | 翻訳日:2023-06-30 12:07:47 公開日:2023-06-29 |
# ID-Pose:逆拡散モデルによるスパースビューカメラポース推定 ID-Pose: Sparse-view Camera Pose Estimation by Inverting Diffusion Models ( http://arxiv.org/abs/2306.17140v1 ) ライセンス: Link先を確認 | Weihao Cheng, Yan-Pei Cao, Ying Shan | (参考訳) オブジェクトのスパースビューを考えると、カメラのポーズを推定することは、長く持続し難い問題である。
視点を条件とした新しい視点の事前学習拡散モデル(0-1-to-3)を用いた。
そこで,2つの入力画像から相対ポーズを推定するために,雑音拡散過程を逆解析するid-poseを提案する。
ID-Poseは1つの画像にノイズを加え、もう1つの画像に条件付けられたノイズとポーズの決定変数を予測する。
勾配降下法を用いて最適なポーズを求める目的として予測誤差を用いる。
id-poseは2つ以上の画像を処理し、各ポーズを三角関係から複数の画像ペアで推定することができる。
ID-Poseはトレーニングを必要とせず、現実世界の画像に一般化する。
高品質な実走査型3dオブジェクトを用いて実験を行い,id-poseは最先端の手法を著しく上回っている。 Given sparse views of an object, estimating their camera poses is a long-standing and intractable problem. We harness the pre-trained diffusion model of novel views conditioned on viewpoints (Zero-1-to-3). We present ID-Pose which inverses the denoising diffusion process to estimate the relative pose given two input images. ID-Pose adds a noise on one image, and predicts the noise conditioned on the other image and a decision variable for the pose. The prediction error is used as the objective to find the optimal pose with the gradient descent method. ID-Pose can handle more than two images and estimate each of the poses with multiple image pairs from triangular relationships. ID-Pose requires no training and generalizes to real-world images. We conduct experiments using high-quality real-scanned 3D objects, where ID-Pose significantly outperforms state-of-the-art methods. | 翻訳日:2023-06-30 12:07:29 公開日:2023-06-29 |
# 知識埋め込みとしての言語モデル Language Models as Knowledge Embeddings ( http://arxiv.org/abs/2206.12617v3 ) ライセンス: Link先を確認 | Xintao Wang, Qianyu He, Jiaqing Liang and Yanghua Xiao | (参考訳) 知識埋め込み(KE)は、実体と関係を連続ベクトル空間に埋め込むことによって知識グラフ(KG)を表す。
既存の手法は主に構造ベースまたは記述ベースである。
構造に基づく手法は、KGの固有の構造を保存する表現を学ぶ。
限られた構造情報を持つ実世界のkgsでは、豊富なロングテールの実体を表現できない。
記述ベース手法は、テキスト情報と言語モデルを活用する。
この方向の以前のアプローチは、構造ベースのアプローチをほとんど上回らず、高価な負のサンプリングや制限的な記述要求といった問題に苦しめられている。
本稿では,知識埋め込みを導出するために言語モデルを採用するlmkeを提案する。
比較学習フレームワークを用いて記述ベースのke学習を定式化し,学習と評価の効率を向上させる。
実験結果から, LMKEは, リンク予測と三重分類のKEベンチマークにおいて, 特にロングテールエンティティに対して, 最先端の性能を達成することが示された。 Knowledge embeddings (KE) represent a knowledge graph (KG) by embedding entities and relations into continuous vector spaces. Existing methods are mainly structure-based or description-based. Structure-based methods learn representations that preserve the inherent structure of KGs. They cannot well represent abundant long-tail entities in real-world KGs with limited structural information. Description-based methods leverage textual information and language models. Prior approaches in this direction barely outperform structure-based ones, and suffer from problems like expensive negative sampling and restrictive description demand. In this paper, we propose LMKE, which adopts Language Models to derive Knowledge Embeddings, aiming at both enriching representations of long-tail entities and solving problems of prior description-based methods. We formulate description-based KE learning with a contrastive learning framework to improve efficiency in training and evaluation. Experimental results show that LMKE achieves state-of-the-art performance on KE benchmarks of link prediction and triple classification, especially for long-tail entities. | 翻訳日:2023-06-30 10:26:08 公開日:2023-06-29 |
# 一般化幾何散乱変換によるグラフニューラルネットワークの理解 Understanding Graph Neural Networks with Generalized Geometric Scattering Transforms ( http://arxiv.org/abs/1911.06253v5 ) ライセンス: Link先を確認 | Michael Perlmutter and Alexander Tong and Feng Gao and Guy Wolf and Matthew Hirn | (参考訳) 散乱変換は、畳み込みニューラルネットワークのモデルとして機能する多層ウェーブレットベースのディープラーニングアーキテクチャである。
近年、グラフのような非ユークリッド的な設定に対する散乱変換の一般化がいくつか提案されている。
我々の研究は、非対称ウェーブレットの非常に一般的なクラスに基づくグラフに対して、窓付きおよび非窓型の幾何学的散乱変換を導入することで、これらの構成に基づいている。
これらの非対称グラフ散乱変換は、対称グラフ散乱変換と多くの理論的保証を持つことを示す。
その結果、提案手法は既存のグラフ散乱アーキテクチャの多くに対する既知の理論結果を統一し、拡張する。
この研究は、幾何学的散乱と他のグラフニューラルネットワークとのギャップを埋めるのに役立ち、証明可能な安定性と不変性を保証する大きなネットワーク群を導入する。
これらの結果は、フィルタを学習したグラフ構造化データのための将来のディープラーニングアーキテクチャの基礎となり、確実に望ましい理論的特性を持つ。 The scattering transform is a multilayered wavelet-based deep learning architecture that acts as a model of convolutional neural networks. Recently, several works have introduced generalizations of the scattering transform for non-Euclidean settings such as graphs. Our work builds upon these constructions by introducing windowed and non-windowed geometric scattering transforms for graphs based upon a very general class of asymmetric wavelets. We show that these asymmetric graph scattering transforms have many of the same theoretical guarantees as their symmetric counterparts. As a result, the proposed construction unifies and extends known theoretical results for many of the existing graph scattering architectures. In doing so, this work helps bridge the gap between geometric scattering and other graph neural networks by introducing a large family of networks with provable stability and invariance guarantees. These results lay the groundwork for future deep learning architectures for graph-structured data that have learned filters and also provably have desirable theoretical properties. | 翻訳日:2023-06-30 10:25:50 公開日:2023-06-29 |
# 自己ガイドとブロック対角表現を用いた大規模スペクトルクラスタリング A Restarted Large-Scale Spectral Clustering with Self-Guiding and Block Diagonal Representation ( http://arxiv.org/abs/2306.15138v2 ) ライセンス: Link先を確認 | Yongyan Guo and Gang Wu | (参考訳) スペクトルクラスタリングは、最も人気のある教師なし機械学習手法の1つである。
類似度行列の構築はこの種の手法に不可欠である。
ほとんどの既存の作品では、類似度行列は1回計算されるか、あるいは別の方法で更新される。
しかし, 前者はデータポイント間の包括的関係を反映することは困難であり, 後者は時間を要するため, 大規模問題にも適用できない。
本稿では,自己誘導とブロック対角表現を用いたクラスタリングフレームワークの再開を提案する。
この戦略の利点は、以前のサイクルから得られた有用なクラスタリング情報を可能な限り保存できることである。
私たちの知る限りでは、これはスペクトルクラスタリングに再起動戦略を適用する最初の仕事です。
重要な違いは、既存のメソッドでのみ分類されるのに対して、メソッドの各サイクルでサンプルを再分類することです。
さらにオーバーヘッドを解放するために,nystr\"{o}m近似を用いたブロック対角表現を導入し,類似性行列を構築する。
スペクトルクラスタリングにおける不正確な計算の合理性を示す理論的結果を確立する。
総合的な実験がいくつかのベンチマークデータベース上で行われ,大規模問題に対する最先端アルゴリズムよりも優れたアルゴリズムが提案されている。
具体的には、我々のフレームワークはクラスタリングアルゴリズムを潜在的に強化し、ランダムに選択した初期推定を用いてもうまく機能する。 Spectral clustering is one of the most popular unsupervised machine learning methods. Constructing similarity matrix is crucial to this type of method. In most existing works, the similarity matrix is computed once for all or is updated alternatively. However, the former is difficult to reflect comprehensive relationships among data points, and the latter is time-consuming and is even infeasible for large-scale problems. In this work, we propose a restarted clustering framework with self-guiding and block diagonal representation. An advantage of the strategy is that some useful clustering information obtained from previous cycles could be preserved as much as possible. To the best of our knowledge, this is the first work that applies restarting strategy to spectral clustering. The key difference is that we reclassify the samples in each cycle of our method, while they are classified only once in existing methods. To further release the overhead, we introduce a block diagonal representation with Nystr\"{o}m approximation for constructing the similarity matrix. Theoretical results are established to show the rationality of inexact computations in spectral clustering. Comprehensive experiments are performed on some benchmark databases, which show the superiority of our proposed algorithms over many state-of-the-art algorithms for large-scale problems. Specifically, our framework has a potential boost for clustering algorithms and works well even using an initial guess chosen randomly. | 翻訳日:2023-06-30 10:22:24 公開日:2023-06-29 |
# nonconvex stochastic bregman proximal gradient methodとディープラーニングへの応用 Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning ( http://arxiv.org/abs/2306.14522v2 ) ライセンス: Link先を確認 | Kuangyu Ding, Jingyang Li and Kim-Chuan Toh | (参考訳) 非凸合成目的関数を最小化するために広く用いられる確率勾配法は微分可能部のリプシッツ滑らかさを必要とする。
しかし、この要件は二次的逆問題やニューラルネットワークのトレーニングを含む問題クラスには当てはまらない。
本研究では, 微分可能な部分の滑らかな適応性のみを必要とする確率的ブラッグマン近位勾配 (sbpg) 法について検討する。
SBPGは、SGDで用いられる上二次近似をブレグマン近接測度に置き換え、非凸目的の非リプシッツ勾配を捕捉するより良い近似モデルをもたらす。
バニラ SBPG を定式化し、有限サム構造を持たない非凸条件下で収束特性を確立する。
SBPGのロバスト性を証明する二次逆問題の実験結果。
さらに, SBPG (MSBPG) の運動量に基づくバージョンを提案し, 収束性の向上を証明した。
我々は、損失関数のスムーズな適応性を保証する多項式カーネル関数を持つディープニューラルネットワークのトレーニングにMSBPGを適用した。
代表ベンチマーク実験の結果, ニューラルネットワークにおけるmsbpgの有効性とロバスト性が示された。
SGDと比較してMSBPGのさらなる計算コストは大規模な最適化では無視できないため、MSBPGは将来、ユニバーサルなオープンソースオプティマイザとして使われる可能性がある。 The widely used stochastic gradient methods for minimizing nonconvex composite objective functions require the Lipschitz smoothness of the differentiable part. But the requirement does not hold true for problem classes including quadratic inverse problems and training neural networks. To address this issue, we investigate a family of stochastic Bregman proximal gradient (SBPG) methods, which only require smooth adaptivity of the differentiable part. SBPG replaces the upper quadratic approximation used in SGD with the Bregman proximity measure, resulting in a better approximation model that captures the non-Lipschitz gradients of the nonconvex objective. We formulate the vanilla SBPG and establish its convergence properties under nonconvex setting without finite-sum structure. Experimental results on quadratic inverse problems testify the robustness of SBPG. Moreover, we propose a momentum-based version of SBPG (MSBPG) and prove it has improved convergence properties. We apply MSBPG to the training of deep neural networks with a polynomial kernel function, which ensures the smooth adaptivity of the loss function. Experimental results on representative benchmarks demonstrate the effectiveness and robustness of MSBPG in training neural networks. Since the additional computation cost of MSBPG compared with SGD is negligible in large-scale optimization, MSBPG can potentially be employed as an universal open-source optimizer in the future. | 翻訳日:2023-06-30 10:22:05 公開日:2023-06-29 |
# TCEIP:インプラント位置予測のためのテキスト条件埋め込み回帰ネットワーク TCEIP: Text Condition Embedded Regression Network for Dental Implant Position Prediction ( http://arxiv.org/abs/2306.14406v2 ) ライセンス: Link先を確認 | Xinquan Yang and Jinheng Xie and Xuguang Li and Xuechen Li and Xin Li and Linlin Shen and Yongqiang Deng | (参考訳) 歯科インプラントの位置設計を支援するディープニューラルネットワークが提案されているとき, ほとんどが欠損歯が1本しかない単純な症例を対象としている。
その結果、複数の欠落歯がある場合には文学作品がうまく機能せず、歯がまばらに分布している場合には誤予測が容易に発生する。
本稿では,上記課題に対処すべく,インプラント位置回帰ネットワークに,弱い監督テキストである目標領域を統合しようとしている。
そこで本研究では,テキスト条件をエンコーダ・デコーダフレームワークに組み込むためのtceip(text condition embedded implant position regression network)を提案する。
画像とテキストの特徴間の相互作用を容易にするために, クロスモーダルアテンション(CMA)とナレッジアライメントモジュール(KAM)で構成されるクロスモーダルインタラクションを提案する。
CMAモジュールは、画像特徴とテキスト条件との交差注意を行い、KAMは、画像特徴とCLIPの画像エンコーダとの知識ギャップを緩和する。
5倍のクロスバリデーションによるインプラントデータセットの広範な実験により,既存の方法よりも優れたtceipが得られた。 When deep neural network has been proposed to assist the dentist in designing the location of dental implant, most of them are targeting simple cases where only one missing tooth is available. As a result, literature works do not work well when there are multiple missing teeth and easily generate false predictions when the teeth are sparsely distributed. In this paper, we are trying to integrate a weak supervision text, the target region, to the implant position regression network, to address above issues. We propose a text condition embedded implant position regression network (TCEIP), to embed the text condition into the encoder-decoder framework for improvement of the regression performance. A cross-modal interaction that consists of cross-modal attention (CMA) and knowledge alignment module (KAM) is proposed to facilitate the interaction between features of images and texts. The CMA module performs a cross-attention between the image feature and the text condition, and the KAM mitigates the knowledge gap between the image feature and the image encoder of the CLIP. Extensive experiments on a dental implant dataset through five-fold cross-validation demonstrated that the proposed TCEIP achieves superior performance than existing methods. | 翻訳日:2023-06-30 10:21:41 公開日:2023-06-29 |
# マルチモーダル名前付きエンティティとマルチモーダル関係抽出のための連鎖式プロンプト蒸留法 Chain-of-Thought Prompt Distillation for Multimodal Named Entity and Multimodal Relation Extraction ( http://arxiv.org/abs/2306.14122v2 ) ライセンス: Link先を確認 | Feng Chen and Yujian Feng | (参考訳) multimodal named entity recognition (mner) と multimodal relation extraction (mre) は、複雑な言語とマルチモーダル理解のための基本的な推論能力を必要とする。
本研究では,中間的推論ステップの列である \textit{chain of thought} (cot) を生成することにより,大規模言語モデル(llms)の推論能力を,よりコンパクトな学生モデルに蒸留することを検討する。
具体的には,マルチグライン(名詞,文,多様性)とデータ表示(スタイル,実体,画像)の次元をカバーするcotプロンプトを通じて,llmからそのような推論能力の解明を例示することで開始する。
次に, LLMからコモンセンス推論能力を同化させる新しい条件付きプロンプト蒸留法を提案し, 画像やCoTの知識を必要とせず, テキストのみの入力に対処する際の学生モデルの有用性を高める。
広汎な実験により,本手法は最先端の精度を実現し,MNERおよびMREデータセット上での解釈可能性,データ効率,ドメイン間の一般化に関する多くの利点を示す。 Multimodal Named Entity Recognition (MNER) and Multimodal Relation Extraction (MRE) necessitate the fundamental reasoning capacity for intricate linguistic and multimodal comprehension. In this study, we explore distilling the reasoning ability of large language models (LLMs) into a more compact student model by generating a \textit{chain of thought} (CoT) -- a sequence of intermediate reasoning steps. Specifically, we commence by exemplifying the elicitation of such reasoning ability from LLMs through CoT prompts covering multi-grain (noun, sentence, multimodality) and data-augmentation (style, entity, image) dimensions. Subsequently, we present a novel conditional prompt distillation method to assimilate the commonsense reasoning ability from LLMs, thereby enhancing the utility of the student model in addressing text-only inputs without the requisite addition of image and CoT knowledge. Extensive experiments reveal that our approach attains state-of-the-art accuracy and manifests a plethora of advantages concerning interpretability, data efficiency, and cross-domain generalization on MNER and MRE datasets. | 翻訳日:2023-06-30 10:20:43 公開日:2023-06-29 |
# フェデレーション学習におけるコミュニケーション削減のための効率的な仮想データ生成手法 An Efficient Virtual Data Generation Method for Reducing Communication in Federated Learning ( http://arxiv.org/abs/2306.12088v3 ) ライセンス: Link先を確認 | Cheng Yang, Xue Yang, Dongxian Wu, Xiaohu Tang | (参考訳) コミュニケーションのオーバーヘッドは、連合学習(fl)における大きな課題の1つです。
いくつかの古典的なスキームでは、サーバがローカルモデルから参加者のトレーニングデータに関する補助情報を抽出して中央ダミーデータセットを構築することができると仮定している。
サーバはダミーデータセットを使用して、集約されたグローバルモデルを微調整し、より少ない通信ラウンドでターゲットテスト精度を達成する。
本稿では、上記のソリューションをデータベースの通信効率の高いflフレームワークにまとめる。
提案フレームワークの鍵となるのは,ダミーデータセットが集約されたグローバルモデルに正の影響を与えることを保証する効率的な抽出モジュール(EM)を設計することである。
ジェネレータを使ってEMを設計する既存手法とは異なり,提案手法では勾配マッチングの概念を取り入れてEMを構築する。
具体的には、FedINIBoostは、実際のデータセットのプロキシデータセットを、各コミュニケーションラウンドの参加者毎に2つのステップで構築する。
その後、サーバはすべてのプロキシデータセットを集約し、集約されたグローバルモデルを微調整するために使用される中央ダミーデータセットを形成する。
従来手法であるFedAVG,FedProx,Moon,FedFTGと比較し,本手法の優位性を検証した。
さらに、FedINIBoostは、FLの初期における集約グローバルモデルの性能を微調整する上で重要な役割を果たす。 Communication overhead is one of the major challenges in Federated Learning(FL). A few classical schemes assume the server can extract the auxiliary information about training data of the participants from the local models to construct a central dummy dataset. The server uses the dummy dataset to finetune aggregated global model to achieve the target test accuracy in fewer communication rounds. In this paper, we summarize the above solutions into a data-based communication-efficient FL framework. The key of the proposed framework is to design an efficient extraction module(EM) which ensures the dummy dataset has a positive effect on finetuning aggregated global model. Different from the existing methods that use generator to design EM, our proposed method, FedINIBoost borrows the idea of gradient match to construct EM. Specifically, FedINIBoost builds a proxy dataset of the real dataset in two steps for each participant at each communication round. Then the server aggregates all the proxy datasets to form a central dummy dataset, which is used to finetune aggregated global model. Extensive experiments verify the superiority of our method compared with the existing classical method, FedAVG, FedProx, Moon and FedFTG. Moreover, FedINIBoost plays a significant role in finetuning the performance of aggregated global model at the initial stage of FL. | 翻訳日:2023-06-30 10:20:21 公開日:2023-06-29 |
# 社会技術的ギャップを狭めるモデル評価の再検討 Rethinking Model Evaluation as Narrowing the Socio-Technical Gap ( http://arxiv.org/abs/2306.03100v3 ) ライセンス: Link先を確認 | Q. Vera Liao, Ziang Xiao | (参考訳) 最近のジェネレーティブ言語モデル(llm)の開発は、研究コミュニティや業界が取り組んでいるモデル評価に新たな挑戦をもたらしている。
これらのモデルの汎用性は興奮を喚起する一方で、必然的に均質化へと跳躍する。
本稿では,この均質化によってもたらされる課題と責任に対処するためには,モデル評価の実践が重要な課題を担わなければならないことを論じる。
社会科学、ヒューマン・コンピュータ・インタラクション(HCI)、説明可能なAI(XAI)の学際的な分野から教訓を得て、実世界の社会要求に基づく評価手法の開発をコミュニティに促し、現実主義から社会要求へのトレードオフと実用的コストの認識による多様な評価手法を取り入れて評価を行う。
HCI と現在の NLG 評価手法をマッピングすることにより,社会技術的ギャップを狭くし,オープンな疑問を呈する LLM の評価手法を提案する。 The recent development of generative and large language models (LLMs) poses new challenges for model evaluation that the research community and industry are grappling with. While the versatile capabilities of these models ignite excitement, they also inevitably make a leap toward homogenization: powering a wide range of applications with a single, often referred to as ``general-purpose'', model. In this position paper, we argue that model evaluation practices must take on a critical task to cope with the challenges and responsibilities brought by this homogenization: providing valid assessments for whether and how much human needs in downstream use cases can be satisfied by the given model (socio-technical gap). By drawing on lessons from the social sciences, human-computer interaction (HCI), and the interdisciplinary field of explainable AI (XAI), we urge the community to develop evaluation methods based on real-world socio-requirements and embrace diverse evaluation methods with an acknowledgment of trade-offs between realism to socio-requirements and pragmatic costs to conduct the evaluation. By mapping HCI and current NLG evaluation methods, we identify opportunities for evaluation methods for LLMs to narrow the socio-technical gap and pose open questions. | 翻訳日:2023-06-30 10:19:59 公開日:2023-06-29 |
# Learngene: 継承モデルから継承モデルへの凝縮知識の継承 Learngene: Inheriting Condensed Knowledge from the Ancestry Model to Descendant Models ( http://arxiv.org/abs/2305.02279v3 ) ライセンス: Link先を確認 | Qiufeng Wang, Xu Yang, Shuxia Lin, Jing Wang, Xin Geng | (参考訳) ある生物の祖先の継続的な進化の間、その遺伝子は豊富な経験と知識を蓄積し、新生児の子孫は特定の環境に迅速に適応できる。
そこで本研究では,学習モデルに3つの重要な特徴を組み込むための新しい機械学習パラダイム学習法を提案する。
i) 蓄積:知識は、祖先モデルの継続的な学習中に蓄積される。
(ii)凝縮:豊富な蓄積された知識はよりコンパクトな情報、すなわち学習遺伝子に凝縮される。
(iii)継承:縮合した学習遺伝子は、子孫モデルが新しい環境に適応しやすいように継承される。
大規模事前学習や生涯学習といった確立されたパラダイムで蓄積が研究されているので, 凝縮と継承に焦点をあて, 3つの重要な課題を提起し, この問題に対する予備的な解決策を本論文で提示する。
(i)学習遺伝子形式:学習遺伝子は、重要性を保ちうるいくつかの積分層に設定される。
(ii)学習遺伝子凝縮:祖先モデルのどの層が1つの擬似子孫モデルと最もよく似ているかを特定する。
3)Learnergene Inheriting: 特定の下流タスクの異なる継承モデルを構築するために、ランダムに初期化されたレイヤをLearnergene Layerに積み重ねる。
さまざまなデータセット上でビジョントランスフォーマー(ViT)や畳み込みニューラルネットワーク(CNN)などの異なるネットワークアーキテクチャを使用するなど、さまざまな設定にわたる広範な実験を行い、Leargenの4つの利点を確認した。
1) より早く収束する。
2)過度パラメータに対する感度が低い。
3)より良いパフォーマンス、そして
4) 収束に必要なトレーニングサンプルは少ない。 During the continuous evolution of one organism's ancestry, its genes accumulate extensive experiences and knowledge, enabling newborn descendants to rapidly adapt to their specific environments. Motivated by this observation, we propose a novel machine learning paradigm Learngene to enable learning models to incorporate three key characteristics of genes. (i) Accumulating: the knowledge is accumulated during the continuous learning of an ancestry model. (ii) Condensing: the extensive accumulated knowledge is condensed into a much more compact information piece, i.e., learngene. (iii) Inheriting: the condensed learngene is inherited to make it easier for descendant models to adapt to new environments. Since accumulating has been studied in well-established paradigms like large-scale pre-training and lifelong learning, we focus on condensing and inheriting, which induces three key issues and we provide the preliminary solutions to these issues in this paper: (i) Learngene Form: the learngene is set to a few integral layers that can preserve significance. (ii) Learngene Condensing: we identify which layers among the ancestry model have the most similarity as one pseudo descendant model. (iii) Learngene Inheriting: to construct distinct descendant models for the specific downstream tasks, we stack some randomly initialized layers to the learngene layers. Extensive experiments across various settings, including using different network architectures like Vision Transformer (ViT) and Convolutional Neural Networks (CNNs) on different datasets, are carried out to confirm four advantages of Learngene: it makes the descendant models 1) converge more quickly, 2) exhibit less sensitivity to hyperparameters, 3) perform better, and 4) require fewer training samples to converge. | 翻訳日:2023-06-30 10:19:26 公開日:2023-06-29 |
# PeakNet:ディープニューラルネットワークを備えた自動ブラッグピークファインダ PeakNet: An Autonomous Bragg Peak Finder with Deep Neural Networks ( http://arxiv.org/abs/2303.15301v3 ) ライセンス: Link先を確認 | Cong Wang, Po-Nan Li, Jana Thayer and Chun Hong Yoon | (参考訳) X線自由電子レーザー(XFEL)とシンクロトロン施設におけるシリアル結晶学は近年大きな進歩を遂げており、マクロ分子構造と分子過程の新たな科学的研究を可能にしている。
しかし、これらの実験はデータ削減とリアルタイムフィードバックにおいて計算上の課題を呈する膨大な量のデータを生成する。
ブラッグピーク探索アルゴリズムは有用な画像の識別や、ヒット率と解像度に関するリアルタイムフィードバックを提供する。
バッファ溶液,噴射ノズル,その他の遮蔽材からのショット・ツー・ショット強度変動と強い背景散乱により,これは時間を要する最適化問題となる。
本稿では,深層ニューラルネットワークを利用した自律型ブラッグピークファインダPeakNetを紹介する。
このシステムの開発は
1)手動のアルゴリズムパラメータチューニングの必要性をなくす。
2) 強背景散乱におけるショット・ツー・ショットの変動をリアルタイムに調整することにより, 偽陽性ピークを低減する。
3) 悪い画素マスクを手作業で作成する手間を省き, 必要に応じて再生できるため, イベント毎にマスクを保管する必要がなくなる。
PeakNetは、1920×1920ピクセルの画像をNVIDIA 1080 Ti GPU上で90ミリ秒で処理し、並列化分析やGPUストリーム処理によるさらなる拡張の可能性を秘めている。
PeakNetは、専門家レベルのリアルタイム連続結晶学データ解析に高いデータレートで適している。 Serial crystallography at X-ray free electron laser (XFEL) and synchrotron facilities has experienced tremendous progress in recent times enabling novel scientific investigations into macromolecular structures and molecular processes. However, these experiments generate a significant amount of data posing computational challenges in data reduction and real-time feedback. Bragg peak finding algorithm is used to identify useful images and also provide real-time feedback about hit-rate and resolution. Shot-to-shot intensity fluctuations and strong background scattering from buffer solution, injection nozzle and other shielding materials make this a time-consuming optimization problem. Here, we present PeakNet, an autonomous Bragg peak finder that utilizes deep neural networks. The development of this system 1) eliminates the need for manual algorithm parameter tuning, 2) reduces false-positive peaks by adjusting to shot-to-shot variations in strong background scattering in real-time, 3) eliminates the laborious task of manually creating bad pixel masks and the need to store these masks per event since these can be regenerated on demand. PeakNet also exhibits exceptional runtime efficiency, processing a 1920-by-1920 pixel image around 90 ms on an NVIDIA 1080 Ti GPU, with the potential for further enhancements through parallelized analysis or GPU stream processing. PeakNet is well-suited for expert-level real-time serial crystallography data analysis at high data rates. | 翻訳日:2023-06-30 10:18:55 公開日:2023-06-29 |
# 周囲環境における絡み合いの様相 Salient signatures of entanglement in the surrounding environment ( http://arxiv.org/abs/2209.05197v3 ) ライセンス: Link先を確認 | {\L}ukasz Rudnicki, Waldemar K{\l}obus, Otavio A. D. Molitor, Wies{\l}aw Laskowski | (参考訳) 我々は, 量子系における絡み合いの存在を, システムを取り巻く環境の粗い観察によって確認できるモデルを開発した。
この反直感効果は、システムと環境の間の相互作用が、絡み合う証人である観測可能なものと比例するときに起こりうる。
直感的な例を示しながら、次のように示します。
一 理想気体の雲で、絡み合わされた証人とともに線形ポテンシャルを受けるときは、証人のサインにより指示された方向を加速する。
二 環境が放射界であるときは、誘電分極の方向は、絡み合いの有無に依存する。
三 2つの量子ビット(又は4レベル原子)を結合したキャビティ内の電磁界の四次体は同じ方法で変位する。 We develop a model in which presence of entanglement in a quantum system can be confirmed through coarse observations of the environment surrounding the system. This counter-intuitive effect becomes possible when interaction between the system and its environment is proportional to an observable being an entanglement witness. While presenting intuitive examples we show that: i) a cloud of an ideal gas, when subject to a linear potential coupled with the entanglement witness, accelerates in the direction dictated by the sign of the witness; ii) when the environment is a radiation field, the direction of dielectric polarization depends on the presence of entanglement; iii) quadratures of electromagnetic field in a cavity coupled with two qubits (or a four-level atom) are displaced in the same manner. | 翻訳日:2023-06-30 10:18:33 公開日:2023-06-29 |
# データセットシフトの一般形に基づく効率的かつ多元的ロバストリスク推定 Efficient and Multiply Robust Risk Estimation under General Forms of Dataset Shift ( http://arxiv.org/abs/2306.16406v2 ) ライセンス: Link先を確認 | Hongxiang Qiu, Eric Tchetgen Tchetgen, Edgar Dobriban | (参考訳) 統計的な機械学習手法は、利害関係者から利用可能な限られたデータの課題に直面することが多い。
1つの治療法は、いくつかの条件分布を共有したり、ターゲットドメインと他の方法でリンクされた補助源集団のデータを活用することである。
このような \emph{dataset shift} 条件を活用する手法は \emph{domain adaptation} または \emph{transfer learning} として知られている。
データセットのシフトに関する広範な文献にもかかわらず、限定的な研究は、対象人口における与えられた機械学習タスクのリスク評価の正確性を改善するために補助人口を効率的に利用する方法に言及している。
本稿では, 半パラメトリック効率理論を用いて, 様々なデータセットシフト条件下でターゲット人口リスクを効率的に推定する一般的な問題について検討する。
我々は,共変量,ラベル,概念シフトの3つの一般的な条件を含む,データセットシフト条件の一般的なクラスを特別なケースとして検討する。
我々は、ソースとターゲットの人口の間で部分的に重複しない支持を可能にする。
我々は、これらのデータセットシフト条件の簡単な仕様テストと共に、効率的かつ多重にロバストな推定器を開発する。
また、他の2つのデータセットシフト条件、後方ドリフトと位置スケールシフトの効率境界も導出する。
シミュレーション研究は、妥当なデータセットシフト条件の活用による効率向上を支援する。 Statistical machine learning methods often face the challenge of limited data available from the population of interest. One remedy is to leverage data from auxiliary source populations, which share some conditional distributions or are linked in other ways with the target domain. Techniques leveraging such \emph{dataset shift} conditions are known as \emph{domain adaptation} or \emph{transfer learning}. Despite extensive literature on dataset shift, limited works address how to efficiently use the auxiliary populations to improve the accuracy of risk evaluation for a given machine learning task in the target population. In this paper, we study the general problem of efficiently estimating target population risk under various dataset shift conditions, leveraging semiparametric efficiency theory. We consider a general class of dataset shift conditions, which includes three popular conditions -- covariate, label and concept shift -- as special cases. We allow for partially non-overlapping support between the source and target populations. We develop efficient and multiply robust estimators along with a straightforward specification test of these dataset shift conditions. We also derive efficiency bounds for two other dataset shift conditions, posterior drift and location-scale shift. Simulation studies support the efficiency gains due to leveraging plausible dataset shift conditions. | 翻訳日:2023-06-30 10:12:54 公開日:2023-06-29 |
# 自由度3次元超音波再構成のためのオンライン自己整合型マルチIMU Multi-IMU with Online Self-Consistency for Freehand 3D Ultrasound Reconstruction ( http://arxiv.org/abs/2306.16197v2 ) ライセンス: Link先を確認 | Mingyuan Luo, Xin Yang, Zhongnuo Yan, Yuanji Zhang, Junyu Li, Jiongquan Chen, Xindi Hu, Jikuan Qian, Jun Cheng, Dong Ni | (参考訳) 超音波(US)イメージングは臨床診断において一般的なツールであり、安全性、再現性、リアルタイム能力を提供する。
Freehand 3D USは、複雑さを増すことなくスキャンされた領域をより深く理解する技術である。
しかし,標高変位と累積誤差の推定は依然として困難であり,画像のみを用いて相対位置を推定することは困難である。
複雑さを増すことなく再建性能を向上させるために,外部軽量センサの追加が提案されている。
本稿では,複数慣性測定ユニット (imus) を用いた新しいオンライン自己抵抗ネットワーク (oscnet) を提案する。
OSCNetは、複数のIMU情報を融合し、各IMUデータから得られた再構成結果の違いを減らすために、モーダルレベルの自己管理戦略を利用する。
さらに,スキャンシーケンスとそのサブシーケンス間の予測結果の階層的一貫性を改善するために,シーケンスレベルの自己一貫性戦略を提案する。
複数のスキャン戦術を用いた大規模腕と頸動脈データセットの実験では,oscnetが従来の手法を上回っており,最先端の再構築性能を実現している。 Ultrasound (US) imaging is a popular tool in clinical diagnosis, offering safety, repeatability, and real-time capabilities. Freehand 3D US is a technique that provides a deeper understanding of scanned regions without increasing complexity. However, estimating elevation displacement and accumulation error remains challenging, making it difficult to infer the relative position using images alone. The addition of external lightweight sensors has been proposed to enhance reconstruction performance without adding complexity, which has been shown to be beneficial. We propose a novel online self-consistency network (OSCNet) using multiple inertial measurement units (IMUs) to improve reconstruction performance. OSCNet utilizes a modal-level self-supervised strategy to fuse multiple IMU information and reduce differences between reconstruction results obtained from each IMU data. Additionally, a sequence-level self-consistency strategy is proposed to improve the hierarchical consistency of prediction results among the scanning sequence and its sub-sequences. Experiments on large-scale arm and carotid datasets with multiple scanning tactics demonstrate that our OSCNet outperforms previous methods, achieving state-of-the-art reconstruction performance. | 翻訳日:2023-06-30 10:12:36 公開日:2023-06-29 |
# ソーシャルメディア上でうつ病を識別するためのフレームワーク: mentalriskes@iberlef 2023 A Framework for Identifying Depression on Social Media: MentalRiskES@IberLEF 2023 ( http://arxiv.org/abs/2306.16125v2 ) ライセンス: Link先を確認 | Simon Sanchez Viloria, Daniel Peix del R\'io, Rub\'en Berm\'udez Cabo, Guillermo Arturo Arrojo Fuentes, Isabel Segura-Bedmar | (参考訳) 本稿では,IberLEF 2023におけるMentalRiskESタスクへの参加について述べる。
そのタスクは、ソーシャルメディアの活動に基づいて、抑うつを経験する個人の可能性を予測することであった。
データセットは、175人のテレグラムユーザーの会話から成り、それぞれが障害に苦しむ証拠に従ってラベル付けされた。
従来の機械学習とディープラーニングを組み合わせることで、バイナリ分類、単純な回帰、マルチクラス分類、マルチアウトプット回帰という4つの予測サブタスクを解くことができた。
我々は、マルチ出力回帰ケースを解くためにモデルを訓練し、他の3つのサブタスクで動作するように予測を変換することで、この問題に対処した。
BERTをベースとしたモデルを直接微調整するか、あるいはその埋め込みを線形回帰器への入力として用いるかの2つのモデリング手法の性能を比較し、後者はより良い結果を得る。
結果を再現するコードは、https://github.com/simonsanvil/EarlyDepression-MentalRiskESで確認できます。 This paper describes our participation in the MentalRiskES task at IberLEF 2023. The task involved predicting the likelihood of an individual experiencing depression based on their social media activity. The dataset consisted of conversations from 175 Telegram users, each labeled according to their evidence of suffering from the disorder. We used a combination of traditional machine learning and deep learning techniques to solve four predictive subtasks: binary classification, simple regression, multiclass classification, and multi-output regression. We approached this by training a model to solve the multi-output regression case and then transforming the predictions to work for the other three subtasks. We compare the performance of two modeling approaches: fine-tuning a BERT-based model directly for the task or using its embeddings as inputs to a linear regressor, with the latter yielding better results. The code to reproduce our results can be found at: https://github.com/simonsanvil/EarlyDepression-MentalRiskES | 翻訳日:2023-06-30 10:12:16 公開日:2023-06-29 |
# カスケードハイブリッド最適化によるセキュアかつ高速な非同期垂直フェデレーション学習 Secure and Fast Asynchronous Vertical Federated Learning via Cascaded Hybrid Optimization ( http://arxiv.org/abs/2306.16077v2 ) ライセンス: Link先を確認 | Ganyu Wang, Qingsong Zhang, Li Xiang, Boyu Wang, Bin Gu, Charles Ling | (参考訳) Vertical Federated Learning (VFL)は、複数のパーティが垂直に分割されたデータに対して、プライバシ保護モデルを共同でトレーニングできるようにするため、注目を集めている。
近年の研究では、ゼロ階最適化(ZOO)の適用は実用的なVFLアルゴリズムを構築する上で多くの利点があることが示されている。
しかし、ZOOベースのVFLの致命的な問題は収束速度が遅いことであり、これは現代の大規模モデルを扱う際の応用を制限している。
そこで本研究では,VFLにおけるハイブリッド最適化手法を提案する。
この方法では、下流モデル(クライアント)がZOOでトレーニングされ、プライバシーを保護し、内部情報が共有されないことを保証する。
一方、アップストリームモデル(サーバ)は、一階最適化(foo)をローカルに更新することで、収束率を大幅に改善し、プライバシとセキュリティを損なうことなく、大規模モデルのトレーニングを可能にする。
我々のVFLフレームワークがZOOベースのVFLよりも早く収束することが理論的に証明されている。
本手法は,プライバシー保護レベルを維持しつつ,ZOOベースのVFLフレームワークよりも高速な収束を実現することを示す。
さらに、VFLの収束は安全でないFOOベースのVFLベースラインに匹敵することを示した。
さらに,本手法が大規模モデルのトレーニングを可能にすることを示す。 Vertical Federated Learning (VFL) attracts increasing attention because it empowers multiple parties to jointly train a privacy-preserving model over vertically partitioned data. Recent research has shown that applying zeroth-order optimization (ZOO) has many advantages in building a practical VFL algorithm. However, a vital problem with the ZOO-based VFL is its slow convergence rate, which limits its application in handling modern large models. To address this problem, we propose a cascaded hybrid optimization method in VFL. In this method, the downstream models (clients) are trained with ZOO to protect privacy and ensure that no internal information is shared. Meanwhile, the upstream model (server) is updated with first-order optimization (FOO) locally, which significantly improves the convergence rate, making it feasible to train the large models without compromising privacy and security. We theoretically prove that our VFL framework converges faster than the ZOO-based VFL, as the convergence of our framework is not limited by the size of the server model, making it effective for training large models with the major part on the server. Extensive experiments demonstrate that our method achieves faster convergence than the ZOO-based VFL framework, while maintaining an equivalent level of privacy protection. Moreover, we show that the convergence of our VFL is comparable to the unsafe FOO-based VFL baseline. Additionally, we demonstrate that our method makes the training of a large model feasible. | 翻訳日:2023-06-30 10:12:01 公開日:2023-06-29 |
# ギャップのブリッジ: クラス不均衡下での一般化のための神経崩壊によるプロンプトチューニング Bridging the Gap: Neural Collapse Inspired Prompt Tuning for Generalization under Class Imbalance ( http://arxiv.org/abs/2306.15955v2 ) ライセンス: Link先を確認 | Didi Zhu, Yinchuan Li, Min Zhang, Junkun Yuan, Jiashuo Liu, Zexi Li, Kun Kuang, Chao Wu | (参考訳) 大規模視覚言語モデル (V-L) は, 高速チューニングによる下流タスクの顕著な一般化機能を示した。
しかし、実際のシナリオでは一般的な問題であるクラス不均衡の存在下では、パフォーマンスが著しく低下する。
本稿では,クラス不均衡がV-Lモデルの一般化性能に及ぼす影響とニューラル崩壊現象をこれらのモデルに拡張し,クラス不均衡が一般化能力に与える影響の幾何学的理由を明らかにする。
この問題を解決するために,ニューラル・コラプスに基づくプロンプト・チューニング(NPT)を提案し,テキストと画像の特徴が同じ単純なETF構造を満たすようにプロンプトを最適化する。
NPTは2つの正規化項、幾何脱バイアスとマルチモーダル同型を導入し、一般化能力を保ちながらクラス不均衡条件下でのV-Lモデルのロバスト性を高める。
総合実験により,nptは11種類の画像認識データセットで既存のプロンプト学習技術を上回っており,新しいクラスでは絶対平均値2.63\%,不均衡データでは調和平均値2.47\%を達成した。 Large-scale vision-language (V-L) models have demonstrated remarkable generalization capabilities for downstream tasks through prompt tuning. However, their performance suffers significantly in the presence of class imbalance, a common issue in real-world scenarios. In this paper, we investigate the effects of class imbalance on the generalization performance of V-L models and extend Neural Collapse phenomenon to these models, revealing the geometric reasons behind the impact of class imbalance on their generalization ability. To address this problem, we propose Neural Collapse based Prompt Tuning (NPT), a novel method that optimizes prompts so that both text and image features satisfy the same simplex ETF structure. NPT incorporates two regularization terms, geometric de-biasing and multi-modal isomorphism, to enhance the robustness of V-L models under class imbalance conditions while maintaining their generalization capabilities. Our comprehensive experiments show that NPT outperforms existing prompt learning techniques across 11 diverse image recognition datasets, achieving an absolute average gain of 2.63\% for novel classes and 2.47\% for harmonic mean when facing imbalanced data. | 翻訳日:2023-06-30 10:11:35 公開日:2023-06-29 |
# 説明可能な機械学習におけるラショモン効果の実証評価 An Empirical Evaluation of the Rashomon Effect in Explainable Machine Learning ( http://arxiv.org/abs/2306.15786v2 ) ライセンス: Link先を確認 | Sebastian M\"uller, Vanessa Toborek, Katharina Beckh, Matthias Jakobs, Christian Bauckhage and Pascal Welke | (参考訳) ラショモン効果は以下の現象を記述する: あるデータセットに対して、等しく優れた性能を持つが、異なる解戦略を持つ多くのモデルが存在する可能性がある。
ラショモン効果は、説明可能な機械学習、特に説明の両立性に影響を及ぼす。
3つの異なる比較シナリオの統一的なビューを提供し、さまざまなデータセット、モデル、帰属方法、メトリクスを定量的に評価します。
ハイパーパラメータチューニングが役割を果たすことが分かり、メトリックの選択が重要になります。
本研究は,これまでの事例的証拠に対して経験的支援を行い,科学者と実践者の両方に課題を提示する。 The Rashomon Effect describes the following phenomenon: for a given dataset there may exist many models with equally good performance but with different solution strategies. The Rashomon Effect has implications for Explainable Machine Learning, especially for the comparability of explanations. We provide a unified view on three different comparison scenarios and conduct a quantitative evaluation across different datasets, models, attribution methods, and metrics. We find that hyperparameter-tuning plays a role and that metric selection matters. Our results provide empirical support for previously anecdotal evidence and exhibit challenges for both scientists and practitioners. | 翻訳日:2023-06-30 10:11:14 公開日:2023-06-29 |
# 野生における測定されたアルベド:本質的評価におけるギャップを埋める Measured Albedo in the Wild: Filling the Gap in Intrinsics Evaluation ( http://arxiv.org/abs/2306.15662v2 ) ライセンス: Link先を確認 | Jiaye Wu, Sanjoy Chowdhury, Hariharmano Shanmugaraja, David Jacobs, and Soumyadip Sengupta | (参考訳) 固有画像分解と逆レンダリングは、コンピュータビジョンにおける長年の問題である。
アルベドの回収を評価するため、ほとんどのアルゴリズムはIIWデータセットの平均重み付き人体識別率(WHDR)測定値を用いて定量的な性能を報告している。
しかしながら、WHDRは比較的アルベド値にのみ焦点を合わせており、アルベドの全体的な品質を捉えることができないことが多い。
アルベドを包括的に評価するために、新しいデータセットである「MAW」を収集し、WHDRを補完する3つの新しい指標(強度、色度、テクスチャメトリクス)を提案する。
既存のアルゴリズムは、しばしばWHDRメトリックを改善するが、他のメトリクスでは性能が良くないことを示す。
そして、MAWデータセットに異なるアルゴリズムを微調整し、再構成されたアルベドの品質を定量的かつ質的に向上させる。
提案する強度,色度,テクスチャの測定値とWHDRは相補的であるため,平均性能を捉える相対的性能尺度も導入する。
既存のアルゴリズムを分析することで、改善の余地があることが分かる。
我々のデータセットと評価指標により、研究者はアルベド再構築を改善するアルゴリズムを開発できる。
コードとデータは、https://measuredalbedo.github.io/で入手できる。 Intrinsic image decomposition and inverse rendering are long-standing problems in computer vision. To evaluate albedo recovery, most algorithms report their quantitative performance with a mean Weighted Human Disagreement Rate (WHDR) metric on the IIW dataset. However, WHDR focuses only on relative albedo values and often fails to capture overall quality of the albedo. In order to comprehensively evaluate albedo, we collect a new dataset, Measured Albedo in the Wild (MAW), and propose three new metrics that complement WHDR: intensity, chromaticity and texture metrics. We show that existing algorithms often improve WHDR metric but perform poorly on other metrics. We then finetune different algorithms on our MAW dataset to significantly improve the quality of the reconstructed albedo both quantitatively and qualitatively. Since the proposed intensity, chromaticity, and texture metrics and the WHDR are all complementary we further introduce a relative performance measure that captures average performance. By analysing existing algorithms we show that there is significant room for improvement. Our dataset and evaluation metrics will enable researchers to develop algorithms that improve albedo reconstruction. Code and Data available at: https://measuredalbedo.github.io/ | 翻訳日:2023-06-30 10:10:34 公開日:2023-06-29 |
# ピーク・オーバー・スレッショルドモデルを用いた検閲推論のためのラピッドフリーニューラルベイズ推定器 Likelihood-free neural Bayes estimators for censored inference with peaks-over-threshold models ( http://arxiv.org/abs/2306.15642v2 ) ライセンス: Link先を確認 | Jordan Richards and Matthew Sainsbury-Dale and Andrew Zammit-Mangion and Rapha\"el Huser | (参考訳) 空間的極値依存モデルの推論は、難解かつ検閲された確率に依存するため、中程度から高次元の計算量的に負担となる。
ニューラルベイズ推定器(すなわちベイズ推定器を対象とするニューラルベイズ推定器)を用いた確率自由推定の最近の進歩として,ニューラルネットワークアーキテクチャにおける検閲情報の符号化により,検閲されたピークオースホールドモデルに対する高効率な推定器を構築する手法を開発した。
提案手法は,空間的極端に対する従来の検閲された確率に基づく推論に挑戦するパラダイムシフトを提供する。
シミュレーション研究は,max-stable,$r$-pareto,ランダムスケール混合プロセスなど,一般的な極値依存モデルの推論に新たな推定器を適用する場合,計算効率と統計効率の両方において有意な向上を示した。
また,一般検閲レベルの1つの推定器をトレーニングすることで,検閲レベルが変更された場合の再訓練の必要性を回避できることを示す。
サウジアラビア全土の粒子状物質2.5ミクロン以下 (PM2.5) 濃度を評価するために, 高次元空間超依存性モデル数百個を高速に推定することにより, 推定装置の有効性を検証した。 Inference for spatial extremal dependence models can be computationally burdensome in moderate-to-high dimensions due to their reliance on intractable and/or censored likelihoods. Exploiting recent advances in likelihood-free inference with neural Bayes estimators (that is, neural estimators that target Bayes estimators), we develop a novel approach to construct highly efficient estimators for censored peaks-over-threshold models by encoding censoring information in the neural network architecture. Our new method provides a paradigm shift that challenges traditional censored likelihood-based inference for spatial extremes. Our simulation studies highlight significant gains in both computational and statistical efficiency, relative to competing likelihood-based approaches, when applying our novel estimators for inference of popular extremal dependence models, such as max-stable, $r$-Pareto, and random scale mixture processes. We also illustrate that it is possible to train a single estimator for a general censoring level, obviating the need to retrain when the censoring level is changed. We illustrate the efficacy of our estimators by making fast inference on hundreds-of-thousands of high-dimensional spatial extremal dependence models to assess particulate matter 2.5 microns or less in diameter (PM2.5) concentration over the whole of Saudi Arabia. | 翻訳日:2023-06-30 10:10:13 公開日:2023-06-29 |
# インテリジェンス様粒子の対話的コヒーレント絡みの理論 A Theory of Interactively Coherent Entanglement for Intelligence-Like Particles ( http://arxiv.org/abs/2306.15554v2 ) ライセンス: Link先を確認 | Leilei Shi, Bing-Hong Wang, Xinshuai Guo, Guocheng Wang | (参考訳) 複雑適応学習は知的であり、生命と非生命の複雑なシステムにおいて不可欠である。
複雑なシステムは、相互作用する多くの個人または単位を含み、相互作用するときに隠れたパターンを示し、自然科学から社会科学まで、ほぼ全ての分野において広く起こる。
最近の研究では、いわゆる建築材料が学習できることを示した。
複雑な系の定式化のメカニズムを探求する科学者を刺激する。
しかし、それは非常に難しい。
ここでは、取引量-価格確率波方程式から複素系における局所動的平衡状態における相互作用的コヒーレンスに関する普遍則や法則を抽出し、その応用として複素量子系に適用する。
複雑な量子系の粒子は、金融市場の複雑さにおけるトレーダーのそれと同じ、正確に複雑な適応学習機構によって支配される強化座標において、複雑な適応学習のような特性を持つことができると仮定する。
この仮定により、著者らは、量子力学における絡み合いの革新的な解釈を試み、インテリジェンスのような粒子の相互作用的にコヒーレントな絡み合いの理論を提案した。
量子の絡み合いは、コペンハーゲンの主流の思想的主張であるコヒーレント状態の重ね合わせの状態ではないと結論付けている。
これは、強化座標におけるインテリジェンスのような粒子によって生成される対話的にコヒーレントな絡み合いの状態である。
最後に、粒子が相互作用コヒーレンスにおいてインテリジェンスのような性質を示すことは、複素量子系に作用する運動量が非局在化されている場合に限る。
これは時間間隔で観測された移動粒子の累積確率である。
著者らは,その妥当性を検証し,完全になるまで理論をさらに改良する実験結果を楽しみにしている。 Complex adaptive learning is intelligent and crucial in living and non-living complex systems. A complex system comprises many interacting individuals or units, shows hidden patterns as they interact, and widely occurs in almost every discipline, from natural to social sciences. A recent study has demonstrated a so-called architected material capable of learning. It stimulates scientists to explore the mechanism of complex systems formulation. However, it is very challenging. Here the authors attempt to extract a universal rule or a law for interactive coherence at a state of local dynamic equilibrium in complex systems from a trading volume-price probability wave equation and apply it to complex quantum systems as its application. It assumes that particles in complex quantum systems can have a complex adaptive learning- or intelligence-like property in a reinforced coordinate, governed by the exact complex adaptive learning mechanism as that of traders in the complexity of the financial markets. With this assumption, the authors propose a theory of interactively coherent entanglement for intelligence-like particles, attempting to have an innovative interpretation of entanglement in quantum mechanics. It concludes that quantum entanglement is not a state of the superposition of coherent states as the mainstream Copenhagen school of thought claims. It is a state of interactively coherent entanglement generated by intelligence-like particles in a reinforced coordinate. Finally, the authors prove that particles show intelligence-like properties in interactive coherence if and only if the momentum force exerted on the complex quantum systems is non-localized. It is the cumulative probability of the moving particles observed in a time interval. The authors look forward to the experimental results to examine its validity and further improve the theory until it is perfect, | 翻訳日:2023-06-30 10:09:48 公開日:2023-06-29 |