このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230731となっている論文です。

PDF登録状況(公開日: 20230731)

TitleAuthorsAbstract論文公表日・翻訳日
# 自動ログテンプレート抽出のためのプロンプト

Prompting for Automatic Log Template Extraction ( http://arxiv.org/abs/2307.09950v2 )

ライセンス: Link先を確認
Junjielong Xu, Ruichun Yang, Yintong Huo, Chengyu Zhang, and Pinjia He(参考訳) ログ解析は、自動ログ分析の初期および重要な段階であり、半構造化ログからログテンプレートを抽出して構造化ログを生成する。 それでも、現在のログパーサは2つの主な理由から有効性に制限されている。 第一に、従来のデータ駆動ログパーザはヒューリスティックやドメインの専門家が提供した手作業による機能に大きく依存する。 次に、既存のディープラーニングベースのログパーサは、通常、トレーニングサンプルに限定されたモデルチューニングを必要とし、ログソース全体にわたって最適以下のパフォーマンスをもたらす。 これらの制限を克服するために,大規模言語モデルのコンテキスト内推論機能を活用したlogdivと呼ばれる正確なログ解析フレームワークを提案する。 具体的には、プロンプトデモを通じて、logdivは複数のログ例から隠れたセマンティクスを抽出する。 モデルチューニングが不要なlogdivでは、プロンプトコンテキストで提供されるセマンティクスを活用して、ターゲットログメッセージのログテンプレートを直接生成することができる。 さらに,出力を抽出し,生成したログテンプレートの品質を向上させるための簡易かつ効果的なプロンプトフォーマットを導入する。 logdivの性能を検証するために,広く使用されている16の公開データセットを用いた実験を行った。 その結果,LogDivは平均解析精度97.7%,高精度テンプレート精度88.1%,リコールテンプレート精度90.8%で最先端性能を達成した。

Log parsing, the initial and vital stage in automated log analysis, involves extracting log templates from semi-structured logs to generate structured logs. Nonetheless, current log parsers are limited in effectiveness due to two primary reasons. Firstly, traditional data-driven log parsers heavily rely on heuristics or manually crafted features provided by domain experts, which may not consistently yield optimal performance when applied to diverse log systems. Secondly, existing deep learning-based log parsers necessitate model tuning, which is typically confined to training samples and leads to suboptimal performance across the entire log source. To overcome these limitations, we propose a precise log parsing framework named LogDiv, which leverages the in-context inference capability of large language models. Specifically, LogDiv extracts the hidden semantics from multiple log examples through prompt demonstrations. Without the need for model tuning, LogDiv can directly generate a log template for the target log message by leveraging the semantics provided in the prompt context. Additionally, we introduce a simple yet effective prompt format for extracting the output and enhancing the quality of the generated log templates. To validate the performance of LogDiv, we conducted experiments using 16 widely-used public datasets. The results show that LogDiv achieves state-of-the-art performance with an average parsing accuracy of 97.7%, precision template accuracy of 88.1%, and recall template accuracy of 90.8%.
翻訳日:2023-10-23 17:03:05 公開日:2023-07-31
# DroneReqValidator:無人航空システム開発者のための高忠実度シミュレーションテスト

DroneReqValidator: Facilitating High Fidelity Simulation Testing for Uncrewed Aerial Systems Developers ( http://arxiv.org/abs/2308.00174v1 )

ライセンス: Link先を確認
Bohan Zhang, Yashaswini Shivalingaiah, Ankit Agrawal(参考訳) 小型無人航空機システム(sUAS)の厳格な試験は、安全性と信頼性を確保するために不可欠である。 sUAS開発者はシミュレーションテストを通じてアプリケーションの信頼性と安全性を検証することを目指している。 しかし、現実世界の環境の動的な性質は、気象条件や無線通信の干渉などを含む要因によって、フィールドテストによってのみ明らかになるユニークなソフトウェア障害を引き起こす。 何千もの環境条件下でのフィールドテストの高コスト化と非現実性を考慮すると、SUAS開発者がアプリケーションをデプロイし、密接な環境条件下で徹底的なシミュレーションテストを行うことを可能にする、高忠実で現実的な環境を生成できる自動化技術を開発する必要がある。 このニーズに対処するため、DroneReqValidator(DRV)は、開発者指定の制約に基づいて現実的な環境を自動的に生成する包括的な小型無人航空機(sUAV)シミュレーションエコシステムを提供し、事前に定義された安全パラメータに対してsUAVアクティビティを監視し、sUAVアプリケーションのデバッグと分析に有効な詳細な受け入れテストレポートを生成する。 これらの機能を提供することで、DRVはsUASのテストと開発プロセスを強化する貴重なソリューションを提供する。 DRVの総合的なデモはhttps://www.youtube.com/watch? v=Fd9ft55gbO8

Rigorous testing of small Uncrewed Aerial Systems (sUAS) is crucial to ensure their safe and reliable deployment in the real world. sUAS developers aim to validate the reliability and safety of their applications through simulation testing. However, the dynamic nature of the real-world environment, including factors such as challenging weather conditions and wireless interference, causes unique software faults that may only be revealed through field testing. Considering the high cost and impracticality of conducting field testing in thousands of environmental contexts and conditions, there exists a pressing need to develop automated techniques that can generate high-fidelity, realistic environments enabling sUAS developers to deploy their applications and conduct thorough simulation testing in close-to-reality environmental conditions. To address this need, DroneReqValidator (DRV) offers a comprehensive small Unmanned Aerial Vehicle (sUAV) simulation ecosystem that automatically generates realistic environments based on developer-specified constraints, monitors sUAV activities against predefined safety parameters, and generates detailed acceptance test reports for effective debugging and analysis of sUAV applications. Providing these capabilities, DRV offers a valuable solution for enhancing the testing and development process of sUAS. The comprehensive demo of DRV is available at https://www.youtube.com/watch?v=Fd9ft55gbO8
翻訳日:2023-10-23 15:51:36 公開日:2023-07-31
# NVIDIA Isaac SimによるAI-CPSの構築に向けて - ロボット操作の産業ベンチマークとケーススタディ

Towards Building AI-CPS with NVIDIA Isaac Sim: An Industrial Benchmark and Case Study for Robotics Manipulation ( http://arxiv.org/abs/2308.00055v1 )

ライセンス: Link先を確認
Zhehua Zhou, Jiayang Song, Xuan Xie, Zhan Shu, Lei Ma, Dikai Liu, Jianxiong Yin, Simon See(参考訳) 代表的サイバー物理システム(CPS)として、ロボットマニピュレータは様々な学術研究や産業プロセスで広く採用されており、サイバーと物理世界の普遍的なインターフェースとして機能する可能性を示している。 ロボット操作の最近の研究は、適応性と性能を向上させるために人工知能(AI)アプローチをコントローラとして採用し始めている。 しかし、AIコンポーネントを説明するという固有の課題は、これらのAI対応ロボットシステムに不確実性と不確実性をもたらし、システム設計と性能評価のための信頼性の高い開発プラットフォームを必要とする。 本稿では,信頼性の高いai対応ロボットシステムを構築するための基礎的ステップとして,ロボット操作のための産業ベンチマークを提案する。 NVIDIA Omniverse Isaac Simをシミュレーションプラットフォームとして活用し、8つの代表的操作タスクと複数のAIソフトウェアコントローラを含む。 ロボット操作タスクの解法におけるAIコントローラの性能評価を行い,その効果を徹底的に把握する。 さらに,本ベンチマークの適用性を示すために,物理シミュレータやopenaiジム環境と互換性のある偽造フレームワークを開発した。 このフレームワークは、従来のテスト方法と現代の物理エンジンベースのシミュレーションとのギャップを埋める。 物理シミュレータを用いたai対応ロボット操作における異なる最適化手法の有効性について, 偽造試験を用いて検討した。 我々の研究は、AI対応ロボットシステムの設計・開発の基礎を確立するだけでなく、この分野の実践者に実践経験と指導を提供し、この重要な学術・産業分野におけるさらなる研究を促進する。

As a representative cyber-physical system (CPS), robotic manipulator has been widely adopted in various academic research and industrial processes, indicating its potential to act as a universal interface between the cyber and the physical worlds. Recent studies in robotics manipulation have started employing artificial intelligence (AI) approaches as controllers to achieve better adaptability and performance. However, the inherent challenge of explaining AI components introduces uncertainty and unreliability to these AI-enabled robotics systems, necessitating a reliable development platform for system design and performance assessment. As a foundational step towards building reliable AI-enabled robotics systems, we propose a public industrial benchmark for robotics manipulation in this paper. It leverages NVIDIA Omniverse Isaac Sim as the simulation platform, encompassing eight representative manipulation tasks and multiple AI software controllers. An extensive evaluation is conducted to analyze the performance of AI controllers in solving robotics manipulation tasks, enabling a thorough understanding of their effectiveness. To further demonstrate the applicability of our benchmark, we develop a falsification framework that is compatible with physical simulators and OpenAI Gym environments. This framework bridges the gap between traditional testing methods and modern physics engine-based simulations. The effectiveness of different optimization methods in falsifying AI-enabled robotics manipulation with physical simulators is examined via a falsification test. Our work not only establishes a foundation for the design and development of AI-enabled robotics systems but also provides practical experience and guidance to practitioners in this field, promoting further research in this critical academic and industrial domain.
翻訳日:2023-10-23 15:50:47 公開日:2023-07-31
# TPMソフトウェアスタックの形式検証に向けて

Towards Formal Verification of a TPM Software Stack ( http://arxiv.org/abs/2307.16821v1 )

ライセンス: Link先を確認
Yani Ziani and Nikolai Kosmatov and Fr\'ed\'eric Loulergue and Daniel Gracia P\'erez and T\'eo Bernier(参考訳) Trusted Platform Module (TPM) は、現代のコンピュータの完全性とセキュリティを保護するために設計された暗号プロセッサである。 TPMとの通信は、オープンソースライブラリtpm2-tssであるTPM Software Stack (TSS)を介して行われる。 コードの脆弱性により、攻撃者は機密情報を回復し、システムを制御できる。 本稿では,Frama-C 検証プラットフォームを用いた tpm2-ts の形式的検証について述べる。 リンクリストと複雑なデータ構造をベースとしたライブラリコードは、検証ツールにとって非常に難しいようだ。 対象とするいくつかの問題と制限を提示し、機能特性の検証と関数の代表的なサブセットに対する実行時エラーの欠如を可能にする例とソリューションを示します。 対象コードの完全な形式的検証を実現するために必要な検証結果と所望のツール改善について述べる。

The Trusted Platform Module (TPM) is a cryptoprocessor designed to protect integrity and security of modern computers. Communications with the TPM go through the TPM Software Stack (TSS), a popular implementation of which is the open-source library tpm2-tss. Vulnerabilities in its code could allow attackers to recover sensitive information and take control of the system. This paper describes a case study on formal verification of tpm2-tss using the Frama-C verification platform. Heavily based on linked lists and complex data structures, the library code appears to be highly challenging for the verification tool. We present several issues and limitations we faced, illustrate them with examples and present solutions that allowed us to verify functional properties and the absence of runtime errors for a representative subset of functions. We describe verification results and desired tool improvements necessary to achieve a full formal verification of the target code.
翻訳日:2023-10-23 15:50:21 公開日:2023-07-31
# why3によるスケーラブル並列コンピューティングの検証

Verified Scalable Parallel Computing with Why3 ( http://arxiv.org/abs/2307.16592v1 )

ライセンス: Link先を確認
Olivia Proust (LMV), Fr\'ed\'eric Loulergue (LMV)(参考訳) BSMLは、マルチパラダイム言語OCamlのための純粋な機能ライブラリである。 BSMLはスケーラブル並列コンピューティングのモデルであるBulk Synchronous Parallel(BSP)モデルの原則を具現化している。 本稿では、Why3の仕様言語であるWhyMLを用いてBSMLプリミティブの形式化を提案し、BSML標準ライブラリのほとんどを特定・証明する。 最後に,小型BSMLアプリケーションの開発と検証を行う。

BSML is a pure functional library for the multi-paradigm language OCaml. BSML embodies the principles of the Bulk Synchronous Parallel (BSP) model, a model of scalable parallel computing. We propose a formalization of BSML primitives with WhyML, the specification language of Why3 and specify and prove the correctness of most of the BSML standard library. Finally, we develop and verify the correctness of a small BSML application.
翻訳日:2023-10-23 15:49:36 公開日:2023-07-31
# LLMとFBPを用いたジャストインタイムプログラミングフレームワーク

A Composable Just-In-Time Programming Framework with LLMs and FBP ( http://arxiv.org/abs/2308.00204v1 )

ライセンス: Link先を確認
Andy Vidan and Lars H. Fiedler(参考訳) 本稿では,FBP(Flow-Based Programming)とLLM(Large Language Models)を組み合わせてJust-In-Time Programming(JITP)を実現する計算フレームワークを提案する。 JITPは、プログラミングの専門知識に関わらず、タスクタイムのアルゴリズム的洞察を活用することで、開発と自動化プロセスに積極的に参加することを可能にする。 LLMをFBPワークフローにシームレスに統合することにより、フローベースのプログラム内で動的コード実行を可能にするために、リアルタイムでコードを要求および生成することができる。 この論文はJITPのモチベーション、原則、利点を探求し、タスクの自動化、データワークフローの編成、ソフトウェア開発の加速の可能性を示している。 Composableプラットフォームを使用して完全に実装されたJITPフレームワークを通じて、データエンジニアリング、データサイエンス、ソフトウェア開発におけるフレームワークのメリットを説明するために、いくつかの例とユースケースを調査します。 その結果、FBPとLLMの融合によって、強力でユーザ中心のコンピューティングパラダイムが生み出された。

This paper introduces a computing framework that combines Flow-Based Programming (FBP) and Large Language Models (LLMs) to enable Just-In-Time Programming (JITP). JITP empowers users, regardless of their programming expertise, to actively participate in the development and automation process by leveraging their task-time algorithmic insights. By seamlessly integrating LLMs into the FBP workflow, the framework allows users to request and generate code in real-time, enabling dynamic code execution within a flow-based program. The paper explores the motivations, principles, and benefits of JITP, showcasing its potential in automating tasks, orchestrating data workflows, and accelerating software development. Through a fully implemented JITP framework using the Composable platform, we explore several examples and use cases to illustrate the benefits of the framework in data engineering, data science and software development. The results demonstrate how the fusion of FBP and LLMs creates a powerful and user-centric computing paradigm.
翻訳日:2023-10-23 15:40:00 公開日:2023-07-31
# 視覚伝達のための代替学習に基づくスパースセマンティックコミュニケーション

Alternate Learning based Sparse Semantic Communications for Visual Transmission ( http://arxiv.org/abs/2309.16681v1 )

ライセンス: Link先を確認
Siyu Tong, Xiaoxue Yu, Rongpeng Li, Kun Lu, Zhifeng Zhao, and Honggang Zhang(参考訳) セマンティック通信(Semantic Communication, SemCom)は、データの本質的な意味情報を復元することのみによって、従来のビットレベルの正確な伝送よりも強力な優位性を示す。 本稿では,チャネルの非微分可能性に対処するために,SparseSBC という視覚伝達のための代替学習ベース SemCom システムを提案する。 特に、SparseSBCは送信機と受信機でそれぞれ2つの分離したディープニューラルネットワーク(DNN)ベースのモデルを活用し、既存の文献における共同最適化ではなく、符号化と復号を交互に学習し、チャネルの非微分性を解決する。 特に、"self-critic"トレーニングスキームを安定したトレーニングに活用し、さらに、dnnベースの送信機は、意味的精度に対する最小の有害効果に基づいてバイナリ量子化モジュールを更に組み込むことにより、推定された"`semantic bases"のビットのスパースセットを生成する。 SparseSBCは様々なチャネル条件下で効率よく効果的な伝送性能を示し、典型的なSemComソリューションよりも優れていた。

Semantic communication (SemCom) demonstrates strong superiority over conventional bit-level accurate transmission, by only attempting to recover the essential semantic information of data. In this paper, in order to tackle the non-differentiability of channels, we propose an alternate learning based SemCom system for visual transmission, named SparseSBC. Specially, SparseSBC leverages two separate Deep Neural Network (DNN)-based models at the transmitter and receiver, respectively, and learns the encoding and decoding in an alternate manner, rather than the joint optimization in existing literature, so as to solving the non-differentiability in the channel. In particular, a ``self-critic" training scheme is leveraged for stable training. Moreover, the DNN-based transmitter generates a sparse set of bits in deduced ``semantic bases", by further incorporating a binary quantization module on the basis of minimal detrimental effect to the semantic accuracy. Extensive simulation results validate that SparseSBC shows efficient and effective transmission performance under various channel conditions, and outperforms typical SemCom solutions.
翻訳日:2023-10-23 05:57:11 公開日:2023-07-31
# 病院能力評価・問い合わせのための個人意思決定支援ツールの開発

Developing A Personal Decision Support Tool for Hospital Capacity Assessment and Querying ( http://arxiv.org/abs/2308.06276v1 )

ライセンス: Link先を確認
Robert L Burdett, Paul Corry, David Cook, Prasad Yarlagadda(参考訳) 本稿では,病院の容量に関する洞察的かつ実用的な定量的評価を行うための,HOPLITEと呼ばれる個人意思決定支援ツールについて紹介する。 このツールはユーザフレンドリーで直感的で、タスクを自動化し、即時レポートを提供し、拡張可能である。 excel visual basic for applications (vba) として開発されているのは、デプロイの容易さ、使いやすさ、officeの巨大なインストールユーザベース、ビジネスにおける広範なレガシである。 本論文で開発された方法論は,先進的な病院計画ツールやソフトウェアの利用や開発を制限した数学的理論と実践のギャップを埋めるものである。 我々の知る限りでは、上記の業務を行うために既存の病院ITシステム内に個人意思決定支援ツール(PDST)がまだ作成されていない。 本稿では,病院用PDSTの開発が実現可能であり,最適化手法を安価に組み込むことが可能であることを実証する。 広範囲な開発とテストの結果は、HOPLITEが多くのニュアンスタスクを自動化できることを示している。 さらに、最適化ソフトウェアを自由に使えるアプリケーションには、制限がほとんどなく、わずかなスケーラビリティの問題しかありません。 HOPLITEが提供する機能は、病院を戦略的に/または戦術的に必要に応じて調整しやすくする。 病院がケースミックスとリソースをよりコントロールし、より積極的に、より効率的に運用できるようにする。

This article showcases a personal decision support tool (PDST) called HOPLITE, for performing insightful and actionable quantitative assessments of hospital capacity, to support hospital planners and health care managers. The tool is user-friendly and intuitive, automates tasks, provides instant reporting, and is extensible. It has been developed as an Excel Visual Basic for Applications (VBA) due to its perceived ease of deployment, ease of use, Office's vast installed userbase, and extensive legacy in business. The methodology developed in this article bridges the gap between mathematical theory and practice, which our inference suggests, has restricted the uptake and or development of advanced hospital planning tools and software. To the best of our knowledge, no personal decision support tool (PDST) has yet been created and installed within any existing hospital IT systems, to perform the aforementioned tasks. This article demonstrates that the development of a PDST for hospitals is viable and that optimization methods can be embedded quite simply at no cost. The results of extensive development and testing indicate that HOPLITE can automate many nuanced tasks. Furthermore, there are few limitations and only minor scalability issues with the application of free to use optimization software. The functionality that HOPLITE provides may make it easier to calibrate hospitals strategically and/or tactically to demands. It may give hospitals more control over their case-mix and their resources, helping them to operate more proactively and more efficiently.
翻訳日:2023-08-20 16:41:17 公開日:2023-07-31
# 説明可能なAIのための総合的人間中心評価フレームワークを目指して

Towards a Comprehensive Human-Centred Evaluation Framework for Explainable AI ( http://arxiv.org/abs/2308.06274v1 )

ライセンス: Link先を確認
Ivania Donoso-Guzm\'an, Jeroen Ooge, Denis Parra, Katrien Verbert(参考訳) 説明可能なAI(XAI)の研究は盛んであり、多くのアプリケーションドメインで説明技術が有望であることが証明されているが、標準化された人間中心の評価手順はまだ欠けている。 また,現在の評価手順では,人間に対する説明の影響を複雑なユーザ体験として扱わないという意味で,XAI手法を全体評価していない。 この課題に取り組むために、レコメンダシステムで使用されるユーザ中心の評価フレームワークを適用することを提案する。説明アスペクトの統合、説明プロパティの要約、それらの関係の指示、これらの特性を測定するメトリクスの分類である。 この総合的な評価枠組みにより、XAI評価の人間中心の標準化に貢献したい。

While research on explainable AI (XAI) is booming and explanation techniques have proven promising in many application domains, standardised human-centred evaluation procedures are still missing. In addition, current evaluation procedures do not assess XAI methods holistically in the sense that they do not treat explanations' effects on humans as a complex user experience. To tackle this challenge, we propose to adapt the User-Centric Evaluation Framework used in recommender systems: we integrate explanation aspects, summarise explanation properties, indicate relations between them, and categorise metrics that measure these properties. With this comprehensive evaluation framework, we hope to contribute to the human-centred standardisation of XAI evaluation.
翻訳日:2023-08-20 16:40:50 公開日:2023-07-31
# 病院事例混合計画支援のための分析手法

Analytical Techniques to Support Hospital Case Mix Planning ( http://arxiv.org/abs/2308.07323v1 )

ライセンス: Link先を確認
Robert L Burdett, Paul corry, David Cook, Prasad Yarlagadda(参考訳) 本稿では,従来病院で作成されていたキャパシティアセスメントとケースミックスプランニング(cmp)アプローチを支援する分析手法と意思決定支援ツールを紹介する。 まず、既存のケースミックスの変更の影響を分析するために、最適化モデルを提案する。 本モデルでは,病院の資源利用率の変化に比例して,他の患者種をどう変えなければならないかを明らかにする。 そこで本研究では,競合事例混合ソリューションの比較と批判を行うための多目的意思決定手法を提案する。 提案手法はExcel Visual Basic for Applications (VBA)パーソナル意思決定支援ツール (PDST) にシームレスに組み込まれ,病院の容量を定量的に評価する。 PDSTは、差異の有意な指標を報告し、他の種類の患者に対するケースミックス修正の影響を報告している。 本稿で開発された技術は,現在欠けている理論と実践の橋渡しとなり,病院の容量に関するさらなる状況認識を提供する。

This article introduces analytical techniques and a decision support tool to support capacity assessment and case mix planning (CMP) approaches previously created for hospitals. First, an optimization model is proposed to analyse the impact of making a change to an existing case mix. This model identifies how other patient types should be altered proportionately to the changing levels of hospital resource availability. Then we propose multi-objective decision-making techniques to compare and critique competing case mix solutions obtained. The proposed techniques are embedded seamlessly within an Excel Visual Basic for Applications (VBA) personal decision support tool (PDST), for performing informative quantitative assessments of hospital capacity. The PDST reports informative metrics of difference and reports the impact of case mix modifications on the other types of patient present. The techniques developed in this article provide a bridge between theory and practice that is currently missing and provides further situational awareness around hospital capacity.
翻訳日:2023-08-20 16:27:39 公開日:2023-07-31
# 病院の事例混在景観理解のための多条件最適化手法

Multicriteria Optimization Techniques for Understanding the Case Mix Landscape of a Hospital ( http://arxiv.org/abs/2308.07322v1 )

ライセンス: Link先を確認
Robert L Burdett, Paul Corry, Prasad Yarlagadda, David Cook, Sean Birgan(参考訳) 様々な医療・外科ユニットが典型的な病院で手術を行い、患者を治療するためにこれらのユニットは手術室(OR)や病床などのインフラと競合する。 その競争の規制が病院の容量と出力にどのように影響するか。 本報告では, 病院における異なる症例混在(PCM)の治療効果について考察する。 各症例は, 経済的な影響と, 病院資源利用のユニークな特徴を有するため, この考察が重要である。 ランドスケープの混在をよりよく理解し, キャパシティ利用の観点から最適であるものを特定するために, 改良されたマルチクリテリア最適化(MCO)手法を提案する。 典型的な病院には多くの患者タイプがあるため、非支配的な(すなわちパレート最適)ケースミックスのアーカイブを生成する作業は計算上困難である。 より良いアーカイブを生成するために、改良された並列化エプシロン制約法(ECM)が導入された。 並列ランダム補正手法は従来手法よりも大幅に高速であり,一様メッシュ上での点数評価に制限されない。 そのため、より多くのソリューションを生成できる。 kd-treesの適用も新たな貢献だ。 近接試験や高次元パレートフロンティア(PF)の保存に使用する。 アーカイブの生成,閲覧,ナビゲーション,クエリを行う上で,適切な意思決定支援ツール(DST)の開発が提案されている。

Various medical and surgical units operate in a typical hospital and to treat their patients these units compete for infrastructure like operating rooms (OR) and ward beds. How that competition is regulated affects the capacity and output of a hospital. This article considers the impact of treating different patient case mix (PCM) in a hospital. As each case mix has an economic consequence and a unique profile of hospital resource usage, this consideration is important. To better understand the case mix landscape and to identify those which are optimal from a capacity utilisation perspective, an improved multicriteria optimization (MCO) approach is proposed. As there are many patient types in a typical hospital, the task of generating an archive of non-dominated (i.e., Pareto optimal) case mix is computationally challenging. To generate a better archive, an improved parallelised epsilon constraint method (ECM) is introduced. Our parallel random corrective approach is significantly faster than prior methods and is not restricted to evaluating points on a structured uniform mesh. As such we can generate more solutions. The application of KD-Trees is another new contribution. We use them to perform proximity testing and to store the high dimensional Pareto frontier (PF). For generating, viewing, navigating, and querying an archive, the development of a suitable decision support tool (DST) is proposed and demonstrated.
翻訳日:2023-08-20 16:27:22 公開日:2023-07-31
# マルチクリテリア病院のケース・ミクス・プランニングにおけるユーティリティ機能の有用性

The Efficacy of Utility Functions for Multicriteria Hospital Case-Mix Planning ( http://arxiv.org/abs/2308.07321v1 )

ライセンス: Link先を確認
Robert L Burdett, Paul Corry, Prasad Yarlagadda, David Cook, Sean Birgan(参考訳) 本稿では,病院ケースミックスプランニング(CMP)の新たなアプローチを紹介する。 我々の多基準アプローチは実用関数(UF)を利用して、出力に関する独立した意思決定者の好みと視点を明確にする。 本稿の主な目的は、上記UFのスカラー化に基づく実用関数法(UFM)が適切な定量的手法であるかどうかをテストすることである。 一 異なる運営単位に病院の資源を分配すること。 ii) より優れたキャパシティアロケーションとケースミックスを提供する。 当社のアプローチは、異なる利害関係者間のトレードオフと病院の目的を評価できる方法を提供することの必要性が動機となっている。 私たちの知る限りでは、文献にはそのようなアプローチは検討されていない。 後述するように、このアイデアは現在のCMPの様々な技術的制限、弱点、欠陥に対処する。 以上の方法の有効性を, 大規模第3次病院のケーススタディで検証した。 現在UFは病院の管理者には使われておらず、実際の機能は利用できないため、14の合理的オプションがテストされている。 我々の探索分析はこれらのUFの適用に関する重要なガイドラインを提供してきた。 これらのufは,病院の計画立案者,管理者,経営幹部にとって,目標や願望を課す上で重要な出発点となることを示唆する。 結論として、当社のアプローチは、ユーザが扱いたいケースミックスを識別し、さまざまなレベルのアウトプットのさまざまな重要性をモデル化するのに役立つかもしれません。 各UFのパラメータの感度分析を通じて、望ましいケースミックスを見つけることとは別に、このアプローチは重要な洞察を与えることができる。

A new approach to perform hospital case-mix planning (CMP) is introduced in this article. Our multi-criteria approach utilises utility functions (UF) to articulate the preferences and standpoint of independent decision makers regarding outputs. The primary aim of this article is to test whether a utility functions method (UFM) based upon the scalarization of aforesaid UF is an appropriate quantitative technique to, i) distribute hospital resources to different operating units, and ii) provide a better capacity allocation and case mix. Our approach is motivated by the need to provide a method able to evaluate the trade-off between different stakeholders and objectives of hospitals. To the best of our knowledge, no such approach has been considered before in the literature. As we will later show, this idea addresses various technical limitations, weaknesses, and flaws in current CMP. The efficacy of the aforesaid approach is tested on a case study of a large tertiary hospital. Currently UF are not used by hospital managers, and real functions are unavailable, hence, 14 rational options are tested. Our exploratory analysis has provided important guidelines for the application of these UF. It indicates that these UF provide a valuable starting point for planners, managers, and executives of hospitals to impose their goals and aspirations. In conclusion, our approach may be better at identifying case mix that users want to treat and seems more capable of modelling the varying importance of different levels of output. Apart from finding desirable case mixes to consider, the approach can provide important insights via a sensitivity analysis of the parameters of each UF.
翻訳日:2023-08-20 16:27:01 公開日:2023-07-31
# DCTM:多モーダルエンゲージメント推定のための拡張畳み込み変圧器モデル

DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement Estimation in Conversation ( http://arxiv.org/abs/2308.01966v1 )

ライセンス: Link先を確認
Vu Ngoc Tu, Van Thong Huynh, Hyung-Jeong Yang, M. Zaigham Zaheer, Shah Nawaz, Karthik Nandakumar, Soo-Hyung Kim(参考訳) 会話の係り合いの推定は、会話の参加者の好意的な注意と関与の特定を含む回帰問題として提案される。 この課題は、会話の中の人間の相互作用のダイナミクスと行動パターンについての洞察を得るための重要な追求として生じる。 本研究では,MultiMEDIATE 2023コンペティションにおける人間のエンゲージメントをモデル化・推定するための拡張畳み込み変換器を提案する。 提案するシステムはベースラインモデルを上回っており,テストセットでは$$$%,検証セットでは$$$$%の改善が注目される。 さらに,異なるモーダリティ融合機構を用い,このようなデータに対して,自己結合融合を用いた単純な連結法が最適性能を得ることを示す。

Conversational engagement estimation is posed as a regression problem, entailing the identification of the favorable attention and involvement of the participants in the conversation. This task arises as a crucial pursuit to gain insights into human's interaction dynamics and behavior patterns within a conversation. In this research, we introduce a dilated convolutional Transformer for modeling and estimating human engagement in the MULTIMEDIATE 2023 competition. Our proposed system surpasses the baseline models, exhibiting a noteworthy $7$\% improvement on test set and $4$\% on validation set. Moreover, we employ different modality fusion mechanism and show that for this type of data, a simple concatenated method with self-attention fusion gains the best performance.
翻訳日:2023-08-14 02:08:21 公開日:2023-07-31
# 第四次産業革命の認識と社会への人工知能の影響

Perceptions of the Fourth Industrial Revolution and Artificial Intelligence Impact on Society ( http://arxiv.org/abs/2308.02030v1 )

ライセンス: Link先を確認
Daniel Agbaji, Brady Lund and Nishith Reddy Mannuru(参考訳) 第4次産業革命、特に人工知能(AI)は社会に大きな影響を与え、その影響と倫理的考察に対する懸念を提起した。 ChatGPTのようなテキスト生成AIツールの出現は、倫理、セキュリティ、プライバシー、著作権に関する懸念をさらに高めた。 本研究は,AIに対する異なる情報フロー分類における個人の知覚を検討することを目的とする。 結果は、AIの参加者が供給する定義と第4次産業革命の鍵となるテーマを明らかにし、人間の知能の複製、機械学習、自動化、デジタルテクノロジーの統合を強調した。 参加者は、仕事の置き換え、プライバシーの侵害、AIが提供する不正確な情報に対する懸念を表明した。 しかし、複雑な問題の解決や利便性の向上など、AIのメリットも認識した。 第四次産業革命を形作る政府の関与に関する見解は様々であり、厳格な規制を提唱する者や、支援と発展を支持する者もいた。 第4次産業革命で予想される変化は、自動化、潜在的な雇用への影響、社会的不接続の増大、技術への依存などである。 これらの認識を理解することは、進化するデジタルランドスケープにおけるAIに関連する課題と機会を効果的に管理するために重要である。

The Fourth Industrial Revolution, particularly Artificial Intelligence (AI), has had a profound impact on society, raising concerns about its implications and ethical considerations. The emergence of text generative AI tools like ChatGPT has further intensified concerns regarding ethics, security, privacy, and copyright. This study aims to examine the perceptions of individuals in different information flow categorizations toward AI. The results reveal key themes in participant-supplied definitions of AI and the fourth industrial revolution, emphasizing the replication of human intelligence, machine learning, automation, and the integration of digital technologies. Participants expressed concerns about job replacement, privacy invasion, and inaccurate information provided by AI. However, they also recognized the benefits of AI, such as solving complex problems and increasing convenience. Views on government involvement in shaping the fourth industrial revolution varied, with some advocating for strict regulations and others favoring support and development. The anticipated changes brought by the fourth industrial revolution include automation, potential job impacts, increased social disconnect, and reliance on technology. Understanding these perceptions is crucial for effectively managing the challenges and opportunities associated with AI in the evolving digital landscape.
翻訳日:2023-08-14 01:56:59 公開日:2023-07-31
# 無給労働の暗黒化--AIとその影響

The Glamorisation of Unpaid Labour: AI and its Influencers ( http://arxiv.org/abs/2308.02399v1 )

ライセンス: Link先を確認
Nana Mgbechikwere Nwachukwu, Jennafer Shae Roberts, Laura N Montoya(参考訳) 人工知能(AI)の真のポテンシャルを持続可能性と社会的改善に活用するためには、労働者が継続的に搾取される企業利益を優先し、人間の行動を模倣するレースの目標から離れる必要がある。 AIを製造する企業が使用するデジタルバリューネットワーク(DVN)から生じる無給労働と社会的損害を規制する必要がある。 非倫理的なデータ収集とデータラベル付けのプラクティスは、インフルエンサーマーケティングなど、この短い論文でレビューされたケーススタディで示されるように、深刻な結果をもたらす。 本稿では、倫理的AIに影響を及ぼす可能性のある、労働者データやユーザーデータ、エクスプロイトのラベル付けに関する重要な無視された研究領域に対処する。

To harness the true potential of Artificial Intelligence (AI) for sustainability and societal betterment, we need to move away from the goals of racing to mimic human behaviour and prioritising corporate interests, where workers are continuously exploited. The unpaid labour and societal harms which are generated from Digital Value Networks (DVNs) used by companies producing AI needs to be regulated. Unethical data collection and data labelling practices have serious consequences, as evidenced by the case studies reviewed in this short paper, such as with influencer marketing. This paper addresses important neglected areas of study in worker and user data and labeling exploitation practices, where ethical AI could be impactful.
翻訳日:2023-08-14 01:48:40 公開日:2023-07-31
# フォトプレチモグラム信号の高次元表現による高血圧の検出

Hypertension Detection From High-Dimensional Representation of Photoplethysmogram Signals ( http://arxiv.org/abs/2308.02425v1 )

ライセンス: Link先を確認
Navid Hasanzadeh, Shahrokh Valaee, Hojjat Salehinejad(参考訳) 高血圧は一般的に「サイレントキラー」と呼ばれ、目に見える症状を伴わずに重篤な健康上の合併症を引き起こす可能性がある。 高血圧の早期発見は重要な健康問題の予防に不可欠である。 血圧とphotoplethysmogram(ppg)のような特定の生体信号との関係を示唆する研究もあるが、提案された血圧推定法の信頼性の高い一般化はまだ保証されていない。 この確実性の欠如は、そのような関係の存在を疑う研究や、心拍数や血圧に制限された弱さを考える研究に繋がった。 本稿では, PPG信号を用いた高血圧検出のために, ランダム畳み込みカーネルに基づく高次元表現手法を提案する。 その結果、この関係は心拍数と血圧を超えて広がり、一般化による高血圧検出の可能性を示した。 さらに,コンボリューション・カーネルをエンドツーエンドの時系列特徴抽出器として用いた変換は,先行研究や最先端ディープラーニングモデルで提案されている手法を上回っている。

Hypertension is commonly referred to as the "silent killer", since it can lead to severe health complications without any visible symptoms. Early detection of hypertension is crucial in preventing significant health issues. Although some studies suggest a relationship between blood pressure and certain vital signals, such as Photoplethysmogram (PPG), reliable generalization of the proposed blood pressure estimation methods is not yet guaranteed. This lack of certainty has resulted in some studies doubting the existence of such relationships, or considering them weak and limited to heart rate and blood pressure. In this paper, a high-dimensional representation technique based on random convolution kernels is proposed for hypertension detection using PPG signals. The results show that this relationship extends beyond heart rate and blood pressure, demonstrating the feasibility of hypertension detection with generalization. Additionally, the utilized transform using convolution kernels, as an end-to-end time-series feature extractor, outperforms the methods proposed in the previous studies and state-of-the-art deep learning models.
翻訳日:2023-08-14 01:39:35 公開日:2023-07-31
# 多モードデータに基づくジェスチャー分割認識のための階層型半教師付き学習フレームワーク

Hierarchical Semi-Supervised Learning Framework for Surgical Gesture Segmentation and Recognition Based on Multi-Modality Data ( http://arxiv.org/abs/2308.02529v1 )

ライセンス: Link先を確認
Zhili Yuan, Jialin Lin, Dandan Zhang(参考訳) 外科手術の軌跡を異なる意味あるジェスチャーに分割認識することは,ロボット支援手術における外科的ワークフロー解析における重要な予備的ステップである。 このステップは、自律ロボット手術のデモンストレーションから学ぶことの促進、手術スキルの評価等に必要である。 本研究では,多モードデータ(キネマティクスと視覚データ)を用いた外科的ジェスチャーセグメンテーションのための階層的半教師付き学習フレームワークを開発する。 より具体的には、外科的タスクは、まず、距離特性に基づくプロファイルと分散特性に基づくプロファイルに基づいて、キネマティックスデータを用いて構築される。 その後、トレーニング済みの「ResNet-18」バックボーンを備えたTransformerベースのネットワークを使用して、手術ビデオから視覚的特徴を抽出する。 両方のモジュラリティから得られるポテンシャル分節点を組み合わせることで、最終的な分節点を決定することができる。 さらに、教師付き学習に基づいてジェスチャー認識を行うことができる。 提案されたアプローチは、Suturing、Needle Passing、Knot Tyingタスクを含む、公開されているJIGSAWSデータベースのデータを使用して評価されている。 その結果,セグメンテーションの平均f1スコアは0.623点,認識精度は0.856点であった。

Segmenting and recognizing surgical operation trajectories into distinct, meaningful gestures is a critical preliminary step in surgical workflow analysis for robot-assisted surgery. This step is necessary for facilitating learning from demonstrations for autonomous robotic surgery, evaluating surgical skills, and so on. In this work, we develop a hierarchical semi-supervised learning framework for surgical gesture segmentation using multi-modality data (i.e. kinematics and vision data). More specifically, surgical tasks are initially segmented based on distance characteristics-based profiles and variance characteristics-based profiles constructed using kinematics data. Subsequently, a Transformer-based network with a pre-trained `ResNet-18' backbone is used to extract visual features from the surgical operation videos. By combining the potential segmentation points obtained from both modalities, we can determine the final segmentation points. Furthermore, gesture recognition can be implemented based on supervised learning. The proposed approach has been evaluated using data from the publicly available JIGSAWS database, including Suturing, Needle Passing, and Knot Tying tasks. The results reveal an average F1 score of 0.623 for segmentation and an accuracy of 0.856 for recognition.
翻訳日:2023-08-14 01:08:49 公開日:2023-07-31
# 肺癌における深層学習の総合的考察

A comprehensive review of deep learning in lung cancer ( http://arxiv.org/abs/2308.02528v1 )

ライセンス: Link先を確認
Farzane Tajidini(参考訳) がん分類アプローチに関する歴史的展望を読者に提供するために,まず,がん診断のプロセスや臨床医が採用する標準分類法など,がん診断領域の基礎について論じる。 現在のがん診断の方法は、新しくよりインテリジェントなアプローチを求めるため、効果がないと考えられている。

To provide the reader with a historical perspective on cancer classification approaches, we first discuss the fundamentals of the area of cancer diagnosis in this article, including the processes of cancer diagnosis and the standard classification methods employed by clinicians. Current methods for cancer diagnosis are deemed ineffective, calling for new and more intelligent approaches.
翻訳日:2023-08-14 01:08:30 公開日:2023-07-31
# 多目的進化成分がアルゴリズム行動に及ぼす影響

Multiobjective Evolutionary Component Effect on Algorithm behavior ( http://arxiv.org/abs/2308.02527v1 )

ライセンス: Link先を確認
Yuri Lavinas, Marcelo Ladeira, Gabriela Ochoa, Claus Aranha(参考訳) 多目的進化アルゴリズム(MOEA)の性能は問題によって異なり、新しいアルゴリズムを開発したり、既存のアルゴリズムを新しい問題に適用することは困難である。 新しい多目的アルゴリズムの開発と適用を単純化するために、コンポーネントからの自動設計への関心が高まっている。 これらの自動設計メタヒューリスティックは、人間が開発したものよりも優れている。 しかし、パフォーマンス改善につながる最も影響力のあるコンポーネントは何かはまだ不明である。 本研究は、自動設計アルゴリズムの最終的な構成の影響を調べるための新しい手法を規定する。 本手法を3つのグループの制約問題((1)実世界の解析問題,(2)人工的問題,(3)実世界のシミュレート問題)に対して,反復レース (irace) 構成パッケージによって設計された分解(MOEA/D)に基づくチューニング多目的進化アルゴリズムに適用する。 次に, 探索軌道ネットワーク(stn), 集団の多様性, 時間的超体積値などの観点から, アルゴリズム成分の影響を比較した。 目的空間の振る舞いをみると、MOEAは探索の半分前に収束し、解析的人工問題と分析的実世界の問題において一般的に良いHV値を得た。 シミュレーションされた問題に対して、HV値は実行の最後にはまだ改善されている。 決定空間の挙動に関しては、解析的人工問題におけるSTNの軌跡の多様さが見られる。 これらの軌道はより類似しており、他の問題における最適解にしばしば到達する。

The performance of multiobjective evolutionary algorithms (MOEAs) varies across problems, making it hard to develop new algorithms or apply existing ones to new problems. To simplify the development and application of new multiobjective algorithms, there has been an increasing interest in their automatic design from their components. These automatically designed metaheuristics can outperform their human-developed counterparts. However, it is still unknown what are the most influential components that lead to performance improvements. This study specifies a new methodology to investigate the effects of the final configuration of an automatically designed algorithm. We apply this methodology to a tuned Multiobjective Evolutionary Algorithm based on Decomposition (MOEA/D) designed by the iterated racing (irace) configuration package on constrained problems of 3 groups: (1) analytical real-world problems, (2) analytical artificial problems and (3) simulated real-world. We then compare the impact of the algorithm components in terms of their Search Trajectory Networks (STNs), the diversity of the population, and the anytime hypervolume values. Looking at the objective space behavior, the MOEAs studied converged before half of the search to generally good HV values in the analytical artificial problems and the analytical real-world problems. For the simulated problems, the HV values are still improving at the end of the run. In terms of decision space behavior, we see a diverse set of the trajectories of the STNs in the analytical artificial problems. These trajectories are more similar and frequently reach optimal solutions in the other problems.
翻訳日:2023-08-14 01:08:23 公開日:2023-07-31
# 自己教師付き表現学習手法は分布シフトや腐敗に耐えられるか?

Can Self-Supervised Representation Learning Methods Withstand Distribution Shifts and Corruptions? ( http://arxiv.org/abs/2308.02525v1 )

ライセンス: Link先を確認
Prakash Chandra Chhipa, Johan Rodahl Holmgren, Kanjar De, Rajkumar Saini and Marcus Liwicki(参考訳) コンピュータビジョンにおける自己教師付き学習は、データ内の固有の構造と関係を利用して、明示的な人間のアノテーションなしで意味のある表現を学習することを目的としており、視覚シーンの全体的理解を可能にする。 視覚機械学習におけるロバスト性は、信頼性と一貫したパフォーマンスを確保し、一般化、適応性、ノイズ、変動、敵攻撃に対する耐性を高める。 自己教師付きパラダイム、すなわちコントラスト学習、知識蒸留、相互情報最大化、クラスタリングは、不変学習表現の進歩を示していると考えられている。 本研究は,コンピュータビジョンにおける分散シフトと画像破壊に着目し,自己教師付き学習アプローチの学習表現のロバスト性について検討する。 分散シフトと画像劣化に対する自己教師型学習手法の堅牢性について,詳細な実験を行った。 実証分析は,自己監督パラダイムにおける学習表現のパフォーマンスと,分散シフトや腐敗の深刻さとの関係を明らかにした。 特に、より高いレベルのシフトと腐敗は、学習された表現の堅牢性を著しく低下させる。 これらの知見は, 自己指導型学習手法の性能とレジリエンスに及ぼす分布シフトと画像劣化の影響を強調し, その悪影響を軽減する効果的な戦略の必要性を強調した。 この研究は、自己指導型表現学習の分野における将来の研究を強く主張し、実用性を確保するために安全性と堅牢性の重要な側面を優先するものである。 ソースコードと結果はGitHubで公開されている。

Self-supervised learning in computer vision aims to leverage the inherent structure and relationships within data to learn meaningful representations without explicit human annotation, enabling a holistic understanding of visual scenes. Robustness in vision machine learning ensures reliable and consistent performance, enhancing generalization, adaptability, and resistance to noise, variations, and adversarial attacks. Self-supervised paradigms, namely contrastive learning, knowledge distillation, mutual information maximization, and clustering, have been considered to have shown advances in invariant learning representations. This work investigates the robustness of learned representations of self-supervised learning approaches focusing on distribution shifts and image corruptions in computer vision. Detailed experiments have been conducted to study the robustness of self-supervised learning methods on distribution shifts and image corruptions. The empirical analysis demonstrates a clear relationship between the performance of learned representations within self-supervised paradigms and the severity of distribution shifts and corruptions. Notably, higher levels of shifts and corruptions are found to significantly diminish the robustness of the learned representations. These findings highlight the critical impact of distribution shifts and image corruptions on the performance and resilience of self-supervised learning methods, emphasizing the need for effective strategies to mitigate their adverse effects. The study strongly advocates for future research in the field of self-supervised representation learning to prioritize the key aspects of safety and robustness in order to ensure practical applicability. The source code and results are available on GitHub.
翻訳日:2023-08-14 01:07:58 公開日:2023-07-31
# タイのスマート農業を支援するチャットボットアプリケーション

Chatbot Application to Support Smart Agriculture in Thailand ( http://arxiv.org/abs/2308.02524v1 )

ライセンス: Link先を確認
Paweena Suebsombut (DISP, CMU), Pradorn Sureephong (CMU), Aicha Sekhari (DISP), Suepphong Chernbumroong (CMU), Abdelaziz Bouras(参考訳) チャットボット(chatbot)は、テキストや音声の会話に自動的に素早くリアルタイムで返信できるソフトウェアである。 農業分野では、既存のスマート農業システムは、農夫による意思決定を支援するために、作物の栽培知識を排除したセンサーとモノのインターネット(IoT)技術からのデータを使用する。 これを強化するために、chatbotアプリケーションは、農家が作物栽培の知識を提供するのに役立つ。 そこで我々は,農家に作物栽培勧告を提供する情報・知識表現としてLINEチャットボットアプリケーションを提案する。 スマート農業とレコメンデーションシステムで動作する。 提案するLINEチャットボットアプリケーションは,5つの主要な機能(スタート/ストップメニュー,メインページ,ドリップアイリゲーションページ,ミスト灌水ページ,モニタページ)から構成される。 農家は意思決定を支援するためにデータモニタリングの情報を受け取る。 さらに、LINEチャットボットを介して灌水システムを制御することもできる。 さらに、農家はチャットボックスを通じて作物環境に関する質問をすることができる。 提案したチャットボットを実装した後、農家はアプリケーションに非常に満足し、96%の満足点を得た。 しかし、チャットボックス経由で質問するという意味では、このline chatbotアプリケーションはルールベースのボットまたはスクリプトボットである。 農家は所定のキーワードを入力しなければならないが、そうでなければチャットボットから応答が得られない。 将来的には、lineチャットボットがインテリジェントなボットになるように、要求機能を強化します。

A chatbot is a software developed to help reply to text or voice conversations automatically and quickly in real time. In the agriculture sector, the existing smart agriculture systems just use data from sensing and internet of things (IoT) technologies that exclude crop cultivation knowledge to support decision-making by farmers. To enhance this, the chatbot application can be an assistant to farmers to provide crop cultivation knowledge. Consequently, we propose the LINE chatbot application as an information and knowledge representation providing crop cultivation recommendations to farmers. It works with smart agriculture and recommendation systems. Our proposed LINE chatbot application consists of five main functions (start/stop menu, main page, drip irri gation page, mist irrigation page, and monitor page). Farmers will receive information for data monitoring to support their decision-making. Moreover, they can control the irrigation system via the LINE chatbot. Furthermore, farmers can ask questions relevant to the crop environment via a chat box. After implementing our proposed chatbot, farmers are very satisfied with the application, scoring a 96% satisfaction score. However, in terms of asking questions via chat box, this LINE chatbot application is a rule-based bot or script bot. Farmers have to type in the correct keywords as prescribed, otherwise they won't get a response from the chatbots. In the future, we will enhance the asking function of our LINE chatbot to be an intelligent bot.
翻訳日:2023-08-14 01:07:34 公開日:2023-07-31
# NextG Communicationsにおける産業5.0のメタバース:可能性と今後の課題

Metaverse for Industry 5.0 in NextG Communications: Potential Applications and Future Challenges ( http://arxiv.org/abs/2308.02677v1 )

ライセンス: Link先を確認
B. Prabadevi, N. Deepa, Nancy Victor, Thippa Reddy Gadekallu, Praveen Kumar Reddy Maddikunta, Gokul Yenduri, Wei Wang, Quoc Viet Pham, Thien Huynh-The, and Madhusanka Liyanage(参考訳) ほぼすべての日々の活動において、新しい技術や自動化への取り組みが出現し、近年のメタバースライフに関する議論はより期待されている。 さらに、機械と人間が協力して生産性を最大化し、人間の知性やその他の資源を効果的に活用する、第5次産業革命の時代です。 したがって、メタバースにおける産業5.0は、より没入的な経験とコミュニケーションの強化のために、膨大な技術的統合を持ち、これらの技術融合は現在の環境に適したものであり、従来の仮想技術の認識とは全く異なる。 本研究は, 産業用5.0(いわゆる産業用5.0)におけるメタバースの適用例を概観する。 具体的には、まず、metaverse and industry 5.0の予備版を提供し、3dモデリング、3dモデリング、人工知能、エッジコンピューティング、デジタルツイン、ブロックチェーン、および6g通信ネットワークを含む産業メタバースの主要な実現技術について論じる。 この研究はその後、社会5.0、農業、サプライチェーン管理、医療、教育、輸送といった産業5.0の垂直領域における多様なメタバース応用を探求する。 産業メタバースの概念化と実装を紹介する多くの研究プロジェクトが発表された。 さらに, 産業変成, 実現可能な解決策, 今後の研究に向けた様々な課題が提示されている。

With the advent of new technologies and endeavors for automation in almost all day-to-day activities, the recent discussions on the metaverse life have a greater expectation. Furthermore, we are in the era of the fifth industrial revolution, where machines and humans collaborate to maximize productivity with the effective utilization of human intelligence and other resources. Hence, Industry 5.0 in the metaverse may have tremendous technological integration for a more immersive experience and enhanced communication.These technological amalgamations are suitable for the present environment and entirely different from the previous perception of virtual technologies. This work presents a comprehensive review of the applications of the metaverse in Industry 5.0 (so-called industrial metaverse). In particular, we first provide a preliminary to the metaverse and industry 5.0 and discuss key enabling technologies of the industrial metaverse, including virtual and augmented reality, 3D modeling, artificial intelligence, edge computing, digital twin, blockchain, and 6G communication networks. This work then explores diverse metaverse applications in Industry 5.0 vertical domains like Society 5.0, agriculture, supply chain management, healthcare, education, and transportation. A number of research projects are presented to showcase the conceptualization and implementation of the industrial metaverse. Furthermore, various challenges in realizing the industrial metaverse, feasible solutions, and future directions for further research have been presented.
翻訳日:2023-08-14 00:48:48 公開日:2023-07-31
# ジェネレーティブAIから信頼できるAIへ - LLMがCycから学んだこと

Getting from Generative AI to Trustworthy AI: What LLMs might learn from Cyc ( http://arxiv.org/abs/2308.04445v1 )

ライセンス: Link先を確認
Doug Lenat, Gary Marcus(参考訳) ジェネレーティブAI(Generative AI)は、AIの最も一般的なアプローチであり、必ずしも正しいとは限らない出力を生成するために訓練された大規模な言語モデル(LLM)で構成されている。 彼らの能力は不適切であることが多いが、推論の面に欠けており、LSMは完全に信頼できないものになっている。 さらに、それらの結果は予測不能であり、解釈不能である傾向がある。 我々は将来のAIのために16のデシラタを配置し、現在のアプローチに関連する多くの制限に理論的に対処できるAIの代替アプローチについて議論した。 ステップバイステップの推論の全行が常に利用可能であり、各ステップで使用される知識の出所が文書化され、監査されるので、この方法で生み出された長い議論でさえも信頼に値するし、解釈可能である。 もし論理言語が、私たちが英語で言えることの意味を完全に表現できるほど表現力があるなら、推論エンジンはあまりに遅く動作します。 だからこそ、シンボリックAIシステムは、知識グラフのような高速だが表現力の低いロジックに固執する。 我々は、ひとつのAIシステムであるCycが、そのトレードオフを克服し、高次論理をリアルタイムで推論できる方法を開発した方法を説明している。 私たちは、信頼できる汎用AIは、アプローチ、LLMアプローチ、そしてより正式なアプローチをハイブリダイズし、その夢を実現するための道を開く必要があることを提案します。

Generative AI, the most popular current approach to AI, consists of large language models (LLMs) that are trained to produce outputs that are plausible, but not necessarily correct. Although their abilities are often uncanny, they are lacking in aspects of reasoning, leading LLMs to be less than completely trustworthy. Furthermore, their results tend to be both unpredictable and uninterpretable. We lay out 16 desiderata for future AI, and discuss an alternative approach to AI which could theoretically address many of the limitations associated with current approaches: AI educated with curated pieces of explicit knowledge and rules of thumb, enabling an inference engine to automatically deduce the logical entailments of all that knowledge. Even long arguments produced this way can be both trustworthy and interpretable, since the full step-by-step line of reasoning is always available, and for each step the provenance of the knowledge used can be documented and audited. There is however a catch: if the logical language is expressive enough to fully represent the meaning of anything we can say in English, then the inference engine runs much too slowly. That's why symbolic AI systems typically settle for some fast but much less expressive logic, such as knowledge graphs. We describe how one AI system, Cyc, has developed ways to overcome that tradeoff and is able to reason in higher order logic in real time. We suggest that any trustworthy general AI will need to hybridize the approaches, the LLM approach and more formal approach, and lay out a path to realizing that dream.
翻訳日:2023-08-14 00:30:15 公開日:2023-07-31
# 新型コロナウイルス感染拡大に伴うドイツのつぶやきの政策設定の変化

Changes in Policy Preferences in German Tweets during the COVID Pandemic ( http://arxiv.org/abs/2308.04444v1 )

ライセンス: Link先を確認
Felix Biessmann(参考訳) オンラインソーシャルメディアは、政治的意見を交換するための重要なフォーラムになっている。 新型コロナウイルス対策への対応として、市民はこれらのプラットフォームに直接政策の嗜好を表明した。 膨大な量のコンテンツは、スケーラブルな政治的選好の自動抽出を必要とします。しかし、現在の機械学習(ML)技術では、データセットが不足しているため、詳細な政治的選好抽出は困難です。 ここでは、きめ細かな政治選好アノテーションを備えた新しいツイートのデータセットを示す。 このデータに基づいてトレーニングされたテキスト分類モデルは、2019年から2022年までのドイツのtwitterコーパスでポリシーの好みを抽出するために使用される。 結果は、新型コロナウイルスのパンデミックへの対応により、政治的意見の表現が増加したことを示している。 政策選好の確立された分類法を用いて、きめ細かい政治観を分析し、異なる政治的カテゴリーの変化を強調する。 これらの分析から,政策選好表現の増大は,親ウェルファーレ,親教育,親政府的行政効率のカテゴリーに支配的であることが示唆された。 この研究で使用されるすべてのトレーニングデータとコードは公開されており、他の研究者が自動ポリシー優先抽出法をさらに改善するよう促している。 当社の調査結果は、オンラインソーシャルメディアにおける政治的発言の理解を深め、COVID-19対策が政治的嗜好にどのように影響するかのより良い評価に寄与することを願っている。

Online social media have become an important forum for exchanging political opinions. In response to COVID measures citizens expressed their policy preferences directly on these platforms. Quantifying political preferences in online social media remains challenging: The vast amount of content requires scalable automated extraction of political preferences -- however fine grained political preference extraction is difficult with current machine learning (ML) technology, due to the lack of data sets. Here we present a novel data set of tweets with fine grained political preference annotations. A text classification model trained on this data is used to extract policy preferences in a German Twitter corpus ranging from 2019 to 2022. Our results indicate that in response to the COVID pandemic, expression of political opinions increased. Using a well established taxonomy of policy preferences we analyse fine grained political views and highlight changes in distinct political categories. These analyses suggest that the increase in policy preference expression is dominated by the categories pro-welfare, pro-education and pro-governmental administration efficiency. All training data and code used in this study are made publicly available to encourage other researchers to further improve automated policy preference extraction methods. We hope that our findings contribute to a better understanding of political statements in online social media and to a better assessment of how COVID measures impact political preferences.
翻訳日:2023-08-14 00:29:49 公開日:2023-07-31
# 白内障手術ビデオにおける機器分類のためのクロスデータセット適応

Cross-Dataset Adaptation for Instrument Classification in Cataract Surgery Videos ( http://arxiv.org/abs/2308.04035v1 )

ライセンス: Link先を確認
Jay N. Paranjape, Shameema Sikder, Vishal M. Patel, S. Swaroop Vedula(参考訳) 外科的ツール存在検出は手術の術中および術後分析において重要な部分である。 しかし、特定のデータセットでこのタスクをうまく実行する最先端モデルでは、他のデータセットでテストすると、パフォーマンスが低下する。 これは、異なるツール、センサー、データ解像度などを使用することによるデータセット間の大きなドメインシフトによって発生する。 本稿では, 白内障手術におけるこの領域シフトに注目し, 他の領域のラベルを必要とせず, 分布シフト問題に対処する新しいend-to-end unsupervised domain adapt (uda) 法を提案する。 さらに,バロー・フィーチャー・アライメント・ロス(BFAL)と呼ばれる新たな損失を導入し,冗長性を低減しつつ,高いバッチサイズの必要性を低減し,データセット間のパフォーマンスを向上させる。 BFALの使用は白内障手術データにおける領域シフトの課題に対処するための新しいアプローチである。 2つの白内障手術データセットに対して大規模な実験を行い、提案手法は最先端のUDA法を6%上回る性能を示した。 コードはhttps://github.com/JayParanjape/Barlow-Adaptorにある。

Surgical tool presence detection is an important part of the intra-operative and post-operative analysis of a surgery. State-of-the-art models, which perform this task well on a particular dataset, however, perform poorly when tested on another dataset. This occurs due to a significant domain shift between the datasets resulting from the use of different tools, sensors, data resolution etc. In this paper, we highlight this domain shift in the commonly performed cataract surgery and propose a novel end-to-end Unsupervised Domain Adaptation (UDA) method called the Barlow Adaptor that addresses the problem of distribution shift without requiring any labels from another domain. In addition, we introduce a novel loss called the Barlow Feature Alignment Loss (BFAL) which aligns features across different domains while reducing redundancy and the need for higher batch sizes, thus improving cross-dataset performance. The use of BFAL is a novel approach to address the challenge of domain shift in cataract surgery data. Extensive experiments are conducted on two cataract surgery datasets and it is shown that the proposed method outperforms the state-of-the-art UDA methods by 6%. The code can be found at https://github.com/JayParanjape/Barlow-Adaptor
翻訳日:2023-08-14 00:28:13 公開日:2023-07-31
# NLLG Quarterly arXiv Report 06/23: 現在最も影響力のあるAIペーパーは何ですか?

NLLG Quarterly arXiv Report 06/23: What are the most influential current AI Papers? ( http://arxiv.org/abs/2308.04889v1 )

ライセンス: Link先を確認
Steffen Eger and Christoph Leiter and Jonas Belouadi and Ran Zhang and Aida Kostikova and Daniil Larionov and Yanran Chen and Vivian Fresen(参考訳) 特に自然言語処理(nlp)と機械学習(ml)のサブフィールドにおいて、生成型人工知能(ai)の分野における情報の急速な成長は、研究者や実践者が最新の開発に追随し続けるための大きな課題となっている。 情報過負荷の問題に対処するため,ビレフェルト大学の自然言語学習グループによる本報告では,NLPとMLに特に重点を置いて,arXivに関する最も人気のある論文の特定に重点を置いている。 目的は、最も関連性があり広く議論されている研究のクイックガイドを提供することであり、新参者や確立された研究者が現在の傾向を振り返り続けるのを助けることである。 特に、2023年前半の正規化引用数に基づいて、最も人気のある40の論文のリストをまとめる。 しかし,2023年前半には,大規模言語モデル(LLM),特にChatGPTに関する論文が優勢であり,後者は近年の流行の兆候を示している。 さらに、nlp関連論文は、データにml関連論文が2倍あるにもかかわらず、最も影響力のある論文(上位論文の約60%)である。 LLMの効率性、評価手法、倫理的考察、具体化剤、LLMによる問題解決などである。 さらに,トップ40リスト外(llm関連問題へのトップペーパーの注力と共著者数の増加に注目した)と比較して上位論文の特性を調べ,データセット内の引用分布を解析した。

The rapid growth of information in the field of Generative Artificial Intelligence (AI), particularly in the subfields of Natural Language Processing (NLP) and Machine Learning (ML), presents a significant challenge for researchers and practitioners to keep pace with the latest developments. To address the problem of information overload, this report by the Natural Language Learning Group at Bielefeld University focuses on identifying the most popular papers on arXiv, with a specific emphasis on NLP and ML. The objective is to offer a quick guide to the most relevant and widely discussed research, aiding both newcomers and established researchers in staying abreast of current trends. In particular, we compile a list of the 40 most popular papers based on normalized citation counts from the first half of 2023. We observe the dominance of papers related to Large Language Models (LLMs) and specifically ChatGPT during the first half of 2023, with the latter showing signs of declining popularity more recently, however. Further, NLP related papers are the most influential (around 60\% of top papers) even though there are twice as many ML related papers in our data. Core issues investigated in the most heavily cited papers are: LLM efficiency, evaluation techniques, ethical considerations, embodied agents, and problem-solving with LLMs. Additionally, we examine the characteristics of top papers in comparison to others outside the top-40 list (noticing the top paper's focus on LLM related issues and higher number of co-authors) and analyze the citation distributions in our dataset, among others.
翻訳日:2023-08-14 00:21:35 公開日:2023-07-31
# 機械学習を用いた疾患診断の最近の進歩:数十年のシステム調査,比較,課題

Recent advancement in Disease Diagnostic using machine learning: Systematic survey of decades, comparisons, and challenges ( http://arxiv.org/abs/2308.01319v1 )

ライセンス: Link先を確認
Farzaneh Tajidini, Mohammad-Javad Kheiri(参考訳) 医療画像研究の活発な分野であるコンピュータ支援診断(CAD)は急速に拡大している。 医療診断システムのエラーは、深刻な誤解を招く可能性があるため、近年、コンピュータ支援診断の応用を改善するために大きな努力がなされている。 コンピュータ診断における機械学習の利用は重要である。 単純な方程式は臓器などの項目の誤った表示をもたらす可能性がある。 したがって、例から学ぶことはパターン認識の重要な要素である。 バイオメディカル領域におけるパターン認識と機械学習は、疾患の検出と診断の精度を高めることを約束する。 また、意思決定プロセスの客観性もサポートする。 機械学習は、高次元およびマルチモーダルなバイオメディカルデータを解析するエレガントで自律的なアルゴリズムを作成するための実用的な方法を提供する。 本稿では,肝炎,糖尿病,肝疾患,デング熱,心臓病などの疾患を検出するための機械学習アルゴリズムについて検討する。 これは、学習条件とそれに続く意思決定プロセスで使用される機械学習技術とアルゴリズムの収集に注意を向けている。

Computer-aided diagnosis (CAD), a vibrant medical imaging research field, is expanding quickly. Because errors in medical diagnostic systems might lead to seriously misleading medical treatments, major efforts have been made in recent years to improve computer-aided diagnostics applications. The use of machine learning in computer-aided diagnosis is crucial. A simple equation may result in a false indication of items like organs. Therefore, learning from examples is a vital component of pattern recognition. Pattern recognition and machine learning in the biomedical area promise to increase the precision of disease detection and diagnosis. They also support the decision-making process's objectivity. Machine learning provides a practical method for creating elegant and autonomous algorithms to analyze high-dimensional and multimodal bio-medical data. This review article examines machine-learning algorithms for detecting diseases, including hepatitis, diabetes, liver disease, dengue fever, and heart disease. It draws attention to the collection of machine learning techniques and algorithms employed in studying conditions and the ensuing decision-making process.
翻訳日:2023-08-04 16:28:05 公開日:2023-07-31
# 臨床関連性向上のためのランドマーク検出問題としてのフラーミング画像登録

Framing image registration as a landmark detection problem for better representation of clinical relevance ( http://arxiv.org/abs/2308.01318v1 )

ライセンス: Link先を確認
Diana Waldmannstetter, Benedikt Wiestler, Julian Schwarting, Ivan Ezhov, Marie Metz, Spyridon Bakas, Bhakti Baheti, Satrajit Chakrabarty, Jan S. Kirschke, Rolf A. Heckemann, Marie Piraud, Florian Kofler, Bjoern H. Menze(参考訳) 近年,サブレゾリューション追尾誤差差に基づいて登録手法が評価されている。 この評価プロセスと臨床的関連性を両立させるため,ランドマーク検出問題として画像登録の再構築を提案する。 理想的には、ランドマーク固有の検出しきい値がレート間解析から導かれる。 このコストのかかる処理を近似するために,サブサンプル間レータ解析の誤差分布に基づいてヒット率曲線を計算することを提案する。 したがって、しきい値は式:中央値 + delta * 中央値の絶対偏差を用いた誤差分布から導出することを提案する。 本手法は、予め区別できない登録アルゴリズムの分化を約束し、さらに、アルゴリズム開発における臨床的意義を評価することができる。

Nowadays, registration methods are typically evaluated based on sub-resolution tracking error differences. In an effort to reinfuse this evaluation process with clinical relevance, we propose to reframe image registration as a landmark detection problem. Ideally, landmark-specific detection thresholds are derived from an inter-rater analysis. To approximate this costly process, we propose to compute hit rate curves based on the distribution of errors of a sub-sample inter-rater analysis. Therefore, we suggest deriving thresholds from the error distribution using the formula: median + delta * median absolute deviation. The method promises differentiation of previously indistinguishable registration algorithms and further enables assessing the clinical significance in algorithm development.
翻訳日:2023-08-04 16:27:49 公開日:2023-07-31
# 言語で世界をモデル化する学習

Learning to Model the World with Language ( http://arxiv.org/abs/2308.01399v1 )

ライセンス: Link先を確認
Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan(参考訳) 世界の人間と対話するためには、エージェントは人々が使用する様々な種類の言語を理解し、それらを視覚世界と関連づけ、それらに基づいて行動する必要がある。 現在のエージェントは、タスク報酬から単純な言語命令を実行することを学ぶ一方で、一般的な知識を伝達し、世界の状況を記述し、対話的なフィードバックを提供する多様な言語を活用するエージェントの構築を目指している。 私たちの重要なアイデアは、エージェントが未来を予測するのに、言語は役立ちます – 観察されるもの、世界がどのように振る舞うか、どの状況に報われるか。 この視点は、強力な自己監督学習目標として、将来の予測と言語理解を統合する。 我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、dynalangは、将来の言語、ビデオ、報酬を予測するために過去の言語を使用して、リッチな言語理解を取得する。 環境におけるオンラインインタラクションから学ぶことに加えて、Dynalangはテキスト、ビデオ、あるいはアクションや報酬なしでデータセット上で事前トレーニングすることができる。 グリッドの世界における言語ヒントの使用から、家庭のフォトリアリスティックスキャンのナビゲートに至るまで、Dynalangはさまざまなタイプの言語を使用して、環境記述やゲームルール、命令などのタスクパフォーマンスを改善する。

To interact with humans in the world, agents need to understand the diverse types of language that people use, relate them to the visual world, and act based on them. While current agents learn to execute simple language instructions from task rewards, we aim to build agents that leverage diverse language that conveys general knowledge, describes the state of the world, provides interactive feedback, and more. Our key idea is that language helps agents predict the future: what will be observed, how the world will behave, and which situations will be rewarded. This perspective unifies language understanding with future prediction as a powerful self-supervised learning objective. We present Dynalang, an agent that learns a multimodal world model that predicts future text and image representations and learns to act from imagined model rollouts. Unlike traditional agents that use language only to predict actions, Dynalang acquires rich language understanding by using past language also to predict future language, video, and rewards. In addition to learning from online interaction in an environment, Dynalang can be pretrained on datasets of text, video, or both without actions or rewards. From using language hints in grid worlds to navigating photorealistic scans of homes, Dynalang utilizes diverse types of language to improve task performance, including environment descriptions, game rules, and instructions.
翻訳日:2023-08-04 16:08:52 公開日:2023-07-31
# 大規模言語モデルのための高品質財務指導データを生成する効果的なデータ作成パイプライン

An Effective Data Creation Pipeline to Generate High-quality Financial Instruction Data for Large Language Model ( http://arxiv.org/abs/2308.01415v1 )

ライセンス: Link先を確認
Ziao Wang, Jianning Wang, Junda Wu, Xiaofeng Zhang(参考訳) 大規模言語モデルの初期においては、金融関連タスクのための大規模言語モデルを微調整するための高品質な財務データセットを作成することが極めて重要である。 そこで本稿では,この目的のために注意深く設計したデータ生成パイプラインを提案する。 特に、ChatGPTを使用してAI投資家と金融専門家の対話を開始し、人間の金融専門家のフィードバックを取り入れ、データセットの洗練につながる。 このパイプラインは、103kのマルチターンチャットからなるロバストな命令チューニングデータセットを生み出した。 本データセットでは,外部GPT-4を審査員として採用することにより,モデルの性能評価を行う。 有望な実験結果は、私たちのアプローチがAIモデルから正確で関連性があり、財務的な応答を生成する上で大きな進歩をもたらしたことを確認し、金融セクター内のアプリケーションに強力なツールを提供する。

At the beginning era of large language model, it is quite critical to generate a high-quality financial dataset to fine-tune a large language model for financial related tasks. Thus, this paper presents a carefully designed data creation pipeline for this purpose. Particularly, we initiate a dialogue between an AI investor and financial expert using ChatGPT and incorporate the feedback of human financial experts, leading to the refinement of the dataset. This pipeline yielded a robust instruction tuning dataset comprised of 103k multi-turn chats. Extensive experiments have been conducted on this dataset to evaluate the model's performance by adopting an external GPT-4 as the judge. The promising experimental results verify that our approach led to significant advancements in generating accurate, relevant, and financial-style responses from AI models, and thus providing a powerful tool for applications within the financial sector.
翻訳日:2023-08-04 15:55:38 公開日:2023-07-31
# HouYi:再生可能エネルギーと炭素中立性分野に特化したオープンソースの大規模言語モデル

HouYi: An open-source large language model specially designed for renewable energy and carbon neutrality field ( http://arxiv.org/abs/2308.01414v1 )

ライセンス: Link先を確認
Mingliang Bai, Zhihao Zhou, Ruidong Wang, Yusheng Yang, Zizhen Qin, Yunxiao Chen, Chunjin Mu, Jinfu Liu, Daren Yu(参考訳) 再生可能エネルギーは炭素中立性を達成するために重要である。 自動コンテンツ生成におけるChatGPTのような大規模言語モデル(LLM)の成功により、LLMはますます重要な役割を担っている。 しかし、再生可能エネルギー用に特別に設計されたLLMは存在しない。 一方、LLMを訓練するための再生可能エネルギーのデータセットは存在しない。 そこで本稿は,再生可能エネルギーの非商業的LLM研究のための,オープンソースのRenewable Energy Academic Paper(REAP)データセットを公開した。 REAPデータセットは、Web of Scienceから1,168,970の学術文献のタイトルと要約を検索することで収集される。 REAPデータセットに基づいて,再生可能エネルギーのための最初のLLMであるHouYiモデルを開発した。 再生可能エネルギー分野における強力な学術論文段落生成能力を示した。 実験の結果、再生可能エネルギーに関する学術論文を作成する能力はChatGPTに匹敵し、Claude、ERNIE Bot、SparkDeskをわずかに上回り、オープンソースのLLaMA-13Bモデルを大きく上回ります。

Renewable energy is important for achieving carbon neutrality goal. With the great success of Large Language Models (LLMs) like ChatGPT in automatic content generation, LLMs are playing an increasingly important role. However, there has not been a specially designed LLM for renewable energy. Meanwhile, there has not been any dataset of renewable energy for training LLMs. Therefore, this paper published the first open-source Renewable Energy Academic Paper (REAP) dataset for non-commercial LLM research of renewable energy. REAP dataset is collected through searching the title and abstract of 1,168,970 academic literatures from Web of Science. Based on REAP dataset, HouYi model, the first LLM for renewable energy, is developed through finetuning general LLMs. HouYi demonstrated powerful academic paper paragraph generation ability in renewable energy field. Experiments show that its ability to generate academic papers on renewable energy is comparable to ChatGPT, slightly outperforms Claude, ERNIE Bot and SparkDesk, and significantly outperforms open-source LLaMA-13B model.
翻訳日:2023-08-04 15:55:25 公開日:2023-07-31
# FinVis-GPT:財務チャート分析のためのマルチモーダル大言語モデル

FinVis-GPT: A Multimodal Large Language Model for Financial Chart Analysis ( http://arxiv.org/abs/2308.01430v1 )

ライセンス: Link先を確認
Ziao Wang, Yuhang Li, Junda Wu, Jaehyeon Soon, Xiaofeng Zhang(参考訳) 本稿では,財務チャート解析に特化して設計された多モーダル大規模言語モデル(LLM)であるFinVis-GPTを提案する。 LLMのパワーを活用し、命令チューニングとマルチモーダル機能を取り入れることで、FinVis-GPTは財務チャートを解釈し、価値ある分析を行うことができる。 FinVis-GPTをトレーニングするために、様々な金融チャートとそれに対応する記述を含む、アライメントとインストラクションチューニングの事前トレーニングのための金融タスク指向データセットが作成された。 その結果,FinVis-GPTは,記述の生成,質問への回答,今後の市場動向の予測,既存のマルチモーダルLCMの超越など,さまざまな金融チャート関連タスクにおいて優れていることが示された。 提案するfinvis-gptは金融分野におけるマルチモーダルllm活用の先駆的な取り組みであり,我々の生成したデータセットは近い将来,関連する研究のスピードアップのために公開される予定だ。

In this paper, we propose FinVis-GPT, a novel multimodal large language model (LLM) specifically designed for financial chart analysis. By leveraging the power of LLMs and incorporating instruction tuning and multimodal capabilities, FinVis-GPT is capable of interpreting financial charts and providing valuable analysis. To train FinVis-GPT, a financial task oriented dataset was generated for pre-training alignment and instruction tuning, comprising various types of financial charts and their corresponding descriptions. We evaluate the model performance via several case studies due to the time limit, and the promising results demonstrated that FinVis-GPT is superior in various financial chart related tasks, including generating descriptions, answering questions and predicting future market trends, surpassing existing state-of-the-art multimodal LLMs. The proposed FinVis-GPT serves as a pioneering effort in utilizing multimodal LLMs in the finance domain and our generated dataset will be release for public use in the near future to speedup related research.
翻訳日:2023-08-04 15:46:37 公開日:2023-07-31
# アクティブラーニングに基づく事前学習データ重複モデル

A Pre-trained Data Deduplication Model based on Active Learning ( http://arxiv.org/abs/2308.00721v1 )

ライセンス: Link先を確認
Xinyao Liu, Shengdong Du, Fengmao Lv, Hongtao Xue, Jie Hu, and Tianrui Li(参考訳) ビッグデータの時代には、データ品質の問題がますます顕著になっている。 主な課題の1つは重複データの問題であり、繰り返し入力や複数のデータソースのマージによって発生する可能性がある。 これらの“汚れたデータ”問題は、ビッグデータの有効利用を大幅に制限することができる。 データ重複の問題に対処するため,本研究では,アクティブラーニングをベースとした事前学習型重複解消モデルを提案する。 このモデルは、事前学習されたトランスフォーマに基づいて構築され、分類タスクのシーケンスとしてデデュプリケーション問題を解決するために微調整され、まず、トランスフォーマとアクティブラーニングをエンドツーエンドアーキテクチャに統合して、デデュプリケーションモデルのトレーニングに最も価値のあるデータを選択し、次にr-dropメソッドを使用してラベル付きデータのラウンド毎にデータ拡張を実行する。 実験結果から,提案モデルが従来のデータ識別技術(SOTA)よりも優れており,ベンチマークデータセット上でのリコールスコアが最大28%向上していることがわかった。

In the era of big data, the issue of data quality has become increasingly prominent. One of the main challenges is the problem of duplicate data, which can arise from repeated entry or the merging of multiple data sources. These "dirty data" problems can significantly limit the effective application of big data. To address the issue of data deduplication, we propose a pre-trained deduplication model based on active learning, which is the first work that utilizes active learning to address the problem of deduplication at the semantic level. The model is built on a pre-trained Transformer and fine-tuned to solve the deduplication problem as a sequence to classification task, which firstly integrate the transformer with active learning into an end-to-end architecture to select the most valuable data for deduplication model training, and also firstly employ the R-Drop method to perform data augmentation on each round of labeled data, which can reduce the cost of manual labeling and improve the model's performance. Experimental results demonstrate that our proposed model outperforms previous state-of-the-art (SOTA) for deduplicated data identification, achieving up to a 28% improvement in Recall score on benchmark datasets.
翻訳日:2023-08-03 15:10:19 公開日:2023-07-31
# 深部CNNにおけるマルチヘッドチャネルアテンションを用いたCOVID-19画像の自動分類

Automated COVID-19 CT Image Classification using Multi-head Channel Attention in Deep CNN ( http://arxiv.org/abs/2308.00715v1 )

ライセンス: Link先を確認
Susmita Ghosh and Abhiroop Chatterjee(参考訳) 新型コロナウイルスの急速な普及は、効率的かつ正確な診断方法を必要としている。 CT(Computed Tomography)スキャン画像は、この疾患を検出する貴重なツールとして登場した。 本稿では,新たに設計されたチャネルアテンション機構と重み付きグローバル平均プール機構を組み込んだ修正xceptionモデルを提案し,特徴抽出を強化し,分類精度を向上させた,covid-19ctスキャン自動分類のための新しいディープラーニング手法を提案する。 チャネルアテンションモジュールは、各チャネル内の情報領域に選択的にフォーカスし、モデルが新型コロナウイルス検出のための識別的特徴を学習できるようにする。 広く使われている新型コロナウイルスのCTスキャンデータセットの実験は96.99%の精度を示し、他の最先端技術よりも優れていることを示している。 この研究は、現在および将来のパンデミックと戦うために人工知能を使用する継続的な取り組みに寄与し、効率的な医用画像分析タスクに有望でタイムリーなソリューションを提供することができる。

The rapid spread of COVID-19 has necessitated efficient and accurate diagnostic methods. Computed Tomography (CT) scan images have emerged as a valuable tool for detecting the disease. In this article, we present a novel deep learning approach for automated COVID-19 CT scan classification where a modified Xception model is proposed which incorporates a newly designed channel attention mechanism and weighted global average pooling to enhance feature extraction thereby improving classification accuracy. The channel attention module selectively focuses on informative regions within each channel, enabling the model to learn discriminative features for COVID-19 detection. Experiments on a widely used COVID-19 CT scan dataset demonstrate a very good accuracy of 96.99% and show its superiority to other state-of-the-art techniques. This research can contribute to the ongoing efforts in using artificial intelligence to combat current and future pandemics and can offer promising and timely solutions for efficient medical image analysis tasks.
翻訳日:2023-08-03 15:09:46 公開日:2023-07-31
# 承認に基づくマルチウィンナー投票ルールの学習の複雑さ

The Complexity of Learning Approval-Based Multiwinner Voting Rules ( http://arxiv.org/abs/2110.00254v3 )

ライセンス: Link先を確認
Ioannis Caragiannis and Karl Fehrs(参考訳) 我々は、ABCS(承認ベース委員会スコアリング)ルールのクラスに着目し、多票制の学習可能性について検討した。 これらは、各投票者が候補者の幾らかを承認する、承認投票を伴うプロファイルに適用される投票規則である。 abcsの規則では、k$の候補者のそれぞれの委員会が各投票者からスコアを収集し、投票者のサイズと委員会との交差点の大きさに依存する。 そして、最高得点の委員会が勝利者となる。 我々の目標は、少数のサンプルプロファイルの勝者委員会に関する情報を用いて、目標ルール(すなわち、対応するスコアリング関数を学習すること)を学習することである。 単勝選挙と比較して指数関数的に多くの結果が存在するにもかかわらず、サンプルの複雑さは依然として低い: 多項式数のサンプルは、高い信頼度と正確さでターゲットルールを学ぶのに十分な情報を持っている。 残念ながら、これらのサンプルから学ぶのに必要な単純なタスクでさえ難解です。 我々は、ある委員会が与えられたプロファイルに勝つようなABCSルールが存在するかどうかを判断することは、計算的に難しい問題であることを示す。 我々の結果は、その単純さから最近注目されているシーケンシャルなThieleルールのクラスにまで及んでいる。

We study the {PAC} learnability of multiwinner voting, focusing on the class of approval-based committee scoring (ABCS) rules. These are voting rules applied on profiles with approval ballots, where each voter approves some of the candidates. According to ABCS rules, each committee of $k$ candidates collects from each voter a score, which depends on the size of the voter's ballot and on the size of its intersection with the committee. Then, committees of maximum score are the winning ones. Our goal is to learn a target rule (i.e., to learn the corresponding scoring function) using information about the winning committees of a small number of sampled profiles. Despite the existence of exponentially many outcomes compared to single-winner elections, we show that the sample complexity is still low: a polynomial number of samples carries enough information for learning the target rule with high confidence and accuracy. Unfortunately, even simple tasks that need to be solved for learning from these samples are intractable. We prove that deciding whether there exists some ABCS rule that makes a given committee winning in a given profile is a computationally hard problem. Our results extend to the class of sequential Thiele rules, which have received attention recently due to their simplicity.
翻訳日:2023-08-02 22:35:04 公開日:2023-07-31
# 音声テキストクロスモーダル表現の教師なし改善

Unsupervised Improvement of Audio-Text Cross-Modal Representations ( http://arxiv.org/abs/2305.01864v3 )

ライセンス: Link先を確認
Zhepei Wang, Cem Subakan, Krishna Subramani, Junkai Wu, Tiago Tavares, Fabio Ayres, Paris Smaragdis(参考訳) 言語モデルを用いてモーダルな音声テキスト表現を得る手法の進歩は,事前定義されたラベルを用いた従来の訓練手法の限界を克服している。 これによってコミュニティはゼロショット分類のようなタスクを前進させることができたが、そうでなければ不可能だった。 しかし、そのような表現を学習するには、大量の人間の注釈付き音声テキストペアが必要である。 本稿では,教師なしのテキストと音声による表現の学習フレームワークを改善するための教師なしアプローチについて検討する。 ドメイン固有およびドメイン固有のキュレーション手法を探索し、モデルをさらに改善するために使用する音声テキストペアを作成する。 また,ソフトラベルのコントラスト損失とともにドメイン固有キュレーションを用いた場合,下流の音響イベント分類や音響シーン分類タスクにおいて,ゼロショット分類性能の点で有意な改善が得られた。

Recent advances in using language models to obtain cross-modal audio-text representations have overcome the limitations of conventional training approaches that use predefined labels. This has allowed the community to make progress in tasks like zero-shot classification, which would otherwise not be possible. However, learning such representations requires a large amount of human-annotated audio-text pairs. In this paper, we study unsupervised approaches to improve the learning framework of such representations with unpaired text and audio. We explore domain-unspecific and domain-specific curation methods to create audio-text pairs that we use to further improve the model. We also show that when domain-specific curation is used in conjunction with a soft-labeled contrastive loss, we are able to obtain significant improvement in terms of zero-shot classification performance on downstream sound event classification or acoustic scene classification tasks.
翻訳日:2023-08-02 22:08:20 公開日:2023-07-31
# 階層的クラスタリングのための公正アルゴリズム

Fair Algorithms for Hierarchical Agglomerative Clustering ( http://arxiv.org/abs/2005.03197v4 )

ライセンス: Link先を確認
Anshuman Chhabra, Prasant Mohapatra(参考訳) 階層的集約クラスタリング(HAC)アルゴリズムは、現代のデータサイエンスで広く利用されており、データセットをクラスタに分割し、データサンプル間の階層的関係を生成する。 HACアルゴリズムは、生物学、自然言語処理、レコメンダシステムなど、多くのアプリケーションで採用されている。 したがって、たとえデータセットが特定の保護されたグループに対するバイアスを含んでいても、生成されたクラスタ出力はこれらのグループからのサンプルと区別してはならない。 しかしながら、近年のクラスタリングフェアネスの研究は、主にk-medianやk-meansクラスタリングのようなセンターベースのクラスタリングアルゴリズムに焦点を当てている。 本稿では,公平性制約を強制するHACを実現するためのフェアアルゴリズムを提案する。 1) 使用した距離リンク基準にかかわらず 2)HACのクラスタリング公正性の自然な尺度を一般化する。 3) 複数の保護団体のために働き、 4)バニラHACと競合するランニング時間を持つ。 複数の実世界のUCIデータセットに関する広範な実験を通して、提案アルゴリズムは、バニラHACや最先端のフェアクラスタリングアプローチと比較して、より公平なクラスタリングを見つける。

Hierarchical Agglomerative Clustering (HAC) algorithms are extensively utilized in modern data science, and seek to partition the dataset into clusters while generating a hierarchical relationship between the data samples. HAC algorithms are employed in many applications, such as biology, natural language processing, and recommender systems. Thus, it is imperative to ensure that these algorithms are fair -- even if the dataset contains biases against certain protected groups, the cluster outputs generated should not discriminate against samples from any of these groups. However, recent work in clustering fairness has mostly focused on center-based clustering algorithms, such as k-median and k-means clustering. In this paper, we propose fair algorithms for performing HAC that enforce fairness constraints 1) irrespective of the distance linkage criteria used, 2) generalize to any natural measures of clustering fairness for HAC, 3) work for multiple protected groups, and 4) have competitive running times to vanilla HAC. Through extensive experiments on multiple real-world UCI datasets, we show that our proposed algorithm finds fairer clusterings compared to vanilla HAC as well as other state-of-the-art fair clustering approaches.
翻訳日:2023-08-02 18:45:54 公開日:2023-07-31
# ポテンシャル出力と因果効果の推定のための一般化境界と表現学習

Generalization Bounds and Representation Learning for Estimation of Potential Outcomes and Causal Effects ( http://arxiv.org/abs/2001.07426v4 )

ライセンス: Link先を確認
Fredrik D. Johansson, Uri Shalit, Nathan Kallus, David Sontag(参考訳) 医療、経済、教育といったさまざまな分野の実践者は、意思決定を改善するために機械学習を適用したいと考えている。 実験のコストと非実用性,そして近年の電子記録保持量の増加は,非実験的観測データに基づく意思決定の問題に注意を向けている。 これがこの作品の舞台である。 特に,患者ひとりの代替薬に対する反応などの個人レベルの因果効果を,記録された文脈,意思決定,結果から推定する。 異なる治療を受けるグループ間の距離尺度に基づく推定効果の誤差の一般化を行い,サンプルの再重み付けを可能にした。 境界が密接な条件を提供し、教師なしドメイン適応の結果とどのように関係しているかを示す。 理論的結果から,表現の誘導された治療群距離を正規化し,治療群間の情報の共有を促進することによって,境界を最小化する表現学習アルゴリズムを考案した。 これらのアルゴリズムを拡張して重み付け表現を同時に学習し,治療群距離をさらに削減する。 最後に,実データおよび合成データの実験的評価により,提案する表現アーキテクチャと正規化スキームの価値を示す。

Practitioners in diverse fields such as healthcare, economics and education are eager to apply machine learning to improve decision making. The cost and impracticality of performing experiments and a recent monumental increase in electronic record keeping has brought attention to the problem of evaluating decisions based on non-experimental observational data. This is the setting of this work. In particular, we study estimation of individual-level causal effects, such as a single patient's response to alternative medication, from recorded contexts, decisions and outcomes. We give generalization bounds on the error in estimated effects based on distance measures between groups receiving different treatments, allowing for sample re-weighting. We provide conditions under which our bound is tight and show how it relates to results for unsupervised domain adaptation. Led by our theoretical results, we devise representation learning algorithms that minimize our bound, by regularizing the representation's induced treatment group distance, and encourage sharing of information between treatment groups. We extend these algorithms to simultaneously learn a weighted representation to further reduce treatment group distances. Finally, an experimental evaluation on real and synthetic data shows the value of our proposed representation architecture and regularization scheme.
翻訳日:2023-08-02 18:45:31 公開日:2023-07-31
# 超次元計算におけるベクトルシンボリックアーキテクチャに関する研究 その1:モデルとデータ変換

A Survey on Hyperdimensional Computing aka Vector Symbolic Architectures, Part I: Models and Data Transformations ( http://arxiv.org/abs/2111.06077v2 )

ライセンス: Link先を確認
Denis Kleyko, Dmitri A. Rachkovskij, Evgeny Osipov, Abbas Rahimi(参考訳) この2部にわたる包括的調査は、超次元コンピューティングとベクトルシンボリックアーキテクチャ(hdc/vsa)の名前でよく知られるコンピューティングフレームワークに向けられている。 どちらの名前も高次元の分散表現を使用し、その鍵演算の代数的性質に依存して構造化記号表現とベクトル分散表現の利点を取り入れた計算モデルのファミリーを指す。 HDC/VSAファミリーで注目すべきモデルは、テンソル製品表現、ホログラフィック還元表現、マルチプライ・アダッド・パーミュート、バイナリスパッタコード、スパースバイナリ分散表現であるが、他にもモデルもある。 HDC/VSAは、コンピュータ科学、電気工学、人工知能、数学、認知科学とのつながりを持つ非常に学際的な分野である。 この事実は、この分野の完全な概要を作るのを難しくしている。 しかし近年,この分野に新たに参入する研究者が急増し,総合的な調査の必要性が高まっている。 したがって、この分野の他の側面としては、HDC/VSAの既知の計算モデルや、様々な入力データ型から高次元分散表現への変換といった重要な側面について調査する。 本調査の第2部では,アプリケーション,認知コンピューティング,アーキテクチャ,今後の作業への方向性について取り上げている。 この調査は、新参者も実践者も役に立つと書かれています。

This two-part comprehensive survey is devoted to a computing framework most commonly known under the names Hyperdimensional Computing and Vector Symbolic Architectures (HDC/VSA). Both names refer to a family of computational models that use high-dimensional distributed representations and rely on the algebraic properties of their key operations to incorporate the advantages of structured symbolic representations and vector distributed representations. Notable models in the HDC/VSA family are Tensor Product Representations, Holographic Reduced Representations, Multiply-Add-Permute, Binary Spatter Codes, and Sparse Binary Distributed Representations but there are other models too. HDC/VSA is a highly interdisciplinary field with connections to computer science, electrical engineering, artificial intelligence, mathematics, and cognitive science. This fact makes it challenging to create a thorough overview of the field. However, due to a surge of new researchers joining the field in recent years, the necessity for a comprehensive survey of the field has become extremely important. Therefore, amongst other aspects of the field, this Part I surveys important aspects such as: known computational models of HDC/VSA and transformations of various input data types to high-dimensional distributed representations. Part II of this survey is devoted to applications, cognitive computing and architectures, as well as directions for future work. The survey is written to be useful for both newcomers and practitioners.
翻訳日:2023-08-02 18:36:45 公開日:2023-07-31
# 動的集団知能学習:刈り込み重みに対する精製勾配による効率的なスパースモデル探索

Dynamic Collective Intelligence Learning: Finding Efficient Sparse Model via Refined Gradients for Pruned Weights ( http://arxiv.org/abs/2109.04660v2 )

ライセンス: Link先を確認
Jangho Kim, Jayeon Yoo, Yeji Song, KiYoon Yoo, Nojun Kwak(参考訳) ディープニューラルネットワーク(DNN)の成長に伴い、DNNパラメータの数が大幅に増加した。 これにより、DNNモデルはリソース制限された組み込みシステムにデプロイするのが困難になる。 この問題を軽減するために,ストレート・スルー・エスティメータ(ste)を駆除重みの近似勾配に利用し,トレーニング中に多様なスパースパターンを求める動的プルーニング法が出現した。 STEは、ダイナミックなスパーシティパターンを見つける過程において、刈り取られた重量を回復させるのに役立つ。 しかし、これらの粗い勾配を用いることで、STE近似の信頼性の低い勾配信号によるトレーニング不安定性と性能劣化が生じる。 そこで本研究では,2組の重みから2組のフォワーディングパスを形成することにより,重みの更新に洗練された勾配を導入する。 本稿では,両重み集合の集合的知性間の学習相乗効果を利用した新しい動的集団知能学習(DCIL)を提案する。 CIFARおよびImageNetデータセット上でのトレーニング安定性とモデル性能の向上を示すことにより、改良された勾配の有用性を検証する。 DCILは、トレーニング中に安定性を向上した他の動的プルーニング手法を含む、以前に提案されたプルーニング方式よりも優れている。

With the growth of deep neural networks (DNN), the number of DNN parameters has drastically increased. This makes DNN models hard to be deployed on resource-limited embedded systems. To alleviate this problem, dynamic pruning methods have emerged, which try to find diverse sparsity patterns during training by utilizing Straight-Through-Estimator (STE) to approximate gradients of pruned weights. STE can help the pruned weights revive in the process of finding dynamic sparsity patterns. However, using these coarse gradients causes training instability and performance degradation owing to the unreliable gradient signal of the STE approximation. In this work, to tackle this issue, we introduce refined gradients to update the pruned weights by forming dual forwarding paths from two sets (pruned and unpruned) of weights. We propose a novel Dynamic Collective Intelligence Learning (DCIL) which makes use of the learning synergy between the collective intelligence of both weight sets. We verify the usefulness of the refined gradients by showing enhancements in the training stability and the model performance on the CIFAR and ImageNet datasets. DCIL outperforms various previously proposed pruning schemes including other dynamic pruning methods with enhanced stability during training.
翻訳日:2023-08-02 18:35:59 公開日:2023-07-31
# 分散型社会制裁による分業の出現

The emergence of division of labor through decentralized social sanctioning ( http://arxiv.org/abs/2208.05568v4 )

ライセンス: Link先を確認
Anil Yaman, Joel Z. Leibo, Giovanni Iacca, Sang Wan Lee(参考訳) 人間の生態的成功は、柔軟に自己組織を協調的な社会グループに組み込む特性的な能力に依存しており、その最も成功したのは、実質的な専門化と労働分業である。 他のほとんどの動物とは異なり、人間は人生の中で試行錯誤によってどのような役割を果たすかを学ぶ。 しかし、いくつかの重要な役割が他よりも魅力的であり、個人が自己関心を持つ場合、社会的ジレンマがある。 しかし、そのように行動し、重要な役割を果たさなければ、災害が発生する。 このような状況では最適な役割分布を学習することは不可能である。 その結果、基本的な質問は: 自己興味のある生涯学習者のグループにおいて、労働の分割はどのように現れるのか? ここでは,分散社会保障の新たなパターンである社会規範のモデルを導入することにより,すべての重要な役割を含む生産的労働分業を自利的な個人集団が学ぶことが可能となることを示す。 このような社会的規範は、集団内で報酬を再分配し、反社会的役割を非活性化し、一方で、内在的に報酬を払わない親社会的役割を動機付ける。

Human ecological success relies on our characteristic ability to flexibly self-organize into cooperative social groups, the most successful of which employ substantial specialization and division of labor. Unlike most other animals, humans learn by trial and error during their lives what role to take on. However, when some critical roles are more attractive than others, and individuals are self-interested, then there is a social dilemma: each individual would prefer others take on the critical-but-unremunerative roles so they may remain free to take one that pays better. But disaster occurs if all act thusly and a critical role goes unfilled. In such situations learning an optimum role distribution may not be possible. Consequently, a fundamental question is: how can division of labor emerge in groups of self-interested lifetime-learning individuals? Here we show that by introducing a model of social norms, which we regard as emerging patterns of decentralized social sanctioning, it becomes possible for groups of self-interested individuals to learn a productive division of labor involving all critical roles. Such social norms work by redistributing rewards within the population to disincentivize antisocial roles while incentivizing prosocial roles that do not intrinsically pay as well as others.
翻訳日:2023-08-02 18:28:09 公開日:2023-07-31
# 周期的リレーショナルコンセンサスを用いたロバスト参照ビデオオブジェクトセグメンテーション

Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus ( http://arxiv.org/abs/2207.01203v2 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu(参考訳) Referring Video Object Segmentation (R-VOS)は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。 既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。 意味的コンセンサス(semantic consensus)と呼ばれるこの仮定は、現実のシナリオにおいてしばしば破られ、その表現は偽のビデオに対して照会される可能性がある。 本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。 そこで,ロバストR-VOSと呼ばれる拡張タスクを提案する。 本稿では,R-VOS問題とその双対(テキスト再構成)を共同でモデル化することによって,この問題に対処する。 ビデオテキストペア間のセマンティックコンセンサスを識別し、正のペアに付与する構造的テキスト-テキストサイクル制約を導入し、正のペアと負のペアの両方からマルチモーダルアライメントを実現する。 我々の構造的制約は言語多様性がもたらす課題に効果的に対処し、ポイントワイド制約に依存する従来の手法の制約を克服する。 新しい評価データセットであるR\textsuperscript{2}-Youtube-VOSisは、モデルの堅牢性を測定するために構築された。 我々のモデルは、R-VOSベンチマーク、Ref-DAVIS17、Ref-Youtube-VOS、R\textsuperscript{2}-Youtube-VOS~データセットの最先端性能を達成する。

Referring Video Object Segmentation (R-VOS) is a challenging task that aims to segment an object in a video based on a linguistic expression. Most existing R-VOS methods have a critical assumption: the object referred to must appear in the video. This assumption, which we refer to as semantic consensus, is often violated in real-world scenarios, where the expression may be queried against false videos. In this work, we highlight the need for a robust R-VOS model that can handle semantic mismatches. Accordingly, we propose an extended task called Robust R-VOS, which accepts unpaired video-text inputs. We tackle this problem by jointly modeling the primary R-VOS problem and its dual (text reconstruction). A structural text-to-text cycle constraint is introduced to discriminate semantic consensus between video-text pairs and impose it in positive pairs, thereby achieving multi-modal alignment from both positive and negative pairs. Our structural constraint effectively addresses the challenge posed by linguistic diversity, overcoming the limitations of previous methods that relied on the point-wise constraint. A new evaluation dataset, R\textsuperscript{2}-Youtube-VOSis constructed to measure the model robustness. Our model achieves state-of-the-art performance on R-VOS benchmarks, Ref-DAVIS17 and Ref-Youtube-VOS, and also our R\textsuperscript{2}-Youtube-VOS~dataset.
翻訳日:2023-08-02 18:27:34 公開日:2023-07-31
# 3DALL-E:3Dデザインワークフローにおけるテキストと画像のAIの統合

3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows ( http://arxiv.org/abs/2210.11603v2 )

ライセンス: Link先を確認
Vivian Liu, Jo Vermeulen, George Fitzmaurice, Justin Matejka(参考訳) テキストから画像へのAIは、インスピレーションのための新しいイメージを生成することができるが、3Dデザインワークフローや、AIが提供するインスピレーションを使ってデザイナが3Dモデルを構築する方法はまだ検討されていない。 そこで我々は,DALL-E,GPT-3,CLIPをCADソフトウェアに組み込んだ3DALL-Eを開発した。 3DALL-Eでは、ユーザがモデリングしたものに基づいて、テキストと画像のプロンプトを構築することができる。 13人のデザイナーによる研究によると、デザイナーはワークフローの中で3DALL-Eに大きな可能性を見出し、テキストから画像までAIを使って参照画像を作成し、デザインの修正を防ぎ、デザインの考慮を刺激できることがわかった。 3次元モデリングタスクで観察されるパターンのプロンプトについて詳述し、参加者間で観察される素早い複雑さの尺度を提供する。 そこで本研究では,3DALL-Eが既存の生成設計ワークフローとどのように統合できるかを考察し,人間-AI設計史の一形態として,書誌学のプロンプトを提案する。

Text-to-image AI are capable of generating novel images for inspiration, but their applications for 3D design workflows and how designers can build 3D models using AI-provided inspiration have not yet been explored. To investigate this, we integrated DALL-E, GPT-3, and CLIP within a CAD software in 3DALL-E, a plugin that generates 2D image inspiration for 3D design. 3DALL-E allows users to construct text and image prompts based on what they are modeling. In a study with 13 designers, we found that designers saw great potential in 3DALL-E within their workflows and could use text-to-image AI to produce reference images, prevent design fixation, and inspire design considerations. We elaborate on prompting patterns observed across 3D modeling tasks and provide measures of prompt complexity observed across participants. From our findings, we discuss how 3DALL-E can merge with existing generative design workflows and propose prompt bibliographies as a form of human-AI design history.
翻訳日:2023-08-02 18:16:42 公開日:2023-07-31
# ツープレイヤーゼロサムゲームにおける不完全情報の抽象化

Abstracting Imperfect Information Away from Two-Player Zero-Sum Games ( http://arxiv.org/abs/2301.09159v3 )

ライセンス: Link先を確認
Samuel Sokota, Ryan D'Orazio, Chun Kai Ling, David J. Wu, J. Zico Kolter, Noam Brown(参考訳) Nayyar et al. (2013)では、プレイヤーがプレイ中にポリシーを公に発表することで、不完全な情報を共通のペイオフゲームから抽象化できることを示した。 この洞察は、コモンペイオフゲームのためのサウンドソルバと意思決定時間計画アルゴリズムの基礎となる。 残念なことに、2人のプレイヤーのゼロサムゲームに対する同じ洞察のナッシュな応用は、ナッシュ均衡と公開ポリシーの発表が元のゲームのナッシュ均衡に合致しない可能性があるため失敗する。 その結果、既存の音響決定時間計画アルゴリズムは、未適用特性を持つ複雑な追加メカニズムを必要とする。 この研究の主な貢献は、ある正規化された平衡が上記の非対応問題を持たないことを示しており、計算は完全情報問題として扱うことができる。 これらの正規化平衡はnash平衡に任意に近付くことができるため、結果は2人のプレイヤーのゼロサムゲームを解決する新しい視点への扉を開き、2人のプレイヤーのゼロサムゲームにおける意思決定時間計画のための簡易なフレームワークを得る。

In their seminal work, Nayyar et al. (2013) showed that imperfect information can be abstracted away from common-payoff games by having players publicly announce their policies as they play. This insight underpins sound solvers and decision-time planning algorithms for common-payoff games. Unfortunately, a naive application of the same insight to two-player zero-sum games fails because Nash equilibria of the game with public policy announcements may not correspond to Nash equilibria of the original game. As a consequence, existing sound decision-time planning algorithms require complicated additional mechanisms that have unappealing properties. The main contribution of this work is showing that certain regularized equilibria do not possess the aforementioned non-correspondence problem -- thus, computing them can be treated as perfect-information problems. Because these regularized equilibria can be made arbitrarily close to Nash equilibria, our result opens the door to a new perspective to solving two-player zero-sum games and yields a simplified framework for decision-time planning in two-player zero-sum games, void of the unappealing properties that plague existing decision-time planning approaches.
翻訳日:2023-08-02 18:10:36 公開日:2023-07-31
# 結合三モード圧縮真空--ガウスステアリングとウィグナー負性率の遠隔生成

Coupled three-mode squeezed vacuum: Gaussian steering and remote generation of Wigner negativity ( http://arxiv.org/abs/2212.14261v2 )

ライセンス: Link先を確認
Zi-wei Zhan, Bo Lan, Jian Wang and Xue-xiang Xu(参考訳) マルチパーティタイトアインシュタイン-ポドルスキー-ローゼン(epr)ステアリングとマルチモード量子スクイージングは、様々な量子応用にとって必須の資源である。 本稿は,典型的な多モード圧縮ガウス状態であり,特異な操舵特性を示す3モード圧縮真空(c3msv)の研究に焦点を当てた。 次数生成物内での統合技術を用いて、結合された3モードのスクイーズ演算子に対して正規順序形式を与え、C3MSVの統計量の一般的な解析式を導出する。 ガウシアン測定では,全二成分ガウシアンステアリング(ステアリング,一方向ステアリング,二方向ステアリングを含む)を詳細に分析し,c3msvの単元関係について検討した。 そして,これらすべてのステアリングの非一貫性をノイズチャネルで検討し,一定の閾値時間内に突然の死亡が起こることを確認した。 c3msvで共有されるステアリングを通じて,局所位置において適切な光子減算を行うことで,wigner negativity(wn)を遠隔生成する概念的(理想的)スキームを提案する。 得られた結果は、将来の実践研究の確固たる理論基盤となる可能性がある。 我々はまた、C3MSVが将来の量子プロトコルの優れた候補資源の1つになると信じている。

Multipartite Einstein-Podolsky-Rosen (EPR) steering and multimode quantum squeezing are essential resources for various quantum applications. The paper focuses on studying a coupled three-mode squeezed vacuum (C3MSV), which is a typical multimode squeezed Gaussian state and will exhibit peculiar steering property. Using the technique of integration within ordered products, we give the normal-ordering form for the coupled three-mode squeezing operator and derive the general analytical expressions of the statistical quantities for the C3MSV. Under Gaussian measurements, we analyze all bipartite Gaussian steerings (including no steering, one-way steering and two-way steering) in details and study the monogamy relations for the C3MSV. Then, we study the decoherence of all these steerings in noisy channels and find that sudden death will happen in a certain threshold time. Through the steerings shared in the C3MSV, we propose conceptual (and ideal) schemes of remotely generating Wigner negativity (WN) by performing appropriate photon subtraction(s) in the local position. Our obtained results may lay a solid theoretical foundation for a future practical study. We also believe that the C3MSV will be one of good candidate resources in future quantum protocols.
翻訳日:2023-08-02 18:09:04 公開日:2023-07-31
# 高次元潜在空間における拡散の信頼性尺度

Reliable Measures of Spread in High Dimensional Latent Spaces ( http://arxiv.org/abs/2212.08172v2 )

ライセンス: Link先を確認
Anna C. Marbut, Katy McKinney-Bock and Travis J. Wheeler(参考訳) 自然言語処理モデルの潜在空間の幾何学的性質を理解することで、下流タスクのパフォーマンスを改善するためにこれらの特性を操作できる。 そのような特性の1つは、モデルの潜在空間に広がるデータ量や、利用可能な潜在空間がどの程度使われているかである。 本研究では,データスプレッド,平均コサイン類似度,分断関数min/max比i(v)について,モデル間における潜在空間の利用を比較するための信頼性の高い指標を提供していないことを示す。 7つの合成データ分布に適用した場合の現在の測定値よりも改善したデータ拡散の8つの代替手段を提案し,検討した。 提案手法のうち1つの主成分に基づく測度と1つのエントロピーに基づく測度を推奨する。

Understanding geometric properties of natural language processing models' latent spaces allows the manipulation of these properties for improved performance on downstream tasks. One such property is the amount of data spread in a model's latent space, or how fully the available latent space is being used. In this work, we define data spread and demonstrate that the commonly used measures of data spread, Average Cosine Similarity and a partition function min/max ratio I(V), do not provide reliable metrics to compare the use of latent space across models. We propose and examine eight alternative measures of data spread, all but one of which improve over these current metrics when applied to seven synthetic data distributions. Of our proposed measures, we recommend one principal component-based measure and one entropy-based measure that provide reliable, relative measures of spread and can be used to compare models of different sizes and dimensionalities.
翻訳日:2023-08-02 18:07:18 公開日:2023-07-31
# タスクと分布のシフトのための有用な表現の学習

Learning useful representations for shifting tasks and distributions ( http://arxiv.org/abs/2212.07346v3 )

ライセンス: Link先を確認
Jianyu Zhang, L\'eon Bottou(参考訳) 表現を学ぶための支配的なアプローチ(単一のトレーニングディストリビューションに期待されるコストを最適化する副作用として)は、複数のディストリビューションを扱う場合、良いアプローチのままか? 我々の主張では、このようなシナリオは単一の最適化エピソードで得られたシナリオよりもリッチな表現によってよりうまく機能する。 我々は、この論文を単純な理論的な議論と、一見na\"{\i}ve ensembling の手法を用いて、同じデータ、モデル、アルゴリズム、ハイパーパラメータを用いて複数の訓練エピソードから得られた表現を結合する実験で支持する。 これらの独立したネットワークも同様に機能する。 しかし、新しいディストリビューションを含む多くのシナリオにおいて、結合表現は、1回のトレーニング実行でトレーニングされた同等の大きさのネットワークよりもかなり優れたパフォーマンスを発揮する。 これは、複数の訓練エピソードで構築された表現が実際には異なることを証明している。 それらの結合は、トレーニング分布下でのトレーニングタスクに関する追加情報はほとんど持たないが、タスクや分布が変化すると、かなり情報的になる。 一方、最適化プロセスには、トレーニング性能を漸進的に改善しない機能を蓄積する理由がないため、単一のトレーニングエピソードがそのような冗長表現をもたらす可能性は低い。

Does the dominant approach to learn representations (as a side effect of optimizing an expected cost for a single training distribution) remain a good approach when we are dealing with multiple distributions? Our thesis is that such scenarios are better served by representations that are richer than those obtained with a single optimization episode. We support this thesis with simple theoretical arguments and with experiments utilizing an apparently na\"{\i}ve ensembling technique: concatenating the representations obtained from multiple training episodes using the same data, model, algorithm, and hyper-parameters, but different random seeds. These independently trained networks perform similarly. Yet, in a number of scenarios involving new distributions, the concatenated representation performs substantially better than an equivalently sized network trained with a single training run. This proves that the representations constructed by multiple training episodes are in fact different. Although their concatenation carries little additional information about the training task under the training distribution, it becomes substantially more informative when tasks or distributions change. Meanwhile, a single training episode is unlikely to yield such a redundant representation because the optimization process has no reason to accumulate features that do not incrementally improve the training performance.
翻訳日:2023-08-02 18:07:02 公開日:2023-07-31
# DP-fy ML: 差分プライバシによる機械学習の実践的ガイド

How to DP-fy ML: A Practical Guide to Machine Learning with Differential Privacy ( http://arxiv.org/abs/2303.00654v3 )

ライセンス: Link先を確認
Natalia Ponomareva, Hussein Hazimeh, Alex Kurakin, Zheng Xu, Carson Denison, H. Brendan McMahan, Sergei Vassilvitskii, Steve Chien and Abhradeep Thakurta(参考訳) MLモデルは現実世界の応用においてユビキタスであり、常に研究の焦点となっている。 同時に、コミュニティはMLトレーニングデータのプライバシ保護の重要性を認識し始めています。 差分プライバシー(DP)は、データ匿名化に関する公式声明を作成するための金の標準となっている。 しかし、いくつかの業界でDPの採用が起きているが、現実の複雑なMLモデルにDPを適用しようとする試みは、いまだにごくわずかである。 DPの採用は、DP保護が持つもの、プライバシーが目的とするもの、そしてMLモデルの優れたプライバシ・ユーティリティ・コンピューティングトレードオフを達成することの難しさに関する限られた実践的なガイダンスによって妨げられている。 パフォーマンスをチューニングし最大化するためのトリックは、紙に散らばったり、実践者の頭に格納される。 さらに、この文献は、アーキテクチャの調整を適用する方法と、dpで使用する"安全な"コンポーネントについて、矛盾する証拠を提示しているようである。 この研究は自己完結型のガイドであり、DP MLの分野を詳細に概観し、厳格なプライバシー保証を備えた最高のDP MLモデルを達成するための情報を提供する。 対象は研究者と実践者の両方です。 DP for MLに興味のある研究者は、現在の進歩と改善の領域を明確に示すことで恩恵を受けるだろう。 プライバシ会計や仮定,収束といった重要なトピックに注目する理論に焦点を当てたセクションも含んでいます。 実践者にとって、DP理論の背景と、適切なプライバシー定義とアプローチを選択し、DPトレーニングを実装し、モデルアーキテクチャを更新し、ハイパーパラメータをチューニングするための明確なステップバイステップガイドを提供する。 研究者と実践者の両方にとって,一貫して完全に報告するプライバシ保証は不可欠であり,保証を述べるための具体的なベストプラクティスを提案する。

ML models are ubiquitous in real world applications and are a constant focus of research. At the same time, the community has started to realize the importance of protecting the privacy of ML training data. Differential Privacy (DP) has become a gold standard for making formal statements about data anonymization. However, while some adoption of DP has happened in industry, attempts to apply DP to real world complex ML models are still few and far between. The adoption of DP is hindered by limited practical guidance of what DP protection entails, what privacy guarantees to aim for, and the difficulty of achieving good privacy-utility-computation trade-offs for ML models. Tricks for tuning and maximizing performance are scattered among papers or stored in the heads of practitioners. Furthermore, the literature seems to present conflicting evidence on how and whether to apply architectural adjustments and which components are "safe" to use with DP. This work is a self-contained guide that gives an in-depth overview of the field of DP ML and presents information about achieving the best possible DP ML model with rigorous privacy guarantees. Our target audience is both researchers and practitioners. Researchers interested in DP for ML will benefit from a clear overview of current advances and areas for improvement. We include theory-focused sections that highlight important topics such as privacy accounting and its assumptions, and convergence. For a practitioner, we provide a background in DP theory and a clear step-by-step guide for choosing an appropriate privacy definition and approach, implementing DP training, potentially updating the model architecture, and tuning hyperparameters. For both researchers and practitioners, consistently and fully reporting privacy guarantees is critical, and so we propose a set of specific best practices for stating guarantees.
翻訳日:2023-08-02 17:59:13 公開日:2023-07-31
# nystr\"om $m$-hilbert-schmidt 独立基準

Nystr\"om $M$-Hilbert-Schmidt Independence Criterion ( http://arxiv.org/abs/2302.09930v2 )

ライセンス: Link先を確認
Florian Kalinke and Zolt\'an Szab\'o(参考訳) カーネル技術は、データサイエンスの最もポピュラーで強力なアプローチの1つです。 カーネルをユビキタスにする重要な特徴の1つは (i)彼らが設計した藩の数 (ii)その統計解析を容易にする核に関連する函数類のヒルベルト構造 (iii)情報を失うことなく確率分布を表現する能力。 これらの性質はヒルベルト・シュミット独立基準(HSIC)の大きな成功をもたらし、緩やかな条件下でランダム変数の連立独立を捉え、2次計算複雑性を持つ閉形式推定器(例:サンプルサイズ)を許容する。 大規模アプリケーションにおける二次的計算ボトルネックを軽減するため、複数のHSIC近似が提案されているが、これらの推定値はM=2$ランダム変数に制限され、自然に$M\ge 2$ケースに拡張されず、理論的保証がない。 本研究では,$m\ge 2$ ケースを処理し,一貫性を証明し,合成例,メディアアノテーションの依存性テスト,因果発見など,複数のコンテキストにおける適用性を示す nystr\"om ベースの hsic 推定器を提案する。

Kernel techniques are among the most popular and powerful approaches of data science. Among the key features that make kernels ubiquitous are (i) the number of domains they have been designed for, (ii) the Hilbert structure of the function class associated to kernels facilitating their statistical analysis, and (iii) their ability to represent probability distributions without loss of information. These properties give rise to the immense success of Hilbert-Schmidt independence criterion (HSIC) which is able to capture joint independence of random variables under mild conditions, and permits closed-form estimators with quadratic computational complexity (w.r.t. the sample size). In order to alleviate the quadratic computational bottleneck in large-scale applications, multiple HSIC approximations have been proposed, however these estimators are restricted to $M=2$ random variables, do not extend naturally to the $M\ge 2$ case, and lack theoretical guarantees. In this work, we propose an alternative Nystr\"om-based HSIC estimator which handles the $M\ge 2$ case, prove its consistency, and demonstrate its applicability in multiple contexts, including synthetic examples, dependency testing of media annotations, and causal discovery.
翻訳日:2023-08-02 17:58:02 公開日:2023-07-31
# 非交換型グループデータのクラスタリングのためのグラフィカルディリクレプロセス

Graphical Dirichlet Process for Clustering Non-Exchangeable Grouped Data ( http://arxiv.org/abs/2302.09111v2 )

ライセンス: Link先を確認
Arhit Chakrabarti, Yang Ni, Ellen Ruth A. Morris, Michael L. Salinas, Robert S. Chapkin, Bani K. Mallick(参考訳) 既知有向非巡回グラフを特徴とする非交換可能群でグループ化データをクラスタリングする問題を考える。 非交換可能群間のクラスターの共有を可能にするために、各ランダム測度を、濃度パラメータとベース確率測度が親群のそれに依存するディリクレ過程として分散することを前提として、依存群特異的なランダム測度を共同でモデル化するベイズ非パラメトリック手法を提案する。 結果の合同確率過程は、群を連結する有向非巡回グラフのマルコフの性質を尊重する。 我々は,新しいハイパーグラフ表現と,棒打ち表現,レストラン型表現,有限混合モデルの極限としての表現を用いて,グラフィカルなディリクレ過程を特徴付ける。 我々は,効率的な後部推論アルゴリズムを開発し,シミュレーションと実グループ単一セルデータセットを用いてモデルを説明する。

We consider the problem of clustering grouped data with possibly non-exchangeable groups whose dependencies can be characterized by a known directed acyclic graph. To allow the sharing of clusters among the non-exchangeable groups, we propose a Bayesian nonparametric approach, termed graphical Dirichlet process, that jointly models the dependent group-specific random measures by assuming each random measure to be distributed as a Dirichlet process whose concentration parameter and base probability measure depend on those of its parent groups. The resulting joint stochastic process respects the Markov property of the directed acyclic graph that links the groups. We characterize the graphical Dirichlet process using a novel hypergraph representation as well as the stick-breaking representation, the restaurant-type representation, and the representation as a limit of a finite mixture model. We develop an efficient posterior inference algorithm and illustrate our model with simulations and a real grouped single-cell dataset.
翻訳日:2023-08-02 17:57:25 公開日:2023-07-31
# 因果情報分割:分散シフトへのロバストネスのためのエンジニアリングプロキシ機能

Causal Information Splitting: Engineering Proxy Features for Robustness to Distribution Shifts ( http://arxiv.org/abs/2305.05832v3 )

ライセンス: Link先を確認
Bijan Mazaheri, Atalanti Mastakouri, Dominik Janzing, Michaela Hardt(参考訳) 統計予測モデルは、結果のユースケースと異なる確率分布のデータに基づいて訓練されることが多い。 これらのシフトを積極的に準備する一つのアプローチは、因果メカニズムは環境間で不変であるべきだという直観を利用する。 ここでは、ターゲットの因果変数と反因果変数が観測されない困難な設定に焦点を当てる。 情報理論に基づいて、プロキシとして機能する観測下流変数の特徴選択と工学的手法を開発する。 安定なモデルを構築するのに役立つプロキシを特定し、さらに補助トレーニングタスクを利用して、プロキシから安定性向上情報を抽出する偽りの質問に答える。 合成データおよび実データに対する本手法の有効性を実証する。

Statistical prediction models are often trained on data from different probability distributions than their eventual use cases. One approach to proactively prepare for these shifts harnesses the intuition that causal mechanisms should remain invariant between environments. Here we focus on a challenging setting in which the causal and anticausal variables of the target are unobserved. Leaning on information theory, we develop feature selection and engineering techniques for the observed downstream variables that act as proxies. We identify proxies that help to build stable models and moreover utilize auxiliary training tasks to answer counterfactual questions that extract stability-enhancing information from proxies. We demonstrate the effectiveness of our techniques on synthetic and real data.
翻訳日:2023-08-02 17:37:15 公開日:2023-07-31
# 量子最適制御のための直接コロケーション

Direct Collocation for Quantum Optimal Control ( http://arxiv.org/abs/2305.03261v2 )

ライセンス: Link先を確認
Aaron Trowbridge, Aditya Bhardwaj, Kevin He, David I. Schuster, and Zachary Manchester(参考訳) 本稿では,ロボット工学や航空宇宙工学でよく用いられる軌道最適化手法であるダイレクト・コロケーションを量子最適制御(QOC)に適用し,この手法をPade Integrator Collocation (PICO)と呼ぶ。 このアプローチは、状態と制御に対する一般的な非線形制約をサポートし、最先端の大規模非線形プログラミング解法を生かし、GRAPEやCRABのような標準手法と比較して収束特性が優れている。 PICOはまた、新しい自由時間および最小時間制御問題の定式化を可能にする。 シミュレーションおよびハードウェア上でのPICOの性能を3次元回路キャビティ量子電磁力学システムを用いて実証する。

We present an adaptation of direct collocation -- a trajectory optimization method commonly used in robotics and aerospace applications -- to quantum optimal control (QOC); we refer to this method as Pade Integrator COllocation (PICO). This approach supports general nonlinear constraints on the states and controls, takes advantage of state-of-the-art large-scale nonlinear programming solvers, and has superior convergence properties compared to standard approaches like GRAPE and CRAB. PICO also allows for the formulation of novel free-time and minimum-time control problems -- crucial for realizing high-performance quantum computers when the optimal pulse duration is not known a priori. We demonstrate PICO's performance both in simulation and on hardware with a 3D circuit cavity quantum electrodynamics system.
翻訳日:2023-08-02 17:36:06 公開日:2023-07-31
# CARL-G: グラフによるクラスタリング高速化表現学習

CARL-G: Clustering-Accelerated Representation Learning on Graphs ( http://arxiv.org/abs/2306.06936v2 )

ライセンス: Link先を確認
William Shiao, Uday Singh Saini, Yozen Liu, Tong Zhao, Neil Shah, Evangelos E. Papalexakis(参考訳) グラフ上での自己教師あり学習は、様々な下流タスクで大きなパフォーマンスを達成する上で大きな進歩を遂げた。 しかし、最先端の手法の多くは障害を抱えており、その可能性を最大限に発揮できない。 例えば、対照的な方法は一般的に負のサンプリングを必要とし、しばしば計算コストがかかる。 非矛盾的メソッドはこの高価なステップを避けるが、既存のメソッドの多くは複雑なアーキテクチャやデータセット固有の拡張に依存している。 本稿では、これらの障害を克服するために、古典的な教師なし機械学習文献から借用できるだろうか? 距離ベースのクラスタリングのゴールは、類似したアイテムの表現をまとめ、異なるアイテムを分割するという、対照的な学習の目標とよく似ている、という私たちの重要な洞察に導かれています。 その結果、carl-gは、クラスタ検証インデックス(cvis)に触発された損失、すなわちクラスタ品質の内部測定(基礎的真理は不要)を利用した、グラフ表現学習のための新しいクラスタリングベースのフレームワークである。 CARL-Gはクラスタリング法やCVIに適応し,クラスタリング法とCVIの適切な選択により,CARL-Gは4/5データセットのノード分類ベースラインを最大79倍のトレーニングスピードアップで上回ることを示す。 CARL-Gは、ノードクラスタリングや類似検索タスクのベースラインと同等以上のパフォーマンスを示し、最高のパフォーマンスのベースラインよりも最大1500倍高速にトレーニングする。 最後に,CVIによるグラフ表現学習における損失の理論的基礎も提供する。

Self-supervised learning on graphs has made large strides in achieving great performance in various downstream tasks. However, many state-of-the-art methods suffer from a number of impediments, which prevent them from realizing their full potential. For instance, contrastive methods typically require negative sampling, which is often computationally costly. While non-contrastive methods avoid this expensive step, most existing methods either rely on overly complex architectures or dataset-specific augmentations. In this paper, we ask: Can we borrow from classical unsupervised machine learning literature in order to overcome those obstacles? Guided by our key insight that the goal of distance-based clustering closely resembles that of contrastive learning: both attempt to pull representations of similar items together and dissimilar items apart. As a result, we propose CARL-G - a novel clustering-based framework for graph representation learning that uses a loss inspired by Cluster Validation Indices (CVIs), i.e., internal measures of cluster quality (no ground truth required). CARL-G is adaptable to different clustering methods and CVIs, and we show that with the right choice of clustering method and CVI, CARL-G outperforms node classification baselines on 4/5 datasets with up to a 79x training speedup compared to the best-performing baseline. CARL-G also performs at par or better than baselines in node clustering and similarity search tasks, training up to 1,500x faster than the best-performing baseline. Finally, we also provide theoretical foundations for the use of CVI-inspired losses in graph representation learning.
翻訳日:2023-08-02 17:30:19 公開日:2023-07-31
# クラスインクリメンタルエンドツーエンド音声言語理解のためのシーケンスレベル知識蒸留

Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2305.13899v2 )

ライセンス: Link先を確認
Umberto Cappellazzo, Muqiao Yang, Daniele Falavigna, Alessio Brutti(参考訳) 新しい概念を逐次学習する能力は、現代のニューラルネットワークの大きな弱点であり、非定常環境での使用を妨げる。 過去の取得した知識を損なうために現在のデータ分布に適合する傾向は、破滅的な忘れる問題に繋がる。 本研究では,継続学習環境に適用した音声言語理解の課題に対処する。 まず、SLURPデータセットのクラスインクリメンタルシナリオを定義します。 そこで我々は,第1のKD法をエンコーダ出力(audio-KD)に適用し,トークンレベル(tok-KD)やシーケンスレベル(seq-KD)の分布に直接デコーダ出力を適用する3つの知識蒸留(KD)手法を提案する。 seq-kdは性能指標を実質的に改善し,audio-kdとの組合せにより平均werがさらに減少し,エンティティ予測指標が向上することを示す。

The ability to learn new concepts sequentially is a major weakness for modern neural networks, which hinders their use in non-stationary environments. Their propensity to fit the current data distribution to the detriment of the past acquired knowledge leads to the catastrophic forgetting issue. In this work we tackle the problem of Spoken Language Understanding applied to a continual learning setting. We first define a class-incremental scenario for the SLURP dataset. Then, we propose three knowledge distillation (KD) approaches to mitigate forgetting for a sequence-to-sequence transformer model: the first KD method is applied to the encoder output (audio-KD), and the other two work on the decoder output, either directly on the token-level (tok-KD) or on the sequence-level (seq-KD) distributions. We show that the seq-KD substantially improves all the performance metrics, and its combination with the audio-KD further decreases the average WER and enhances the entity prediction metric.
翻訳日:2023-08-02 17:27:11 公開日:2023-07-31
# MyCrunchGPT:科学機械学習のためのチャットGPT支援フレームワーク

MyCrunchGPT: A chatGPT assisted framework for scientific machine learning ( http://arxiv.org/abs/2306.15551v2 )

ライセンス: Link先を確認
Varun Kumar, Leonard Gleyzer, Adar Kahana, Khemraj Shukla, George Em Karniadakis(参考訳) 科学機械学習(SciML)は最近、計算科学と工学の様々な領域で進歩している。 目的は、データ同化スキームを精巧かつ計算的に課税する必要なく、データと物理をシームレスに統合することである。 しかし、前処理、問題定式化、コード生成、後処理、分析はまだ時間がかかるため、scimlが産業アプリケーションやデジタルツインフレームワークで広く適用できない可能性がある。 そこで我々は,SciMLのさまざまなステージをChatGPTの傘の下で統合し,ユーザによる簡単なプロンプトに基づいてSciMLのワークフロー全体をオーケストレーションする指揮者の役割を担うMyCrunchGPTを定式化する。 具体的には,空気力学における翼の最適化や,インタラクティブモードにおける各種測地線における流れ場獲得におけるmycrunchgptの潜在的利用について,検証段階に着目した2つの例を示す。 mycrunchgptの流れを実証し、より広いビジョンを促進するインフラを構築するために、包括的な要約レポートのオプションを含むwebappベースのガイド付きユーザーインターフェースを構築しました。 全体的な目的は、MyCrunchGPTを拡張して、計算力学、設計、最適化、制御、SciMLに関わる一般的な科学計算タスクの様々な問題に対処することであり、そのため研究補助ツールとしてだけでなく教育ツールとしても使われる。 ここでは流体力学に焦点を当てるが、将来のバージョンでは固体力学と材料科学、地球物理学、システム生物学、バイオインフォマティクスを対象とする。

Scientific Machine Learning (SciML) has advanced recently across many different areas in computational science and engineering. The objective is to integrate data and physics seamlessly without the need of employing elaborate and computationally taxing data assimilation schemes. However, preprocessing, problem formulation, code generation, postprocessing and analysis are still time consuming and may prevent SciML from wide applicability in industrial applications and in digital twin frameworks. Here, we integrate the various stages of SciML under the umbrella of ChatGPT, to formulate MyCrunchGPT, which plays the role of a conductor orchestrating the entire workflow of SciML based on simple prompts by the user. Specifically, we present two examples that demonstrate the potential use of MyCrunchGPT in optimizing airfoils in aerodynamics, and in obtaining flow fields in various geometries in interactive mode, with emphasis on the validation stage. To demonstrate the flow of the MyCrunchGPT, and create an infrastructure that can facilitate a broader vision, we built a webapp based guided user interface, that includes options for a comprehensive summary report. The overall objective is to extend MyCrunchGPT to handle diverse problems in computational mechanics, design, optimization and controls, and general scientific computing tasks involved in SciML, hence using it as a research assistant tool but also as an educational tool. While here the examples focus in fluid mechanics, future versions will target solid mechanics and materials science, geophysics, systems biology and bioinformatics.
翻訳日:2023-08-02 17:18:13 公開日:2023-07-31
# ボットネット検出における量子サイバーセキュリティ分析の活用:ツリーアルゴリズムによる安定したアーキテクチャとスピードアップ

Enabling Quantum Cybersecurity Analytics in Botnet Detection: Stable Architecture and Speed-up through Tree Algorithms ( http://arxiv.org/abs/2306.13727v4 )

ライセンス: Link先を確認
Madjid Tehrani, Eldar Sultanow, William J Buchanan, Malik Amir, Anja Jeschke, Raymond Chow, Mouad Lemoudden(参考訳) 本研究では,100個のデータサンプルと5,000個のデータサンプルを持つ実量子コンピュータ上でのハイブリッド機械学習手法の実行を初めて可能とし,1000個のデータサンプルと量子シミュレータ(純粋なソフトウェアベースのエミュレータ)のみを扱う2022年の研究状況よりも優れていた。 さらに、報告された7.8.%$を平均91.2.%$で上回り、総実行時間は1,687秒でした。 まず、実際の量子デバイス上でHQMLアルゴリズムを実行できる安定した量子アーキテクチャを構築します。 次に,hoeffding decision treeアルゴリズムに基づく新しいハイブリッド量子二分分類アルゴリズムを提案する。 これらのアルゴリズムはバッチ実行によってプロセスを高速化し、実際の量子デバイスに必要なショット数を従来のループベースのオプティマイザと比較して削減する。 彼らのインクリメンタルな性質は、DGAボットネット検出のためのオンライン大規模データストリーミングの目的に役立ち、サイバーセキュリティ分析の分野にハイブリッド量子機械学習を適用することができる。 我々は,Aer量子シミュレータを用いたQiskitライブラリと,Azure QuantumのIonQ,Rigetti,Quantinuumの3種類の実量子デバイスを用いた実験を行った。 このようなツールが組み合わされるのは,これが初めてです。

For the first time, we enable the execution of hybrid machine learning methods on real quantum computers with 100 data samples and real-device-based simulations with 5,000 data samples, thereby outperforming the current state of research of Suryotrisongko and Musashi from 2022 who were dealing with 1,000 data samples and quantum simulators (pure software-based emulators) only. Additionally, we beat their reported accuracy of $76.8\%$ by an average accuracy of $91.2\%$, all within a total execution time of 1,687 seconds. We achieve this significant progress through two-step strategy: Firstly, we establish a stable quantum architecture that enables us to execute HQML algorithms on real quantum devices. Secondly, we introduce new hybrid quantum binary classification algorithms based on Hoeffding decision tree algorithms. These algorithms speed up the process via batch-wise execution, reducing the number of shots required on real quantum devices compared to conventional loop-based optimizers. Their incremental nature serves the purpose of online large-scale data streaming for DGA botnet detection, and allows us to apply hybrid quantum machine learning to the field of cybersecurity analytics. We conduct our experiments using the Qiskit library with the Aer quantum simulator, and on three different real quantum devices from Azure Quantum: IonQ, Rigetti, and Quantinuum. This is the first time these tools are combined in this manner.
翻訳日:2023-08-02 17:17:28 公開日:2023-07-31
# QFactor: 量子回路インスティファイションのためのドメイン特化最適化

QFactor: A Domain-Specific Optimizer for Quantum Circuit Instantiation ( http://arxiv.org/abs/2306.08152v2 )

ライセンス: Link先を確認
Alon Kukliansky, Ed Younis, Lukasz Cincio, Costin Iancu(参考訳) 本稿では,量子回路のインスタンス化,合成,コンパイルに使用される数値最適化演算のためのドメイン固有アルゴリズムを提案する。 QFactorは解析手法とともにテンソルネットワークの定式化と反復局所最適化アルゴリズムを用いて問題パラメータの数を削減する。 最適化プロセスの調整に加えて、フォーミュレーションはCPUとGPUアーキテクチャ間のポータブル並列化に適しており、一般的には汎用最適化(GPO)では難しい。 いくつかのGPOと比較して,本アルゴリズムは最適化成功率で指数メモリと性能の節約を実現している。 GPOは最大6キュービットの直接回路を処理できるが、QFactorは12キュービット以上の回路を処理できる。 BQSKit最適化フレームワークでは、ゲート削除アルゴリズムを用いて100以上のキュービット回路を最適化し、GPU環境でのコンパイルに割り当てられたハードウェアリソースと線形にスケールアウトする。

We introduce a domain-specific algorithm for numerical optimization operations used by quantum circuit instantiation, synthesis, and compilation methods. QFactor uses a tensor network formulation together with analytic methods and an iterative local optimization algorithm to reduce the number of problem parameters. Besides tailoring the optimization process, the formulation is amenable to portable parallelization across CPU and GPU architectures, which is usually challenging in general purpose optimizers (GPO). Compared with several GPOs, our algorithm achieves exponential memory and performance savings with similar optimization success rates. While GPOs can handle directly circuits of up to six qubits, QFactor can process circuits with more than 12 qubits. Within the BQSKit optimization framework, we enable optimizations of 100+ qubit circuits using gate deletion algorithms to scale out linearly with the hardware resources allocated for compilation in GPU environments.
翻訳日:2023-08-02 17:16:35 公開日:2023-07-31
# 消去検出論理測定による超伝導二重レール空洞量子ビットの実証

Demonstrating a superconducting dual-rail cavity qubit with erasure-detected logical measurements ( http://arxiv.org/abs/2307.03169v2 )

ライセンス: Link先を確認
Kevin S. Chou, Tali Shemma, Heather McCarrick, Tzu-Chiao Chien, James D. Teoh, Patrick Winkel, Amos Anderson, Jonathan Chen, Jacob Curtis, Stijn J. de Graaf, John W. O. Garmon, Benjamin Gudlewski, William D. Kalfus, Trevor Keen, Nishaad Khedkar, Chan U Lei, Gangqiang Liu, Pinlei Lu, Yao Lu, Aniket Maiti, Luke Mastalli-Kelly, Nitish Mehta, Shantanu O. Mundhada, Anirudh Narla, Taewan Noh, Takahiro Tsunoda, Sophia H. Xue, Joseph O. Yuan, Luigi Frunzio, Jose Aumentado, Shruti Puri, Steven M. Girvin, S. Harvey Moseley, Jr., Robert J. Schoelkopf(参考訳) スケーラブルな誤り訂正量子システムを開発する上で重要な課題は、操作と測定をしながらエラーの蓄積である。 有望なアプローチの1つは、エラーを検出して消去できるシステムを設計することである。 最近の提案では、超伝導キャビティを用いたデュアルレール符号化を目標としている。 本研究では,このような二重レールキャビティ量子ビットを実装し,消去検出を伴う投影的論理計測の実証を行う。 論理状態の生成と測定誤差を0.01 %$レベルで測定し,99 %$以上の空洞崩壊事象を消去として検出する。 我々は,この新たな測定プロトコルの精度を用いて,このシステムの異なる種類の誤差を識別し,確率$\sim 0.2\%$/マイクロ秒で減衰誤差が発生するのに対して,位相誤差は6倍の頻度で発生し,ビットフリップは少なくとも140倍の頻度で発生することを発見した。 これらの結果は,2重レール消去量子ビットを高効率な消去符号に結合するために必要な誤差階層を初めて確認したことを示す。

A critical challenge in developing scalable error-corrected quantum systems is the accumulation of errors while performing operations and measurements. One promising approach is to design a system where errors can be detected and converted into erasures. A recent proposal aims to do this using a dual-rail encoding with superconducting cavities. In this work, we implement such a dual-rail cavity qubit and use it to demonstrate a projective logical measurement with erasure detection. We measure logical state preparation and measurement errors at the $0.01\%$-level and detect over $99\%$ of cavity decay events as erasures. We use the precision of this new measurement protocol to distinguish different types of errors in this system, finding that while decay errors occur with probability $\sim 0.2\%$ per microsecond, phase errors occur 6 times less frequently and bit flips occur at least 140 times less frequently. These findings represent the first confirmation of the expected error hierarchy necessary to concatenate dual-rail erasure qubits into a highly efficient erasure code.
翻訳日:2023-08-02 17:07:39 公開日:2023-07-31
# 非標準ハバードモデルと2電子対

Non-standard Hubbard model and two-electron pairing ( http://arxiv.org/abs/2307.16737v1 )

ライセンス: Link先を確認
M. Zendra, F. Borgonovi, G. L. Celardo, S. Gurvitz(参考訳) 非標準ハバード模型の密度誘起および対トンネル項に着目し,マルチウェル系における電子相関の研究を行った。 これらの用語は、新しく開発された曖昧性フリーで摂動的アプローチを用いて解析的に評価される。 有限範囲の反発電子相互作用によって生じる密度誘起トンネルは一致し、最終的には自由電子トンネルを抑制できることを示す。 しかし、この抑制は絶縁状態を引き起こすのではなく、非標準ハバードモデルのペアトンネル項による相関電子対の伝播につながる。 このペアは、単一電子トンネル遷移によって崩壊することができないため、マルチウェル系のバウンド状態と見なすことができる。 2つの電子の動きをトリプルウェルポテンシャルで解析することで、これを説明する。 このようなペアリング機構は、他の多くのシステムにおける有限範囲の反発相互作用によって実現できると期待する。

We study electron correlations in a multi-well system, focusing on the density-induced and pair tunneling terms of the non-standard Hubbard model. These terms are evaluated analytically using a newly developed, ambiguity-free, perturbative approach to the Wannier functions. We show that the density-induced tunneling generated by finite-range repulsive electron interaction can match and eventually suppress the free single-electron tunneling. However, this suppression does not lead to an insulating state, but rather to the propagation of a correlated electron pair due to the pair tunneling term of the non-standard Hubbard model. This pair can be considered as a bound state in the multi-well system, since it cannot decay due to single-electron tunneling transitions. We illustrate this by analyzing the motion of two electrons in a triple-well potential. We expect that such a pairing mechanism can be realized by finite-range repulsive interaction in many other systems.
翻訳日:2023-08-02 16:59:56 公開日:2023-07-31
# CliniDigest: 大規模言語モデルによる臨床試験記述の大規模要約の事例研究

CliniDigest: A Case Study in Large Language Model Based Large-Scale Summarization of Clinical Trial Descriptions ( http://arxiv.org/abs/2307.14522v2 )

ライセンス: Link先を確認
Renee D. White (1), Tristan Peng (1), Pann Sripitak (1), Alexander Rosenberg Johansen (1), Michael Snyder (1) ((1) Stanford University)(参考訳) 臨床試験は、新しいバイオメディカル介入を評価する研究である。 新しい試行をデザインするために、研究者は現在のものからインスピレーションを得て完成する。 2022年には、毎日100以上の臨床試験が行われ、各臨床試験の平均は1500語[1]である。 このため、最新の状態を維持することはほぼ不可能である。 この問題を軽減するため,GPT-3.5を用いたクリニダイジェスト(CliniDigest)という試薬を作成した。 CliniDigestは、私たちの知る限り、臨床試験のリアルタイム、真実、そして包括的な要約を提供する最初のツールです。 CliniDigestは、85の臨床試験記述(約10,500語)を、参照と限定幻覚を伴う簡潔な200ワードの要約に還元することができる。 CliniDigestを27のサブドメインに分けて457の臨床試験をまとめた。 各フィールドに対して、clinidigestは$\mu=153,\ \sigma=69 $ワードの要約を生成し、それぞれ$\mu=54\%,\ \sigma=30\% $のソースを使用する。 より包括的な評価を計画し、本稿で概説する。

A clinical trial is a study that evaluates new biomedical interventions. To design new trials, researchers draw inspiration from those current and completed. In 2022, there were on average more than 100 clinical trials submitted to ClinicalTrials.gov every day, with each trial having a mean of approximately 1500 words [1]. This makes it nearly impossible to keep up to date. To mitigate this issue, we have created a batch clinical trial summarizer called CliniDigest using GPT-3.5. CliniDigest is, to our knowledge, the first tool able to provide real-time, truthful, and comprehensive summaries of clinical trials. CliniDigest can reduce up to 85 clinical trial descriptions (approximately 10,500 words) into a concise 200-word summary with references and limited hallucinations. We have tested CliniDigest on its ability to summarize 457 trials divided across 27 medical subdomains. For each field, CliniDigest generates summaries of $\mu=153,\ \sigma=69 $ words, each of which utilizes $\mu=54\%,\ \sigma=30\% $ of the sources. A more comprehensive evaluation is planned and outlined in this paper.
翻訳日:2023-08-02 16:59:42 公開日:2023-07-31
# ハイブリッド量子計算による衛星ミッション計画問題へのアプローチ

A Hybrid Classical Quantum Computing Approach to the Satellite Mission Planning Problem ( http://arxiv.org/abs/2308.00029v1 )

ライセンス: Link先を確認
Nils Quetschlich, Vincent Koch, Lukas Burgholzer, Robert Wille(参考訳) 何百もの衛星が、様々な目的のために地球を周回し、様々な場所から画像を撮影している。 カメラの視野は通常非常に狭いため、光学系は異なる場所の単一のショット間で調整され回転する必要がある。 これは、衛星の高度によって決定される固定速度によってさらに複雑になり、撮像のためにどの場所を選択するかがより複雑になる。 そのため、この衛星ミッション計画問題(SMPP)の古典的アルゴリズムはすでに数十年前に提案されている。 しかし、それ以来、対応する古典的解は進化的な拡張しか見られない。 一方、量子コンピューティングとその約束は、革命的な改善の可能性を秘めている。 そこで本研究では,量子ハードウェアの利点と,数十年にわたる古典的オプティマイザ開発を組み合わせたSMPPを解くための,ハイブリッドな古典的量子コンピューティング手法を提案する。 変分量子固有解法 (VQE) と量子近似最適化アルゴリズム (QAOA) と温暖開始変種 (W-QAOA) を用いて, SMPP を最大21箇所で解けることを示す。 この概念実証(https://github.com/cda-tum/mqt-problemsolver)は、ミュンヘン量子ツールキット(MQT)の一部としてGitHubで利用可能であり、このアプリケーション領域における量子コンピューティングの可能性を示し、将来的には古典的なアルゴリズムと競合する第一歩となる。

Hundreds of satellites equipped with cameras orbit the Earth to capture images from locations for various purposes. Since the field of view of the cameras is usually very narrow, the optics have to be adjusted and rotated between single shots of different locations. This is even further complicated by the fixed speed -- determined by the satellite's altitude -- such that the decision what locations to select for imaging becomes even more complex. Therefore, classical algorithms for this Satellite Mission Planning Problem (SMPP) have already been proposed decades ago. However, corresponding classical solutions have only seen evolutionary enhancements since then. Quantum computing and its promises, on the other hand, provide the potential for revolutionary improvement. Therefore, in this work, we propose a hybrid classical quantum computing approach to solve the SMPP combining the advantages of quantum hardware with decades of classical optimizer development. Using the Variational Quantum Eigensolver (VQE), Quantum Approximate Optimization Algorithm (QAOA), and its warm-start variant (W-QAOA), we demonstrate the applicability of solving the SMPP for up to 21 locations to choose from. This proof-of-concept -- which is available on GitHub (https://github.com/cda-tum/mqt-problemsolver) as part of the Munich Quantum Toolkit (MQT) -- showcases the potential of quantum computing in this application domain and represents a first step toward competing with classical algorithms in the future.
翻訳日:2023-08-02 16:50:46 公開日:2023-07-31
# Alpha-GPT: 定量的投資のための人間-AIインタラクティブアルファマイニング

Alpha-GPT: Human-AI Interactive Alpha Mining for Quantitative Investment ( http://arxiv.org/abs/2308.00016v1 )

ライセンス: Link先を確認
Saizhuo Wang, Hang Yuan, Leon Zhou, Lionel M. Ni, Heung-Yeung Shum, Jian Guo(参考訳) 定量的投資研究における最も重要なタスクの1つは、新しいアルファ(効果的な取引シグナルや要因)の採掘である。 従来のアルファマイニング法、手作りの因子合成法またはアルゴリズムによる因子マイニング法(例えば、遺伝的プログラミングによる探索)は、特に量子の考え方の実装において固有の制限がある。 本稿では,人間-aiインタラクションの導入による新たなアルファマイニングパラダイムと,大規模言語モデルのパワーを活用することにより,このパラダイムを実現するための新しいプロンプトエンジニアリングアルゴリズムフレームワークを提案する。 さらに、量子研究者のアイデアを「理解」し、創造的で洞察力があり、効果的なアルファを出力する、新しいインタラクティブなアルファマイニングシステムであるAlpha-GPTを開発する。 我々は,多くのアルファマイニング実験を通じて,アルファ-GPTの有効性と利点を示す。

One of the most important tasks in quantitative investment research is mining new alphas (effective trading signals or factors). Traditional alpha mining methods, either hand-crafted factor synthesizing or algorithmic factor mining (e.g., search with genetic programming), have inherent limitations, especially in implementing the ideas of quants. In this work, we propose a new alpha mining paradigm by introducing human-AI interaction, and a novel prompt engineering algorithmic framework to implement this paradigm by leveraging the power of large language models. Moreover, we develop Alpha-GPT, a new interactive alpha mining system framework that provides a heuristic way to ``understand'' the ideas of quant researchers and outputs creative, insightful, and effective alphas. We demonstrate the effectiveness and advantage of Alpha-GPT via a number of alpha mining experiments.
翻訳日:2023-08-02 16:50:20 公開日:2023-07-31
# ジェネレーティブAIが音楽の解釈方法を探る

Exploring how a Generative AI interprets music ( http://arxiv.org/abs/2308.00015v1 )

ライセンス: Link先を確認
Gabriela Barenboim, Luigi Del Debbio, Johannes Hirn, Veronica Sanz(参考訳) GoogleのMusicVAEは512次元の潜伏空間を持つ変分自動エンコーダで、いくつかの音楽のバーを表現し、音楽の記述の関連性に応じて潜伏次元を整理します。 平均すると、ほとんどの潜在ニューロンは、実際の音楽トラックに餌をやる時、沈黙し続ける:これらの「ノイズ」ニューロンと呼ぶ。 燃焼する他の数十個の潜伏ニューロンは「音楽ニューロン」と呼ばれる。 我々は、どのニューロンが音楽情報を持ち、どのような音楽情報、つまり、ピッチ、リズム、メロディとして識別できるのかを尋ねる。 ニューラルネットワークは、ピッチとリズムを記述するために使用される多くの人間定義変数を非線形にエンコードする2つの変数を構築した。 メロディの概念は、音楽の長いシーケンスのために独立したニューロンにのみ現れるように見える。

We use Google's MusicVAE, a Variational Auto-Encoder with a 512-dimensional latent space to represent a few bars of music, and organize the latent dimensions according to their relevance in describing music. We find that, on average, most latent neurons remain silent when fed real music tracks: we call these "noise" neurons. The remaining few dozens of latent neurons that do fire are called "music neurons". We ask which neurons carry the musical information and what kind of musical information they encode, namely something that can be identified as pitch, rhythm or melody. We find that most of the information about pitch and rhythm is encoded in the first few music neurons: the neural network has thus constructed a couple of variables that non-linearly encode many human-defined variables used to describe pitch and rhythm. The concept of melody only seems to show up in independent neurons for longer sequences of music.
翻訳日:2023-08-02 16:50:03 公開日:2023-07-31
# 技術相互依存の新しいマッピング

A new mapping of technological interdependence ( http://arxiv.org/abs/2308.00014v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, B. Guardabascio, F. Venturini(参考訳) どの技術連携がイノベーションの能力に影響を与えるのか? これらの効果は、技術領域をどうやって伝達するのか? 本稿では,テキストマイニングとネットワーク解析の新しい手法を用いて,これらの2つの重要な疑問に答える。 1976年から2021年までの半世紀にわたって、米国特許商標庁(uspto)から与えられた650万件の特許のテキストを分析し、技術分野にまたがるリンケージの完全なスペクトルを明らかにするためにネットワーク分析を適用して、セクター間の技術相互依存性を調査した。 特許文書には、特許引用のような伝統的なイノベーション指標によって捉えられていない豊富な情報が含まれていることを実証する。 ネットワーク解析を用いて, 間接リンクは直接接続と同じくらい重要であり, 前者はレオンティフ逆行列のようなより伝統的な間接リンクの尺度を用いて隠れていることを示す。 最後に、インパルス応答解析に基づいて、技術(ネットワークベース)空間を介して技術ショックがいかに伝達され、セクターのイノベーション能力に影響を与えるかを説明する。

Which technological linkages affect the sector's ability to innovate? How do these effects transmit through the technology space? This paper answers these two key questions using novel methods of text mining and network analysis. We examine technological interdependence across sectors over a period of half a century (from 1976 to 2021) by analyzing the text of 6.5 million patents granted by the United States Patent and Trademark Office (USPTO), and applying network analysis to uncover the full spectrum of linkages existing across technology areas. We demonstrate that patent text contains a wealth of information often not captured by traditional innovation metrics, such as patent citations. By using network analysis, we document that indirect linkages are as important as direct connections and that the former would remain mostly hidden using more traditional measures of indirect linkages, such as the Leontief inverse matrix. Finally, based on an impulse-response analysis, we illustrate how technological shocks transmit through the technology (network-based) space, affecting the innovation capacity of the sectors.
翻訳日:2023-08-02 16:49:47 公開日:2023-07-31
# 二次元システムにおける量子化バンド間トポロジ指標

A Quantized Interband Topological Index in Two-Dimensional Systems ( http://arxiv.org/abs/2307.16893v1 )

ライセンス: Link先を確認
Tharindu Fernando, Ting Cao(参考訳) 二次元(2次元)マルチバンドシステムにおける新しいゲージ不変量子化バンド間指数を導入する。 パラメータ空間の部分多様体(例えば、ブリルアンゾーンの電子谷)のバルク位相分類を提供し、それゆえ部分多様体の位相を特徴づける困難を克服する。 我々は、そのトポロジカルな性質を、$k\cdot p$モデル(例えば、Dirac fermionモデル)における谷チャーン数への1対1対応を数値的に証明し、格子モデル(例えば、Haldaneモデル)における最初のチャーン数を確認した。 さらに、バンド分解した位相電荷を導出し、多層グラフェンのような谷系におけるバンド反転によるエッジ状態の性質を調べるために使用できることを示す。

We introduce a novel gauge-invariant, quantized interband index in two-dimensional (2D) multiband systems. It provides a bulk topological classification of a submanifold of parameter space (e.g., an electron valley in a Brillouin zone), and therefore overcomes difficulties in characterizing topology of submanifolds. We confirm its topological nature by numerically demonstrating a one-to-one correspondence to the valley Chern number in $k\cdot p$ models (e.g., gapped Dirac fermion model), and the first Chern number in lattice models (e.g., Haldane model). Furthermore, we derive a band-resolved topological charge and demonstrate that it can be used to investigate the nature of edge states due to band inversion in valley systems like multilayer graphene.
翻訳日:2023-08-02 16:48:12 公開日:2023-07-31
# 知識グラフ補完のための意味豊かな埋め込みを目指して

Towards Semantically Enriched Embeddings for Knowledge Graph Completion ( http://arxiv.org/abs/2308.00081v1 )

ライセンス: Link先を確認
Mehwish Alam, Frank van Harmelen, Maribel Acosta(参考訳) 埋め込みベースの知識グラフ(KG) 完成度はここ数年で大きな注目を集めている。 現在のアルゴリズムの多くは、KGを多方向ラベル付きグラフと見なしており、スキーマ情報に基づくセマンティクスをキャプチャする能力がない。 別の開発では、人工知能の分野に革命をもたらしたLarge Language Models(LLM)内で、膨大な情報が収集されている。 KGはこれらのLCMの恩恵を受けることができる。 本稿では,KG埋め込み生成のバリエーションに基づいて,既存のKG完了アルゴリズムについて述べる。 トランスダクティブおよびインダクティブリンク予測やエンティティタイプ予測アルゴリズムなど、さまざまなkg補完アルゴリズムについて議論することから始まる。 その後、KG、LLM内の型情報を利用したアルゴリズムに移行し、最後に、異なる記述論理公理で表されるセマンティクスをキャプチャするアルゴリズムに移行する。 本稿は、コミュニティにおける現在の作業状況について批判的な考察を行い、今後の方向性について推奨する。

Embedding based Knowledge Graph (KG) Completion has gained much attention over the past few years. Most of the current algorithms consider a KG as a multidirectional labeled graph and lack the ability to capture the semantics underlying the schematic information. In a separate development, a vast amount of information has been captured within the Large Language Models (LLMs) which has revolutionized the field of Artificial Intelligence. KGs could benefit from these LLMs and vice versa. This vision paper discusses the existing algorithms for KG completion based on the variations for generating KG embeddings. It starts with discussing various KG completion algorithms such as transductive and inductive link prediction and entity type prediction algorithms. It then moves on to the algorithms utilizing type information within the KGs, LLMs, and finally to algorithms capturing the semantics represented in different description logic axioms. We conclude the paper with a critical reflection on the current state of work in the community and give recommendations for future directions.
翻訳日:2023-08-02 16:40:26 公開日:2023-07-31
# 敵対的攻撃に対するネットワーク侵入検出システムを守るための新しい深層学習モデル

A Novel Deep Learning based Model to Defend Network Intrusion Detection System against Adversarial Attacks ( http://arxiv.org/abs/2308.00077v1 )

ライセンス: Link先を確認
Khushnaseeb Roshan, Aasim Zafar, Shiekh Burhan Ul Haque(参考訳) ネットワーク侵入検知システム(NIDS)は、様々なセキュリティリスクや未知のサイバー攻撃からサイバースペースを保護するための重要なツールである。 機械学習(ML)とディープラーニング(DL)ベースのNIDSには、多くのソリューションが実装されている。 しかし、これら全てのソリューションは敵攻撃に弱いため、悪意のあるアクターは敵の混乱した例をシステムに注入することによってモデルを回避または騙そうとする。 本研究の目的は,強力な敵攻撃アルゴリズムとその防衛手法をDLベースNIDS上で研究することである。 Fast Gradient Sign Method (FGSM), Jacobian Saliency Map Attack (JSMA), Projected Gradient Descent (PGD), Carlini & Wagner (C&W) は、NIDSに対して実装された強力な攻撃方法である。 防衛法としては, NIDSモデルの堅牢性を高めるために, 対人訓練を用いる。 結果は3段階、すなわち3段階にまとめられる。 1) 敵の攻撃の前に 2 敵の攻撃の後に、及び 3) 敵の防衛の後。 the canadian institute for cybersecurity intrusion detection system 2017 (cicids-2017) データセットは、f1-scoreや精度など、さまざまなパフォーマンス測定を行う評価目的に使用される。

Network Intrusion Detection System (NIDS) is an essential tool in securing cyberspace from a variety of security risks and unknown cyberattacks. A number of solutions have been implemented for Machine Learning (ML), and Deep Learning (DL) based NIDS. However, all these solutions are vulnerable to adversarial attacks, in which the malicious actor tries to evade or fool the model by injecting adversarial perturbed examples into the system. The main aim of this research work is to study powerful adversarial attack algorithms and their defence method on DL-based NIDS. Fast Gradient Sign Method (FGSM), Jacobian Saliency Map Attack (JSMA), Projected Gradient Descent (PGD) and Carlini & Wagner (C&W) are four powerful adversarial attack methods implemented against the NIDS. As a defence method, Adversarial Training is used to increase the robustness of the NIDS model. The results are summarized in three phases, i.e., 1) before the adversarial attack, 2) after the adversarial attack, and 3) after the adversarial defence. The Canadian Institute for Cybersecurity Intrusion Detection System 2017 (CICIDS-2017) dataset is used for evaluation purposes with various performance measurements like f1-score, accuracy etc.
翻訳日:2023-08-02 16:39:59 公開日:2023-07-31
# crowd safety manager: クラウドイベントの計画と制御のためのデータ駆動アクティブ意思決定支援に向けて

Crowd Safety Manager: Towards Data-Driven Active Decision Support for Planning and Control of Crowd Events ( http://arxiv.org/abs/2308.00076v1 )

ライセンス: Link先を確認
Panchamy Krishnakumari, Sascha Hoogendoorn-Lanser, Jeroen Steenbakkers, Serge Hoogendoorn(参考訳) 本稿では,計画段階と運用段階の両方において,群集管理の促進を目的とした新しい技術と方法論を提案する。 このアプローチには、3D Digital Twinを使った革新的なデータ収集技術、データ統合、可視化に加えて、リスク識別のための人工知能(AI)ツールが組み込まれている。 リスクレベルの評価と予測を目的とした包括的フレームワークであるBortieモデルを紹介する。 このモデルでは,交通流の操作や混雑レベルといった客観的な予測と,気象条件や感情,ビジターの目的など,さまざまな付加的な要因を組み合わせることで,事故の予測リスクを評価する。 提案したフレームワークは、ScheveningenのCrowd Safety Managerプロジェクトに適用され、DigiTwinは多数のリアルタイムデータソースに基づいて開発されている。 注目すべきデータソースのひとつがResonoで,オランダの200万人以上のユーザからなる携帯電話パネルを活用して,ビジター数とその行動に関する洞察を提供する。 特に、状態推定、予測、予測を含むボウタイの左側に注意が向けられている。 特に注目されるのは、resonoデータを使用してイベントプランニング目的で、複数日間の事前予測を生成することだ。 XGBoostフレームワークを含む高度な機械学習技術を比較し、XGBoostは最も正確な予測を示す。 結果は予測が十分正確であることを示している。 しかし、特定の場所は、さらなる予測品質を高めるために追加の入力データから恩恵を受ける可能性がある。 これらの制限にもかかわらず、この研究はより効果的な群衆管理システムに貢献し、この重要な分野におけるさらなる進歩への道を開く。

This paper presents novel technology and methodology aimed at enhancing crowd management in both the planning and operational phases. The approach encompasses innovative data collection techniques, data integration, and visualization using a 3D Digital Twin, along with the incorporation of artificial intelligence (AI) tools for risk identification. The paper introduces the Bowtie model, a comprehensive framework designed to assess and predict risk levels. The model combines objective estimations and predictions, such as traffic flow operations and crowdedness levels, with various aggravating factors like weather conditions, sentiments, and the purpose of visitors, to evaluate the expected risk of incidents. The proposed framework is applied to the Crowd Safety Manager project in Scheveningen, where the DigiTwin is developed based on a wealth of real-time data sources. One noteworthy data source is Resono, offering insights into the number of visitors and their movements, leveraging a mobile phone panel of over 2 million users in the Netherlands. Particular attention is given to the left-hand side of the Bowtie, which includes state estimation, prediction, and forecasting. Notably, the focus is on generating multi-day ahead forecasts for event-planning purposes using Resono data. Advanced machine learning techniques, including the XGBoost framework, are compared, with XGBoost demonstrating the most accurate forecasts. The results indicate that the predictions are adequately accurate. However, certain locations may benefit from additional input data to further enhance prediction quality. Despite these limitations, this work contributes to a more effective crowd management system and opens avenues for further advancements in this critical field.
翻訳日:2023-08-02 16:39:25 公開日:2023-07-31
# Kernel SHAP XAI法によるネットワーク異常検出モデルの最適化

Using Kernel SHAP XAI Method to optimize the Network Anomaly Detection Model ( http://arxiv.org/abs/2308.00074v1 )

ライセンス: Link先を確認
Khushnaseeb Roshan, Aasim Zafar(参考訳) 異常検出とその説明は、侵入検知、不正検出、未知の攻撃検出、ネットワークトラフィック、ログなど、多くの研究領域において重要である。 ひとつのインスタンスが異常である理由や説明を特定するのは難しいですか? もう1つは 拘束力のない 監督的な性質の欠如によるものではない この疑問に対する答えは、説明可能な人工知能(XAI)の新たな技術によって可能となる。 XAIは、Deep Learning (DL)のような複雑なモデルの出力と動作を解釈し、説明するためのツールと技術を提供します。 本稿では,XAI, kernelSHAP法によるネットワーク異常の検出と説明を目的とする。 同じアプローチは、精度、リコール、精度、およびfスコアの観点から、ネットワーク異常検出モデルを改善するために使用される。 この実験は、最新のCICIDS2017データセットで再現されている。 2つのモデル(Model_1 と OPT_Model)が作成され、比較される。 OPT_Modelの総合的精度とFスコアはそれぞれ0.90と0.76である。

Anomaly detection and its explanation is important in many research areas such as intrusion detection, fraud detection, unknown attack detection in network traffic and logs. It is challenging to identify the cause or explanation of why one instance is an anomaly? and the other is not due to its unbounded and lack of supervisory nature. The answer to this question is possible with the emerging technique of explainable artificial intelligence (XAI). XAI provides tools and techniques to interpret and explain the output and working of complex models such as Deep Learning (DL). This paper aims to detect and explain network anomalies with XAI, kernelSHAP method. The same approach is used to improve the network anomaly detection model in terms of accuracy, recall, precision and f score. The experiment is conduced with the latest CICIDS2017 dataset. Two models are created (Model_1 and OPT_Model) and compared. The overall accuracy and F score of OPT_Model (when trained in unsupervised way) are 0.90 and 0.76, respectively.
翻訳日:2023-08-02 16:39:00 公開日:2023-07-31
# 分散媒体におけるマクスウェル方程式の散逸の量子シミュレーション

Quantum simulation of dissipation for Maxwell equations in dispersive media ( http://arxiv.org/abs/2308.00056v1 )

ライセンス: Link先を確認
Efstratios Koukoutsis, Kyriakos Hizanidis, Abhay K. Ram and George Vahala(参考訳) 電磁媒体の散逸特性は、分散性および光性の両方の無損失媒体に存在するユニタリ進化構造を破る。 分散媒体において、散逸はマクスウェル方程式のシュロディンガー表現において、r$-次元部分空間を占有するスパース対角作用素として現れる。 進化のトロッター化により、損失のないケースに対応するユニタリ部分からの散逸に伴う非ユニタリ部分の分離が可能となる。 単位部分は、離散化と関連する場の次元性に基づいて$n$ qubitsで実装可能であることを考慮し、散逸進化部分を扱うための2つの拡張手法を提案する。 最初のアルゴリズムは、不特定環境が損失のないシステムと相互作用し、非単位進化を生成する量子振幅チャネルとしての散逸の実現に基づいている。 したがって、システム環境の組み合わせは閉じられ、ユニタリに進化する。 この物理ユニタリ拡張プロセスは、全系環境ユニタリ進化作用素の実装において、$\textit{O}(2^{n-1}n^2)$小ゲートのスケーリングをもたらす環境として1つのアクビットしか必要としない。 一方,非ユニタリ部をlcu法で処理し,散逸の対角構造を利用することにより,先行する結果に対して最適化された対応部を得る。 非ユニタリ部分は、$\textit{o}(2^{n})$ elementary ゲートで実装できるようになった。 実験結果の光下では、電磁波の伝搬と散乱のフルウェーブ量子シミュレーションが近い将来可能であると考えられる。

The dissipative character of an electromagnetic medium breaks the unitary evolution structure that is present in lossless media, both dispersive and optical. In dispersive media, dissipation appears in the Schrodinger representation of Maxwell equations as a sparse diagonal operator occupying an $r$-dimensional subspace. Trotterization of the evolution enables us to isolate the non-unitary part associated with dissipation from the unitary part that corresponds to the lossless case. Given the fact that the unitary part can be implemented on $n$ qubits based on the discretization and the dimensionality of the pertinent fields we propose two dilation techniques for handling the dissipative evolution part. Our first algorithm is based on realization of dissipation as a quantum amplitude channel where an unspecified environment interacts with the lossless system and produces the non-unitary evolution. Therefore, the combined system-environment is now closed and evolves unitary. This physical unitary dilation process requires only one ancillary qubit as environment resulting in a scaling of $\textit{O}(2^{n-1}n^2)$ elementary gates, in the implementation of the total system-environment unitary evolution operator. On the other hand, by treating the non-unitary part with the LCU method, exploiting the diagonal structure of dissipation, we obtain an optimized counterpart for the previous result. The non-unitary part can now be implemented in $\textit{O}(2^{n})$ elementary gates. Under the light of our results, a full-wave quantum simulation of electromagnetic wave propagation and scattering in complex media is deemed possible in the near future.
翻訳日:2023-08-02 16:38:46 公開日:2023-07-31
# t-fusion net:covid-19検出のための空間的注意機構に基づく複数位置対応型深層ニューラルネットワーク

T-Fusion Net: A Novel Deep Neural Network Augmented with Multiple Localizations based Spatial Attention Mechanisms for Covid-19 Detection ( http://arxiv.org/abs/2308.00053v1 )

ライセンス: Link先を確認
Susmita Ghosh and Abhiroop Chatterjee(参考訳) 近年、ディープニューラルネットワークは画像分類タスクにおいてより良いパフォーマンスを実現している。 しかし、データセットの複雑さの増大とパフォーマンス向上の需要は、革新的な技術を探究する必要がある。 本研究は,空間的注意に基づく複数の局所化を増強する新しい深層ニューラルネットワーク(t-fusion netと呼ばれる)を提案する。 この注意機構により、ネットワークは関連する画像領域に集中することができ、識別能力が向上する。 このネットワークの均質なアンサンブルは、さらに画像分類精度を高めるために用いられる。 アンサンブルの場合、提案手法は個々のT-フュージョンネットの複数のインスタンスを考慮する。 このモデルはファジィマックス融合を組み込んで個々のネットの出力をマージする。 融合プロセスは慎重に選択されたパラメータを通して最適化され、個々のモデルの貢献度にバランスをとる。 ベンチマークCovid-19 (SARS-CoV-2 CTスキャン) による実験により,提案したT-フュージョンネットの有効性とアンサンブルの有効性が示された。 提案するt-fusion netと均質アンサンブルモデルの性能は, 他の最先端法と比較して, それぞれ97.59%, 98.4%の精度を示した。

In recent years, deep neural networks are yielding better performance in image classification tasks. However, the increasing complexity of datasets and the demand for improved performance necessitate the exploration of innovative techniques. The present work proposes a new deep neural network (called as, T-Fusion Net) that augments multiple localizations based spatial attention. This attention mechanism allows the network to focus on relevant image regions, improving its discriminative power. A homogeneous ensemble of the said network is further used to enhance image classification accuracy. For ensembling, the proposed approach considers multiple instances of individual T-Fusion Net. The model incorporates fuzzy max fusion to merge the outputs of individual nets. The fusion process is optimized through a carefully chosen parameter to strike a balance on the contributions of the individual models. Experimental evaluations on benchmark Covid-19 (SARS-CoV-2 CT scan) dataset demonstrate the effectiveness of the proposed T-Fusion Net as well as its ensemble. The proposed T-Fusion Net and the homogeneous ensemble model exhibit better performance, as compared to other state-of-the-art methods, achieving accuracy of 97.59% and 98.4%, respectively.
翻訳日:2023-08-02 16:38:21 公開日:2023-07-31
# 計測ショットノイズによる変分量子最適化の課題

Challenges of variational quantum optimization with measurement shot noise ( http://arxiv.org/abs/2308.00044v1 )

ライセンス: Link先を確認
Giuseppe Scriva, Nikita Astrakhantsev, Sebastiano Pilati and Guglielmo Mazzola(参考訳) 古典的コスト関数の量子拡張最適化は、科学技術における高い潜在価値のために、量子コンピューティングの中心的なテーマである。 変分量子固有ソルバ(vqe)と量子近似最適化アルゴリズム(qaoa)は、ノイズ-中間スケール量子(nisq)時代の最も有効な解と考えられる変分法である。 本稿では,回路繰り返しの必要な数として定義される量子資源のスケーリングについて検討し,問題サイズが増加するにつれて一定成功確率に達するように,実実装では避けられないショットノイズの測定が果たす役割に着目した。 単純かつ再現可能な問題例、すなわち強磁性と無秩序イジング鎖に対処する。 結果はこう示しています (i)エネルギーベースオプティマイザを用いる場合、標準ヒューリスティックアンサッツのVQEは、直接ブルートフォースサーチに好適にスケールする。 グラデーションベースのオプティマイザを使用して、パフォーマンスは最大2倍改善される。 (ii)パラメータがランダムな推測から最適化された場合、qaoaのスケーリングは、大きな問題のサイズに対して問題なく長い絶対ランタイムを意味する。 (iii)パラメータの物理的にインスパイアされた初期化を補うとqaoaは実用的になる。 以上の結果から,ハイブリッド量子古典アルゴリズムは古典的外ループを回避できるが,スマートパラメータの初期化に注目すべきであることが示唆された。

Quantum enhanced optimization of classical cost functions is a central theme of quantum computing due to its high potential value in science and technology. The variational quantum eigensolver (VQE) and the quantum approximate optimization algorithm (QAOA) are popular variational approaches that are considered the most viable solutions in the noisy-intermediate scale quantum (NISQ) era. Here, we study the scaling of the quantum resources, defined as the required number of circuit repetitions, to reach a fixed success probability as the problem size increases, focusing on the role played by measurement shot noise, which is unavoidable in realistic implementations. Simple and reproducible problem instances are addressed, namely, the ferromagnetic and disordered Ising chains. Our results show that: (i) VQE with the standard heuristic ansatz scales comparably to direct brute-force search when energy-based optimizers are employed. The performance improves at most quadratically using a gradient-based optimizer. (ii) When the parameters are optimized from random guesses, also the scaling of QAOA implies problematically long absolute runtimes for large problem sizes. (iii) QAOA becomes practical when supplemented with a physically-inspired initialization of the parameters. Our results suggest that hybrid quantum-classical algorithms should possibly avoid a brute force classical outer loop, but focus on smart parameters initialization.
翻訳日:2023-08-02 16:38:04 公開日:2023-07-31
# ジェネレーティブAIのための強化学習 - 最先端、機会、オープンリサーチの課題

Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges ( http://arxiv.org/abs/2308.00031v1 )

ライセンス: Link先を確認
Giorgio Franceschelli and Mirco Musolesi(参考訳) Generative Artificial Intelligence(AI)は、コンピュータ科学における過去10年で最もエキサイティングな発展の1つだ。 同時に、強化学習(rl)は、さまざまな機械学習タスクにおいて非常に成功したパラダイムとして現れています。 本稿では,RLを生成AIに適用するための技術,機会,オープンな研究課題について論じる。 特に、目的関数を同時に最大化しながら出力を生成する方法としてRL、目的関数によって容易に捕捉できない所望の特性を生成プロセスに組み込む方法として、RLを特定の目的関数なしで生成する代替方法として論じる。 我々は,この魅力的な新興地域の機会と課題について,深く議論して調査を締めくくった。

Generative Artificial Intelligence (AI) is one of the most exciting developments in Computer Science of the last decade. At the same time, Reinforcement Learning (RL) has emerged as a very successful paradigm for a variety of machine learning tasks. In this survey, we discuss the state of the art, opportunities and open research questions in applying RL to generative AI. In particular, we will discuss three types of applications, namely, RL as an alternative way for generation without specified objectives; as a way for generating outputs while concurrently maximizing an objective function; and, finally, as a way of embedding desired characteristics, which cannot be easily captured by means of an objective function, into the generative process. We conclude the survey with an in-depth discussion of the opportunities and challenges in this fascinating emerging area.
翻訳日:2023-08-02 16:37:43 公開日:2023-07-31
# diviml: ニューラルネットワークを異種プラットフォームにマッピングするモジュールベースのヒューリスティック

DiviML: A Module-based Heuristic for Mapping Neural Networks onto Heterogeneous Platforms ( http://arxiv.org/abs/2308.00127v1 )

ライセンス: Link先を確認
Yassine Ghannane and Mohamed S. Abdelfattah(参考訳) データセンターはますます異質になりつつあり、ネットワーキングやビデオ処理、特にディープラーニングのための特別なハードウェアも含み始めている。 現代のデータセンターの異種計算能力を活用するため、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスにコンパイラレベルで分割する手法を開発した。 自動パーティショニングとデバイスマッピングを提供する異種DNNコンパイルのための汎用フレームワークを提案する。 我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とスケーラビリティのためのモジュラリティベースのヒューリスティックにより、正確な解法と統合する。 さらに, 最適解に対する理論的下界式を提案し, ヒューリスティック解の品質を評価する。 我々は、CPUと2つの異なるGPUからなる異種システム上で、待ち時間とスループットの制約を受ける従来のDNNとランダムに配線されたニューラルネットワークの両方を最適化するスケジューラを評価する。 最速のgpu上でdnnを高速に実行するのに比べ、氏は、データとモデルの並列性を利用して、サンプルのヘテロジニアスサーバノードにdnnをデプロイすることによって、3$\times$のレイテンシーと2.9$\times$のスループットを達成できるフレームワークを提案しました。 さらに、モジュラリティベースの"スプリッティング"ヒューリスティックは、ソリューションのクオリティを完全に犠牲にすることなく、ソリューションランタイムを395$\times$まで改善し、他のすべてのヒューリスティックを30~60%のソリューション品質で上回らせます。 最後に,本ケーススタディでは,ハードウェア設定の対称性を生かして,複数の異種サーバにまたがる大規模言語モデルをスケジュールするためのフレームワークを拡張する方法を示す。 私たちのコードは既存のフレームワークに簡単にプラグインでき、https://github.com/abdelfattah-lab/divimlで利用できます。

Datacenters are increasingly becoming heterogeneous, and are starting to include specialized hardware for networking, video processing, and especially deep learning. To leverage the heterogeneous compute capability of modern datacenters, we develop an approach for compiler-level partitioning of deep neural networks (DNNs) onto multiple interconnected hardware devices. We present a general framework for heterogeneous DNN compilation, offering automatic partitioning and device mapping. Our scheduler integrates both an exact solver, through a mixed integer linear programming (MILP) formulation, and a modularity-based heuristic for scalability. Furthermore, we propose a theoretical lower bound formula for the optimal solution, which enables the assessment of the heuristic solutions' quality. We evaluate our scheduler in optimizing both conventional DNNs and randomly-wired neural networks, subject to latency and throughput constraints, on a heterogeneous system comprised of a CPU and two distinct GPUs. Compared to na\"ively running DNNs on the fastest GPU, he proposed framework can achieve more than 3$\times$ times lower latency and up to 2.9$\times$ higher throughput by automatically leveraging both data and model parallelism to deploy DNNs on our sample heterogeneous server node. Moreover, our modularity-based "splitting" heuristic improves the solution runtime up to 395$\times$ without noticeably sacrificing solution quality compared to an exact MILP solution, and outperforms all other heuristics by 30-60% solution quality. Finally, our case study shows how we can extend our framework to schedule large language models across multiple heterogeneous servers by exploiting symmetry in the hardware setup. Our code can be easily plugged in to existing frameworks, and is available at https://github.com/abdelfattah-lab/diviml.
翻訳日:2023-08-02 16:32:06 公開日:2023-07-31
# DAVIS:生成拡散モデルを用いた高品質オーディオ・ビジュアル分離

DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion Models ( http://arxiv.org/abs/2308.00122v1 )

ライセンス: Link先を確認
Chao Huang, Susan Liang, Yapeng Tian, Anurag Kumar, Chenliang Xu(参考訳) 我々は拡散モデルに基づく音響-振動分離フレームワークであるdavisを提案し,音声-視覚音源分離タスクを生成的手法で解く。 マスク回帰を行う既存の識別手法はこの分野で顕著な進歩を遂げてきたが、様々なカテゴリーから高品質な音の分離に必要な複雑なデータ分布を捉えるのに限界に直面している。 対照的に、デービスは生成拡散モデルと分離u-netを利用してガウス雑音から分離した等級を合成し、音声混合と映像の両方で条件付けする。 DAVISは、その生成目的により、様々なカテゴリーで高品質な音分離の目標を達成するのに適している。 DAVISを、ドメイン固有のMUSICデータセットとオープンドメインAVVデータセット上の既存の最先端の識別的オーディオ視覚分離手法と比較した結果、DAVISは分離品質において他の手法よりも優れており、オーディオ視覚ソース分離タスクに対処するためのフレームワークの利点を実証している。

We propose DAVIS, a Diffusion model-based Audio-VIusal Separation framework that solves the audio-visual sound source separation task through a generative manner. While existing discriminative methods that perform mask regression have made remarkable progress in this field, they face limitations in capturing the complex data distribution required for high-quality separation of sounds from diverse categories. In contrast, DAVIS leverages a generative diffusion model and a Separation U-Net to synthesize separated magnitudes starting from Gaussian noises, conditioned on both the audio mixture and the visual footage. With its generative objective, DAVIS is better suited to achieving the goal of high-quality sound separation across diverse categories. We compare DAVIS to existing state-of-the-art discriminative audio-visual separation methods on the domain-specific MUSIC dataset and the open-domain AVE dataset, and results show that DAVIS outperforms other methods in separation quality, demonstrating the advantages of our framework for tackling the audio-visual source separation task.
翻訳日:2023-08-02 16:31:29 公開日:2023-07-31
# MODSのためのモジュールオントロジー-メタデータオブジェクト記述スキーマ

A Modular Ontology for MODS -- Metadata Object Description Schema ( http://arxiv.org/abs/2308.00116v1 )

ライセンス: Link先を確認
Rushrukh Rayan, Cogan Shimizu, Heidi Sieverding, Pascal Hitzler(参考訳) メタデータオブジェクト記述スキーマ(MODS)は、文献概念とメタデータを記述するために開発され、議会図書館によって維持されている。 その権威あるバージョンはxmlマインドセットに基づいたxmlスキーマとして与えられ、知識グラフのコンテキストでの使用にはかなりの制限があることを意味する。 そこで我々は、MODS XMLスキーマのすべての要素と属性を組み込んだModular MODS Ontology (MMODS-O)を開発した。 オントロジの設計では,モジュール型オントロジ設計と品質型オントロジ設計のバランスを取ることを目的として,最近のモジュール型オントロジ設計方法論(momo)を採用する。

The Metadata Object Description Schema (MODS) was developed to describe bibliographic concepts and metadata and is maintained by the Library of Congress. Its authoritative version is given as an XML schema based on an XML mindset which means that it has significant limitations for use in a knowledge graphs context. We have therefore developed the Modular MODS Ontology (MMODS-O) which incorporates all elements and attributes of the MODS XML schema. In designing the ontology, we adopt the recent Modular Ontology Design Methodology (MOMo) with the intention to strike a balance between modularity and quality ontology design on the one hand, and conservative backward compatibility with MODS on the other.
翻訳日:2023-08-02 16:31:09 公開日:2023-07-31
# 一人の人間が100個の異種ロボットの群れを監督できるのか?

Can A Single Human Supervise A Swarm of 100 Heterogeneous Robots? ( http://arxiv.org/abs/2308.00102v1 )

ライセンス: Link先を確認
Julie A. Adams, Joshua Hamell, and Phillip Walker(参考訳) オープンリサーチの疑問は、人間が現実世界の環境でタスクを完了させる真の異種ロボット群を監督できるかどうかだ。 一般的な懸念は、人間のワークロードが破壊点に課税されるかどうかである。 国防高等研究計画局(Defense Advanced Research Projects Agency)のOFsensive Swarm-Enabled Tacticsプログラムのフィールドエクササイズは、アメリカ陸軍の都市訓練現場で行われた。 Aggregate Swarm Tactics インテグレーターチームのSwarmコマンドは、関連するミッションを実行するために異種ロボットSwarmをユーザに提供する。 最終オフセットプログラムの演習の間、チームはteh swarm commanderのヒューマンパフォーマンスに関する客観的および主観的なメトリクスを収集した。 ワークロードの5つのコンポーネントに基づいて全体のワークロードを推定する多次元ワークロードアルゴリズムを用いて結果を分析した。 群れ指揮官の作業負荷の見積もりは過負荷の閾値を頻繁に越えたが、群れ指揮官はしばしば困難な作戦条件下で任務を完了することができた。 その結果,1人の人間が100個の異種ロボット群を配置して実世界のミッションを行うことができた。

An open research question has been whether a single human can supervise a true heterogeneous swarm of robots completing tasks in real world environments. A general concern is whether or not the human's workload will be taxed to the breaking point. The Defense Advanced Research Projects Agency's OFFsensive Swarm-Enabled Tactics program's field exercises that occurred at U.S. Army urban training sites provided the opportunity to understand the impact of achieving such swarm deployments. The Command and Control of Aggregate Swarm Tactics integrator team's swarm commander users the heterogeneous robot swarm to conduct relevant missions. During the final OFFSET program field exercise, the team collected objective and subjective metrics related to teh swarm commander's human performance. A multi-dimensional workload algorithm that estimates overall workload based on five components of workload was used to analyze the results. While the swarm commander's workload estimate did cross the overload threshold frequently, the swarm commander was able to successfully complete the missions, often under challenging operational conditions. The presented results demonstrate that a single human can deploy a swarm of 100 heterogeneous robots to conduct real-world missions.
翻訳日:2023-08-02 16:30:54 公開日:2023-07-31
# 次世代マルチコア光ファイバーを用いた高速オープン量子系の非マルコビアン性

Non-Markovianity in High-Dimensional Open Quantum Systems using Next-generation Multicore Optical Fibers ( http://arxiv.org/abs/2308.00094v1 )

ライセンス: Link先を確認
Santiago Rojas-Rojas and Daniel Mart\'inez and Kei Sawada and Luciano Pereira and Stephen P. Walborn and Esteban S. G\'omez and Nadja K. Bernardes and Gustavo Lima(参考訳) 量子テクノロジーの出現により、量子システムによるコミュニケーションタスクへの関心は、学界と産業の両方で高まっている。 それでも、実世界のシナリオにおける量子状態の伝達は環境ノイズによって制限され、量子チャネルは開量子系となる。 本研究では,マルチコア光ファイバにおける高次元非マルコフ開量子システムについて,環境相互作用を量子演算として特徴付けることにより検討する。 実験プラットフォームは現在、空間分割多重光ファイバー通信のための最先端技術であり、高次元量子通信のロバストチャネルとして機能する。 チャネルをテストするために、準備と測定のシナリオで量子通信タスクを実行する。 このシステムのマルコフ的でない性質は量子Vaultプロトコルの実装によって実証される。 マルチコアファイバの位相ノイズをよりよく理解することで、世界中の通信通信速度を向上する主要な候補であるため、複数の実世界の通信プロトコルの安定性と品質を向上させることができる。

With the advent of quantum technology, the interest in communication tasks assisted by quantum systems has increased both in academia and industry. Nonetheless, the transmission of a quantum state in real-world scenarios is bounded by environmental noise, so that the quantum channel is an open quantum system. In this work, we study a high dimensional non-Markovian open quantum system in a multi-core optical fiber by characterizing the environmental interaction as quantum operations, which here correspond to phase flips between pairs of computational basis states. The experimental platform is currently state-of-the-art for space division multiplexing optical fiber communication, which can serve as a robust channel for high-dimensional quantum communication. To test the channel, we perform a quantum communication task in the prepare-and-measure scenario. The non-Markovian nature of the system is demonstrated by implementing a Quantum Vault protocol. A better understanding of the phase noise in multi-core fibers could improve the stability and quality of several real-world communication protocols since they are a prime candidate to increase the telecom data transmission rate worldwide.
翻訳日:2023-08-02 16:30:27 公開日:2023-07-31
# 複雑な新規物体の密充填のための畳み込み占有モデル

Convolutional Occupancy Models for Dense Packing of Complex, Novel Objects ( http://arxiv.org/abs/2308.00091v1 )

ライセンス: Link先を確認
Nikhil Mishra, Pieter Abbeel, Xi Chen, Maximilian Sieb(参考訳) ピックアップ・アンド・プレイスシステムにおけるDense Packingは多くの倉庫や物流アプリケーションにおいて重要な機能である。 この分野における以前の研究は、シミュレーションにおける計画アルゴリズムに主に焦点を合わせてきたが、実世界のパッキング性能は、密集した部分的に観察されたシーンで3Dオブジェクトの幾何学を知覚することの難しさによってボトルネックとなることが多い。 本研究では,実世界における密包装の既成計画手法と容易に組み合わせることができる完全畳み込み形状完備モデルF-CONを提案する。 また,実単語ロボットアプリケーションの形状補完モデルのトレーニングに使用可能なシミュレーションデータセットであるcob-3d-v2をリリースし,f-conが他の最先端形状補完手法よりも優れていることを示す。 最後に、F-CONと現実世界のピック・アンド・プレイス・システムを備え、散らばったシーンで複雑で見えない物体を密集したパッキングを示す。 複数の計画法で、F-CONは他の形状完成法よりもかなり優れた密充填を可能にする。

Dense packing in pick-and-place systems is an important feature in many warehouse and logistics applications. Prior work in this space has largely focused on planning algorithms in simulation, but real-world packing performance is often bottlenecked by the difficulty of perceiving 3D object geometry in highly occluded, partially observed scenes. In this work, we present a fully-convolutional shape completion model, F-CON, which can be easily combined with off-the-shelf planning methods for dense packing in the real world. We also release a simulated dataset, COB-3D-v2, that can be used to train shape completion models for real-word robotics applications, and use it to demonstrate that F-CON outperforms other state-of-the-art shape completion methods. Finally, we equip a real-world pick-and-place system with F-CON, and demonstrate dense packing of complex, unseen objects in cluttered scenes. Across multiple planning methods, F-CON enables substantially better dense packing than other shape completion methods.
翻訳日:2023-08-02 16:29:44 公開日:2023-07-31
# 自己教師付き表現学習による視覚局所化

Visual Geo-localization with Self-supervised Representation Learning ( http://arxiv.org/abs/2308.00090v1 )

ライセンス: Link先を確認
Jiuhong Xiao, Gao Zhu and Giuseppe Loianno(参考訳) visual geo-localization (vg) が重要な研究領域として登場し、視覚的特徴に基づく位置情報の特定を目指している。 ほとんどのVGアプローチは、表現学習に学習可能な特徴抽出器を使用する。 近年,自己監視学習(SSL)手法は,多数の未ラベル画像を用いて教師付き手法に匹敵する性能を示した。 本研究では,SSL方式による大規模VGデータセットの性能向上とトレーニングの効率化を目的とした,新しい統合VG-SSLフレームワークを提案する。 我々の作業には、VG用に調整された複数のSSLメソッド、SimCLR、MoCov2、BYOL、SimSiam、Barlow Twins、VICRegが組み込まれています。 本稿では,異なるトレーニング戦略の性能を体系的に分析し,VGタスクに対するSSLメソッドの適応のための最適パラメータ設定について検討する。 その結果,HNM(Hard Negative Mining)に付随する計算量やメモリ使用量を用いなくても,HNMを用いたベースラインのVG性能にマッチしたり,超えたりできることがわかった。 コードはhttps://github.com/arplaboratory/vg_sslで入手できる。

Visual Geo-localization (VG) has emerged as a significant research area, aiming to identify geolocation based on visual features. Most VG approaches use learnable feature extractors for representation learning. Recently, Self-Supervised Learning (SSL) methods have also demonstrated comparable performance to supervised methods by using numerous unlabeled images for representation learning. In this work, we present a novel unified VG-SSL framework with the goal to enhance performance and training efficiency on a large VG dataset by SSL methods. Our work incorporates multiple SSL methods tailored for VG: SimCLR, MoCov2, BYOL, SimSiam, Barlow Twins, and VICReg. We systematically analyze the performance of different training strategies and study the optimal parameter settings for the adaptation of SSL methods for the VG task. The results demonstrate that our method, without the significant computation and memory usage associated with Hard Negative Mining (HNM), can match or even surpass the VG performance of the baseline that employs HNM. The code is available at https://github.com/arplaboratory/VG_SSL.
翻訳日:2023-08-02 16:29:25 公開日:2023-07-31
# 分布の単調性とログ共空性試験のための新しい下界

New Lower Bounds for Testing Monotonicity and Log Concavity of Distributions ( http://arxiv.org/abs/2308.00089v1 )

ライセンス: Link先を確認
Yuqian Cheng, Daniel M. Kane, Zhicheng Zheng(参考訳) 本研究では,分布のビン確率を含む不等式で定義される特性に対して,分布の下位境界をテストする新しい手法を開発した。 この手法を用いて, 離散立方体上の単調性試験における新しい下界と, 対数包絡性試験における下界を得る。 我々の基本的なテクニックは、一対のビンの確率を微調整し、一方の家族が定義の不等式を維持し、他方がそれらに違反するようにすることで、一対のモーメントマッチングされた分布の族を構築することである。

We develop a new technique for proving distribution testing lower bounds for properties defined by inequalities involving the bin probabilities of the distribution in question. Using this technique we obtain new lower bounds for monotonicity testing over discrete cubes and tight lower bounds for log-concavity testing. Our basic technique involves constructing a pair of moment-matching families of distributions by tweaking the probabilities of pairs of bins so that one family maintains the defining inequalities while the other violates them.
翻訳日:2023-08-02 16:29:06 公開日:2023-07-31
# 光コンピューティングの物理

The physics of optical computing ( http://arxiv.org/abs/2308.00088v1 )

ライセンス: Link先を確認
Peter L. McMahon(参考訳) 過去10年間、学術と産業の両方で光学コンピューティングへの関心が復活しており、その興奮の多くは神経ネットワーク処理のための専用光学コンピュータを中心にしている。 光コンピューティングは、30年前のニューラルネットワークを含む50年以上にわたって周期的研究の対象となり、様々な光学計算方式やアーキテクチャが提案されてきた。 本稿では,光計算機の設計に利用できる11の光学的特徴を列挙し,光工学が計算機の電子回路よりも速度やエネルギー効率の利点を享受できる理由と方法に関する体系的な説明を行う。 光コンピューティングのモチベーションの1つ -- 光の速さは高速である -- は、コンピューティングのための光学の物理的特性を差別化するための鍵ではない。 我々は、最先端の電子プロセッサよりも優位になることは、11の1つ以上の機能を利用する慎重な設計によってのみ達成可能であり、我々が記述する多くの落とし穴を回避できる可能性について議論する。

There has been a resurgence of interest in optical computing over the past decade, both in academia and in industry, with much of the excitement centered around special-purpose optical computers for neural-network processing. Optical computing has been a topic of periodic study for over 50 years, including for neural networks three decades ago, and a wide variety of optical-computing schemes and architectures have been proposed. In this paper we provide a systematic explanation of why and how optics might be able to give speed or energy-efficiency benefits over electronics for computing, enumerating 11 features of optics that can be harnessed when designing an optical computer. One often-mentioned motivation for optical computing -- that the speed of light $c$ is fast -- is not a key differentiating physical property of optics for computing; understanding where an advantage could come from is more subtle. We discuss how gaining an advantage over state-of-the-art electronic processors will likely only be achievable by careful design that harnesses more than one of the 11 features, while avoiding a number of pitfalls that we describe.
翻訳日:2023-08-02 16:28:55 公開日:2023-07-31
# 医用画像におけるデータとモデル不均一性の融合学習

Federated Learning for Data and Model Heterogeneity in Medical Imaging ( http://arxiv.org/abs/2308.00155v1 )

ライセンス: Link先を確認
Hussain Ahmad Madni, Rao Muhammad Umer and Gian Luca Foresti(参考訳) Federated Learning(FL)は、複数のクライアントがデータを互いに中央サーバと共有することなく、協調学習に参加する、進化する機械学習手法である。 病院や産業などの現実的な応用において、FLは、データ不均一性とモデル不均一性の課題を、共同トレーニングの必然的な部分として対処する。 具体的には、病院のような異なる組織は独自のプライベートデータを持ち、ローカルトレーニング用にカスタマイズされたモデルを持っている。 我々の知る限り、既存の手法はFLにおけるモデル不均一性とデータ不均一性の両方に効果的に対処しない。 本稿では,データとモデルの不均一性を同時に利用し,その問題を解決するためにMDH-FL(Exploiting Model and Data Heterogeneity in FL)を提案する。 我々は,不均一性とモデル性能への影響を最小限に抑えるために,知識蒸留と対称損失を用いる。 知識蒸留はモデル不均一性の問題を解決するために用いられ、対称損失はデータとラベルの不均一性に取り組む。 本手法は病院の現実シナリオに適合するように医療データセット上で評価し,既存の手法と比較する。 実験により,提案手法が既存手法よりも優れていることを示す。

Federated Learning (FL) is an evolving machine learning method in which multiple clients participate in collaborative learning without sharing their data with each other and the central server. In real-world applications such as hospitals and industries, FL counters the challenges of data heterogeneity and model heterogeneity as an inevitable part of the collaborative training. More specifically, different organizations, such as hospitals, have their own private data and customized models for local training. To the best of our knowledge, the existing methods do not effectively address both problems of model heterogeneity and data heterogeneity in FL. In this paper, we exploit the data and model heterogeneity simultaneously, and propose a method, MDH-FL (Exploiting Model and Data Heterogeneity in FL) to solve such problems to enhance the efficiency of the global model in FL. We use knowledge distillation and a symmetric loss to minimize the heterogeneity and its impact on the model performance. Knowledge distillation is used to solve the problem of model heterogeneity, and symmetric loss tackles with the data and label heterogeneity. We evaluate our method on the medical datasets to conform the real-world scenario of hospitals, and compare with the existing methods. The experimental results demonstrate the superiority of the proposed approach over the other existing methods.
翻訳日:2023-08-02 16:21:07 公開日:2023-07-31
# 量子力学の古典的確率表現

Classical stochastic representation of quantum mechanics ( http://arxiv.org/abs/2308.00151v1 )

ライセンス: Link先を確認
M\'ario j. de Oliveira(参考訳) 量子系の力学は、ハミルトンの運動方程式に従う基礎となる古典系の力学によって表されることを示す。 これは次元 2n$ の位相空間を次元 $n$ のヒルベルト空間に変換することで達成され、これは実正準変数の対を複素共役である複素正準変数の対に変換する特異な正準変換によって得られる。 量子力学の確率的特性は、波動関数を確率変数として扱うことによって考案される。 基底系のダイナミクスは状態ベクトルのノルムを保存するために選択される。

We show that the dynamics of a quantum system can be represented by the dynamics of an underlying classical systems obeying the Hamilton equations of motion. This is achieved by transforming the phase space of dimension $2n$ into a Hilbert space of dimension $n$ which is obtained by a peculiar canonical transformation that changes a pair of real canonical variables into a pair of complex canonical variables which are complex conjugate of each other. The probabilistic character of quantum mechanics is devised by treating the wave function as a stochastic variable. The dynamics of the underlying system is chosen so as to preserve the norm of the state vector.
翻訳日:2023-08-02 16:20:46 公開日:2023-07-31
# アーティスト画像の幾何学的抽象化とテクスチャ制御

Controlling Geometric Abstraction and Texture for Artistic Images ( http://arxiv.org/abs/2308.00148v1 )

ライセンス: Link先を確認
Martin B\"u{\ss}emeyer, Max Reimann, Benito Buchheim, Amir Semmo, J\"urgen D\"ollner, Matthias Trapp(参考訳) 芸術画像における幾何学的抽象とテクスチャのインタラクティブな制御法を提案する。 以前の例ベースのスタイリング手法は、しばしば形状、テクスチャ、色を絡ませるが、画像合成のための生成法は一般的に、顔のみを許すか、正確な編集制御を提供しないような入力画像に関する仮定を行う。 対照的に、我々の全体論的アプローチは、入力を空間的に形状に分解し、画像のテクスチャを構成する高周波詳細のパラメトリック表現により、色とテクスチャの独立制御を可能にする。 この表現の各パラメータは、微分可能なスタイライゼーションフィルタのパイプラインの画家的属性を制御する。 形状とテクスチャの切り離しにより,インタラクティブなグローバル・局所的な形状調整,ストローク,表面のレリーフや輪郭などの絵画特性など,スタイル的な編集の様々な選択肢が可能になる。 さらに,参照画像とテキストプロンプトを用いたパラメトリック空間における最適化に基づくテクスチャ変換と,リアルタイムテクスチャ分解のための単一および任意のスタイルパラメータ予測ネットワークのトレーニングを実演する。

We present a novel method for the interactive control of geometric abstraction and texture in artistic images. Previous example-based stylization methods often entangle shape, texture, and color, while generative methods for image synthesis generally either make assumptions about the input image, such as only allowing faces or do not offer precise editing controls. By contrast, our holistic approach spatially decomposes the input into shapes and a parametric representation of high-frequency details comprising the image's texture, thus enabling independent control of color and texture. Each parameter in this representation controls painterly attributes of a pipeline of differentiable stylization filters. The proposed decoupling of shape and texture enables various options for stylistic editing, including interactive global and local adjustments of shape, stroke, and painterly attributes such as surface relief and contours. Additionally, we demonstrate optimization-based texture style-transfer in the parametric space using reference images and text prompts, as well as the training of single- and arbitrary style parameter prediction networks for real-time texture decomposition.
翻訳日:2023-08-02 16:20:38 公開日:2023-07-31
# 差分:ラベル効率ノード分類のためのアクティブラーニングとグラフ拡散の結合

DiffusAL: Coupling Active Learning with Graph Diffusion for Label-Efficient Node Classification ( http://arxiv.org/abs/2308.00146v1 )

ライセンス: Link先を確認
Sandra Gilhuber, Julian Busch, Daniel Rotthues, Christian M. M. Frey and Thomas Seidl(参考訳) ノード分類は属性付きグラフのコアタスクの1つだが、成功したグラフ学習ソリューションは十分なラベル付きデータを必要とする。 アノテーションコストを低く抑えるために、アクティブグラフ学習はラベル効率を最大化するノードの最も質的なサブセットを選択することに焦点を当てている。 しかし、ラベルの効率を高めるためにラベルのないグラフにどのヒューリスティックが最適かを決めることは、永続的な課題である。 既存のソリューションは、学習したモデルとサンプリング方法の整合性を無視したり、限られた選択面にのみフォーカスする。 したがって、ランダムサンプリングと同程度に悪い場合もあれば、良い場合もあります。 そこで本研究では,多種多様な環境において大きなロバスト性を示すdiffusalと呼ばれる新しいアクティブグラフ学習手法を提案する。 異なるグラフ構造間の転送性の向上に向けて、3つの独立スコアリング関数を組み合わせて、パラメータフリーな方法でラベル付けのための最も情報性の高いノードサンプルを同定する。 一 モデル不確実性 二 多様性成分、及び iii)グラフ拡散ヒューリスティックスによって計算されるノードの重要性。 取得とトレーニングのための計算のほとんどは前処理が可能で、多様な選択基準とより単純なヒューリスティックなアプローチを組み合わせたアプローチと比較して、ディフューサルはより効率的です。 ベンチマークデータセットを用いた実験では,従来の手法と異なり,全データセットの100%におけるランダム選択やラベリング予算を大きく上回る結果が得られた。

Node classification is one of the core tasks on attributed graphs, but successful graph learning solutions require sufficiently labeled data. To keep annotation costs low, active graph learning focuses on selecting the most qualitative subset of nodes that maximizes label efficiency. However, deciding which heuristic is best suited for an unlabeled graph to increase label efficiency is a persistent challenge. Existing solutions either neglect aligning the learned model and the sampling method or focus only on limited selection aspects. They are thus sometimes worse or only equally good as random sampling. In this work, we introduce a novel active graph learning approach called DiffusAL, showing significant robustness in diverse settings. Toward better transferability between different graph structures, we combine three independent scoring functions to identify the most informative node samples for labeling in a parameter-free way: i) Model Uncertainty, ii) Diversity Component, and iii) Node Importance computed via graph diffusion heuristics. Most of our calculations for acquisition and training can be pre-processed, making DiffusAL more efficient compared to approaches combining diverse selection criteria and similarly fast as simpler heuristics. Our experiments on various benchmark datasets show that, unlike previous methods, our approach significantly outperforms random selection in 100% of all datasets and labeling budgets tested.
翻訳日:2023-08-02 16:20:17 公開日:2023-07-31
# リアクティブシステム内のニューラルネットワークの形式的説明

Formally Explaining Neural Networks within Reactive Systems ( http://arxiv.org/abs/2308.00143v1 )

ライセンス: Link先を確認
Shahaf Bassan, Guy Amir, Davide Corsi, Idan Refaeli, Guy Katz(参考訳) ディープニューラルネットワーク(DNN)は、リアクティブシステムのコントローラとしてますます利用されている。 しかし、DNNは非常に不透明であり、その動作の説明と正当化が難しい。 この問題を軽減するため、DNNが動作させた入力機能を特定できる、説明可能なAI(XAI)技術への関心が高まっている。 既存のXAI技術には2つの制限がある。 (i)彼らはヒューリスティックであり、説明が正しいという正式な保証を与えていない。 (ii)反応系とは対照的に「ワンショット」システム(dnnは過去の呼び出しとは独立して呼び出される)にしばしば適用される。 そこで我々は,このギャップを埋め始め,多段階のリアクティブシステムを推論するための形式的DNN検証ベースのXAI手法を提案する。 本稿では,システムの遷移制約を利用して,検証者が探索する探索空間を短縮し,簡潔な説明を効率的に計算する方法を提案する。 提案手法は,自動ナビゲーションの領域における2つの人気のあるベンチマークで評価し,最小および最小説明の効率的な計算が可能でありながら,その性能を著しく上回っていることを検証した。 また,本手法が競合する非検証型XAI技術よりも信頼性の高い形式的説明を生成することを示す。

Deep neural networks (DNNs) are increasingly being used as controllers in reactive systems. However, DNNs are highly opaque, which renders it difficult to explain and justify their actions. To mitigate this issue, there has been a surge of interest in explainable AI (XAI) techniques, capable of pinpointing the input features that caused the DNN to act as it did. Existing XAI techniques typically face two limitations: (i) they are heuristic, and do not provide formal guarantees that the explanations are correct; and (ii) they often apply to ``one-shot'' systems (where the DNN is invoked independently of past invocations), as opposed to reactive systems. Here, we begin bridging this gap, and propose a formal DNN-verification-based XAI technique for reasoning about multi-step, reactive systems. We suggest methods for efficiently calculating succinct explanations, by exploiting the system's transition constraints in order to curtail the search space explored by the underlying verifier. We evaluate our approach on two popular benchmarks from the domain of automated navigation; and observe that our methods allow the efficient computation of minimal and minimum explanations, while significantly outperforming the state of the art. We also demonstrate that our method produces formal explanations that are more reliable than competing, non-verification-based XAI techniques.
翻訳日:2023-08-02 16:19:51 公開日:2023-07-31
# スティーフェル多様体上の半スーパービジョンラプラシアン学習

Semi-Supervised Laplacian Learning on Stiefel Manifolds ( http://arxiv.org/abs/2308.00142v1 )

ライセンス: Link先を確認
Chester Holtz, Pengwen Chen, Alexander Cloninger, Chung-Kuan Cheng, Gal Mishne(参考訳) 低ラベルレートでの標準ラプラス学習アルゴリズムのデジェネリティーに対処する必要性から,我々はグラフに基づく半教師付き学習を,非凸な一般化である \emph{Trust-Region Subproblem} (TRS) の一般化として再構成することを提案する。 この再構成は、無限ラベルデータの限界におけるラプラシアン固有ベクトルの適切性によって動機付けられる。 この問題を解決するために、一階条件は多様体アライメント問題の解を暗示し、古典的な \emph{Orthogonal Procrustes} 問題に対する解は、さらなる洗練に寄与する優れた分類器を効率的に見つけるために利用できることを示す。 次に,低いラベルレートで教師ありサンプルを選択することの臨界性について述べる。 グラフラプラシアンのある部分行列の主固有ベクトルから導かれる新しい中心性の尺度を用いて情報サンプルを特徴付ける。 本研究では,従来の半教師付き学習手法に比べて,極めて低い分類精度,中・高ラベル率で分類誤差を低減できることを実証する。 私たちのコードはgithub\footnote{anonymized for submit}で利用可能です。

Motivated by the need to address the degeneracy of canonical Laplace learning algorithms in low label rates, we propose to reformulate graph-based semi-supervised learning as a nonconvex generalization of a \emph{Trust-Region Subproblem} (TRS). This reformulation is motivated by the well-posedness of Laplacian eigenvectors in the limit of infinite unlabeled data. To solve this problem, we first show that a first-order condition implies the solution of a manifold alignment problem and that solutions to the classical \emph{Orthogonal Procrustes} problem can be used to efficiently find good classifiers that are amenable to further refinement. Next, we address the criticality of selecting supervised samples at low-label rates. We characterize informative samples with a novel measure of centrality derived from the principal eigenvectors of a certain submatrix of the graph Laplacian. We demonstrate that our framework achieves lower classification error compared to recent state-of-the-art and classical semi-supervised learning methods at extremely low, medium, and high label rates. Our code is available on github\footnote{anonymized for submission}.
翻訳日:2023-08-02 16:19:30 公開日:2023-07-31
# 文字列が付かない:立方体のコードの境界と欠陥

No Strings Attached: Boundaries and Defects in the Cubic Code ( http://arxiv.org/abs/2308.00138v1 )

ライセンス: Link先を確認
Cory T. Aitchison, Daniel Bulmash, Arpit Dua, Andrew C. Doherty, Dominic J. Williamson(参考訳) ハーアの立方体コードは、type-ii fracton topological orderである。 コード距離と論理エネルギー障壁の好適なスケーリングの基盤となる、no string-like operatorプロパティをインスタンス化する。 以前は、立方体符号は無限および周期格子上の変換不変系でのみ探索された。 これらの設定では、コード距離は線形システムサイズと超直線的にスケールする一方、縮退した基底空間内の論理量子ビットの数は、線形エンベロープ内で大きな変動を起こす複雑な機能依存を示す。 ここでは、立方体コードを開境界条件と結晶格子欠陥を持つシステムに拡張する。 これらの境界と欠陥の近傍におけるトポロジカル励起の凝縮を特徴とし、それらの包含が局所弦型作用素を導入し、それ以外のフラクトロニック励起の移動性を高めることを発見した。 それにもかかわらず、これらの境界と欠陥を用いて、論理量子ビットの数がゆらぎなく線形にスケールし、符号距離が線形なシステムサイズでスーパーリニアにスケールする新しいエンコーディングを定義する。 これには、開境界条件を持つサブシステムと格子欠陥を用いたサブスペースエンコーディングが含まれる。

Haah's cubic code is the prototypical type-II fracton topological order. It instantiates the no string-like operator property that underlies the favorable scaling of its code distance and logical energy barrier. Previously, the cubic code was only explored in translation-invariant systems on infinite and periodic lattices. In these settings, the code distance scales superlinearly with the linear system size, while the number of logical qubits within the degenerate ground space exhibits a complicated functional dependence that undergoes large fluctuations within a linear envelope. Here, we extend the cubic code to systems with open boundary conditions and crystal lattice defects. We characterize the condensation of topological excitations in the vicinity of these boundaries and defects, finding that their inclusion can introduce local string-like operators and enhance the mobility of otherwise fractonic excitations. Despite this, we use these boundaries and defects to define new encodings where the number of logical qubits scales linearly without fluctuations, and the code distance scales superlinearly, with the linear system size. These include a subsystem encoding with open boundary conditions and a subspace encoding using lattice defects.
翻訳日:2023-08-02 16:19:10 公開日:2023-07-31
# Bi-LSTMに基づくパッサ学習最適化を用いた電子商取引における効率的なレコメンデーションシステム

An Efficient Recommendation System in E-commerce using Passer learning optimization based on Bi-LSTM ( http://arxiv.org/abs/2308.00137v1 )

ライセンス: Link先を確認
Hemn Barzan Abdalla, Awder Ahmed, Bahtiyar Mehmed, Mehdi Gheisari, Maryam Cheraghy(参考訳) グローバルなeコマース市場が拡大するにつれ、ユーザーがパーソナライズされた商品やサービスにアクセスするためのレコメンデーションシステムサービスが重要になっている。 企業の売上を増加させ、ユーザー情報探索のコストを下げることができる。 近年,標準レコメンデーションシステム研究の問題解決にユーザレビューを積極的に活用する研究者が増えている。 しかし、レビューには、広告や架空の、偽のレビューなど、消費者が何を買うべきかを判断する助けにならない情報が含まれているかもしれない。 このようなレビューを使って提案サービスを提供することで、推奨の有効性が低下する可能性がある。 本研究では,その問題を解決するために,Bi-LSTMに基づく通行人学習最適化を用いて,eコマースのレコメンデーションを開発する。 データはまず製品レコメンデーションデータセットから取得され、不足あるいは一貫性のない値を削除するために前処理される。 次に、TF-IDF機能とグラフ埋め込みをサポートする機能を用いて特徴抽出を行う。 解析のために同じ次元の多数の特徴をBi-LSTM分類器に提出する前に、特徴連結アプローチを用いて統合される。 Collaborative Bi-LSTM法は、モデルが推奨製品であるかどうかを判断するためにこれらの特徴を用いる。 分類器のパラメータを効率的に調整し、f1-score、mse、精度、リコールを測定する抽出出力を生成するpl最適化アプローチは、この研究の貢献の基礎である。 従来の手法と比較すると、PL最適化Bi-LSTMはデータセット1, 88.58%, 1.24%, 92.69%, 92.69%, データセット1, 88.46%, 0.48%, 92.43%, 93.47%, データセット2, 92.51%, 1.58%, 91.90%, 90.76%の値を得た。

Recommendation system services have become crucial for users to access personalized goods or services as the global e-commerce market expands. They can increase business sales growth and lower the cost of user information exploration. Recent years have seen a signifi-cant increase in researchers actively using user reviews to solve standard recommender system research issues. Reviews may, however, contain information that does not help consumers de-cide what to buy, such as advertising or fictitious or fake reviews. Using such reviews to offer suggestion services may reduce the effectiveness of those recommendations. In this research, the recommendation in e-commerce is developed using passer learning optimization based on Bi-LSTM to solve that issue (PL optimized Bi-LSTM). Data is first obtained from the product recommendation dataset and pre-processed to remove any values that are missing or incon-sistent. Then, feature extraction is performed using TF-IDF features and features that support graph embedding. Before submitting numerous features with the same dimensions to the Bi-LSTM classifier for analysis, they are integrated using the feature concatenation approach. The Collaborative Bi-LSTM method employs these features to determine if the model is a recommended product. The PL optimization approach, which efficiently adjusts the classifier's parameters and produces an extract output that measures the f1-score, MSE, precision, and recall, is the basis of this research's contributions. As compared to earlier methods, the pro-posed PL-optimized Bi-LSTM achieved values of 88.58%, 1.24%, 92.69%, and 92.69% for dataset 1, 88.46%, 0.48%, 92.43%, and 93.47% for dataset 2, and 92.51%, 1.58%, 91.90%, and 90.76% for dataset 3.
翻訳日:2023-08-02 16:18:51 公開日:2023-07-31
# 語彙分類のためのフェアネスデータセットの一組

A Suite of Fairness Datasets for Tabular Classification ( http://arxiv.org/abs/2308.00133v1 )

ライセンス: Link先を確認
Martin Hirzel, Michael Feffer(参考訳) 表データに対する機械学習分類器の公平性を改善するアルゴリズムに関する多くの論文がある。 残念なことに、実験的な評価に使用するデータセットはごくわずかである。 20のフェアネスデータセットをフェッチし、関連するフェアネスメタデータを提供するための一連の機能を紹介します。 今後、フェアネスを意識した機械学習研究において、より厳格な実験的評価が期待できる。

There have been many papers with algorithms for improving fairness of machine-learning classifiers for tabular data. Unfortunately, most use only very few datasets for their experimental evaluation. We introduce a suite of functions for fetching 20 fairness datasets and providing associated fairness metadata. Hopefully, these will lead to more rigorous experimental evaluations in future fairness-aware machine learning research.
翻訳日:2023-08-02 16:18:16 公開日:2023-07-31
# 脳腫瘍分割のための残差変換器を用いたアンサンブル学習

Ensemble Learning with Residual Transformer for Brain Tumor Segmentation ( http://arxiv.org/abs/2308.00128v1 )

ライセンス: Link先を確認
Lanhong Yao, Zheyuan Zhang, Ulas Bagci(参考訳) 脳腫瘍のセグメンテーションは、高度に複雑な形状と質感を持つ腫瘍の配置が困難であり、また一般的に使用されるu-netアーキテクチャの失敗により、活発な研究領域である。 異なるニューラルネットワークの組み合わせは最近、特にU-NetとTransformerの組み合わせが主流となっている。 本稿では, トランスフォーマーを自己適応型u-netに統合し, 合理的な計算コストで3次元ボリュームコンテクストを作成する新しいネットワークアーキテクチャを提案する。 さらに,情報フローの劣化防止とアンサンブル手法の探索のための残差接続を追加し,評価モデルが異なるケースやサブリージョンにエッジを持つようにした。 BraTS 2021データセット(3D)では、Diceスコアの平均87.6%が達成され、最先端の手法よりも優れており、複数のアーキテクチャを組み合わせて脳腫瘍のセグメンテーションを最適化する可能性を示している。

Brain tumor segmentation is an active research area due to the difficulty in delineating highly complex shaped and textured tumors as well as the failure of the commonly used U-Net architectures. The combination of different neural architectures is among the mainstream research recently, particularly the combination of U-Net with Transformers because of their innate attention mechanism and pixel-wise labeling. Different from previous efforts, this paper proposes a novel network architecture that integrates Transformers into a self-adaptive U-Net to draw out 3D volumetric contexts with reasonable computational costs. We further add a residual connection to prevent degradation in information flow and explore ensemble methods, as the evaluated models have edges on different cases and sub-regions. On the BraTS 2021 dataset (3D), our model achieves 87.6% mean Dice score and outperforms the state-of-the-art methods, demonstrating the potential for combining multiple architectures to optimize brain tumor segmentation.
翻訳日:2023-08-02 16:18:10 公開日:2023-07-31
# LiDAR Pointcloudにおける異常検出

Detecting the Anomalies in LiDAR Pointcloud ( http://arxiv.org/abs/2308.00187v1 )

ライセンス: Link先を確認
Chiyu Zhang, Ji Han, Yao Zou, Kexin Dong, Yujia Li, Junchun Ding, Xiaoling Han(参考訳) LiDARセンサーは、現代の自動運転システムの知覚スタックにおいて重要な役割を果たす。 雨、霧、塵などの逆の気象条件や、LiDARのハードウェア故障は、LiDARが散在するノイズポイントや異常強度値などの異常なパターンを持つ点雲を発生させる可能性がある。 本稿では,LiDARが異常な点雲を発生しているかどうかを,点雲特性を解析して検出する手法を提案する。 具体的には,LDAR点の空間および強度分布に基づく点雲品質指標を開発し,純粋な数学的解析に依存し,学習ベースの手法のようにラベル付けやトレーニングを必要としない点雲の雑音レベルを特徴付ける。 そのため、この手法はスケーラブルであり、LiDARデータの異常を監視したり、オフラインで大量のデータ上でのLiDARの挙動を詳細に調査することで、オンラインでの自律性の向上を迅速に行うことができる。 提案手法は, 異なる走査機構とレーザースペクトルを持つライダーによって収集された広範にわたる実道路データを用いて検討され, 様々な既知および未知の点雲異常を効果的に処理できることが証明された。

LiDAR sensors play an important role in the perception stack of modern autonomous driving systems. Adverse weather conditions such as rain, fog and dust, as well as some (occasional) LiDAR hardware fault may cause the LiDAR to produce pointcloud with abnormal patterns such as scattered noise points and uncommon intensity values. In this paper, we propose a novel approach to detect whether a LiDAR is generating anomalous pointcloud by analyzing the pointcloud characteristics. Specifically, we develop a pointcloud quality metric based on the LiDAR points' spatial and intensity distribution to characterize the noise level of the pointcloud, which relies on pure mathematical analysis and does not require any labeling or training as learning-based methods do. Therefore, the method is scalable and can be quickly deployed either online to improve the autonomy safety by monitoring anomalies in the LiDAR data or offline to perform in-depth study of the LiDAR behavior over large amount of data. The proposed approach is studied with extensive real public road data collected by LiDARs with different scanning mechanisms and laser spectrums, and is proven to be able to effectively handle various known and unknown sources of pointcloud anomaly.
翻訳日:2023-08-02 16:12:14 公開日:2023-07-31
# データ管理と説明可能な機械学習における帰属スコア

Attribution-Scores in Data Management and Explainable Machine Learning ( http://arxiv.org/abs/2308.00184v1 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) 責任スコアの定義における実際の因果性の使用に関する最近の研究を,データベースの問合せ回答や機械学習の分類モデルによる結果の説明として説明する。 データベースの場合、データベースの修復に有用な接続を図示し、活用する。 修復はデータベースの一貫性を定量的に測定するためにも用いられる。 分類モデルでは、責任スコアを適切に拡張して図示する。 シャップスコアの効率的な計算も分析し議論する。 著者と共同作業者による作業に重点を置いている。

We describe recent research on the use of actual causality in the definition of responsibility scores as explanations for query answers in databases, and for outcomes from classification models in machine learning. In the case of databases, useful connections with database repairs are illustrated and exploited. Repairs are also used to give a quantitative measure of the consistency of a database. For classification models, the responsibility score is properly extended and illustrated. The efficient computation of Shap-score is also analyzed and discussed. The emphasis is placed on work done by the author and collaborators.
翻訳日:2023-08-02 16:11:52 公開日:2023-07-31
# 大規模展開データセットによる水中グライダーの一般異常検出

General Anomaly Detection of Underwater Gliders Validated by Large-scale Deployment Dataset ( http://arxiv.org/abs/2308.00180v1 )

ライセンス: Link先を確認
Ruochu Yang, Chad Lembke, Fumin Zhang, and Catherine Edwards(参考訳) 本論文は, 予測不能な海洋環境における水中グライダーの正常動作を評価するために異常検出アルゴリズムを用いる。 グライダーのパイロットは異常を検知するとリアルタイムのアラートが提供され、グライダーの制御を前提にし、さらなる危害を防げる。 この検出アルゴリズムは、スキダウェイ海洋学研究所(SkIO)と南フロリダ大学(USF)が主導する実際のグライダー配置で収集した豊富なデータセットに適用される。 一般性については,オフラインモードとオンラインモードの両方で実験評価を行う。 オフライン検出は、高解像度情報を運ぶ完全なポストリカバリデータセットを使用して、異常の詳細な分析を行い、パイロットログと比較する。 オンライン検出は、上向きのイベントでグライダーから送信されるデータのリアルタイムサブセットに焦点を当てる。 リアルタイムデータは、リカバリ後のデータほどリッチな情報を含まないかもしれないが、オンライン検出は、グライダーパイロットが潜在的な異常状態をリアルタイムで監視できるため、非常に重要である。

This paper employs an anomaly detection algorithm to assess the normal operation of underwater gliders in unpredictable ocean environments. Real-time alerts can be provided to glider pilots upon detecting any anomalies, enabling them to assume control of the glider and prevent further harm. The detection algorithm is applied to abundant data sets collected in real glider deployments led by the Skidaway Institute of Oceanography (SkIO) and the University of South Florida (USF). Regarding generality, the experimental evaluation is composed of both offline and online detection modes. The offline detection utilizes full post-recovery data sets, which carries high-resolution information, to present detailed analysis of the anomaly and compare it with pilot logs. The online detection focuses on the real-time subsets of data transmitted from the glider at the surfacing events. While the real-time data may not contain as much rich information as the post-recovery data, the online detection is of great importance as it allows glider pilots to monitor potential abnormal conditions in real time.
翻訳日:2023-08-02 16:11:44 公開日:2023-07-31
# ラベル不足下でのラーニング・トゥ・ランドにおけるGBDTよりも優れた事前学習深度モデル

Pretrained deep models outperform GBDTs in Learning-To-Rank under label scarcity ( http://arxiv.org/abs/2308.00177v1 )

ライセンス: Link先を確認
Charlie Hou, Kiran Koshy Thekumparampil, Michael Shavlovsky, Giulia Fanti, Yesh Dattatreya, Sujay Sanghavi(参考訳) 深層学習(DL)モデルは、テキストや画像領域では最先端であるが、表層学習とランド(LTR)の問題に対して、まだGBDT(Gradient Boosted Decision Trees)を一貫して上回っているわけではない。 テキストや画像タスクでdlモデルによって達成された最近のパフォーマンス向上のほとんどは教師なし事前トレーニングを使用しており、ラベル付きデータよりもラベルなしデータの方が桁違いに多い。 我々の知る限りでは、大量のラベルなしデータを生成するLTR問題には教師なし事前学習は適用されていない。 本研究では,教師なし事前学習がGBDTや他の非事前学習モデルよりもLTR性能を向上させるかどうかを検討する。 simclr-rankを含む単純な設計選択を使って、simclr(画像の教師なし事前学習方法)のランキング固有の修正 -- ラベル付きデータがラベルなしデータで圧倒的に多い場合に、gbdt(および他の非訓練済みモデル)を上回るトレーニング済みのディープラーニングモデルを作成します。 また,事前学習モデルでは,非事前学習モデル (GBDTs や DL モデル) よりも,アウトレーラデータのランク付けにおいて,はるかに優れたロバスト性が得られることも示している。

While deep learning (DL) models are state-of-the-art in text and image domains, they have not yet consistently outperformed Gradient Boosted Decision Trees (GBDTs) on tabular Learning-To-Rank (LTR) problems. Most of the recent performance gains attained by DL models in text and image tasks have used unsupervised pretraining, which exploits orders of magnitude more unlabeled data than labeled data. To the best of our knowledge, unsupervised pretraining has not been applied to the LTR problem, which often produces vast amounts of unlabeled data. In this work, we study whether unsupervised pretraining can improve LTR performance over GBDTs and other non-pretrained models. Using simple design choices--including SimCLR-Rank, our ranking-specific modification of SimCLR (an unsupervised pretraining method for images)--we produce pretrained deep learning models that soundly outperform GBDTs (and other non-pretrained models) in the case where labeled data is vastly outnumbered by unlabeled data. We also show that pretrained models also often achieve significantly better robustness than non-pretrained models (GBDTs or DL models) in ranking outlier data.
翻訳日:2023-08-02 16:11:26 公開日:2023-07-31
# 高次元セルラーデータのためのフローアーティスト

A Flow Artist for High-Dimensional Cellular Data ( http://arxiv.org/abs/2308.00176v1 )

ライセンス: Link先を確認
Kincaid MacDonald, Dhananjay Bhaskar, Guy Thampakkul, Nhi Nguyen, Joia Zhang, Michael Perlmutter, Ian Adelstein, Smita Krishnaswamy(参考訳) 基礎となる多様体からサンプリングされた点雲データに関連する流れや速度を組み込む問題を考える。 このようなデータは、動的実体の静的スナップショットが測定される多くのコンテキストで発生し、例えば単細胞転写学のような高スループット生物学を含む。 既存の埋め込み技術は、速度情報を使用しないか、座標と速度を独立に埋め込むか、すなわち、既存の点埋め込みの上に速度を課すか、所定のベクトル場内に点を埋め込むかのどちらかである。 ここでは,点の周りにベクトル場を共学しながら点を埋め込むニューラルネットワークであるflowartistを提案する。 この組み合わせにより、FlowArtistはベロシティインフォームド構造をより分離し、視覚化することができる。 研究結果は,おもちゃのデータセットと単細胞RNA速度データに基づいて,タンデムの座標情報と速度情報を利用して高次元データを埋め込み,可視化する価値を示す。

We consider the problem of embedding point cloud data sampled from an underlying manifold with an associated flow or velocity. Such data arises in many contexts where static snapshots of dynamic entities are measured, including in high-throughput biology such as single-cell transcriptomics. Existing embedding techniques either do not utilize velocity information or embed the coordinates and velocities independently, i.e., they either impose velocities on top of an existing point embedding or embed points within a prescribed vector field. Here we present FlowArtist, a neural network that embeds points while jointly learning a vector field around the points. The combination allows FlowArtist to better separate and visualize velocity-informed structures. Our results, on toy datasets and single-cell RNA velocity data, illustrate the value of utilizing coordinate and velocity information in tandem for embedding and visualizing high-dimensional data.
翻訳日:2023-08-02 16:11:02 公開日:2023-07-31
# 部分注釈ラベルを用いた大規模マルチラベル分類の非バランス化に向けて

Towards Imbalanced Large Scale Multi-label Classification with Partially Annotated Labels ( http://arxiv.org/abs/2308.00166v1 )

ライセンス: Link先を確認
XIn Zhang and Yuqi Song and Fei Zuo and Xiaofeng Wang(参考訳) マルチラベル分類は日常生活において広く遭遇する問題であり、インスタンスは複数のクラスに関連付けられる。 理論的には、これは大量のラベリングを必要とする教師付き学習方法である。 しかし、アノテートデータは時間がかかり、巨大なラベル空間では利用できない可能性がある。 さらに、ラベルの不均衡は、特にラベルが欠落している場合、マルチラベル分類器の性能を制限できる。 したがって、部分ラベルを用いたニューラルネットワークのトレーニング方法を研究することは有意義である。 本研究では,ラベルの不均衡の問題に対処し,大規模ラベル空間における部分ラベルを用いた分類器の訓練方法を検討する。 まず,複雑な構造を必要とせず,部分的にラベル付けされた設定で広く採用されているネットワークを適用可能にする擬似ラベル方式を提案する。 そこで,既存のデータセットからの統計情報を有効活用し,ラベル不均衡問題を効果的に解消する新しい損失関数を提案する。 さらに,ラベリング空間の次元を低減し,さらに不均衡を緩和するための動的トレーニングスキームを設計する。 最後に,coco,nus-wide,cub,open imagesなどの公開されているマルチラベルデータセットについて広範な実験を行い,提案手法の有効性を実証した。 その結果,本手法は最先端手法よりも優れており,いくつかの部分ラベル設定では,完全なラベルで訓練された手法を超越する効果もみられた。

Multi-label classification is a widely encountered problem in daily life, where an instance can be associated with multiple classes. In theory, this is a supervised learning method that requires a large amount of labeling. However, annotating data is time-consuming and may be infeasible for huge labeling spaces. In addition, label imbalance can limit the performance of multi-label classifiers, especially when some labels are missing. Therefore, it is meaningful to study how to train neural networks using partial labels. In this work, we address the issue of label imbalance and investigate how to train classifiers using partial labels in large labeling spaces. First, we introduce the pseudo-labeling technique, which allows commonly adopted networks to be applied in partially labeled settings without the need for additional complex structures. Then, we propose a novel loss function that leverages statistical information from existing datasets to effectively alleviate the label imbalance problem. In addition, we design a dynamic training scheme to reduce the dimension of the labeling space and further mitigate the imbalance. Finally, we conduct extensive experiments on some publicly available multi-label datasets such as COCO, NUS-WIDE, CUB, and Open Images to demonstrate the effectiveness of the proposed approach. The results show that our approach outperforms several state-of-the-art methods, and surprisingly, in some partial labeling settings, our approach even exceeds the methods trained with full labels.
翻訳日:2023-08-02 16:10:46 公開日:2023-07-31
# 敵対的ロバストな神経法的判断システム

Adversarially Robust Neural Legal Judgement Systems ( http://arxiv.org/abs/2308.00165v1 )

ライセンス: Link先を確認
Rohit Raj, V Susheela Devi(参考訳) 法的判断予測とは、事件の事実のテキスト記述に基づいて訴訟の結果を予測するタスクである。 これらのタスクは、事実に基づいて法的判断結果を予測するために自然言語処理(NLP)技術を適用する。 近年,法的判断予測システムに関する分野において,大規模公開データセットとNLPモデルの研究が増加している。 そのようなシステムが実際に役立つためには、敵の攻撃から堅牢であるべきである。 従来の研究は主に神経法的判断システムの構築に焦点が当てられていたが、ロバストな法的判断予測(LJP)システムの構築にはほとんど、あるいは全く注目されなかった。 我々は,既存のLJPシステムに対する敵攻撃を実施し,いずれも攻撃に対処できないことがわかった。 本研究では,ロバストなLJPシステムを構築するためのアプローチを提案する。 3つの法的データセットに対する大規模な実験は、敵の攻撃に対処する上で、最先端のLJPシステムに対する我々のアプローチに大きな改善が見られた。 我々の知る限りでは、我々は既存のLJPシステムのロバスト性を高める最初の人物である。

Legal judgment prediction is the task of predicting the outcome of court cases on a given text description of facts of cases. These tasks apply Natural Language Processing (NLP) techniques to predict legal judgment results based on facts. Recently, large-scale public datasets and NLP models have increased research in areas related to legal judgment prediction systems. For such systems to be practically helpful, they should be robust from adversarial attacks. Previous works mainly focus on making a neural legal judgement system; however, significantly less or no attention has been given to creating a robust Legal Judgement Prediction(LJP) system. We implemented adversarial attacks on early existing LJP systems and found that none of them could handle attacks. In this work, we proposed an approach for making robust LJP systems. Extensive experiments on three legal datasets show significant improvements in our approach over the state-of-the-art LJP system in handling adversarial attacks. To the best of our knowledge, we are the first to increase the robustness of early-existing LJP systems.
翻訳日:2023-08-02 16:10:23 公開日:2023-07-31
# 農業におけるマルチスペクトルイメージセグメンテーション : 融合アプローチに関する総合的研究

Multispectral Image Segmentation in Agriculture: A Comprehensive Study on Fusion Approaches ( http://arxiv.org/abs/2308.00159v1 )

ライセンス: Link先を確認
Nuno Cunha, Tiago Barros, M\'ario Reis, Tiago Marta, Cristiano Premebida, and Urbano J. Nunes(参考訳) マルチスペクトル画像は農業タスクにしばしば組み込まれ、画像分割、作物モニタリング、フィールドロボティクス、収量推定などのアプリケーションにとって貴重なサポートを提供する。 画像セグメンテーションの観点から、マルチスペクトルカメラは豊かなスペクトル情報を提供し、ノイズ低減と特徴抽出に役立つ。 そこで本論文は,農業分野における分断プロセスを強化するための融合手法の利用に焦点を当てた。 具体的には,rgbとndviを組み合わせることで,現場で動作する自律ロボットに有用な作物列検出のためのインプットとして,異なる融合手法を比較した。 入力は個別に使われ、プロセス(初期および後期融合)の異なるタイミングで結合され、古典的およびdlベースの意味セグメンテーションを実行する。 本研究では,2つの農業関連データセットを,Deep Learning(DL)と古典的セグメンテーション手法の両方を用いて分析する。 実験の結果,エッジ検出やしきい値抽出などの手法を応用した古典的セグメンテーション手法は,特に前景の正確な分離を必要とするタスクにおいて,DLベースのアルゴリズムと効果的に競合することがわかった。 これは、伝統的な方法が農業領域内の特定の専門的な応用に有効であることを示している。 さらに, 各種セグメンテーションシナリオにまたがる適応性と有効性の優位性を示すため, 後期核融合は最も堅牢なアプローチとして出現する。 データセットとコードはhttps://github.com/cybonic/misagriculture.gitで入手できる。

Multispectral imagery is frequently incorporated into agricultural tasks, providing valuable support for applications such as image segmentation, crop monitoring, field robotics, and yield estimation. From an image segmentation perspective, multispectral cameras can provide rich spectral information, helping with noise reduction and feature extraction. As such, this paper concentrates on the use of fusion approaches to enhance the segmentation process in agricultural applications. More specifically, in this work, we compare different fusion approaches by combining RGB and NDVI as inputs for crop row detection, which can be useful in autonomous robots operating in the field. The inputs are used individually as well as combined at different times of the process (early and late fusion) to perform classical and DL-based semantic segmentation. In this study, two agriculture-related datasets are subjected to analysis using both deep learning (DL)-based and classical segmentation methodologies. The experiments reveal that classical segmentation methods, utilizing techniques such as edge detection and thresholding, can effectively compete with DL-based algorithms, particularly in tasks requiring precise foreground-background separation. This suggests that traditional methods retain their efficacy in certain specialized applications within the agricultural domain. Moreover, among the fusion strategies examined, late fusion emerges as the most robust approach, demonstrating superiority in adaptability and effectiveness across varying segmentation scenarios. The dataset and code is available at https://github.com/Cybonic/MISAgriculture.git.
翻訳日:2023-08-02 16:10:08 公開日:2023-07-31
# 微調整OpenAI LLMを用いたMT出力の完全品質セグメント予測:履歴データから編集距離パターンをキャプチャすることは可能か?

Predicting Perfect Quality Segments in MT Output with Fine-Tuned OpenAI LLM: Is it possible to capture editing distance patterns from historical data? ( http://arxiv.org/abs/2308.00158v1 )

ライセンス: Link先を確認
Serge Gladkoff, Gleb Erofeev, Lifeng Han, Goran Nenadic(参考訳) 翻訳品質推定(TQE)は、出力翻訳を利用にデプロイする前に重要なステップである。 TQEは、参照翻訳を見ることなく機械翻訳(MT)と人間翻訳(HT)の品質を評価する上でも重要である。 本研究では,TQEタスクとその機能に対して,最先端の大規模言語モデル(LLM)を微調整できるかどうかを検討する。 本稿ではChatGPTを例として、TQEをバイナリ分類タスクとしてアプローチする。 英語・イタリア語・英語・ドイツ語の学習コーパスを用いて,api経由の微調整されたチャットgptは,翻訳品質の予測において比較的高いスコアを得られること,すなわち,翻訳を編集する必要があるが,精度を向上させる余地があることを実証した。 English-Italiano bilingual Abstractが論文で公開されている。

Translation Quality Estimation (TQE) is an important step before deploying the output translation into usage. TQE is also critical in assessing machine translation (MT) and human translation (HT) quality without seeing the reference translations. In this work, we examine if the state-of-the-art large language models (LLMs) can be fine-tuned for the TQE task and their capability. We take ChatGPT as one example and approach TQE as a binary classification task. Using English-Italian and English-German training corpus, our experimental results show that fine-tuned ChatGPT via its API can achieve a relatively high score on predicting translation quality, i.e. if the translation needs to be edited, but there is definitely space to improve the accuracy. English-Italiano bilingual Abstract is available in the paper.
翻訳日:2023-08-02 16:09:42 公開日:2023-07-31
# ソーシャルメディアにおける逆薬物イベント正規化の促進: 一般目的モデル初期化と生物医学的セマンティックテキスト類似性

Boosting Adverse Drug Event Normalization on Social Media: General-Purpose Model Initialization and Biomedical Semantic Text Similarity Benefit Zero-Shot Linking in Informal Contexts ( http://arxiv.org/abs/2308.00157v1 )

ライセンス: Link先を確認
Fran\c{c}ois Remy, Simone Scaboro, Beatrice Portelli(参考訳) バイオメディカル・エンティティ・リンク(英: Biomedical entity linking)またはバイオメディカル・コンセプト・ノーマライゼーション(英: biomedical concept normalization)は、最近ゼロショット・コントラスト・モデルの普及を目撃している。 しかし、これらのモデルに使用される事前学習材料は、これまで、MIMIC-III臨床試験ノート(Johnson et al., 2016)やPubMed論文(Sayers et al., 2021; Gao et al., 2020)などの専門的な生医学的内容がほとんどであった。 結果として得られたドメイン内モデルは、多くのバイオメディカルなタスクに対して有望な結果を示しているが、ソーシャルメディアのテキスト上での薬物事象の正規化は、これまでも困難である(Portelli et al., 2022)。 本稿では,BioLORD (Remy et al., 2022) による汎用モデル初期化と, STS を用いた意味的テキスト類似性の微調整に基づくソーシャルメディア上での有害薬物イベント正規化の新しいアプローチを提案する。 いくつかのソーシャルメディアデータセットにおける実験結果は,最先端のパフォーマンスを実現することにより,提案手法の有効性を実証する。 テストされたデータセットのすべてにまたがる強力なパフォーマンスに基づいて、この研究はソーシャルメディア上の有害な薬物イベント正常化のタスクの転換点となり、この分野における今後の研究のベンチマークとして機能する可能性があると考えています。

Biomedical entity linking, also known as biomedical concept normalization, has recently witnessed the rise to prominence of zero-shot contrastive models. However, the pre-training material used for these models has, until now, largely consisted of specialist biomedical content such as MIMIC-III clinical notes (Johnson et al., 2016) and PubMed papers (Sayers et al., 2021; Gao et al., 2020). While the resulting in-domain models have shown promising results for many biomedical tasks, adverse drug event normalization on social media texts has so far remained challenging for them (Portelli et al., 2022). In this paper, we propose a new approach for adverse drug event normalization on social media relying on general-purpose model initialization via BioLORD (Remy et al., 2022) and a semantic-text-similarity fine-tuning named STS. Our experimental results on several social media datasets demonstrate the effectiveness of our proposed approach, by achieving state-of-the-art performance. Based on its strong performance across all the tested datasets, we believe this work could emerge as a turning point for the task of adverse drug event normalization on social media and has the potential to serve as a benchmark for future research in the field.
翻訳日:2023-08-02 16:09:27 公開日:2023-07-31
# 量子異常ホールとジョセフソン効果を用いた量子アンペアの実現

Realization of the quantum ampere using the quantum anomalous Hall and Josephson effects ( http://arxiv.org/abs/2308.00200v1 )

ライセンス: Link先を確認
Linsey K. Rodenbach, Ngoc Thanh Mai Tran, Jason M. Underwood, Alireza R. Panna, Molly P. Andersen, Zachary S. Barcikowski, Shamith U. Payagala, Peng Zhang, Lixuan Tai, Kang L. Wang, Randolph E. Elmquist, Dean G. Jarrett, David B. Newell, Albert F. Rigosi, David Goldhaber-Gordon(参考訳) 量子異常ホール抵抗をプログラム可能なジョセフソン電圧標準と直接結合することにより、0磁場の1つのクライオスタット内で動作する量子電流センサ(qcs)を実装した。 この QCS を用いて 9.33 nA - 252 nA の範囲内の電流の値を決定し、基本定数と量子現象に基づくアンペアの実現を提供する。 相対型Aの不確実性は最低2.30$\times$10$^{-6}$A/Aであり、最も高い電流は252 nAである。 総根対二乗の相対不確かさは、3.91$\times$10$^{-6}$ A/A at 252 nA から 41.2$\times$10$^{-6}$ A/A at 9.33 nA まで様々である。 このような相対的不確実性を持つナノアンペア範囲ではdc電流標準が存在しないため、従来のオームの法則による同じ電流源の測定と比較し、qcsの精度を評価した。 最も近い合意(1.46$\pm$4.28)$\times$10$^{-6}$A/Aは83.9 nA付近の電流に対して、最も多くの測定が行われた。

By directly coupling a quantum anomalous Hall resistor to a programmable Josephson voltage standard, we have implemented a quantum current sensor (QCS) that operates within a single cryostat in zero magnetic field. Using this QCS we determine values of current within the range 9.33 nA - 252 nA, providing a realization of the ampere based on fundamental constants and quantum phenomena. The relative Type A uncertainty is lowest, 2.30 $\times$10$^{-6}$ A/A, at the highest current studied, 252 nA. The total root-sum-square combined relative uncertainty ranges from 3.91 $\times$10$^{-6}$ A/A at 252 nA to 41.2 $\times$10$^{-6}$ A/A at 9.33 nA. No DC current standard is available in the nanoampere range with relative uncertainty comparable to this, so we assess our QCS accuracy by comparison to a traditional Ohm's law measurement of the same current source. We find closest agreement (1.46 $\pm$ 4.28)$\times$10$^{-6}$ A/A for currents near 83.9 nA, for which the highest number of measurements were made.
翻訳日:2023-08-02 16:00:52 公開日:2023-07-31
# CBCL-PR:ロボットにおけるクラスインクリメンタル学習の認知モデル

CBCL-PR: A Cognitively Inspired Model for Class-Incremental Learning in Robotics ( http://arxiv.org/abs/2308.00199v1 )

ライセンス: Link先を確認
Ali Ayub and Alan R. Wagner(参考訳) ほとんどの現実世界のアプリケーションでは、ロボットは環境内の限られたデータで適応し、継続的に学習する必要がある。 本稿では,aiエージェントが,これまで学習したデータを忘れずに,少数のデータサンプルから段階的に学習することを要求する,マイショットクラスインクリメンタル学習(fsil)の問題を検討する。 そこで本研究では,海馬と新皮質における概念学習理論に触発された新しい枠組みを提案する。 私たちのフレームワークは、オブジェクトクラスをクラスタのセット形式で表現し、それらをメモリに格納します。 フレームワークは、古いクラスのクラスタによって生成されたデータを再生し、新しいクラスを学ぶときに忘れるのを避ける。 本手法は,2つのオブジェクト分類データセットを用いて,クラス増分学習におけるSOTA(State-of-the-art)性能とFSIL(FSIL)性能を評価する。 また,fsilのフレームワークをロボット上で評価し,ロボットが人間の支援が限定された大規模家庭オブジェクトの分類を継続的に学習できることを実証した。

For most real-world applications, robots need to adapt and learn continually with limited data in their environments. In this paper, we consider the problem of Few-Shot class Incremental Learning (FSIL), in which an AI agent is required to learn incrementally from a few data samples without forgetting the data it has previously learned. To solve this problem, we present a novel framework inspired by theories of concept learning in the hippocampus and the neocortex. Our framework represents object classes in the form of sets of clusters and stores them in memory. The framework replays data generated by the clusters of the old classes, to avoid forgetting when learning new classes. Our approach is evaluated on two object classification datasets resulting in state-of-the-art (SOTA) performance for class-incremental learning and FSIL. We also evaluate our framework for FSIL on a robot demonstrating that the robot can continually learn to classify a large set of household objects with limited human assistance.
翻訳日:2023-08-02 16:00:28 公開日:2023-07-31
# 勾配累積最適化法を用いたスウィンビジョン変圧器モデルの性能評価

Performance Evaluation of Swin Vision Transformer Model using Gradient Accumulation Optimization Technique ( http://arxiv.org/abs/2308.00197v1 )

ライセンス: Link先を確認
Sanad Aburass and Osama Dorgham(参考訳) ViT(Vision Transformers)は、視覚認識タスクのための有望なアプローチとして登場し、トランスフォーマーベースのアーキテクチャのパワーを活用して、フィールドに革命をもたらした。 様々なViTモデルの中で、スウィントランスフォーマーは階層的な設計と、ローカルとグローバルの両方の視覚的特徴を効果的に捉える能力によって、かなりの注目を集めている。 本稿では,勾配累積最適化(GAO)手法を用いて,Swin ViTモデルの性能評価を行う。 勾配累積最適化手法がモデルの精度と訓練時間に及ぼす影響について検討した。 実験の結果,GAO法の適用により,標準のSwin Transformerモデルと比較して,Swin ViTモデルの精度が大幅に低下することがわかった。 さらに,gaoモデルを適用すると,swain vitモデルのトレーニング時間が大幅に増加することを検出する。 これらの結果から,gao技術はswain vitモデルには適さない可能性があり,他のトランスフォーマーモデルにgao技術を使用する場合には注意が必要である。

Vision Transformers (ViTs) have emerged as a promising approach for visual recognition tasks, revolutionizing the field by leveraging the power of transformer-based architectures. Among the various ViT models, Swin Transformers have gained considerable attention due to their hierarchical design and ability to capture both local and global visual features effectively. This paper evaluates the performance of Swin ViT model using gradient accumulation optimization (GAO) technique. We investigate the impact of gradient accumulation optimization technique on the model's accuracy and training time. Our experiments show that applying the GAO technique leads to a significant decrease in the accuracy of the Swin ViT model, compared to the standard Swin Transformer model. Moreover, we detect a significant increase in the training time of the Swin ViT model when GAO model is applied. These findings suggest that applying the GAO technique may not be suitable for the Swin ViT model, and concern should be undertaken when using GAO technique for other transformer-based models.
翻訳日:2023-08-02 16:00:07 公開日:2023-07-31
# 100dBノイズ除去と単一光子感度を有する小型全ファイバー量子インスパイアLiDAR

Compact All-Fiber Quantum-Inspired LiDAR with > 100dB Noise Rejection and Single Photon Sensitivity ( http://arxiv.org/abs/2308.00195v1 )

ライセンス: Link先を確認
Han Liu, Changhao Qin, Georgios Papangelakis, Meng Lon Iu, Amr Helmy(参考訳) 量子光の絡み合いと相関は、強い背景雑音の存在下でLiDAR感度を高めることができる。 しかし、そのような量子源のパワーは基本的に単一の光子のストリームに限られており、高出力の古典的なLiDAR送信機の検出範囲と競合することができない。 これを回避するために,古典的時間-周波数相関のコヒーレント測定に基づく量子インスパイアlidarプロトタイプを開発し,実演する。 このシステムは、高出力の古典音源を使用し、量子LiDARの高雑音拒絶特性を維持する。 特に、単一光子信号に敏感でありながら、100dB以上(100msの積分時間を持つ)の帯域内雑音の識別不能(統計的に同一な特性を持つ)を実現することができることを示す。 また、LiDARデモに加えて、量子情報応用のためのLiDAR受信機の可能性についても論じる。 特に,光の高次元量子状態のコヒーレントな操作のためのカオス量子周波数変換手法を提案する。 この手法はパルスベースの量子周波数変換と比較して選択性や効率の点で性能を向上できることが示されている。

Entanglement and correlation of quantum light can enhance LiDAR sensitivity in the presence of strong background noise. However, the power of such quantum sources is fundamentally limited to a stream of single photons and cannot compete with the detection range of high-power classical LiDAR transmitters. To circumvent this, we develop and demonstrate a quantum-inspired LiDAR prototype based on coherent measurement of classical time-frequency correlations. This system uses a high-power classical source and maintains the high noise rejection advantage of quantum LiDARs. In particular, we show that it can achieve over 100dB rejection (with 100ms integration time) of indistinguishable(with statistically identical properties in every degrees of freedom) in-band noise while still being sensitive to single photon signals. In addition to the LiDAR demonstration, we also discuss the potential of the proposed LiDAR receiver for quantum information applications. In particular, we propose the chaotic quantum frequency conversion technique for coherent manipulation of high dimensional quantum states of light. It is shown that this technique can provide improved performance in terms of selectivity and efficiency as compared to pulse-based quantum frequency conversion.
翻訳日:2023-08-02 15:59:48 公開日:2023-07-31
# 量子コンピュータにおける最適量子ビット再利用

Optimal Qubit Reuse for Near-Term Quantum Computers ( http://arxiv.org/abs/2308.00194v1 )

ライセンス: Link先を確認
Sebastian Brandhofer, Ilia Polian, Kevin Krsulich(参考訳) 短期量子計算は、高い誤り率、量子ビットの不足、低量子ビット接続によって制限される。 短期量子コンピュータにおける中間回路計測と量子ビットリセットのサポートの増大により、量子ビットの再利用が可能となり、量子ビット数が少なくエラーも少なくなる。 そこで本研究では,量子回路の深さ,量子ビット数,スワップゲート数に関して,初めて実現可能な最適解を提供する,量子ビット再利用最適化のための形式モデルを提案する。 これは、qubitの再利用がヒューリスティックまたは最適に使用されるが、マッピングの労力を考慮していない関連作業とは対照的である。 さらに,リセットエラー特性評価実験を行い,短期量子コンピュータにおけるリセットエラーについて検討する。 そこで, 短期量子コンピュータのリセット誤差特性と校正データを用いて, 与えられたコスト関数に対して最適なキュービット割り当てを決定する。 このコスト関数は、各キュービットの個々のリセットエラーと同様にゲートエラーとデコヒーレンスを含むものと定義する。 リセットの忠実度は状態依存であり、リセットの量子ビットに依存する範囲は67.5%から100%の範囲である。 本研究では,複数の量子回路への適用可能性を示し,量子回路の量子ビット数,スワップゲート挿入数,推定成功確率,ヘリンガー忠実度の改善を示す。

Near-term quantum computations are limited by high error rates, the scarcity of qubits and low qubit connectivity. Increasing support for mid-circuit measurements and qubit reset in near-term quantum computers enables qubit reuse that may yield quantum computations with fewer qubits and lower errors. In this work, we introduce a formal model for qubit reuse optimization that delivers provably optimal solutions with respect to quantum circuit depth, number of qubits, or number of swap gates for the first time. This is in contrast to related work where qubit reuse is used heuristically or optimally but without consideration of the mapping effort. We further investigate reset errors on near-term quantum computers by performing reset error characterization experiments. Using the hereby obtained reset error characterization and calibration data of a near-term quantum computer, we then determine a qubit assignment that is optimal with respect to a given cost function. We define this cost function to include gate errors and decoherence as well as the individual reset error of each qubit. We found the reset fidelity to be state-dependent and to range, depending on the reset qubit, from 67.5% to 100% in a near-term quantum computer. We demonstrate the applicability of the developed method to a number of quantum circuits and show improvements in the number of qubits and swap gate insertions, estimated success probability, and Hellinger fidelity of the investigated quantum circuits.
翻訳日:2023-08-02 15:59:33 公開日:2023-07-31
# C-DARL:ラベルフリー血管セグメンテーションのためのコントラスト拡散対向表現学習

C-DARL: Contrastive diffusion adversarial representation learning for label-free blood vessel segmentation ( http://arxiv.org/abs/2308.00193v1 )

ライセンス: Link先を確認
Boah Kim, Yujin Oh, Bradford J. Wood, Ronald M. Summers, Jong Chul Ye(参考訳) 画像診断における血管分画は、画像ベース医療と介入医療の幅広い臨床シナリオにおいて、血管疾患の診断と介入計画に不可欠なステップの1つである。 残念なことに、船体マスクのマニュアルアノテーションは、微妙な枝と複雑な構造のために困難で資源集約的である。 この問題を克服するため,本論文では,コントラスト拡散逆表現学習(c-darl)モデルと呼ばれる自己教師付き容器分割法を提案する。 本モデルは,拡散潜時から合成血管画像を生成することで,多領域血管データの分布を学習する拡散モジュールと生成モジュールから構成される。 さらに,マスクに基づくコントラスト学習を用いて,モデルがより現実的な血管表現を学習できるようにする。 有効性を検証するために、c-darlは冠動脈造影、腹部デジタル下降血管造影、網膜イメージングなど様々な血管データセットを用いて訓練される。 実験の結果, 本モデルは, 騒音ロバスト性を有するベースライン法よりも性能が向上し, c-darlの有効性が示唆された。

Blood vessel segmentation in medical imaging is one of the essential steps for vascular disease diagnosis and interventional planning in a broad spectrum of clinical scenarios in image-based medicine and interventional medicine. Unfortunately, manual annotation of the vessel masks is challenging and resource-intensive due to subtle branches and complex structures. To overcome this issue, this paper presents a self-supervised vessel segmentation method, dubbed the contrastive diffusion adversarial representation learning (C-DARL) model. Our model is composed of a diffusion module and a generation module that learns the distribution of multi-domain blood vessel data by generating synthetic vessel images from diffusion latent. Moreover, we employ contrastive learning through a mask-based contrastive loss so that the model can learn more realistic vessel representations. To validate the efficacy, C-DARL is trained using various vessel datasets, including coronary angiograms, abdominal digital subtraction angiograms, and retinal imaging. Experimental results confirm that our model achieves performance improvement over baseline methods with noise robustness, suggesting the effectiveness of C-DARL for vessel segmentation.
翻訳日:2023-08-02 15:59:09 公開日:2023-07-31
# 一般化最小化アルゴリズム

Universal Majorization-Minimization Algorithms ( http://arxiv.org/abs/2308.00190v1 )

ライセンス: Link先を確認
Matthew Streeter(参考訳) メジャー化最小化(Majorization-minimization, MM)は、局所的な高さの上限を最小化することで損失を反復的に減少させる最適化手法のファミリーである。 伝統的に、プライマリエータは手動で導出され、MMは少数のよく研究された問題にのみ適用された。 本稿では,テイラーモードの自動微分の最近の一般化を用いて,マーシャライザを自動的に導出する最適化器を提案する。 これらの普遍mmオプティマイザは任意の問題に適用でき、ハイパーパラメータチューニングなしで任意の出発点から収束することができる。

Majorization-minimization (MM) is a family of optimization methods that iteratively reduce a loss by minimizing a locally-tight upper bound, called a majorizer. Traditionally, majorizers were derived by hand, and MM was only applicable to a small number of well-studied problems. We present optimizers that instead derive majorizers automatically, using a recent generalization of Taylor mode automatic differentiation. These universal MM optimizers can be applied to arbitrary problems and converge from any starting point, with no hyperparameter tuning.
翻訳日:2023-08-02 15:58:49 公開日:2023-07-31
# 複雑なシステム科学としての生成モデル:大規模言語モデルの振る舞いをどのように理解できるか?

Generative Models as a Complex Systems Science: How can we make sense of large language model behavior? ( http://arxiv.org/abs/2308.00189v1 )

ライセンス: Link先を確認
Ari Holtzman, Peter West, Luke Zettlemoyer(参考訳) 事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義し、コンピュータとのインタラクション方法を再構築している。 かつては科学工学の分野であり、ビルディングブロックを積み重ねて他方の上に積み重ねたものは、おそらくすでに複雑なシステム科学であり、これまで想像していなかったユースケースをサポートするために創発的な行動が求められている。 タスクパフォーマンスを測定するベンチマークがどんどん増えていますが、まず最初にこれらのタスクを完了できる言語モデルが示す振る舞いの説明が不足しています。 言語モデルの振る舞いをクロスタスクのパフォーマンスを説明するカテゴリに分解し、機械的説明を導き、将来的な分析研究を支援するための体系的な取り組みを議論する。

Coaxing out desired behavior from pretrained models, while avoiding undesirable ones, has redefined NLP and is reshaping how we interact with computers. What was once a scientific engineering discipline-in which building blocks are stacked one on top of the other-is arguably already a complex systems science, in which emergent behaviors are sought out to support previously unimagined use cases. Despite the ever increasing number of benchmarks that measure task performance, we lack explanations of what behaviors language models exhibit that allow them to complete these tasks in the first place. We argue for a systematic effort to decompose language model behavior into categories that explain cross-task performance, to guide mechanistic explanations and help future-proof analytic research.
翻訳日:2023-08-02 15:58:38 公開日:2023-07-31
# パウリチャネルと動的マップの量子シミュレーション:アルゴリズムと実装

Quantum simulation of Pauli channels and dynamical maps: algorithm and implementation ( http://arxiv.org/abs/2308.00188v1 )

ライセンス: Link先を確認
Tomas Basile and Carlos Pineda(参考訳) パウリチャネルは量子コンピューティングの文脈において基本であり、量子デバイスにおける最も単純なノイズをモデル化する。 本研究では,パウリチャネルをシミュレートし,パウリ動的写像(パラメトリズドパウリチャネル)を包含する量子アルゴリズムを提案する。 動的マップに対応するためにパラメタライズド量子回路を用いる。 また, 1 つの単一量子ビット演算がパラメータに依存するパラメータ化回路を用いて, n 量子ビット変換が実現可能な数学的条件を定式化する。 提案回路の実装はIBMの量子コンピュータを用いて1量子ビットの場合で実証し,本実装の忠実さを報告する。

Pauli channels are fundamental in the context of quantum computing as they model the simplest kind of noise in quantum devices. We propose a quantum algorithm for simulating Pauli channels and extend it to encompass Pauli dynamical maps (parametrized Pauli channels). A parametrized quantum circuit is employed to accommodate for dynamical maps. We also establish the mathematical conditions for an N-qubit transformation to be achievable using a parametrized circuit where only one single-qubit operation depends on the parameter. The implementation of the proposed circuit is demonstrated using IBM's quantum computers for the case of one qubit, and the fidelity of this implementation is reported.
翻訳日:2023-08-02 15:58:23 公開日:2023-07-31
# 確率的位置におけるマスクトークンの予測によるマスク画像モデリングの改善

Predicting masked tokens in stochastic locations improves masked image modeling ( http://arxiv.org/abs/2308.00566v1 )

ライセンス: Link先を確認
Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun(参考訳) 自己教師付き学習は、有用な表現の学習を必要とするプレテキストタスクを構築することによって、ラベルのないデータから学習できる、ディープラーニングにおける有望なパラダイムである。 自然言語処理において、主要なプリテキストタスクはマスク付き言語モデリング(mlm)であり、コンピュータビジョンにはマスク付き画像モデリング(mim)と呼ばれる等価なものがある。 しかし、MIMは正確な位置のセマンティックコンテンツを予測する必要があるため、難しい。 例えば、犬の写真が不完全な場合、尾があると推測できるが、正確な位置は決定できない。 本稿では,この課題に対処する確率モデルであるFlexPredictを提案する。 具体的には,確率的マスキングトークン位置をモデルに設定し,位置不確実性に対してより頑健な学習機能へとモデルを導出する。 提案手法は,例えばMIMベースラインと比較して,ダウンストリーム性能を向上させる。FlexPredictは,VT-Bで1.6%,VT-Lで半教師付きビデオセグメンテーションで2.5%向上する。

Self-supervised learning is a promising paradigm in deep learning that enables learning from unlabeled data by constructing pretext tasks that require learning useful representations. In natural language processing, the dominant pretext task has been masked language modeling (MLM), while in computer vision there exists an equivalent called Masked Image Modeling (MIM). However, MIM is challenging because it requires predicting semantic content in accurate locations. E.g, given an incomplete picture of a dog, we can guess that there is a tail, but we cannot determine its exact location. In this work, we propose FlexPredict, a stochastic model that addresses this challenge by incorporating location uncertainty into the model. Specifically, we condition the model on stochastic masked token positions to guide the model toward learning features that are more robust to location uncertainties. Our approach improves downstream performance on a range of tasks, e.g, compared to MIM baselines, FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for semi-supervised video segmentation using ViT-L.
翻訳日:2023-08-02 13:53:19 公開日:2023-07-31
# ディープニューラルネットワークを用いた心臓MRI方位認識と標準化

Cardiac MRI Orientation Recognition and Standardization using Deep Neural Networks ( http://arxiv.org/abs/2308.00615v1 )

ライセンス: Link先を確認
Ruoxuan Zhen(参考訳) オリエンテーション認識と標準化は、医用画像処理タスクの有効性において重要な役割を果たす。 深層学習に基づく手法は、方向認識や予測タスクにおいて非常に有利であることが証明されている。 本稿では,心臓MRIにおける画像配向の課題に対処し,深部ニューラルネットワークを用いてその配向を分類・標準化する手法を提案する。 我々は,MRIの複数のシーケンスとモーダル性に対応するために,単一のモーダルから多様なモーダルへモデルを適応させるトランスファー学習戦略を提案する。 我々は,bSSFP,T2,LGEを含む様々なモードのCMR画像に関する総合的な実験を行った。 検証精度は100.0\%,100.0\%,99.4\%であり,モデルのロバスト性と有効性を確認した。 ソースコードとネットワークモデルはhttps://github.com/rxzhen/mscmr-orientで利用可能です。

Orientation recognition and standardization play a crucial role in the effectiveness of medical image processing tasks. Deep learning-based methods have proven highly advantageous in orientation recognition and prediction tasks. In this paper, we address the challenge of imaging orientation in cardiac MRI and present a method that employs deep neural networks to categorize and standardize the orientation. To cater to multiple sequences and modalities of MRI, we propose a transfer learning strategy, enabling adaptation of our model from a single modality to diverse modalities. We conducted comprehensive experiments on CMR images from various modalities, including bSSFP, T2, and LGE. The validation accuracies achieved were 100.0\%, 100.0\%, and 99.4\%, confirming the robustness and effectiveness of our model. Our source code and network models are available at https://github.com/rxzhen/MSCMR-orient
翻訳日:2023-08-02 13:44:28 公開日:2023-07-31
# 低消散を有するセンチメートルスケールナノメカニカル共振器

Centimeter-scale nanomechanical resonators with low dissipation ( http://arxiv.org/abs/2308.00611v1 )

ライセンス: Link先を確認
Andrea Cupertino, Dongil Shin, Leo Guo, Peter G. Steeneken, Miguel A. Bessa, Richard A. Norte(参考訳) 高アスペクト比の機械共振器は、マクロ重力波検出器からナノスケール音響まで、精密センシングにおいて重要である。 しかし、製造の難しさと高い計算コストにより、これらのデバイスの長さと厚さの比は制限され、ナノエンジニアリングのほとんど未開拓のままである。 ナノメートル厚を保った長さcmのナノメカニカル共振器を初めて紹介する。 我々は,高速ミリ波シミュレーションを用いてより計算集約的な設計最適化を行う最適化手法を用いて,この新しい設計空間を探索する。 ナノファブリケーション、機械学習によって導かれる設計最適化、精密エンジニアリングの相乗効果は、室温品質因子に対する固体アプローチをキロヘルツの機械周波数で開き、極低温共振器や浮遊ナノスフィアの極端な性能に匹敵する。

High-aspect-ratio mechanical resonators are pivotal in precision sensing, from macroscopic gravitational wave detectors to nanoscale acoustics. However, fabrication challenges and high computational costs have limited the length-to-thickness ratio of these devices, leaving a largely unexplored regime in nano-engineering. We present for the first time nanomechanical resonators that extend centimeters in length yet retain nanometer thickness. We explore this new design space using an optimization approach which judiciously employs fast millimeter-scale simulations to steer the more computationally intensive centimeter-scale design optimization. The synergy between nanofabrication, design optimization guided by machine learning, and precision engineering opens a solid-state approach to room temperature quality factors of 10 billion at kilohertz mechanical frequencies -- comparable to extreme performance of leading cryogenic resonators and levitated nanospheres, even under significantly less stringent temperature and vacuum conditions.
翻訳日:2023-08-02 13:43:01 公開日:2023-07-31
# 遺伝的プログラミングにおけるアクティブラーニング:シンボリック回帰のための効率的なデータ収集

Active Learning in Genetic Programming: Guiding Efficient Data Collection for Symbolic Regression ( http://arxiv.org/abs/2308.00672v1 )

ライセンス: Link先を確認
Nathan Haut, Wolfgang Banzhaf, and Bill Punch(参考訳) 本稿では,遺伝的プログラミングにおけるアクティブラーニングのための不確実性と多様性の計算手法について検討する。 遺伝的プログラミングにおけるモデル集団は,不確実性メトリクスと組み合わされたモデルアンサンブルを用いて,有益なトレーニングデータポイントを選択できることがわかった。 我々はいくつかの不確かさの指標を調査し、微分エントロピーが最良の結果を示した。 また, 2 つのデータ多様性指標を比較し, 多様性指標としての相関関係は, 極小ユークリッド距離よりも優れていることを見出した。 最後に、Pareto最適化アプローチを用いて不確実性と多様性を組み合わせ、両者をバランスの取れた方法で考慮し、トレーニングのための情報およびユニークなデータポイントの選択を導く。

This paper examines various methods of computing uncertainty and diversity for active learning in genetic programming. We found that the model population in genetic programming can be exploited to select informative training data points by using a model ensemble combined with an uncertainty metric. We explored several uncertainty metrics and found that differential entropy performed the best. We also compared two data diversity metrics and found that correlation as a diversity metric performs better than minimum Euclidean distance, although there are some drawbacks that prevent correlation from being used on all problems. Finally, we combined uncertainty and diversity using a Pareto optimization approach to allow both to be considered in a balanced way to guide the selection of informative and unique data points for training.
翻訳日:2023-08-02 13:35:08 公開日:2023-07-31
# 生成型マルチラベルゼロショット学習

Generative Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2101.11606v3 )

ライセンス: Link先を確認
Akshita Gupta, Sanath Narayan, Salman Khan, Fahad Shahbaz Khan, Ling Shao, Joost van de Weijer(参考訳) マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。 テストサンプルは、一般化変種に見られるカテゴリも追加で含めることができる。 既存のアプローチは、見たクラスから共有またはラベル固有の注意を学習することに依存している。 それでも、マルチラベル設定での推論中に見つからないクラスに対する信頼性の高い注意マップの計算は依然として課題である。 対照的に、最先端の単一ラベル生成逆数ネットワーク(GAN)ベースのアプローチは、対応するクラス属性の埋め込みからクラス固有の視覚的特徴を直接合成することを学ぶ。 しかし、gansからマルチラベル機能を合成することは、ゼロショット設定の文脈ではまだ未検討である。 本稿では,属性レベル,機能レベル,クロスレベル(across属性と機能レベル)で異なる融合アプローチを導入し,対応するマルチラベルクラス埋め込みからマルチラベル機能を合成する。 我々の知る限り、我々の研究は(一般化)ゼロショット設定におけるマルチラベル特徴合成の問題に最初に取り組むものである。 NUS-WIDE、Open Images、MS COCOの3つのゼロショット画像分類ベンチマークで包括的な実験が行われた。 当社のクロスレベル融合ベースのジェネレーティブアプローチは,3つのデータセットすべてにおいて最先端技術よりも優れています。 さらに,ms cocoにおけるゼロショット検出タスクにおいて,核融合手法の一般化能力を示し,既存の手法に対して良好な性能を得る。 ソースコードはhttps://github.com/akshitac8/generative_mlzslで入手できる。

Multi-label zero-shot learning strives to classify images into multiple unseen categories for which no data is available during training. The test samples can additionally contain seen categories in the generalized variant. Existing approaches rely on learning either shared or label-specific attention from the seen classes. Nevertheless, computing reliable attention maps for unseen classes during inference in a multi-label setting is still a challenge. In contrast, state-of-the-art single-label generative adversarial network (GAN) based approaches learn to directly synthesize the class-specific visual features from the corresponding class attribute embeddings. However, synthesizing multi-label features from GANs is still unexplored in the context of zero-shot setting. In this work, we introduce different fusion approaches at the attribute-level, feature-level and cross-level (across attribute and feature-levels) for synthesizing multi-label features from their corresponding multi-label class embedding. To the best of our knowledge, our work is the first to tackle the problem of multi-label feature synthesis in the (generalized) zero-shot setting. Comprehensive experiments are performed on three zero-shot image classification benchmarks: NUS-WIDE, Open Images and MS COCO. Our cross-level fusion-based generative approach outperforms the state-of-the-art on all three datasets. Furthermore, we show the generalization capabilities of our fusion approach in the zero-shot detection task on MS COCO, achieving favorable performance against existing methods. The source code is available at https://github.com/akshitac8/Generative_MLZSL.
翻訳日:2023-08-02 01:23:12 公開日:2023-07-31
# 関数プロファイルのモデル化と説明可能な形状シフト検出:fr\'echet平均と形状不変モデルを組み合わせたアプローチ

Modelling of functional profiles and explainable shape shifts detection: An approach combining the notion of the Fr\'echet mean with the shape invariant model} ( http://arxiv.org/abs/2010.02968v3 )

ライセンス: Link先を確認
Georgios I. Papayiannis, Stelios Psarakis, Athanasios N. Yannacopoulos(参考訳) fr\'echet平均の概念と変形モデルの概念を組み合わせた機能プロファイルの形状シフト検出に適したモデリングフレームワークを開発し,提案する。 fr\'echet平均概念で示される一般化平均感覚は、研究中のプロファイルの典型的なパターンを捉えるために用いられ、一方、変形モデルの概念、特に形状不変モデルの概念は、典型的な形状からのプロファイルの偏差の解釈可能なパラメータ化を可能にする。 データの機能的性質に適合するewma型制御チャートと、使用済みの変形モデルを構築し、一般化された平均感覚に関して研究中のプロファイルの特定の形状特性を利用し、形状および/または変形過程に関する潜在的なシフトを識別できるようにする。 形状変形過程における電位シフトは、さらに振幅および/または研究中のプロファイルの位相に関して重要なシフトに分解される。 提案するモデリング・シフト検出フレームワークは,アテネ市域の大気汚染物質に関する日次濃度プロファイルをモデル化し,危険濃度レベルを示すプロファイルを殆どのケースで同定する実世界のケーススタディに実装されている。

A modelling framework suitable for detecting shape shifts in functional profiles combining the notion of Fr\'echet mean and the concept of deformation models is developed and proposed. The generalized mean sense offerred by the Fr\'echet mean notion is employed to capture the typical pattern of the profiles under study, while the concept of deformation models, and in particular of the shape invariant model, allows for interpretable parameterizations of profile's deviations from the typical shape. EWMA-type control charts compatible with the functional nature of data and the employed deformation model are built and proposed, exploiting certain shape characteristics of the profiles under study with respect to the generalised mean sense, allowing for the identification of potential shifts concerning the shape and/or the deformation process. Potential shifts in the shape deformation process, are further distingu\-ished to significant shifts with respect to amplitude and/or the phase of the profile under study. The proposed modelling and shift detection framework is implemented to a real world case study, where daily concentration profiles concerning air pollutants from an area in the city of Athens are modelled, while profiles indicating hazardous concentration levels are successfully identified in most of the cases.
翻訳日:2023-08-02 01:22:33 公開日:2023-07-31
# 高分解能微分方程式による鞍点オプティマイザのラストイテレート収束

Last-Iterate Convergence of Saddle-Point Optimizers via High-Resolution Differential Equations ( http://arxiv.org/abs/2112.13826v3 )

ライセンス: Link先を確認
Tatjana Chavdarova, Michael I. Jordan and Manolis Zampetakis(参考訳) 広く使われている1次サドル点最適化法は、導出時のグラディエントDescent Ascent(GDA)法と同一の連続時間常微分方程式(ODE)を導出する。 しかし、これらの方法の収束特性は単純双線型ゲームでも定性的に異なる。 したがって、単目的最適化法の解析において強力であることが証明されたODEパースペクティブは、サドルポイント最適化において同様の役割を果たさなかった。 本研究では,高分解能微分方程式 (HRDE) と呼ばれる流体力学の枠組みを,いくつかのサドル点最適化法のための微分方程式モデルの設計に適用する。 批判的に、これらのHRDEは様々なサドルポイント最適化法で異なる。 さらに、双線型ゲームでは、HRDEの収束特性は対応する離散メソッドの定性的特徴と一致する。 さらに,OGDA(Optimistic Gradient Descent Ascent)のHRDEは,一般単調変分不等式に対して,emph{last-iterate convergence}を示すことを示した。 最後に、OGDA法におけるemph{best-iterate convergence} に対して、単調作用素の1次滑らかさのみに依存する収束率を与える。

Several widely-used first-order saddle-point optimization methods yield an identical continuous-time ordinary differential equation (ODE) that is identical to that of the Gradient Descent Ascent (GDA) method when derived naively. However, the convergence properties of these methods are qualitatively different, even on simple bilinear games. Thus the ODE perspective, which has proved powerful in analyzing single-objective optimization methods, has not played a similar role in saddle-point optimization. We adopt a framework studied in fluid dynamics -- known as High-Resolution Differential Equations (HRDEs) -- to design differential equation models for several saddle-point optimization methods. Critically, these HRDEs are distinct for various saddle-point optimization methods. Moreover, in bilinear games, the convergence properties of the HRDEs match the qualitative features of the corresponding discrete methods. Additionally, we show that the HRDE of Optimistic Gradient Descent Ascent (OGDA) exhibits \emph{last-iterate convergence} for general monotone variational inequalities. Finally, we provide rates of convergence for the \emph{best-iterate convergence} of the OGDA method, relying solely on the first-order smoothness of the monotone operator.
翻訳日:2023-08-02 01:17:37 公開日:2023-07-31
# 合成負データを用いたロバスト学習による高密度分布検出

Dense Out-of-Distribution Detection by Robust Learning on Synthetic Negative Data ( http://arxiv.org/abs/2112.12833v3 )

ライセンス: Link先を確認
Matej Grci\'c, Petra Bevandi\'c, Zoran Kalafati\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 標準機械学習は、トレーニング分布に属さない入力を許容できない。 結果のモデルはしばしば、破壊的な結果をもたらす可能性のある確実な誤った予測を引き起こす。 この問題は、入力画像が部分的に異常である可能性があるため、密度予測の文脈で特に要求される。 従来の研究では、既成の負のデータセットに対する識別訓練による密集した分散検出に取り組んできた。 しかし、真の負のデータは、視覚世界のあらゆるモードをカバーすることはありそうにない。 この目的のために、我々はこのアプローチを拡張して、慣性多様体の境界に沿って合成負のパッチを生成する。 カバレッジ指向学習目標と異なる解像度でサンプルを生成する能力によって,共同でトレーニングされた正規化フローを活用する。 訓練や推論によって一貫して適用可能な原則的情報理論的基準に従って異常を検出する。 その結果得られたモデルは、計算オーバーヘッドが最小であるにもかかわらず、道路走行シーンやリモートセンシングイメージにおける分散検出のためのベンチマークに新たな最先端を設定した。

Standard machine learning is unable to accommodate inputs which do not belong to the training distribution. The resulting models often give rise to confident incorrect predictions which may lead to devastating consequences. This problem is especially demanding in the context of dense prediction since input images may be only partially anomalous. Previous work has addressed dense out-of-distribution detection by discriminative training with respect to off-the-shelf negative datasets. However, real negative data are unlikely to cover all modes of the entire visual world. To this end, we extend this approach by generating synthetic negative patches along the border of the inlier manifold. We leverage a jointly trained normalizing flow due to coverage-oriented learning objective and the capability to generate samples at different resolutions. We detect anomalies according to a principled information-theoretic criterion which can be consistently applied through training and inference. The resulting models set the new state of the art on benchmarks for out-of-distribution detection in road-driving scenes and remote sensing imagery, in spite of minimal computational overhead.
翻訳日:2023-08-02 01:17:15 公開日:2023-07-31
# 非加法量子系における絡み合い伝播とダイナミクス

Entanglement propagation and dynamics in non-additive quantum systems ( http://arxiv.org/abs/2112.11488v2 )

ライセンス: Link先を確認
Guido Giachetti and Nicolo Defenu(参考訳) 長距離相互作用量子系の顕著な集合的特徴は、量子技術応用の有望な候補となる。 しかし、励起の伝播と閉じ込めに基づく共通機構の崩壊により、添加性の欠如は、エンタングルメントのスケーリングと輸送の伝統的なイメージを覆す。 本稿では,多体量子系における絡み合いエントロピーのダイナミクスについて述べる。 厳密な熱力学的限界エンタングルメントダイナミクスは抑制されているが、グローバルダイナミクスにおいて複数の共鳴モードをトリガーする可能性があるため、中間系サイズで新しいスケーリングレジームの豊富なモザイクが観察される。 エンタングルメント伝播の形状と時間スケールの定量的予測を行い、現在の量子シミュレータにおけるこれらの位相の観察への道を開く。 この画像は、Floquet運転対象のローカルな多くのボディシステムと接続され、対比される。

The prominent collective character of long-range interacting quantum systems makes them promising candidates for quantum technological applications. Yet, lack of additivity overthrows the traditional picture for entanglement scaling and transport, due to the breakdown of the common mechanism based on excitations propagation and confinement. Here, we describe the dynamics of the entanglement entropy in many-body quantum systems with a diverging contribution to the internal energy from the two-body potential. While in the strict thermodynamic limit entanglement dynamics is shown to be suppressed, a rich mosaic of novel scaling regimes is observed at intermediate system sizes, due to the possibility to trigger multiple resonant modes in the global dynamics. Quantitative predictions on the shape and timescales of entanglement propagation are made, paving the way to the observation of these phases in current quantum simulators. This picture is connected and contrasted with the case of local many body systems subject to Floquet driving.
翻訳日:2023-08-02 01:16:59 公開日:2023-07-31
# 知識集約型タスクとしてのクエリ中心の要約:パイロットスタディ

Tackling Query-Focused Summarization as A Knowledge-Intensive Task: A Pilot Study ( http://arxiv.org/abs/2112.07536v2 )

ライセンス: Link先を確認
Weijia Zhang, Svitlana Vakulenko, Thilina Rajapakse, Yumo Xu, Evangelos Kanoulas(参考訳) クエリにフォーカスした要約(qfs)には、関連するドキュメントセットを使用して、与えられたクエリを要約する必要がある。 しかし、このような関連文書は手動で注釈付けされるべきであり、現実的なシナリオでは容易には利用できない。 この制限に対処するため、QFSタスクは、関連する文書にアクセスすることなく、知識集約(KI)タスクとして取り組む。 代わりに、これらの文書は大規模知識コーパスに存在し、まず回収されるべきであると仮定する。 この新たな設定を探るため、既存のQFSデータセットを適用して、新しいデータセット(KI-QFS)を構築します。 このデータセットでは、クエリへの応答には知識コーパスからのドキュメント検索が必要である。 我々は3つの異なる知識コーパスを構築し,検索評価を可能にする関連アノテーションも提供する。 最後に、最新のQFSモデルと検索強化モデルを用いてデータセットをベンチマークする。 実験の結果, KI-QFSでは, 従来のQFSタスクに比べてQFSモデルの方が有意に優れており, 知識集約的な設定の方がはるかに困難であり, 改善の余地がかなりあることが示唆された。 我々は、より現実的なシナリオでQFSに対処するためのさらなる研究を促すと信じている。

Query-focused summarization (QFS) requires generating a summary given a query using a set of relevant documents. However, such relevant documents should be annotated manually and thus are not readily available in realistic scenarios. To address this limitation, we tackle the QFS task as a knowledge-intensive (KI) task without access to any relevant documents. Instead, we assume that these documents are present in a large-scale knowledge corpus and should be retrieved first. To explore this new setting, we build a new dataset (KI-QFS) by adapting existing QFS datasets. In this dataset, answering the query requires document retrieval from a knowledge corpus. We construct three different knowledge corpora, and we further provide relevance annotations to enable retrieval evaluation. Finally, we benchmark the dataset with state-of-the-art QFS models and retrieval-enhanced models. The experimental results demonstrate that QFS models perform significantly worse on KI-QFS compared to the original QFS task, indicating that the knowledge-intensive setting is much more challenging and offers substantial room for improvement. We believe that our investigation will inspire further research into addressing QFS in more realistic scenarios.
翻訳日:2023-08-02 01:16:44 公開日:2023-07-31
# オンライン政治コミュニケーションにおける類似およびイデオロギー的関連画像の検討

Examining Similar and Ideologically Correlated Imagery in Online Political Communication ( http://arxiv.org/abs/2110.01183v3 )

ライセンス: Link先を確認
Amogh Joshi, Cody Buntain(参考訳) 本稿では,米国の政治家がtwitterで共有するビジュアルメディア,政治家が共有する画像タイプが政治的立場をどのように反映するか,および,この文脈におけるイメージキャラクタリゼーションの標準手法を用いた場合の危険性を明らかにする。 過去の研究は、政治家がソーシャルメディアで画像を使うことに価値ある結果をもたらしてきたが、その仕事は主に写真メディアに焦点を当てており、こうした空間で共有される様々なビジュアルメディア(インフォグラフィック、イラスト、ミームなど)を考えると不十分である。 政治家の視覚を特徴付けるために、複数のポピュラーで事前学習されたディープラーニングモデルを活用することで、この研究は、twitterで共有される8種類のビジュアルメディアをクラスタリングを使って識別する。 結果は、個々の政治家がこれらのタイプを共有しており、これらのクラスタにまたがるイメージの分布は、全体的なイデオロギー的な位置と相関していることを示している。 しかし、手動による評価では、これらの画像の特徴付けモデルは、しばしば異なる意味を持つ視覚的に類似したイメージを同一のクラスタに分類し、研究者がこの領域におけるクラスタの解釈方法と、政治的イデオロギーとのクラスタベースの相関性に影響を及ぼす。 特に、これらの事前訓練されたモデルにおける意味の崩壊は、共通のタイプの画像を共有するイデオロギーのスペクトルにまたがる政治家よりも、特定の画像のクラスタ上でヌル発見を引き起こす可能性がある。 本稿は、このような問題を防止するための研究者の勧告で締めくくります。

This paper investigates visual media shared by US national politicians on Twitter, how a politician's variety of image types shared reflects their political position, and identifies a hazard in using standard methods for image characterization in this context. While past work has yielded valuable results on politicians' use of imagery in social media, that work has focused primarily on photographic media, which may be insufficient given the variety of visual media shared in such spaces (e.g., infographics, illustrations, or memes). Leveraging multiple popular, pre-trained, deep-learning models to characterize politicians' visuals, this work uses clustering to identify eight types of visual media shared on Twitter, several of which are not photographic in nature. Results show individual politicians share a variety of these types, and the distributions of their imagery across these clusters is correlated with their overall ideological position -- e.g., liberal politicians appear to share a larger proportion of infographic-style images, and conservative politicians appear to share more patriotic imagery. Manual assessment, however, reveals that these image-characterization models often group visually similar images with different semantic meaning into the same clusters, which has implications for how researchers interpret clusters in this space and cluster-based correlations with political ideology. In particular, collapsing semantic meaning in these pre-trained models may drive null findings on certain clusters of images rather than politicians across the ideological spectrum sharing common types of imagery. We end this paper with a set of researcher recommendations to prevent such issues.
翻訳日:2023-08-02 01:15:18 公開日:2023-07-31
# holdouts setによる予測モデル更新

Holdouts set for predictive model updating ( http://arxiv.org/abs/2202.06374v4 )

ライセンス: Link先を確認
Sami Haidar-Wehbe, Samuel R Emerson, Louis J M Aslett, James Liley(参考訳) 医療のような複雑な環境では、予測リスクスコアは介入を導く上でますます重要な役割を果たす。 しかしながら、介入を導くために使用されるリスクスコアを直接更新することは、バイアス付きリスク推定につながる可能性がある。 これに対処するために,我々は,リスクスコアに導かれた介入を受けない人口のサブセットである「ホールドアウト集合」を用いた更新を提案する。 ホールドアウトセットのサイズでバランスを取ることが不可欠であり、ホールドアウトサンプルの数を最小にしながら、更新されたリスクスコアの良好なパフォーマンスを確保する。 このアプローチによって、N$の人口に対して、全コストが$O\left(N^{2/3}\right)$で成長できることを証明し、一般的には競合する代替手段はないと主張する。 適切な損失関数を定義することにより、最適なホールドアウトサイズ(OHS)を容易に識別できる条件を記述し、OHS推定のためのパラメトリックおよびセミパラメトリックアルゴリズムを導入し、最近のリスクスコアにその使用例を示す。 これらの結果に基づき、予測リスクスコアを安全に更新する安全で実行可能で容易に実装できる手段であるホールドアウトセットを事例として挙げる。

In complex settings, such as healthcare, predictive risk scores play an increasingly crucial role in guiding interventions. However, directly updating risk scores used to guide intervention can lead to biased risk estimates. To address this, we propose updating using a `holdout set' - a subset of the population that does not receive interventions guided by the risk score. Striking a balance in the size of the holdout set is essential, to ensure good performance of the updated risk score whilst minimising the number of held out samples. We prove that this approach enables total costs to grow at a rate $O\left(N^{2/3}\right)$ for a population of size $N$, and argue that in general circumstances there is no competitive alternative. By defining an appropriate loss function, we describe conditions under which an optimal holdout size (OHS) can be readily identified, and introduce parametric and semi-parametric algorithms for OHS estimation, demonstrating their use on a recent risk score for pre-eclampsia. Based on these results, we make the case that a holdout set is a safe, viable and easily implemented means to safely update predictive risk scores.
翻訳日:2023-08-02 01:06:32 公開日:2023-07-31
# 自律運転のための解釈可能・高性能政策の学習

Learning Interpretable, High-Performing Policies for Autonomous Driving ( http://arxiv.org/abs/2202.02352v3 )

ライセンス: Link先を確認
Rohan Paleja, Yaru Niu, Andrew Silva, Chace Ritchie, Sugju Choi, Matthew Gombolay(参考訳) 強化学習(RL)におけるグラディエントに基づくアプローチは、自動運転車の学習政策において大きな成功を収めた。 これらのアプローチのパフォーマンスは現実的な採用を保証しますが、これらのポリシーには解釈可能性がなく、安全クリティカルで法的に規制された自律運転(AD)分野におけるデプロイ可能性に制限があります。 ADは高い性能を維持するための解釈可能かつ検証可能な制御ポリシーを必要とする。 本稿では,高パフォーマンスかつ解釈可能なポリシを生成するために,現代的な勾配に基づくRLアプローチによって最適化可能なツリーベースモデルであるICCTを提案する。 我々のアプローチの鍵は、疎い決定木のような表現で直接最適化できる手順である。 ICCTは6つの領域にまたがるベースラインに対して有効であり,ADシナリオにおいて最大33%の精度で,かつ,ディープラーニングベースラインに対するポリシーパラメータの300倍-600倍の削減を実現している。 さらに,14両の物理的ロボットを実演し,icctの解釈性と有用性を示す。

Gradient-based approaches in reinforcement learning (RL) have achieved tremendous success in learning policies for autonomous vehicles. While the performance of these approaches warrants real-world adoption, these policies lack interpretability, limiting deployability in the safety-critical and legally-regulated domain of autonomous driving (AD). AD requires interpretable and verifiable control policies that maintain high performance. We propose Interpretable Continuous Control Trees (ICCTs), a tree-based model that can be optimized via modern, gradient-based, RL approaches to produce high-performing, interpretable policies. The key to our approach is a procedure for allowing direct optimization in a sparse decision-tree-like representation. We validate ICCTs against baselines across six domains, showing that ICCTs are capable of learning interpretable policy representations that parity or outperform baselines by up to 33% in AD scenarios while achieving a 300x-600x reduction in the number of policy parameters against deep learning baselines. Furthermore, we demonstrate the interpretability and utility of our ICCTs through a 14-car physical robot demonstration.
翻訳日:2023-08-02 01:06:10 公開日:2023-07-31
# 深層学習によるパウリスピン遮断の同定

Identifying Pauli spin blockade using deep learning ( http://arxiv.org/abs/2202.00574v3 )

ライセンス: Link先を確認
Jonas Schuff, Dominic T. Lennon, Simon Geyer, David L. Craig, Federico Fedele, Florian Vigneau, Leon C. Camenzind, Andreas V. Kuhlmann, G. Andrew D. Briggs, Dominik M. Zumb\"uhl, Dino Sejdinovic, Natalia Ares(参考訳) パウリスピンブロック(psb)は、高温でもスピン量子ビットの初期化と読み出しのための優れた資源として利用できるが、識別は困難である。 電荷輸送測定を用いてPSBを自動的に識別できる機械学習アルゴリズムを提案する。 PSBデータの不足は、シミュレーションデータを用いてアルゴリズムを訓練し、デバイス間検証によって回避される。 シリコン電界効果トランジスタデバイスへのアプローチを実証し、異なるテストデバイス上で96%の精度を報告し、このアプローチがデバイス変動にロバストであることを示す。 このアプローチは、あらゆる種類の量子ドットデバイスで採用されることが期待される。

Pauli spin blockade (PSB) can be employed as a great resource for spin qubit initialisation and readout even at elevated temperatures but it can be difficult to identify. We present a machine learning algorithm capable of automatically identifying PSB using charge transport measurements. The scarcity of PSB data is circumvented by training the algorithm with simulated data and by using cross-device validation. We demonstrate our approach on a silicon field-effect transistor device and report an accuracy of 96% on different test devices, giving evidence that the approach is robust to device variability. The approach is expected to be employable across all types of quantum dot devices.
翻訳日:2023-08-02 01:05:49 公開日:2023-07-31
# DoCoM: ほぼ最適サンプル複雑性を持つ圧縮分散最適化

DoCoM: Compressed Decentralized Optimization with Near-Optimal Sample Complexity ( http://arxiv.org/abs/2202.00255v2 )

ライセンス: Link先を確認
Chung-Yiu Yau, Hoi-To Wai(参考訳) 本稿では、通信効率の高い分散最適化のために、Douubly Compressed Momentum支援確率勾配追跡アルゴリズム $\texttt{DoCoM}$を提案する。 このアルゴリズムは、通信圧縮を可能にしながら、最適に近いサンプル複雑性を達成するための2つの主成分を特徴としている。 まず、アルゴリズムは圧縮ゴシピングコンセンサスを用いて、平均的な反復と確率的勾配の両方を追跡する。 第2に、局所勾配推定と適応分散低減のためのモーメントステップが組み込まれている。 我々は、$\texttt{DoCoM}$が、$\mathbb{E}[ \| \nabla f( \theta ) \|^2 ] = \mathcal{O}(1 / T^{2/3} )$ in $T$ iterations, ここで$f(\theta)$は滑らかな(非凸的)目的関数であることを示す。 この証明は、$\texttt{DoCoM}$の1点過程を厳密に追跡する新しいポテンシャル関数を解析的に設計することで達成される。 また,本解析では,ポリak-{\l}ojasiewicz条件を持つ目的関数に対する大域的最適解への$\textt{docom}$の線形収束も確立した。 数値実験により,本アルゴリズムは実際にいくつかの最先端アルゴリズムより優れていることが示された。

This paper proposes the Doubly Compressed Momentum-assisted stochastic gradient tracking algorithm $\texttt{DoCoM}$ for communication-efficient decentralized optimization. The algorithm features two main ingredients to achieve a near-optimal sample complexity while allowing for communication compression. First, the algorithm tracks both the averaged iterate and stochastic gradient using compressed gossiping consensus. Second, a momentum step is incorporated for adaptive variance reduction with the local gradient estimates. We show that $\texttt{DoCoM}$ finds a near-stationary solution at all participating agents satisfying $\mathbb{E}[ \| \nabla f( \theta ) \|^2 ] = \mathcal{O}( 1 / T^{2/3} )$ in $T$ iterations, where $f(\theta)$ is a smooth (possibly non-convex) objective function. Notice that the proof is achieved via analytically designing a new potential function that tightly tracks the one-iteration progress of $\texttt{DoCoM}$. As a corollary, our analysis also established the linear convergence of $\texttt{DoCoM}$ to a global optimal solution for objective functions with the Polyak-{\L}ojasiewicz condition. Numerical experiments demonstrate that our algorithm outperforms several state-of-the-art algorithms in practice.
翻訳日:2023-08-02 01:05:39 公開日:2023-07-31
# 統合半量子層通信

Integrated semi-quantum layered communication ( http://arxiv.org/abs/2201.06540v4 )

ライセンス: Link先を確認
Rajni Bala, Sooryansh Asthana and V. Ravishankar(参考訳) 近年、層状ネットワークにおけるセキュアな量子通信が重要な研究領域として浮上している。 本稿では,1人の量子参加者と他のすべての古典的参加者とのセキュアな量子通信において,多次元状態が提供するポテンシャルを利用する。 3つのプロトコルを提案します 一 絡み合いに基づく半量子鍵分布 (二)半量子秘密共有層及び 三 任意の層状ネットワークにおいて秘密情報を共有するための半量子鍵分散と秘密共有を統合した。 これらのプロトコルは層状ネットワークにおけるセミ量子通信の機能を統合する。 これら3つのプロトコルは、多次元状態の利用により、ネットワークのすべての層にセキュアな情報の同時配信を可能にする。 我々は,これらのプロトコルを,少なくとも5名の参加者と3つのレイヤからなる小さなネットワークに対して提示し,様々な盗聴戦略に対して,同一の堅牢性を示す。 最後に,任意の量子ネットワークにおいて鍵/秘密鍵を分散するための提案プロトコルを一般化するための詳細な手順を提案する。

In recent times, secure quantum communication in layered networks has emerged as an important area of study. In this paper, we harness the potential offered by multidimensional states in secure quantum communication with only one quantum participant and all the other classical participants. We propose three protocols for (i) entanglement-based layered semi--quantum key distribution, (ii) layered semi-quantum secret sharing, and, (iii) integrated layered semi-quantum key distribution and secret sharing to share secret information in an arbitrarily layered network. These protocols integrate the features of semi quantum communication in layered networks. All three protocols allow for the simultaneous distribution of secure information in all the layers of a network, thanks to the employment of multidimensional states. We present these protocols for a small network of at most five participants and three layers and show the robustness of the same against various eavesdropping strategies. Finally, we provide a detailed procedure for the generalization of the proposed protocols to distribute keys/secrets in any arbitrarily structured quantum network.
翻訳日:2023-08-02 01:04:18 公開日:2023-07-31
# マルチエージェント学習におけるチームのメリットを探る

Exploring the Benefits of Teams in Multiagent Learning ( http://arxiv.org/abs/2205.02328v2 )

ライセンス: Link先を確認
David Radke, Kate Larson, Tim Brecht(参考訳) 協力を必要とする問題に対して、多くのマルチエージェントシステムは、個々のエージェント間のソリューションを実装している。 マルチエージェントチームは主に紛争時に研究されるが、組織心理学(OP)では、協調と協力の方法を学ぶために、人間の集団内のチームのメリットを強調している。 本稿では,OPにインスパイアされた強化学習(RL)エージェントのためのマルチエージェントチームの新しいモデルを提案する。 近年のマルチエージェントRLで普及している複雑な社会的ジレンマを用いて、我々のモデルを検証する。 さらに、エージェントはチームの創発的な役割をコーディネートし、学習し、すべてのエージェントの利害関係が整った時よりも高い報酬を得ることができる。

For problems requiring cooperation, many multiagent systems implement solutions among either individual agents or across an entire population towards a common goal. Multiagent teams are primarily studied when in conflict; however, organizational psychology (OP) highlights the benefits of teams among human populations for learning how to coordinate and cooperate. In this paper, we propose a new model of multiagent teams for reinforcement learning (RL) agents inspired by OP and early work on teams in artificial intelligence. We validate our model using complex social dilemmas that are popular in recent multiagent RL and find that agents divided into teams develop cooperative pro-social policies despite incentives to not cooperate. Furthermore, agents are better able to coordinate and learn emergent roles within their teams and achieve higher rewards compared to when the interests of all agents are aligned.
翻訳日:2023-08-02 00:57:46 公開日:2023-07-31
# 文法的数の利用に関する調査

Probing for the Usage of Grammatical Number ( http://arxiv.org/abs/2204.08831v3 )

ライセンス: Link先を確認
Karim Lasri, Tiago Pimentel, Alessandro Lenci, Thierry Poibeau, Ryan Cotterell(参考訳) 探究の中心的な探求は、事前訓練されたモデルがその表現の中で言語特性をエンコードする方法を明らかにすることである。 しかし、エンコーディングは、予測を行う際に、モデルがそれに依存しない可能性がある。 本稿では、モデルが実際に使用しているエンコーディングを見つけ、使用法に基づく探索設定を導入する。 まず,言語特性を用いずには解決できない行動課題を選択する。 そして、モデルの表現を介入することで、プロパティを除去しようとします。 我々は、エンコーディングがモデルによって使用される場合、その削除が選択された動作タスクのパフォーマンスに影響を及ぼすと論じる。 ケーススタディでは,BERTが文法的数値をエンコードする方法と,このエンコーディングを用いて数値合意課題を解決する方法に焦点をあてる。 実験により,BERTは文法的な数値を線形に符号化して正しい振舞いの出力を生成する。 また、BERTは名詞と動詞の文法的な数値を別々に符号化している。 最後に,文法的数に関する情報が名詞から頭動詞に伝達される層を同定する。

A central quest of probing is to uncover how pre-trained models encode a linguistic property within their representations. An encoding, however, might be spurious-i.e., the model might not rely on it when making predictions. In this paper, we try to find encodings that the model actually uses, introducing a usage-based probing setup. We first choose a behavioral task which cannot be solved without using the linguistic property. Then, we attempt to remove the property by intervening on the model's representations. We contend that, if an encoding is used by the model, its removal should harm the performance on the chosen behavioral task. As a case study, we focus on how BERT encodes grammatical number, and on how it uses this encoding to solve the number agreement task. Experimentally, we find that BERT relies on a linear encoding of grammatical number to produce the correct behavioral output. We also find that BERT uses a separate encoding of grammatical number for nouns and verbs. Finally, we identify in which layers information about grammatical number is transferred from a noun to its head verb.
翻訳日:2023-08-02 00:57:00 公開日:2023-07-31
# 時間局所非マルコフ進化のゲージ量子熱力学

Gauge Quantum Thermodynamics of Time-local non-Markovian Evolutions ( http://arxiv.org/abs/2204.02966v2 )

ライセンス: Link先を確認
Fernando Nicacio and Raphael N. P. Maia(参考訳) 一般時間局所非マルコフマスター方程式を用いて、電流とパワーを古典的熱力学のようにプロセス依存と定義する。 それぞれの過程は対称変換(マスター方程式のゲージ)によって特徴づけられ、異なる量の熱や仕事と関連付けられる。 対称性の要求が熱力学量を修正すると、熱力学の法則の一貫したゲージ解釈が現れる。 また、ゲージ非依存の熱力学挙動を持つシステムに必要な十分な条件を提供し、量子詳細バランス条件を満たすシステムがゲージ非依存であることを示す。 この理論を量子熱エンジンに適用すると、ゲージ変換は機械効率を変化させるが、古典的なカルノー境界によって制約される。

Dealing with a generic time-local non-Markovian master equation, we define current and power to be process-dependent as in classical thermodynamics. Each process is characterized by a symmetry transformation, a gauge of the master equation, and is associated with different amounts of heat and/or work. Once the symmetry requirement fixes the thermodynamical quantities, a consistent gauge interpretation of the laws of thermodynamics emerges. We also provide the necessary and sufficient conditions for a system to have a gauge-independent thermodynamical behavior and show that systems satisfying Quantum Detailed Balance conditions are gauge-independent. Applying the theory to quantum thermal engines, we show that gauge transformations can change the machine efficiency, however, yet constrained by the classical Carnot bound.
翻訳日:2023-08-02 00:56:41 公開日:2023-07-31
# 異なる領域上の過渡偏微分方程式を解く局所ニューラル演算子

Local neural operator for solving transient partial differential equations on varied domains ( http://arxiv.org/abs/2203.08145v2 )

ライセンス: Link先を確認
Hongyu Li, Ximeng Ye, Peng Jiang, Guoliang Qin, Tiejun Wang(参考訳) 人工知能(AI)は、偏微分方程式(PDE)を解くための膨大なコストを削減する大きな可能性を示している。 しかし、ニューラルネットワークが固定された領域と境界上で定義・訓練されるため、実際には完全には実現されていない。 本稿では,各領域における過渡的PDEを解決するための局所神経演算子(LNO)を提案する。 境界処理を含む便利な戦略が組み合わさり、1つの事前訓練されたLNOが、異なるドメインでのソリューションを予測することができる。 実演のために、LNOはランダムに生成されたデータサンプルからナビエ・ストークス方程式を学習し、事前学習されたLNOを明示的な数値マーチングスキームとして使用し、例えば、蓋駆動キャビティ内の流れと翼のカスケードを横切る流れを解いた。 翼のカスケードを横切る流れを計算するため、従来の有限要素法よりも約1000$\times$高速である。 事前学習したLNOを用いた解法は, 数値計算の高速化に大きく貢献する。

Artificial intelligence (AI) shows great potential to reduce the huge cost of solving partial differential equations (PDEs). However, it is not fully realized in practice as neural networks are defined and trained on fixed domains and boundaries. Herein, we propose local neural operator (LNO) for solving transient PDEs on varied domains. It comes together with a handy strategy including boundary treatments, enabling one pre-trained LNO to predict solutions on different domains. For demonstration, LNO learns Navier-Stokes equations from randomly generated data samples, and then the pre-trained LNO is used as an explicit numerical time-marching scheme to solve the flow of fluid on unseen domains, e.g., the flow in a lid-driven cavity and the flow across the cascade of airfoils. It is about 1000$\times$ faster than the conventional finite element method to calculate the flow across the cascade of airfoils. The solving process with pre-trained LNO achieves great efficiency, with significant potential to accelerate numerical calculations in practice.
翻訳日:2023-08-02 00:55:46 公開日:2023-07-31
# Kan拡張によるリソースモノトンの拡張

Extending Resource Monotones using Kan Extensions ( http://arxiv.org/abs/2206.09784v3 )

ライセンス: Link先を確認
Robin Cockett, Isabelle Jianing Geng, Carlo Maria Scandolo, Priyaa Varshinee Srinivasan(参考訳) 本稿では,gour と tomamichel が提案した資源理論のための単調の拡張に関する枠組みを一般化する。 資源理論のモノトーンは、資源の効用または値を表す理論において、実数を各資源に割り当てる。 グールとトミシェルは、資源理論がより大きな理論に完全に忠実に埋め込まれるときに、集合論的枠組みを用いて単調を拡張できる問題を研究した。 1つのリソース理論を1つの完全かつ忠実な包含ではなく別のリソース理論への関手変換が存在する場合のシナリオへの単調拡張の計算問題を一般化することができる。 本稿では,(一点的に)kan拡張が,モノトーンの拡張を記述・計算するための精密な分類フレームワークを提供することを示す。 カン拡張を用いて単調拡張を設定するため、資源理論の枠組みとして分割圏 (pCat) を導入し、資源理論間の関係を定式化する。 モノトンを非負実数のプレオーダーに pCat 関手として記述し、カン拡張を用いて任意の pCat 関手に沿って拡張するモノトンを記述する。 本手法は,二成分純状態の絡み合いモノトンを二成分混合状態へ拡張し,古典的発散を量子集合へ拡張し,非一様モノトンを古典確率論から量子論へ拡張することにより,我々の枠組みがどのように機能するかを示す。

In this paper we generalize the framework proposed by Gour and Tomamichel regarding extensions of monotones for resource theories. A monotone for a resource theory assigns a real number to each resource in the theory signifying the utility or the value of the resource. Gour and Tomamichel studied the problem of extending monotones using set-theoretical framework when a resource theory embeds fully and faithfully into the larger theory. One can generalize the problem of computing monotone extensions to scenarios when there exists a functorial transformation of one resource theory to another instead of just a full and faithful inclusion. In this article, we show that (point-wise) Kan extensions provide a precise categorical framework to describe and compute such extensions of monotones. To set up monotone extensions using Kan extensions, we introduce partitioned categories (pCat)as a framework for resource theories and pCat functors to formalize relationship between resource theories. We describe monotones as pCat functors into the preorder of non-negative real numbers, and describe extending monotones along any pCat functor using Kan extensions. We show how our framework works by applying it to extend entanglement monotones for bipartite pure states to bipartite mixed states, to extend classical divergences to the quantum setting, and to extend a non-uniformity monotone from classical probabilistic theory to quantum theory.
翻訳日:2023-08-02 00:46:55 公開日:2023-07-31
# モデル変換によるフレキシブル微分可能最適化

Flexible Differentiable Optimization via Model Transformations ( http://arxiv.org/abs/2206.06135v3 )

ライセンス: Link先を確認
Mathieu Besan\c{c}on and Joaquim Dias Garcia and Beno\^it Legat and Akshay Sharma(参考訳) DiffOpt.jlは、目的および/または制約に存在する任意のパラメータに対する最適化問題の解を通じて区別する、Juliaライブラリである。 このライブラリはMathOptInterface上に構築されており、解決者の豊富なエコシステムを活用し、JuMPのようなモデリング言語とうまく連携している。 diffoptは前方微分モードと逆微分モードの両方を提供し、ハイパーパラメータ最適化からバックプロパゲーションや感度分析まで、エンドツーエンドの微分可能プログラミングで制約付き最適化を橋渡しすることができる。 diffopt は二次プログラミングとコニックプログラミングの標準形式を区別するための2つの既知のルールに基づいている。 しかし、モデル変換によって区別できる機能のおかげで、ユーザはこれらの形式に限定されず、これらの標準形式に再構成できるモデルのパラメータに関して区別することができる。 これは特に、アフィンコニック制約と凸2次制約または客観的関数を混合するプログラムを含む。

We introduce DiffOpt.jl, a Julia library to differentiate through the solution of optimization problems with respect to arbitrary parameters present in the objective and/or constraints. The library builds upon MathOptInterface, thus leveraging the rich ecosystem of solvers and composing well with modeling languages like JuMP. DiffOpt offers both forward and reverse differentiation modes, enabling multiple use cases from hyperparameter optimization to backpropagation and sensitivity analysis, bridging constrained optimization with end-to-end differentiable programming. DiffOpt is built on two known rules for differentiating quadratic programming and conic programming standard forms. However, thanks ability to differentiate through model transformation, the user is not limited to these forms and can differentiate with respect to the parameters of any model that can be reformulated into these standard forms. This notably includes programs mixing affine conic constraints and convex quadratic constraints or objective function.
翻訳日:2023-08-02 00:45:59 公開日:2023-07-31
# 周波数領域における量子通信のための高次元絡み合い

High-Dimensional Entanglement for Quantum Communication in the Frequency Domain ( http://arxiv.org/abs/2206.00969v2 )

ライセンス: Link先を確認
Meritxell Cabrejo Ponce, Andr\'e Luiz Marques Muniz, Marcus Huber, Fabian Steinlechner(参考訳) 高次元フォトニック絡み合いは、容量を改良したエラー保護量子情報処理の候補となる。 光子のキャリア周波数における高次元quditの符号化は、生成容易性、普遍的単一光子ゲート、高容量量子通信のためのファイバ伝送との互換性を両立させる。 最近の目覚ましい実験は、数個の周波数モードの量子干渉を驚くほど実証しているが、大規模次元の周波数絡みの認証は未解決の課題である。 本研究は、標準連続波自発パラメトリックダウンコンバージョンプロセスに固有の大きな周波数絡みの活用方法を示す。 さらに、離散周波数絡みのレコード認証と、高度に効率的で非局所的に実装可能な新しい認証手法を組み合わせて報告する。 この手法は非常に少ない測定が必要であり、状態の仮定を必要としない。 この研究は、量子通信や量子情報科学全般でこのエンコーディングを利用する可能性を開くものである。

High-dimensional photonic entanglement is a promising candidate for error-protected quantum information processing with improved capacity. Encoding high-dimensional qudits in the carrier frequency of photons combines ease of generation, universal single-photon gates, and compatibility with fiber transmission for high-capacity quantum communication. Recent landmark experiments have impressively demonstrated quantum interference of a few frequency modes, yet the certification of massive-dimensional frequency entanglement has remained an open challenge. This study shows how to harness the large frequency-entanglement inherent in standard continuous-wave spontaneous parametric down-conversion processes. It further reports a record certification of discretized frequency entanglement, combined with a novel approach for certification that is both highly efficient and nonlocally implementable. This technique requires very few measurements and does not require assumptions on the state. The work opens the possibility for utilizing this encoding in quantum communications and in quantum information science in general.
翻訳日:2023-08-02 00:45:44 公開日:2023-07-31
# 後方のサンプルから マーガリンで脂肪を取り除いて

Removing the fat from your posterior samples with margarine ( http://arxiv.org/abs/2205.12841v3 )

ライセンス: Link先を確認
Harry T. J. Bevins, William J. Handley, Pablo Lemos, Peter H. Sims, Eloy de Lera Acedo, Anastasia Fialkov, Justin Alsing(参考訳) ベイズ解析は、重力波の研究、宇宙マイクロ波背景、宇宙の夜明けからの21cm信号など、多くの異なる宇宙分野において必須のツールとなっている。 この方法は、重要な宇宙学的および天体物理学的な信号を記述するデータに複雑なモデルを適合させる方法を提供し、汚染信号と「ノイズパラメータ」をモデル化した機器効果のホスト全体を提供する。 本稿では,Masked Autoregressive Flows と Kernel Density Estimator を用いて,コア科学パラメータに対応する限界後部密度を学習する手法を要約する。 限界あるいは「ニュアンスフリー」な後部と関連する可能性には、これまで難解であったKulback-Leiblerの発散や、限界ベイズモデル次元の計算、可能性エミュレーション、事前エミュレーションなど、多くの応用がある。 我々は, おもちゃの例, 21cm宇宙論の例, ダークエネルギーサーベイのサンプルを用いて, それぞれのアプリケーションを実演する。 kullback-leibler divergences や bayesian model dimensionalities のような辺縁要約統計を用いて,異なる実験の制約力について検討し,辺縁事前およびラキシブルエミュレータを利用して効率的なジョイント解析を行う方法について検討した。 我々の多目的コードは、より広い科学コミュニティで使用するために、ピップインストール可能なコードマーガリンにパッケージングします。

Bayesian analysis has become an indispensable tool across many different cosmological fields including the study of gravitational waves, the Cosmic Microwave Background and the 21-cm signal from the Cosmic Dawn among other phenomena. The method provides a way to fit complex models to data describing key cosmological and astrophysical signals and a whole host of contaminating signals and instrumental effects modelled with 'nuisance parameters'. In this paper, we summarise a method that uses Masked Autoregressive Flows and Kernel Density Estimators to learn marginal posterior densities corresponding to core science parameters. We find that the marginal or 'nuisance-free' posteriors and the associated likelihoods have an abundance of applications including; the calculation of previously intractable marginal Kullback-Leibler divergences and marginal Bayesian Model Dimensionalities, likelihood emulation and prior emulation. We demonstrate each application using toy examples, examples from the field of 21-cm cosmology and samples from the Dark Energy Survey. We discuss how marginal summary statistics like the Kullback-Leibler divergences and Bayesian Model Dimensionalities can be used to examine the constraining power of different experiments and how we can perform efficient joint analysis by taking advantage of marginal prior and likelihood emulators. We package our multipurpose code up in the pip-installable code margarine for use in the wider scientific community.
翻訳日:2023-08-02 00:45:28 公開日:2023-07-31
# 量子コムの符号化光学

Coend Optics for Quantum Combs ( http://arxiv.org/abs/2205.09027v2 )

ライセンス: Link先を確認
James Hefford (University of Oxford), Cole Comfort (University of Oxford)(参考訳) 1-comb の圏を定義する2つの可能な方法、第1は共役光学であり、第2は下階写像上の 1-comb の操作挙動による商である。 拡大的定義を拡大的定義に商化する対象関手に対して全単射が存在することを示し、この関手が圏の同型となるのに十分な条件を与える。 また, 1-comb の構成を拡張して n-comb のポリカテゴリーを生成する方法を示し,これらポリカテゴリーの等価性について同様の結果を得た。 拡張定義は量子コムの研究に特に興味を持ち、この研究が量子論におけるこれらの構造をモデル化するための光学の利用にさらなる関心をもたらすことを期待している。

We compare two possible ways of defining a category of 1-combs, the first intensionally as coend optics and the second extensionally as a quotient by the operational behaviour of 1-combs on lower-order maps. We show that there is a full and bijective on objects functor quotienting the intensional definition to the extensional one and give some sufficient conditions for this functor to be an isomorphism of categories. We also show how the constructions for 1-combs can be extended to produce polycategories of n-combs with similar results about when these polycategories are equivalent. The extensional definition is of particular interest in the study of quantum combs and we hope this work might produce further interest in the usage of optics for modelling these structures in quantum theory.
翻訳日:2023-08-02 00:44:43 公開日:2023-07-31
# 動的操作と動的カテゴリ: ディープラーニングから予測市場へ

Dynamic Operads, Dynamic Categories: From Deep Learning to Prediction Markets ( http://arxiv.org/abs/2205.03906v4 )

ライセンス: Link先を確認
Brandon T. Shapiro (Topos Institute), David I. Spivak (Topos Institute)(参考訳) 自然に組織されたシステムは内部および外部の圧力に適応し、これは抽象階層のあらゆるレベルで起こる。 このアイデアについて明確に考えることは、私たちの論文を動機付けます。だから、このアイデアは、哲学的に興味のある聴衆に広くアクセス可能な、導入において広範囲に詳細化されています。 残りのセクションでは、より圧縮された圏論に目を向ける。 動的組織のモノイド二重カテゴリ(monoidal double category org)を定義し、 org-enriched, or dynamic, カテゴリ構造(例えば、動的カテゴリ、オペレーティング、モノイドカテゴリ)の定義を提供し、モノイドの哲学的アイデアをいかにインスタンス化するかを示す。 動的カテゴリー構造の2つの例を挙げる: 動的オペランドとしての市場予測と動的モノイダルカテゴリーとしての深層学習である。

Natural organized systems adapt to internal and external pressures and this happens at all levels of the abstraction hierarchy. Wanting to think clearly about this idea motivates our paper, and so the idea is elaborated extensively in the introduction, which should be broadly accessible to a philosophically-interested audience. In the remaining sections, we turn to more compressed category theory. We define the monoidal double category Org of dynamic organizations, we provide definitions of Org-enriched, or dynamic, categorical structures -- e.g. dynamic categories, operads, and monoidal categories -- and we show how they instantiate the motivating philosophical ideas. We give two examples of dynamic categorical structures: prediction markets as a dynamic operad and deep learning as a dynamic monoidal category.
翻訳日:2023-08-02 00:44:07 公開日:2023-07-31
# PSAQ-ViT V2:視覚変換器の精度と一般データフリー量子化を目指して

PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers ( http://arxiv.org/abs/2209.05687v2 )

ライセンス: Link先を確認
Zhikai Li, Mengjuan Chen, Junrui Xiao, and Qingyi Gu(参考訳) データフリー量子化は、モデルの圧縮におけるデータのプライバシーとセキュリティの懸念に対処する可能性があるため、広く研究されている。 近年、PSAQ-ViTは、事前学習された視覚変換器(ViT)からデータを生成するために、相対値のパッチ類似度を設計し、ViTに対するデータフリー量子化を初めて達成している。 本稿では、PSAQ-ViT上に構築された、より正確で汎用的なViTの量子化フレームワークであるPSAQ-ViT V2を提案する。 具体的には, psaq-vit のパッチ類似度指標に従い, 全精度モデル (teacher) の監督下で競争的かつインタラクティブな方法で生成したサンプルと量子化モデル (student) の一定周期的進化を容易にする適応的教師・学生戦略を導入し, 量子化モデルの精度を大幅に向上させる。 さらに,補助カテゴリ指導がなければ,タスクとモデルに依存しない事前情報を用い,汎用スキームを幅広いビジョンタスクやモデルに対応させる。 画像分類, オブジェクト検出, セマンティックセグメンテーションタスク, PSAQ-ViT V2 の多種多様なモデルにおいて, 単純量子化戦略と実世界のデータへのアクセスを伴わずに, 競争的な結果を一貫して達成し, ViT のデータ自由量子化の強力なベースラインとしての可能性を示す。 例えば、Swin-Sをバックボーンモデルとし、8ビット量子化はImageNetで82.13、COCOで50.9ボックスAPと44.1マスクAP、ADE20Kで47.2mIoUに達する。 PSAQ-ViT V2が、機密データを含む現実世界のアプリケーションにおいて、潜在的かつ実践的なソリューションとして機能することを願っている。 コードは、https://github.com/zkkli/PSAQ-ViTでリリースされ、マージされる。

Data-free quantization can potentially address data privacy and security concerns in model compression, and thus has been widely investigated. Recently, PSAQ-ViT designs a relative value metric, patch similarity, to generate data from pre-trained vision transformers (ViTs), achieving the first attempt at data-free quantization for ViTs. In this paper, we propose PSAQ-ViT V2, a more accurate and general data-free quantization framework for ViTs, built on top of PSAQ-ViT. More specifically, following the patch similarity metric in PSAQ-ViT, we introduce an adaptive teacher-student strategy, which facilitates the constant cyclic evolution of the generated samples and the quantized model (student) in a competitive and interactive fashion under the supervision of the full-precision model (teacher), thus significantly improving the accuracy of the quantized model. Moreover, without the auxiliary category guidance, we employ the task- and model-independent prior information, making the general-purpose scheme compatible with a broad range of vision tasks and models. Extensive experiments are conducted on various models on image classification, object detection, and semantic segmentation tasks, and PSAQ-ViT V2, with the naive quantization strategy and without access to real-world data, consistently achieves competitive results, showing potential as a powerful baseline on data-free quantization for ViTs. For instance, with Swin-S as the (backbone) model, 8-bit quantization reaches 82.13 top-1 accuracy on ImageNet, 50.9 box AP and 44.1 mask AP on COCO, and 47.2 mIoU on ADE20K. We hope that accurate and general PSAQ-ViT V2 can serve as a potential and practice solution in real-world applications involving sensitive data. Code is released and merged at: https://github.com/zkkli/PSAQ-ViT.
翻訳日:2023-08-02 00:39:11 公開日:2023-07-31
# platypusってどんな感じ? ゼロショット画像分類のためのカスタマイズプロンプトの生成

What does a platypus look like? Generating customized prompts for zero-shot image classification ( http://arxiv.org/abs/2209.03320v2 )

ライセンス: Link先を確認
Sarah Pratt, Ian Covert, Rosanne Liu, Ali Farhadi(参考訳) オープン語彙モデルは画像分類の新しいパラダイムである。 従来の分類モデルとは異なり、オープン語彙モデルは推論中に自然言語で指定された任意のカテゴリの集合を分類する。 この自然言語は "prompts" と呼ばれ、典型的には手書きのテンプレート(例えば "a photo of a {}")で構成されており、それぞれのカテゴリ名で完結している。 本研究は,タスク領域の明示的な知識を必要とせず,手書き文をはるかに少なくして,高精度なプロンプトを生成するための簡易な手法を提案する。 これを実現するために、オープン語彙モデルと大きな言語モデル(LLM)を組み合わせて、言語モデル(CuPL)によるカスタマイズプロンプトを作成する。 特に、llmに含まれる知識を活用して、画像カテゴリの重要な識別特性を含む多くの記述文を生成する。 これにより、予測を行う際に、モデルが画像内のこれらの領域をより重要にすることができる。 この単純で一般的なアプローチは、画像ネットの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を向上させる。 最後に、この単純なベースラインは追加のトレーニングを必要とせず、完全にゼロショットのままである。 コードはhttps://github.com/sarahpratt/cupl。

Open-vocabulary models are a promising new paradigm for image classification. Unlike traditional classification models, open-vocabulary models classify among any arbitrary set of categories specified with natural language during inference. This natural language, called "prompts", typically consists of a set of hand-written templates (e.g., "a photo of a {}") which are completed with each of the category names. This work introduces a simple method to generate higher accuracy prompts, without relying on any explicit knowledge of the task domain and with far fewer hand-constructed sentences. To achieve this, we combine open-vocabulary models with large language models (LLMs) to create Customized Prompts via Language models (CuPL, pronounced "couple"). In particular, we leverage the knowledge contained in LLMs in order to generate many descriptive sentences that contain important discriminating characteristics of the image categories. This allows the model to place a greater importance on these regions in the image when making predictions. We find that this straightforward and general approach improves accuracy on a range of zero-shot image classification benchmarks, including over one percentage point gain on ImageNet. Finally, this simple baseline requires no additional training and remains completely zero-shot. Code available at https://github.com/sarahpratt/CuPL.
翻訳日:2023-08-02 00:38:30 公開日:2023-07-31
# 等方性表現は高密度検索を改善する

Isotropic Representation Can Improve Dense Retrieval ( http://arxiv.org/abs/2209.00218v2 )

ライセンス: Link先を確認
Euna Jung, Jungwon Park, Jaekeol Choi, Sungyoon Kim, Wonjong Rhee(参考訳) 近年の言語表現モデリングの進歩は,高密度検索モデルの設計に大きな影響を与えている。 特に、高パフォーマンスな高密度検索モデルの多くはBERTを用いてクエリと文書の表現を評価し、コサイン類似度に基づくスコアを適用して関連性を決定する。 しかし、BERT表現は狭い円錐形状の異方性分布に従うことが知られており、このような異方性分布はコサイン類似性に基づくスコアリングでは望ましくない。 本研究では,BERTに基づくDRも異方性分布に従うことを示す。 この問題に対処するために,フローの正規化と白化の教師なし後処理手法を導入し,高密度検索モデルの表現に後処理手法を適用するシーケンシャルワイズ法に加えてトークンワイズ法を開発した。 提案手法は、等方性を示す表現を効果的に強化し、文書の再ランク付けにおける性能(NDCG at 10)をColBERTに対して5.17\%$\sim$8.09\%、RepBERTに対して6.88\%$\sim$22.81\%向上できることを示す。 DRモデルのロバスト性向上のための等方性表現の可能性を検討するために,テストデータセットがトレーニングデータセットと異なる分布外タスクを検討する。 その結果、等方性表現は一般に性能が向上することが示された。 例えば、トレーニングデータセットがms-marcoでテストデータセットがロバスト04である場合、等方性後処理によってベースラインのパフォーマンスが最大24.98\%向上する。 さらに,分布外データセットでトレーニングした等方性モデルは,分布内データセットでトレーニングしたベースラインモデルよりも優れていることを示す。

The recent advancement in language representation modeling has broadly affected the design of dense retrieval models. In particular, many of the high-performing dense retrieval models evaluate representations of query and document using BERT, and subsequently apply a cosine-similarity based scoring to determine the relevance. BERT representations, however, are known to follow an anisotropic distribution of a narrow cone shape and such an anisotropic distribution can be undesirable for the cosine-similarity based scoring. In this work, we first show that BERT-based DR also follows an anisotropic distribution. To cope with the problem, we introduce unsupervised post-processing methods of Normalizing Flow and whitening, and develop token-wise method in addition to the sequence-wise method for applying the post-processing methods to the representations of dense retrieval models. We show that the proposed methods can effectively enhance the representations to be isotropic, then we perform experiments with ColBERT and RepBERT to show that the performance (NDCG at 10) of document re-ranking can be improved by 5.17\%$\sim$8.09\% for ColBERT and 6.88\%$\sim$22.81\% for RepBERT. To examine the potential of isotropic representation for improving the robustness of DR models, we investigate out-of-distribution tasks where the test dataset differs from the training dataset. The results show that isotropic representation can achieve a generally improved performance. For instance, when training dataset is MS-MARCO and test dataset is Robust04, isotropy post-processing can improve the baseline performance by up to 24.98\%. Furthermore, we show that an isotropic model trained with an out-of-distribution dataset can even outperform a baseline model trained with the in-distribution dataset.
翻訳日:2023-08-02 00:38:08 公開日:2023-07-31
# CitySim:安全指向研究とデジタル双生児のためのドローンによる車両軌道データセット

CitySim: A Drone-Based Vehicle Trajectory Dataset for Safety Oriented Research and Digital Twins ( http://arxiv.org/abs/2208.11036v2 )

ライセンス: Link先を確認
Ou Zheng, Mohamed Abdel-Aty, Lishengsa Yue, Amr Abdelraouf, Zijin Wang, Nada Mahmoud(参考訳) 安全指向の研究と応用の発展には、高精度だけでなく、相当な安全性クリティカルな事象を捉えた微細な車両軌道が必要である。 しかし、利用可能な車両軌道データセットを使用してこれらの要件を満足させることは困難であり、安全指向の研究と応用を促進することの中心的な目的であるcitysimデータセットを導入する。 CitySimは、12箇所で録画された1140分間のドローンビデオから車両軌道を抽出している。 高速道路の基本セグメント、信号化された交差点、停止制御交差点、制御のない交差点など様々な道路ジオメトリをカバーしている。 citysimは軌道精度を保証する5段階の手順で生成された。 5段階の手順には、ビデオ安定化、オブジェクトフィルタリング、マルチビデオ縫合、オブジェクト検出と追跡、エラーフィルタリングの強化が含まれていた。 さらに、CitySimは車両の回転バウンディングボックス情報を提供し、安全評価を改善することを実証した。 カットイン、マージ、発散といった他のビデオベースのクリティカルイベントと比較し、最小時間と最小エンクロメント時間の両方の分布によって検証された。 さらに、CitySimは、記録位置の3次元ベースマップや信号タイミングなどの関連資産を提供することで、デジタルツイン研究を促進する能力を持っていた。

The development of safety-oriented research and applications requires fine-grain vehicle trajectories that not only have high accuracy, but also capture substantial safety-critical events. However, it would be challenging to satisfy both these requirements using the available vehicle trajectory datasets do not have the capacity to satisfy both.This paper introduces the CitySim dataset that has the core objective of facilitating safety-oriented research and applications. CitySim has vehicle trajectories extracted from 1140 minutes of drone videos recorded at 12 locations. It covers a variety of road geometries including freeway basic segments, signalized intersections, stop-controlled intersections, and control-free intersections. CitySim was generated through a five-step procedure that ensured trajectory accuracy. The five-step procedure included video stabilization, object filtering, multi-video stitching, object detection and tracking, and enhanced error filtering. Furthermore, CitySim provides the rotated bounding box information of a vehicle, which was demonstrated to improve safety evaluations. Compared with other video-based critical events, including cut-in, merge, and diverge events, which were validated by distributions of both minimum time-to-collision and minimum post-encroachment time. In addition, CitySim had the capability to facilitate digital-twin-related research by providing relevant assets, such as the recording locations' three-dimensional base maps and signal timings.
翻訳日:2023-08-02 00:37:15 公開日:2023-07-31
# SAFARI:解釈可能性のロバスト性の評価

SAFARI: Versatile and Efficient Evaluations for Robustness of Interpretability ( http://arxiv.org/abs/2208.09418v4 )

ライセンス: Link先を確認
Wei Huang, Xingyu Zhao, Gaojie Jin, Xiaowei Huang(参考訳) ディープラーニングの解釈可能性(DL)は、信頼できるAIの障壁である。 説明可能なAI(XAI)コミュニティによる多大な努力にもかかわらず、説明には堅牢性がない。 したがって、XAI法を考えると、DL解釈可能性の堅牢性を評価することが不可欠である。 本稿では,最先端技術が総じて対処できないいくつかの課題を明らかにする。 一 既存の指標が包括的でないこと。 二 XAI技術は、非常に異質である。 三 誤解は、通常まれな出来事である。 これらの課題に取り組むため,本研究では,最悪の場合の解釈の不一致について,ブラックボックス評価手法を2つ紹介する。 遺伝的アルゴリズム (GA) は, 効率の悪いケース評価のために, 制約付き最適化を解くために用いられる。 希少事象の確率を推定するサブセットシミュレーション(ss)は、全体のロバスト性を評価するために使用される。 実験により, 提案手法の精度, 感度, 効率が最先端技術よりも優れていることが示された。 最後に,ロバストなxai手法のランク付けと,分類と解釈のロバスト性を改善するためのトレーニングスキームの選択という2つの応用例を示す。

Interpretability of Deep Learning (DL) is a barrier to trustworthy AI. Despite great efforts made by the Explainable AI (XAI) community, explanations lack robustness -- indistinguishable input perturbations may lead to different XAI results. Thus, it is vital to assess how robust DL interpretability is, given an XAI method. In this paper, we identify several challenges that the state-of-the-art is unable to cope with collectively: i) existing metrics are not comprehensive; ii) XAI techniques are highly heterogeneous; iii) misinterpretations are normally rare events. To tackle these challenges, we introduce two black-box evaluation methods, concerning the worst-case interpretation discrepancy and a probabilistic notion of how robust in general, respectively. Genetic Algorithm (GA) with bespoke fitness function is used to solve constrained optimisation for efficient worst-case evaluation. Subset Simulation (SS), dedicated to estimate rare event probabilities, is used for evaluating overall robustness. Experiments show that the accuracy, sensitivity, and efficiency of our methods outperform the state-of-the-arts. Finally, we demonstrate two applications of our methods: ranking robust XAI methods and selecting training schemes to improve both classification and interpretation robustness.
翻訳日:2023-08-02 00:36:53 公開日:2023-07-31
# ロボットが見えないものを見る: 視覚ナビゲーションのための協調的知覚の学習

See What the Robot Can't See: Learning Cooperative Perception for Visual Navigation ( http://arxiv.org/abs/2208.00759v5 )

ライセンス: Link先を確認
Jan Blumenkamp and Qingbiao Li and Binyu Wang and Zhe Liu and Amanda Prorok(参考訳) 視覚センサが組み込まれている未知の環境において,移動ロボットが目標に向かって移動する際には,ロボットもセンサもグローバルな位置情報にアクセスできず,一対一の画像のみを使用するという問題を考える。 位置決めの必要性を克服するため,我々はセンサを訓練し,関連する視点情報を移動ロボットにエンコードし,伝達させる。 グラフニューラルネットワーク (GNN) アーキテクチャを用いて, 近接型特徴集約モジュールを実装することにより, 目標への最短経路に沿った方向を予測できる全センサ(ターゲットを直接見ることができないものであっても) の実現という課題を克服する。 実験では,センサレイアウトの異なる未認識環境に対して,まず一般化可能性を示す。 その結果,センサとロボット間の通信により,splの最大2.0倍の改善(経路長重み付けによる成功)が得られた。 これは、グローバルマップ、測位データ、センサネットワークの事前校正を必要とせずに行われる。 第2に、シミュレーションから実世界へのモデルをゼロショット転送する。 実験室では, 様々な乱雑な環境下でのアプローチの有効性を実証した。 最後に,ロボットの移動に伴ってセンサネットワークレイアウトと障害物が動的に再構成されながら,目標へのナビゲーションが成功した例を示す。 ビデオデモ、データセット、トレーニングされたモデル、ソースコードを提供しています。 https://www.youtube.com/watch? v=kcmr6RUgucw https://github.com/proroklab/sensor-guided-visual-nav

We consider the problem of navigating a mobile robot towards a target in an unknown environment that is endowed with visual sensors, where neither the robot nor the sensors have access to global positioning information and only use first-person-view images. In order to overcome the need for positioning, we train the sensors to encode and communicate relevant viewpoint information to the mobile robot, whose objective it is to use this information to navigate to the target along the shortest path. We overcome the challenge of enabling all the sensors (even those that cannot directly see the target) to predict the direction along the shortest path to the target by implementing a neighborhood-based feature aggregation module using a Graph Neural Network (GNN) architecture. In our experiments, we first demonstrate generalizability to previously unseen environments with various sensor layouts. Our results show that by using communication between the sensors and the robot, we achieve up to 2.0x improvement in SPL (Success weighted by Path Length) when compared to a communication-free baseline. This is done without requiring a global map, positioning data, nor pre-calibration of the sensor network. Second, we perform a zero-shot transfer of our model from simulation to the real world. Laboratory experiments demonstrate the feasibility of our approach in various cluttered environments. Finally, we showcase examples of successful navigation to the target while both the sensor network layout as well as obstacles are dynamically reconfigured as the robot navigates. We provide a video demo, the dataset, trained models, and source code. https://www.youtube.com/watch?v=kcmr6RUgucw https://github.com/proroklab/sensor-guided-visual-nav
翻訳日:2023-08-02 00:36:06 公開日:2023-07-31
# マルチグラフトポロジーを用いたクロスサイロフェデレーション学習における学習時間短縮

Reducing Training Time in Cross-Silo Federated Learning using Multigraph Topology ( http://arxiv.org/abs/2207.09657v4 )

ライセンス: Link先を確認
Tuong Do, Binh X. Nguyen, Vuong Pham, Toan Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) フェデレーション学習は、複数の参加者がローカルデータを共有せずに共同でモデルをトレーニングできるため、活発な研究テーマである。 現在、クロスサイロフェデレーション学習は、数百の信頼性のあるデータサイロと高速アクセスリンクを使ってモデルをトレーニングする一般的なトレーニング環境である。 このアプローチは現実世界のシナリオで広く適用されているが、トレーニング時間を短縮するために堅牢なトポロジを設計することは未解決の問題である。 本稿では,クロスサイロフェデレート学習のための新しいマルチグラフトポロジーを提案する。 まずオーバーレイグラフを用いてマルチグラフを構築する。 次に、この多重グラフを孤立ノードを持つ異なる単純なグラフに解析する。 孤立ノードの存在により、他のノードを待つことなくモデルアグリゲーションを実行できるため、トレーニング時間を効果的に短縮できる。 3つの公開データセットに対する集中的な実験により,提案手法は学習モデルの精度を維持しながら,最近の最先端のトポロジと比較してトレーニング時間を著しく短縮することを示した。 私たちのコードはhttps://github.com/aioz-ai/MultigraphFLにある。

Federated learning is an active research topic since it enables several participants to jointly train a model without sharing local data. Currently, cross-silo federated learning is a popular training setting that utilizes a few hundred reliable data silos with high-speed access links to training a model. While this approach has been widely applied in real-world scenarios, designing a robust topology to reduce the training time remains an open problem. In this paper, we present a new multigraph topology for cross-silo federated learning. We first construct the multigraph using the overlay graph. We then parse this multigraph into different simple graphs with isolated nodes. The existence of isolated nodes allows us to perform model aggregation without waiting for other nodes, hence effectively reducing the training time. Intensive experiments on three public datasets show that our proposed method significantly reduces the training time compared with recent state-of-the-art topologies while maintaining the accuracy of the learned model. Our code can be found at https://github.com/aioz-ai/MultigraphFL
翻訳日:2023-08-02 00:35:07 公開日:2023-07-31
# 量子ゼノダイナミクスによる制約付き最適化

Constrained Optimization via Quantum Zeno Dynamics ( http://arxiv.org/abs/2209.15024v5 )

ライセンス: Link先を確認
Dylan Herman, Ruslan Shaydulin, Yue Sun, Shouvanik Chakrabarti, Shaohan Hu, Pierre Minssen, Arthur Rattew, Romina Yalovetzky, Marco Pistoia(参考訳) 制約付き最適化問題は科学や産業においてユビキタスである。 量子アルゴリズムは最適化問題の解法において有望であるが、現在のアルゴリズムでは任意の制約を効果的に扱えない。 量子ゼノダイナミクスを用いて、不等式を含む複数の任意の制約で最適化問題を解く手法を提案する。 量子最適化のダイナミクスは, 少数の補助量子ビットとポスト選択を必要とせず, 反復射影計測により, フォールトトレラント量子コンピュータ上のコンストラクタント部分空間に効率的に制限できることを示した。 本手法は、量子近似最適化アルゴリズム(qaoa)と変分量子回路に組み込んで最適化し、幅広い適用性を有する。 本手法は,複数の現実的制約を持つポートフォリオ最適化問題に対して数値的に評価し,現状技術よりも優れた解品質と制約内確率を観測する。 我々は,量子H1-2量子プロセッサ上で概念実証を行う。

Constrained optimization problems are ubiquitous in science and industry. Quantum algorithms have shown promise in solving optimization problems, yet none of the current algorithms can effectively handle arbitrary constraints. We introduce a technique that uses quantum Zeno dynamics to solve optimization problems with multiple arbitrary constraints, including inequalities. We show that the dynamics of quantum optimization can be efficiently restricted to the in-constraint subspace on a fault-tolerant quantum computer via repeated projective measurements, requiring only a small number of auxiliary qubits and no post-selection. Our technique has broad applicability, which we demonstrate by incorporating it into the quantum approximate optimization algorithm (QAOA) and variational quantum circuits for optimization. We evaluate our method numerically on portfolio optimization problems with multiple realistic constraints and observe better solution quality and higher in-constraint probability than state-of-the-art techniques. We implement a proof-of-concept demonstration of our method on the Quantinuum H1-2 quantum processor.
翻訳日:2023-08-02 00:25:24 公開日:2023-07-31
# 局所誤差補正による位相秩序検出の促進

Enhancing Detection of Topological Order by Local Error Correction ( http://arxiv.org/abs/2209.12428v2 )

ライセンス: Link先を確認
Iris Cong, Nishad Maskara, Minh C. Tran, Hannes Pichler, Giulia Semeghini, Susanne F. Yelin, Soonwon Choi, Mikhail D. Lukin(参考訳) 物質の位相秩序状態の探索は、物理科学のいくつかのサブフィールドのインターフェイスにおける長年の目標である。 このような状態は、長距離の絡み合い、創発ゲージ場、非局所相関などの物理的性質を特徴とし、スケーラブルなフォールトトレラント量子計算の実現に役立つ。 しかし、これら同じ特徴は位相的に順序付けられた状態の生成、検出、キャラクタリゼーションを特に困難にする。 近年の実証実験に動機づけられ,誤り訂正法と再正規化群フローの考え方を組み合わせることにより,局所的誤り訂正装飾(led)を定量化する新しいパラダイムを提案する。 提案手法は, トポロジカルな順序の同定を効率的かつ堅牢に行うことができ, 不整合ノイズ源の存在下で適用でき, 現実的な実験に特に適している。 様々な摂動下でのトーリック符号の数値シミュレーションを用いてLEDのパワーを実証する。 その後、Rydberg-atomシミュレータ上に生成した量子スピン液体の新しい洞察を提供する実験的な実現に応用する。 最後に、LEDを非アーベル順序を含む一般的な位相位相に拡張する。

The exploration of topologically-ordered states of matter is a long-standing goal at the interface of several subfields of the physical sciences. Such states feature intriguing physical properties such as long-range entanglement, emergent gauge fields and non-local correlations, and can aid in realization of scalable fault-tolerant quantum computation. However, these same features also make creation, detection, and characterization of topologically-ordered states particularly challenging. Motivated by recent experimental demonstrations, we introduce a new paradigm for quantifying topological states -- locally error-corrected decoration (LED) -- by combining methods of error correction with ideas of renormalization-group flow. Our approach allows for efficient and robust identification of topological order, and is applicable in the presence of incoherent noise sources, making it particularly suitable for realistic experiments. We demonstrate the power of LED using numerical simulations of the toric code under a variety of perturbations. We subsequently apply it to an experimental realization, providing new insights into a quantum spin liquid created on a Rydberg-atom simulator. Finally, we extend LED to generic topological phases, including those with non-abelian order.
翻訳日:2023-08-02 00:25:08 公開日:2023-07-31
# 深層学習とアンサンブル技術を用いた相互ファンドのパフォーマンス予測

Predicting Mutual Funds' Performance using Deep Learning and Ensemble Techniques ( http://arxiv.org/abs/2209.09649v3 )

ライセンス: Link先を確認
Nghia Chu, Binh Dao, Nga Pham, Huy Nguyen, Hien Tran(参考訳) ファンドのパフォーマンス予測は投資家とファンドマネジャーの両方にとって有益であり、それでも難しい課題だ。 本稿では,ディープラーニングモデルが従来の統計手法よりも精度の高いファンドパフォーマンスを予測できるかどうかを検証した。 ファンドのパフォーマンスは一般的に、リスク調整されたパフォーマンスを表わし、ファンド間の有意義なコンパラビリティを保証するシャープ比によって評価される。 我々は、米国で上場されている大型株式に投資する600以上のオープンエンド相互ファンドの月次リターン時系列データに基づいて、年次シャープ比率を算出した。 長短期記憶(LSTM)とゲートリカレント単位(GRU)の深層学習法は,いずれも現代のベイズ最適化で訓練されたものであり,従来の統計手法よりもシャープ比の予測精度が高いことがわかった。 LSTMとGRUの予測を組み合わせたアンサンブル法は,全モデルの最高の性能を実現する。 ディープラーニングとアンサンブルが、ファンドのパフォーマンス予測の課題に対処する上で有望なソリューションを提供するという証拠がある。

Predicting fund performance is beneficial to both investors and fund managers, and yet is a challenging task. In this paper, we have tested whether deep learning models can predict fund performance more accurately than traditional statistical techniques. Fund performance is typically evaluated by the Sharpe ratio, which represents the risk-adjusted performance to ensure meaningful comparability across funds. We calculated the annualised Sharpe ratios based on the monthly returns time series data for more than 600 open-end mutual funds investing in listed large-cap equities in the United States. We find that long short-term memory (LSTM) and gated recurrent units (GRUs) deep learning methods, both trained with modern Bayesian optimization, provide higher accuracy in forecasting funds' Sharpe ratios than traditional statistical ones. An ensemble method, which combines forecasts from LSTM and GRUs, achieves the best performance of all models. There is evidence to say that deep learning and ensembling offer promising solutions in addressing the challenge of fund performance forecasting.
翻訳日:2023-08-02 00:24:47 公開日:2023-07-31
# ユニバーサル量子情報処理のための時間領域ユニバーサル線形光演算

Time-Domain Universal Linear-Optical Operations for Universal Quantum Information Processing ( http://arxiv.org/abs/2210.15931v2 )

ライセンス: Link先を確認
Kazuma Yonezu (1), Yutaro Enomoto (1), Takato Yoshida (1), Shuntaro Takeda (1) ((1) Department of Applied Physics, School of Engineering, The University of Tokyo)(参考訳) 汎用量子情報処理(qip)に適したスケーラブルなデュアルループ光回路を実現することで,時間領域における汎用およびプログラマブルな3モード線形光学演算を実現する。 本回路のプログラム性, 妥当性, 決定的動作は, 圧縮状態パルスに対して9つの異なる3モード動作を行い, 出力を可変測定で完全に特徴付け, 絡み合いの確認によって実証される。 我々の回路は、外ループを長くすることでのみスケールアップでき、またフィードフォワードシステムを導入して普遍的な量子コンピュータにも拡張できる。 このように、我々の研究は大規模ユニバーサル光QIPへの道を開いた。

We demonstrate universal and programmable three-mode linear optical operations in the time domain by realizing a scalable dual-loop optical circuit suitable for universal quantum information processing (QIP). The programmability, validity, and deterministic operation of our circuit are demonstrated by performing nine different three-mode operations on squeezed-state pulses, fully characterizing the outputs with variable measurements, and confirming their entanglement. Our circuit can be scaled up just by making the outer loop longer and also extended to universal quantum computers by incorporating feedforward systems. Thus, our work paves the way to large-scale universal optical QIP.
翻訳日:2023-08-02 00:15:24 公開日:2023-07-31
# 臨界における非エルミート量子系とエルミート量子系の関係

Relating non-Hermitian and Hermitian quantum systems at criticality ( http://arxiv.org/abs/2211.12525v3 )

ライセンス: Link先を確認
Chang-Tse Hsieh, Po-Yao Chang(参考訳) エルミート量子系と非エルミート量子系を臨界度で接続する3種類の変換を、共形場理論(CFT)によって記述することができる。 エネルギーとエンタングルメントスペクトルの両方を保存する変換に対して、エンタングルメントエントロピーの対数スケールから得られる対応する中心電荷は、エルミート系と非エルミート系の両方で同じである。 第2の変換は、エネルギースペクトルを維持しつつも、エンタングルメントスペクトルを保存しない。 これは異なる絡み合いエントロピースケーリングをもたらし、2種類の系に対して異なる中心電荷をもたらす。 自由フェルミオンの場合に適用した拡張法を用いて,この変換を実証する。 この方法では、中心電荷 $c = -4$ の非エルミート系を中心電荷 $c = 2$ のエルミート系に写像できることを示す。 最後に、フィボナッチモデルにおけるガロア共役をパラメータ $\phi \to - 1/\phi$ で検討する。 フィボナッチモデルとそのガロア共役は、三臨界イジングモデル/3状態ポッツモデルと、絡み合いエントロピーのスケーリング特性から負の中央電荷を持つリー・ヤンモデルに関係している。

We demonstrate three types of transformations that establish connections between Hermitian and non-Hermitian quantum systems at criticality, which can be described by conformal field theories (CFTs). For the transformation preserving both the energy and the entanglement spectra, the corresponding central charges obtained from the logarithmic scaling of the entanglement entropy are identical for both Hermitian and non-Hermitian systems. The second transformation, while preserving the energy spectrum, does not perserve the entanglement spectrum. This leads to different entanglement entropy scalings and results in different central charges for the two types of systems. We demonstrate this transformation using the dilation method applied to the free fermion case. Through this method, we show that a non-Hermitian system with central charge $c = -4$ can be mapped to a Hermitian system with central charge $c = 2$. Lastly, we investigate the Galois conjugation in the Fibonacci model with the parameter $\phi \to - 1/\phi$, in which the transformation does not preserve both energy and entanglement spectra. We demonstrate the Fibonacci model and its Galois conjugation relate the tricritical Ising model/3-state Potts model and the Lee-Yang model with negative central charges from the scaling property of the entanglement entropy.
翻訳日:2023-08-02 00:05:24 公開日:2023-07-31
# クラウス作用素から量子マップのスタインスプリング形式:無限次元の代替構成

From Kraus Operators to the Stinespring Form of Quantum Maps: An Alternative Construction for Infinite Dimensions ( http://arxiv.org/abs/2301.05488v3 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 我々は、全ての完全正のトレース保存写像 $\phi$ に対して、純状態の補助ヒルベルト空間 $\mathcal k$ が存在し、また、$\phi$ が$\operatorname{tr}_{\mathcal k}(u((\cdot)\otimes|\psi\rangle\langle\psi|)u^*)$となるようなシステムプラス環境上のユニタリ作用素 $u$ が存在するという別の(構成的な)証明を示す。 我々の証明の主な道具は Sz である。 -ナジーのダイレーション定理は部分空間上で定義された等メトリーに適用される。 我々の構成では、環境は「クラウス階数$\Phi$」の系と、クビット(後者は触媒としてのみ作用する)からなる。対照的に、70年代に与えられたヘルヴィヒ・アンド・クラウスの元々の証明は、「クラウス階数+1」の補助的な系である。 構造が互いにどのように異なるかを示す例を提示して結論付ける。

We present an alternative (constructive) proof of the statement that for every completely positive, trace-preserving map $\Phi$ there exists an auxiliary Hilbert space $\mathcal K$ in a pure state $|\psi\rangle\langle\psi|$ as well as a unitary operator $U$ on system plus environment such that $\Phi$ equals $\operatorname{tr}_{\mathcal K}(U((\cdot)\otimes|\psi\rangle\langle\psi|)U^*)$. The main tool of our proof is Sz.-Nagy's dilation theorem applied to isometries defined on a subspace. In our construction, the environment consists of a system of dimension "Kraus rank of $\Phi$" together with a qubit, the latter only acting as a catalyst. In contrast, the original proof of Hellwig & Kraus given in the 70s yields an auxiliary system of dimension "Kraus rank plus one". We conclude by providing an example which illustrates how the constructions differ from each other.
翻訳日:2023-08-01 23:56:51 公開日:2023-07-31
# 超強結合キャビティ量子電磁力学における2つの原子の一般化ディッケモデルとゲージ不変マスター方程式

Generalized Dicke model and gauge-invariant master equations for two atoms in ultrastrongly-coupled cavity quantum electrodynamics ( http://arxiv.org/abs/2301.02127v2 )

ライセンス: Link先を確認
Kamran Akbari, Will Salmon, Franco Nori, Stephen Hughes(参考訳) 超強結合キャビティ量子電磁力学系における2つの異なる原子を用いて、よく知られたディックモデルの一般化を研究する。 この理論はゲージ不変マスター方程式を用い、オープンキャビティシステムのシステム・バス相互作用を含む標準マルチポーラゲージとクーロンゲージのいずれにも一貫した結果をもたらす。 まず、第2の原子をセンサ原子として扱う方法を示し、超強結合状態における単一原子からの出力スペクトルを測定し、その結果を量子回帰定理と比較し、それらがいつ異なることができるかを説明する。 次に、第2の原子がキャビティと非常に強く結合している場合に焦点を当てるが、第1の原子と異なるパラメータを持ち、複雑なカップリング効果と追加の共鳴とスペクトルの特徴をもたらす。 特に、第2原子がシステムの他の部分と共鳴している場合は見えないような、不共振のように見えるキャビティスペクトルの複数の共鳴を示す。 また,第2原子が共鳴によってチューニングする際,特に顕著な反交差特性を観察した。

We study a generalization of the well-known Dicke model, using two dissimilar atoms in the regime of ultrastrongly coupled cavity quantum electrodynamics. Our theory uses gauge invariant master equations, which yields consistent results in either of the standard multipolar and Coulomb gauges, including system-bath interactions for open cavity systems. We first show how a second atom can be treated as a sensor atom to measure the output spectrum from a single atom in the ultrastrong-coupling regime, and compare results with the quantum regression theorem, explaining when they can be different. We then focus on the case where the second atom is also ultrastrongly coupled to the cavity, but with different parameters from those of the first atom, which introduces complex coupling effects and additional resonances and spectral features. In particular, we show multiple resonances in the cavity spectra that are visible off-resonance, which cannot be seen when the second atom is on-resonance with the rest of the system. We also observe clear anti-crossing features particularly pronounced for when the second atom tunes through resonance.
翻訳日:2023-08-01 23:56:05 公開日:2023-07-31
# 組込みシステムにおけるリアルタイムセマンティックセグメンテーションの不確かさ

Uncertainty in Real-Time Semantic Segmentation on Embedded Systems ( http://arxiv.org/abs/2301.01201v4 )

ライセンス: Link先を確認
Ethan Goan, Clinton Fookes(参考訳) 自動運転車や人間のコンピュータインタラクションといった分野におけるセマンティックセグメンテーションモデルの応用には、リアルタイムな予測能力が必要である。 リアルタイムアプリケーションに対処する際の課題は、リソース制約のあるハードウェアを操作する必要性によって増幅される。 これらのプラットフォーム向けのリアルタイム手法の開発は増加しているが、組込みリアルタイムシステムに適用する場合、不確実性について十分な推論ができない。 本稿では,事前学習モデルからの深い特徴抽出とベイズ回帰とモーメント伝搬を組み合わせることで,不確実性を考慮した予測を行う。 提案手法は, 予測性能を維持しつつ, 組込みハードウェアに有意な不確実性をもたらすことを示す。

Application for semantic segmentation models in areas such as autonomous vehicles and human computer interaction require real-time predictive capabilities. The challenges of addressing real-time application is amplified by the need to operate on resource constrained hardware. Whilst development of real-time methods for these platforms has increased, these models are unable to sufficiently reason about uncertainty present when applied on embedded real-time systems. This paper addresses this by combining deep feature extraction from pre-trained models with Bayesian regression and moment propagation for uncertainty aware predictions. We demonstrate how the proposed method can yield meaningful epistemic uncertainty on embedded hardware in real-time whilst maintaining predictive performance.
翻訳日:2023-08-01 23:55:45 公開日:2023-07-31
# 香港-奥羽-マンデル干渉による量子カーネル評価

Quantum Kernel Evaluation via Hong-Ou-Mandel Interference ( http://arxiv.org/abs/2212.12083v2 )

ライセンス: Link先を確認
Cassandra Bowie, Sally Shrapnel, Michael Kewming(参考訳) 量子コンピューティングにおける最も急速に成長している分野の1つは、特に量子カーネルの適用を通じて、機械学習手法での利用である。 この大きな関心にもかかわらず、量子カーネルを評価する物理プラットフォームに関する提案はほとんどない。 本稿では,光研究者に広くアクセス可能な実験技術であるHong-Ou-Mandel(HOM)干渉を用いた量子カーネル評価プロトコルの提案とシミュレーションを行う。 本提案では,単一光子の直交時間モードを利用して,多次元特徴ベクトルを符号化する。 その結果、2つの光子を干渉し、検出された偶然数を用いて直接測定と二値分類を行うことができる。 この物理プラットフォームは、他の研究でも理論的に説明されている指数的量子優位性を満たしている。 本稿では,この手法の完全な説明と,古典データのバイナリ分類への適用例を示す数値実験を行う。

One of the fastest growing areas of interest in quantum computing is its use within machine learning methods, in particular through the application of quantum kernels. Despite this large interest, there exist very few proposals for relevant physical platforms to evaluate quantum kernels. In this article, we propose and simulate a protocol capable of evaluating quantum kernels using Hong-Ou-Mandel (HOM) interference, an experimental technique that is widely accessible to optics researchers. Our proposal utilises the orthogonal temporal modes of a single photon, allowing one to encode multi-dimensional feature vectors. As a result, interfering two photons and using the detected coincidence counts, we can perform a direct measurement and binary classification. This physical platform confers an exponential quantum advantage also described theoretically in other works. We present a complete description of this method and perform a numerical experiment to demonstrate a sample application for binary classification of classical data.
翻訳日:2023-08-01 23:55:13 公開日:2023-07-31
# 座標再最適化による連続量子ゲートファミリーの効率的な制御パルス

Efficient control pulses for continuous quantum gate families through coordinated re-optimization ( http://arxiv.org/abs/2302.01553v4 )

ライセンス: Link先を確認
Jason D. Chadwick and Frederic T. Chong(参考訳) 少数の参照パルスを校正した後,量子ゲートの連続パラメータ集合に対して高速に高忠実度制御パルスを生成する方法を提案する。 異なる量子演算に対する最適化制御パルス間の補間は、直ちに高忠実度中間演算をもたらすわけではない。 そこで本研究では,制御パルスの最適化手法を提案する。 ゲートファミリのいくつかの参照操作を選択し、これらの操作を実装するパルスを最適化し、その後、パルスを反復的に最適化して、その形状が密接に関連する操作に類似するように誘導する。 この参照パルスの集合を校正すると、直線補間法を用いて連続操作空間における任意のゲートに対する高忠実度パルスを瞬時に得ることができる。 本研究では,任意の2量子ゲート(単一ビット動作まで)の制御パルスを得るために,2量子ゲートの3パラメータカルタン分解を行った。 従来のニューラルネットワークのアプローチと比較して、単一のキュービットゲート全体のパルス空間を校正する計算効率は7.7倍高い。 本手法は,任意のゲートパラメータに一般化され,パルス最適化アルゴリズムで容易に利用でき,シミュレーションから実験への変換が向上する。

We present a general method to quickly generate high-fidelity control pulses for any continuously-parameterized set of quantum gates after calibrating a small number of reference pulses. We find that interpolating between optimized control pulses for different quantum operations does not immediately yield a high-fidelity intermediate operation. To solve this problem, we propose a method to optimize control pulses specifically to provide good interpolations. We pick several reference operations in the gate family of interest and optimize pulses that implement these operations, then iteratively re-optimize the pulses to guide their shapes to be similar for operations that are closely related. Once this set of reference pulses is calibrated, we can use a straightforward linear interpolation method to instantly obtain high-fidelity pulses for arbitrary gates in the continuous operation space. We demonstrate this procedure on the three-parameter Cartan decomposition of two-qubit gates to obtain control pulses for any arbitrary two-qubit gate (up to single-qubit operations) with consistently high fidelity. Compared to previous neural network approaches, the method is 7.7x more computationally efficient to calibrate the pulse space for the set of all single-qubit gates. Our technique generalizes to any number of gate parameters and could easily be used with advanced pulse optimization algorithms to allow for better translation from simulation to experiment.
翻訳日:2023-08-01 23:46:49 公開日:2023-07-31
# 紫外発散を有する多スピンボソンモデルの自己共役性

Self-adjointness of a class of multi-spin-boson models with ultraviolet divergences ( http://arxiv.org/abs/2301.10694v3 )

ライセンス: Link先を確認
Davide Lonigro(参考訳) 正質量の構造ボソン場と結合したN$2レベル系(スピン)の族を記述する量子ハミルトニアンモデルのクラスを、紫外偏光を示す可能性のある形状因子(従って非正規化不可能)によって媒介される回転波結合を用いて研究する。 励起の総数を変化させないスピンスピン相互作用も含む。 単スピンの場合の以前の結果を一般化し、自己共役領域とそのようなモデルの分解作用素に対して明示的な表現を提供し、どちらも連結プロパゲータ群を介してスピン場とスピンスピンのカップリングに複雑な依存を持つ。 この構造は、例えば紫外線遮断のような正規化可能なものによる形状因子の近似の下で、標準分解剤の意味で安定であることが示される。

We study a class of quantum Hamiltonian models describing a family of $N$ two-level systems (spins) coupled with a structured boson field of positive mass, with a rotating-wave coupling mediated by form factors possibly exhibiting ultraviolet divergences (hence, non-normalizable). Spin-spin interactions which do not modify the total number of excitations are also included. Generalizing previous results in the single-spin case, we provide explicit expressions for the self-adjointness domain and the resolvent operator of such models, both of them carrying an intricate dependence on both the spin-field and spin-spin coupling via a family of concatenated propagators. This construction is also shown to be stable, in the norm resolvent sense, under approximations of the form factors via normalizable ones, for example an ultraviolet cutoff.
翻訳日:2023-08-01 23:45:35 公開日:2023-07-31
# sparx: ニューラルネットワークに関する議論の少ない説明 [in japanese]

SpArX: Sparse Argumentative Explanations for Neural Networks [Technical Report] ( http://arxiv.org/abs/2301.09559v3 )

ライセンス: Link先を確認
Hamed Ayoobi, Nico Potyka, Francesca Toni(参考訳) ニューラルネットワーク(NN)はAIにさまざまな応用があるが、その決定を説明することは依然として難しい。 既存のアプローチはしばしば、個々の入力の変化がNNの出力にどのように影響するかを説明することに重点を置いている。 しかし、NNの入出力動作と一致する説明は、その実際の力学に必ずしも忠実ではない。 本稿では,多層パーセプトロン(MLP)と量的議論フレームワーク(QAF)の関係を利用して,MLPの力学に関する議論的な説明を作成する。 我々のSpArX法は、可能な限り元の構造を維持しながら、まずMLPを分散させる。 その後、スパースMLPを等価なQAFに変換することで、MPPの根底にある決定プロセスに光を当て、グローバルおよび/またはローカルな説明を生み出す。 実験により,SpArXは既存のアプローチよりも忠実に説明できると同時に,MLPの実際の推論過程について深い洞察を与えることができることを示した。

Neural networks (NNs) have various applications in AI, but explaining their decisions remains challenging. Existing approaches often focus on explaining how changing individual inputs affects NNs' outputs. However, an explanation that is consistent with the input-output behaviour of an NN is not necessarily faithful to the actual mechanics thereof. In this paper, we exploit relationships between multi-layer perceptrons (MLPs) and quantitative argumentation frameworks (QAFs) to create argumentative explanations for the mechanics of MLPs. Our SpArX method first sparsifies the MLP while maintaining as much of the original structure as possible. It then translates the sparse MLP into an equivalent QAF to shed light on the underlying decision process of the MLP, producing global and/or local explanations. We demonstrate experimentally that SpArX can give more faithful explanations than existing approaches, while simultaneously providing deeper insights into the actual reasoning process of MLPs.
翻訳日:2023-08-01 23:44:08 公開日:2023-07-31
# 物体のダイナミクスと相互作用の分離による物体中心映像の予測

Object-Centric Video Prediction via Decoupling of Object Dynamics and Interactions ( http://arxiv.org/abs/2302.11850v2 )

ライセンス: Link先を確認
Angel Villar-Corrales, Ismail Wahdan and Sven Behnke(参考訳) 本研究では,映像系列の合成構造を抽出し,オブジェクトの動的・相互作用を視覚的観察からモデル化し,将来の映像状態を予測し,その後の映像フレームを生成するという,オブジェクト中心の映像予測作業のための新しい枠組みを提案する。 有意義な時空間的対象表現を学習し、オブジェクトの状態を正確に予測することを目的として、時空間ダイナミクスとオブジェクトインタラクションの処理を分離し、予測性能を向上させる2つの新しいオブジェクト中心ビデオ予測モジュールを提案する。 実験では、OCVP予測器を用いたオブジェクト中心予測フレームワークが、一貫性と正確なオブジェクト表現を維持しながら、2つの異なるデータセット上でオブジェクト非依存のビデオ予測モデルより優れていることを示す。

We propose a novel framework for the task of object-centric video prediction, i.e., extracting the compositional structure of a video sequence, as well as modeling objects dynamics and interactions from visual observations in order to predict the future object states, from which we can then generate subsequent video frames. With the goal of learning meaningful spatio-temporal object representations and accurately forecasting object states, we propose two novel object-centric video predictor (OCVP) transformer modules, which decouple the processing of temporal dynamics and object interactions, thus presenting an improved prediction performance. In our experiments, we show how our object-centric prediction framework utilizing our OCVP predictors outperforms object-agnostic video prediction models on two different datasets, while maintaining consistent and accurate object representations.
翻訳日:2023-08-01 23:37:35 公開日:2023-07-31
# Arena-Rosnav 2.0: 高ダイナミック環境におけるロボットナビゲーションのための開発とベンチマークプラットフォーム

Arena-Rosnav 2.0: A Development and Benchmarking Platform for Robot Navigation in Highly Dynamic Environments ( http://arxiv.org/abs/2302.10023v2 )

ライセンス: Link先を確認
Linh K\"astner, Reyk Carstens, Huajian Zeng, Jacek Kmiecik, Teham Bhuiyan, Niloufar Khorsandi, Volodymyr Shcherbyna, and Jens Lambrecht(参考訳) 本稿では,ロボットナビゲーションアプローチの開発とベンチマークを行うためのモジュールを多種追加した,前作のarena-benchとarena-rosnavを拡張したarena-rosnav 2.0を提案する。 プラットフォームは根本的に再構築され、計画アルゴリズムやシミュレータ、評価機能などの追加機能を追加するための統一APIを提供する。 より現実的なシミュレーションと歩行者の振る舞いを含み、参入障壁を低くするための深いドキュメントを提供しています。 まず,経験豊富な研究者や,新しい実践者や学生にシステムをテストするよう依頼するユーザスタディを実施し,システムの評価を行った。 フィードバックは概ね肯定的であり,多くの参加者が他の研究にシステムを活用している。 最後に,本システムの実現可能性を示すために,2つの新しいシミュレータと,アートナビゲーションアプローチのさまざまな状態を統合し,相互にベンチマークを行う。 プラットフォームはhttps://github.com/Arena-Rosnav.comで公開されている。

Following up on our previous works, in this paper, we present Arena-Rosnav 2.0 an extension to our previous works Arena-Bench and Arena-Rosnav, which adds a variety of additional modules for developing and benchmarking robotic navigation approaches. The platform is fundamentally restructured and provides unified APIs to add additional functionalities such as planning algorithms, simulators, or evaluation functionalities. We have included more realistic simulation and pedestrian behavior and provide a profound documentation to lower the entry barrier. We evaluated our system by first, conducting a user study in which we asked experienced researchers as well as new practitioners and students to test our system. The feedback was mostly positive and a high number of participants are utilizing our system for other research endeavors. Finally, we demonstrate the feasibility of our system by integrating two new simulators and a variety of state of the art navigation approaches and benchmark them against one another. The platform is openly available at https://github.com/Arena-Rosnav.
翻訳日:2023-08-01 23:36:29 公開日:2023-07-31
# ENInst: 弱教師付きローショットインスタンスセグメンテーションの強化

ENInst: Enhancing Weakly-supervised Low-shot Instance Segmentation ( http://arxiv.org/abs/2302.09765v3 )

ライセンス: Link先を確認
Moon Ye-Bin, Dongmin Choi, Yongjin Kwon, Junsik Kim, Tae-Hyun Oh(参考訳) 我々は,新しいクラスを効果的に扱うためのアノテーション効率のよい訓練手法である,弱教師付きローショットインスタンスセグメンテーションに対処する。 まず,問題の難易度を調査し,単純なベースラインモデルを用いてモデルコンポーネントと個々のサブタスクの系統的分析を行い,性能ボトルネックを特定する。 そこで本研究では,画素の局在性向上のためのインスタンスワイズマスク改良法と,分類精度向上のための新しい分類器構成法を提案する。 提案手法は,各サブタスクの性能を向上させることで全体の性能を高める。 ENInstは、既存の完全に教師されたいくつかのショットモデルに匹敵するパフォーマンスを達成する上で、7.5倍の効率を示します。

We address a weakly-supervised low-shot instance segmentation, an annotation-efficient training method to deal with novel classes effectively. Since it is an under-explored problem, we first investigate the difficulty of the problem and identify the performance bottleneck by conducting systematic analyses of model components and individual sub-tasks with a simple baseline model. Based on the analyses, we propose ENInst with sub-task enhancement methods: instance-wise mask refinement for enhancing pixel localization quality and novel classifier composition for improving classification accuracy. Our proposed method lifts the overall performance by enhancing the performance of each sub-task. We demonstrate that our ENInst is 7.5 times more efficient in achieving comparable performance to the existing fully-supervised few-shot models and even outperforms them at times.
翻訳日:2023-08-01 23:36:13 公開日:2023-07-31
# 事前学習した視覚深層ネットワークの異種コミュニティにおける参照コミュニケーション

Referential communication in heterogeneous communities of pre-trained visual deep networks ( http://arxiv.org/abs/2302.08913v3 )

ライセンス: Link先を確認
Mat\'eo Mahaut, Francesca Franzon, Roberto Dess\`i, Marco Baroni(参考訳) ニューラルネットワークは、自動運転車やロボットのような自律エージェントに組み込まれているため、これらのシステムは、異なるアーキテクチャやトレーニング体制にもかかわらず、周囲の世界についてどのように相互に通信できるかという疑問が生まれている。 この方向の第一歩として,不均質な最先端の事前学習された視覚ネットワークのコミュニティにおける \textit{referential communication} の課題を体系的に検討し,それらの課題が自己教師ありの方法で,対象オブジェクトを参照するための共有プロトコルを開発することができることを示した。 この共有プロトコルは、ある程度は、未確認のさまざまな粒度のオブジェクトカテゴリについて通信するためにも使用できる。 さらに、当初既存のコミュニティの一部ではなかったビジュアルネットワークは、驚くほど簡単にコミュニティのプロトコルを学ぶことができる。 最後に,創発的プロトコルの特性を質的かつ定量的に検討し,オブジェクトの高レベルな意味的特徴を捉えていることを示す。

As large pre-trained image-processing neural networks are being embedded in autonomous agents such as self-driving cars or robots, the question arises of how such systems can communicate with each other about the surrounding world, despite their different architectures and training regimes. As a first step in this direction, we systematically explore the task of \textit{referential communication} in a community of heterogeneous state-of-the-art pre-trained visual networks, showing that they can develop, in a self-supervised way, a shared protocol to refer to a target object among a set of candidates. This shared protocol can also be used, to some extent, to communicate about previously unseen object categories of different granularity. Moreover, a visual network that was not initially part of an existing community can learn the community's protocol with remarkable ease. Finally, we study, both qualitatively and quantitatively, the properties of the emergent protocol, providing some evidence that it is capturing high-level semantic features of objects.
翻訳日:2023-08-01 23:35:58 公開日:2023-07-31
# ワンショットフェデレーション型コンフォメーション予測

One-Shot Federated Conformal Prediction ( http://arxiv.org/abs/2302.06322v2 )

ライセンス: Link先を確認
Pierre Humbert (LMO, CELESTE), Batiste Le Bars (MAGNET, CRIStAL), Aur\'elien Bellet (MAGNET, CRIStAL), Sylvain Arlot (LMO, CELESTE)(参考訳) 本稿では,単発連立学習環境での予測セットを構築するための共形予測手法を提案する。 より具体的には、量子量推定器を定義し、任意の分布に対して、所望のカバレッジの予測セットを1ラウンドの通信でのみ出力できることを証明する。 プライバシー問題を緩和するために、我々の推定器の局所的に異なるプライベートバージョンも記述する。 最後に,本手法は多種多様な実験において,集中的に得られたものと非常によく似た範囲と長さの予測集合を返すことを示す。 全体として,本手法は一発フェデレーション学習環境でのコンフォーメーション予測に特に適していることを示す。

In this paper, we introduce a conformal prediction method to construct prediction sets in a oneshot federated learning setting. More specifically, we define a quantile-of-quantiles estimator and prove that for any distribution, it is possible to output prediction sets with desired coverage in only one round of communication. To mitigate privacy issues, we also describe a locally differentially private version of our estimator. Finally, over a wide range of experiments, we show that our method returns prediction sets with coverage and length very similar to those obtained in a centralized setting. Overall, these results demonstrate that our method is particularly well-suited to perform conformal predictions in a one-shot federated learning setting.
翻訳日:2023-08-01 23:35:40 公開日:2023-07-31
# 非エルミート準結晶の非可換一般化:pt対称性の破れ、局在、絡み合い、位相遷移

Non-Abelian generalization of non-Hermitian quasicrystal: PT-symmetry breaking, localization, entanglement and topological transitions ( http://arxiv.org/abs/2302.05710v2 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 非エルミート準結晶は、利得と損失または非相互効果によって引き起こされる対称性の破れ、局在化、トポロジカル遷移を伴うユニークな種類の物質を形成する。 本研究では,非エルミート効果と非アーベル準周期ポテンシャルの相互作用により,拡張相,臨界相,局所相間の移動性エッジとリッチな遷移が生じる非エルミート準結晶の非アーベル汎化を導入する。 これらの一般的な特徴は、非エルミート Aubry-Andr\e-Harper モデルの3つの非アーベル多様体を調査することによって示される。 統一的な特徴付けはそのスペクトル、局在、絡み合い、位相特性に与えられる。 その結果,非エルミート準結晶の族に新たなメンバーが加わり,非エルミート系の非アーベル効果によって引き起こされる特異な物理が明らかになった。

Non-Hermitian quasicrystal forms a unique class of matter with symmetry-breaking, localization and topological transitions induced by gain and loss or nonreciprocal effects. In this work, we introduce a non-Abelian generalization of the non-Hermitian quasicrystal, in which the interplay between non-Hermitian effects and non-Abelian quasiperiodic potentials create mobility edges and rich transitions among extended, critical and localized phases. These generic features are demonstrated by investigating three non-Abelian variants of the non-Hermitian Aubry-Andr\'e-Harper model. A unified characterization is given to their spectrum, localization, entanglement and topological properties. Our findings thus add new members to the family of non-Hermitian quasicrystal and uncover unique physics that can be triggered by non-Abelian effects in non-Hermitian systems.
翻訳日:2023-08-01 23:35:25 公開日:2023-07-31
# CECT:CNNとトランスフォーマーによる新型コロナウイルス画像分類

CECT: Controllable Ensemble CNN and Transformer for COVID-19 Image Classification ( http://arxiv.org/abs/2302.02314v3 )

ライセンス: Link先を確認
Zhaoshan Liu, Lei Shen(参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、コンピュータビジョン分野において最も広く実装されているモデルである。 しかし、前者(ラッター)は、主にローカル(グローバル)機能のみをキャプチャする。 特徴の欠如によるモデル性能の限界に対処するため,制御可能なアンサンブルCNNとトランスフォーマーによる新しい分類網CECTを開発した。 CECTは、畳み込みエンコーダブロック、転置畳み込みデコーダブロック、トランスフォーマー分類ブロックからなる。 既存の方法とは異なり、cectはマルチローカルスケールとグローバルスケールの両方で、ベルやホイッスルなしで機能をキャプチャできます。 さらに,提案するアンサンブル係数を用いて,異なるスケールでの局所的特徴の寄与を制御できる。 我々は、CECTを2つの公開COVID-19データセットで評価し、既存の最先端手法よりも優れています。 特筆すべき特徴キャプチャ機能により、CECTは診断アシスタントとして他の医療画像分類シナリオにも拡張できると考えています。 コードはhttps://github.com/NUS-Tim/CECTで入手できる。

The convolutional neural network (CNN) and transformer are two of the most widely implemented models in the computer vision field. However, the former (latter) one mainly captures local (global) features only. To address the limitation in model performance caused by the lack of features, we develop a novel classification network CECT by controllable ensemble CNN and transformer. CECT is composed of a convolutional encoder block, a transposed-convolutional decoder block, and a transformer classification block. Different from existing methods, our CECT can capture features at both multi-local and global scales without any bells and whistles. Moreover, the contribution of local features at different scales can be controlled with the proposed ensemble coefficients. We evaluate CECT on two public COVID-19 datasets and it outperforms existing state-of-the-art methods. With remarkable feature capture ability, we believe CECT can be extended to other medical image classification scenarios as a diagnosis assistant. Code is available at https://github.com/NUS-Tim/CECT.
翻訳日:2023-08-01 23:35:08 公開日:2023-07-31
# 量子格子系における自由核子による一般固有状態熱化

General Eigenstate Thermalization via Free Cumulants in Quantum Lattice Systems ( http://arxiv.org/abs/2303.00713v3 )

ライセンス: Link先を確認
Silvia Pappalardi, Felix Fritzsch and Toma\v{z} Prosen(参考訳) ETH(Eigenstate-Thermalization-Hypothesis)は、量子統計力学を理解するための一般的な枠組みとして確立されている。 近年になって初めて、行列要素間の高次相関を考慮に入れ、理論上は自由確率の言語を用いて理性化できる、いわゆる一般ETH(General ETH)に注目が集まるようになった。 本研究では,高次相関器から自由累積体への分解を検証し,局所的な相互作用を持つ物理多体系における一般ETHの数値計算を行った。 局所的非可積分(カオス)量子多体系(スピンチェーンハミルトニアンとフロケットブリックワークユニタリ回路)の2つのクラスで正確な対角化を行う。 ETH が予測した 4 次自由累積において, 4 時間相関関数のダイナミクスが符号化されていることを示す。 その非自明な周波数依存は局所多体系の物理的性質を符号化し、ランダム行列の非構造的、回転不変なアンサンブルと区別する。

The Eigenstate-Thermalization-Hypothesis (ETH) has been established as the general framework to understand quantum statistical mechanics. Only recently has the attention been paid to so-called general ETH, which accounts for higher-order correlations among matrix elements, and that can be rationalized theoretically using the language of Free Probability. In this work, we perform the first numerical investigation of the general ETH in physical many-body systems with local interactions by testing the decomposition of higher-order correlators into free cumulants. We perform exact diagonalization on two classes of local non-integrable (chaotic) quantum many-body systems: spin chain Hamiltonians and Floquet brickwork unitary circuits. We show that the dynamics of four-time correlation functions are encoded in fourth-order free cumulants, as predicted by ETH. Their non-trivial frequency dependence encodes the physical properties of local many-body systems and distinguishes them from structureless, rotationally invariant ensembles of random matrices.
翻訳日:2023-08-01 23:25:23 公開日:2023-07-31
# コンピテンスに基づく言語モデルの解析

Competence-Based Analysis of Language Models ( http://arxiv.org/abs/2303.00333v2 )

ライセンス: Link先を確認
Adam Davies, Jize Jiang, ChengXiang Zhai(参考訳) 近年、様々なプロンプトタスクにおける大規模な事前訓練言語モデル(LM)の成功にもかかわらず、これらのモデルは入力やアプリケーションコンテキストの小さな変更に対して驚くほど脆弱である。 このような振る舞いをよりよく理解し、より堅牢なLMの設計を動機付けるために、目的の因果的介入を利用して様々な言語特性の内部表現を損傷させ、与えられたタスクの実行における各表現の使用を評価する、CALM(Competence-based Analysis of Language Models)を提案する。 従来の因果探索手法とは対照的に,これらの介入は関係特性を任意に符号化した表現を対象とすることができ,BERTのようなLMが関係特性の表現をどのように利用するかを分析するためのケーススタディを行う。 我々は,各タスクの実行においてLMが活用する表現は極めて絡み合っているが,それらが最も活用されているタスクの観点から意味のある解釈が可能であること,さらにCALMは,既存のLMの弱点を予測・説明するのに有用な,LM分析における調査範囲の拡大を可能にしていることを見出した。

Despite the recent success of large pretrained language models (LMs) on a variety of prompting tasks, these models can be alarmingly brittle to small changes in inputs or application contexts. To better understand such behavior and motivate the design of more robust LMs, we propose a general experimental framework, CALM (Competence-based Analysis of Language Models), where targeted causal interventions are utilized to damage an LM's internal representation of various linguistic properties in order to evaluate its use of each representation in performing a given task. We implement these interventions as gradient-based adversarial attacks, which (in contrast to prior causal probing methodologies) are able to target arbitrarily-encoded representations of relational properties, and carry out a case study of this approach to analyze how BERT-like LMs use representations of several relational properties in performing associated relation prompting tasks. We find that, while the representations LMs leverage in performing each task are highly entangled, they may be meaningfully interpreted in terms of the tasks where they are most utilized; and more broadly, that CALM enables an expanded scope of inquiry in LM analysis that may be useful in predicting and explaining weaknesses of existing LMs.
翻訳日:2023-08-01 23:24:43 公開日:2023-07-31
# 1つのトランスモンの2つのキュービット -- アンシラハードウェアのないQEC

Two qubits in one transmon -- QEC without ancilla hardware ( http://arxiv.org/abs/2302.14707v2 )

ライセンス: Link先を確認
Alexander Simm, Shai Machnes, Frank K. Wilhelm(参考訳) 超伝導トランスモン内の2つの量子ビットの保存と制御に高エネルギーレベルを使用することが理論的に可能であることを示す。 これはエネルギー準位を複数のエクビット間の積状態として同定する。 概念実証として,各量子ビット上の単一量子ビットゲートの制御パルスを数値的に最適化し,2つの量子ビット間のゲートを1つのトランモンに絡み,2つの結合トランモンから2つの量子ビット間のゲートを絡み合わせることにより,普遍計算に必要なゲートの完全なセットを実現する。 最適化は、これを実験的に検証できるパラメータを検討する。 これらの制御パルスにより、ハードウェアのオーバーヘッドなしに利用可能なキュービットの数を2倍にすることができる。 追加の量子ビットは、syndrom qubits in error correctionやeffecitve high connectivity in qubit networksのような多くの短命な量子ビットを必要とするアルゴリズムで使用できる。

We show that it is theoretically possible to use higher energy levels for storing and controlling two qubits within a superconducting transmon. This is done by identifying energy levels as product states between multiple effecitve qubits. As a proof of concept we realise a complete set of gates necessary for universal computing by numerically optimising control pulses for single qubit gates on each of the qubits, entangling gates between the two qubits in one transmon, and an entangling gate between two qubits from two coupled transmons. The optimisation considers parameters which could make it possible to validate this experimentally. With these control pulses it is in principle possible to double the number of available qubits without any overhead in hardware. The additional qubits could be used in algorithms which need many short-living qubits such as syndrom qubits in error correction or by embedding effecitve higher connectivity in qubit networks.
翻訳日:2023-08-01 23:24:16 公開日:2023-07-31
# ICICLE:解釈可能なクラスインクリメンタル学習

ICICLE: Interpretable Class Incremental Continual Learning ( http://arxiv.org/abs/2303.07811v2 )

ライセンス: Link先を確認
Dawid Rymarczyk, Joost van de Weijer, Bartosz Zieli\'nski, Bart{\l}omiej Twardowski(参考訳) 継続的な学習は、前回の学習を忘れずに新しいタスクを漸進的に学習することを可能にし、結果として、新しいタスクと古いタスクの両方のパフォーマンスを向上させるポジティブな知識伝達をもたらす。 しかし、連続学習は、モデル予測の背後にある理論的根拠が時間とともに変化し、解釈可能性の概念の漂流につながるため、解釈可能性に新たな課題をもたらす。 そこで本研究では, 解釈型クラス-InCremental LEarning (ICICLE) を提案する。 ユーザフレンドリーな肯定的推論を維持しながら学習した概念を蒸留する解釈可能性の正則化、きめ細かい設定に特化した近接型プロトタイプ初期化戦略、原型部品に特化したタスク関連バイアス補償である。 実験の結果,ICICLEは解釈可能性の概念のドリフトを低減し,概念ベースモデルに適用した場合,従来のクラス増分学習法よりも優れた性能を発揮することがわかった。

Continual learning enables incremental learning of new tasks without forgetting those previously learned, resulting in positive knowledge transfer that can enhance performance on both new and old tasks. However, continual learning poses new challenges for interpretability, as the rationale behind model predictions may change over time, leading to interpretability concept drift. We address this problem by proposing Interpretable Class-InCremental LEarning (ICICLE), an exemplar-free approach that adopts a prototypical part-based approach. It consists of three crucial novelties: interpretability regularization that distills previously learned concepts while preserving user-friendly positive reasoning; proximity-based prototype initialization strategy dedicated to the fine-grained setting; and task-recency bias compensation devoted to prototypical parts. Our experimental results demonstrate that ICICLE reduces the interpretability concept drift and outperforms the existing exemplar-free methods of common class-incremental learning when applied to concept-based models.
翻訳日:2023-08-01 23:17:33 公開日:2023-07-31
# TranSG: 人物再同定のための構造トラジェクトリ・プロンプト再構成を用いたトランスフォーマーベースのスケルトングラフ原型コントラスト学習

TranSG: Transformer-Based Skeleton Graph Prototype Contrastive Learning with Structure-Trajectory Prompted Reconstruction for Person Re-Identification ( http://arxiv.org/abs/2303.06819v3 )

ライセンス: Link先を確認
Haocong Rao, Chunyan Miao(参考訳) 3Dスケルトンデータによる人物再識別(re-ID)は、顕著な優位性を持つ新興トピックである。 既存の手法は通常、体関節を持つ骨格記述子を設計したり、骨格配列表現学習を行う。 しかし、それらは通常、異なる体-成分関係を同時モデル化することはできず、身体関節の細粒度表現から有用な意味論を探索することが滅多にない。 本稿では,骨格関係と空間-時空間意味論を完全に捉えるための構造-軌跡誘導型コントラスト・ラーニング(transg)アプローチを提案する。 具体的には、スケルトングラフ変換器(SGT)を用いて、骨格グラフ内の身体と運動の関係を同時に学習し、キー相関ノードの特徴をグラフ表現に集約する。 そこで我々は,グラフ表現と異なるプロトタイプの類似性を比較検討し,識別グラフ表現を学習するために,グラフプロトタイプ学習(GPC)を提案する。 最後に、グラフノードの空間的および時間的コンテキストを利用して、スケルトングラフ再構成を促進するために、stpr(graph structure-trajectoryinduced reconstruction)メカニズムが提案されている。 実証的な評価は、TranSGが既存の最先端手法を著しく上回っていることを示している。 さらに、異なるグラフモデリング、RGB推定スケルトン、教師なしシナリオの下で、その一般化を示す。

Person re-identification (re-ID) via 3D skeleton data is an emerging topic with prominent advantages. Existing methods usually design skeleton descriptors with raw body joints or perform skeleton sequence representation learning. However, they typically cannot concurrently model different body-component relations, and rarely explore useful semantics from fine-grained representations of body joints. In this paper, we propose a generic Transformer-based Skeleton Graph prototype contrastive learning (TranSG) approach with structure-trajectory prompted reconstruction to fully capture skeletal relations and valuable spatial-temporal semantics from skeleton graphs for person re-ID. Specifically, we first devise the Skeleton Graph Transformer (SGT) to simultaneously learn body and motion relations within skeleton graphs, so as to aggregate key correlative node features into graph representations. Then, we propose the Graph Prototype Contrastive learning (GPC) to mine the most typical graph features (graph prototypes) of each identity, and contrast the inherent similarity between graph representations and different prototypes from both skeleton and sequence levels to learn discriminative graph representations. Last, a graph Structure-Trajectory Prompted Reconstruction (STPR) mechanism is proposed to exploit the spatial and temporal contexts of graph nodes to prompt skeleton graph reconstruction, which facilitates capturing more valuable patterns and graph semantics for person re-ID. Empirical evaluations demonstrate that TranSG significantly outperforms existing state-of-the-art methods. We further show its generality under different graph modeling, RGB-estimated skeletons, and unsupervised scenarios.
翻訳日:2023-08-01 23:17:13 公開日:2023-07-31
# EVOLINベンチマーク:線検出と関連性の評価

EVOLIN Benchmark: Evaluation of Line Detection and Association ( http://arxiv.org/abs/2303.05162v2 )

ライセンス: Link先を確認
Kirill Ivanov, Gonzalo Ferrer, Anastasiia Kornilova(参考訳) 線は、屋内や都市でよく見られる興味深い幾何学的特徴である。 ライン検出、ラインアソシエーション、Poseエラーといったすべてのステージにおいて、シーケンシャルな画像ストリームから行を評価することができる完全なベンチマークが欠けている。 そのため,RGB と RGBD の両方の SLAM フロントエンドにおける視覚線に対する完全かつ徹底的なベンチマークを,相補的な指標を多数提供する。 また、slamデータセットのデータをラベル付けして、すべての値を1つのポーズで正確にアノテートしました。 特に, 1組のフレームを複数の検出器結合の組み合わせで整合させるために, 17行検出アルゴリズム, 5行連想法, 結果ポーズ誤差を評価した。 すべてのメソッドと評価メトリクスをパッケージ化し、Webページhttps://prime-slam.github.io/evolin/で公開しました。

Lines are interesting geometrical features commonly seen in indoor and urban environments. There is missing a complete benchmark where one can evaluate lines from a sequential stream of images in all its stages: Line detection, Line Association and Pose error. To do so, we present a complete and exhaustive benchmark for visual lines in a SLAM front-end, both for RGB and RGBD, by providing a plethora of complementary metrics. We have also labelled data from well-known SLAM datasets in order to have all in one poses and accurately annotated lines. In particular, we have evaluated 17 line detection algorithms, 5 line associations methods and the resultant pose error for aligning a pair of frames with several combinations of detector-association. We have packaged all methods and evaluations metrics and made them publicly available on web-page https://prime-slam.github.io/evolin/.
翻訳日:2023-08-01 23:16:45 公開日:2023-07-31
# 多くのマヨラナエッジモードを持つフロケットトポロジカル超伝導体:位相不変量、絡み合いスペクトル、バルクエッジ対応

Floquet topological superconductors with many Majorana edge modes: topological invariants, entanglement spectrum and bulk-edge correspondence ( http://arxiv.org/abs/2303.04674v2 )

ライセンス: Link先を確認
Hailing Wu, Shenlin Wu, and Longwen Zhou(参考訳) 1次元フロケトポロジカル超伝導体は、0 と $\pi$ quasienerige の2種類の退化マヨラナエッジモードを持ち、静的な結晶よりも境界時間結晶や量子コンピューティングスキームの設計に余分な余地を残している。 本研究では,周期的に駆動されるキタエフ鎖において,位相不変量が大きく,任意に多数のマヨラエッジモードを持つフロッケ超伝導相を発見する。 フロッケ作用素とフロッケ絡み合いハミルトニアンのために定義された位相的巻線数は、異なる駆動プロトコルの下でシステムの位相図、バルクエッジ対応、およびゼロおよび$\pi$ majoranaエッジモードに関する一貫した予測を生成する。 両部エンタングルメントエントロピーは、異なるフロケット超伝導相間のトポロジカル遷移点周辺の非解析的挙動を示す。 これらの一般的な特徴は、周期的にペアリングやホッピング振幅を用いてキタエフ連鎖を調べることによって示される。 我々の発見は、一次元超伝導系の周期駆動場によって引き起こされる豊富な位相位相と多くのマヨラナエッジモードを明らかにする。 さらに、その準エネルギーバンドと絡み合い特性から、フロケトポロジカル超伝導体のクラスに対する統一的な記述を導入する。

One-dimensional Floquet topological superconductors possess two types of degenerate Majorana edge modes at zero and $\pi$ quasieneriges, leaving more room for the design of boundary time crystals and quantum computing schemes than their static counterparts. In this work, we discover Floquet superconducting phases with large topological invariants and arbitrarily many Majorana edge modes in periodically driven Kitaev chains. Topological winding numbers defined for the Floquet operator and Floquet entanglement Hamiltonian are found to generate consistent predictions about the phase diagram, bulk-edge correspondence and numbers of zero and $\pi$ Majorana edge modes of the system under different driving protocols. The bipartite entanglement entropy further show non-analytic behaviors around the topological transition point between different Floquet superconducting phases. These general features are demonstrated by investigating the Kitaev chain with periodically kicked pairing or hopping amplitudes. Our discovery reveals the rich topological phases and many Majorana edge modes that could be brought about by periodic driving fields in one-dimensional superconducting systems. It further introduces a unified description for a class of Floquet topological superconductors from their quasienergy bands and entanglement properties.
翻訳日:2023-08-01 23:16:30 公開日:2023-07-31
# センサに基づく人間行動認識のための自己教師あり学習モデルの説明、分析、および探索

Explaining, Analyzing, and Probing Representations of Self-Supervised Learning Models for Sensor-based Human Activity Recognition ( http://arxiv.org/abs/2304.07304v2 )

ライセンス: Link先を確認
Bulat Khaertdinov and Stylianos Asteriadis(参考訳) 近年,データアノテーションを使わずに深い表現を学習するために,センサベースのヒューマンアクティビティ認識(HAR)にSSLフレームワークが広く適用されている。 SSLフレームワークは、ほとんど教師付きモデルに匹敵するパフォーマンスに達するが、SSLモデルによって学習された表現の解釈に関する研究は限られている。 それでも、現代的な説明可能性メソッドは、SSLと教師付き表現の違いを明らかにするのに役立つ。 本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。 特に強調されるのは (i)監督型及びsslモデルのロバスト性と入力データの腐敗の比較 (ii)サリエンシーマップを用いた深層学習モデルの予測を説明し、様々な活動の予測に主にどの入力チャネルが使われているかを強調する。 (iii)SSLでエンコードされたプロパティを探索し、プローブを用いて教師付き表現を行う。 2つの単一デバイスデータセット(MobiAct と UCI-HAR)の大規模な実験により、自己教師付き学習表現は教師なしモデルと比較して、目に見えないデータのノイズに対して著しく堅牢であることが示された。 対照的に、教師付きアプローチによって学習された特徴は、被験者間でより均質であり、活動の性質をよりよくエンコードする。

In recent years, self-supervised learning (SSL) frameworks have been extensively applied to sensor-based Human Activity Recognition (HAR) in order to learn deep representations without data annotations. While SSL frameworks reach performance almost comparable to supervised models, studies on interpreting representations learnt by SSL models are limited. Nevertheless, modern explainability methods could help to unravel the differences between SSL and supervised representations: how they are being learnt, what properties of input data they preserve, and when SSL can be chosen over supervised training. In this paper, we aim to analyze deep representations of two recent SSL frameworks, namely SimCLR and VICReg. Specifically, the emphasis is made on (i) comparing the robustness of supervised and SSL models to corruptions in input data; (ii) explaining predictions of deep learning models using saliency maps and highlighting what input channels are mostly used for predicting various activities; (iii) exploring properties encoded in SSL and supervised representations using probing. Extensive experiments on two single-device datasets (MobiAct and UCI-HAR) have shown that self-supervised learning representations are significantly more robust to noise in unseen data compared to supervised models. In contrast, features learnt by the supervised approaches are more homogeneous across subjects and better encode the nature of activities.
翻訳日:2023-08-01 23:07:51 公開日:2023-07-31
# 再識別リスクの測定

Measuring Re-identification Risk ( http://arxiv.org/abs/2304.07210v2 )

ライセンス: Link先を確認
CJ Carey, Travis Dick, Alessandro Epasto, Adel Javanmard, Josh Karlin, Shankar Kumar, Andres Munoz Medina, Vahab Mirrokni, Gabriel Henrique Nunes, Sergei Vassilvitskii, Peilin Zhong(参考訳) コンパクトなユーザ表現(埋め込みなど)はパーソナライズサービスのバックボーンを形成する。 本稿では,このようなユーザ表現における再識別リスクを測定するための新しい理論的枠組みを提案する。 我々のフレームワークは仮説テストに基づいており、攻撃者がその表現からユーザのアイデンティティを取得できる確率を正式に制限している。 アプリケーションとして、我々のフレームワークは、関心に基づく広告のためのChromeのトピックAPIのような重要な現実世界のアプリケーションをモデル化するのに十分な一般性を示している。 そこで我々は,Topics APIにおける再識別リスクを推定するために使用する,優れた攻撃アルゴリズムを示すことによって,理論的境界を補完する。 この研究は、再識別リスクという厳密で解釈可能な概念と、それを実世界のアプリケーションに伝えるのに使えるフレームワークを提供すると信じています。

Compact user representations (such as embeddings) form the backbone of personalization services. In this work, we present a new theoretical framework to measure re-identification risk in such user representations. Our framework, based on hypothesis testing, formally bounds the probability that an attacker may be able to obtain the identity of a user from their representation. As an application, we show how our framework is general enough to model important real-world applications such as the Chrome's Topics API for interest-based advertising. We complement our theoretical bounds by showing provably good attack algorithms for re-identification that we use to estimate the re-identification risk in the Topics API. We believe this work provides a rigorous and interpretable notion of re-identification risk and a framework to measure it that can be used to inform real-world applications.
翻訳日:2023-08-01 23:07:29 公開日:2023-07-31
# 歯科医療の未来形成のためのチャットgpt : マルチモーダル大言語モデルの可能性

ChatGPT for Shaping the Future of Dentistry: The Potential of Multi-Modal Large Language Model ( http://arxiv.org/abs/2304.03086v2 )

ライセンス: Link先を確認
Hanyao Huang, Ou Zheng, Dongdong Wang, Jiayi Yin, Zijin Wang, Shengxuan Ding, Heng Yin, Chuan Xu, Renjie Yang, Qian Zheng, Bing Shi(参考訳) ChatGPT(ChatGPT)は、OpenAIが開発したGPT-4(Generative Pretrained Transformer 4)のエレガントで対話的な変種であり、数十億のパラメータを持つLarge Language Models(LLM)の1つである。 LLMは、自然言語処理タスクにおける優れたスキルにおいて、研究者や実践者の間で大きな関心を集めています。 本稿では, 歯科医療におけるLCMの将来的応用について論じる。 歯科医療における2つの主要なLCM展開法について紹介し, 自動歯科診断とクロスモーダル歯科診断を含め, その可能性について検討した。 特に、クロスモーダルエンコーダを備えた単一のLCMは、マルチソースデータを管理し、複雑な臨床手術を行うための高度な自然言語推論を行うことができる。 また, 歯科臨床応用のための完全自動多モードLLMAIシステムの可能性を示す症例も提示した。 LLMは大きな潜在的なメリットを提供するが、データプライバシやデータ品質、モデルバイアスといった課題は、さらなる研究が必要である。 総じて、LSMは歯科診断と治療に革命をもたらす可能性があり、歯科医療における臨床応用と研究の道のりを示す。

The ChatGPT, a lite and conversational variant of Generative Pretrained Transformer 4 (GPT-4) developed by OpenAI, is one of the milestone Large Language Models (LLMs) with billions of parameters. LLMs have stirred up much interest among researchers and practitioners in their impressive skills in natural language processing tasks, which profoundly impact various fields. This paper mainly discusses the future applications of LLMs in dentistry. We introduce two primary LLM deployment methods in dentistry, including automated dental diagnosis and cross-modal dental diagnosis, and examine their potential applications. Especially, equipped with a cross-modal encoder, a single LLM can manage multi-source data and conduct advanced natural language reasoning to perform complex clinical operations. We also present cases to demonstrate the potential of a fully automatic Multi-Modal LLM AI system for dentistry clinical application. While LLMs offer significant potential benefits, the challenges, such as data privacy, data quality, and model bias, need further study. Overall, LLMs have the potential to revolutionize dental diagnosis and treatment, which indicates a promising avenue for clinical application and research in dentistry.
翻訳日:2023-08-01 23:06:29 公開日:2023-07-31
# テキストガイド汚職に対するロバスト性のベンチマーク

Benchmarking Robustness to Text-Guided Corruptions ( http://arxiv.org/abs/2304.02963v2 )

ライセンス: Link先を確認
Mohammadreza Mofayezi and Yasamin Medghalchi(参考訳) 本研究は,テキスト誘導汚職に対する画像分類器の堅牢性について検討する。 拡散モデルを用いて異なる領域の画像を編集する。 合成データや手書きデータを用いてベンチマークを行う他の研究とは異なり、画像の編集とセマンティックなコンテンツの保存を学習できる生成モデルとして拡散モデルを用いる。 したがって、汚職はより現実的で、比較はより情報的になるだろう。 また、手動のラベリングは不要で、より少ない労力で大規模なベンチマークを作成できます。 我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。 新たなベンチマークを導入するだけでなく,さまざまなビジョンモデルの堅牢性についても検討する。 本研究は, 画像分類器の性能が, 異なる言語に基づく腐敗や編集領域において著しく低下することを示す。 また,畳み込みモデルがトランスフォーマーアーキテクチャよりも堅牢であることも観察した。 さらに、共通データ拡張技術は、元のデータと編集された画像の両方のパフォーマンスを向上させることができる。 本研究は,画像分類器の設計の改善に寄与し,より堅牢な機械学習システムの開発に寄与する。 ベンチマークを生成するコードはhttps://github.com/ckoorosh/robutextで入手できる。

This study investigates the robustness of image classifiers to text-guided corruptions. We utilize diffusion models to edit images to different domains. Unlike other works that use synthetic or hand-picked data for benchmarking, we use diffusion models as they are generative models capable of learning to edit images while preserving their semantic content. Thus, the corruptions will be more realistic and the comparison will be more informative. Also, there is no need for manual labeling and we can create large-scale benchmarks with less effort. We define a prompt hierarchy based on the original ImageNet hierarchy to apply edits in different domains. As well as introducing a new benchmark we try to investigate the robustness of different vision models. The results of this study demonstrate that the performance of image classifiers decreases significantly in different language-based corruptions and edit domains. We also observe that convolutional models are more robust than transformer architectures. Additionally, we see that common data augmentation techniques can improve the performance on both the original data and the edited images. The findings of this research can help improve the design of image classifiers and contribute to the development of more robust machine learning systems. The code for generating the benchmark is available at https://github.com/ckoorosh/RobuText.
翻訳日:2023-08-01 23:05:53 公開日:2023-07-31
# アバターの知識蒸留:不確かさを自称する教師パラダイム

Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with Uncertainty ( http://arxiv.org/abs/2305.02722v2 )

ライセンス: Link先を確認
Yuan Zhang, Weihua Chen, Yichen Lu, Tao Huang, Xiuyu Sun, Jian Cao(参考訳) 知識蒸留はpocket-sizeモデルのパフォーマンスを高める効果的なパラダイムであり、特に複数の教師モデルが利用可能であれば、生徒は再び上限を破る。 しかし、使い捨て蒸留のために多様な教師モデルを訓練するのは経済的ではない。 本稿では,教師から導かれた推論アンサンブルモデルである蒸留用アバターという新しい概念を提案する。 具体的には,(1)蒸留訓練の各イテレーションにおいて,摂動変換によって様々なアバターが生成される。 我々は,教師モデルから多様で受容的な知識の視点を学習する学生モデルを支援するために,アバターが作業能力と教育能力の上限が高いことを検証した。 2) 蒸留において, バニラ教師とアバターの統計的差異のばらつきから, アバターの知識伝達に対する貢献を適応的に調整する不確実性認識因子を提案する。 Avatar Knowledge Distillation AKDは、既存の方法や洗練と根本的に異なる。 包括的実験により,高濃度予測のための最先端蒸留法を,計算コストを増すことなく洗練するアバター機構の有効性が実証された。 AKDはCOCO 2017では0.7AP、セマンティックセグメンテーションでは1.83mIoU、セマンティックセグメンテーションでは1.83mIoUとなっている。

Knowledge distillation is an effective paradigm for boosting the performance of pocket-size model, especially when multiple teacher models are available, the student would break the upper limit again. However, it is not economical to train diverse teacher models for the disposable distillation. In this paper, we introduce a new concept dubbed Avatars for distillation, which are the inference ensemble models derived from the teacher. Concretely, (1) For each iteration of distillation training, various Avatars are generated by a perturbation transformation. We validate that Avatars own higher upper limit of working capacity and teaching ability, aiding the student model in learning diverse and receptive knowledge perspectives from the teacher model. (2) During the distillation, we propose an uncertainty-aware factor from the variance of statistical differences between the vanilla teacher and Avatars, to adjust Avatars' contribution on knowledge transfer adaptively. Avatar Knowledge Distillation AKD is fundamentally different from existing methods and refines with the innovative view of unequal training. Comprehensive experiments demonstrate the effectiveness of our Avatars mechanism, which polishes up the state-of-the-art distillation methods for dense prediction without more extra computational cost. The AKD brings at most 0.7 AP gains on COCO 2017 for Object Detection and 1.83 mIoU gains on Cityscapes for Semantic Segmentation, respectively.
翻訳日:2023-08-01 22:58:18 公開日:2023-07-31
# 音声認識のためのディープトランスファー学習 : 一般化に向けて

Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization ( http://arxiv.org/abs/2304.14535v2 )

ライセンス: Link先を確認
Hamza Kheddar, Yassine Himeur, Somaya Al-Maadeed, Abbes Amira, Faycal Bensaali(参考訳) 近年,ディープラーニング(DL)では,音声認識(ASR)が重要な課題となっている。 大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。 さらに、dlテクニックと機械学習(ml)アプローチは一般的に、トレーニングとテストのデータを同じドメインから、同じ入力特徴空間とデータ分散特性を持つものと仮定している。 しかし、この仮定は現実の人工知能(AI)の応用には適用できない。 さらに、DLモデルのデータ要求を満たすことができない、実際のデータ収集が困難、高価、あるいは稀に発生する状況もある。 この問題を克服するために、dtl(deep transfer learning)が導入された。これは、トレーニングデータに関連して、小さく、あるいはやや異なる実際のデータセットを使用して、高性能なモデルを開発するのに役立つ。 本稿では,DTLをベースとしたASRフレームワークに関する包括的調査を行い,現状の課題を明らかにする。 具体的には、DTLの背景を提示した後、最先端の情報を知らせるために、よく設計された分類法が採用される。 それぞれのフレームワークの限界と利点を特定するために、批判的な分析が行われる。 今後の研究の機会を導き出す前に、現在の課題を強調するために比較研究が導入された。

Automatic speech recognition (ASR) has recently become an important challenge when using deep learning (DL). It requires large-scale training datasets and high computational and storage resources. Moreover, DL techniques and machine learning (ML) approaches in general, hypothesize that training and testing data come from the same domain, with the same input feature space and data distribution characteristics. This assumption, however, is not applicable in some real-world artificial intelligence (AI) applications. Moreover, there are situations where gathering real data is challenging, expensive, or rarely occurring, which can not meet the data requirements of DL models. deep transfer learning (DTL) has been introduced to overcome these issues, which helps develop high-performing models using real datasets that are small or slightly different but related to the training data. This paper presents a comprehensive survey of DTL-based ASR frameworks to shed light on the latest developments and helps academics and professionals understand current challenges. Specifically, after presenting the DTL background, a well-designed taxonomy is adopted to inform the state-of-the-art. A critical analysis is then conducted to identify the limitations and advantages of each framework. Moving on, a comparative study is introduced to highlight the current challenges before deriving opportunities for future research.
翻訳日:2023-08-01 22:57:31 公開日:2023-07-31
# 量子輸送における多体コヒーレンス

Many-Body Coherence in Quantum Transport ( http://arxiv.org/abs/2304.11151v4 )

ライセンス: Link先を確認
Ching-Chi Hang, Liang-Yan Hsu(参考訳) 本研究では,多体系における電子輸送を制御するために,量子コヒーレンスを利用する概念を提案する。 ハバード作用素に基づくオープン量子システム手法を組み合わせることで,多体コヒーレンスが有名なクーロン階段を取り除き,強い負の差動抵抗を引き起こすことを示した。 この機構を解明するため、ゼロ電子-フォノンカップリング限界における電流-コヒーレンス関係を解析的に導出する。 さらに,ゲートフィールドを組み込むことで,コヒーレンス制御トランジスタ構築の可能性を示す。 この開発は、多体コヒーレンスに基づく量子電子デバイス探索のための新しい方向を開く。

In this study, we propose the concept of harnessing quantum coherence to control electron transport in a many-body system. Combining an open quantum system technique based on Hubbard operators, we show that many-body coherence can eliminate the well-known Coulomb staircase and cause strong negative differential resistance. To explore the mechanism, we analytically derive the current-coherence relationship in the zero electron-phonon coupling limit. Furthermore, by incorporating a gate field, we demonstrate the possibility of constructing a coherence-controlled transistor. This development opens up a new direction for exploring quantum electronic devices based on many-body coherence.
翻訳日:2023-08-01 22:56:25 公開日:2023-07-31
# モデルベースからデータ駆動シミュレーションへ:自律運転の課題と動向

From Model-Based to Data-Driven Simulation: Challenges and Trends in Autonomous Driving ( http://arxiv.org/abs/2305.13960v3 )

ライセンス: Link先を確認
Ferdinand M\"utsch, Helen Gremmelmaier, Nicolas Becker, Daniel Bogdoll, Marc Ren\'e Zofka, J. Marius Z\"ollner(参考訳) シミュレーションは自動運転車の開発プロセスにおいて不可欠な部分であり、運転機能の訓練、検証、検証に有利である。 シミュレーションには実世界の実験と比べて様々な利点があるが、バーチャルテストが物理的なテストドライブを完全に置き換えることを防いでいる。 我々の研究は、これらの課題について様々な側面やシミュレーションのタイプについて概説し、克服する現在の傾向を仮定する。 我々は、認識、行動、およびコンテンツリアリズムに関する側面と、シミュレーションの領域における一般的なハードルをカバーしている。 モデルベースシミュレーションの代替として,データ駆動型,生成的アプローチ,高忠実度データ合成のトレンドを考察する。

Simulation is an integral part in the process of developing autonomous vehicles and advantageous for training, validation, and verification of driving functions. Even though simulations come with a series of benefits compared to real-world experiments, various challenges still prevent virtual testing from entirely replacing physical test-drives. Our work provides an overview of these challenges with regard to different aspects and types of simulation and subsumes current trends to overcome them. We cover aspects around perception-, behavior- and content-realism as well as general hurdles in the domain of simulation. Among others, we observe a trend of data-driven, generative approaches and high-fidelity data synthesis to increasingly replace model-based simulation.
翻訳日:2023-08-01 22:47:56 公開日:2023-07-31
# flying adversarial patch: ディープラーニングによる自律的マルチロータの動作操作

Flying Adversarial Patches: Manipulating the Behavior of Deep Learning-based Autonomous Multirotors ( http://arxiv.org/abs/2305.12859v2 )

ライセンス: Link先を確認
Pia Hanfeld and Marina M.-C. H\"ohne and Michael Bussmann and Wolfgang H\"onig(参考訳) マルチローターのような自律飛行ロボットは、しばしばカメラ画像に基づいて予測を行うニューラルネットワークに依存している。 これらのディープラーニング(DL)モデルは、トレーニング領域外の入力画像に適用した場合、驚くべき結果を計算することができる。 敵の攻撃は、例えば、ニューラルネットワークの予測を操作するために環境に配置される小さなイメージ、いわゆる敵パッチを計算することで、この欠陥を悪用する。 本研究では,他の飛行ロボットに画像が装着され,被害者のマルチロータの視野内に配置されるフライング対向パッチについて紹介する。 効果的なアタックを行うために,攻撃パッチと入力画像の位置を同時に最適化する3つの手法を比較した。 我々は,自律型マルチロータ用DLモデルとデータセットの実証検証を行った。 最終的に、攻撃するマルチロータは、被害者のマルチロータの動きを完全に制御できる。

Autonomous flying robots, e.g. multirotors, often rely on a neural network that makes predictions based on a camera image. These deep learning (DL) models can compute surprising results if applied to input images outside the training domain. Adversarial attacks exploit this fault, for example, by computing small images, so-called adversarial patches, that can be placed in the environment to manipulate the neural network's prediction. We introduce flying adversarial patches, where an image is mounted on another flying robot and therefore can be placed anywhere in the field of view of a victim multirotor. For an effective attack, we compare three methods that simultaneously optimize the adversarial patch and its position in the input image. We perform an empirical validation on a publicly available DL model and dataset for autonomous multirotors. Ultimately, our attacking multirotor would be able to gain full control over the motions of the victim multirotor.
翻訳日:2023-08-01 22:47:24 公開日:2023-07-31
# SelfzCoT: セマンティックレベルからコードレベルへの自己プロンプトゼロショットCoTによるLCMのより良い利用

SelfzCoT: a Self-Prompt Zero-shot CoT from Semantic-level to Code-level for a Better Utilization of LLMs ( http://arxiv.org/abs/2305.11461v3 )

ライセンス: Link先を確認
Ioktong Lei and Zhidong Deng(参考訳) 本稿では,自己プロンプトゼロショットCoTであるSelfzCoTを用いたLCMの有効利用について述べる。 特にゼロショット算術推論タスクでは、提案されたSelfzCoTの精度は、GSM8Kを40.50%から82.34%に改善し、MultiArithを79.3%から94.7%、ADDSUBを74.70%から94.10%、SingleEqを78.70%から91.30%、Aquaを31.90%から82.33%、SVAMPを63.70%から79.70%に改善した。 LLMへの最初の2つのパスアクティベート、特にコードレベルのセルフプロンプトを使用して、SelfzCoTは6つのゼロショット算術推論タスクを大幅に改善した。 さらに,修正したゼロショットCoT (MzCoT) も推論タスクにおいて顕著な性能を発揮する。 提案されたMzCoTの精度はGSM8Kが40.50%から76.32%、MultiArithが79.3%から96.97%、ABDSUBが74.70%から92.39%、SingleEqが78.70%から94.60%、AQUAが31.90%から79.90%、SVAMPが63.70%から81.50%に向上した。 特にSelfzCoTは、最近のゼロショットメソッドの中でもGSM8Kで最高のパフォーマンスを示している。

This paper show a work on better use of LLMs with SelfzCoT a self-prompt zero-shot CoT. Specifically, on the zero-shot arithmetic reasoning tasks, the accuracy of the proposed SelfzCoT is improved with GSM8K from 40.50% to 82.34%, with MultiArith from 79.3% to 94.7%, with ADDSUB from 74.70% to 94.10%, with SingleEq from 78.70% to 91.30%, with AQUA from 31.90% to 82.33%, and with SVAMP from 63.70% to 79.70%. Totally, using the first two lasting path activations to LLM and particularly, the code-level self-prompt, the SelfzCoT has a huge improvement on all six zero-shot arithmetic reasoning tasks. Additionally, our modified zero-shot CoT (MzCoT) also achieves remarkable performance in the reasoning tasks. The accuracy of the proposed MzCoT is enhanced with GSM8K from 40.50% to 76.32%, with MultiArith from 79.3% to 96.97%, with ADDSUB from 74.70% to 92.39%, with SingleEq from 78.70% to 94.60%, with AQUA from 31.90% to 79.90%, and with SVAMP from 63.70% to 81.50%. Notably, SelfzCoT has the best performance on GSM8K among all the recent zero-shot methods.
翻訳日:2023-08-01 22:47:10 公開日:2023-07-31
# 古典的部分同型暗号に適合する量子XORオブリバスト転送プロトコル

A quantum XOR oblivious transfer protocol compatible with classical partially homomorphic encryption ( http://arxiv.org/abs/2305.11114v4 )

ライセンス: Link先を確認
Li Yu, Jie Xu, Fuqun Wang, Chui-Ping Yang(参考訳) XOR oblivious Transfer (XOT) は古典的な暗号プリミティブであり、1-out-of--2 oblivious transferよりも弱いが、セキュアな2要素計算には普遍的である。 理想のXOTでは、ボブは最初2ビットしか持たず、アリスはボブの第1ビットか第2ビットか、またはその排他的あるいはそれ以上の情報を得ることはできないが、ボブは彼女の選択について何も学ばない。 本研究では,まず,古典入力にxotの機能を実装する量子プロトコルを導入し,アリスがチートした場合,そのようなプロトコルは安全でないことを示す。 このようなプロトコルの変種に基づいて構築することで、XOTのプロトコルを双方に部分的セキュリティで提示する。 次に,aliceのデータ漏洩が一様入力分布下で一定ビット数に制限され,bobの入力が部分的に安全である線形多項式の評価プロトコルを提案する。 計算手法によりセキュリティの弱点を軽減するために,古典的なXOR準同型暗号方式と組み合わせる手法を提案する。 最後に,線形多項式に対する量子プロトコルの利用方法を示す。

XOR oblivious transfer (XOT) is a classical cryptographic primitive which is apparently weaker than 1-out-of-2 oblivious transfer, yet still universal for secure two-party computation. In ideal XOT, Bob initially has two bits, and Alice may choose to obtain either the first bit of Bob's, or the second bit, or their exclusive-or, but does not obtain any more information, while Bob does not learn anything about her choice. In this work we firstly introduce a quantum protocol which implements the functionality of XOT on classical inputs, and we show that such protocol is insecure if Alice cheats. By building on a variant of such protocol, we present a protocol for XOT with partial security for both parties. We then propose a protocol for evaluating linear polynomials, in which Alice's data leakage is limited to a constant number of bits under uniform input distributions, and Bob's input is partially secure. We show a method to combine it with a classical XOR homomorphic encryption scheme, which serves to mitigate the security weakness by computational methods. Finally, we show how to use the quantum protocol for linear polynomials in an interactive two-party computation scheme.
翻訳日:2023-08-01 22:46:30 公開日:2023-07-31
# アーベル及び非アーベル量子2ブロック符号

Abelian and non-abelian quantum two-block codes ( http://arxiv.org/abs/2305.06890v2 )

ライセンス: Link先を確認
Renyu Wang, Hsiang-Ku Lin, and Leonid P. Pryadko(参考訳) 2つの可換正方行列から構築されたcssコードの大きなクラスである量子2ブロック符号について論じる。これらの符号の興味深いファミリーは一般化双サイクル(gb)符号と2ブロック群アルゲブラ(2bga)符号であり、ここでは巡回群は任意の有限群(一般に非可換群)に置き換えられる。 構成群が巡回群かアーベル群か非アーベル群かによって、コード構成とコード次元に関するいくつかの式を提供する。 これにより、本質的に非可換な2bga符号は、そのようなアーベル群に基づくコードと置換同値でないことが保証される。 また、2BGA符号が1組の古典的グループ符号から構築されたハイパーグラフ生成符号に還元される場合、特に2BGA符号が適用されるような距離の低い境界を与える。

We discuss quantum two-block codes, a large class of CSS codes constructed from two commuting square matrices.Interesting families of such codes are generalized-bicycle (GB) codes and two-block group-algebra (2BGA) codes, where a cyclic group is replaced with an arbitrary finite group, generally non-abelian. We present code construction and give several expressions for code dimension, applicable depending on whether the constituent group is cyclic, abelian, or non-abelian. This gives a simple criterion for an essentially non-abelian 2BGA code guaranteed not to be permutation-equivalent to such a code based on an abelian group. We also give a lower bound on the distance which, in particular, applies to the case when a 2BGA code reduces to a hypergraph-product code constructed from a pair of classical group codes.
翻訳日:2023-08-01 22:45:09 公開日:2023-07-31
# ゲートレベルでのプリコンパイルを用いた量子回路のコンパイル時間を短縮する

Reducing the Compilation Time of Quantum Circuits Using Pre-Compilation on the Gate Level ( http://arxiv.org/abs/2305.04941v2 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) 量子コンピューティングアプリケーションを実装するためには、問題インスタンスを量子回路にエンコードし、特定のプラットフォーム向けにコンパイルする必要がある。 長いコンパイルプロセスは、このワークフローにおける重要なボトルネックであり、特に、同じだが異なる構造で繰り返し発生する問題(それぞれがこれまで新しいコンパイル実行を必要としている)に対してである。 本稿では,繰り返し発生する問題のコンパイルに要する時間を最小限に抑えるとともに,解の質を極力保ちつつ,このボトルネックを克服することを目的としている。 問題クラスと対応する量子アルゴリズムから始めると、代表的な問題インスタンスをその問題クラスの汎用量子回路にエンコードするために予測符号化スキームが適用される。 実際の問題インスタンスが知られると、以前構築された回路は、(ほぼ)コンパイル不要で、調整されるだけでよい。 MaxCut問題に対するQAOAと衛星ミッション計画問題に関するケーススタディの実験的評価により,提案手法は,同等のコンパイル回路品質を維持しながら,Qiskitのコンパイル方式と比較して,数桁のコンパイル時間を著しく短縮することを示した。 すべての実装は GitHub (https://github.com/cda-tum/mqt-problemsolver) でミュンヘン量子ツールキット (MQT) の一部として公開されている。

In order to implement a quantum computing application, problem instances must be encoded into a quantum circuit and then compiled for a specific platform. The lengthy compilation process is a key bottleneck in this workflow, especially for problems that arise repeatedly with a similar yet distinct structure (each of which requires a new compilation run thus far). In this paper, we aim to overcome this bottleneck by proposing a comprehensive pre-compilation technique that tries to minimize the time spent for compiling recurring problems while preserving the solution quality as much as possible. The following concepts underpin the proposed approach: Beginning with a problem class and a corresponding quantum algorithm, a predictive encoding scheme is applied to encode a representative problem instance into a general-purpose quantum circuit for that problem class. Once the real problem instance is known, the previously constructed circuit only needs to be adjusted -- with (nearly) no compilation necessary. Experimental evaluations on QAOA for the MaxCut problem as well as a case study involving a satellite mission planning problem show that the proposed approach significantly reduces the compilation time by several orders of magnitude compared to Qiskit's compilation schemes while maintaining comparable compiled circuit quality. All implementations are available on GitHub (https://github.com/cda-tum/mqt-problemsolver) as part of the Munich Quantum Toolkit (MQT).
翻訳日:2023-08-01 22:44:52 公開日:2023-07-31
# ジェネレーティブ・ディバイサル・ネットワークを用いた皮膚病変分割

Generative Adversarial Networks based Skin Lesion Segmentation ( http://arxiv.org/abs/2305.18164v2 )

ライセンス: Link先を確認
Shubham Innani, Prasad Dutande, Ujjwal Baid, Venu Pokuri, Spyridon Bakas, Sanjay Talbar, Bhakti Baheti, Sharath Chandra Guntuku(参考訳) 皮膚がんは、正確な診断と治療を必要とする深刻な疾患である。 このタスクで臨床医を支援する1つの方法は、皮膚鏡画像から皮膚病変を自動的に切り離すコンピュータ支援診断(cad)ツールを使用することである。 本稿では, 教師なし生成ネットワークを用いて正確な障害マスクを生成する, Efficient-GAN (EGAN) と呼ばれる新しい逆学習基盤を提案する。 トップダウンのスクイーズ励起に基づく複合スケールドパスを持つジェネレータモジュールと、非対称な側接続ベースのボトムアップパスと、オリジナルマスクと合成マスクを区別する識別モジュールで構成される。 形態素に基づく平滑化損失も実装され、ネットワークが病変のスムーズなセマンティックな境界を作るのを促す。 このフレームワークは、International Skin Imaging Collaboration (ISIC) Lesion Dataset 2018で評価されている。 ダイス係数、ジャカード類似度、正確度はそれぞれ90.1%、83.6%、94.5%である。 また、EGANと同等の性能を持つ軽量セグメンテーションフレームワーク(MGAN)を設計するが、トレーニングパラメータの桁数が桁違い少なくなり、計算リソース設定の高速化を実現している。

Skin cancer is a serious condition that requires accurate diagnosis and treatment. One way to assist clinicians in this task is using computer-aided diagnosis (CAD) tools that automatically segment skin lesions from dermoscopic images. We propose a novel adversarial learning-based framework called Efficient-GAN (EGAN) that uses an unsupervised generative network to generate accurate lesion masks. It consists of a generator module with a top-down squeeze excitation-based compound scaled path, an asymmetric lateral connection-based bottom-up path, and a discriminator module that distinguishes between original and synthetic masks. A morphology-based smoothing loss is also implemented to encourage the network to create smooth semantic boundaries of lesions. The framework is evaluated on the International Skin Imaging Collaboration (ISIC) Lesion Dataset 2018. It outperforms the current state-of-the-art skin lesion segmentation approaches with a Dice coefficient, Jaccard similarity, and Accuracy of 90.1%, 83.6%, and 94.5%, respectively. We also design a lightweight segmentation framework (MGAN) that achieves comparable performance as EGAN but with an order of magnitude lower number of training parameters, thus resulting in faster inference times for low compute resource settings.
翻訳日:2023-08-01 21:04:12 公開日:2023-07-31
# ボールオルタナティブが欠如する一様性に対する離散分布ヒストグラムの試験におけるミニマックスリスク

The minimax risk in testing the histogram of discrete distributions for uniformity under missing ball alternatives ( http://arxiv.org/abs/2305.18111v3 )

ライセンス: Link先を確認
Alon Kipnis(参考訳) 我々は,多くのカテゴリからカテゴリ上の一様分布への離散的サンプルの適合性をテストする問題を考える。 代替仮説のクラスとして、半径$\epsilon$ の $\ell_p$ の球を、$p \leq 2$ の均一レート列の周りに取り除くことを考える。 標本の数と次元の数が無限になるに従って$\epsilon \to 0$のとき、漸近的ミニマックスのリスクを鋭く特徴づけ、発生のヒストグラム(不在のカテゴリ、シングルトン、衝突、...)に基づいてテストする。 例えば、$p=1$ と、期待されるサンプル数の制限で$n$ は、カテゴリー数$n$ (別名 "sub-linear" regime) と比較して、minimax リスク $r^*_\epsilon$ asymptotes to $2 \bar{\phi}\left(n \epsilon^2/\sqrt{8n}\right) $, with $\bar{\phi}(x)$ は通常の生存関数である。 種々の問題パラメータに関する実証的な研究により、この推定は有限標本において正確であり、我々のテストは衝突のみを用いるチフタッドテストやテストよりもはるかに優れていることが示された。 本解析は,ヒストグラム順序の漸近正規性,ミニマックス設定とベイズ設定の等価性,多次元最適化問題の1次元問題への還元に基づく。

We consider the problem of testing the fit of a discrete sample of items from many categories to the uniform distribution over the categories. As a class of alternative hypotheses, we consider the removal of an $\ell_p$ ball of radius $\epsilon$ around the uniform rate sequence for $p \leq 2$. We deliver a sharp characterization of the asymptotic minimax risk when $\epsilon \to 0$ as the number of samples and number of dimensions go to infinity, for testing based on the occurrences' histogram (number of absent categories, singletons, collisions, ...). For example, for $p=1$ and in the limit of a small expected number of samples $n$ compared to the number of categories $N$ (aka "sub-linear" regime), the minimax risk $R^*_\epsilon$ asymptotes to $2 \bar{\Phi}\left(n \epsilon^2/\sqrt{8N}\right) $, with $\bar{\Phi}(x)$ the normal survival function. Empirical studies over a range of problem parameters show that this estimate is accurate in finite samples, and that our test is significantly better than the chisquared test or a test that only uses collisions. Our analysis is based on the asymptotic normality of histogram ordinates, the equivalence between the minimax setting to a Bayesian one, and the reduction of a multi-dimensional optimization problem to a one-dimensional problem.
翻訳日:2023-08-01 21:03:51 公開日:2023-07-31
# 非エルミート・フロケット・トポロジカル・マター--概観

Non-Hermitian Floquet Topological Matter -- A Review ( http://arxiv.org/abs/2305.16153v3 )

ライセンス: Link先を確認
Longwen Zhou and Da-Jian Zhang(参考訳) 過去数年間、ドライブフィールドと非ヘルミティシティの相互作用に起因するエキゾチックな性質のために、非エルミティアンフローケット位相問題への関心が高まっている。 本論では,非エルミートフロケット位相問題の研究を1次元と2次元にまとめた。 まず,非エルミートフロッケ系の物理的意義を明らかにするため,文献を鳥眼で見る。 次に,非エルミートフロケ系とそのトポロジカルな性質の研究に適した有用なツールをいくつか紹介する。 これらのツールを用いて, 位相不変量, バルクエッジ対応, 非エルミート皮膚効果, 力学特性, 局在遷移に焦点をあてた非エルミートフロッケ位相絶縁体, 超伝導体, 準結晶の典型例を示す。 本論は,本研究の主な成果を要約し,今後の方向性の展望を提示することによって結論付ける。

The past few years have witnessed a surge of interest in non-Hermitian Floquet topological matters due to their exotic properties resulting from the interplay between driving fields and non-Hermiticity. The present review sums up our studies on non-Hermitian Floquet topological matters in one and two spatial dimensions. We first give a bird's-eye view of the literature for clarifying the physical significance of non-Hermitian Floquet systems. We then introduce, in a pedagogical manner, a number of useful tools tailored for the study of non-Hermitian Floquet systems and their topological properties. With the aid of these tools, we present typical examples of non-Hermitian Floquet topological insulators, superconductors, and quasicrystals, with a focus on their topological invariants, bulk-edge correspondences, non-Hermitian skin effects, dynamical properties, and localization transitions. We conclude this review by summarizing our main findings and presenting our vision of future directions.
翻訳日:2023-08-01 21:02:20 公開日:2023-07-31
# DSHGT: Dual-Supervisors Heterogeneous Graph Transformer -- ソフトウェア脆弱性検出のための異種グラフ学習の先駆的研究

DSHGT: Dual-Supervisors Heterogeneous Graph Transformer -- A pioneer study of using heterogeneous graph learning for detecting software vulnerabilities ( http://arxiv.org/abs/2306.01376v2 )

ライセンス: Link先を確認
Tiehua Zhang, Rui Xu, Jianping Zhang, Yuzhe Tian, Xin Chen, Xiaowei Huang, Jun Yin, Xi Zheng(参考訳) 脆弱性検出はソフトウェアセキュリティにおける重要な問題であり、学界と業界の両方から注目を集めている。 伝統的に、ソフトウェアセキュリティは、経験的な専門知識に大きく依存する、指定されたルールベースの検出器によって保護されている。 ディープラーニング、特にグラフニューラルネットワーク(GNN)の最近の進歩は、幅広いソフトウェア脆弱性の自動検出の可能性を明らかにしている。 しかしながら、事前学習に基づく作業は、コードの文脈的特徴を抽出するためにプログラムを単語トークンのシーケンスに分割するか、あるいはgnnを基礎となるプログラムエンティティ(例えばメソッド、変数)の複雑なタイプを識別せずに、均質なグラフ表現(例えばast)に主に適用するだけである。 本研究では、コードプロパティグラフの形で異種グラフ表現を初めて探求し、対応するグラフ学習タスクのための二重スーパーバイザ構造を持つよく知られた異種グラフネットワークを適用する。 構築したプロトタイプを用いて,人工データセットと実世界のプロジェクトの両方について広範な実験を行った。 最先端のベースラインと比較すると、脆弱性検出性能(実世界のプロジェクトでは平均10\%以上のf1改善)やc/c++から他のプログラミング言語への移植性(平均11%以上のf1改善)といった点で、この研究の方向性において有望な効果を示している。

Vulnerability detection is a critical problem in software security and attracts growing attention both from academia and industry. Traditionally, software security is safeguarded by designated rule-based detectors that heavily rely on empirical expertise, requiring tremendous effort from software experts to generate rule repositories for large code corpus. Recent advances in deep learning, especially Graph Neural Networks (GNN), have uncovered the feasibility of automatic detection of a wide range of software vulnerabilities. However, prior learning-based works only break programs down into a sequence of word tokens for extracting contextual features of codes, or apply GNN largely on homogeneous graph representation (e.g., AST) without discerning complex types of underlying program entities (e.g., methods, variables). In this work, we are one of the first to explore heterogeneous graph representation in the form of Code Property Graph and adapt a well-known heterogeneous graph network with a dual-supervisor structure for the corresponding graph learning task. Using the prototype built, we have conducted extensive experiments on both synthetic datasets and real-world projects. Compared with the state-of-the-art baselines, the results demonstrate promising effectiveness in this research direction in terms of vulnerability detection performance (average F1 improvements over 10\% in real-world projects) and transferability from C/C++ to other programming languages (average F1 improvements over 11%).
翻訳日:2023-08-01 20:53:38 公開日:2023-07-31
# ファウショットマルチモーダル感情分析のための構文対応ハイブリッドプロンプトモデル

Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment analysis ( http://arxiv.org/abs/2306.01312v2 )

ライセンス: Link先を確認
Zikai Zhou, Haisong Feng, Baiyou Qiao, Gang Wu, Donghong Han(参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は,近年,文・アスペクトレベルでの自然言語処理において,一般的な話題となっている。 しかし、既存のアプローチは、ほとんど大きなラベル付きデータセットを必要とするため、時間とリソースを大量に消費する。 したがって,クロスモダリティにおける少数ショット感情分析の手法を検討することは現実的である。 従来の作品では、主に手作りのプロンプトと学習可能なプロンプトという2つのタイプのプロンプトベースメソッドを使用して、テキストによるモダリティを実行している。 マルチモーダリティ感情分析タスクにおける既存のアプローチは、どちらの方法も別々に活用している。 さらに,1つ以上の固定された手作りプロンプトと学習可能なプロンプトを組み合わせたハイブリッドパターンを設計し,注意機構を利用してプロンプトエンコーダを最適化する。 文レベルのデータセットとアスペクトレベルのデータセットの両方の実験により、大きなパフォーマンス向上が証明された。

Multimodal Sentiment Analysis (MSA) has been a popular topic in natural language processing nowadays, at both sentence and aspect level. However, the existing approaches almost require large-size labeled datasets, which bring about large consumption of time and resources. Therefore, it is practical to explore the method for few-shot sentiment analysis in cross-modalities. Previous works generally execute on textual modality, using the prompt-based methods, mainly two types: hand-crafted prompts and learnable prompts. The existing approach in few-shot multi-modality sentiment analysis task has utilized both methods, separately. We further design a hybrid pattern that can combine one or more fixed hand-crafted prompts and learnable prompts and utilize the attention mechanisms to optimize the prompt encoder. The experiments on both sentence-level and aspect-level datasets prove that we get a significant outperformance.
翻訳日:2023-08-01 20:53:08 公開日:2023-07-31
# DeepVAT: イメージデータセットのクラスタアセスメントを自己監視するテクニック

DeepVAT: A Self-Supervised Technique for Cluster Assessment in Image Datasets ( http://arxiv.org/abs/2306.00011v2 )

ライセンス: Link先を確認
Alokendu Mazumder, Tirthajit Baruah, Akash Kumar Singh, Pagadla Krishna Murthy, Vishwajeet Pattanaik, Punit Rathore(参考訳) 従来のクラスタリングアルゴリズムでは、ラベルなし、複雑、高次元のデータセット(イメージなど)におけるクラスタ数とクラスタ構造の推定が難しい。 近年、VAT (Visual Assessment of Tendency) と呼ばれる行列再構成に基づくアルゴリズムが様々な分野の研究者を惹きつけ、データに存在するクラスタの数と固有のクラスタ構造を推定している。 しかし、これらのアルゴリズムは、画像に固有の重要な特徴を効果的に捉えることができないため、画像データを扱う際に重大な課題に直面している。 これらの制約を克服するために,複雑な画像データセットにおけるクラスタ構造の評価を可能にするディープラーニングフレームワークを提案する。 本手法は,自己教師付きディープニューラルネットワークを用いて,データに代表的埋め込みを生成する。 これらの埋め込みは、t-distributed Stochastic Neighbour Embedding (t-SNE)を用いて2次元に縮小され、VATベースのアルゴリズムに入力され、基盤となるクラスタ構造を推定する。 重要なことは、我々のフレームワークはクラスタの数に関する事前の知識に依存していません。 提案手法は,MNIST,FMNIST,CIFAR-10,INTELの4つのベンチマーク画像データセットに対して,最先端のVATファミリーアルゴリズムと2つのディープクラスタリングアルゴリズムと比較して,優れた性能を示す。

Estimating the number of clusters and cluster structures in unlabeled, complex, and high-dimensional datasets (like images) is challenging for traditional clustering algorithms. In recent years, a matrix reordering-based algorithm called Visual Assessment of Tendency (VAT), and its variants have attracted many researchers from various domains to estimate the number of clusters and inherent cluster structure present in the data. However, these algorithms face significant challenges when dealing with image data as they fail to effectively capture the crucial features inherent in images. To overcome these limitations, we propose a deep-learning-based framework that enables the assessment of cluster structure in complex image datasets. Our approach utilizes a self-supervised deep neural network to generate representative embeddings for the data. These embeddings are then reduced to 2-dimension using t-distributed Stochastic Neighbour Embedding (t-SNE) and inputted into VAT based algorithms to estimate the underlying cluster structure. Importantly, our framework does not rely on any prior knowledge of the number of clusters. Our proposed approach demonstrates superior performance compared to state-of-the-art VAT family algorithms and two other deep clustering algorithms on four benchmark image datasets, namely MNIST, FMNIST, CIFAR-10, and INTEL.
翻訳日:2023-08-01 20:52:33 公開日:2023-07-31
# 近接飛行のためのso(2)同変ダウンウォッシュモデル

SO(2)-Equivariant Downwash Models for Close Proximity Flight ( http://arxiv.org/abs/2305.18983v2 )

ライセンス: Link先を確認
H. Smith, A. Shankar, J. Gielis, J. Blumenkamp, A. Prorok(参考訳) 近接飛行するマルチローターはプロペラダウンウォッシュを介して互いに空力覚醒効果を誘導する。 従来の手法では、密集層を展開するための堅牢な制御パラダイムに組み込むことのできる、適切な3D力ベースのモデルを提供しられなかった。 したがって、これらのダウンウォッシュパターンのモデルを学ぶことは魅力的な解決策となる。 本稿では,この問題に現れる潜伏するジオメトリ(すなわち対称性)を利用した,降水力のモデル化のための新しい学習ベースアプローチを提案する。 実世界のフライトデータをわずか5分でトレーニングした場合、我々の幾何学的認識モデルは15分以上のデータでトレーニングされた最先端のベースラインモデルよりも優れています。 2台の車両で密集した現実世界の飛行では、私たちのモデルをオンラインで展開することで、3dトラック追跡を平均36%改善します(垂直追跡は56%)。

Multirotors flying in close proximity induce aerodynamic wake effects on each other through propeller downwash. Conventional methods have fallen short of providing adequate 3D force-based models that can be incorporated into robust control paradigms for deploying dense formations. Thus, learning a model for these downwash patterns presents an attractive solution. In this paper, we present a novel learning-based approach for modelling the downwash forces that exploits the latent geometries (i.e. symmetries) present in the problem. We demonstrate that when trained with only 5 minutes of real-world flight data, our geometry-aware model outperforms state-of-the-art baseline models trained with more than 15 minutes of data. In dense real-world flights with two vehicles, deploying our model online improves 3D trajectory tracking by nearly 36% on average (and vertical tracking by 56%).
翻訳日:2023-08-01 20:52:09 公開日:2023-07-31
# 忘れられた知識:NLPにおける鎮静覚醒の検討

Forgotten Knowledge: Examining the Citational Amnesia in NLP ( http://arxiv.org/abs/2305.18554v2 )

ライセンス: Link先を確認
Janvijay Singh, Mukund Rungta, Diyi Yang, Saif M. Mohammad(参考訳) 論文の引用は、現代の科学的著作が過去の作品に基づいて論じ、構築する主要な方法である。 集合的に、多種多様な論文(時間と研究領域)を引用することは、コミュニティがいかに広く読んでいるかを示す指標である。 しかし、引用の幅広い時間的パターンを考察する作業はほとんどない。 この作業は体系的かつ経験的に、次のように検証する。 時間の中で、論文を引用する傾向はどれくらいありますか? それは時間とともにどのように変化し、どの要因がこの引用的注意/記憶と相関するか? 我々は、NLPを我々の関心領域として選び、約71.5Kの論文を分析して、引用におけるいくつかの重要な傾向を示し、定量化した。 特に引用された論文の約62%は出版直前の5年前のものであり、わずか17%が10年以上前のものである。 さらに,1990年から2014年にかけて,引用論文の平均年齢と年齢の多様性は着実に増加傾向にあったが,その後傾向が逆転し,現在のNLP論文は時間的引用の多様性が低かった。 最後に、1990年代とは異なり、過去10年間に引用された論文は、最も引用の多様性が低い論文であり、おそらく強い(そしておそらく有害な)傾向に寄与していることを示している。 コード、データ、デモはプロジェクトのホームページで公開されている。

Citing papers is the primary method through which modern scientific writing discusses and builds on past work. Collectively, citing a diverse set of papers (in time and area of study) is an indicator of how widely the community is reading. Yet, there is little work looking at broad temporal patterns of citation. This work systematically and empirically examines: How far back in time do we tend to go to cite papers? How has that changed over time, and what factors correlate with this citational attention/amnesia? We chose NLP as our domain of interest and analyzed approximately 71.5K papers to show and quantify several key trends in citation. Notably, around 62% of cited papers are from the immediate five years prior to publication, whereas only about 17% are more than ten years old. Furthermore, we show that the median age and age diversity of cited papers were steadily increasing from 1990 to 2014, but since then, the trend has reversed, and current NLP papers have an all-time low temporal citation diversity. Finally, we show that unlike the 1990s, the highly cited papers in the last decade were also papers with the least citation diversity, likely contributing to the intense (and arguably harmful) recency focus. Code, data, and a demo are available on the project homepage.
翻訳日:2023-08-01 20:51:39 公開日:2023-07-31
# セマンティック3次元医用画像合成のための条件拡散モデル

Conditional Diffusion Models for Semantic 3D Medical Image Synthesis ( http://arxiv.org/abs/2305.18453v3 )

ライセンス: Link先を確認
Zolnamar Dorjsembe, Hsing-Kuo Pao, Sodtavilan Odonchimed, Furen Xiao(参考訳) 医療における人工知能(AI)の需要は急速に増加している。 しかし、特に医療画像において、データの不足とプライバシー上の懸念から大きな課題が生じる。 既存の生成モデルは、画像合成と画像間翻訳タスクで成功しているが、3Dセマンティック医療画像の生成には差がある。 このギャップに対処するために、データ不足やプライバシー問題に効果的に取り組むために、セマンティック3次元医用画像合成に特化した拡散モデルであるMed-DDPMを導入する。 Med-DDPMの新規性はセマンティックコンディショニングの導入にあり、画像生成プロセス中に正確な制御を可能にする。 我々のモデルでは,GAN(Generative Adversarial Networks)の安定性と性能に優れ,多彩で解剖学的に整合した画像を生成する。 Med-DDPMは, モデル精度を向上させるためのデータ拡張ツールとしての可能性を強調した。 結論として、Med-DDPMは高品質で解剖学的に整合した画像を提供することにより、3Dセマンティックな医用画像合成を開拓した。 さらに、Med-DDPMとセマンティックコンディショニングの統合は、バイオメディカルイメージングの分野で画像匿名化を約束しており、データの不足やプライバシーに関する問題に対処する上で、モデルの能力を示す。 コードとモデルの重み付けはGitHubリポジトリhttps://github.com/mobaidoctor/med-ddpm/で公開されています。

The demand for artificial intelligence (AI) in healthcare is rapidly increasing. However, significant challenges arise from data scarcity and privacy concerns, particularly in medical imaging. While existing generative models have achieved success in image synthesis and image-to-image translation tasks, there remains a gap in the generation of 3D semantic medical images. To address this gap, we introduce Med-DDPM, a diffusion model specifically designed for semantic 3D medical image synthesis, effectively tackling data scarcity and privacy issues. The novelty of Med-DDPM lies in its incorporation of semantic conditioning, enabling precise control during the image generation process. Our model outperforms Generative Adversarial Networks (GANs) in terms of stability and performance, generating diverse and anatomically coherent images with high visual fidelity. Comparative analysis against state-of-the-art augmentation techniques demonstrates that Med-DDPM produces comparable results, highlighting its potential as a data augmentation tool for enhancing model accuracy. In conclusion, Med-DDPM pioneers 3D semantic medical image synthesis by delivering high-quality and anatomically coherent images. Furthermore, the integration of semantic conditioning with Med-DDPM holds promise for image anonymization in the field of biomedical imaging, showcasing the capabilities of the model in addressing challenges related to data scarcity and privacy concerns. Our code and model weights are publicly accessible on our GitHub repository at https://github.com/mobaidoctor/med-ddpm/, facilitating reproducibility.
翻訳日:2023-08-01 20:51:16 公開日:2023-07-31
# enlighten anything: セグメンテーションが低光度画像強調を実現する場合

Enlighten Anything: When Segment Anything Model Meets Low-Light Image Enhancement ( http://arxiv.org/abs/2306.10286v4 )

ライセンス: Link先を確認
Qihan Zhao, Xiaofeng Zhang, Hao Tang, Chaochen Gu, Shanying Zhu(参考訳) 画像復元は低レベルの視覚的タスクであり、ほとんどのCNN手法はブラックボックスとして設計されており、透明性と固有の美学に欠ける。 多くの教師なしのアプローチは、低照度シーンにおける可視情報の劣化を無視しており、これは補完的な情報の集約に深刻な影響を与え、極端な状況下ではフュージョンアルゴリズムが十分に融合結果を生成することができない。 本稿では,SAMセグメンテーションのセグメンテーションの意味的意図を低照度画像に拡張・融合し,視覚的知覚に優れた融合画像を得るエンライエンアリングを提案する。 教師なし学習の一般化能力は大幅に向上し,lolデータセットを用いた実験により,ベースラインよりもpsnrでは3db,ssimでは8dbの改善が確認された。 SAMのゼロショット学習は、教師なし低照度向上のための強力な補助を提供する。 Enlighten Anythingのソースコードはhttps://github.com/zhangbaijin/enlighten-anythingから取得できる。

Image restoration is a low-level visual task, and most CNN methods are designed as black boxes, lacking transparency and intrinsic aesthetics. Many unsupervised approaches ignore the degradation of visible information in low-light scenes, which will seriously affect the aggregation of complementary information and also make the fusion algorithm unable to produce satisfactory fusion results under extreme conditions. In this paper, we propose Enlighten-anything, which is able to enhance and fuse the semantic intent of SAM segmentation with low-light images to obtain fused images with good visual perception. The generalization ability of unsupervised learning is greatly improved, and experiments on LOL dataset are conducted to show that our method improves 3db in PSNR over baseline and 8 in SSIM. Zero-shot learning of SAM introduces a powerful aid for unsupervised low-light enhancement. The source code of Enlighten Anything can be obtained from https://github.com/zhangbaijin/enlighten-anything
翻訳日:2023-08-01 20:44:56 公開日:2023-07-31
# Blocked Cross-Validation:ハイパーパラメータチューニングの高精度かつ効率的な方法

Blocked Cross-Validation: A Precise and Efficient Method for Hyperparameter Tuning ( http://arxiv.org/abs/2306.06591v2 )

ライセンス: Link先を確認
Giovanni Maria Merola(参考訳) ハイパーパラメータチューニングは、予測学習者のパフォーマンスを最適化する上で重要な役割を果たす。 クロスバリデーション(CV)は、異なるハイパーパラメータ設定の誤差を推定する手法として広く採用されている。 繰り返しクロスバリデーション(RCV)はCVエラーのばらつきを軽減するために一般的に用いられている。 本稿では,ブロッククロスバリデーション(BCV)と呼ばれる,CVパーティションと学習者のランダムな振る舞いの両方に対して繰り返しをブロックする手法を提案する。 理論的解析と実証実験により、bcvはrcvよりも正確なエラー推定を提供するが、実行回数は大幅に減少している。 ハイパーパラメータチューニングにおけるbcvの有効性と効率を示すために,実世界のデータセットを用いた広範な例を示す。 以上の結果より, BCV は高パラメータチューニングにおいて RCV よりも優れ, 計算精度が低い。

Hyperparameter tuning plays a crucial role in optimizing the performance of predictive learners. Cross--validation (CV) is a widely adopted technique for estimating the error of different hyperparameter settings. Repeated cross-validation (RCV) has been commonly employed to reduce the variability of CV errors. In this paper, we introduce a novel approach called blocked cross-validation (BCV), where the repetitions are blocked with respect to both CV partition and the random behavior of the learner. Theoretical analysis and empirical experiments demonstrate that BCV provides more precise error estimates compared to RCV, even with a significantly reduced number of runs. We present extensive examples using real--world data sets to showcase the effectiveness and efficiency of BCV in hyperparameter tuning. Our results indicate that BCV outperforms RCV in hyperparameter tuning, achieving greater precision with fewer computations.
翻訳日:2023-08-01 20:43:58 公開日:2023-07-31
# Take the Hint: 部分分類テキストによるアラビア語の発音改善

Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text ( http://arxiv.org/abs/2306.03557v2 )

ライセンス: Link先を確認
Parnia Bahar, Mattia Di Gangi, Nick Rossenbach, Mohammad Zeineldeen(参考訳) 自動アラビア語読解は、言語学習者の読解サポートから、音声合成のような下流タスクの正確な発音予測器まで、多くのアプリケーションで有用である。 以前の研究のほとんどは、生の非発音テキストで動くモデルに焦点を当てていたが、生産システムはまず人間が曖昧な単語に注釈を付けることで精度を上げることができる。 本稿では,入力中の任意のダイアクリティカルスを効果的にサポートし,すべての予測を知らせるマルチソースモデルである2sdiacを提案する。 また,ランダムマスキングのレベルが異なる入力のダイアクリティカルスを活用した学習手法である誘導学習についても紹介する。 テスト中に提供されるヒントは、注釈が付されたものよりも出力位置に影響を及ぼす。 さらに、2つの共通ベンチマーク実験により、我々のアプローチが i)非診断テキストで評価する場合においても,ベースラインを大幅に上回る。 二) パラメータ数を60%以上削減しつつ、最先端の結果を得る。

Automatic Arabic diacritization is useful in many applications, ranging from reading support for language learners to accurate pronunciation predictor for downstream tasks like speech synthesis. While most of the previous works focused on models that operate on raw non-diacritized text, production systems can gain accuracy by first letting humans partly annotate ambiguous words. In this paper, we propose 2SDiac, a multi-source model that can effectively support optional diacritics in input to inform all predictions. We also introduce Guided Learning, a training scheme to leverage given diacritics in input with different levels of random masking. We show that the provided hints during test affect more output positions than those annotated. Moreover, experiments on two common benchmarks show that our approach i) greatly outperforms the baseline also when evaluated on non-diacritized text; and ii) achieves state-of-the-art results while reducing the parameter count by over 60%.
翻訳日:2023-08-01 20:42:32 公開日:2023-07-31
# フィルタの重量分布による精度とロバストさのトレードオフの再検討

Revisiting the Trade-off between Accuracy and Robustness via Weight Distribution of Filters ( http://arxiv.org/abs/2306.03430v3 )

ライセンス: Link先を確認
Xingxing Wei, and Shiji Zhao(参考訳) 敵の攻撃はディープニューラルネットワーク(DNN)の潜在的な脅威であることが証明されており、敵の攻撃に対して多くの方法が提案されている。 しかし、ロバスト性を高める一方で、クリーンな精度はある程度低下し、精度とロバスト性の間にトレードオフがあったことを意味する。 本稿では,まず,同一アーキテクチャのフィルタの重み分布における標準モデルとロバストモデルとの明らかな区別を見出した上で,この現象を勾配正規化の観点から理論的に説明し,この差がdnnに固有の特性であることを示し,静的ネットワークアーキテクチャは,同時に精度と頑健性を向上させることは困難である。 第二に,本研究では,「分割と規則」の重み戦略を用いて,クリーンかつ逆の例を扱うことに焦点を当てた,Adversarial Weight-Varied Network (AW-Net) という動的ネットワークアーキテクチャを提案する。 AW-Netは、入力サンプルに直接影響される対向検出器によって生成された制御信号に基づいて、ネットワークの重みを動的に調整する。 動的ネットワークアーキテクチャの利点は、クリーンで逆の例を異なるネットワーク重みで処理することで、精度と堅牢性を同時に向上する可能性を提供する。 一連の実験により、我々のAW-Netはクリーンな例と敵対的な例の両方を扱うのにアーキテクチャに優しいことが示され、最先端のロバストモデルよりも優れたトレードオフ性能が得られる。

Adversarial attacks have been proven to be potential threats to Deep Neural Networks (DNNs), and many methods are proposed to defend against adversarial attacks. However, while enhancing the robustness, the clean accuracy will decline to a certain extent, implying a trade-off existed between the accuracy and robustness. In this paper, we firstly empirically find an obvious distinction between standard and robust models in the filters' weight distribution of the same architecture, and then theoretically explain this phenomenon in terms of the gradient regularization, which shows this difference is an intrinsic property for DNNs, and thus a static network architecture is difficult to improve the accuracy and robustness at the same time. Secondly, based on this observation, we propose a sample-wise dynamic network architecture named Adversarial Weight-Varied Network (AW-Net), which focuses on dealing with clean and adversarial examples with a ``divide and rule" weight strategy. The AW-Net dynamically adjusts network's weights based on regulation signals generated by an adversarial detector, which is directly influenced by the input sample. Benefiting from the dynamic network architecture, clean and adversarial examples can be processed with different network weights, which provides the potentiality to enhance the accuracy and robustness simultaneously. A series of experiments demonstrate that our AW-Net is architecture-friendly to handle both clean and adversarial examples and can achieve better trade-off performance than state-of-the-art robust models.
翻訳日:2023-08-01 20:42:19 公開日:2023-07-31
# トランスフォーマーはいつRLで輝くのか? クレジット割り当てからメモリを分離する

When Do Transformers Shine in RL? Decoupling Memory from Credit Assignment ( http://arxiv.org/abs/2307.03864v2 )

ライセンス: Link先を確認
Tianwei Ni, Michel Ma, Benjamin Eysenbach, Pierre-Luc Bacon(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは、過去と現在の観察の効果的な表現を学習し、アクションが将来のリターンにどのように影響するかを決定する。 どちらの課題も長期的な依存関係のモデリングを伴う。 トランスフォーマーアーキテクチャは、RLドメインを含む長期依存に関わる問題を解決することに成功している。 しかし、トランスフォーマーベースのrlメソッドの強力なパフォーマンスの根本的な理由は、まだ不明である。 メモリ長とクレジット割り当て長の形式的定義を導入した後、これらの異なる量を測定するための簡単な構成可能なタスクを設計する。 実験の結果、トランスフォーマーはrlアルゴリズムのメモリ容量を増大させ、記憶に残る観察を必要とするタスクまでスケールアップできることがわかった。 しかし、トランスフォーマーは長期クレジット割り当てを改善しない。 まとめると、この結果はRLにおけるトランスフォーマーの成功を説明するとともに、将来の研究とベンチマーク設計における重要な領域を強調している。

Reinforcement learning (RL) algorithms face two distinct challenges: learning effective representations of past and present observations, and determining how actions influence future returns. Both challenges involve modeling long-term dependencies. The transformer architecture has been very successful to solve problems that involve long-term dependencies, including in the RL domain. However, the underlying reason for the strong performance of Transformer-based RL methods remains unclear: is it because they learn effective memory, or because they perform effective credit assignment? After introducing formal definitions of memory length and credit assignment length, we design simple configurable tasks to measure these distinct quantities. Our empirical results reveal that Transformers can enhance the memory capacity of RL algorithms, scaling up to tasks that require memorizing observations $1500$ steps ago. However, Transformers do not improve long-term credit assignment. In summary, our results provide an explanation for the success of Transformers in RL, while also highlighting an important area for future research and benchmark design.
翻訳日:2023-08-01 20:35:12 公開日:2023-07-31
# 中間の損失:言語モデルが長い文脈をどのように使うか

Lost in the Middle: How Language Models Use Long Contexts ( http://arxiv.org/abs/2307.03172v2 )

ライセンス: Link先を確認
Nelson F. Liu and Kevin Lin and John Hewitt and Ashwin Paranjape and Michele Bevilacqua and Fabio Petroni and Percy Liang(参考訳) 最近の言語モデルでは、長いコンテキストを入力として扱うことができるが、より長いコンテキストの使い方についてはあまり知られていない。 入力コンテキスト内の関連情報を識別する必要のある2つのタスクにおける言語モデルのパフォーマンスを分析する。 入力コンテキストの開始時や終了時に関連情報が生じた場合、性能が最も高く、長いコンテキストの途中でモデルが関連する情報にアクセスしなければならない場合、大幅に低下する。 さらに、明示的な長期コンテキストモデルであっても、入力コンテキストが長くなるにつれてパフォーマンスが大幅に低下する。 分析は、言語モデルが入力コンテキストをどのように利用するかをよりよく理解し、将来のロングコンテキストモデルのための新しい評価プロトコルを提供する。

While recent language models have the ability to take long contexts as input, relatively little is known about how well they use longer context. We analyze language model performance on two tasks that require identifying relevant information within their input contexts: multi-document question answering and key-value retrieval. We find that performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts. Furthermore, performance substantially decreases as the input context grows longer, even for explicitly long-context models. Our analysis provides a better understanding of how language models use their input context and provides new evaluation protocols for future long-context models.
翻訳日:2023-08-01 20:34:53 公開日:2023-07-31
# ニューラルネットワークが構成データをどのように学習するか:ランダム階層モデル

How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model ( http://arxiv.org/abs/2307.02129v2 )

ライセンス: Link先を確認
Leonardo Petrini, Francesco Cagnetta, Umberto M. Tomasini, Alessandro Favero, Matthieu Wyart(参考訳) 一般的な高次元タスクの学習は、その次元に指数関数的なトレーニングデータを必要とするため、特に難しい。 しかし、深層畳み込みニューラルネットワーク(CNN)はこの課題を克服することに成功した。 一般的な仮説は、学習可能なタスクは高度に構造化されており、cnnはこの構造を利用してデータの低次元表現を構築している。 しかし、どれだけのトレーニングデータが必要なのか、この数字がデータ構造に依存するのかについては、ほとんど分かっていない。 本稿では、実データの関連する側面を捉えようとする単純な分類タスクであるランダム階層モデルについて、この疑問に答える。 このモデルでは、各$n_c$クラスは高レベル特徴の$m$シノニム構成に対応し、繰り返し$l$を繰り返すプロセスを通じてサブフィーチャで構成されます。 我々は、このタスクを学習するために深層CNNが必要とするトレーニングデータ$P^*$の数が分かる。 i)入力次元の多項式である$n_c m^L$として漸近的に成長する。 (ii) 訓練されたネットワークの表現が同義語の交換に不変となるような訓練セットのサイズと一致する。 (iii)は、低レベル特徴とクラス間の相関が検出可能となるデータ数に対応する。 全体としては,CNNが不変表現を構築することによって次元の呪いを克服できることを示すとともに,その階層的な構成構造に基づいてタスクの学習に必要なデータの数を推定する。

Learning generic high-dimensional tasks is notably hard, as it requires a number of training data exponential in the dimension. Yet, deep convolutional neural networks (CNNs) have shown remarkable success in overcoming this challenge. A popular hypothesis is that learnable tasks are highly structured and that CNNs leverage this structure to build a low-dimensional representation of the data. However, little is known about how much training data they require, and how this number depends on the data structure. This paper answers this question for a simple classification task that seeks to capture relevant aspects of real data: the Random Hierarchy Model. In this model, each of the $n_c$ classes corresponds to $m$ synonymic compositions of high-level features, which are in turn composed of sub-features through an iterative process repeated $L$ times. We find that the number of training data $P^*$ required by deep CNNs to learn this task (i) grows asymptotically as $n_c m^L$, which is only polynomial in the input dimensionality; (ii) coincides with the training set size such that the representation of a trained network becomes invariant to exchanges of synonyms; (iii) corresponds to the number of data at which the correlations between low-level features and classes become detectable. Overall, our results indicate how deep CNNs can overcome the curse of dimensionality by building invariant representations, and provide an estimate of the number of data required to learn a task based on its hierarchically compositional structure.
翻訳日:2023-08-01 20:34:05 公開日:2023-07-31
# ビデオ音声合成のための大規模教師なし音声事前学習

Large-scale unsupervised audio pre-training for video-to-speech synthesis ( http://arxiv.org/abs/2306.15464v2 )

ライセンス: Link先を確認
Triantafyllos Kefalas, Yannis Panagakis, Maja Pantic(参考訳) 音声合成は、話者の無声映像から音声信号を再構成する作業である。 現在確立されているほとんどのアプローチは、2段階のプロセスであり、ビデオからの中間表現であるスペクトログラムが最初に抽出され、次にヴォコーダに渡されて生のオーディオが生成される。 最近の研究は、生音声と任意の中間表現の生成を共同で行うエンドツーエンド合成に焦点を当てている。 これらのアプローチはすべて、ほぼ独占的なオーディオ-視覚データセットのデータ、すなわち、すべてのオーディオサンプルが対応するビデオサンプルを持つデータのトレーニングを含む。 これにより、対応する視覚的モダリティ(例えば、オーディオブック、ラジオポッドキャスト、音声認識データセットなど)を持たない豊富なオーディオのみのデータセットや、オーディオ機械学習コミュニティによって長年開発されてきたオーディオのみのアーキテクチャの使用が妨げられる。 本稿では,24khzで3500時間以上の音声データに対してエンコーダ・デコーダモデルをトレーニングし,事前学習したデコーダを用いて音声デコーダを初期化する手法を提案する。 事前学習ステップは、オーディオサンプルのみを使用し、他のモダリティ(視覚、テキスト)からのラベルや対応するサンプルを必要としない。 我々は,この事前学習段階が再構成された音声を改善し,一方のモダリティからのサンプルを必要とせず,クロスモーダルタスクにおける生成器の品質を向上させるための未熟な方法であることを実証する。 ターゲット出力として生オーディオとメルスペクトログラムの両方を用いて実験を行い、既存の作業でモデルをベンチマークする。

Video-to-speech synthesis is the task of reconstructing the speech signal from a silent video of a speaker. Most established approaches to date involve a two-step process, whereby an intermediate representation from the video, such as a spectrogram, is extracted first and then passed to a vocoder to produce the raw audio. Some recent work has focused on end-to-end synthesis, whereby the generation of raw audio and any intermediate representations is performed jointly. All such approaches involve training on data from almost exclusively audio-visual datasets, i.e. every audio sample has a corresponding video sample. This precludes the use of abundant audio-only datasets which may not have a corresponding visual modality (e.g. audiobooks, radio podcasts, speech recognition datasets etc.), as well as audio-only architectures that have been developed by the audio machine learning community over the years. In this paper we propose to train encoder-decoder models on more than 3,500 hours of audio data at 24kHz, and then use the pre-trained decoders to initialize the audio decoders for the video-to-speech synthesis task. The pre-training step uses audio samples only and does not require labels or corresponding samples from other modalities (visual, text). We demonstrate that this pre-training step improves the reconstructed speech and that it is an unexplored way to improve the quality of the generator in a cross-modal task while only requiring samples from one of the modalities. We conduct experiments using both raw audio and mel spectrograms as target outputs and benchmark our models with existing work.
翻訳日:2023-08-01 20:33:05 公開日:2023-07-31
# 最小kochen-specker問題に対するsatソルバと計算機代数学攻撃

A SAT Solver and Computer Algebra Attack on the Minimum Kochen-Specker Problem ( http://arxiv.org/abs/2306.13319v3 )

ライセンス: Link先を確認
Zhengyu Li, Curtis Bright, Vijay Ganesh(参考訳) 量子基礎の基本的な結果の1つがkochen-specker(ks)定理であり、量子力学と一致する予測を持つ理論は文脈的、すなわち量子観測は既存の値を明らかにするものとしては理解できないと述べる。 この定理はKSベクトル系と呼ばれる数学的対象の存在に基づいている。 多くのKSベクトル系が知られているが、最小のKSベクトル系を3次元で見つけるという問題は55年以上も頑固に開き続けている。 本稿では,この問題を解決するために,ブール充足可能性 (SAT) と計算機代数システム (CAS) を組み合わせた新しい手法を提案する。 本手法は,3次元のks系が少なくとも24ベクトルを含む必要があることを示す。 SAT+CAS法は従来のCAS検索よりも22ベクトルの既知下界の導出において35,000倍高速である。 さらに重要なことは、SATソルバやCASを信頼せずに結果を検証できる証明書を生成します。 この効率の向上は、SATソルバの強力な組合せ探索学習能力と、CASをベースとしたグラフを秩序に生成するイソモルフィックフリーの徹底的な方法を利用することができるという事実による。 我々の研究は、量子基礎の領域における問題に対するSAT+CAS法の第一の応用であり、コンピュータで検証可能な証明証明を持つ最小コチェン=スペーカー問題における第一の下位境界である。

One of the fundamental results in quantum foundations is the Kochen-Specker (KS) theorem, which states that any theory whose predictions agree with quantum mechanics must be contextual, i.e., a quantum observation cannot be understood as revealing a pre-existing value. The theorem hinges on the existence of a mathematical object called a KS vector system. While many KS vector systems are known, the problem of finding the minimum KS vector system in three dimensions has remained stubbornly open for over 55 years. In this paper, we present a new method based on a combination of a Boolean satisfiability (SAT) solver and a computer algebra system (CAS) to address this problem. Our approach shows that a KS system in three dimensions must contain at least 24 vectors. Our SAT+CAS method is over 35,000 times faster at deriving the previously known lower bound of 22 vectors than the prior CAS-based searches. More importantly, we generate certificates that allow verifying our results without trusting either the SAT solver or the CAS. The increase in efficiency is due to the fact we are able to exploit the powerful combinatorial search-with-learning capabilities of SAT solvers, together with the CAS-based isomorph-free exhaustive method of orderly generation of graphs. To the best of our knowledge, our work is the first application of a SAT+CAS method to a problem in the realm of quantum foundations and the first lower bound in the minimum Kochen-Specker problem with a computer-verifiable proof certificate.
翻訳日:2023-08-01 20:31:57 公開日:2023-07-31
# ローカルを超越:グローバルグラフによるパーソナライズされたニュースレコメンデーション

Going Beyond Local: Global Graph-Enhanced Personalized News Recommendations ( http://arxiv.org/abs/2307.06576v4 )

ライセンス: Link先を確認
Boming Yang, Dairui Liu, Toyotaro Suzumura, Ruihai Dong, Irene Li(参考訳) 候補ニュース記事をユーザに正確に推薦することは、パーソナライズされたニュースレコメンデーションシステムにとって、常に重要な課題だった。 最近の研究は主に、現地の歴史的ニュースから派生したコンテンツに基づく手法を用いて、リッチテキストデータから意味情報を抽出する高度な自然言語処理技術に焦点を当てている。 しかし、このアプローチはグローバルな視点に欠けており、セマンティック情報を超えたユーザの隠されたモチベーションや振る舞いを説明できない。 そこで本研究では,他のユーザから学習したグローバル表現とローカル表現を組み合わせることで,パーソナライズドレコメンデーションシステムを強化する,gloly(グローバルローカルニュースレコメンデーションシステム)という新しいモデルを提案する。 我々は,グローバルニュースグラフを含むグローバルな歴史ニュースエンコーダを構築し,ゲートグラフニューラルネットワークを用いてニュース表現を充実させ,歴史的ニュースアグリゲータによる歴史的ニュース表現を融合させることにより,これを実現する。 同様に、グローバルエンティティグラフと候補ニュースアグリゲータを利用して、このアプローチをグローバル候補ニュースエンコーダにも拡張し、候補ニュース表現を強化します。 2つの公開ニュースデータセットの評価結果は,提案手法が既存手法より優れていることを示す。 さらに,より多様なレコメンデーションを提供する。

Precisely recommending candidate news articles to users has always been a core challenge for personalized news recommendation systems. Most recent works primarily focus on using advanced natural language processing techniques to extract semantic information from rich textual data, employing content-based methods derived from local historical news. However, this approach lacks a global perspective, failing to account for users' hidden motivations and behaviors beyond semantic information. To address this challenge, we propose a novel model called GLORY (Global-LOcal news Recommendation sYstem), which combines global representations learned from other users with local representations to enhance personalized recommendation systems. We accomplish this by constructing a Global-aware Historical News Encoder, which includes a global news graph and employs gated graph neural networks to enrich news representations, thereby fusing historical news representations by a historical news aggregator. Similarly, we extend this approach to a Global Candidate News Encoder, utilizing a global entity graph and a candidate news aggregator to enhance candidate news representation. Evaluation results on two public news datasets demonstrate that our method outperforms existing approaches. Furthermore, our model offers more diverse recommendations.
翻訳日:2023-08-01 20:25:36 公開日:2023-07-31
# 病状進行クラスタリングのための深層埋め込みの解釈

Interpreting deep embeddings for disease progression clustering ( http://arxiv.org/abs/2307.06060v2 )

ライセンス: Link先を確認
Anna Munoz-Farre, Antonios Poulakakis-Daktylidis, Dilini Mahesha Kothalawala, Andrea Rodriguez-Martinez(参考訳) 本稿では,患者クラスタリングにおける深層埋め込みの解釈手法を提案する。 本研究は,英国バイオバンクの2型糖尿病患者のデータセットに対するアプローチを評価し,疾患進行パターンに関する臨床的意義を示す。

We propose a novel approach for interpreting deep embeddings in the context of patient clustering. We evaluate our approach on a dataset of participants with type 2 diabetes from the UK Biobank, and demonstrate clinically meaningful insights into disease progression patterns.
翻訳日:2023-08-01 20:24:42 公開日:2023-07-31
# 熱量計高速シミュレーションのためのポイントクラウドとイメージベースモデルの比較

Comparison of Point Cloud and Image-based Models for Calorimeter Fast Simulation ( http://arxiv.org/abs/2307.04780v2 )

ライセンス: Link先を確認
Fernando Torales Acosta, Vinicius Mikuni, Benjamin Nachman, Miguel Arratia, Bishnu Karki, Ryan Milton, Piyush Karande, and Aaron Angerami(参考訳) スコアベース生成モデル(英: score based generative models)は、高次元のカロリメータデータセットを正確に生成する新しい生成モデルである。 最近の生成モデルでは、複雑なカロリメータシャワーの表現とモデル化に3dボクセルを用いた画像が使われている。 しかし、ポイント雲は、特に粒度の高いカロリメータにおいて、カロリメータシャワーのより自然な表現である可能性が高い。 ポイントクラウドは、元のシミュレーションの全ての情報を保存し、スパースデータセットをより自然に扱い、よりコンパクトなモデルとデータファイルで実装できる。 本研究では,同一のカロリメータシミュレーションに基づいて2つの最先端スコアベースモデルを訓練し,直接比較する。

Score based generative models are a new class of generative models that have been shown to accurately generate high dimensional calorimeter datasets. Recent advances in generative models have used images with 3D voxels to represent and model complex calorimeter showers. Point clouds, however, are likely a more natural representation of calorimeter showers, particularly in calorimeters with high granularity. Point clouds preserve all of the information of the original simulation, more naturally deal with sparse datasets, and can be implemented with more compact models and data files. In this work, two state-of-the-art score based models are trained on the same set of calorimeter simulation and directly compared.
翻訳日:2023-08-01 20:24:20 公開日:2023-07-31
# Solvent: タンパク質のフォールディングのためのフレームワーク

Solvent: A Framework for Protein Folding ( http://arxiv.org/abs/2307.04603v5 )

ライセンス: Link先を確認
Jaemyung Lee, Kyeongtak Han, Jaehoon Kim, Hasun Yu, Youhan Lee(参考訳) ai研究を行うには一貫性と信頼性が不可欠である。 オブジェクト検出のような多くの有名な研究分野は、堅固なベンチマークフレームワークで比較、検証されている。 AlphaFold2の後、タンパク質の折り畳みタスクは新しい段階に入り、AlphaFold2の構成要素に基づいて多くの方法が提案されている。 タンパク質折り畳みにおける統一的な研究フレームワークの重要性は、様々なアプローチを一貫して比較するための実装とベンチマークを含んでいる。 これを実現するために、Solventは、既製のインターフェイスのように最先端モデルの重要なコンポーネントをサポートするタンパク質折り畳みフレームワークである。Solventは、統一コードベースに実装された異なるモデルを含み、同じデータセット上で定義されたモデルのトレーニングと評価をサポートする。 我々は、よく知られたアルゴリズムとそのコンポーネントをベンチマークし、タンパク質構造モデリング分野に関する有益な洞察を与える実験を提供する。 我々はSolventが提案したモデルの信頼性と一貫性を高め、速度とコストの両面で効率を向上し、タンパク質の折り畳みモデル研究の加速を期待する。 コードはhttps://github.com/kakaobrain/solventで入手できる。

Consistency and reliability are crucial for conducting AI research. Many famous research fields, such as object detection, have been compared and validated with solid benchmark frameworks. After AlphaFold2, the protein folding task has entered a new phase, and many methods are proposed based on the component of AlphaFold2. The importance of a unified research framework in protein folding contains implementations and benchmarks to consistently and fairly compare various approaches. To achieve this, we present Solvent, a protein folding framework that supports significant components of state-of-the-art models in the manner of an off-the-shelf interface Solvent contains different models implemented in a unified codebase and supports training and evaluation for defined models on the same dataset. We benchmark well-known algorithms and their components and provide experiments that give helpful insights into the protein structure modeling field. We hope that Solvent will increase the reliability and consistency of proposed models and give efficiency in both speed and costs, resulting in acceleration on protein folding modeling research. The code is available at https://github.com/kakaobrain/solvent, and the project will continue to be developed.
翻訳日:2023-08-01 20:23:33 公開日:2023-07-31
# 低位励振抑制スパイクネットワークにおける潜在境界を持つ非線形関数の近似

Approximating nonlinear functions with latent boundaries in low-rank excitatory-inhibitory spiking networks ( http://arxiv.org/abs/2307.09334v2 )

ライセンス: Link先を確認
William F. Podlaski, Christian K. Machens(参考訳) ディープフィードフォワードとリカレントレートに基づくニューラルネットワークは脳の機能モデルとして成功しているが、スパイクやデールの法則のような明確な生物学的詳細は無視されている。 ここでは、実際の神経回路の動作を理解するために、これらの詳細が重要であると論じる。 この目的に向けて, スパイクベース計算のための新しいフレームワークを低ランク励振抑制スパイクネットワークに導入した。 ランク1接続性を持つ個体群を考慮し、低次元入力出力空間における各ニューロンのスパイク閾値を境界とした。 次に, この空間において抑制ニューロン集団の閾値が安定な境界を形成し, 興奮ニューロン集団の閾値が不安定な境界を形成することを示す。 2つの境界を組み合わせれば、2つの境界の交点における抑制安定化力学を持つランク2励起阻止(EI)ネットワークが得られる。 得られたネットワークの計算は、2つの凸関数の差分として理解することができ、任意の非線形入力出力マッピングを近似することができる。 ノイズ抑制と増幅,不規則な活動とシナプスバランス,境界がソフトになる限界におけるレートネットワークのダイナミクスとの関連など,これらのネットワークのいくつかの特性を実証する。 最後に、我々の研究は、小さなネットワーク(5-50ニューロン)に焦点を当てていますが、もっと大きなネットワークにスケールアップするための潜在的な方法について議論します。 全体として,生体スパイクに基づく計算を機械的に理解するための出発点となるスパイクネットワークに対する新たな視点を提案する。

Deep feedforward and recurrent rate-based neural networks have become successful functional models of the brain, but they neglect obvious biological details such as spikes and Dale's law. Here we argue that these details are crucial in order to understand how real neural circuits operate. Towards this aim, we put forth a new framework for spike-based computation in low-rank excitatory-inhibitory spiking networks. By considering populations with rank-1 connectivity, we cast each neuron's spiking threshold as a boundary in a low-dimensional input-output space. We then show how the combined thresholds of a population of inhibitory neurons form a stable boundary in this space, and those of a population of excitatory neurons form an unstable boundary. Combining the two boundaries results in a rank-2 excitatory-inhibitory (EI) network with inhibition-stabilized dynamics at the intersection of the two boundaries. The computation of the resulting networks can be understood as the difference of two convex functions, and is thereby capable of approximating arbitrary non-linear input-output mappings. We demonstrate several properties of these networks, including noise suppression and amplification, irregular activity and synaptic balance, as well as how they relate to rate network dynamics in the limit that the boundary becomes soft. Finally, while our work focuses on small networks (5-50 neurons), we discuss potential avenues for scaling up to much larger networks. Overall, our work proposes a new perspective on spiking networks that may serve as a starting point for a mechanistic understanding of biological spike-based computation.
翻訳日:2023-08-01 20:15:07 公開日:2023-07-31
# 異種輸送プルーニング

Differentiable Transportation Pruning ( http://arxiv.org/abs/2307.08483v2 )

ライセンス: Link先を確認
Yunqiang Li, Jan C. van Gemert, Torsten Hoefler, Bert Moons, Evangelos Eleftheriou, Bram-Ernst Verhoef(参考訳) ディープラーニングアルゴリズムは、エッジでますます採用されている。 しかし、エッジデバイスはリソースに制約があり、ディープニューラルネットワークの効率的な展開が必要である。 プルーニングメソッドは、ストレージ、計算、メモリ帯域幅、エネルギー使用量を改善するため、エッジデプロイメントのキーとなるツールである。 本稿では,出力ネットワークサイズを高精度に制御可能な高精度プルーニング手法を提案する。 本手法では,エンド・ツー・エンドの微分を可能とし,アルゴリズムの探索・探索挙動を自動的に調整し,正確なスパースサブネットワークを求める効率的な最適輸送方式を用いる。 提案手法は,従来の3つの異なるデータセットにおけるプルーニング法と比較して,幅広いプルーニング比で5つの異なるモデルを用いて,2種類のスパルシティ予算とプルーニング粒度を用いて,最先端の性能を実現する。

Deep learning algorithms are increasingly employed at the edge. However, edge devices are resource constrained and thus require efficient deployment of deep neural networks. Pruning methods are a key tool for edge deployment as they can improve storage, compute, memory bandwidth, and energy usage. In this paper we propose a novel accurate pruning technique that allows precise control over the output network size. Our method uses an efficient optimal transportation scheme which we make end-to-end differentiable and which automatically tunes the exploration-exploitation behavior of the algorithm to find accurate sparse sub-networks. We show that our method achieves state-of-the-art performance compared to previous pruning methods on 3 different datasets, using 5 different models, across a wide range of pruning ratios, and with two types of sparsity budgets and pruning granularities.
翻訳日:2023-08-01 20:13:44 公開日:2023-07-31
# DeepIPCv2:LiDARによる自動運転車のロバスト環境認識とナビゲーション制御

DeepIPCv2: LiDAR-powered Robust Environmental Perception and Navigational Control for Autonomous Vehicle ( http://arxiv.org/abs/2307.06647v2 )

ライセンス: Link先を確認
Oskar Natan, Jun Miura(参考訳) 本研究では,lidarセンサを用いて環境を認識可能な運転モデルであるdeepipcv2を提案する。 DeepIPCv2は、LiDAR点雲の集合を主知覚入力とする。 点雲は照明の変化に影響されないため、どのような状態であっても周囲をはっきりと観察することができる。 これにより、ナビゲーション制御を適切に推定するコントローラモジュールをサポートするために、知覚モジュールによって提供されるシーン理解と安定した機能が改善される。 その性能を評価するために,運転記録のセットを予測し,3つの異なる条件下で実際の自動運転を行うことで,複数のテストを行った。 また,最近のモデルを用いてアブレーションと比較研究を行い,その性能を正当化する。 実験結果に基づき、deepipcv2は全ての運転シナリオにおいて最高のドレイバビリティを達成し、堅牢な性能を示す。 さらに、コードをhttps://github.com/oskarnatan/DeepIPCv2にアップロードします。

We present DeepIPCv2, an autonomous driving model that perceives the environment using a LiDAR sensor for more robust drivability, especially when driving under poor illumination conditions where everything is not clearly visible. DeepIPCv2 takes a set of LiDAR point clouds as the main perception input. Since point clouds are not affected by illumination changes, they can provide a clear observation of the surroundings no matter what the condition is. This results in a better scene understanding and stable features provided by the perception module to support the controller module in estimating navigational control properly. To evaluate its performance, we conduct several tests by deploying the model to predict a set of driving records and perform real automated driving under three different conditions. We also conduct ablation and comparative studies with some recent models to justify its performance. Based on the experimental results, DeepIPCv2 shows a robust performance by achieving the best drivability in all driving scenarios. Furthermore, we will upload the codes to https://github.com/oskarnatan/DeepIPCv2.
翻訳日:2023-08-01 20:12:05 公開日:2023-07-31
# 財務における感情分析へのQNLPの適用

Applying QNLP to sentiment analysis in finance ( http://arxiv.org/abs/2307.11788v2 )

ライセンス: Link先を確認
Jonas Stein, Ivo Christ, Nicolas Kraus, Maximilian Balthasar Mansky, Robert M\"uller, Claudia Linnhoff-Popien(参考訳) わずかな質的な改善が大きな価値をもたらすアプリケーション領域として、金融は早期の量子優位の候補となる。 量子自然言語処理(QNLP)の急速に進歩する分野に着目し、金融における感情分析の問題に対する2つの中心的アプローチであるDisCoCatとQuantum-Enhanced Long Short-Term Memory(QLSTM)の実用性について検討する。 新たなChatGPTベースのデータ生成手法を用いることで、1000以上の現実的な文でケーススタディを行い、QLSTMはDisCoCatよりも大幅に高速にトレーニングでき、また、利用可能なソフトウェア実装の古典的な結果に近い結果が得られることを発見した。

As an application domain where the slightest qualitative improvements can yield immense value, finance is a promising candidate for early quantum advantage. Focusing on the rapidly advancing field of Quantum Natural Language Processing (QNLP), we explore the practical applicability of the two central approaches DisCoCat and Quantum-Enhanced Long Short-Term Memory (QLSTM) to the problem of sentiment analysis in finance. Utilizing a novel ChatGPT-based data generation approach, we conduct a case study with more than 1000 realistic sentences and find that QLSTMs can be trained substantially faster than DisCoCat while also achieving close to classical results for their available software implementations.
翻訳日:2023-08-01 20:05:40 公開日:2023-07-31
# グローバルとローカルのフィデリティが等しい場合の必要十分条件

The necessary and sufficient conditions when global and local fidelities are equal ( http://arxiv.org/abs/2307.11310v2 )

ライセンス: Link先を確認
Seong-Kun Kim, Yonghae Lee(参考訳) 量子情報理論の分野では、2つの量子状態間の類似性を定量化するために量子忠実性の概念が用いられる。 2部量子系の$A \otimes B$を記述する2つの状態間の忠実度は常に、サブシステム$A$のみの状態間の量子忠実度よりも小さいか等しいことが観察されている。 この忠実不等式はよく理解されているが、不等式が等式となる条件を決定することは未解決の問題である。 本稿では, 純量子状態を考慮した二成分系 $a \otimes b$ とサブシステム $a$ の等価性に必要な十分条件を提案する。 さらに、得られた結果に基づいて、忠実度平等を満たす量子状態の明示的な表現を提供する。

In the field of quantum information theory, the concept of quantum fidelity is employed to quantify the similarity between two quantum states. It has been observed that the fidelity between two states describing a bipartite quantum system $A \otimes B$ is always less than or equal to the quantum fidelity between the states in subsystem $A$ alone. While this fidelity inequality is well understood, determining the conditions under which the inequality becomes an equality remains an open question. In this paper, we present the necessary and sufficient conditions for the equality of fidelities between a bipartite system $A \otimes B$ and subsystem $A$, considering pure quantum states. Moreover, we provide explicit representations of quantum states that satisfy the fidelity equality, based on our derived results.
翻訳日:2023-08-01 20:05:13 公開日:2023-07-31
# l-eval:long context language modelの標準化評価

L-Eval: Instituting Standardized Evaluation for Long Context Language Models ( http://arxiv.org/abs/2307.11088v2 )

ライセンス: Link先を確認
Chenxin An, Shansan Gong, Ming Zhong, Mukai Li, Jun Zhang, Lingpeng Kong, and Xipeng Qiu(参考訳) 近年、単ターンの長い入力(例えば論文の要約)やより広範な歴史との会話を効果的に処理するために、命令追従モデルのコンテキストの長さを拡張することへの関心が高まっている。 GPT-4やClaudeのようなプロプライエタリなモデルは極めて長い入力を扱う上で大きな進歩を見せているが、オープンソースモデルは実験の初期段階にある。 文脈の拡張が、検索のような従来の手法よりも大幅に向上するかどうか、また、実際の下流タスクにおける通常の手法よりもどの程度改善されるのかは、まだ不明である。 本稿では,この課題に対処するために,長文言語モデルの標準化評価手法を提案する。 具体的には,L-Evalの長文411件と,法律,財務,学校講義,長文の会話,ニュース,長文の小説,会議などを含む2,000件以上の人文ラベルによる質問応答ペアを開発した。 L-Evalは様々な評価手法や命令スタイルを採用しており、Long Context Language Models (LCLM) の信頼性を高めている。 調査の結果,オープンソースモデルは一般的に商用モデルに遅れを取っているが,通常のバージョンに比べて優れた性能を示した。 LLaMA2-13Bは、オープンエンドタスク(Win \textbf{42}\% vs Turbo-16k-0613)と4kコンテキスト長のクローズドエンドタスクの両方で最高の結果を得る。 オープンソースLCLM, GPT4-32k, Cluade-100k at {\url{https://github.com/OpenLMLab/LEval}} の予測を含む,新たな評価スイート,コード,およびすべての生成結果をリリースする。

Recently, there has been growing interest in extending the context length of instruction-following models in order to effectively process single-turn long input (e.g. summarizing a paper) and conversations with more extensive histories. While proprietary models such as GPT-4 and Claude have shown significant strides in handling extremely lengthy input, open-sourced models are still in the early stages of experimentation. It also remains unclear whether extending the context can offer substantial gains over traditional methods such as retrieval, and to what extent it improves upon their regular counterparts in practical downstream tasks. To address this challenge, we propose instituting standardized evaluation for long context language models. Concretely, we develop L-Eval which contains 411 long documents and over 2,000 human-labeled query-response pairs encompassing areas such as law, finance, school lectures, lengthy conversations, news, long-form novels, and meetings. L-Eval also adopts diverse evaluation methods and instruction styles, enabling a more reliable assessment of Long Context Language Models (LCLMs). Our findings indicate that while open-source models typically lag behind commercial models, they still exhibit impressive performance compared with their regular versions. LLaMA2-13B achieves the best results on both open-ended tasks (win \textbf{42}\% vs turbo-16k-0613) and closed-ended tasks with only 4k context length. We release our new evaluation suite, code, and all generation results including predictions from all open-sourced LCLMs, GPT4-32k, Cluade-100k at {\url{https://github.com/OpenLMLab/LEval}}.
翻訳日:2023-08-01 20:04:58 公開日:2023-07-31
# 空間・チャネルを考慮したマルチストリームアーキテクチャによるブラインド画像品質評価

Blind Image Quality Assessment Using Multi-Stream Architecture with Spatial and Channel Attention ( http://arxiv.org/abs/2307.09857v2 )

ライセンス: Link先を確認
Hassan Khalid, Nisar Ahmed(参考訳) BIQA(Blind Image Quality Assessment)は、画像を自動的に評価する重要な研究分野である。 しかし,画像の内容や歪みが変化するため,画像品質評価は依然として難しい課題である。 ほとんどのアルゴリズムは重要な関心領域を強調せずに品質を生成する。 これを解決するために,マルチストリーム空間およびチャネルアテンションに基づくアルゴリズムを提案する。 このアルゴリズムは、2つの異なるバックボーンのハイブリッド特徴を組み合わせて、人間の知覚的評価に高い相関関係を持つより正確な予測を生成し、その後、空間的およびチャネル的注意を伴って、関心領域に高い重みを与える。 4つのレガシ画像品質評価データセットを用いて,提案手法の有効性を検証する。 提案手法の有効性を示すために, 認証および合成歪み画像データベースを用いて, 知覚的前景情報に特に焦点をあてた優れた一般化特性を示す。

BIQA (Blind Image Quality Assessment) is an important field of study that evaluates images automatically. Although significant progress has been made, blind image quality assessment remains a difficult task since images vary in content and distortions. Most algorithms generate quality without emphasizing the important region of interest. In order to solve this, a multi-stream spatial and channel attention-based algorithm is being proposed. This algorithm generates more accurate predictions with a high correlation to human perceptual assessment by combining hybrid features from two different backbones, followed by spatial and channel attention to provide high weights to the region of interest. Four legacy image quality assessment datasets are used to validate the effectiveness of our proposed approach. Authentic and synthetic distortion image databases are used to demonstrate the effectiveness of the proposed method, and we show that it has excellent generalization properties with a particular focus on the perceptual foreground information.
翻訳日:2023-08-01 20:03:53 公開日:2023-07-31
# 定量的双極性議論フレームワークにおける議論帰属説明(技術報告)

Argument Attribution Explanations in Quantitative Bipolar Argumentation Frameworks (Technical Report) ( http://arxiv.org/abs/2307.13582v2 )

ライセンス: Link先を確認
Xiang Yin, Nico Potyka, Francesca Toni(参考訳) 議論的説明可能なaiは近年、議論フレームワーク(afs)の推論結果を説明することへの関心が高まっている。 拡張的セマンティクスの精神における議論・論議・対話によるAFの推論結果について質的に説明する研究がかなりあるが、段階的セマンティクスの下でのAFの定量的推論結果は、アプリケーションで広く使われているにもかかわらず、あまり注目されていない。 本稿では,このギャップを埋めることに寄与し,AAE(Argument Attribution Explanations)の新たな理論を,定量的なバイポーラ調停フレームワーク(QBAF)の文脈に機械学習の特徴属性の精神を取り入れることで提案する。 我々はAAEsの望ましい性質について研究し、その中には新しいものや文献から我々の設定に部分的に適応したものもある。 本研究は,偽ニュース検出と映画のレコメンデータシステムに関する2つのケーススタディを実施し,本手法の有効性を実証する。

Argumentative explainable AI has been advocated by several in recent years, with an increasing interest on explaining the reasoning outcomes of Argumentation Frameworks (AFs). While there is a considerable body of research on qualitatively explaining the reasoning outcomes of AFs with debates/disputes/dialogues in the spirit of extension-based semantics, explaining the quantitative reasoning outcomes of AFs under gradual semantics has not received much attention, despite widespread use in applications. In this paper, we contribute to filling this gap by proposing a novel theory of Argument Attribution Explanations (AAEs) by incorporating the spirit of feature attribution from machine learning in the context of Quantitative Bipolar Argumentation Frameworks (QBAFs): whereas feature attribution is used to determine the influence of features towards outputs of machine learning models, AAEs are used to determine the influence of arguments towards topic arguments of interest. We study desirable properties of AAEs, including some new ones and some partially adapted from the literature to our setting. To demonstrate the applicability of our AAEs in practice, we conclude by carrying out two case studies in the scenarios of fake news detection and movie recommender systems.
翻訳日:2023-08-01 19:55:14 公開日:2023-07-31
# XDLM:機械翻訳のための言語間拡散言語モデル

XDLM: Cross-lingual Diffusion Language Model for Machine Translation ( http://arxiv.org/abs/2307.13560v2 )

ライセンス: Link先を確認
Linyao Chen, Aosong Feng, Boming Yang, Zihui Li(参考訳) 近年、拡散モデルは画像生成に優れており、制御可能なテキスト生成のためのニューラル言語処理(NLP)にも適用されている。 しかし、言語間セッティングにおける拡散モデルの応用は明らかにされていない。 さらに、拡散モデルによる事前訓練は単一の言語で研究されているが、言語間事前訓練の可能性はまだ検討されていない。 これらのギャップに対処するために,機械翻訳のための新しい言語間拡散モデルであるxdlmを提案する。 事前学習段階では、異なる言語間のマッピングを習得するための新たな学習目標であるTLDMを提案し、微調整段階では、事前学習モデルに基づいて翻訳システムを構築する。 いくつかの機械翻訳ベンチマークで結果を評価し,拡散ベースラインとトランスフォーマーベースラインを比較検討した。

Recently, diffusion models have excelled in image generation tasks and have also been applied to neural language processing (NLP) for controllable text generation. However, the application of diffusion models in a cross-lingual setting is less unexplored. Additionally, while pretraining with diffusion models has been studied within a single language, the potential of cross-lingual pretraining remains understudied. To address these gaps, we propose XDLM, a novel Cross-lingual diffusion model for machine translation, consisting of pretraining and fine-tuning stages. In the pretraining stage, we propose TLDM, a new training objective for mastering the mapping between different languages; in the fine-tuning stage, we build up the translation system based on the pretrained model. We evaluate the result on several machine translation benchmarks and outperformed both diffusion and Transformer baselines.
翻訳日:2023-08-01 19:54:51 公開日:2023-07-31
# Pairwise Image Comparisons を用いた安全を考慮したスコーリングサイクル環境

Scoring Cycling Environments Perceived Safety using Pairwise Image Comparisons ( http://arxiv.org/abs/2307.13397v2 )

ライセンス: Link先を確認
Miguel Costa, Manuel Marques, Felix Wilhelm Siebert, Carlos Lima Azevedo, Filipe Moura(参考訳) 今日、多くの都市はより持続可能な交通システムへの転換を目指している。 この移行は、トランジットへの1マイルとラストマイルのリンクを含む、短い旅行のために重要である。 しかし、サイクリングを安全でないと認識すれば、他の交通手段は選ばない。 本研究では, サイクリング安全の認識がどのように分析され, 理解され, 構築された環境やサイクリングコンテキストがこれらの知覚に与える影響を明らかにするための新しいアプローチを提案する。 私たちは、現実世界の画像を用いて、他の知覚研究やペア比較に基づいて、回答者を調査します。 繰り返し、回答者に2つの道路環境を示し、サイクリングにとってより安全なものを選ぶよう依頼する。 我々は,自転車環境をペア比較から評価し,安全・安全と認識される自転車環境を分類するいくつかの手法を比較した。 都市計画はこのスコアを利用して介入の有効性を高め、サイクリング促進キャンペーンを改善することができる。 さらに、このアプローチは、サイクリング環境の変化を継続的に評価し、測定の短期的評価を可能にし、異なる場所や状況に効率的に展開する。

Today, many cities seek to transition to more sustainable transportation systems. Cycling is critical in this transition for shorter trips, including first-and-last-mile links to transit. Yet, if individuals perceive cycling as unsafe, they will not cycle and choose other transportation modes. This study presents a novel approach to identifying how the perception of cycling safety can be analyzed and understood and the impact of the built environment and cycling contexts on such perceptions. We base our work on other perception studies and pairwise comparisons, using real-world images to survey respondents. We repeatedly show respondents two road environments and ask them to select the one they perceive as safer for cycling. We compare several methods capable of rating cycling environments from pairwise comparisons and classify cycling environments perceived as safe or unsafe. Urban planning can use this score to improve interventions' effectiveness and improve cycling promotion campaigns. Furthermore, this approach facilitates the continuous assessment of changing cycling environments, allows for a short-term evaluation of measures, and is efficiently deployed in different locations or contexts.
翻訳日:2023-08-01 19:54:39 公開日:2023-07-31
# 反復最適化による高速フルフレーム映像安定化

Fast Full-frame Video Stabilization with Iterative Optimization ( http://arxiv.org/abs/2307.12774v2 )

ライセンス: Link先を確認
Weiyue Zhao, Xin Li, Zhan Peng, Xianrui Luo, Xinyi Ye, Hao Lu, Zhiguo Cao(参考訳) ビデオ安定化とは、不気味なビデオを視覚的に喜ばしいものにする問題である。 視覚品質と計算速度の間の良いトレードオフをどうやって達成するかという問題は、ビデオの安定化におけるオープンな課題の1つだ。 wobblyフレームとjigsawパズルの類似性に触発されて,ビデオ安定化のための合成データセットを用いた反復最適化に基づく学習手法を提案する。 まず,確率的流れ場に基づく2レベル(粗粒度)安定化アルゴリズムを提案する。 推定光流に付随する信頼マップを用いて、バックプロパゲーションにより共有領域の探索を誘導する。 第2に,分割・分割のアプローチを採り,フルフレームの安定化ビューを描画するための新しいマルチフレーム融合戦略を提案する。 反復最適化手法によってもたらされた重要な新たな洞察は、ビデオ安定化のための非線形マッピングの固定点として対象映像を解釈できるということである。 固定点理論の助けを借りて収束を保証する動き軌跡における不気味さの最小化問題として,ビデオ安定化を定式化する。 計算速度と視覚的品質の観点から,提案手法の優位性を示す実験結果が報告されている。 コードはGitHubで入手できる。

Video stabilization refers to the problem of transforming a shaky video into a visually pleasing one. The question of how to strike a good trade-off between visual quality and computational speed has remained one of the open challenges in video stabilization. Inspired by the analogy between wobbly frames and jigsaw puzzles, we propose an iterative optimization-based learning approach using synthetic datasets for video stabilization, which consists of two interacting submodules: motion trajectory smoothing and full-frame outpainting. First, we develop a two-level (coarse-to-fine) stabilizing algorithm based on the probabilistic flow field. The confidence map associated with the estimated optical flow is exploited to guide the search for shared regions through backpropagation. Second, we take a divide-and-conquer approach and propose a novel multiframe fusion strategy to render full-frame stabilized views. An important new insight brought about by our iterative optimization approach is that the target video can be interpreted as the fixed point of nonlinear mapping for video stabilization. We formulate video stabilization as a problem of minimizing the amount of jerkiness in motion trajectories, which guarantees convergence with the help of fixed-point theory. Extensive experimental results are reported to demonstrate the superiority of the proposed approach in terms of computational speed and visual quality. The code will be available on GitHub.
翻訳日:2023-08-01 19:54:00 公開日:2023-07-31
# 分布外一般化のための位相マッチング

Phase Matching for Out-of-Distribution Generalization ( http://arxiv.org/abs/2307.12622v2 )

ライセンス: Link先を確認
Chengming Hu, Yeqian Du, Rui Wang, Hao Chen(参考訳) 視覚信号の明確な分解法として機能するフーリエ変換は、畳み込みニューラルネットワーク(CNN)の分布外一般化挙動を説明するために用いられる。 従来の研究では、振幅スペクトルは分布シフトによる乱れの影響を受けやすいことが示されている。 一方、位相スペクトルは、堅牢な視覚表現学習に不可欠である高度に構造化された空間情報を保存する。 しかし、相スペクトルの空間的関係は以前の研究では未解明のままである。 本稿では,領域一般化(dg)と周波数成分の関係を明らかにし,位相スペクトルの空間的関係を明らかにすることを目的とする。 具体的には,まず位相スペクトルを半因果因子,振幅スペクトルを非因果因子として解釈するフーリエ型構造因果モデルを提案する。 次に,DG問題に対処するための位相マッチング(PhaMa)を提案する。 本手法は振幅スペクトルの摂動を導入し,位相成分に一致する空間関係を確立する。 提案手法は,複数のベンチマーク実験により,領域一般化および分布外ロバスト性タスクにおける最先端性能を実現することを示す。

The Fourier transform, serving as an explicit decomposition method for visual signals, has been employed to explain the out-of-distribution generalization behaviors of Convolutional Neural Networks (CNNs). Previous studies have indicated that the amplitude spectrum is susceptible to the disturbance caused by distribution shifts. On the other hand, the phase spectrum preserves highly-structured spatial information, which is crucial for robust visual representation learning. However, the spatial relationships of phase spectrum remain unexplored in previous researches. In this paper, we aim to clarify the relationships between Domain Generalization (DG) and the frequency components, and explore the spatial relationships of the phase spectrum. Specifically, we first introduce a Fourier-based structural causal model which interprets the phase spectrum as semi-causal factors and the amplitude spectrum as non-causal factors. Then, we propose Phase Matching (PhaMa) to address DG problems. Our method introduces perturbations on the amplitude spectrum and establishes spatial relationships to match the phase components. Through experiments on multiple benchmarks, we demonstrate that our proposed method achieves state-of-the-art performance in domain generalization and out-of-distribution robustness tasks.
翻訳日:2023-08-01 19:53:38 公開日:2023-07-31
# データセンターにおける検証可能なサステナビリティ

Verifiable Sustainability in Data Centers ( http://arxiv.org/abs/2307.11993v2 )

ライセンス: Link先を確認
Syed Rafiul Hussain, Patrick McDaniel, Anshul Gandhi, Kanad Ghose, Kartik Gopalan, Dongyoon Lee, Yu David Liu, Zhenhua Liu, Shuai Mu and Erez Zadok(参考訳) 持続性は、気候変動と地球を守るために不可欠です。 持続可能性に脅威をもたらす様々なシステムがあるが、データセンターはエネルギー消費と環境への影響が大きいため、特に重要である。 データセンターはますます持続可能になっているが、サステナビリティデータを報告する現在のプラクティスは、単純なグリーンウォッシングによって緩和されることが多い。 この現状を改善するためには、データセンタオペレータが報告したサステナビリティへの影響に関するデータを検証する必要がある。 そのためには、サステナビリティに関するデータが、安全で忘れられない、プライバシ保護の方法で収集、保存、集約、およびメトリクスに変換されることを保証するための、適切なインフラストラクチャが必要となる。 そこで本稿ではまず,このようなインフラストラクチャに関する新たなセキュリティ課題,運用者やユーザへの影響,データセンタなどの業界セグメントの課題に対処するための潜在的なソリューションと研究指針について紹介する。

Sustainability is crucial for combating climate change and protecting our planet. While there are various systems that can pose a threat to sustainability, data centers are particularly significant due to their substantial energy consumption and environmental impact. Although data centers are becoming increasingly accountable to be sustainable, the current practice of reporting sustainability data is often mired with simple green-washing. To improve this status quo, users as well as regulators need to verify the data on the sustainability impact reported by data center operators. To do so, data centers must have appropriate infrastructures in place that provide the guarantee that the data on sustainability is collected, stored, aggregated, and converted to metrics in a secure, unforgeable, and privacy-preserving manner. Therefore, this paper first introduces the new security challenges related to such infrastructure, how it affects operators and users, and potential solutions and research directions for addressing the challenges for data centers and other industry segments.
翻訳日:2023-08-01 19:52:35 公開日:2023-07-31
# 情報ゲインに基づくサブグループ集合探索のための新しいアルゴリズム

A new algorithm for Subgroup Set Discovery based on Information Gain ( http://arxiv.org/abs/2307.15089v2 )

ライセンス: Link先を確認
Daniel G\'omez-Bravo, Aaron Garc\'ia, Guillermo Vigueras, Bel\'en R\'ios, Alejandro Rodr\'iguez-Gonz\'alez(参考訳) パターン発見は、手動で設定したしきい値よりも高い頻度のデータセットに存在するアイテム、サブシーケンス、サブ構造の集合を見つけることを目的とした機械学習技術である。 このプロセスは、データ内の繰り返しパターンや関係を識別し、貴重な洞察と知識抽出を可能にする。 本研究では,情報ゲイン (ig) とオッズ比 (or) を組み合わせた新しいパターン発見のためのsdアルゴリズムである information gained subgroup discovery (igsd) を提案する。 このアルゴリズムは、各データセットに対するキーパラメータの微調整の必要性、手で設定された単一のパターン検索基準の使用、サブグループ空間探索のための重複しないデータ構造の使用、関連するデータセット変数を修正してパターンを検索できないことなど、最先端のsdアルゴリズムの制限に対処しようとしている。 したがって、IGSDの性能をFSSDとSSD++の2つの最先端SDアルゴリズムと比較する。 11のデータセットをこれらのアルゴリズムを用いて評価する。 また,性能評価のために,標準SD尺度をIG,OR,p値で補完することを提案する。 その結果、fssdおよびssd++アルゴリズムは、考慮されたすべてのデータセットに対するigsdアルゴリズムよりも信頼性の低いパターンと少ないパターンセットを提供することが示された。 さらにIGSDは、FSSDやSSD++よりも優れたOR値を提供しており、パターンとターゲットへの依存度が高い。 さらに、使用するデータセットの1つで得られたパターンは、ドメインの専門家のグループによって検証されている。 したがって、IGSDが提供するパターンは、FSSDやSSD++のアルゴリズムで得られたパターンよりも専門家とよく一致している。 これらの結果は,パターン発見手法としてのIGSDの適合性を実証し,非標準SDメトリクスを組み込むことにより,発見パターンをよりよく評価できることを示唆している。

Pattern discovery is a machine learning technique that aims to find sets of items, subsequences, or substructures that are present in a dataset with a higher frequency value than a manually set threshold. This process helps to identify recurring patterns or relationships within the data, allowing for valuable insights and knowledge extraction. In this work, we propose Information Gained Subgroup Discovery (IGSD), a new SD algorithm for pattern discovery that combines Information Gain (IG) and Odds Ratio (OR) as a multi-criteria for pattern selection. The algorithm tries to tackle some limitations of state-of-the-art SD algorithms like the need for fine-tuning of key parameters for each dataset, usage of a single pattern search criteria set by hand, usage of non-overlapping data structures for subgroup space exploration, and the impossibility to search for patterns by fixing some relevant dataset variables. Thus, we compare the performance of IGSD with two state-of-the-art SD algorithms: FSSD and SSD++. Eleven datasets are assessed using these algorithms. For the performance evaluation, we also propose to complement standard SD measures with IG, OR, and p-value. Obtained results show that FSSD and SSD++ algorithms provide less reliable patterns and reduced sets of patterns than IGSD algorithm for all datasets considered. Additionally, IGSD provides better OR values than FSSD and SSD++, stating a higher dependence between patterns and targets. Moreover, patterns obtained for one of the datasets used, have been validated by a group of domain experts. Thus, patterns provided by IGSD show better agreement with experts than patterns obtained by FSSD and SSD++ algorithms. These results demonstrate the suitability of the IGSD as a method for pattern discovery and suggest that the inclusion of non-standard SD metrics allows to better evaluate discovered patterns.
翻訳日:2023-08-01 19:44:32 公開日:2023-07-31
# コンピュータビジョンタスクにおける因果推論

Causal reasoning in typical computer vision tasks ( http://arxiv.org/abs/2307.13992v2 )

ライセンス: Link先を確認
Kexuan Zhang, Qiyu Sun, Chaoqiang Zhao and Yang Tang(参考訳) ディープラーニングは人工知能の分野に革命をもたらした。 深層学習に基づく手法で明らかになった統計的相関に基づき、コンピュータビジョンは自動運転やロボティクスといった分野において大きな成長をもたらした。 深層学習の基礎であるにもかかわらず、そのような相関関係は安定ではなく、制御されていない要因に影響を受けやすい。 事前知識のガイダンスがないと、統計的相関は容易に素早い相関に変わり、共同設立者を引き起こす。 その結果、研究者は因果理論による深層学習の手法を強化しようとしている。 因果理論は、データバイアスに影響を受けない固有の因果構造をモデル化し、スプリアス相関を避けるのに有効である。 本稿では,セマンティックセグメンテーション,オブジェクト検出,画像キャプションといった視覚・視覚言語タスクにおける既存の因果法を総合的に検討することを目的とした。 因果関係の利点と因果関係のパラダイムを構築するためのアプローチを要約する。 今後のロードマップも提案され、因果理論の開発と他の複雑なシーンやシステムへの応用が促進される。

Deep learning has revolutionized the field of artificial intelligence. Based on the statistical correlations uncovered by deep learning-based methods, computer vision has contributed to tremendous growth in areas like autonomous driving and robotics. Despite being the basis of deep learning, such correlation is not stable and is susceptible to uncontrolled factors. In the absence of the guidance of prior knowledge, statistical correlations can easily turn into spurious correlations and cause confounders. As a result, researchers are now trying to enhance deep learning methods with causal theory. Causal theory models the intrinsic causal structure unaffected by data bias and is effective in avoiding spurious correlations. This paper aims to comprehensively review the existing causal methods in typical vision and vision-language tasks such as semantic segmentation, object detection, and image captioning. The advantages of causality and the approaches for building causal paradigms will be summarized. Future roadmaps are also proposed, including facilitating the development of causal theory and its application in other complex scenes and systems.
翻訳日:2023-08-01 19:43:41 公開日:2023-07-31
# ドキュメントインテリジェンス理解ワークショップ

Workshop on Document Intelligence Understanding ( http://arxiv.org/abs/2307.16369v1 )

ライセンス: Link先を確認
Soyeon Caren Han, Yihao Ding, Siwen Luo, Josiah Poon, HeeGuen Yoon, Zhe Huang, Paul Duuring, Eun Jung Holden(参考訳) 文書理解と情報抽出は、文書を理解し、価値ある情報を自動抽出するタスクを含む。 近年,多くの文書に関連付けられた作業の効率化を図るため,業務・法律・医学などさまざまな分野における文書理解の発達が求められている。 このワークショップは、ドキュメントインテリジェンス分野の研究者や業界開発者を集結させ、さまざまなドキュメントタイプを理解して、自動文書処理と理解技術を強化することを目的としている。 また、最近導入されたドキュメントレベルのVQAデータセットであるPDFVQAに関するデータ課題もリリースしました。 PDFVQAの課題は、複数の連続する文書ページの自然な全文書レベルで提案されたモデルの構造的および文脈的理解を、全文書の複数ページから抽出された一連の回答を含む質問を含めることである。 このタスクは、ドキュメント理解のステップをシングルページレベルからドキュメントレベルの完全な理解へと拡大するのに役立つ。

Document understanding and information extraction include different tasks to understand a document and extract valuable information automatically. Recently, there has been a rising demand for developing document understanding among different domains, including business, law, and medicine, to boost the efficiency of work that is associated with a large number of documents. This workshop aims to bring together researchers and industry developers in the field of document intelligence and understanding diverse document types to boost automatic document processing and understanding techniques. We also released a data challenge on the recently introduced document-level VQA dataset, PDFVQA. The PDFVQA challenge examines the structural and contextual understandings of proposed models on the natural full document level of multiple consecutive document pages by including questions with a sequence of answers extracted from multi-pages of the full document. This task helps to boost the document understanding step from the single-page level to the full document level understanding.
翻訳日:2023-08-01 16:11:27 公開日:2023-07-31
# AntGPT:大規模言語モデルはビデオからの長期的な行動予測に役立つか?

AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? ( http://arxiv.org/abs/2307.16368v1 )

ライセンス: Link先を確認
Qi Zhao, Ce Zhang, Shijie Wang, Changcheng Fu, Nakul Agarwal, Kwonjoon Lee, Chen Sun(参考訳) 現在の行動(例えば卵のひび割れなど)の後、よく起こることを知ることで、俳優の将来的な行動(卵の混合など)を予測できるだろうか? 俳優の長期目標(例:米の卵揚げ)も知っていれば? 長期的行動予測(LTA)タスクは,映像観察から動詞と名詞のシーケンスの形式での行動を予測することを目的としており,人間と機械の相互作用に不可欠である。 本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。 我々は,手順テキストデータ(レシピ,ハウツーなど)に基づいて事前訓練された大規模言語モデル (LLM) が,両視点からLTAを支援する可能性を持っていると仮定する。 それは、考えられる次のアクションについて事前の知識を提供し、それぞれの手順の観測された部分の目標を推測するのに役立つ。 LLMを活用するために,我々は2段階のフレームワークAntGPTを提案する。 まず、観察されたビデオで既に実行されたアクションを認識し、LLMに条件付き生成を介して将来のアクションを予測するか、あるいはチェーン・オブ・シンセサイティングによってゴールを推測し、手順全体を計画するように要求する。 Ego4D LTA v1 と v2 ベンチマーク EPIC-Kitchens-55 と EGTEA GAZE+ の実証実験により,提案手法の有効性が示された。 antgptは上述のすべてのベンチマークで最先端のパフォーマンスを達成し、目標を推測し、質的分析を通じて目標条件付き「実効的」予測を行うことができる。 コードとモデルはhttps://brown-palm.github.io/AntGPTでリリースされる

Can we better anticipate an actor's future actions (e.g. mix eggs) by knowing what commonly happens after his/her current action (e.g. crack eggs)? What if we also know the longer-term goal of the actor (e.g. making egg fried rice)? The long-term action anticipation (LTA) task aims to predict an actor's future behavior from video observations in the form of verb and noun sequences, and it is crucial for human-machine interaction. We propose to formulate the LTA task from two perspectives: a bottom-up approach that predicts the next actions autoregressively by modeling temporal dynamics; and a top-down approach that infers the goal of the actor and plans the needed procedure to accomplish the goal. We hypothesize that large language models (LLMs), which have been pretrained on procedure text data (e.g. recipes, how-tos), have the potential to help LTA from both perspectives. It can help provide the prior knowledge on the possible next actions, and infer the goal given the observed part of a procedure, respectively. To leverage the LLMs, we propose a two-stage framework, AntGPT. It first recognizes the actions already performed in the observed videos and then asks an LLM to predict the future actions via conditioned generation, or to infer the goal and plan the whole procedure by chain-of-thought prompting. Empirical results on the Ego4D LTA v1 and v2 benchmarks, EPIC-Kitchens-55, as well as EGTEA GAZE+ demonstrate the effectiveness of our proposed approach. AntGPT achieves state-of-the-art performance on all above benchmarks, and can successfully infer the goal and thus perform goal-conditioned "counterfactual" prediction via qualitative analysis. Code and model will be released at https://brown-palm.github.io/AntGPT
翻訳日:2023-08-01 16:11:14 公開日:2023-07-31
# sMRIとPETスキャンによるアルツハイマー病早期診断のためのマルチモーダルグラフニューラルネットワーク

Multi-modal Graph Neural Network for Early Diagnosis of Alzheimer's Disease from sMRI and PET Scans ( http://arxiv.org/abs/2307.16366v1 )

ライセンス: Link先を確認
Yanteng Zhanga, Xiaohai He, Yi Hao Chan, Qizhi Teng, Jagath C. Rajapakse(参考訳) 近年,アルツハイマー病(AD)の早期診断のための神経画像データにディープラーニングモデルが応用されている。 構造磁気共鳴画像(sMRI)とポジトロン放射断層画像(PET)は、それぞれ脳の構造的情報と機能的情報を提供する。 これらの特徴を組み合わせることで、AD診断のための予測モデルを構築する場合、単一のモダリティのみを使用することよりもパフォーマンスが向上する。 しかし、現在、sMRIとPETに基づくディープラーニングにおけるマルチモーダルなアプローチは、主に畳み込みニューラルネットワークに限られており、被験者のイメージ情報と表現型情報の統合が容易ではない。 我々は,非ユークリッド領域の問題に対処するためのグラフニューラルネットワーク(GNN)を提案する。 本研究では、sMRIやPET画像から脳ネットワークが生成され、表現型情報とこれらの脳ネットワークのイメージング特徴を組み合わせた集団グラフフレームワークで使用されるかを示す。 そこで我々は,各モードが独自のGNNの分岐を持つマルチモーダルGNNフレームワークを提案し,ノードベクトルと隣接行列の両レベルでのマルチモーダルデータを組み合わせる手法を提案する。 最後に、各ブランチで行った予備的な決定を組み合わせるために遅延融合を行い、最終的な予測を行う。 マルチモーダルデータが利用可能になると、マルチソースとマルチモーダルがAD診断のトレンドとなる。 マルチモーダル画像データと非画像表現型情報を組み合わせた爆発的実験を行い, 表現型情報が診断性能に与える影響について検討した。 実験の結果,提案手法がad診断の性能を向上させることを実証し,多変量多変量診断法の必要性も示唆した。

In recent years, deep learning models have been applied to neuroimaging data for early diagnosis of Alzheimer's disease (AD). Structural magnetic resonance imaging (sMRI) and positron emission tomography (PET) images provide structural and functional information about the brain, respectively. Combining these features leads to improved performance than using a single modality alone in building predictive models for AD diagnosis. However, current multi-modal approaches in deep learning, based on sMRI and PET, are mostly limited to convolutional neural networks, which do not facilitate integration of both image and phenotypic information of subjects. We propose to use graph neural networks (GNN) that are designed to deal with problems in non-Euclidean domains. In this study, we demonstrate how brain networks can be created from sMRI or PET images and be used in a population graph framework that can combine phenotypic information with imaging features of these brain networks. Then, we present a multi-modal GNN framework where each modality has its own branch of GNN and a technique is proposed to combine the multi-modal data at both the level of node vectors and adjacency matrices. Finally, we perform late fusion to combine the preliminary decisions made in each branch and produce a final prediction. As multi-modality data becomes available, multi-source and multi-modal is the trend of AD diagnosis. We conducted explorative experiments based on multi-modal imaging data combined with non-imaging phenotypic information for AD diagnosis and analyzed the impact of phenotypic information on diagnostic performance. Results from experiments demonstrated that our proposed multi-modal approach improves performance for AD diagnosis, and this study also provides technical reference and support the need for multivariate multi-modal diagnosis methods.
翻訳日:2023-08-01 16:10:41 公開日:2023-07-31
# Promptly:AIコードジェネレータを効果的に活用する方法を学ぶためのプロンプト問題

Promptly: Using Prompt Problems to Teach Learners How to Effectively Utilize AI Code Generators ( http://arxiv.org/abs/2307.16364v1 )

ライセンス: Link先を確認
Paul Denny and Juho Leinonen and James Prather and Andrew Luxton-Reilly and Thezyrie Amarouche and Brett A. Becker and Brent N. Reeves(参考訳) コードを生成する素晴らしい能力によって、大規模言語モデル(LLM)は、コンピューティング教育実践のための革新的技術である。 彼らは、教育者が新しいスキルセットのための教育的アプローチと教育戦略を再考する緊急の要求を生み出した。 プログラミングを学ぶ伝統的なアプローチは、コードの書き方における頻繁で反復的な実践に焦点を合わせてきた。 コード生成が容易になったことで、LLM生成コードを読み、理解し、評価することに注力するようになった。 このシフトと並行して、コード生成モデルの優れたプロンプトを構築する能力という、新たな必須スキルが生まれています。 本稿では,LLMのための効果的なプロンプトの作り方を学ぶために,'Prompt Problem'と呼ばれる新しい教育概念を紹介する。 プロンプト問題は、llmが特定の問題に対して正しいコードを生成するように導く自然言語プロンプトを作成するよう学生に求めるものである。 本稿では,プロンプト問題のレポジトリをホストし,プロンプト生成コードの評価を自動化したpromplyという新しいツールを提案する。 我々は,最初の1年間のpythonプログラミングコース(n=54)に迅速にデプロイされたフィールド研究から得られた経験的知見を報告する。 本研究は,プロンプト問題の概念に対する認識とツールとの学生のインタラクションについて検討する。 Promptlyは、学生がコンピュータ思考のスキルを身につけ、新しいプログラミング構造に公開する能力についてよく理解されていることがわかった。 また,プロンプト問題の設計のバリエーションや,カリキュラムや教育実践への統合について検討する必要性など,今後の作業への道筋についても論じる。

With their remarkable ability to generate code, large language models (LLMs) are a transformative technology for computing education practice. They have created an urgent need for educators to rethink pedagogical approaches and teaching strategies for newly emerging skill sets. Traditional approaches to learning programming have focused on frequent and repeated practice at writing code. The ease with which code can now be generated has resulted in a shift in focus towards reading, understanding and evaluating LLM-generated code. In parallel with this shift, a new essential skill is emerging -- the ability to construct good prompts for code-generating models. This paper introduces a novel pedagogical concept known as a `Prompt Problem', designed to help students learn how to craft effective prompts for LLMs. A Prompt Problem challenges a student to create a natural language prompt that leads an LLM to produce the correct code for a specific problem. To support the delivery of Prompt Problems at scale, in this paper we also present a novel tool called Promptly which hosts a repository of Prompt Problems and automates the evaluation of prompt-generated code. We report empirical findings from a field study in which Promptly was deployed in a first-year Python programming course (n=54). We explore student interactions with the tool and their perceptions of the Prompt Problem concept. We found that Promptly was largely well-received by students for its ability to engage their computational thinking skills and expose them to new programming constructs. We also discuss avenues for future work, including variations on the design of Prompt Problems and the need to study their integration into the curriculum and teaching practice.
翻訳日:2023-08-01 16:10:13 公開日:2023-07-31
# BearingPGA-Net:Decoupled Knowledge DistillationとFPGA Accelerationによる軽量で展開可能なベアリング故障診断ネットワーク

BearingPGA-Net: A Lightweight and Deployable Bearing Fault Diagnosis Network via Decoupled Knowledge Distillation and FPGA Acceleration ( http://arxiv.org/abs/2307.16363v1 )

ライセンス: Link先を確認
Jing-Xiao Liao, Sheng-Lai Wei, Chen-Long Xie, Tieyong Zeng, Jinwei Sun, Shiping Zhang, Xiaoge Zhang, Feng-Lei Fan(参考訳) 深層学習は断層診断の分野で顕著な成功を収めた。 しかし、この成功にはより大きなモデルとより複雑な計算が伴うため、高速、高可搬性、低消費電力のモデルを必要とする産業分野に移行することはできない。 本稿では,これらの課題に対処するために,ベアリングPGA-Netと呼ばれる断層診断の軽量かつ展開可能なモデルを提案する。 まず,十分に訓練された大規模モデルを用いて,脱カップリング知識蒸留によるベアリングpga-netの訓練を行った。 小型ながら,本モデルでは,他の軽量手法と比較して優れた故障診断性能を示す。 次に, Verilog を用いた BearingPGA-Net のためのFPGA アクセラレーション方式を設計する。 このスキームは、fpga上の bearingpga-net の各層向けにカスタマイズされた量子化とプログラム可能な論理ゲートの設計を含み、並列コンピューティングとモジュール再利用に重点を置いて計算速度を向上させる。 我々の知る限りでは、FPGA上にCNNベースのベアリング故障診断モデルをデプロイする最初の例である。 実験結果から,当社のデプロイメント方式は,独立に収集したベアリングデータセットのf1,リコール,精度スコアの面では,cpuと比較して200倍以上高速に診断できることがわかった。 私たちのコードは \url{https://github.com/asdvfghg/BearingPGA-Net} で利用可能です。

Deep learning has achieved remarkable success in the field of bearing fault diagnosis. However, this success comes with larger models and more complex computations, which cannot be transferred into industrial fields requiring models to be of high speed, strong portability, and low power consumption. In this paper, we propose a lightweight and deployable model for bearing fault diagnosis, referred to as BearingPGA-Net, to address these challenges. Firstly, aided by a well-trained large model, we train BearingPGA-Net via decoupled knowledge distillation. Despite its small size, our model demonstrates excellent fault diagnosis performance compared to other lightweight state-of-the-art methods. Secondly, we design an FPGA acceleration scheme for BearingPGA-Net using Verilog. This scheme involves the customized quantization and designing programmable logic gates for each layer of BearingPGA-Net on the FPGA, with an emphasis on parallel computing and module reuse to enhance the computational speed. To the best of our knowledge, this is the first instance of deploying a CNN-based bearing fault diagnosis model on an FPGA. Experimental results reveal that our deployment scheme achieves over 200 times faster diagnosis speed compared to CPU, while achieving a lower-than-0.4\% performance drop in terms of F1, Recall, and Precision score on our independently-collected bearing dataset. Our code is available at \url{https://github.com/asdvfghg/BearingPGA-Net}.
翻訳日:2023-08-01 16:09:47 公開日:2023-07-31
# ロバストなポイントクラウド認識のベンチマークと解析 - 敵の例を守るための小技

Benchmarking and Analyzing Robust Point Cloud Recognition: Bag of Tricks for Defending Adversarial Examples ( http://arxiv.org/abs/2307.16361v1 )

ライセンス: Link先を確認
Qiufan Ji, Lin Wang, Cong Shi, Shengshan Hu, Yingying Chen, Lichao Sun(参考訳) 3Dポイントクラウド認識のためのディープニューラルネットワーク(DNN)は、敵の例に対して脆弱であり、実践的なデプロイメントを脅かす。 近年、この問題に対処するための多くの研究努力がなされているが、3Dポイントの雲における敵の例の多様性は、2D画像よりも防御が難しい。 例えば、攻撃者はポイントの追加、シフト、削除によって敵の例を生成することができる。 したがって、既存の防衛戦略は、目に見えない雲の敵の例に対抗するのは難しい。 本稿では,まず,対向ロバスト性を評価するために,総合的かつ厳密なクラウド対向ロバスト性ベンチマークを構築し,防衛・攻撃手法の効果を詳細に把握する。 次に、既存の防御策をポイントクラウドの敵防衛に集め、これらのトリックの効果的な組み合わせを特定するために、広範囲かつ体系的な実験を行う。 さらに,様々な種類の点雲対向例を対向訓練に適用し,対向ロバスト性を大幅に向上させるハイブリッドトレーニング拡張手法を提案する。 これらのトリックを組み合わせることで、様々な攻撃に対して平均83.45\%の精度を達成する、より堅牢な防御フレームワークを構築し、堅牢な学習者を実現する能力を示す。 当社のコードベースは、下記のとおり、オープンソースです。

Deep Neural Networks (DNNs) for 3D point cloud recognition are vulnerable to adversarial examples, threatening their practical deployment. Despite the many research endeavors have been made to tackle this issue in recent years, the diversity of adversarial examples on 3D point clouds makes them more challenging to defend against than those on 2D images. For examples, attackers can generate adversarial examples by adding, shifting, or removing points. Consequently, existing defense strategies are hard to counter unseen point cloud adversarial examples. In this paper, we first establish a comprehensive, and rigorous point cloud adversarial robustness benchmark to evaluate adversarial robustness, which can provide a detailed understanding of the effects of the defense and attack methods. We then collect existing defense tricks in point cloud adversarial defenses and then perform extensive and systematic experiments to identify an effective combination of these tricks. Furthermore, we propose a hybrid training augmentation methods that consider various types of point cloud adversarial examples to adversarial training, significantly improving the adversarial robustness. By combining these tricks, we construct a more robust defense framework achieving an average accuracy of 83.45\% against various attacks, demonstrating its capability to enabling robust learners. Our codebase are open-sourced on: \url{https://github.com/qiufan319/benchmark_pc_attack.git}.
翻訳日:2023-08-01 16:09:22 公開日:2023-07-31
# 確率的ロバストな共形予測

Probabilistically robust conformal prediction ( http://arxiv.org/abs/2307.16360v1 )

ライセンス: Link先を確認
Subhankar Ghosh, Yuanjie Shi, Taha Belkhouja, Yan Yan, Jana Doppa, Brian Jones(参考訳) コンフォーマル予測(CP)は、ディープニューラルネットワークを含む機械学習分類器の不確実性を定量化するフレームワークである。 テスト例と訓練された分類器が与えられた場合、CPはユーザ指定のカバレッジを持つ候補ラベルの予測セットを生成する(真のクラスラベルは高い確率で含まれる)。 cpの既存の作業のほとんどはクリーンなテストデータを前提としており、cpアルゴリズムの堅牢性についてはあまり知られていない。 本稿では,清潔な入力例に関する多くの摂動に対するロバスト性を保証する確率的ロバストな共形予測(prcp)の問題について検討する。 PRCPは標準的なCP(摂動を扱えない)と逆向きに堅牢なCP(最悪の場合の摂動の堅牢性を保証する)を一般化し、名目性能と堅牢性の間のトレードオフを改善する。 本稿では,確率論的に堅牢なカバレッジを実現するための適応型PRCPアルゴリズムを提案する。 aprcpの背後にある重要なアイデアは、データサンプルのための2つの並列しきい値と、データ上の摂動のための2つの並列しきい値を決定することである("quantile-of-quantile"デザインとも呼ばれる)。 本稿では,APRCPアルゴリズムがロバストなカバレッジを実現することを示す理論的解析を行う。 深層ニューラルネットワークを用いたCIFAR-10, CIFAR-100, ImageNetデータセットを用いた実験により, APRCPは最先端のCPアルゴリズムや逆向きに堅牢なCPアルゴリズムよりも優れたトレードオフを実現することが示された。

Conformal prediction (CP) is a framework to quantify uncertainty of machine learning classifiers including deep neural networks. Given a testing example and a trained classifier, CP produces a prediction set of candidate labels with a user-specified coverage (i.e., true class label is contained with high probability). Almost all the existing work on CP assumes clean testing data and there is not much known about the robustness of CP algorithms w.r.t natural/adversarial perturbations to testing examples. This paper studies the problem of probabilistically robust conformal prediction (PRCP) which ensures robustness to most perturbations around clean input examples. PRCP generalizes the standard CP (cannot handle perturbations) and adversarially robust CP (ensures robustness w.r.t worst-case perturbations) to achieve better trade-offs between nominal performance and robustness. We propose a novel adaptive PRCP (aPRCP) algorithm to achieve probabilistically robust coverage. The key idea behind aPRCP is to determine two parallel thresholds, one for data samples and another one for the perturbations on data (aka "quantile-of-quantile" design). We provide theoretical analysis to show that aPRCP algorithm achieves robust coverage. Our experiments on CIFAR-10, CIFAR-100, and ImageNet datasets using deep neural networks demonstrate that aPRCP achieves better trade-offs than state-of-the-art CP and adversarially robust CP algorithms.
翻訳日:2023-08-01 16:08:59 公開日:2023-07-31
# モロー・吉田変量輸送:正規分布最適化問題の一般化フレームワーク

Moreau-Yoshida Variational Transport: A General Framework For Solving Regularized Distributional Optimization Problems ( http://arxiv.org/abs/2307.16358v1 )

ライセンス: Link先を確認
Dai Hai Nguyen, Tetsuya Sakurai(参考訳) 確率分布のクラス上で定義された複合目的関数を最小化する一般最適化問題を考える。 目的は2つの汎函数からなる: 1つは変分表現を持ち、もう1つは非滑らか凸正則化関数の期待作用素の項で表される。 このような正規化分布最適化問題は、正規化推定と生成のための近位モンテカルロサンプリング、ベイズ推論、生成モデリングなど、機械学習や統計学で広く見られる。 正規化分布最適化問題を解くために, モロー・吉田変分輸送 (myvt) と呼ばれる新しい手法を提案する。 まず, 本手法では, 目的の非スムース関数を滑らかに近似するために, モロー・吉田包絡を用いる。 次に,変分表現を用いて近似問題を凹凸サドルポイント問題として再構成し,サドルポイントを近似する効率的な原始双対アルゴリズムを考案する。 さらに,提案手法の有効性を実証するために,理論的解析と実験結果の報告を行う。

We consider a general optimization problem of minimizing a composite objective functional defined over a class of probability distributions. The objective is composed of two functionals: one is assumed to possess the variational representation and the other is expressed in terms of the expectation operator of a possibly nonsmooth convex regularizer function. Such a regularized distributional optimization problem widely appears in machine learning and statistics, such as proximal Monte-Carlo sampling, Bayesian inference and generative modeling, for regularized estimation and generation. We propose a novel method, dubbed as Moreau-Yoshida Variational Transport (MYVT), for solving the regularized distributional optimization problem. First, as the name suggests, our method employs the Moreau-Yoshida envelope for a smooth approximation of the nonsmooth function in the objective. Second, we reformulate the approximate problem as a concave-convex saddle point problem by leveraging the variational representation, and then develope an efficient primal-dual algorithm to approximate the saddle point. Furthermore, we provide theoretical analyses and report experimental results to demonstrate the effectiveness of the proposed method.
翻訳日:2023-08-01 16:08:32 公開日:2023-07-31
# 能動配電系統における学習制御のための分散ロバスト安全フィルタ

Distributionally Robust Safety Filter for Learning-Based Control in Active Distribution Systems ( http://arxiv.org/abs/2307.16351v1 )

ライセンス: Link先を確認
Hoang Tien Nguyen, Dae-Hyun Choi(参考訳) 運用上の制約違反は、深層強化学習(drl)エージェントが実世界のアクティブ配信システムと相互作用して、トレーニング中に最適なポリシーを学ぶ場合に発生する。 本文は,DRLエージェントがほぼ最適解を維持しながら,トレーニング中の分散システムの制約違反を大幅に低減できる,普遍的分散堅牢な安全フィルタ(DRSF)を提案する。 DRSFは分散的に堅牢な最適化問題として定式化されている。 本課題は,DRLに基づくVolt/VAr制御の最適動作から最小限に修正された準最適動作を分散システムモデルを利用して計算し,モデルの不確実性の下で制約満足度を保証することを目的とする。 提案するDRSFの性能はIEEE 33-busと123-busシステムを用いて検証する。

Operational constraint violations may occur when deep reinforcement learning (DRL) agents interact with real-world active distribution systems to learn their optimal policies during training. This letter presents a universal distributionally robust safety filter (DRSF) using which any DRL agent can reduce the constraint violations of distribution systems significantly during training while maintaining near-optimal solutions. The DRSF is formulated as a distributionally robust optimization problem with chance constraints of operational limits. This problem aims to compute near-optimal actions that are minimally modified from the optimal actions of DRL-based Volt/VAr control by leveraging the distribution system model, thereby providing constraint satisfaction guarantee with a probability level under the model uncertainty. The performance of the proposed DRSF is verified using the IEEE 33-bus and 123-bus systems.
翻訳日:2023-08-01 16:08:15 公開日:2023-07-31
# ギャップを橋渡しする: 複雑なビジュアル推論タスクのためのブリッジアーキテクチャの機能を探る

Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks ( http://arxiv.org/abs/2307.16395v1 )

ライセンス: Link先を確認
Kousik Rajesh, Mrigank Raman, Mohammed Asad Karim, Pranit Chawla(参考訳) 近年、Large Language Modelsに基づくマルチモーダルアーキテクチャが急増しており、LLMのゼロショット生成能力とプロジェクトイメージのテキスト空間への埋め込みを活用し、VQA、キャプション、画像検索といったタスクを解決するために自動回帰能力を使用している。 我々はこれらのアーキテクチャを、画像空間からテキスト空間へ投影する"ブリッジアーキテクチャ"と命名する。 これらのモデルは、大規模な事前学習と、co または cross による複雑なマルチモーダル相互作用を含む、トランスフォーマーベースのマルチモーダルモデルのトレーニングのレシピから逸脱する。 しかし、ブリッジアーキテクチャの能力は、画像に関するきめ細かい分析を必要とする複雑な視覚的推論タスクではテストされていない。 本稿では,NLVR2データセット上でのブリッジアーキテクチャの性能について検討し,最先端のトランスフォーマーベースアーキテクチャと比較する。 まず、NLVR2データセットの従来のブリッジアーキテクチャを拡張し、粒度の細かいオブジェクト推論にオブジェクトレベル機能を追加する。 分析の結果、ブリッジアーキテクチャにオブジェクトレベルの機能を追加することは役に立たず、マルチモーダルデータでの事前トレーニングはnlvr2のような複雑な推論タスクにおける優れたパフォーマンスの鍵であることがわかった。 また,最近のブリッジアーキテクチャであるllavaについて,ゼロショット設定での初期結果を実証し,その性能解析を行った。

In recent times there has been a surge of multi-modal architectures based on Large Language Models, which leverage the zero shot generation capabilities of LLMs and project image embeddings into the text space and then use the auto-regressive capacity to solve tasks such as VQA, captioning, and image retrieval. We name these architectures as "bridge-architectures" as they project from the image space to the text space. These models deviate from the traditional recipe of training transformer based multi-modal models, which involve using large-scale pre-training and complex multi-modal interactions through co or cross attention. However, the capabilities of bridge architectures have not been tested on complex visual reasoning tasks which require fine grained analysis about the image. In this project, we investigate the performance of these bridge-architectures on the NLVR2 dataset, and compare it to state-of-the-art transformer based architectures. We first extend the traditional bridge architectures for the NLVR2 dataset, by adding object level features to faciliate fine-grained object reasoning. Our analysis shows that adding object level features to bridge architectures does not help, and that pre-training on multi-modal data is key for good performance on complex reasoning tasks such as NLVR2. We also demonstrate some initial results on a recently bridge-architecture, LLaVA, in the zero shot setting and analyze its performance.
翻訳日:2023-08-01 16:00:32 公開日:2023-07-31
# STL: ニューラルネットワークのための符号付きトリニクテッド対数活性化関数

STL: A Signed and Truncated Logarithm Activation Function for Neural Networks ( http://arxiv.org/abs/2307.16389v1 )

ライセンス: Link先を確認
Yuanhao Gong(参考訳) 活性化関数はニューラルネットワークにおいて重要な役割を果たす。 それらはネットワークの非線形性を提供する。 したがって、その特性はニューラルネットワークの精度と実行性能にとって重要である。 本稿では,アクティベーション機能として符号付きおよび切り離された対数関数を提案する。 提案する活性化関数は、奇関数、単調、微分可能、非有界値範囲、連続非零勾配といった数学的性質がかなり優れている。 これらの性質は活性化関数として優れた選択となる。 いくつかのよく知られたニューラルネットワークにおいて、他のよく知られたアクティベーション関数と比較する。 結果はそれが最先端であることを確認した。 提案するアクティベーション関数は、アクティベーション関数が必要な広い範囲のニューラルネットワークに適用することができる。

Activation functions play an essential role in neural networks. They provide the non-linearity for the networks. Therefore, their properties are important for neural networks' accuracy and running performance. In this paper, we present a novel signed and truncated logarithm function as activation function. The proposed activation function has significantly better mathematical properties, such as being odd function, monotone, differentiable, having unbounded value range, and a continuous nonzero gradient. These properties make it an excellent choice as an activation function. We compare it with other well-known activation functions in several well-known neural networks. The results confirm that it is the state-of-the-art. The suggested activation function can be applied in a large range of neural networks where activation functions are necessary.
翻訳日:2023-08-01 16:00:06 公開日:2023-07-31
# 関係指向:知識整合因果aiへ向けて

Relation-Oriented: Toward Knowledge-Aligned Causal AI ( http://arxiv.org/abs/2307.16387v1 )

ライセンス: Link先を確認
Jia Li, Xiang Li(参考訳) 機械学習では、観測変数が関係の基盤となる観察指向の原理を直感的に採用する。 従来のモデルでは十分かも知れませんが、ビッグデータを組み込んだAIの能力によって、純粋な観測モデルと実際の理解との相違が強調されます。 対照的に、人間は、観察によって制限されない関係を通して索引付けされた認知エンティティを構築し、時間空間と超次元空間の知識を定式化することができる。 本研究では,コンピュータビジョンとヘルスインフォマティクスから直感的な例を抽出し,因果焦点によるモデリングの文脈を再定義する,新しい関係指向視点を提案する。 さらに,関係定義表現モデルの実装手法を提案し,その実現可能性について包括的実験により検証した。

In machine learning, we intuitively adopt an Observation-Oriented principle where observational variables act as the bedrock for relationships. It may suffice for conventional models, but with AI's capacities incorporating big data, it accentuates the misalignment between purely observational models and our actual comprehension. In contrast, humans construct cognitive entities indexed through relationships, which are not confined by observations, allowing us to formulate knowledge across temporal and hyper-dimensional spaces. This study introduces a novel Relation-Oriented perspective, drawing intuitive examples from computer vision and health informatics, to redefine our context of modeling with a causal focus. Furthermore, we present an implementation method - the relation-defined representation modeling, the feasibility of which is substantiated through comprehensive experiments.
翻訳日:2023-08-01 15:59:57 公開日:2023-07-31
# OpenAI APIを使ったGPT-3の微調整は個人識別情報を漏洩させるか?

Does fine-tuning GPT-3 with the OpenAI API leak personally-identifiable information? ( http://arxiv.org/abs/2307.16382v1 )

ライセンス: Link先を確認
Albert Yu Sun, Eliott Zemour, Arushi Saxena, Udith Vaidyanathan, Eric Lin, Christian Lau, Vaikkunth Mugunthan(参考訳) 機械学習の実践者は、特定のタスクにおけるモデルパフォーマンスを改善するために、GPT-3のような生成済みモデルを微調整することが多い。 しかし、以前の研究は、微調整された機械学習モデルが元の微調整データセットから機密情報を記憶し、出力することを示唆している。 OpenAIのような企業は、モデルを微調整するサービスを提供しているが、これまでの作業では、クローズドソースモデルに対する暗記攻撃は行っていない。 本研究では,OpenAIの微調整APIを用いて,GPT-3に対するプライバシ攻撃をシミュレートする。 このモデルから個人識別情報(PII)を抽出できるかどうかを判断することを目的とする。 本稿では,(1) GPT-3 の微調整分類モデルにおけるナイーブプロセッシング手法の利用について検討し,(2) 実世界の文脈における微調整 GPT-3 の PII 記憶の程度を調べるために,オートコンプリートと呼ばれる実用的な単語生成タスクを設計する。 両タスクの微調整GPT3により,基礎となる微調整データセットから得られた重要個人識別情報(PII)を記憶・開示するモデルが得られた。 さらなる研究を促進するため、コードとデータセットをgithubで公開しました。 https://github.com/albertsun1/gpt3-pii-attacks。

Machine learning practitioners often fine-tune generative pre-trained models like GPT-3 to improve model performance at specific tasks. Previous works, however, suggest that fine-tuned machine learning models memorize and emit sensitive information from the original fine-tuning dataset. Companies such as OpenAI offer fine-tuning services for their models, but no prior work has conducted a memorization attack on any closed-source models. In this work, we simulate a privacy attack on GPT-3 using OpenAI's fine-tuning API. Our objective is to determine if personally identifiable information (PII) can be extracted from this model. We (1) explore the use of naive prompting methods on a GPT-3 fine-tuned classification model, and (2) we design a practical word generation task called Autocomplete to investigate the extent of PII memorization in fine-tuned GPT-3 within a real-world context. Our findings reveal that fine-tuning GPT3 for both tasks led to the model memorizing and disclosing critical personally identifiable information (PII) obtained from the underlying fine-tuning dataset. To encourage further research, we have made our codes and datasets publicly available on GitHub at: https://github.com/albertsun1/gpt3-pii-attacks
翻訳日:2023-08-01 15:59:42 公開日:2023-07-31
# 局所精製密度演算子と局所測定を用いたスケーラブル量子状態トモグラフィ

Scalable Quantum State Tomography with Locally Purified Density Operators and Local Measurements ( http://arxiv.org/abs/2307.16381v1 )

ライセンス: Link先を確認
Yuchen Guo, Shuo Yang(参考訳) 量子システムを理解することは、量子ハードウェアとソフトウェアの性能の評価、および量子制御と量子センシングの探索において重要である。 量子状態の効率的な表現は、最小の測定で量子状態トモグラフィーを実現することができる。 本研究では,局所精製密度演算子を用いた混合状態のテンソルネットワーク表現を用いた新しい状態トモグラフィ法を提案し,局所計測のみを必要とする古典的最適化アルゴリズムを提案する。 1次元純混合状態と2次元ランダムテンソルネットワーク状態の数値シミュレーションにより,提案手法の効率,精度,ロバスト性を実証した。 IBM Quantumプラットフォームの実験は、これらの数値シミュレーションを補完する。 本研究では,テンソルネットワーク形式を用いた2次元システムのための量子状態トモグラフィの新たな道を開く。

Understanding quantum systems holds significant importance for assessing the performance of quantum hardware and software, as well as exploring quantum control and quantum sensing. An efficient representation of quantum states enables realizing quantum state tomography with minimal measurements. In this study, we propose a new approach to state tomography that uses tensor network representations of mixed states through locally purified density operators and employs a classical optimization algorithm requiring only local measurements. Through numerical simulations of one-dimensional pure and mixed states and two-dimensional random tensor network states up to size $8\times 8$, we demonstrate the efficiency, accuracy, and robustness of our proposed methods. Experiments on the IBM Quantum platform complement these numerical simulations. Our study opens new avenues in quantum state tomography for two-dimensional systems using tensor network formalism.
翻訳日:2023-08-01 15:59:18 公開日:2023-07-31
# JOTR: Occluded Human Meshリカバリのための変換器を用いた3次元コントラスト学習

JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human Mesh Recovery ( http://arxiv.org/abs/2307.16377v1 )

ライセンス: Link先を確認
Jiahao Li, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang(参考訳) 本研究では,不明瞭な条件下での単一画像からの3次元メッシュ復元の問題に着目した。 ほとんどの最先端手法は、空間平均化や2次元関節サンプリングのような2次元アライメント技術の改善を目的としている。 しかし、3D表現を改善することで、3Dアライメントの重要な側面を無視する傾向がある。 さらに,最近の手法では,3次元協調座標を局所的監督として対象者の3次元空間を最適化するため,混み合った場面で対象者を咬合や背景から切り離すのに苦労している。 これらの課題に対処するためには、2Dと3Dの機能を融合するためのフレームワークと、世界規模で3D空間を最適化するための戦略が望ましい方法である。 そこで本研究では,非閉塞型3次元メッシュ回復のためのTRansformers (JOTR) フレームワークを用いた3次元ジョイントコントラスト学習を提案する。 提案手法は,2D$\&$3Dの整合性を実現するために2Dおよび3D表現を融合するエンコーダ・デコーダ・トランスフォーマアーキテクチャと,3D特徴空間に対して明示的にグローバルな監視を加えるための新しい3D共同コントラスト学習手法を含む。 対照的な学習アプローチには、意味的に類似したボクセル(人間の関節)の類似性を高めるジョイント・ツー・ジョイントコントラストと、他者との差別を保証するジョイント・トゥ・ジョイントコントラスト(例えば、オクルージョンと背景)の2つの対照的な損失が含まれる。 定性的および定量的分析により,本手法は咬合特異的および標準ベンチマークにおいて,最先端の競争相手よりも優れ,閉塞したヒトの再建を著しく改善することが示された。

In this study, we focus on the problem of 3D human mesh recovery from a single image under obscured conditions. Most state-of-the-art methods aim to improve 2D alignment technologies, such as spatial averaging and 2D joint sampling. However, they tend to neglect the crucial aspect of 3D alignment by improving 3D representations. Furthermore, recent methods struggle to separate the target human from occlusion or background in crowded scenes as they optimize the 3D space of target human with 3D joint coordinates as local supervision. To address these issues, a desirable method would involve a framework for fusing 2D and 3D features and a strategy for optimizing the 3D space globally. Therefore, this paper presents 3D JOint contrastive learning with TRansformers (JOTR) framework for handling occluded 3D human mesh recovery. Our method includes an encoder-decoder transformer architecture to fuse 2D and 3D representations for achieving 2D$\&$3D aligned results in a coarse-to-fine manner and a novel 3D joint contrastive learning approach for adding explicitly global supervision for the 3D feature space. The contrastive learning approach includes two contrastive losses: joint-to-joint contrast for enhancing the similarity of semantically similar voxels (i.e., human joints), and joint-to-non-joint contrast for ensuring discrimination from others (e.g., occlusions and background). Qualitative and quantitative analyses demonstrate that our method outperforms state-of-the-art competitors on both occlusion-specific and standard benchmarks, significantly improving the reconstruction of occluded humans.
翻訳日:2023-08-01 15:59:04 公開日:2023-07-31
# 大きな言語モデルがパーソナライゼーションを満たすとき:課題と機会の視点

When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities ( http://arxiv.org/abs/2307.16376v1 )

ライセンス: Link先を確認
Jin Chen, Zheng Liu, Xu Huang, Chenwang Wu, Qi Liu, Gangwei Jiang, Yuanhao Pu, Yuxuan Lei, Xiaolong Chen, Xingmei Wang, Defu Lian and Enhong Chen(参考訳) 大きな言語モデルの出現は、人工知能の画期的なブレークスルーだ。 前例のない規模のトレーニングとモデルパラメータにより、大きな言語モデルの能力が劇的に改善され、理解における人間のようなパフォーマンス、言語合成、常識推論などがもたらされた。 このような大きな飛躍的なAI能力は、パーソナライゼーションの実施方法のパターンを変えるだろう。 ひとつは、人間とパーソナライズシステムとのインタラクションの方法を変えることだ。 情報フィルタリングの受動的媒体である代わりに、大きな言語モデルはアクティブなユーザエンゲージメントの基礎を提供する。 このような新たな基盤の上に、ユーザ要求を積極的に探索し、ユーザに必要な情報を自然な説明可能な方法で配信することができる。 また、パーソナライゼーションの範囲を大きく広げ、パーソナライズされた情報を収集する唯一の機能から、パーソナライズされたサービスを提供する複合機能へと拡大する。 大きな言語モデルを汎用インターフェースとして活用することにより、パーソナライズシステムは、ユーザ要求を計画にコンパイルし、外部ツールの機能を呼び出して計画を実行し、ツールの出力を統合してエンドツーエンドのパーソナライズタスクを完了させることができる。 現在、大規模な言語モデルが開発されているが、パーソナライゼーションの応用はほとんど未検討である。 したがって、パーソナライズにおける課題とLLMで対処する機会をレビューするには、適切なタイミングだと考えている。 特に,既存のパーソナライズシステムの開発と課題,新たに出現した大規模言語モデルの能力,大規模言語モデルをパーソナライズに活用する潜在的な方法,といった側面について論じる。

The advent of large language models marks a revolutionary breakthrough in artificial intelligence. With the unprecedented scale of training and model parameters, the capability of large language models has been dramatically improved, leading to human-like performances in understanding, language synthesizing, and common-sense reasoning, etc. Such a major leap-forward in general AI capacity will change the pattern of how personalization is conducted. For one thing, it will reform the way of interaction between humans and personalization systems. Instead of being a passive medium of information filtering, large language models present the foundation for active user engagement. On top of such a new foundation, user requests can be proactively explored, and user's required information can be delivered in a natural and explainable way. For another thing, it will also considerably expand the scope of personalization, making it grow from the sole function of collecting personalized information to the compound function of providing personalized services. By leveraging large language models as general-purpose interface, the personalization systems may compile user requests into plans, calls the functions of external tools to execute the plans, and integrate the tools' outputs to complete the end-to-end personalization tasks. Today, large language models are still being developed, whereas the application in personalization is largely unexplored. Therefore, we consider it to be the right time to review the challenges in personalization and the opportunities to address them with LLMs. In particular, we dedicate this perspective paper to the discussion of the following aspects: the development and challenges for the existing personalization system, the newly emerged capabilities of large language models, and the potential ways of making use of large language models for personalization.
翻訳日:2023-08-01 15:58:29 公開日:2023-07-31
# UniAP: 混合整数二次プログラミングによる層間および層内自動並列化

UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming ( http://arxiv.org/abs/2307.16375v1 )

ライセンス: Link先を確認
Hao Lin, Ke Wu, Jun Li, Wu-Jun Li(参考訳) ディープラーニングモデルは、様々な領域で素晴らしいパフォーマンスを示している。 しかし、これらのモデルの長い訓練時間は依然として重要な問題である。 手動で設計した並列トレーニング戦略は、効率を向上させるが、かなりの時間と柔軟性を欠く。 したがって、並列戦略探索プロセスを自動化するために、自動並列化を提案する。 それでも、既存のアプローチは、自動並列処理を2つの独立した段階、すなわち層間および層内並列処理として扱うため、準最適戦略空間に苦しむ。 この問題に対処するために、混合整数二次計画法を用いて層間および層内自動並列性を統一するUniAPを提案する。 私たちが知る限り、uniapはこれら2つのカテゴリを統合してグローバルに最適な戦略を探す最初の仕事です。 実験の結果、UniAPは最先端のメソッドを最大1.70$\times$スループットで上回り、ストラテジー検索時間を最大16$\times$4つのTransformer風モデルで削減した。

Deep learning models have demonstrated impressive performance in various domains. However, the prolonged training time of these models remains a critical problem. Manually designed parallel training strategies could enhance efficiency but require considerable time and deliver little flexibility. Hence, automatic parallelism is proposed to automate the parallel strategy searching process. Even so, existing approaches suffer from sub-optimal strategy space because they treat automatic parallelism as two independent stages, namely inter- and intra-layer parallelism. To address this issue, we propose UniAP, which utilizes mixed integer quadratic programming to unify inter- and intra-layer automatic parallelism. To the best of our knowledge, UniAP is the first work to unify these two categories to search for a globally optimal strategy. The experimental results show that UniAP outperforms state-of-the-art methods by up to 1.70$\times$ in throughput and reduces strategy searching time by up to 16$\times$ across four Transformer-like models.
翻訳日:2023-08-01 15:58:01 公開日:2023-07-31
# IceCube DeepCoreにおけるイベント再構成のための2次元畳み込みニューラルネットワーク

2D Convolutional Neural Network for Event Reconstruction in IceCube DeepCore ( http://arxiv.org/abs/2307.16373v1 )

ライセンス: Link先を確認
J.H. Peterson, M. Prado Rodriguez, K. Hanson (for the IceCube Collaboration)(参考訳) IceCube DeepCoreは、ニュートリノ振動の研究のためにGeVスケールの大気ニュートリノ相互作用を測定するために設計されたアイスキューブニュートリノ天文台の拡張である。 他のフレーバーからミューオンニュートリノを除去し、非弾性を再構築することは、スパースインスツルメンテーションによるアイスキューブディープコアのGeVスケールエネルギーにおいて特に難しい課題である。 畳み込みニューラルネットワーク(CNN)は、従来の可能性に基づく手法よりもニュートリノの事象再構成において成功している。 そこで本研究では,icecube deepcoreデータにおける時間と深さの翻訳対称性を利用した新しいcnnモデルを提案し,そのモデルの性能,特にフレーバー識別と非弾性再構成について述べる。

IceCube DeepCore is an extension of the IceCube Neutrino Observatory designed to measure GeV scale atmospheric neutrino interactions for the purpose of neutrino oscillation studies. Distinguishing muon neutrinos from other flavors and reconstructing inelasticity are especially difficult tasks at GeV scale energies in IceCube DeepCore due to sparse instrumentation. Convolutional neural networks (CNNs) have been found to have better success at neutrino event reconstruction than conventional likelihood-based methods. In this contribution, we present a new CNN model that exploits time and depth translational symmetry in IceCube DeepCore data and present the model's performance, specifically for flavor identification and inelasticity reconstruction.
翻訳日:2023-08-01 15:57:43 公開日:2023-07-31
# MobileVidFactory:テキストによるモバイル端末向け拡散型ソーシャルメディアビデオの自動生成

MobileVidFactory: Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from Text ( http://arxiv.org/abs/2307.16371v1 )

ライセンス: Link先を確認
Junchen Zhu, Huan Yang, Wenjing Wang, Huiguo He, Zixi Tuo, Yongsheng Yu, Wen-Huang Cheng, Lianli Gao, Jingkuan Song, Jianlong Fu, Jiebo Luo(参考訳) モバイル機器向けビデオは、最近、情報の共有や取得に最も人気がある。 本稿では,ユーザ作成の便宜を図るため,モバイルビデオの自動生成システムであるMobileVidFactoryを提案する。 我々のシステムは2つの部分から成り立っている。 基本世代では、事前訓練された画像拡散モデルを利用して、モバイルデバイス用の高品質なオープンドメイン垂直ビデオ生成装置に適応する。 音声に関しては、我々の大きなデータベースから検索することで、われわれのシステムはビデオに適した背景音にマッチする。 カスタマイズされたコンテンツの制作に加えて,視覚表現を豊かにするための特定の画面テキストをビデオに追加したり,任意の音声で自動読み出すテキストを好きなように指定することができる。

Videos for mobile devices become the most popular access to share and acquire information recently. For the convenience of users' creation, in this paper, we present a system, namely MobileVidFactory, to automatically generate vertical mobile videos where users only need to give simple texts mainly. Our system consists of two parts: basic and customized generation. In the basic generation, we take advantage of the pretrained image diffusion model, and adapt it to a high-quality open-domain vertical video generator for mobile devices. As for the audio, by retrieving from our big database, our system matches a suitable background sound for the video. Additionally to produce customized content, our system allows users to add specified screen texts to the video for enriching visual expression, and specify texts for automatic reading with optional voices as they like.
翻訳日:2023-08-01 15:57:28 公開日:2023-07-31
# 連続学習のためのサブスペース蒸留

Subspace Distillation for Continual Learning ( http://arxiv.org/abs/2307.16419v1 )

ライセンス: Link先を確認
Kaushik Roy, Christian Simon, Peyman Moghadam, Mehrtash Harandi(参考訳) 連続学習における究極の目的は、新しいタスクを学習しながら、前のタスクで学んだ知識を保存することである。 従来の知識を忘れないように,ニューラルネットワークの潜在出力空間の多様体構造を考慮した新しい知識蒸留手法を提案する。 そこで本研究では,データ多様体を1次まで近似し,線形部分空間の利点を生かして構造をモデル化し,新しい概念を学習しながらニューラルネットワークの知識を維持することを提案する。 部分空間を用いたモデリングは、雑音に対する堅牢性など、いくつかの興味深い特性を提供しており、連続学習における破滅的学習の軽減に有効であることを示す。 また,分類問題と分割問題の両方に対処するために,提案手法をどのように適用できるかを論じる。 提案手法は,Pascal VOCやTiny-Imagenetなど,いくつかの課題のあるデータセットにおいて,様々な連続的な学習方法よりも優れていることを示す。 さらに,提案手法と既存の学習手法をシームレスに組み合わせ,その性能を向上させる方法を示す。 この記事のコードはhttps://github.com/csiro-robotics/sdclで入手できる。

An ultimate objective in continual learning is to preserve knowledge learned in preceding tasks while learning new tasks. To mitigate forgetting prior knowledge, we propose a novel knowledge distillation technique that takes into the account the manifold structure of the latent/output space of a neural network in learning novel tasks. To achieve this, we propose to approximate the data manifold up-to its first order, hence benefiting from linear subspaces to model the structure and maintain the knowledge of a neural network while learning novel concepts. We demonstrate that the modeling with subspaces provides several intriguing properties, including robustness to noise and therefore effective for mitigating Catastrophic Forgetting in continual learning. We also discuss and show how our proposed method can be adopted to address both classification and segmentation problems. Empirically, we observe that our proposed method outperforms various continual learning methods on several challenging datasets including Pascal VOC, and Tiny-Imagenet. Furthermore, we show how the proposed method can be seamlessly combined with existing learning approaches to improve their performances. The codes of this article will be available at https://github.com/csiro-robotics/SDCL.
翻訳日:2023-08-01 15:52:14 公開日:2023-07-31
# DRAW:カメラで撮影したRAWを画像操作に対抗

DRAW: Defending Camera-shooted RAW against Image Manipulation ( http://arxiv.org/abs/2307.16418v1 )

ライセンス: Link先を確認
Xiaoxiao Hu, Qichao Ying, Zhenxing Qian, Sheng Li and Xinpeng Zhang(参考訳) RAWファイルは、ほとんどのカメラで広く使われているシーンラディアンスの最初の測定であり、ユビキタスに使用されるRGBイメージは、画像信号処理(ISP)パイプラインを介してRAWデータから変換される。 現在、デジタル画像は不正に操作されるリスクがある。 自然免疫が身体防御の第一線であるという事実に触発されて、我々はDRAWを提案する。 具体的には、周波数学習と部分的特徴融合により、限られた計算資源を有するデバイスに親和性のある軽量なマルチ周波数部分融合ネットワーク(mpf-net)を設計する。 RAWデータに保護信号として見えない透かしを導入する。 保護機能は、適用されたISPパイプラインに関係なくレンダリングされたRGBイメージに転送できるだけでなく、ぼやけや圧縮といった後処理操作にも耐性がある。 画像が操作されると、位置決めネットワークを用いて、偽造領域を正確に識別できる。 RAISE, FiveK, SIDDなどの有名なRAWデータセットに対する大規模な実験により, 本手法の有効性が示された。 我々は、この技術が将来のカメラで画像保護の選択肢として利用され、ソースでの画像操作を効果的に制限できることを期待している。

RAW files are the initial measurement of scene radiance widely used in most cameras, and the ubiquitously-used RGB images are converted from RAW data through Image Signal Processing (ISP) pipelines. Nowadays, digital images are risky of being nefariously manipulated. Inspired by the fact that innate immunity is the first line of body defense, we propose DRAW, a novel scheme of defending images against manipulation by protecting their sources, i.e., camera-shooted RAWs. Specifically, we design a lightweight Multi-frequency Partial Fusion Network (MPF-Net) friendly to devices with limited computing resources by frequency learning and partial feature fusion. It introduces invisible watermarks as protective signal into the RAW data. The protection capability can not only be transferred into the rendered RGB images regardless of the applied ISP pipeline, but also is resilient to post-processing operations such as blurring or compression. Once the image is manipulated, we can accurately identify the forged areas with a localization network. Extensive experiments on several famous RAW datasets, e.g., RAISE, FiveK and SIDD, indicate the effectiveness of our method. We hope that this technique can be used in future cameras as an option for image protection, which could effectively restrict image manipulation at the source.
翻訳日:2023-08-01 15:51:56 公開日:2023-07-31
# MRA-GNN:フィンガープリント埋め込みのためのグラフニューラルネットワーク上の最小関係認識モデル

MRA-GNN: Minutiae Relation-Aware Model over Graph Neural Network for Fingerprint Embedding ( http://arxiv.org/abs/2307.16416v1 )

ライセンス: Link先を確認
Yapeng Su, Tong Zhao, Zicheng Zhang(参考訳) 深層学習は指紋の埋め込みにおいて顕著な成果を上げており、現代の自動指紋識別システムにおいて重要な役割を担っている。 しかし、cnnベースやtransformerベースのアプローチを含む以前の作品は、指紋のトポロジーや相関といった非構造データを利用することができず、埋め込みの識別性と堅牢性を促進するために不可欠である。 本稿では,グラフニューラルネットワーク(mra-gnn)上のminutiaeリレーショナルアウェアモデルと呼ばれる,指紋埋め込みの新しいパラダイムを提案する。 提案手法は,フィンガープリント埋め込みにgnnベースのフレームワークを組み込んで,フィンガープリントのトポロジーと相関を記述的特徴にエンコードし,グラフ埋め込みの形でフィンガープリント表現を実現する。 具体的には、指紋データとそれらの相対接続をそれぞれ頂点とエッジとして解釈し、指紋の位相関係と相関構造を表すminutiaグラフとfingergraphを導入する。 我々はMRA-GNNにTRM(Topological Relation Reasoning Module)とCAM(Relation-Aware Module)を設け,これらのグラフから指紋の埋め込みをうまく学習する。 gnnモデルにおける過剰スモーシング問題に取り組むために,フィードフォワードモジュールとグラフ残差接続を提案モジュールに組み込む。 実験結果から,本手法は指紋の非構造的情報を活用する上でのアプローチの有効性が示唆された。

Deep learning has achieved remarkable results in fingerprint embedding, which plays a critical role in modern Automated Fingerprint Identification Systems. However, previous works including CNN-based and Transformer-based approaches fail to exploit the nonstructural data, such as topology and correlation in fingerprints, which is essential to facilitate the identifiability and robustness of embedding. To address this challenge, we propose a novel paradigm for fingerprint embedding, called Minutiae Relation-Aware model over Graph Neural Network (MRA-GNN). Our proposed approach incorporates a GNN-based framework in fingerprint embedding to encode the topology and correlation of fingerprints into descriptive features, achieving fingerprint representation in the form of graph embedding. Specifically, we reinterpret fingerprint data and their relative connections as vertices and edges respectively, and introduce a minutia graph and fingerprint graph to represent the topological relations and correlation structures of fingerprints. We equip MRA-GNN with a Topological relation Reasoning Module (TRM) and Correlation-Aware Module (CAM) to learn the fingerprint embedding from these graphs successfully. To tackle the over-smoothing problem in GNN models, we incorporate Feed-Forward Module and graph residual connections into proposed modules. The experimental results demonstrate that our proposed approach outperforms state-of-the-art methods on various fingerprint datasets, indicating the effectiveness of our approach in exploiting nonstructural information of fingerprints.
翻訳日:2023-08-01 15:51:36 公開日:2023-07-31
# DDG-Net: 弱教師付き時間行動定位のための識別可能性駆動型グラフネットワーク

DDG-Net: Discriminability-Driven Graph Network for Weakly-supervised Temporal Action Localization ( http://arxiv.org/abs/2307.16415v1 )

ライセンス: Link先を確認
Xiaojun Tang, Junsong Fan, Chuanchen Luo, Zhaoxiang Zhang, Man Zhang, and Zongyuan Yang(参考訳) WTAL(Wakly-supervised temporal action Localization)は、実用的ながら困難な課題である。 大規模なデータセットのため、既存のほとんどのメソッドは他のデータセットで事前訓練されたネットワークを使用して特徴を抽出する。 この問題に対処するため、研究者はいくつかの機能拡張モジュールを設計し、特にスニペット間の時間的関係をモデル化して、ローカライズモジュールの性能を向上させる。 しかし、それら全ては曖昧な情報の悪影響を無視し、他人の差別性を低下させる。 この現象を考慮し,不明瞭なスニペットや識別スニペットを明示的にモデル化し,不明瞭な情報の伝達を防止し,スニペットレベルの表現の識別性を高める識別性駆動型グラフネットワーク(ddg-net)を提案する。 さらに,特徴の同化を防止し,グラフ畳み込みネットワークを駆動し,より差別的な表現を生成する特徴一貫性損失を提案する。 THUMOS14とActivityNet1.2ベンチマークに関する大規模な実験は、DDG-Netの有効性を示し、両方のデータセットに新たな最先端結果を確立する。 ソースコードは \url{https://github.com/xiaojuntang22/iccv2023-ddgnet} で入手できる。

Weakly-supervised temporal action localization (WTAL) is a practical yet challenging task. Due to large-scale datasets, most existing methods use a network pretrained in other datasets to extract features, which are not suitable enough for WTAL. To address this problem, researchers design several modules for feature enhancement, which improve the performance of the localization module, especially modeling the temporal relationship between snippets. However, all of them neglect the adverse effects of ambiguous information, which would reduce the discriminability of others. Considering this phenomenon, we propose Discriminability-Driven Graph Network (DDG-Net), which explicitly models ambiguous snippets and discriminative snippets with well-designed connections, preventing the transmission of ambiguous information and enhancing the discriminability of snippet-level representations. Additionally, we propose feature consistency loss to prevent the assimilation of features and drive the graph convolution network to generate more discriminative representations. Extensive experiments on THUMOS14 and ActivityNet1.2 benchmarks demonstrate the effectiveness of DDG-Net, establishing new state-of-the-art results on both datasets. Source code is available at \url{https://github.com/XiaojunTang22/ICCV2023-DDGNet}.
翻訳日:2023-08-01 15:51:07 公開日:2023-07-31
# RCS-YOLO:脳腫瘍検出用高速高精度物体検出装置

RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor Detection ( http://arxiv.org/abs/2307.16412v1 )

ライセンス: Link先を確認
Ming Kang, Chee-Ming Ting, Fung Fung Ting, Rapha\"el C.-W. Phan(参考訳) 速度と精度のバランスが良く、最先端のYOLOフレームワークはオブジェクト検出の最も効率的なアルゴリズムの1つになっている。 しかし,脳腫瘍検出では,yoloネットワークの利用性能があまり研究されていない。 本稿では,チャネルシャッフル(RCS-YOLO)に基づく並列化畳み込みを用いたYOLOアーキテクチャを提案する。 本稿では,特徴カスケードと計算効率をリンクするrcs(rcs-osa)のrcsとワンショットアグリゲーションを行い,よりリッチな情報抽出と時間消費の削減について述べる。 脳腫瘍データセット Br35H の実験的結果は,提案モデルが YOLOv6, YOLOv7, YOLOv8 を超える速度と精度を示した。 特に、yolov7と比較してrcs-yoloの精度は2.6%向上し、推論速度は毎秒114.8画像(fps)で60%向上した。 提案したRCS-YOLOは,脳腫瘍検出タスクにおける最先端の性能を実現する。 コードはhttps://github.com/mkang315/RCS-YOLOで公開されている。

With an excellent balance between speed and accuracy, cutting-edge YOLO frameworks have become one of the most efficient algorithms for object detection. However, the performance of using YOLO networks is scarcely investigated in brain tumor detection. We propose a novel YOLO architecture with Reparameterized Convolution based on channel Shuffle (RCS-YOLO). We present RCS and a One-Shot Aggregation of RCS (RCS-OSA), which link feature cascade and computation efficiency to extract richer information and reduce time consumption. Experimental results on the brain tumor dataset Br35H show that the proposed model surpasses YOLOv6, YOLOv7, and YOLOv8 in speed and accuracy. Notably, compared with YOLOv7, the precision of RCS-YOLO improves by 2.6%, and the inference speed by 60% at 114.8 images detected per second (FPS). Our proposed RCS-YOLO achieves state-of-the-art performance on the brain tumor detection task. The code is available at https://github.com/mkang315/RCS-YOLO.
翻訳日:2023-08-01 15:50:44 公開日:2023-07-31
# HiREN: Scene Image Super-Resolutionの高画質化を目指して

HiREN: Towards Higher Supervision Quality for Better Scene Text Image Super-Resolution ( http://arxiv.org/abs/2307.16410v1 )

ライセンス: Link先を確認
Minyi Zhao, Yi Xu, Bingjia Li, Jie Wang, Jihong Guan, and Shuigeng Zhou(参考訳) Scene text image super- resolution (STISR) は低解像度シーン画像からのテキスト認識のための重要な前処理技術である。 近年,高解像度(HR)画像からテキスト固有情報を抽出し,STISRモデルトレーニングを監督する手法が提案されている。 しかし、手動によるHR画像撮影における制御不能な要因(射撃装置、焦点、環境など)のため、HR画像の品質は保証できないため、STISRのパフォーマンスに必然的に影響を及ぼす。 本稿では,まず,HR画像の品質向上とSTISRの監督にHR画像を利用することによって,STISRを向上する新たなアイデアを提案する。 具体的には,2つの分岐と品質推定モジュールからなる高分解能化(HiREN)と呼ばれる新しいSTISRフレームワークを開発する。 第1分枝は低解像度(LR)画像の復元のために開発され、第1分枝は高画質(HQ)テキスト画像の生成を目的としたHR品質向上分枝であり、LR画像のより正確な監視を提供する。 HQからHRへの劣化は多種多様であり、HQ画像生成のための画素レベルの監視は存在しないため、さまざまな劣化を処理するためのカーネル誘導拡張ネットワークを設計し、HR強調ブランチをトレーニングするための弱い監視信号として認識およびテキストレベルのアノテーションからのフィードバックを利用する。 そして、各画像の損失を重み付け、誤った監視情報を抑制するために使用される本社画像の品質を評価するために品質推定モジュールを用いる。 TextZoomの大規模な実験によると、HiRENは既存のほとんどのSTISRメソッドとうまく動作し、パフォーマンスを大幅に向上できる。

Scene text image super-resolution (STISR) is an important pre-processing technique for text recognition from low-resolution scene images. Nowadays, various methods have been proposed to extract text-specific information from high-resolution (HR) images to supervise STISR model training. However, due to uncontrollable factors (e.g. shooting equipment, focus, and environment) in manually photographing HR images, the quality of HR images cannot be guaranteed, which unavoidably impacts STISR performance. Observing the quality issue of HR images, in this paper we propose a novel idea to boost STISR by first enhancing the quality of HR images and then using the enhanced HR images as supervision to do STISR. Concretely, we develop a new STISR framework, called High-Resolution ENhancement (HiREN) that consists of two branches and a quality estimation module. The first branch is developed to recover the low-resolution (LR) images, and the other is an HR quality enhancement branch aiming at generating high-quality (HQ) text images based on the HR images to provide more accurate supervision to the LR images. As the degradation from HQ to HR may be diverse, and there is no pixel-level supervision for HQ image generation, we design a kernel-guided enhancement network to handle various degradation, and exploit the feedback from a recognizer and text-level annotations as weak supervision signal to train the HR enhancement branch. Then, a quality estimation module is employed to evaluate the qualities of HQ images, which are used to suppress the erroneous supervision information by weighting the loss of each image. Extensive experiments on TextZoom show that HiREN can work well with most existing STISR methods and significantly boost their performances.
翻訳日:2023-08-01 15:50:26 公開日:2023-07-31
# Causal-learn: PythonのCausal Discovery

Causal-learn: Causal Discovery in Python ( http://arxiv.org/abs/2307.16405v1 )

ライセンス: Link先を確認
Yujia Zheng, Biwei Huang, Wei Chen, Joseph Ramsey, Mingming Gong, Ruichu Cai, Shohei Shimizu, Peter Spirtes, Kun Zhang(参考訳) 因果発見は、科学と工学の基本的なタスクである観測データから因果関係を明らかにすることを目的としている。 因果発見のためのオープンソースのpythonライブラリである$\textit{causal-learn}$について説明する。 このライブラリは、実践者と研究者の両方に因果発見方法の包括的なコレクションを提供することに焦点を当てている。 非専門家向けの使いやすいapi、開発者のためのモジュール化されたビルディングブロック、学習者向けの詳細なドキュメント、そしてすべての包括的なメソッドを提供する。 RやJavaの以前のパッケージとは異なり、$\textit{causal-learn}$はPythonで完全に開発されている。 このライブラリはhttps://github.com/py-why/causal-learnで入手できる。

Causal discovery aims at revealing causal relations from observational data, which is a fundamental task in science and engineering. We describe $\textit{causal-learn}$, an open-source Python library for causal discovery. This library focuses on bringing a comprehensive collection of causal discovery methods to both practitioners and researchers. It provides easy-to-use APIs for non-specialists, modular building blocks for developers, detailed documentation for learners, and comprehensive methods for all. Different from previous packages in R or Java, $\textit{causal-learn}$ is fully developed in Python, which could be more in tune with the recent preference shift in programming languages within related communities. The library is available at https://github.com/py-why/causal-learn.
翻訳日:2023-08-01 15:49:53 公開日:2023-07-31
# VOPc@grapheneナノリボン錯体におけるスピンデコヒーレンス

Spin decoherence in VOPc@graphene nanoribbon complexes ( http://arxiv.org/abs/2307.16403v1 )

ライセンス: Link先を確認
Xiao Chen, James N. Fry and H. P. Cheng(参考訳) カーボンナノリボンまたはナノグラフェン量子ビットアレイは、光、電荷、スピン間の量子-量子変換を容易にし、量子コヒーレント系における基礎科学や高レベル量子ビット回路の構築に優れたテストベッドとなる。 本研究は, 腕甲縁グラフェンナノリボン(GNR)上に集積したバナジルフタロシアニン(VOPc)分子の電子分子スピンの周囲の核スピン浴との結合によるスピン脱コヒーレンスについて検討した。 密度汎関数理論(DFT)は基底状態原子配置を得るために用いられる。 ハーンエコー実験におけるスピンコヒーレンスの減少は、DFTから計算された超微粒子および電場勾配テンソルを含むスピンハミルトンによるクラスター相関展開法を用いてシミュレートされる。 脱コヒーレンス時間$T_2$は磁場配向に対して異方性であり、VOPcとGNRの両方で水素原子スピンによってのみ決定される。 窒素およびバナジウム核スピンによる大きな電子スピンエコーエンベロープ変調(ESEEM)は特定の磁場範囲に存在し、磁場をチューニングすることで完全に抑制することができる。 これらのフィールド範囲と超微細相互作用の関係を解析する。 核四極子モーメントとの相互作用の影響も研究され、無視されたスピンハミルトニアンの適用性と限界が検証された。

Carbon nanoribbon or nanographene qubit arrays can facilitate quantum-to-quantum transduction between light, charge, and spin, making them an excellent testbed for fundamental science in quantum coherent systems and for the construction of higher-level qubit circuits. In this work, we study spin decoherence due to coupling with a surrounding nuclear spin bath of an electronic molecular spin of a vanadyl phthalocyanine (VOPc) molecule integrated on an armchair-edged graphene nanoribbon (GNR). Density functional theory (DFT) is used to obtain ground state atomic configurations. Decay of spin coherence in Hahn echo experiments is then simulated using the cluster correlation expansion method with a spin Hamiltonian involving hyperfine and electric field gradient tensors calculated from DFT. We find that the decoherence time $T_2$ is anisotropic with respect to magnetic field orientation and determined only by the hydrogen nuclear spins both on VOPc and GNR. Large electron spin echo envelope modulation (ESEEM) due to nitrogen and vanadium nuclear spins is present at specific field ranges and can be completely suppressed by tuning the magnetic field. The relation between these field ranges and the hyperfine interactions is analyzed. The effects of interactions with the nuclear quadrupole moments are also studied, validating the applicability and limitations of the spin Hamiltonian when they are disregarded.
翻訳日:2023-08-01 15:49:40 公開日:2023-07-31
# SelfSeg: ニューラルネットワーク翻訳のための自己教師付きサブワードセグメンテーション手法

SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation ( http://arxiv.org/abs/2307.16400v1 )

ライセンス: Link先を確認
Haiyue Song, Raj Dabre, Chenhui Chu, Sadao Kurohashi, and Eiichiro Sumita(参考訳) サブワードセグメンテーションは、Neural Machine Translation(NMT)の重要な前処理ステップである。 既存の研究によると、ニューラルネットワークのサブワードセグナーはバイトペアエンコーディング(bpe)よりも優れているが、並列コーパスやトレーニング日数、デコードに時間を要するため、非効率である。 本稿では、学習/復号にはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする、自己教師付きニューラルネットワークサブワードセグメンテーション手法であるselfsegを提案する。 SelfSegは、部分的にマスキングされた文字列の形で単語を入力し、単語生成確率を最適化し、動的プログラミングアルゴリズムを用いて計算された最大後続確率のセグメンテーションを生成する。 SelfSegの学習時間は単語周波数に依存し,学習フェーズを高速化するための単語周波数正規化戦略を検討する。 さらに,セグメンタが単語に対して様々なセグメンテーションを生成するための正規化機構を提案する。 提案手法の有効性を示すため,低,中,高リソースシナリオでMT実験を行い,異なるセグメンテーション手法を用いた性能の比較を行った。 実験の結果,低リソースのALTデータセットでは,BPEやSentencePieceと比較して1.2BLEU以上のスコア改善が達成され,動的プログラミング符号化(DPE)やVOLT(VOLT)による語彙学習(VOLT)よりも1.1スコア改善が得られた。 正規化法はBPEよりも約4.3BLEUスコアが向上し、BPEの正規化バージョンであるBPEドロップアウトよりも1.2BLEUスコアが向上する。 また,IWSLT15 Vi->En,WMT16 Ro->En,WMT15 Fi->Enデータセットの大幅な改善や,WMT14 De->EnおよびWMT14 Fr->Enデータセットの競合結果も観察した。

Sub-word segmentation is an essential pre-processing step for Neural Machine Translation (NMT). Existing work has shown that neural sub-word segmenters are better than Byte-Pair Encoding (BPE), however, they are inefficient as they require parallel corpora, days to train and hours to decode. This paper introduces SelfSeg, a self-supervised neural sub-word segmentation method that is much faster to train/decode and requires only monolingual dictionaries instead of parallel corpora. SelfSeg takes as input a word in the form of a partially masked character sequence, optimizes the word generation probability and generates the segmentation with the maximum posterior probability, which is calculated using a dynamic programming algorithm. The training time of SelfSeg depends on word frequencies, and we explore several word frequency normalization strategies to accelerate the training phase. Additionally, we propose a regularization mechanism that allows the segmenter to generate various segmentations for one word. To show the effectiveness of our approach, we conduct MT experiments in low-, middle- and high-resource scenarios, where we compare the performance of using different segmentation methods. The experimental results demonstrate that on the low-resource ALT dataset, our method achieves more than 1.2 BLEU score improvement compared with BPE and SentencePiece, and a 1.1 score improvement over Dynamic Programming Encoding (DPE) and Vocabulary Learning via Optimal Transport (VOLT) on average. The regularization method achieves approximately a 4.3 BLEU score improvement over BPE and a 1.2 BLEU score improvement over BPE-dropout, the regularized version of BPE. We also observed significant improvements on IWSLT15 Vi->En, WMT16 Ro->En and WMT15 Fi->En datasets, and competitive results on the WMT14 De->En and WMT14 Fr->En datasets.
翻訳日:2023-08-01 15:49:18 公開日:2023-07-31
# 意志による視覚的キャプション:少しスタイリッシュな文でガイドされた画像とビデオを記述

Visual Captioning at Will: Describing Images and Videos Guided by a Few Stylized Sentences ( http://arxiv.org/abs/2307.16399v1 )

ライセンス: Link先を確認
Dingyi Yang, Hongyu Chen, Xinglin Hou, Tiezheng Ge, Yuning Jiang, Qin Jin(参考訳) スティル化された視覚キャプションは、特定のスタイルで画像やビデオの説明を生成することを目的としており、より魅力的で感情的に適切である。 このタスクの1つの大きな課題は、ビジュアルコンテンツのためのペアのスタイル化されたキャプションがないことである。 しかし、これらのアプローチには、スタイルラベルを持つ十分な例によるトレーニングが必要であり、生成されたキャプションは事前に定義されたスタイルに限られている。 これらの制限に対処するために,我々は,任意のスタイルでキャプションを生成することを目的とした,数発のスタイリッシュなビジュアルキャプションの問題を,さらなるトレーニングを必要とせず,推論のガイダンスとして検討する。 本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。 まず、ラベルのないテキストのみのコーパスでスタイル表現を生成するように、スタイル抽出器をトレーニングします。 そして,抽出器を凍結し,抽出したスタイルベクトルと投影されたビジュアルコンテンツベクトルに基づいて,デコーダがスタイリングされた記述を生成する。 提案モデルでは,ユーザが入力した例からスタイル表現を導出することにより,好みのキャプションを生成することができる。 印象的視覚キャプションは最先端のアプローチを上回り,ラベル付きコーパスで完全に訓練されたモデルに匹敵する。 人間の評価は、モデルが複数のスタイルを扱う能力をさらに確認します。

Stylized visual captioning aims to generate image or video descriptions with specific styles, making them more attractive and emotionally appropriate. One major challenge with this task is the lack of paired stylized captions for visual content, so most existing works focus on unsupervised methods that do not rely on parallel datasets. However, these approaches still require training with sufficient examples that have style labels, and the generated captions are limited to predefined styles. To address these limitations, we explore the problem of Few-Shot Stylized Visual Captioning, which aims to generate captions in any desired style, using only a few examples as guidance during inference, without requiring further training. We propose a framework called FS-StyleCap for this task, which utilizes a conditional encoder-decoder language model and a visual projection module. Our two-step training scheme proceeds as follows: first, we train a style extractor to generate style representations on an unlabeled text-only corpus. Then, we freeze the extractor and enable our decoder to generate stylized descriptions based on the extracted style vector and projected visual content vectors. During inference, our model can generate desired stylized captions by deriving the style representation from user-supplied examples. Our automatic evaluation results for few-shot sentimental visual captioning outperform state-of-the-art approaches and are comparable to models that are fully trained on labeled style corpora. Human evaluations further confirm our model s ability to handle multiple styles.
翻訳日:2023-08-01 15:48:41 公開日:2023-07-31
# 深層学習支援自動検出による頭部ct画像再構成標準化に向けて

Towards Head Computed Tomography Image Reconstruction Standardization with Deep Learning Assisted Automatic Detection ( http://arxiv.org/abs/2307.16440v1 )

ライセンス: Link先を確認
Bowen Zheng, Chenxi Huang, Yuemei Luo(参考訳) 頭部CT像の3次元再構成は, 組織構造の複雑な空間的関係を解明し, 正確な診断を支援する。 いずれにせよ,患者の身体的制約やCTスキャナの傾斜角度制限など,臨床現場では,偏差のない最適な頭部CTスキャンの確保は困難である。 手動のフォーマッティングと再構築は主観性だけでなく、時間と労働資源も導入する。 これらの課題に対処するため,手動による介入を低減し,精度と再現性を向上する効率的な頭部CT画像再構成手法を提案する。 本手法では,深層学習に基づく物体検出アルゴリズムを用いて軌道線ランドマークを同定・評価し,再構成前の画像の自動再構成を行う。 頭部ct画像の文脈における物体検出アルゴリズムの既存評価の多さを考慮し,理論的および実験的視点から10の手法を比較した。 精度、効率、ロバスト性を探ることで、軽量のYOLOv8を92.91%のmAPと、クラス不均衡に対する顕著な堅牢性で、タスクのアペストアルゴリズムとして取り上げました。 標準化された再建成績の質的評価は,本手法の臨床的実践性と妥当性を示すものである。

Three-dimensional (3D) reconstruction of head Computed Tomography (CT) images elucidates the intricate spatial relationships of tissue structures, thereby assisting in accurate diagnosis. Nonetheless, securing an optimal head CT scan without deviation is challenging in clinical settings, owing to poor positioning by technicians, patient's physical constraints, or CT scanner tilt angle restrictions. Manual formatting and reconstruction not only introduce subjectivity but also strain time and labor resources. To address these issues, we propose an efficient automatic head CT images 3D reconstruction method, improving accuracy and repeatability, as well as diminishing manual intervention. Our approach employs a deep learning-based object detection algorithm, identifying and evaluating orbitomeatal line landmarks to automatically reformat the images prior to reconstruction. Given the dearth of existing evaluations of object detection algorithms in the context of head CT images, we compared ten methods from both theoretical and experimental perspectives. By exploring their precision, efficiency, and robustness, we singled out the lightweight YOLOv8 as the aptest algorithm for our task, with an mAP of 92.91% and impressive robustness against class imbalance. Our qualitative evaluation of standardized reconstruction results demonstrates the clinical practicability and validity of our method.
翻訳日:2023-08-01 15:40:45 公開日:2023-07-31
# マイクロ波励起スピンフリップ遮断による中性原子中の量子論理ゲートの絡み込み

Entangling quantum logic gates in neutral atoms via the microwave-driven spin-flip blockade ( http://arxiv.org/abs/2307.16434v1 )

ライセンス: Link先を確認
Vikas Buchemmavari, Sivaprasad Omanakuttan, Yuan-Yu Jau, and Ivan Deutsch(参考訳) rydberg双極子ブロックは、中性原子量子ビット間の絡み合いを誘導する標準的なメカニズムとして登場した。 これらのプロトコルでは、Rydberg状態に量子状態を結合するレーザー場はエンタングゲートを実装するように変調される。 ここでは、Rydbergドレッシングとマイクロ波フィールド駆動スピンフリップ遮断によるエンタングゲート実装の代替プロトコルを提案する。 セシウムの時計状態においてエンコードされた量子ビットの具体例を考える。 補助超微細状態は、部分的にRydberg文字を取得するために光学的に服装される。 したがって、リドベルク状態のプロキシとして機能し、非線形光シフトは封鎖強度の役割を果たす。 この服を着た補助状態に量子状態と結合するマイクロ波場を変調してエンタングゲートを実装することができる。 光レシエーションのために設計された論理ゲートプロトコルは、実験的な制御方法がより堅牢であるこのマイクロ波レシエーションにインポートすることができる。 ライドベルク実験で通常用いられる強い双極子-ブロック法とは異なり、中程度のスピン-フリップ-ブロック法ではより速いゲートとより小さなライドバーグ崩壊をもたらすことが示されている。 本研究では,高忠実度2ビットエンタングルゲートを発生し,解析的挙動を特徴付ける様々な操作条件について検討する。 マイクロ波制御の本質的なロバスト性に加えて、これらのゲートは、原子運動の熱的変動やレーザー振幅、および非定常背景場などのノイズ源に対してより堅牢に設計することができる。

The Rydberg dipole-blockade has emerged as the standard mechanism to induce entanglement between neutral atom qubits. In these protocols, laser fields that couple qubit states to Rydberg states are modulated to implement entangling gates. Here we present an alternative protocol to implement entangling gates via Rydberg dressing and a microwave-field-driven spin-flip blockade. We consider the specific example of qubits encoded in the clock states states of cesium. An auxiliary hyperfine state is optically dressed so that it acquires partial Rydberg character. It thus acts as a proxy Rydberg state, with a nonlinear light-shift that plays the role of blockade strength. A microwave-frequency field coupling a qubit state to this dressed auxiliary state can be modulated to implement entangling gates. Logic gate protocols designed for the optical regime can be imported to this microwave regime, for which experimental control methods are more robust. We show that unlike the strong dipole-blockade regime usually employed in Rydberg experiments, going to a moderate-spin-flip-blockade regime results in faster gates and smaller Rydberg decay. We study various regimes of operations that can yield high-fidelity two-qubit entangling gates and characterize their analytical behavior. In addition to the inherent robustness of microwave control, we can design these gates to be more robust to thermal fluctuations in atomic motion as well to laser amplitude, and other noise sources such as stray background fields.
翻訳日:2023-08-01 15:40:22 公開日:2023-07-31
# ニューロン活性化パターンを用いた分布外物体の検出

Detecting Out-of-distribution Objects Using Neuron Activation Patterns ( http://arxiv.org/abs/2307.16433v1 )

ライセンス: Link先を確認
Bart{\l}omiej Olber, Krystian Radlak, Krystian Chachu{\l}a, Jakub {\L}yskawa, Piotr Fr\k{a}tczak(参考訳) オブジェクト検出は、現代のロボティクスアプリケーションで使用される多くの知覚アルゴリズムに不可欠である。 残念ながら、既存のモデルは、out-of-distribution (ood)サンプルに高い信頼度スコアを割り当てる傾向があります。 近年,OOD検出はコンピュータビジョン(CV)コミュニティによって広く研究されているが,ほとんどの提案手法は画像認識にのみ適用されている。 自動運転車の認識のような現実世界の応用は、分類よりもはるかに複雑な課題に苦しむ。 本研究では,物体検出の一般的な分野に着目し,物体検出(NAPTRON)における分布外サンプル検出のためのニューロン活性化PaTteRnsを導入する。 実験の結果,in-distribution (id)性能に影響を与えることなく,最先端の手法よりも優れた手法が得られた。 2つの異なるOODシナリオと3種類のオブジェクト検出器でメソッドを評価することで、OODオブジェクト検出のための最大のオープンソースベンチマークを作成しました。

Object detection is essential to many perception algorithms used in modern robotics applications. Unfortunately, the existing models share a tendency to assign high confidence scores for out-of-distribution (OOD) samples. Although OOD detection has been extensively studied in recent years by the computer vision (CV) community, most proposed solutions apply only to the image recognition task. Real-world applications such as perception in autonomous vehicles struggle with far more complex challenges than classification. In our work, we focus on the prevalent field of object detection, introducing Neuron Activation PaTteRns for out-of-distribution samples detection in Object detectioN (NAPTRON). Performed experiments show that our approach outperforms state-of-the-art methods, without the need to affect in-distribution (ID) performance. By evaluating the methods in two distinct OOD scenarios and three types of object detectors we have created the largest open-source benchmark for OOD object detection.
翻訳日:2023-08-01 15:39:58 公開日:2023-07-31
# QKDアプリケーションのための低コストFPGAによるLFSRベースのRNG

LFSR based RNG on low cost FPGA for QKD applications ( http://arxiv.org/abs/2307.16431v1 )

ライセンス: Link先を確認
Pooja Chandravanshi, Jaya Krishna Meka, Vardaan Mongia, Ravindra P. Singh, Shashi Prabhakar(参考訳) リニアフィードバックシフトレジスタ (LFSR) ベースの擬似ランダム数生成器 (PRNG) は、多くの分野に応用されている。 線型であることの問題は一般に、必要となる応用に従って非線形性を導入することで回避され、あるものはアドホックであるが、あるものは理論的な証明で目的を果たす。 本研究の目的は,量子鍵分布(QKD)アプリケーションのための,計算コストの低い「ランダム」リソースを開発することである。 しかし, 副産物として, 実験による最小非線形性の導入効果についても検討した。 数値的な実装からランダムなシーケンスを生成するために、我々は、QKDプロトコルの直接利用事例の1つである低コストFPGA評価ボード上で、2つのLFSRシーケンスのXORを実装した。 このような厳密にテストされた乱数を、人工ニューラルネットワークや集積チップのための回路のテスト、無線技術のための直接暗号化などに用いることもできる。

Linear-feedback shift register (LFSR) based pseudo-random number generator (PRNG) has applications in a plethora of fields. The issue of being linear is generally circumvented by introducing non-linearities as per the required applications, with some being adhoc but fulfilling the purpose while others with a theoretical proof. The goal of this study is to develop a sufficiently ``random" resource for Quantum Key Distribution (QKD) applications with a low computational cost. However, as a byproduct, we have also studied the effect of introducing minimum non-linearity with experimental verification. Starting from the numerical implementation to generate a random sequence, we have implemented a XOR of two LFSR sequences on a low-cost FPGA evaluation board with one of the direct use cases in QKD protocols. Such rigorously tested random numbers could also be used like artificial neural networks or testing of circuits for integrated chips and directly for encryption for wireless technologies.
翻訳日:2023-08-01 15:39:43 公開日:2023-07-31
# VITS2: 逆学習とアーキテクチャ設計による単段階テキスト音声の質と効率の向上

VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design ( http://arxiv.org/abs/2307.16430v1 )

ライセンス: Link先を確認
Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim(参考訳) 近年,シングルステージ音声合成モデルが活発に研究され,その結果は2段階パイプラインシステムより優れている。 前回の単段モデルは大きな進歩を遂げているが、その断続的な不自然性、計算効率、音素変換への強い依存といった点で改善の余地がある。 本稿では,先行研究のいくつかの側面を改善し,より自然な音声を効率的に合成する単段音声合成モデルvits2について紹介する。 本稿では,構造と学習機構の改善を提案し,提案手法が自然性の向上,複数話者モデルにおける音声特性の類似性,訓練と推論の効率向上に有効であることを示す。 さらに,本手法により,前作における音素変換への強い依存度を著しく低減できることを示す。

Single-stage text-to-speech models have been actively studied recently, and their results have outperformed two-stage pipeline systems. Although the previous single-stage model has made great progress, there is room for improvement in terms of its intermittent unnaturalness, computational efficiency, and strong dependence on phoneme conversion. In this work, we introduce VITS2, a single-stage text-to-speech model that efficiently synthesizes a more natural speech by improving several aspects of the previous work. We propose improved structures and training mechanisms and present that the proposed methods are effective in improving naturalness, similarity of speech characteristics in a multi-speaker model, and efficiency of training and inference. Furthermore, we demonstrate that the strong dependence on phoneme conversion in previous works can be significantly reduced with our method, which allows a fully end-to-end single-stage approach.
翻訳日:2023-08-01 15:39:29 公開日:2023-07-31
# 銀行金融・保険の因果推論に関する調査

Causal Inference for Banking Finance and Insurance A Survey ( http://arxiv.org/abs/2307.16427v1 )

ライセンス: Link先を確認
Satyam Kumar, Yelleti Vivek, Vadlamani Ravi, Indranil Bose(参考訳) 因果推論は、統計的モデルと人工知能モデルによって取られた決定を説明する上で重要な役割を果たす。 遅かれ早かれ、この分野は研究者や実践者の注目を集め始めた。 本稿では,1992-2023年に発行された37論文の総合的な調査と,銀行・金融・保険への因果推論の適用について述べる。 諸藩の諸家によって分類される。 (i)銀行業 二 金融及び法人金融、金融リスク及び金融政策を含むガバナンス金融、金融経済及び行動金融等のサブドメイン (iii)保険。 さらに,本論文では,因果推論の主要な要素,すなわちベイジアン因果関係,グランガー因果関係,およびその反事実として使用されるジャンゴンなどの統計手法について述べる。 このレビューはまた、将来の研究にいくつかの重要な方向性を推奨している。 結論として, 銀行・保険部門における因果推論の適用は依然として初期段階にあり, さらなる研究が実現可能な方法であることが示唆された。

Causal Inference plays an significant role in explaining the decisions taken by statistical models and artificial intelligence models. Of late, this field started attracting the attention of researchers and practitioners alike. This paper presents a comprehensive survey of 37 papers published during 1992-2023 and concerning the application of causal inference to banking, finance, and insurance. The papers are categorized according to the following families of domains: (i) Banking, (ii) Finance and its subdomains such as corporate finance, governance finance including financial risk and financial policy, financial economics, and Behavioral finance, and (iii) Insurance. Further, the paper covers the primary ingredients of causal inference namely, statistical methods such as Bayesian Causal Network, Granger Causality and jargon used thereof such as counterfactuals. The review also recommends some important directions for future research. In conclusion, we observed that the application of causal inference in the banking and insurance sectors is still in its infancy, and thus more research is possible to turn it into a viable method.
翻訳日:2023-08-01 15:39:13 公開日:2023-07-31
# 深部明示多項式曲線推定による高ダイナミックレンジ画像再構成

High Dynamic Range Image Reconstruction via Deep Explicit Polynomial Curve Estimation ( http://arxiv.org/abs/2307.16426v1 )

ライセンス: Link先を確認
Jiaqi Tang, Xiaogang Xu, Sixing Hu and Ying-Cong Chen(参考訳) カメラの容量が限られているため、デジタル画像は通常、現実世界のシーンラディアンスよりも狭いダイナミック照明範囲を持つ。 この問題を解決するために,現実のシーンをよりよく表現するために,ハイダイナミックレンジ(HDR)再構成を提案する。 しかし,物理画像パラメータの違いから,画像間のトーンマッピング機能や実放射能は多様であり,hdrの再構成は困難である。 既存の解は、トーンマッピング関数と生成したHDR画像との対応関係を明確にすることができないが、HDR画像の再構成を導く際には、この関係が不可欠である。 この問題に対処するために,1つのネットワークにおけるトーンマッピング関数とその対応するHDR画像を明示的に推定する手法を提案する。 まず, トーンマッピング関数の特性に基づいて, 多項式によるモデルを構築し, トーン曲線の傾向を記述する。 この曲線を適合させるために、学習可能なネットワークを用いて多項式の係数を推定する。 この曲線は低ダイナミックレンジ(LDR)画像のトーン空間に応じて自動的に調整され、実際のHDR画像を再構成する。 さらに、現在の全てのデータセットは、トーンマッピング関数とLDR画像の対応関係を提供していないため、合成画像と実画像の両方で新しいデータセットを構築する。 広範な実験により,提案手法は異なる音素マッピング機能の下でよく一般化し, sota性能を実現することが示された。

Due to limited camera capacities, digital images usually have a narrower dynamic illumination range than real-world scene radiance. To resolve this problem, High Dynamic Range (HDR) reconstruction is proposed to recover the dynamic range to better represent real-world scenes. However, due to different physical imaging parameters, the tone-mapping functions between images and real radiance are highly diverse, which makes HDR reconstruction extremely challenging. Existing solutions can not explicitly clarify a corresponding relationship between the tone-mapping function and the generated HDR image, but this relationship is vital when guiding the reconstruction of HDR images. To address this problem, we propose a method to explicitly estimate the tone mapping function and its corresponding HDR image in one network. Firstly, based on the characteristics of the tone mapping function, we construct a model by a polynomial to describe the trend of the tone curve. To fit this curve, we use a learnable network to estimate the coefficients of the polynomial. This curve will be automatically adjusted according to the tone space of the Low Dynamic Range (LDR) image, and reconstruct the real HDR image. Besides, since all current datasets do not provide the corresponding relationship between the tone mapping function and the LDR image, we construct a new dataset with both synthetic and real images. Extensive experiments show that our method generalizes well under different tone-mapping functions and achieves SOTA performance.
翻訳日:2023-08-01 15:38:54 公開日:2023-07-31
# MetaDiff:Few-Shot Learningのための条件付き拡散によるメタラーニング

MetaDiff: Meta-Learning with Conditional Diffusion for Few-Shot Learning ( http://arxiv.org/abs/2307.16424v1 )

ライセンス: Link先を確認
Baoquan Zhang, Demin Yu(参考訳) 深層モデルの導入 数少ない学習、すなわちごく少数の例から素早く学ぶことは、人工知能にとって重要な課題である。 勾配に基づくメタラーニングアプローチは、新しいタスクの学習方法を学ぶことによって、課題を効果的に解決する。 その鍵となる考え方は、双方向の最適化方法でディープモデルを学習することであり、そこでは、外ループプロセスは共有勾配降下アルゴリズム(すなわちハイパーパラメータ)を学習し、一方インナーループプロセスは、わずかなラベル付きデータを用いてタスク固有モデルを最適化する。 これらの既存手法は優れた性能を示したが、外ループ法では内部最適化経路に沿って2階微分を計算する必要があり、メモリ負荷が大きくなり勾配が消える危険性がある。 拡散モデルの最近の進展から着想を得た結果、内ループ勾配降下過程は、デノナイジングの対象がモデル重みではなく原データである拡散の逆過程(デノナイジング)として実際に見ることができることがわかった。 本稿では,拡散モデルとして勾配降下最適化器をモデル化し,メタディフ(MetaDiff)と呼ばれるタスク条件拡散に基づくメタラーニングを提案し,ガウスノイズから目標重みへのモデル重みの最適化プロセスを効果的にモデル化する。 拡散モデルのトレーニング効率のため、私たちのMetaDiffはインナーループパスを通して差別化する必要がなく、メモリ負荷と消滅する勾配のリスクを効果的に軽減できる。 実験の結果,メタディフは,最先端の勾配に基づくメタラーニングファミリよりも,数ショットの学習タスクで優れていた。

Equipping a deep model the abaility of few-shot learning, i.e., learning quickly from only few examples, is a core challenge for artificial intelligence. Gradient-based meta-learning approaches effectively address the challenge by learning how to learn novel tasks. Its key idea is learning a deep model in a bi-level optimization manner, where the outer-loop process learns a shared gradient descent algorithm (i.e., its hyperparameters), while the inner-loop process leverage it to optimize a task-specific model by using only few labeled data. Although these existing methods have shown superior performance, the outer-loop process requires calculating second-order derivatives along the inner optimization path, which imposes considerable memory burdens and the risk of vanishing gradients. Drawing inspiration from recent progress of diffusion models, we find that the inner-loop gradient descent process can be actually viewed as a reverse process (i.e., denoising) of diffusion where the target of denoising is model weights but the origin data. Based on this fact, in this paper, we propose to model the gradient descent optimizer as a diffusion model and then present a novel task-conditional diffusion-based meta-learning, called MetaDiff, that effectively models the optimization process of model weights from Gaussion noises to target weights in a denoising manner. Thanks to the training efficiency of diffusion models, our MetaDiff do not need to differentiate through the inner-loop path such that the memory burdens and the risk of vanishing gradients can be effectvely alleviated. Experiment results show that our MetaDiff outperforms the state-of-the-art gradient-based meta-learning family in few-shot learning tasks.
翻訳日:2023-08-01 15:38:29 公開日:2023-07-31
# 経験分布からの最大偏差を考慮した最適生成モデル

Guaranteed Optimal Generative Modeling with Maximum Deviation from the Empirical Distribution ( http://arxiv.org/abs/2307.16422v1 )

ライセンス: Link先を確認
Elen Vardanyan, Arshak Minasyan, Sona Hunanyan, Tigran Galstyan, Arnak Dalalyan(参考訳) ジェネレーティブ・モデリング(Generative Modeling)は、科学および産業分野で様々な用途に応用された機械学習手法である。 その主な目的は、トレーニングデータから得られた未知の分布から引き出された新しいサンプルをシミュレートし、多様性を確保し、トレーニングデータからのサンプルの複製を避けることである。 本稿では,2つの特性を持つ生成モデルの学習に関する理論的知見を示す。 (i)サンプルサイズが無限に近づくにつれて、真のデータ生成分布を訓練されたデータ生成分布に置き換える誤差を最適にゼロに収束させるべきである。 (ii) 訓練されたデータ生成分布は、トレーニングデータ中の任意の分散複製例から十分に離れるべきである。 これらの性質を定量化し、サンプルサイズ、周囲の空間の次元、潜在空間の次元といった関連するパラメータに依存する有限なサンプルリスク境界の形で非漸近的な結果を与える。 この結果は、確率分布空間における誤差を定量化するために用いられる一般積分確率メトリクスに適用でき、wasserstein-$$$距離が主な例である。 理論的知見を示す数値的な例も含んでいる。

Generative modeling is a widely-used machine learning method with various applications in scientific and industrial fields. Its primary objective is to simulate new examples drawn from an unknown distribution given training data while ensuring diversity and avoiding replication of examples from the training data. This paper presents theoretical insights into training a generative model with two properties: (i) the error of replacing the true data-generating distribution with the trained data-generating distribution should optimally converge to zero as the sample size approaches infinity, and (ii) the trained data-generating distribution should be far enough from any distribution replicating examples in the training data. We provide non-asymptotic results in the form of finite sample risk bounds that quantify these properties and depend on relevant parameters such as sample size, the dimension of the ambient space, and the dimension of the latent space. Our results are applicable to general integral probability metrics used to quantify errors in probability distribution spaces, with the Wasserstein-$1$ distance being the central example. We also include numerical examples to illustrate our theoretical findings.
翻訳日:2023-08-01 15:37:58 公開日:2023-07-31
# シンクホーンアルゴリズムの限界としてのwassersteinミラー勾配流

Wasserstein Mirror Gradient Flow as the limit of the Sinkhorn Algorithm ( http://arxiv.org/abs/2307.16421v1 )

ライセンス: Link先を確認
Nabarun Deb, Young-Heon Kim, Soumik Pal, and Geoffrey Schiebinger(参考訳) 我々は、シンクホーンアルゴリズムの反復あるいは関節密度に対する反復比例フィッティング手順(IPFP)から得られる限界の列が、正規化パラメータ $\varepsilon$ が 0 に収束し、反復の数が 1/\varepsilon$ (およびその他の技術的仮定) にスケールされるので、2$-ワッサーシュタイン空間上の絶対連続曲線に収束することを示した。 この限界は、我々がシンクホーン流と呼ぶもので、ワッサースタインミラー勾配流の一例であり、よく知られているユークリッドミラー勾配流に触発された概念である。 シンクホーンの場合、勾配は一方の辺点に関して相対エントロピー汎関数の勾配であり、鏡はもう一方の辺点から2乗ワッサースタイン距離汎関数の半分である。 興味深いことに、この流れの速度場のノルムは、線形化された最適輸送(LOT)距離に関する計量微分として解釈できる。 この流れの等価な記述は、Sinkhornアルゴリズムへの接続が Berman (2020) によって発見された放物型 Monge-Amp\`{e}re PDE によって提供される。 この制限流に対する指数収束条件を導出する。 また、シンクホーン流に沿う境界分布を持つMckean-Vlasov拡散も構成する。

We prove that the sequence of marginals obtained from the iterations of the Sinkhorn algorithm or the iterative proportional fitting procedure (IPFP) on joint densities, converges to an absolutely continuous curve on the $2$-Wasserstein space, as the regularization parameter $\varepsilon$ goes to zero and the number of iterations is scaled as $1/\varepsilon$ (and other technical assumptions). This limit, which we call the Sinkhorn flow, is an example of a Wasserstein mirror gradient flow, a concept we introduce here inspired by the well-known Euclidean mirror gradient flows. In the case of Sinkhorn, the gradient is that of the relative entropy functional with respect to one of the marginals and the mirror is half of the squared Wasserstein distance functional from the other marginal. Interestingly, the norm of the velocity field of this flow can be interpreted as the metric derivative with respect to the linearized optimal transport (LOT) distance. An equivalent description of this flow is provided by the parabolic Monge-Amp\`{e}re PDE whose connection to the Sinkhorn algorithm was noticed by Berman (2020). We derive conditions for exponential convergence for this limiting flow. We also construct a Mckean-Vlasov diffusion whose marginal distributions follow the Sinkhorn flow.
翻訳日:2023-08-01 15:37:41 公開日:2023-07-31
# 分散オークションを用いた複数レーダによる複数ターゲット追跡

Tracking mulitple targets with multiple radars using Distributed Auctions ( http://arxiv.org/abs/2307.16477v1 )

ライセンス: Link先を確認
Pierre Larrenie, C\'edric Buron (LABISEN-KLAIM), Fr\'ed\'eric Barbaresco(参考訳) レーダーの調整は様々な方法で行うことができる。 よりレジリエントなレーダーネットワークを分散的に調整することができる。 本稿では,分散型および協調型バンドルオークションに基づくレーダー協調のための高レジリエントアルゴリズムを提案する。 まず,本問題を制約付き最適化問題として定式化し,市場ベースのアルゴリズムを近似解として適用する。 複数のターゲットを同時に追跡し、同じターゲットを追跡するレーダーを2つまで使用し、精度を向上させる。 提案手法は,MIPソルバに依存する中央集権的アプローチと同等に動作し,状況によっては性能が向上するか,性能が向上する可能性がある。

Coordination of radars can be performed in various ways. To be more resilient radar networks can be coordinated in a decentralized way. In this paper, we introduce a highly resilient algorithm for radar coordination based on decentralized and collaborative bundle auctions. We first formalize our problem as a constrained optimization problem and apply a market-based algorithm to provide an approximate solution. Our approach allows to track simultaneously multiple targets, and to use up to two radars tracking the same target to improve accuracy. We show that our approach performs sensibly as well as a centralized approach relying on a MIP solver, and depending on the situations, may outperform it or be outperformed.
翻訳日:2023-08-01 15:32:02 公開日:2023-07-31
# そんなに否定するな! Oracle支援ガイダンスによるスコアベース生成モデリング

Don't be so negative! Score-based Generative Modeling with Oracle-assisted Guidance ( http://arxiv.org/abs/2307.16463v1 )

ライセンス: Link先を確認
Saeid Naderiparizi, Xiaoxuan Liang, Berend Zwartsenberg, Frank Wood(参考訳) 最大可能性原理は、データ可能性関数の最適化によるパラメータ推定を提唱する。 このように推定されたモデルは、アーキテクチャ、パラメータ化、最適化バイアスといった様々な一般化特性を示すことができる。 この研究は、サンプルを真のデータ生成分布の支持外としてラベル付けできるオラクルの形で、さらにサイド情報が存在する設定でのモデル学習に対処する。 具体的には,この付加情報を利用した新しい拡散確率モデル(DDPM)手法であるGen-neGを開発した。 当社のアプローチは,gan(generative adversarial networks)と拡散モデルにおける識別子ガイダンスに基づいて,oracleが示す肯定的なサポート領域への生成プロセスをガイドするものです。 自走シミュレータにおける衝突回避や安全保護型人間の運動生成といった応用において、gen-negの有用性を実証的に確立する。

The maximum likelihood principle advocates parameter estimation via optimization of the data likelihood function. Models estimated in this way can exhibit a variety of generalization characteristics dictated by, e.g. architecture, parameterization, and optimization bias. This work addresses model learning in a setting where there further exists side-information in the form of an oracle that can label samples as being outside the support of the true data generating distribution. Specifically we develop a new denoising diffusion probabilistic modeling (DDPM) methodology, Gen-neG, that leverages this additional side-information. Our approach builds on generative adversarial networks (GANs) and discriminator guidance in diffusion models to guide the generation process towards the positive support region indicated by the oracle. We empirically establish the utility of Gen-neG in applications including collision avoidance in self-driving simulators and safety-guarded human motion generation.
翻訳日:2023-08-01 15:31:43 公開日:2023-07-31
# 医用画像分割におけるU-Net変異の改善のためのハイブリッドアプローチ

A hybrid approach for improving U-Net variants in medical image segmentation ( http://arxiv.org/abs/2307.16462v1 )

ライセンス: Link先を確認
Aitik Gupta, Dr. Joydip Dhar(参考訳) 医療画像のセグメンテーションは、異なる画像モードによって提供される情報をより正確に検査し理解することを可能にするため、医療画像領域において不可欠である。 医学的イメージを様々なセグメントや興味のある領域に分割する技術は、医学的イメージセグメンテーションとして知られている。 生成されたセグメント画像は、診断、手術計画、治療評価など、さまざまな用途に利用することができる。 研究の初期段階では、MultiResUNet、Atention U-Net、古典的なU-Netなど、既存のディープラーニングアプローチのレビューに重点が置かれている。 アテンション特徴ベクトルやマップは重要な情報に動的に重要な重み付けを与え、これらの変種の多くはそれらを用いて精度を高めるが、ネットワークパラメータの要求はやや厳密である。 トレーニング可能なパラメータの数が非常に多く、推論時間も高いため、オーバーフィッティングのような特定の問題に直面します。 そこで本研究の目的は,注意システムや残差接続を用いた皮膚病変のセグメンテーションなどの医療画像セグメンテーションタスクの性能を維持しつつ,深部分離可能な畳み込みを用いたネットワークパラメータ要求の低減である。

Medical image segmentation is vital to the area of medical imaging because it enables professionals to more accurately examine and understand the information offered by different imaging modalities. The technique of splitting a medical image into various segments or regions of interest is known as medical image segmentation. The segmented images that are produced can be used for many different things, including diagnosis, surgery planning, and therapy evaluation. In initial phase of research, major focus has been given to review existing deep-learning approaches, including researches like MultiResUNet, Attention U-Net, classical U-Net, and other variants. The attention feature vectors or maps dynamically add important weights to critical information, and most of these variants use these to increase accuracy, but the network parameter requirements are somewhat more stringent. They face certain problems such as overfitting, as their number of trainable parameters is very high, and so is their inference time. Therefore, the aim of this research is to reduce the network parameter requirements using depthwise separable convolutions, while maintaining performance over some medical image segmentation tasks such as skin lesion segmentation using attention system and residual connections.
翻訳日:2023-08-01 15:31:20 公開日:2023-07-31
# L3DMC:混合曲率空間による蒸留による生涯学習

L3DMC: Lifelong Learning using Distillation via Mixed-Curvature Space ( http://arxiv.org/abs/2307.16459v1 )

ライセンス: Link先を確認
Kaushik Roy, Peyman Moghadam, Mehrtash Harandi(参考訳) 組込み空間の幾何学的形成は、新しい概念を逐次学習しながら変化するため、生涯学習(L3)モデルの性能は一連のタスクで訓練されると劣化する。 既存のL3アプローチの大半は、データの複雑な幾何学構造をモデル化するのに必ずしも適さない固定曲率(例えば、ゼロ曲率ユークリッド空間)で動く。 さらに, 蒸留法では, 低次元埋め込みに直接制約を適用し, モデルを高度に安定させることでL3モデルを新しい概念の学習から遠ざけている。 そこで本研究では, 複雑な幾何学的構造をモデル化し, 維持することにより, 既に習得した知識を維持するため, 混合曲率空間で動作する蒸留戦略L3DMCを提案する。 固定曲率空間(ユークリッドおよび双曲)の投影された低次元埋め込みを正定値カーネル関数を用いて高次元のケルネルヒルベルト空間(RKHS)に埋め込み、リッチ表現を実現することを提案する。 その後、新しいサンプル表現とRKHSの古い表現を用いた部分空間との差を最小化してL3モデルを最適化する。 L3DMCは、複数の固定曲率空間の表現力を組み合わせた古い知識を忘れずに、新しい知識をよりよく適応することができ、高次元のRKHSで実行される。 3つのベンチマークによる詳細な実験により,L3設定での医用画像分類における蒸留法の有効性が示された。 コード実装はhttps://github.com/csiro-robotics/L3DMCで公開されています。

The performance of a lifelong learning (L3) model degrades when it is trained on a series of tasks, as the geometrical formation of the embedding space changes while learning novel concepts sequentially. The majority of existing L3 approaches operate on a fixed-curvature (e.g., zero-curvature Euclidean) space that is not necessarily suitable for modeling the complex geometric structure of data. Furthermore, the distillation strategies apply constraints directly on low-dimensional embeddings, discouraging the L3 model from learning new concepts by making the model highly stable. To address the problem, we propose a distillation strategy named L3DMC that operates on mixed-curvature spaces to preserve the already-learned knowledge by modeling and maintaining complex geometrical structures. We propose to embed the projected low dimensional embedding of fixed-curvature spaces (Euclidean and hyperbolic) to higher-dimensional Reproducing Kernel Hilbert Space (RKHS) using a positive-definite kernel function to attain rich representation. Afterward, we optimize the L3 model by minimizing the discrepancies between the new sample representation and the subspace constructed using the old representation in RKHS. L3DMC is capable of adapting new knowledge better without forgetting old knowledge as it combines the representation power of multiple fixed-curvature spaces and is performed on higher-dimensional RKHS. Thorough experiments on three benchmarks demonstrate the effectiveness of our proposed distillation strategy for medical image classification in L3 settings. Our code implementation is publicly available at https://github.com/csiro-robotics/L3DMC.
翻訳日:2023-08-01 15:30:40 公開日:2023-07-31
# メンタルヘルス支援における対話の安全性の基準

A Benchmark for Understanding Dialogue Safety in Mental Health Support ( http://arxiv.org/abs/2307.16457v1 )

ライセンス: Link先を確認
Huachuan Qiu, Tong Zhao, Anqi Li, Shuai Zhang, Hongliang He, Zhenzhong Lan(参考訳) 対話の安全性は、オープンドメインの人間と機械の相互作用における広範にわたる課題である。 既存のアプローチでは、明らかに有害な応答を検出するために、独特な対話安全分類とデータセットを提案する。 しかし、これらの分類は、メンタルヘルスサポートの応答安全性の分析に適さない可能性がある。 実世界の対話では、カジュアルな会話で受け入れられるモデル応答は、精神的な健康支援を求めるユーザーには無視できる効果をもたらす可能性がある。 これらの制約に対処するため,本稿では,支援者に対する肯定的な影響を優先する理論的かつ現実的な分類法を開発することを目的とする。 さらに,対話セッション毎に詳細なラベル付きベンチマークコーパスを作成し,さらなる研究を容易にする。 bert-base,roberta-large,chatgptなどの一般的な言語モデルを用いてデータセットを分析し,メンタルヘルスサポートのコンテキストにおいて,安全でない応答を検出し,理解する。 我々の研究では、ChatGPTはゼロショットと少数ショットのパラダイムにおいて、詳細な安全定義を持つ安全カテゴリを検出するのに苦労している。 発達したデータセットと知見は、メンタルヘルスサポートにおける対話安全の研究を進める上で有用なベンチマークとなり、現実世界のアプリケーションにおける会話エージェントの設計と配置を改善する上で重要な意味を持つ。 コードとデータはこちらで公開しています。

Dialogue safety remains a pervasive challenge in open-domain human-machine interaction. Existing approaches propose distinctive dialogue safety taxonomies and datasets for detecting explicitly harmful responses. However, these taxonomies may not be suitable for analyzing response safety in mental health support. In real-world interactions, a model response deemed acceptable in casual conversations might have a negligible positive impact on users seeking mental health support. To address these limitations, this paper aims to develop a theoretically and factually grounded taxonomy that prioritizes the positive impact on help-seekers. Additionally, we create a benchmark corpus with fine-grained labels for each dialogue session to facilitate further research. We analyze the dataset using popular language models, including BERT-base, RoBERTa-large, and ChatGPT, to detect and understand unsafe responses within the context of mental health support. Our study reveals that ChatGPT struggles to detect safety categories with detailed safety definitions in a zero- and few-shot paradigm, whereas the fine-tuned model proves to be more suitable. The developed dataset and findings serve as valuable benchmarks for advancing research on dialogue safety in mental health support, with significant implications for improving the design and deployment of conversation agents in real-world applications. We release our code and data here: https://github.com/qiuhuachuan/DialogueSafety.
翻訳日:2023-08-01 15:29:58 公開日:2023-07-31
# カモッシオ - イタリア製のLLaMA。

Camoscio: an Italian Instruction-tuned LLaMA ( http://arxiv.org/abs/2307.16456v1 )

ライセンス: Link先を確認
Andrea Santilli and Emanuele Rodol\`a(参考訳) 近年、Large Language Models (LLMs) は、自然言語処理タスクにおける技術の現状を高めている。 しかし、そのアクセシビリティは有料のAPIサービスに限定されることが多く、研究者が広範な調査を行う上での課題となっている。 一方で、コミュニティによっていくつかのオープンソースモデルが提案されているが、一般的には多言語であり、イタリア語に特化していない。 イタリア語の利用可能なオープンリソースを民主化するために,本稿では,ユーザのイタリア語でのプロンプトに従うように特別に調整された言語モデルであるCamoscioを紹介する。 具体的には,ChatGPTを介してイタリア語に翻訳された命令プロンプトのコーパスにLoRAを用いたLLaMA (7b) の最小変種を微調整した。 その結果、イタリアの様々な下流タスクにおけるモデルのゼロショット性能は、これらのタスク用に微調整された既存のモデルと有利に競合することが示された。 すべてのアーティファクト(コード、データセット、モデル)は以下のurlでコミュニティにリリースされている。

In recent years Large Language Models (LLMs) have increased the state of the art on several natural language processing tasks. However, their accessibility is often limited to paid API services, posing challenges for researchers in conducting extensive investigations. On the other hand, while some open-source models have been proposed by the community, they are typically multilingual and not specifically tailored for the Italian language. In an effort to democratize the available and open resources for the Italian language, in this paper we introduce Camoscio: a language model specifically tuned to follow users' prompts in Italian. Specifically, we finetuned the smallest variant of LLaMA (7b) with LoRA on a corpus of instruction prompts translated to Italian via ChatGPT. Results indicate that the model's zero-shot performance on various downstream tasks in Italian competes favorably with existing models specifically finetuned for those tasks. All the artifacts (code, dataset, model) are released to the community at the following url: https://github.com/teelinsan/camoscio
翻訳日:2023-08-01 15:29:38 公開日:2023-07-31
# 議会のすべての誤算数

Every Mistake Counts in Assembly ( http://arxiv.org/abs/2307.16453v1 )

ライセンス: Link先を確認
Guodong Ding, Fadime Sener, Shugao Ma, Angela Yao(参考訳) AIアシスタントの有望なユースケースの1つは、調理、家庭の修理、組み立て作業といった複雑な手順を支援することだ。 ユーザがミスを犯した後、アシスタントにインタージェクトを教えられるか? 本稿では,組立手順における注文ミスの特定を課題とする。 学習知識ベースを利用して注文ミスを検出するシステムを提案する。 本フレームワークは,観測ミスに基づく空間的,時間的信念に基づく知識基盤を構築する。 空間的信念は組み立てコンポーネントのトポロジカルな関係を描き、時間的信念は事前のアクションを順序付けの制約として集約する。 エピソディクスメモリ設計により、より多くのアクションが観察されるにつれて、アルゴリズムは信念セットを動的に更新し構築することができる。 本研究では, 実世界の行動系列において, 空間的, 時間的信念が誤った順序を識別できることを示す。 空間的信念を構築するために,玩具部品の位置に基づくアセンブリ101のための粗いレベルのアクションアノテーションを新たに収集する。 最後に,アセンブリ101データセット上での順序誤りの検出において,信念推論アルゴリズムの優れた性能を示す。

One promising use case of AI assistants is to help with complex procedures like cooking, home repair, and assembly tasks. Can we teach the assistant to interject after the user makes a mistake? This paper targets the problem of identifying ordering mistakes in assembly procedures. We propose a system that can detect ordering mistakes by utilizing a learned knowledge base. Our framework constructs a knowledge base with spatial and temporal beliefs based on observed mistakes. Spatial beliefs depict the topological relationship of the assembling components, while temporal beliefs aggregate prerequisite actions as ordering constraints. With an episodic memory design, our algorithm can dynamically update and construct the belief sets as more actions are observed, all in an online fashion. We demonstrate experimentally that our inferred spatial and temporal beliefs are capable of identifying incorrect orderings in real-world action sequences. To construct the spatial beliefs, we collect a new set of coarse-level action annotations for Assembly101 based on the positioning of the toy parts. Finally, we demonstrate the superior performance of our belief inference algorithm in detecting ordering mistakes on the Assembly101 dataset.
翻訳日:2023-08-01 15:29:23 公開日:2023-07-31
# 因果グラフの比較のための連続構造干渉距離

A continuous Structural Intervention Distance to compare Causal Graphs ( http://arxiv.org/abs/2307.16452v1 )

ライセンス: Link先を確認
Mihir Dhanakshirur, Felix Laumann, Junhyung Park, Mauricio Barahona(参考訳) 真の因果グラフと学習因果グラフの違いを理解し、適切に評価することは、介入の下で因果推論に不可欠である。 グラフに基づく構造ハミング距離と構造介入距離の拡張として,真因果グラフと学習因果グラフとの差を計算するためのグラフ構造に加えて,基礎となるデータを考慮した新しい連続測定指標を提案する。 この距離は、各ノード間の干渉分布を条件平均埋め込みとして再現されたカーネルヒルベルト空間に埋め込み、それらの差を最大(条件平均の差)で推定する。 合成データに対する数値実験で検証した理論的結果を示す。

Understanding and adequately assessing the difference between a true and a learnt causal graphs is crucial for causal inference under interventions. As an extension to the graph-based structural Hamming distance and structural intervention distance, we propose a novel continuous-measured metric that considers the underlying data in addition to the graph structure for its calculation of the difference between a true and a learnt causal graph. The distance is based on embedding intervention distributions over each pair of nodes as conditional mean embeddings into reproducing kernel Hilbert spaces and estimating their difference by the maximum (conditional) mean discrepancy. We show theoretical results which we validate with numerical experiments on synthetic data.
翻訳日:2023-08-01 15:29:06 公開日:2023-07-31
# moviechat: 密集したトークンから、長いビデオ理解のためのばらばらなメモリへ

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding ( http://arxiv.org/abs/2307.16449v1 )

ライセンス: Link先を確認
Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang(参考訳) 近年,ビデオ基礎モデルと大規模言語モデルを統合することで,特定の視覚課題の限界を克服する映像理解システムの構築が進んでいる。 しかし既存のシステムは、フレーム数が少ないビデオしか扱えない。 長いビデオでは、計算の複雑さ、メモリコスト、長期の時間的接続が残る課題である。 アトキンソン・シフリンメモリモデルに触発されて,短期記憶の高速更新と長期記憶のコンパクト化を含むメモリ機構を開発した。 メモリのキャリアとして、トランスフォーマーにトークンを使用します。 MovieChatは、長いビデオ理解において最先端のパフォーマンスを達成する。

Recently, integrating video foundation models and large language models to build a video understanding system overcoming the limitations of specific pre-defined vision tasks. Yet, existing systems can only handle videos with very few frames. For long videos, the computation complexity, memory cost, and long-term temporal connection are the remaining challenges. Inspired by Atkinson-Shiffrin memory model, we develop an memory mechanism including a rapidly updated short-term memory and a compact thus sustained long-term memory. We employ tokens in Transformers as the carriers of memory. MovieChat achieves state-of-the-art performace in long video understanding.
翻訳日:2023-08-01 15:28:54 公開日:2023-07-31
# インタラクティブなニューラルペイント

Interactive Neural Painting ( http://arxiv.org/abs/2307.16441v1 )

ライセンス: Link先を確認
Elia Peruzzo, Willi Menapace, Vidit Goel, Federica Arrigoni, Hao Tang, Xingqian Xu, Arman Chopikyan, Nikita Orlov, Yuxiao Hu, Humphrey Shi, Nicu Sebe, Elisa Ricci(参考訳) ここ数年で、NP(Neural Painting)技術は極めて現実的なアートワークを制作できるようになった。 本稿では,Interactive NPの最初のアプローチを提案することによって,新たな研究領域における技術の現状を推し進める。 ユーザがシーンを見て、それを絵画で再現しようとする設定を考えると、我々は、絵を描く次のストロークを提案することによって、ユーザの創造性を支援する計算フレームワークを開発することを目的としています。 そこで本稿では,2段階デコーダを用いた条件変換器の変分自動エンコーダ(VAE)アーキテクチャに基づく新しい手法であるI-Paintを提案する。 提案手法を評価し,この分野の研究を刺激するために,新たなデータセットを2つ導入する。 実験の結果,本手法は良好なストローク提案を提供し,最先端技術と比較した。 詳細、コード、サンプルはhttps://helia95.github.io/inp-websiteで確認できる。

In the last few years, Neural Painting (NP) techniques became capable of producing extremely realistic artworks. This paper advances the state of the art in this emerging research domain by proposing the first approach for Interactive NP. Considering a setting where a user looks at a scene and tries to reproduce it on a painting, our objective is to develop a computational framework to assist the users creativity by suggesting the next strokes to paint, that can be possibly used to complete the artwork. To accomplish such a task, we propose I-Paint, a novel method based on a conditional transformer Variational AutoEncoder (VAE) architecture with a two-stage decoder. To evaluate the proposed approach and stimulate research in this area, we also introduce two novel datasets. Our experiments show that our approach provides good stroke suggestions and compares favorably to the state of the art. Additional details, code and examples are available at https://helia95.github.io/inp-website.
翻訳日:2023-08-01 15:28:44 公開日:2023-07-31
# 一般低光原音合成とモデリングに向けて

Towards General Low-Light Raw Noise Synthesis and Modeling ( http://arxiv.org/abs/2307.16508v1 )

ライセンス: Link先を確認
Feng Zhang, Bin Xu, Zhiqiang Li, Xinran Liu, Qingbo Lu, Changxin Gao, Nong Sang(参考訳) 低照度生雑音のモデリングと合成は、計算写真や画像処理アプリケーションにとって基本的な問題である。 近年の研究では、ノイズを合成するための物理モデルが採用されているが、低光環境における信号非依存ノイズは、より複雑で、カメラセンサーによって劇的に変化する。 この問題に対処するために,信号非依存ノイズを生成モデルで合成する新しい視点を提案する。 具体的には,信号依存ノイズと信号非依存ノイズを物理系と学習系でそれぞれ合成する。 このようにして、本手法は、様々なISOレベルの異なるノイズ特性を同時に学習し、様々なセンサに一般化できる一般モデルとみなすことができる。 次に,雑音分布を正確に識別する有効なマルチスケール判別器であるフーリエ変圧器判別器(ftd)を提案する。 さらに、トレーニングとベンチマークのための新しい低照度生騒音(LRD)データセットを収集する。 定性検証により,提案した雑音モデルから発生する雑音は分布の点で実雑音と非常によく似ていることが示された。 さらに,本手法は各種センサの最先端手法に対して良好に作用することを示した。 ソースコードとデータセットは ~\url{https://github.com/fengzhang427/LRD} で見ることができる。

Modeling and synthesizing low-light raw noise is a fundamental problem for computational photography and image processing applications. Although most recent works have adopted physics-based models to synthesize noise, the signal-independent noise in low-light conditions is far more complicated and varies dramatically across camera sensors, which is beyond the description of these models. To address this issue, we introduce a new perspective to synthesize the signal-independent noise by a generative model. Specifically, we synthesize the signal-dependent and signal-independent noise in a physics- and learning-based manner, respectively. In this way, our method can be considered as a general model, that is, it can simultaneously learn different noise characteristics for different ISO levels and generalize to various sensors. Subsequently, we present an effective multi-scale discriminator termed Fourier transformer discriminator (FTD) to distinguish the noise distribution accurately. Additionally, we collect a new low-light raw denoising (LRD) dataset for training and benchmarking. Qualitative validation shows that the noise generated by our proposed noise model can be highly similar to the real noise in terms of distribution. Furthermore, extensive denoising experiments demonstrate that our method performs favorably against state-of-the-art methods on different sensors. The source code and dataset can be found at ~\url{https://github.com/fengzhang427/LRD}.
翻訳日:2023-08-01 15:20:22 公開日:2023-07-31
# 計量調整スキュー情報とコーシー・シュワルツ不等式の不確かさ関係

Uncertainty relations for metric adjusted skew information and Cauchy-Schwarz inequality ( http://arxiv.org/abs/2307.16507v1 )

ライセンス: Link先を確認
Xiaoli Hu, Naihuan Jing(参考訳) スキュー情報(schet information)は、量子情報、量子計測、量子計測において重要な概念である。 さらなる研究により、計量調整スキュー情報に基づく不確実性関係が導かれた。 本研究では,観測可能量のサンプリング座標と凸関数を用いて,観測可能量の積形式と観測可能数の和形式の両方における不確かさ関係を解明する。

Skew information is a pivotal concept in quantum information, quantum measurement, and quantum metrology. Further studies have lead to the uncertainty relations grounded in metric-adjusted skew information. In this work, we present an in-depth investigation using the methodologies of sampling coordinates of observables and convex functions to refine the uncertainty relations in both the product form of two observables and summation form of multiple observables.
翻訳日:2023-08-01 15:20:02 公開日:2023-07-31
# 粒子物理学のための説明可能な同変ニューラルネットワーク:PELICAN

Explainable Equivariant Neural Networks for Particle Physics: PELICAN ( http://arxiv.org/abs/2307.16506v1 )

ライセンス: Link先を確認
Alexander Bogatskiy, Timothy Hoffman, David W. Miller, Jan T. Offermann, Xiaoyang Liu(参考訳) 本稿では,パギング(分類)と再構成(回帰)の両方の文脈におけるペリカン機械学習アルゴリズムアーキテクチャの包括的研究を行い,ハドロン状態の密集した環境内でw$-bosonを特定・測定する困難なタスクを含むローレンツブーストトップクォークについて述べる。 permutation equivariant and lorentz invariant or covariant aggregator network(ペリカン)は、素粒子物理学問題に適用されるアーキテクチャで見られる共通の制限を克服するために設計された、新しい置換同変および共変アグリゲータネットワークである。 基礎となる物理原理を無視し、非常に多くのパラメータを必要とする非特殊化アーキテクチャを使用する多くのアプローチと比較して、PELICANは、複雑性の低減、解釈可能性の向上、生のパフォーマンスの面でのメリットを示す、根本的に対称なグループベースのアーキテクチャを採用している。 Lorentz-boosted top quark taggingの標準的なタスクでテストすると、PELICANは既存の競合よりはるかに低いモデル複雑さと高いサンプル効率で性能を向上する。 4モーメント回帰のより一般的で複雑なタスクでは、PELICANは手作りのアルゴリズムよりも優れている。 物理分野における機械学習の幅広い分野における対称性制限アーキテクチャの意義について論じる。

We present a comprehensive study of the PELICAN machine learning algorithm architecture in the context of both tagging (classification) and reconstructing (regression) Lorentz-boosted top quarks, including the difficult task of specifically identifying and measuring the $W$-boson inside the dense environment of the boosted hadronic final state. PELICAN is a novel permutation equivariant and Lorentz invariant or covariant aggregator network designed to overcome common limitations found in architectures applied to particle physics problems. Compared to many approaches that use non-specialized architectures that neglect underlying physics principles and require very large numbers of parameters, PELICAN employs a fundamentally symmetry group-based architecture that demonstrates benefits in terms of reduced complexity, increased interpretability, and raw performance. When tested on the standard task of Lorentz-boosted top quark tagging, PELICAN outperforms existing competitors with much lower model complexity and high sample efficiency. On the less common and more complex task of four-momentum regression, PELICAN also outperforms hand-crafted algorithms. We discuss the implications of symmetry-restricted architectures for the wider field of machine learning for physics.
翻訳日:2023-08-01 15:19:53 公開日:2023-07-31
# 手術ロボットを用いた長軸タスクのポリシー学習のための値インフォームドスキルチェイン

Value-Informed Skill Chaining for Policy Learning of Long-Horizon Tasks with Surgical Robot ( http://arxiv.org/abs/2307.16503v1 )

ライセンス: Link先を確認
Tao Huang, Kai Chen, Wang Wei, Jianan Li, Yonghao Long, Qi Dou(参考訳) 強化学習は、政策探索の課題により、長期にわたる複数のステップを含む長い水平手術ロボットタスクの解決に苦慮している。 近年の手法では,ロングホライゾンタスクを複数のサブタスクに分解して探索負担を軽減し,サブタスクポリシーを時間的に結び付けてロングホライゾンタスク全体を完遂する手法が提案されている。 しかし,手術ロボットのシナリオでは,すべてのサブタスクポリシをスムーズに接続することは困難である。 すべての状態が隣接する2つのサブタスクを接続するのに等しく適しているわけではない。 以前のサブタスクの望ましくない終了状態は、現在のサブタスクポリシーを不安定にし、実行が失敗する。 本研究では,長期手術ロボットタスクのための新しい強化学習フレームワークである価値インフォームドスキルチェーン(ViSkill)を導入する。 中心となる考え方は、以下のすべてのサブタスクポリシーを開始するのに適した端末状態を特定することである。 この目標を達成するために、状態が与えられたタスク全体の成功確率を推定する状態値関数を導入する。 この値関数に基づいて、チェーンポリシーが学習され、サブタスクポリシーに最高値の状態を終了させるように指示され、その後のすべてのポリシーがタスクを達成するために接続される傾向が高まる。 総合的な手術シミュレーションプラットフォームであるSurRoLの3つの複雑な手術ロボット作業に対する本手法の有効性を実証し,高い作業成功率と実行効率を実現する。 コードは$\href{https://github.com/med-air/ViSkill}{\text{https://github.com/med-air/ViSkill}}$で入手できる。

Reinforcement learning is still struggling with solving long-horizon surgical robot tasks which involve multiple steps over an extended duration of time due to the policy exploration challenge. Recent methods try to tackle this problem by skill chaining, in which the long-horizon task is decomposed into multiple subtasks for easing the exploration burden and subtask policies are temporally connected to complete the whole long-horizon task. However, smoothly connecting all subtask policies is difficult for surgical robot scenarios. Not all states are equally suitable for connecting two adjacent subtasks. An undesired terminate state of the previous subtask would make the current subtask policy unstable and result in a failed execution. In this work, we introduce value-informed skill chaining (ViSkill), a novel reinforcement learning framework for long-horizon surgical robot tasks. The core idea is to distinguish which terminal state is suitable for starting all the following subtask policies. To achieve this target, we introduce a state value function that estimates the expected success probability of the entire task given a state. Based on this value function, a chaining policy is learned to instruct subtask policies to terminate at the state with the highest value so that all subsequent policies are more likely to be connected for accomplishing the task. We demonstrate the effectiveness of our method on three complex surgical robot tasks from SurRoL, a comprehensive surgical simulation platform, achieving high task success rates and execution efficiency. Code is available at $\href{https://github.com/med-air/ViSkill}{\text{https://github.com/med-air/ViSkill}}$.
翻訳日:2023-08-01 15:19:31 公開日:2023-07-31
# 非剛性グラフプレースレジストレーションを用いた汎用ツールの学習

Learning Generalizable Tool Use with Non-rigid Grasp-pose Registration ( http://arxiv.org/abs/2307.16499v1 )

ライセンス: Link先を確認
Malte Mosbach and Sven Behnke(参考訳) ヒューマンインテリジェンスの目覚しい特徴であるツールの使用は、複雑な接触と高次元のアクション空間のため、ロボット工学において難しい問題である。 本研究では,ツール使用行動の強化学習を可能にする新しい手法を提案する。 我々のアプローチは、ひとつのデモンストレーションだけで新しいカテゴリのツールの操作を学ぶためのスケーラブルな方法を提供する。 そこで本研究では,多指ロボットハンドの把持構成を新しい物体に一般化する手法を提案する。 これは、適切な初期化と形をした報酬信号を通じてポリシー検索を導くために使用される。 学習したポリシーは複雑なツールの使用タスクを解決し、テスト時に見えないツールに一般化する。 トレーニングされたポリシーの可視化とビデオはhttps://maltemosbach.github.io/ generalizable_tool_useで公開されている。

Tool use, a hallmark feature of human intelligence, remains a challenging problem in robotics due the complex contacts and high-dimensional action space. In this work, we present a novel method to enable reinforcement learning of tool use behaviors. Our approach provides a scalable way to learn the operation of tools in a new category using only a single demonstration. To this end, we propose a new method for generalizing grasping configurations of multi-fingered robotic hands to novel objects. This is used to guide the policy search via favorable initializations and a shaped reward signal. The learned policies solve complex tool use tasks and generalize to unseen tools at test time. Visualizations and videos of the trained policies are available at https://maltemosbach.github.io/generalizable_tool_use.
翻訳日:2023-08-01 15:19:02 公開日:2023-07-31
# 測定に基づく総括的固有状態の調製

Generic eigenstate preparation via measurement-based purification ( http://arxiv.org/abs/2307.16496v1 )

ライセンス: Link先を確認
Jia-shun Yan, Jun Jing(参考訳) 一般に考えれば、量子系はハミルトニアンの直接遷移ではなく、結合した補助量子ビット上で繰り返し測定することで、標的固有状態に準備することができる。 本研究では, 量子ビット上の射影測定によって誘導されるシステム上の正の演算子評価測度(POVM)が, 対象の値以外の不要な状態をフィルタリングできることを見出した。 最大絡み合い状態(ベル状態とghz状態)を最大混合状態から蒸留できる計測に基づく絡み合いの浄化について検討し、刺激されたラマン断熱通路(stirap)の著しい加速を示す。 我々のスキームは非退化系に限らず、任意の固有状態生成を可能にする。 これは一般的な状態準備アルゴリズムへの有望な方法を提供し、一般的な量子測定の機能を高める。

Out of the general thought, a quantum system can be prepared into a target eigenstate through repeated measurements on a coupled ancillary qubit rather than direct transitions in the Hamiltonian. In this work, we find that the positive operator-valued measures (POVMs) on the system, which is induced by the projective measurement on the qubit, can filter out the unwanted states except the target one. We discuss the measurement-based purification of entanglement in which maximally entangled states (Bell states and GHZ states) can be distilled from the maximally mixed states, and demonstrate the significant acceleration of a stimulated Raman adiabatic passage (STIRAP). Our scheme is not limited to the nondegenerate systems and allows arbitrary eigenstate generation. It offers a promising way to a generic state-preparation algorithm, enriching the functionalities of general quantum measurement.
翻訳日:2023-08-01 15:18:51 公開日:2023-07-31
# BAGM:テキスト対画像生成モデルのバックドア攻撃

BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models ( http://arxiv.org/abs/2307.16489v1 )

ライセンス: Link先を確認
Jordan Vice, Naveed Akhtar, Richard Hartley, Ajmal Mian(参考訳) テキストから画像への生成人工知能(AI)の普及は、大衆の関心を集めている。 同時に、バックドア攻撃は、ニューラルネットワークモデルの効果的な操作に関する機械学習文献でよく知られています。 我々は、テキストから画像生成モデル(BAGM)にバックドア攻撃を導入することで、生成AIに対するこの脅威を強調する。 我々の攻撃はテキスト・ツー・イメージ生成パイプラインの様々な段階を対象としており、埋め込みトークン化器と事前訓練された言語と視覚ニューラルネットワークの動作を変更する。 浸透レベルに基づいて、bagmは、この記事で表面攻撃、浅い攻撃、深い攻撃と呼ばれる一連の攻撃の形式をとります。 BAGMの性能を最近出現している手法と比較する。 また、将来、生成AIモデルに対するバックドアアタックのパフォーマンスを評価するための定量的指標も提供します。 提案手法の有効性は,デジタルマーケティングシナリオにおける最先端安定拡散パイプラインをターゲットドメインとして確立した。 そのために、ブランド化された製品イメージのMarketable Foodsデータセットも提供します。 この研究が、現代の生成的AIセキュリティ課題の公開に寄与し、これらの課題に対処するための先制的な取り組みに関する議論を促進することを願っている。 キーワード:生成人工知能、生成モデル、テキスト・ツー・イメージ生成、バックドア攻撃、トロイの木馬、安定拡散。

The rise in popularity of text-to-image generative artificial intelligence (AI) has attracted widespread public interest. At the same time, backdoor attacks are well-known in machine learning literature for their effective manipulation of neural models, which is a growing concern among practitioners. We highlight this threat for generative AI by introducing a Backdoor Attack on text-to-image Generative Models (BAGM). Our attack targets various stages of the text-to-image generative pipeline, modifying the behaviour of the embedded tokenizer and the pre-trained language and visual neural networks. Based on the penetration level, BAGM takes the form of a suite of attacks that are referred to as surface, shallow and deep attacks in this article. We compare the performance of BAGM to recently emerging related methods. We also contribute a set of quantitative metrics for assessing the performance of backdoor attacks on generative AI models in the future. The efficacy of the proposed framework is established by targeting the state-of-the-art stable diffusion pipeline in a digital marketing scenario as the target domain. To that end, we also contribute a Marketable Foods dataset of branded product images. We hope this work contributes towards exposing the contemporary generative AI security challenges and fosters discussions on preemptive efforts for addressing those challenges. Keywords: Generative Artificial Intelligence, Generative Models, Text-to-Image generation, Backdoor Attacks, Trojan, Stable Diffusion.
翻訳日:2023-08-01 15:18:36 公開日:2023-07-31
# ロボットビンピッキング用マルチ吸引カップグリッパーを用いたモデルフリー把持

Model-free Grasping with Multi-Suction Cup Grippers for Robotic Bin Picking ( http://arxiv.org/abs/2307.16488v1 )

ライセンス: Link先を確認
Philipp Schillinger, Miroslav Gabriel, Alexander Kuss, Hanna Ziesche, Ngo Anh Vien(参考訳) 本稿では,複数の吸込カップを有する吸込グリッパに対する把持ポーズのモデルフリー予測法を提案する。 本手法はグリッパーの設計に非依存であり,グリッパー固有のトレーニングデータを必要としない。 特に,ニューラルネットワークが入力画像の画素毎の把握品質を予測し,一般に把握可能な領域を示す2段階アプローチを提案する。 第2の最適化ステップは、設定されたグリッパーレイアウトとアクティベーションスキームに基づいて、最適なグリッパー選択と対応する把持ポーズを決定する。 さらに,把握品質ネットワークの教師付き学習のための自動ラベル付け手法を提案する。 種々の難易度を有するビンピッキングシーンを用いた実世界の産業応用に関する実験的評価は,本手法の有効性を示す。

This paper presents a novel method for model-free prediction of grasp poses for suction grippers with multiple suction cups. Our approach is agnostic to the design of the gripper and does not require gripper-specific training data. In particular, we propose a two-step approach, where first, a neural network predicts pixel-wise grasp quality for an input image to indicate areas that are generally graspable. Second, an optimization step determines the optimal gripper selection and corresponding grasp poses based on configured gripper layouts and activation schemes. In addition, we introduce a method for automated labeling for supervised training of the grasp quality network. Experimental evaluations on a real-world industrial application with bin picking scenes of varying difficulty demonstrate the effectiveness of our method.
翻訳日:2023-08-01 15:18:16 公開日:2023-07-31
# 分類は:人間-ai協調による異種データからの分類法の構築

To Classify is to Interpret: Building Taxonomies from Heterogeneous Data through Human-AI Collaboration ( http://arxiv.org/abs/2307.16481v1 )

ライセンス: Link先を確認
Sebastian Meier and Katrin Glinka(参考訳) 分類学ビルディング(Taxonomy Building)は、特定の参照フレーム内のデータの解釈と分類を必要とするタスクであり、知識と情報組織を扱う多くの分野のアプリケーションで機能する。 本稿では,機械学習(ml)を組み込んだシステムで分類学構築をどのように支援できるかを検討する。 しかしながら、分類を自動化するためにブラックボックス化されたMLベースのシステムのみに頼ると、ユーザの専門知識が横ばいになる。 本稿では,複数のモデルのアウトプットを感覚生成プロセスの一部として反復的に考慮することを可能にする手法を提案する。 われわれのアプローチは2つの現実世界のユースケースで実装した。 この研究は、人間とAIのコラボレーションを可能にすることに焦点を当てたMLベースのシステムの設計を調査するHCI研究の文脈に位置づけられている。

Taxonomy building is a task that requires interpreting and classifying data within a given frame of reference, which comes to play in many areas of application that deal with knowledge and information organization. In this paper, we explore how taxonomy building can be supported with systems that integrate machine learning (ML). However, relying only on black-boxed ML-based systems to automate taxonomy building would sideline the users' expertise. We propose an approach that allows the user to iteratively take into account multiple model's outputs as part of their sensemaking process. We implemented our approach in two real-world use cases. The work is positioned in the context of HCI research that investigates the design of ML-based systems with an emphasis on enabling human-AI collaboration.
翻訳日:2023-08-01 15:18:07 公開日:2023-07-31
# 2モード量子状態を持つサブショットノイズ干渉計

Sub-shot-noise interferometry with two mode quantum states ( http://arxiv.org/abs/2307.16479v1 )

ライセンス: Link先を確認
Quentin Marolleau, Charlie Leprince, Victor Gondret, Denis Boiron, Christoph I Westbrook(参考訳) 双発フォック状態と2モード圧縮真空状態から始まる不完全な検出器を用いたサブショットノイズ干渉法の実現可能性について検討した。 対応する位相の不確かさに対する解析式を導出する。 我々は、損失が与えられたしきい値よりも小さい限り、標準量子限界以下の位相シフト測定が可能であり、測定された位相が最適値に十分近いことを見出した。 分析公式をPythonパッケージで提供し、オンラインでアクセスします。

We study the feasibility of sub-shot-noise interferometry with imperfect detectors, starting from twin-Fock states and two mode squeezed vacuum states. We derive analytical expressions for the corresponding phase uncertainty. We find that one can achieve phase shift measurements below the standard quantum limit, as long as the losses are smaller than a given threshold, and that the measured phase is close enough to an optimal value. We provide our analytical formulae in a Python package, accessible online.
翻訳日:2023-08-01 15:17:54 公開日:2023-07-31
# echoes beyond points:マルチモダリティ融合における生のレーダーデータのパワーを解き放つ

Echoes Beyond Points: Unleashing the Power of Raw Radar Data in Multi-modality Fusion ( http://arxiv.org/abs/2307.16532v1 )

ライセンス: Link先を確認
Yang Liu, Feng Wang, Naiyan Wang, Zhaoxiang Zhang(参考訳) Radarは、低コストで悪天候に適応できるため、自動運転システムではユビキタスである。 それでも、レーダー検出性能は、点雲が狭く、方位や高度の解像度が低いため正確ではないため、通常劣っている。 さらに、点雲生成アルゴリズムは、深層融合の使用に最適な偽ターゲットを減らすために、既に弱い信号を落としている。 本稿では,既存のレーダ信号処理パイプラインをスキップし,レーダ生データを他のセンサに組み込む,エコーフュージョンという新しい手法を提案する。 具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。 提案手法は,レーダエコーからのリッチ・ロスレス距離と速度手がかりと画像からのリッチ・セマンティック手がかりの両方を利用して,RADIalデータセット上の既存手法を全て越え,LiDARの性能にアプローチすることができる。 コードは受理次第利用可能だ。

Radar is ubiquitous in autonomous driving systems due to its low cost and good adaptability to bad weather. Nevertheless, the radar detection performance is usually inferior because its point cloud is sparse and not accurate due to the poor azimuth and elevation resolution. Moreover, point cloud generation algorithms already drop weak signals to reduce the false targets which may be suboptimal for the use of deep fusion. In this paper, we propose a novel method named EchoFusion to skip the existing radar signal processing pipeline and then incorporate the radar raw data with other sensors. Specifically, we first generate the Bird's Eye View (BEV) queries and then take corresponding spectrum features from radar to fuse with other sensors. By this approach, our method could utilize both rich and lossless distance and speed clues from radar echoes and rich semantic clues from images, making our method surpass all existing methods on the RADIal dataset, and approach the performance of LiDAR. Codes will be available upon acceptance.
翻訳日:2023-08-01 15:12:20 公開日:2023-07-31
# 緑内障検出のためのディープラーニングとコンピュータビジョン

Deep Learning and Computer Vision for Glaucoma Detection: A Review ( http://arxiv.org/abs/2307.16528v1 )

ライセンス: Link先を確認
Mona Ashtari-Majlan, Mohammad Mahdi Dehshibi, David Masip(参考訳) 緑内障は世界中で不可逆性失明の主要な原因であり、主観的評価に依存しているため、重要な診断上の課題を提起している。 しかし、近年のコンピュータビジョンとディープラーニングの進歩は、自動評価の可能性を示している。 本稿では, 眼底, 光コヒーレンストモグラフィ, 視野画像を用いたaiベースの緑内障診断について, 深層学習に基づく手法を特に重視した最近の研究について検討する。 我々は、メソッドをアーキテクチャパラダイムに整理し、メソッドの再現性を高めるために利用可能なソースコードへのリンクを含む、最新の分類法を提供する。 広く使われている公開データセットの厳密なベンチマークを通じて、一般化可能性、不確実性推定、マルチモーダル統合のパフォーマンスギャップを明らかにする。 さらに、調査は、スケール、ラベリングの不整合、バイアスといった制限を強調しながら、重要なデータセットをキュレートします。 我々は,今後の研究課題と今後の展望について概説する。 この調査は、最新のAI結果を使用して臨床ワークフローと診断を改善することを目的として、AI研究者と眼科医の両方にとって有用であると期待されている。

Glaucoma is the leading cause of irreversible blindness worldwide and poses significant diagnostic challenges due to its reliance on subjective evaluation. However, recent advances in computer vision and deep learning have demonstrated the potential for automated assessment. In this paper, we survey recent studies on AI-based glaucoma diagnosis using fundus, optical coherence tomography, and visual field images, with a particular emphasis on deep learning-based methods. We provide an updated taxonomy that organizes methods into architectural paradigms and includes links to available source code to enhance the reproducibility of the methods. Through rigorous benchmarking on widely-used public datasets, we reveal performance gaps in generalizability, uncertainty estimation, and multimodal integration. Additionally, our survey curates key datasets while highlighting limitations such as scale, labeling inconsistencies, and bias. We outline open research challenges and detail promising directions for future studies. This survey is expected to be useful for both AI researchers seeking to translate advances into practice and ophthalmologists aiming to improve clinical workflows and diagnosis using the latest AI outcomes.
翻訳日:2023-08-01 15:12:02 公開日:2023-07-31
# No Fair Lunch:医療画像のための機械学習におけるデータセットバイアスの因果的展望

No Fair Lunch: A Causal Perspective on Dataset Bias in Machine Learning for Medical Imaging ( http://arxiv.org/abs/2307.16526v1 )

ライセンス: Link先を確認
Charles Jones, Daniel C. Castro, Fabio De Sousa Ribeiro, Ozan Oktay, Melissa McCradden, Ben Glocker(参考訳) 臨床的意思決定において機械学習の手法が優位に立つにつれ、公平性の懸念への対処がますます急務となる。 アルゴリズムバイアスの検出と改善に力を入れているが、今日の手法は潜在的に有害な結果に欠ける。 我々の因果的視点は、アルゴリズムバイアスに新たな光を当て、データセットバイアスの異なるソースが、区別できないが、かなり異なる緩和戦略を必要とすることを強調している。 本稿では,有病率,プレゼンテーション,アノテーションの相違から起因した因果バイアス機構の3つの家系を紹介する。 我々の因果解析は、現在の緩和手法がシナリオの狭小かつ非現実的なサブセットにどのように取り組むかを示している。 医療画像の公平性を推論し、安全で公平なAI予測モデルの開発を支援するための実践的な3段階の枠組みを提供する。

As machine learning methods gain prominence within clinical decision-making, addressing fairness concerns becomes increasingly urgent. Despite considerable work dedicated to detecting and ameliorating algorithmic bias, today's methods are deficient with potentially harmful consequences. Our causal perspective sheds new light on algorithmic bias, highlighting how different sources of dataset bias may appear indistinguishable yet require substantially different mitigation strategies. We introduce three families of causal bias mechanisms stemming from disparities in prevalence, presentation, and annotation. Our causal analysis underscores how current mitigation methods tackle only a narrow and often unrealistic subset of scenarios. We provide a practical three-step framework for reasoning about fairness in medical imaging, supporting the development of safe and equitable AI prediction models.
翻訳日:2023-08-01 15:11:45 公開日:2023-07-31
# ゼロショット画像キャプションのための視覚エンティティを用いた転送可能復号

Transferable Decoding with Visual Entities for Zero-Shot Image Captioning ( http://arxiv.org/abs/2307.16525v1 )

ライセンス: Link先を確認
Junjie Fei, Teng Wang, Jinrui Zhang, Zhenyu He, Chengjie Wang, Feng Zheng(参考訳) 画像からテキストへの生成は自然言語を用いて画像を記述することを目的としている。 近年,事前学習された視覚言語モデル(VLM)と大規模言語モデル(LLM)に基づくゼロショット画像キャプションが大きな進歩を遂げている。 しかし, これらの手法は, LLMによって引き起こされるモダリティバイアスの影響を受けやすいこと, 画像中に存在しないが, 訓練中に頻繁に現れる物体(物体)を含む記述を生成する傾向があることを観察し, 実証的に実証した。 本稿では,エンティティ・アウェア・デコーディングを利用した転送可能なデコーディングモデルであるViECapを提案する。 ViECapは、LCMの注意をイメージに存在する視覚的実体に導くために、エンティティ対応のハードプロンプトを組み込んでいる。 エンティティ対応のハードプロンプトにより、ViECapはドメイン内からドメイン外のシナリオへ転送する際のパフォーマンスを維持することができる。 大規模な実験により、VECapは最先端のクロスドメインキャプション(転送可能)を新たに設定し、従来のVLMベースのゼロショット法と比較して、ドメイン内でのキャプションを競合的に行うことを示した。 私たちのコードは、https://github.com/FeiElysia/ViECapで利用可能です。

Image-to-text generation aims to describe images using natural language. Recently, zero-shot image captioning based on pre-trained vision-language models (VLMs) and large language models (LLMs) has made significant progress. However, we have observed and empirically demonstrated that these methods are susceptible to modality bias induced by LLMs and tend to generate descriptions containing objects (entities) that do not actually exist in the image but frequently appear during training (i.e., object hallucination). In this paper, we propose ViECap, a transferable decoding model that leverages entity-aware decoding to generate descriptions in both seen and unseen scenarios. ViECap incorporates entity-aware hard prompts to guide LLMs' attention toward the visual entities present in the image, enabling coherent caption generation across diverse scenes. With entity-aware hard prompts, ViECap is capable of maintaining performance when transferring from in-domain to out-of-domain scenarios. Extensive experiments demonstrate that ViECap sets a new state-of-the-art cross-domain (transferable) captioning and performs competitively in-domain captioning compared to previous VLMs-based zero-shot methods. Our code is available at: https://github.com/FeiElysia/ViECap
翻訳日:2023-08-01 15:11:32 公開日:2023-07-31
# 量子相関のスワッピングと局所フィルタリング操作の役割

Swapping of quantum correlations and the role of local filtering operations ( http://arxiv.org/abs/2307.16524v1 )

ライセンス: Link先を確認
Pedro Rosario, Andr\'es F. Ducuara, Cristian E. Susa(参考訳) 本稿では, ベル非局所性, EPRステアリング, テレポーテーション, エンタングルメント, 量子肥満に対する有用性, 局所フィルタリング操作がそのような相関のスワップに与える影響など, 様々な量子相関対策のスワップに対処する。 この研究の最初の部分では、生のスワッププロトコル(ローカルフィルタリングなし)に対処し、以下の結果を得た。 まず、量子状態のブロッホ表現を用いて、状態がベル状態とベル測定の任意の組み合わせと交換されるとき、上記の一般的な量子状態の全ての性質が完全に保存可能であることを示す。 これにより、x-形式における状態の帰結を示す結果が一般化される。 第2に、一般的な入力状態と測定値の肥満の観点から、最後のスワッピング状態の量子肥満の明示的な式を導出し、従って肥満を交換できる限界を確立する。 第2部では,局所フィルタリング操作が量子相関の交換に与える影響について論じる。 具体的には,スワッププロトコルの実施前後に局所フィルタを実装すべきかどうかについて検討し,最終相関量を最大化するために検討する。 この点に関して、これらの2つのシナリオは、上記の全ての量子相関について、ベル対角状態の族に等価であることを示す。 次に, 局所フィルタをまず適用すれば, ほぼベル対角状態の厳密なファミリーを考えると, 量子肥満を試験特性とするより効率的であることが証明される。 最後に、この後者の現象(局所フィルタリングがより効率的である)の数値的な証拠として、上記の全ての量子相関について、X形式の一般的な2量子状態に対して真であることを示す。

We address the swapping of various quantum correlation measures including: Bell-nonlocality, EPR-steering, usefulness for teleportation, entanglement, quantum obesity, as well as the effect that local filtering operations have on the swapping of such correlations. In the first part of this work we address the raw swapping protocol (i. e. without local filtering) and our findings are as follows. First, using the Bloch representation of quantum states, we show that all of the above properties of a general quantum state can fully be preserved whenever the state is swapped together with arbitrary combinations of Bell states and Bell measurements. This generalises a result shown for the concurrence of states in the X-form. Second, we derive an explicit formula for the quantum obesity of the final post-swapping state in terms of the obesity of general input states and measurements, and therefore establishing the limit at which obesity can be swapped. In the second part we address the effect of local filtering operations on the swapping of quantum correlations. Specifically, we explore whether experimentalists should implement local filters before or after the swapping protocol takes place, so in order to maximize the final amount of correlations. In this regard, we first show that these two scenarios are equivalent for the family of Bell-diagonal states, for all of the above-mentioned quantum correlations. We then prove that applying local filters first can be more efficient when considering the strictly larger family of almost Bell-diagonal states, with the quantum obesity as the test property. Finally, we provide numerical evidence for this latter phenomenon (local filtering first is more efficient) holding true for general two-qubit states in the X-form, for all of the above-mentioned quantum correlations.
翻訳日:2023-08-01 15:11:06 公開日:2023-07-31
# 意味情報の空間的重要性から協調的知覚を再考する

Rethinking Collaborative Perception from the Spatial-Temporal Importance of Semantic Information ( http://arxiv.org/abs/2307.16517v1 )

ライセンス: Link先を確認
Yuntao Liu, Qian Huang, Rongpeng Li, Xianfu Chen, Zhifeng Zhao, Shuyuan Zhao, Yongdong Zhu and Honggang Zhang(参考訳) セマンティクス情報の共有によるコラボレーションは,知覚能力の向上に不可欠である。 しかし、既存の協調認識手法は、協調者選択と意味情報融合における時間的次元の重要性を無視しながら、意味情報の空間的特徴にのみ焦点をあてる傾向がある。 本稿では,時間次元と空間次元の両方から意味情報(IoSI)の重要性を考慮した,新しい協調認識フレームワークIoSI-CPを提案する。 具体的には,有利なコラボレータを効果的に識別するが,負のメリットをもたらすものは排除するiosiベースのコラボレータ選択手法を開発した。 さらに,マルチスケールトランスフォーマーモジュールと短時間のアテンションモジュールを統合し,空間次元と時間次元からIoSIを捕捉し,様々な重みを割当てて効率的なアグリゲーションを行うHPHA (historical prior attention) と呼ばれる意味情報融合アルゴリズムを提案する。 2つのオープンデータセットに関する広範囲な実験により,提案するiosi-cpは,最先端のアプローチに比べて認識性能が著しく向上することを示した。 この研究に関連するコードはhttps://github.com/huangqzj/IoSI-CP/で公開されている。

Collaboration by the sharing of semantic information is crucial to enable the enhancement of perception capabilities. However, existing collaborative perception methods tend to focus solely on the spatial features of semantic information, while neglecting the importance of the temporal dimension in collaborator selection and semantic information fusion, which instigates performance degradation. In this article, we propose a novel collaborative perception framework, IoSI-CP, which takes into account the importance of semantic information (IoSI) from both temporal and spatial dimensions. Specifically, we develop an IoSI-based collaborator selection method that effectively identifies advantageous collaborators but excludes those that bring negative benefits. Moreover, we present a semantic information fusion algorithm called HPHA (historical prior hybrid attention), which integrates a multi-scale transformer module and a short-term attention module to capture IoSI from spatial and temporal dimensions, and assigns varying weights for efficient aggregation. Extensive experiments on two open datasets demonstrate that our proposed IoSI-CP significantly improves the perception performance compared to state-of-the-art approaches. The code associated with this research is publicly available at https://github.com/huangqzj/IoSI-CP/.
翻訳日:2023-08-01 15:10:33 公開日:2023-07-31
# 大規模言語モデルに現れたデセプション能力

Deception Abilities Emerged in Large Language Models ( http://arxiv.org/abs/2307.16513v1 )

ライセンス: Link先を確認
Thilo Hagendorff(参考訳) 大規模言語モデル(llm)は現在、人間のコミュニケーションや日常生活と連動する人工知能(ai)システムの最前線にある。 したがって、それらを人間の価値観に合わせることが非常に重要である。 しかし、推論能力が着実に向上していることを考えると、将来のLLMは人間のオペレーターを騙し、監視努力を回避できる能力を利用するのではないかと疑っている。 この前提条件として、LLMは詐欺戦略の概念的理解を持つ必要がある。 本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。 我々は、最先端のLLMが、他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行い、複雑な騙しシナリオにおけるそれらのパフォーマンスを、チェーン・オブ・シント推論を用いて増幅し、LLMにおけるマキアベリア主義を誘発することで、その妥当性を欺くことができることを示した。 総じて, LLMにおける未知の機械行動を明らかにすることで, 本研究は機械心理学の新たな分野に寄与する。

Large language models (LLMs) are currently at the forefront of intertwining artificial intelligence (AI) systems with human communication and everyday life. Thus, aligning them with human values is of great importance. However, given the steady increase in reasoning abilities, future LLMs are under suspicion of becoming able to deceive human operators and utilizing this ability to bypass monitoring efforts. As a prerequisite to this, LLMs need to possess a conceptual understanding of deception strategies. This study reveals that such strategies emerged in state-of-the-art LLMs, such as GPT-4, but were non-existent in earlier LLMs. We conduct a series of experiments showing that state-of-the-art LLMs are able to understand and induce false beliefs in other agents, that their performance in complex deception scenarios can be amplified utilizing chain-of-thought reasoning, and that eliciting Machiavellianism in LLMs can alter their propensity to deceive. In sum, revealing hitherto unknown machine behavior in LLMs, our study contributes to the nascent field of machine psychology.
翻訳日:2023-08-01 15:10:13 公開日:2023-07-31
# 多言語政党宣言の分類:国、時間、ジャンルにわたるドメイン転送

Classifying multilingual party manifestos: Domain transfer across country, time, and genre ( http://arxiv.org/abs/2307.16511v1 )

ライセンス: Link先を確認
Matthias A{\ss}enmacher and Nadja Sauter and Christian Heumann(参考訳) 大規模コーパスの注釈コストは、経験的社会科学研究における主要なボトルネックの1つである。 一方、ドメイン転送の機能を利用することで、アノテーション付きデータセットとトレーニング済みモデルの再利用が可能になる。 一方、ドメインの転送がいかにうまく機能し、異なる次元の転送に対して結果がどの程度信頼できるかは明らかではない。 政治宣言の大規模データベースにおいて,地域,言語,時間,ジャンル間のドメイン転送の可能性を探る。 まず,細調整トランスモデルのドメイン内分類性能について述べる。 第2に,上記の次元にわたってテストセットのジャンルを変えて,微調整されたモデルのロバスト性と転送可能性をテストする。 ジャンルの切り替えには、ニュージーランドの政治家による書き起こされたスピーチの外部コーパスを使用し、他の3次元では、マニフェストデータベースのカスタムスプリットが使用される。 BERTはモダリティをまたいだ最初の実験で最高のスコアを得るが、DistilBERTはより低い計算コストで競争力があることを証明し、時間と国でさらなる実験に使用される。 追加分析の結果、(Distil)BERTは、同様の性能で将来のデータに適用できることが示された。 また、これらの国が言語や文化的背景を共有している場合でも、起源の異なる国々の政治的マニフェスト間の顕著な違い(一部)を観察した。

Annotating costs of large corpora are still one of the main bottlenecks in empirical social science research. On the one hand, making use of the capabilities of domain transfer allows re-using annotated data sets and trained models. On the other hand, it is not clear how well domain transfer works and how reliable the results are for transfer across different dimensions. We explore the potential of domain transfer across geographical locations, languages, time, and genre in a large-scale database of political manifestos. First, we show the strong within-domain classification performance of fine-tuned transformer models. Second, we vary the genre of the test set across the aforementioned dimensions to test for the fine-tuned models' robustness and transferability. For switching genres, we use an external corpus of transcribed speeches from New Zealand politicians while for the other three dimensions, custom splits of the Manifesto database are used. While BERT achieves the best scores in the initial experiments across modalities, DistilBERT proves to be competitive at a lower computational expense and is thus used for further experiments across time and country. The results of the additional analysis show that (Distil)BERT can be applied to future data with similar performance. Moreover, we observe (partly) notable differences between the political manifestos of different countries of origin, even if these countries share a language or a cultural background.
翻訳日:2023-08-01 15:09:51 公開日:2023-07-31
# ウィグナーの位相空間電流から見た光子生成:リンドブラッド超術式の最も単純な導出

Photon Creation viewed from Wigner's Phase Space Current Perspective: The Simplest Possible Derivation of a Lindblad Superoperator Form ( http://arxiv.org/abs/2307.16510v1 )

ライセンス: Link先を確認
Ole Steuernagel and Ray-Kuang Lee(参考訳) 量子力学の研究において、ウィグナーの位相空間表現の使用は報奨となる。 ウィグナーの実数値分布 W による状態と、位相空間のベクトル場による力学、すなわちウィグナー電流 J による状態を記述する。 基本的には、ウィグナー表現のみが量子力学のこのタイプの視覚的研究に非常に便利かつ直接的に使用できる。 量子力学の最も基本的な要素、エネルギー準位の間の量子ジャンプについて教えてくれますか? 結局、相当な量だ。

For the study of quantum dynamics the use of Wigner's phase space representation can be rewarding. It describes the state by Wigner's real-valued distribution W and its dynamics by a vector field in phase space, the Wigner current J . Basically, only the Wigner representation can be used for this type of visual study of quantum dynamics so conveniently and directly. What does it teach us about the most fundamental ingredient of quantum dynamics, the quantum jump between energy levels? Quite a lot, as it turns out.
翻訳日:2023-08-01 15:09:28 公開日:2023-07-31
# ロバストステレオマッチングのための不確実性に基づく擬似ラベルの探索

Digging Into Uncertainty-based Pseudo-label for Robust Stereo Matching ( http://arxiv.org/abs/2307.16509v1 )

ライセンス: Link先を確認
Zhelun Shen, Xibin Song, Yuchao Dai, Dingfu Zhou, Zhibo Rao, Liangjun Zhang(参考訳) ドメインの違いと複数のデータセット間の不均衡な分散のため、現在のステレオマッチングアプローチは一般的に特定のデータセットに限られ、他のデータセットにはあまり一般化されない。 このようなドメインシフト問題は、通常、実際の環境では簡単には得られない、コストのかかるターゲットドメインの接地データに対する相当な適応によって対処される。 本稿では,ロバストなステレオマッチングのための不確実性推定を提案する。 具体的には、不一致分布のバランスをとるために、次の段不一致探索空間を適応的に調整するために画素レベルの不確実性推定を用いる。 そこで,不確実性に基づく擬似ラベルを新たに導入し,画素レベルと領域レベルの不確かさを推定し,予測された不確かさマップの高不確かさ画素をフィルタリングし,信頼度の高い擬似ラベルを生成して領域ギャップを整列させる手法を提案する。 実験では,強いクロスドメイン,適応,ジョイント・ジェネライゼーションを示し,ロバスト・ヴィジョン・チャレンジ2020のステレオタスクにおいて, \textbf{1st} が得られた。 さらに、不確実性に基づく擬似ラベルを拡張して、教師なしの方法で単眼深度推定ネットワークを訓練し、教師付き手法と同等の性能を達成できる。 コードはhttps://github.com/gallenszl/UCFNetで入手できる。

Due to the domain differences and unbalanced disparity distribution across multiple datasets, current stereo matching approaches are commonly limited to a specific dataset and generalize poorly to others. Such domain shift issue is usually addressed by substantial adaptation on costly target-domain ground-truth data, which cannot be easily obtained in practical settings. In this paper, we propose to dig into uncertainty estimation for robust stereo matching. Specifically, to balance the disparity distribution, we employ a pixel-level uncertainty estimation to adaptively adjust the next stage disparity searching space, in this way driving the network progressively prune out the space of unlikely correspondences. Then, to solve the limited ground truth data, an uncertainty-based pseudo-label is proposed to adapt the pre-trained model to the new domain, where pixel-level and area-level uncertainty estimation are proposed to filter out the high-uncertainty pixels of predicted disparity maps and generate sparse while reliable pseudo-labels to align the domain gap. Experimentally, our method shows strong cross-domain, adapt, and joint generalization and obtains \textbf{1st} place on the stereo task of Robust Vision Challenge 2020. Additionally, our uncertainty-based pseudo-labels can be extended to train monocular depth estimation networks in an unsupervised way and even achieves comparable performance with the supervised methods. The code will be available at https://github.com/gallenszl/UCFNet.
翻訳日:2023-08-01 15:09:19 公開日:2023-07-31
# 凸最小化のための線探索

Line Search for Convex Minimization ( http://arxiv.org/abs/2307.16560v1 )

ライセンス: Link先を確認
Laurent Orseau, Marcus Hutter(参考訳) ゴールデンセクション探索とバイセクション探索は、準凸関数の1d最小化のための2つの基本アルゴリズムである。 1つは関数クエリのみを使用し、もう1つは勾配クエリも使用する。 他のアルゴリズムはニュートン法のようなより強い仮定の下で存在する。 しかしながら、我々の知る限りでは、凸関数のピースワイドや最大構成を含む一般凸関数に対する厳密な直線探索アルゴリズムは、凸性を利用するものはない。 我々は,2つのアルゴリズムを提案する。$\Delta$-Bisectionは,(部分)次情報と凸性を用いて収束を高速化するバイセクション検索の変種であり,$\Delta$-Secantはゴールデンセクション検索の変種であり,関数クエリのみを使用する。 bisection searchは、各イテレーションで1つのファクタ2で$x$の間隔を減少させるが、$\delta$-bisectionは、各イテレーションで少なくとも1つのファクタ2で$x^*$-gap$\delta^x$($x$座標は$\delta$)を小さくする。 同様に、$\delta$-secant は、秒関数クエリ毎に少なくとも 2 倍の $x^*$-gap を減少させる。 さらに、$y^*$-gap $\delta^y$($y$座標は$\delta$)は洗練された停止基準を提供し、他のアルゴリズムでも使用できる。 いくつかの凸関数の実験では、我々のアルゴリズムは常に準凸関数よりも高速であることが確認されている。 さらに$\delta$-secant に基づく準実数線探索アルゴリズムを設計する。 逆追跡線探索の代替として勾配降下を用いることができ、パラメータによってはチューニングが難しい場合もあり、この効果の例として、強凸および滑らかな関数を挙げる。 収束保証を提供し,数個の単変量および多変量凸関数上での準エクサクサクタライン探索の効率を確認する。

Golden-section search and bisection search are the two main principled algorithms for 1d minimization of quasiconvex (unimodal) functions. The first one only uses function queries, while the second one also uses gradient queries. Other algorithms exist under much stronger assumptions, such as Newton's method. However, to the best of our knowledge, there is no principled exact line search algorithm for general convex functions -- including piecewise-linear and max-compositions of convex functions -- that takes advantage of convexity. We propose two such algorithms: $\Delta$-Bisection is a variant of bisection search that uses (sub)gradient information and convexity to speed up convergence, while $\Delta$-Secant is a variant of golden-section search and uses only function queries. While bisection search reduces the $x$ interval by a factor 2 at every iteration, $\Delta$-Bisection reduces the (sometimes much) smaller $x^*$-gap $\Delta^x$ (the $x$ coordinates of $\Delta$) by at least a factor 2 at every iteration. Similarly, $\Delta$-Secant also reduces the $x^*$-gap by at least a factor 2 every second function query. Moreover, the $y^*$-gap $\Delta^y$ (the $y$ coordinates of $\Delta$) also provides a refined stopping criterion, which can also be used with other algorithms. Experiments on a few convex functions confirm that our algorithms are always faster than their quasiconvex counterparts, often by more than a factor 2. We further design a quasi-exact line search algorithm based on $\Delta$-Secant. It can be used with gradient descent as a replacement for backtracking line search, for which some parameters can be finicky to tune -- and we provide examples to this effect, on strongly-convex and smooth functions. We provide convergence guarantees, and confirm the efficiency of quasi-exact line search on a few single- and multivariate convex functions.
翻訳日:2023-08-01 15:02:01 公開日:2023-07-31
# 縦断的OCT研究におけるAMDに伴う萎縮のカラムベース深層学習進行解析

Simultaneous column-based deep learning progression analysis of atrophy associated with AMD in longitudinal OCT studies ( http://arxiv.org/abs/2307.16559v1 )

ライセンス: Link先を確認
Adi Szeskin, Roei Yehuda, Or Shmueli, Jaime Levy and Leo Joskowicz(参考訳) 目的: AMD 関連網膜萎縮症の進行には, 経時的 OCT 研究における網膜萎縮の正確な定量化が必要である。 これは、未登録の oct スキャンの連続ペア (prior と current) における微妙な萎縮の変化を見つけ、比較し、線引きすることに基づいている。 方法: ドライAMDにともなう経時的萎縮の同時検出と定量化のための完全自動エンドツーエンドパイプラインを患者のCTスキャンにて提案した。 登録前のOCTスライス(Bスキャン)と現在のOCTスライス(Bスキャン)の垂直画素ワイドカラム(Aスキャン)のマッチングペアにおける光散乱パターンを分類することにより、連続したOCTスキャンにおいて網膜萎縮セグメントを同時に検出し、セグメント化する。 結果:4,040 OCTスライスと18例のスキャン(66%のトレーニング/バリデーション,33%の試験)と24.13-14.0ヶ月の試験で,完全RPEと外網膜萎縮症(cRORA)が1,998 OCTスライス(735個の萎縮病変(3,732セグメント,0.45Mカラム)で同定され,0.90+-0.09,0.95+-0.06,0.74+-0.18,0.94+-0.12が検出された。 同時分類は、萎縮部位や病変に対して、スタンドアロンの分類精度とリコールを30+-62%、27+-0%で上回る。 結論: AMDに伴う網膜萎縮の同時検出と定量化は正確であり,単独分類法より優れている。 翻訳的関連性:amdに関連する網膜萎縮を検知し、定量化する自動的かつ効率的な方法。

Purpose: Disease progression of retinal atrophy associated with AMD requires the accurate quantification of the retinal atrophy changes on longitudinal OCT studies. It is based on finding, comparing, and delineating subtle atrophy changes on consecutive pairs (prior and current) of unregistered OCT scans. Methods: We present a fully automatic end-to-end pipeline for the simultaneous detection and quantification of time-related atrophy changes associated with dry AMD in pairs of OCT scans of a patient. It uses a novel simultaneous multi-channel column-based deep learning model trained on registered pairs of OCT scans that concurrently detects and segments retinal atrophy segments in consecutive OCT scans by classifying light scattering patterns in matched pairs of vertical pixel-wide columns (A-scans) in registered prior and current OCT slices (B-scans). Results: Experimental results on 4,040 OCT slices with 5.2M columns from 40 scans pairs of 18 patients (66% training/validation, 33% testing) with 24.13+-14.0 months apart in which Complete RPE and Outer Retinal Atrophy (cRORA) was identified in 1,998 OCT slices (735 atrophy lesions from 3,732 segments, 0.45M columns) yield a mean atrophy segments detection precision, recall of 0.90+-0.09, 0.95+-0.06 and 0.74+-0.18, 0.94+-0.12 for atrophy lesions with AUC=0.897, all above observer variability. Simultaneous classification outperforms standalone classification precision and recall by 30+-62% and 27+-0% for atrophy segments and lesions. Conclusions: simultaneous column-based detection and quantification of retinal atrophy changes associated with AMD is accurate and outperforms standalone classification methods. Translational relevance: an automatic and efficient way to detect and quantify retinal atrophy changes associated with AMD.
翻訳日:2023-08-01 15:01:26 公開日:2023-07-31
# 効率的なフレーム補間のための不確実性誘導空間プルーニングアーキテクチャ

Uncertainty-Guided Spatial Pruning Architecture for Efficient Frame Interpolation ( http://arxiv.org/abs/2307.16555v1 )

ライセンス: Link先を確認
Ri Cheng, Xuhao Jiang, Ruian He, Shili Zhou, Weimin Tan, Bo Yan(参考訳) ビデオフレーム補間(VFI)モデルは、すべての場所に畳み込み演算を適用し、簡単に動く領域で冗長な計算を行う。 動的空間プルーニング法を用いて冗長な計算をスキップできるが,vfiタスクの容易な領域を監視せずに適切に特定することはできない。 本稿では,フレーム補間を動的に行うために冗長計算を省略する不確実性誘導型空間プラニング(UGSP)アーキテクチャを提案する。 特に、不確実性の低い画素は、望ましくない視覚的結果をもたらすことなく計算を削減できる、容易な領域を示す。 そこで我々は,不確実なマスクラベルを用いてUGSPを誘導し,容易な領域を適切に配置する。 さらに,UGSPの性能向上のために,補助的な非刈取ブランチを活用する自己コントラストトレーニング戦略を提案する。 大規模な実験によると、UGSPはパフォーマンスを維持しているが、Vimeo90K/UCF101/MiddleBuryデータセットを使用せずにベースラインと比較してFLOPを34%/52%/30%削減する。 さらに,本手法は,複数のベンチマーク上でのFLOPの低下による最先端性能を実現する。

The video frame interpolation (VFI) model applies the convolution operation to all locations, leading to redundant computations in regions with easy motion. We can use dynamic spatial pruning method to skip redundant computation, but this method cannot properly identify easy regions in VFI tasks without supervision. In this paper, we develop an Uncertainty-Guided Spatial Pruning (UGSP) architecture to skip redundant computation for efficient frame interpolation dynamically. Specifically, pixels with low uncertainty indicate easy regions, where the calculation can be reduced without bringing undesirable visual results. Therefore, we utilize uncertainty-generated mask labels to guide our UGSP in properly locating the easy region. Furthermore, we propose a self-contrast training strategy that leverages an auxiliary non-pruning branch to improve the performance of our UGSP. Extensive experiments show that UGSP maintains performance but reduces FLOPs by 34%/52%/30% compared to baseline without pruning on Vimeo90K/UCF101/MiddleBury datasets. In addition, our method achieves state-of-the-art performance with lower FLOPs on multiple benchmarks.
翻訳日:2023-08-01 15:00:42 公開日:2023-07-31
# DiffProsody: Prosody Conditional Adversarial Trainingを用いた音声合成のための拡散型潜在韻律生成

DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training ( http://arxiv.org/abs/2307.16549v1 )

ライセンス: Link先を確認
Hyung-Seok Oh, Sang-Hoon Lee and Seong-Whan Lee(参考訳) 表現型音声合成システムは韻律モデリングによる大幅な進歩を遂げているが,従来の手法は改善されている。 従来のアプローチは、量子化された韻律ベクトルを予測するのに自己回帰法に依存してきたが、長期依存の問題や推論の遅い問題に苦しんでいる。 本研究では,拡散型潜在韻律生成器と韻律条件付き逆律学習を用いて表現音声を合成するDiffProsodyという新しい手法を提案する。 本研究は,韻律ベクトル生成における韻律ジェネレータの有効性を確認した。 さらに、韻律条件判別器は、韻律を正確にエミュレートすることにより、生成した音声の品質を著しく向上させる。 我々は, 分散生成型ネットワークを用いて, 韻律生成速度を改善する。 その結果、DiffProsodyは従来の拡散モデルよりも16倍速く韻律を生成することができる。 提案手法の優れた性能を実験により実証した。

Expressive text-to-speech systems have undergone significant advancements owing to prosody modeling, but conventional methods can still be improved. Traditional approaches have relied on the autoregressive method to predict the quantized prosody vector; however, it suffers from the issues of long-term dependency and slow inference. This study proposes a novel approach called DiffProsody in which expressive speech is synthesized using a diffusion-based latent prosody generator and prosody conditional adversarial training. Our findings confirm the effectiveness of our prosody generator in generating a prosody vector. Furthermore, our prosody conditional discriminator significantly improves the quality of the generated speech by accurately emulating prosody. We use denoising diffusion generative adversarial networks to improve the prosody generation speed. Consequently, DiffProsody is capable of generating prosody 16 times faster than the conventional diffusion model. The superior performance of our proposed method has been demonstrated via experiments.
翻訳日:2023-08-01 15:00:25 公開日:2023-07-31
# MiniDemographicABM.jlの仕様:英国における簡易型エージェントベースの人口統計モデル

Specification of MiniDemographicABM.jl: A simplified agent-based demographic model of the UK ( http://arxiv.org/abs/2307.16548v1 )

ライセンス: Link先を確認
Atiyah Elsheikh(参考訳) この文書は、単純化されたイギリスのエージェントベース人口統計モデルの数学的仕様に対して適切な形式的用語を提示している。 初期人口の個人は年齢、死亡、出生、離婚、結婚の対象となる。 モデルの主な目的は、最先端の Agents.jl Julia package [1] の機能を調べ、活用することである。 さらに、このモデルは、主に人口統計学的文脈において、現実的な社会経済、パンデミック、社会的相互作用に基づく研究に適応するためのベースモデルとして機能することができる。 特定のシミュレーションは、時間毎、日毎、週毎、月毎、あるいは任意のユーザ定義クロックレートで、ユーザ定義のシミュレーション固定ステップサイズで進行する。

This document presents adequate formal terminology for the mathematical specification of a simplified non-calibrated agent-based demographic model of the UK. Individuals of an initial population are subject to ageing, deaths, births, divorces and marriages. The main purpose of the model is to explore and exploit capabilities of the state-of-the-art Agents.jl Julia package [1]. Additionally, the model can serve as a base model to be adjusted to realistic large-scale socio-economics, pandemics or social interactions-based studies mainly within a demographic context. A specific simulation is progressed with a user-defined simulation fixed step size on a hourly, daily, weekly, monthly basis or even an arbitrary user-defined clock rate.
翻訳日:2023-08-01 15:00:09 公開日:2023-07-31
# 汎用視覚言語顔偽造検出に向けて

Towards General Visual-Linguistic Face Forgery Detection ( http://arxiv.org/abs/2307.16545v1 )

ライセンス: Link先を確認
Ke Sun, Shen Chen, Taiping Yao, Xiaoshuai Sun, Shouhong Ding and Rongrong Ji(参考訳) deepfakeは、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす現実的な顔操作だ。 既存の方法は、このタスクをデジタルラベルやマスク信号を使って検出モデルを訓練するバイナリ分類として扱う。 このような監督には意味的情報と解釈性が欠けていると論じる。 この問題に対処するため,本論文では,微粒な文レベルのプロンプトをアノテーションとして用いた視覚言語的顔偽造検出(VLFFD)という新しいパラダイムを提案する。 現在のdeepfakesデータセットではテキストアノテーションが利用できないため、vlffdはプロンプト偽造画像ジェネレータ(pfig)を介して、対応するきめ細かいプロンプトを持つ混合偽造画像を生成する。 そして、細粒度混合データと粗粒度原データとを混合し、粗粒度共学習フレームワーク(c2f)と共同で訓練することにより、より一般化と解釈性を得ることができる。 提案手法は,いくつかの難解なベンチマークにおいて既存の検出モデルを改善したことを示す。

Deepfakes are realistic face manipulations that can pose serious threats to security, privacy, and trust. Existing methods mostly treat this task as binary classification, which uses digital labels or mask signals to train the detection model. We argue that such supervisions lack semantic information and interpretability. To address this issues, in this paper, we propose a novel paradigm named Visual-Linguistic Face Forgery Detection(VLFFD), which uses fine-grained sentence-level prompts as the annotation. Since text annotations are not available in current deepfakes datasets, VLFFD first generates the mixed forgery image with corresponding fine-grained prompts via Prompt Forgery Image Generator (PFIG). Then, the fine-grained mixed data and coarse-grained original data and is jointly trained with the Coarse-and-Fine Co-training framework (C2F), enabling the model to gain more generalization and interpretability. The experiments show the proposed method improves the existing detection models on several challenging benchmarks.
翻訳日:2023-08-01 14:59:58 公開日:2023-07-31
# 顧客支援意図検出のためのオープンインテント認識モデルの利用

Utilisation of open intent recognition models for customer support intent detection ( http://arxiv.org/abs/2307.16544v1 )

ライセンス: Link先を確認
Rasheed Mohammad, Oliver Favell, Shariq Shah, Emmett Cooper, Edlira Vakaj(参考訳) より多くの製品やサービスがデジタルで相互接続されるようになるにつれて、企業は顧客満足度の向上とサポートを提供するための新しいソリューションを模索している。 競争力を維持するために、企業は速く、効率的で知識豊かなサポートを提供し、アウトソースする必要がある。 サポートソリューションは、ソーシャルメディア、人工知能(AI)、機械学習(ML)、リモートデバイス接続など、顧客を支援するテクノロジも進歩している。 顧客サポートオペレータは、これらの技術を活用して、より優れた顧客アウトリーチとリモートエリアでのクライアントサポートを提供するように訓練されています。 製品とサポートシステムの相互接続は、企業に対して、製品市場とビジネス規模を拡大するための潜在的な国際顧客を提供する。 本稿では,バーミンガムシティ大学と企業間のナレッジ・トランスフォーメーション・パートナーシップ(ktp)プログラムと共同で,さまざまなビジネス分野におけるカスタマサポートをアウトソーシングする企業のカスタマサービスシステムを扱う企業とのコラボレーションによって,カスタマサポートにおけるai応用の可能性について報告する。 本研究はラベル付きテキストデータとラベルなしテキストデータの両方を用いて顧客の意図を正確に予測するためのいくつかのアプローチを検討した。 特定のデータセットで有望なアプローチもあるが、単一の普遍的なアプローチの探索は続いている。 意図検出と発見のための別個のパイプラインの開発により、既知の意図を検出する精度が向上し、未知の意図に対する意図発見の精度を改善するためにさらなる作業が必要である。

Businesses have sought out new solutions to provide support and improve customer satisfaction as more products and services have become interconnected digitally. There is an inherent need for businesses to provide or outsource fast, efficient and knowledgeable support to remain competitive. Support solutions are also advancing with technologies, including use of social media, Artificial Intelligence (AI), Machine Learning (ML) and remote device connectivity to better support customers. Customer support operators are trained to utilise these technologies to provide better customer outreach and support for clients in remote areas. Interconnectivity of products and support systems provide businesses with potential international clients to expand their product market and business scale. This paper reports the possible AI applications in customer support, done in collaboration with the Knowledge Transfer Partnership (KTP) program between Birmingham City University and a company that handles customer service systems for businesses outsourcing customer support across a wide variety of business sectors. This study explored several approaches to accurately predict customers' intent using both labelled and unlabelled textual data. While some approaches showed promise in specific datasets, the search for a single, universally applicable approach continues. The development of separate pipelines for intent detection and discovery has led to improved accuracy rates in detecting known intents, while further work is required to improve the accuracy of intent discovery for unknown intents.
翻訳日:2023-08-01 14:59:38 公開日:2023-07-31
# 自律走行車におけるシミュレーションから実環境へのドライバ観測モデルの伝達性について

On Transferability of Driver Observation Models from Simulated to Real Environments in Autonomous Cars ( http://arxiv.org/abs/2307.16543v1 )

ライセンス: Link先を確認
Walter Morales-Alvarez, Novel Certad, Alina Roitberg, Rainer Stiefelhagen and Cristina Olaverri-Monreal(参考訳) ドライバ監視フレームワークでは、制御されたシミュレーション環境で収集されたクリーンデータセットが、最初のトレーニンググラウンドとして機能することが多い。 しかし,実際の運転条件下での展開では,照明や自動車モデル,被写体外観の変化,センサの相違,その他の環境変化によって生じる分布変化の問題に,シミュレータ学習モデルが急速に直面する。 本稿では,安全上の問題からシミュレーションデータの利用が頻繁であることを踏まえ,シミュレーションから現実のシナリオへ映像ベースのドライバ観察モデルを転送する可能性について検討する。 そこで,本研究では,自律運転の実態を特徴とするデータセットを収集し,注意をそそるセカンダリ活動に携わる7名の参加者を対象とする。 SIMからREALへの直接転送を可能にするため,既存の大規模シミュレータデータセットをトレーニングソースとして使用した。 運転者の観察によく用いられる3d convnet (i3d) モデルを用い,gradle-weighted class activation mapping (grad-cam) を用いてモデル意思決定の詳細な分析を行った。 シミュレータベースのモデルは明らかにランダムなベースラインを超えているが、認識品質は低下し、平均精度は85.7%から46.6%に低下した。 また、異なる行動クラスにまたがる強い変動も観察する。 これにより、モデル転送可能性の課題が浮き彫りになり、実際の運転条件に対処できるより堅牢な運転観察システムの研究が促進される。

For driver observation frameworks, clean datasets collected in controlled simulated environments often serve as the initial training ground. Yet, when deployed under real driving conditions, such simulator-trained models quickly face the problem of distributional shifts brought about by changing illumination, car model, variations in subject appearances, sensor discrepancies, and other environmental alterations. This paper investigates the viability of transferring video-based driver observation models from simulation to real-world scenarios in autonomous vehicles, given the frequent use of simulation data in this domain due to safety issues. To achieve this, we record a dataset featuring actual autonomous driving conditions and involving seven participants engaged in highly distracting secondary activities. To enable direct SIM to REAL transfer, our dataset was designed in accordance with an existing large-scale simulator dataset used as the training source. We utilize the Inflated 3D ConvNet (I3D) model, a popular choice for driver observation, with Gradient-weighted Class Activation Mapping (Grad-CAM) for detailed analysis of model decision-making. Though the simulator-based model clearly surpasses the random baseline, its recognition quality diminishes, with average accuracy dropping from 85.7% to 46.6%. We also observe strong variations across different behavior classes. This underscores the challenges of model transferability, facilitating our research of more robust driver observation systems capable of dealing with real driving conditions.
翻訳日:2023-08-01 14:59:15 公開日:2023-07-31
# サイバーセキュリティの紹介とインターフェース - カードアプローチ

Introducing and Interfacing with Cybersecurity -- A Cards Approach ( http://arxiv.org/abs/2307.16535v1 )

ライセンス: Link先を確認
Ryan Shah, Manuel Maarek, Shenando Stals, Lynne Baillie, Sheung Chi Chan, Robert Stewart, Hans-Wolfgang Loidl, Olga Chatzifoti(参考訳) サイバーセキュリティは重要なトピックであり、急勾配の学習曲線と専門知識を必要とするという認識によってアクセスできないものと見なされることが多い。 脅威の状況は常に変化しているため、ベストプラクティスのような実践的なソリューションが採用されているが、重要なサイバーセキュリティ関連のインシデントの数はまだ多い。 これらの懸念に対処するため、National Cyber Security Centreはサイバーセキュリティ学習の助言と基盤となる包括的な情報基盤を提供するCybersecurity Body of Knowledge(CyBOK)を発表した。 残念なことに、CyBOKには1000ページ以上の奥行きの材料が含まれており、初心者にとっては容易ではないかもしれない。 さらに、このような個人が露出する可能性のあるさまざまなサイバーセキュリティシナリオを簡単に表現することはできない。 これら2つの問題の解決策として,CyBOKを技術コンテンツの基礎として,学習と議論を支援する入門的なサイバーセキュリティ知識を提供するためのカードフォーマットを提案する。 2つのユーザ調査の結果,80%の参加者がサイバーセキュリティに関する初歩的な知識を提供し,70%の参加者がトピックを議論するためのインターフェースを提供し,攻撃や脆弱性,防御の間のリンクを可能にすることに同意した。

Cybersecurity is an important topic which is often viewed as one that is inaccessible due to steep learning curves and a perceived requirement of needing specialist knowledge. With a constantly changing threat landscape, practical solutions such as best-practices are employed, but the number of critical cybersecurity-related incidents remains high. To address these concerns, the National Cyber Security Centre published a Cybersecurity Body of Knowledge (CyBOK) to provide a comprehensive information base used to advise and underpin cybersecurity learning. Unfortunately, CyBOK contains over 1000 pages of in-depth material and may not be easy to navigate for novice individuals. Furthermore, it does not allow for easy expression of various cybersecurity scenarios that such individuals may be exposed to. As a solution to these two issues, we propose the use of a playing cards format to provide introductory cybersecurity knowledge that supports learning and discussion, using CyBOK as the foundation for the technical content. Upon evaluation in two user studies, we found that 80% of the participants agreed the cards provided them with introductory knowledge of cybersecurity topics, and 70% agreed the cards provided an interface for discussing topics and enabled them to make links between attacks, vulnerabilities and defences.
翻訳日:2023-08-01 14:58:49 公開日:2023-07-31
# 戦闘または飛行:宇宙線誘起フォノンと量子表面符号

Fight or Flight: Cosmic Ray-Induced Phonons and the Quantum Surface Code ( http://arxiv.org/abs/2307.16533v1 )

ライセンス: Link先を確認
Bernard Ousmane Sane, Rodney Van Meter, Michal Hajdu\v{s}ek(参考訳) 近年の研究では、量子データの寿命を制限するエラー源として宇宙線イベントが特定されている。 これらのエラーは相関し、多数の量子ビットに影響を与えるため、量子チップ間のデータの損失につながる。 ハードウェアや分散システムの構築によってこの問題に対処しようとする以前の作業には、依然として制限がある。 我々は、フォノン伝播半径を制限するハードウェア戦略の並列開発を想定し、2次元表面コードに基づく新しいハイブリッドなハードウェア・ソフトウェアベースの戦略を開発することにより、別の観点からこの問題にアプローチする。 我々は、この領域から逃れることを提案する: 論理量子ビットをストライクの震源から十分に遠ざけ、論理情報を維持する。 具体的には,(1)アプローチに必要な最小限のハードウェア要件を確立すること,(2)移動論理量子ビットのマッピングを提案すること,(3)コード距離の可能な選択を評価すること,である。 我々の分析では、表面の「穴」から遠く離れたものと、穴の近くや重なり合うものという2つの宇宙線現象が考えられる。 論理量子ビットの移動に必要な時間に応じて、論理量子ビットが破壊される確率を100%から4%から15%に削減できることを示す。

Recent work has identified cosmic ray events as an error source limiting the lifetime of quantum data. These errors are correlated and affect a large number of qubits, leading to the loss of data across a quantum chip. Previous works attempting to address the problem in hardware or by building distributed systems still have limitations. We approach the problem from a different perspective, developing a new hybrid hardware-software-based strategy based on the 2-D surface code, assuming the parallel development of a hardware strategy that limits the phonon propagation radius. We propose to flee the area: move the logical qubits far enough away from the strike's epicenter to maintain our logical information. Specifically, we: (1) establish the minimum hardware requirements needed for our approach; (2) propose a mapping for moving logical qubits; and (3) evaluate the possible choice of the code distance. Our analysis considers two possible cosmic ray events: those far from both ``holes'' in the surface code and those near or overlapping a hole. We show that the probability that the logical qubit will be destroyed can be reduced from 100% to the range 4% to 15% depending on the time required to move the logical qubit.
翻訳日:2023-08-01 14:58:27 公開日:2023-07-31
# 合成入力音声を用いた視聴覚映像音声合成

Audio-visual video-to-speech synthesis with synthesized input audio ( http://arxiv.org/abs/2307.16584v1 )

ライセンス: Link先を確認
Triantafyllos Kefalas and Yannis Panagakis and Maja Pantic(参考訳) ビデオ音声合成では、サイレントビデオから話者の音声信号を再構成する。 このタスクの暗黙の仮定は、音声信号が欠落しているか、あるいは処理に役立たないような高いノイズ/腐敗を含んでいるかである。 以前の文学作品では、ビデオ入力のみを使用するか、トレーニング中にビデオと音声の両方の入力を用いるか、推論中に入力音声経路を破棄する。 本研究では,トレーニングと推論の両方において,ビデオと音声の入力が音声合成に与える影響について検討する。 特に,事前学習した映像音声合成モデルを用いて音声信号の合成を行い,無声音声と合成音声の両方を入力として音声音声合成モデルを訓練し,最終的な再構成音声を予測する。 実験では,この手法が生波形とメルスペクトルの両方を目標出力として成功していることを示す。

Video-to-speech synthesis involves reconstructing the speech signal of a speaker from a silent video. The implicit assumption of this task is that the sound signal is either missing or contains a high amount of noise/corruption such that it is not useful for processing. Previous works in the literature either use video inputs only or employ both video and audio inputs during training, and discard the input audio pathway during inference. In this work we investigate the effect of using video and audio inputs for video-to-speech synthesis during both training and inference. In particular, we use pre-trained video-to-speech models to synthesize the missing speech signals and then train an audio-visual-to-speech synthesis model, using both the silent video and the synthesized speech as inputs, to predict the final reconstructed speech. Our experiments demonstrate that this approach is successful with both raw waveforms and mel spectrograms as target outputs.
翻訳日:2023-08-01 14:52:47 公開日:2023-07-31
# 1次元乱流場を合成するマルチスケール・マルチ基準生成適応ネットワーク

A multiscale and multicriteria Generative Adversarial Network to synthesize 1-dimensional turbulent fields ( http://arxiv.org/abs/2307.16580v1 )

ライセンス: Link先を確認
Carlos Granero-Belinchon (ODYSSEY, IMT Atlantique - MEE, Lab-STICC\_OSE), Manuel Cabeza Gallucci (IMT Atlantique - MEE)(参考訳) 本稿では,乱流速度統計量を持つ1次元確率場を生成するニューラルネットワーク確率モデルを提案する。 モデルアーキテクチャと訓練手順は、コルモゴロフとオボホフの完全な発達した乱流の統計理論に基づいているため、記述を保証している。 1)エネルギー分布 2)エネルギーカスケードと 3)実験的な観察と一致した規模での断続性。 このモデルは、複数スケールの最適化基準を持つジェネレーティブ・アドバイサル・ネットワークである。 まず, 乱流エネルギー分布, エネルギーカスケード, スケール間の断続性をそれぞれ取得する生成場のインクリメントのばらつき, 歪, 平坦性の3つの物理基準を用いる。 第2に、生成したフィールドの長さの異なるセグメントに対して、再生統計分布に基づく生成逆ネットワーク基準を用いる。 さらに、乱流の研究で頻繁に使われるマルチスケールの分解を模倣するために、モデルアーキテクチャはモデルの複数の層に沿って変化するカーネルサイズと完全に共進化する。 モデルのトレーニングにはモダネ風洞の格子乱流からの乱流速度信号を使用します。

This article introduces a new Neural Network stochastic model to generate a 1-dimensional stochastic field with turbulent velocity statistics. Both the model architecture and training procedure ground on the Kolmogorov and Obukhov statistical theories of fully developed turbulence, so guaranteeing descriptions of 1) energy distribution, 2) energy cascade and 3) intermittency across scales in agreement with experimental observations. The model is a Generative Adversarial Network with multiple multiscale optimization criteria. First, we use three physics-based criteria: the variance, skewness and flatness of the increments of the generated field that retrieve respectively the turbulent energy distribution, energy cascade and intermittency across scales. Second, the Generative Adversarial Network criterion, based on reproducing statistical distributions, is used on segments of different length of the generated field. Furthermore, to mimic multiscale decompositions frequently used in turbulence's studies, the model architecture is fully convolutional with kernel sizes varying along the multiple layers of the model. To train our model we use turbulent velocity signals from grid turbulence at Modane wind tunnel.
翻訳日:2023-08-01 14:52:31 公開日:2023-07-31
# 音声視覚分割のためのコントラスト条件付き潜時拡散法

Contrastive Conditional Latent Diffusion for Audio-visual Segmentation ( http://arxiv.org/abs/2307.16579v1 )

ライセンス: Link先を確認
Yuxin Mao, Jing Zhang, Mochu Xiang, Yunqiu Lv, Yiran Zhong, Yuchao Dai(参考訳) 本稿では,音声・視覚セグメンテーション(avs)のためのコントラスト学習を用いた潜在拡散モデルを提案する。 我々は、AVSを条件生成タスクと解釈し、オーディオを音生成器のセグメンテーションの条件変数として定義する。 新たな解釈では,音声と最終セグメンテーションマップとの相関関係をモデル化し,その寄与を確実にすることが必要である。 意味関連表現学習を実現するために,フレームワークに潜在拡散モデルを導入する。 特に, 拡散モデルでは, 地中セグメンテーションマップの条件生成過程を学習し, 実験段階では地中セグメンテーション処理を行う場合, 地中セグメンテーション推定に繋がる。 条件拡散モデルとして、条件変数がモデル出力に寄与することを保証することが不可欠である。 次に, モデル予測と音声データとの相互情報を最大化することと一致した音声と視覚の対応を学習するために, コントラスト学習をフレームワークに導入する。 このように、コントラスト学習による潜在拡散モデルは、AVSに対する音声の寄与を明示的に最大化する。 ベンチマークデータセットにおける実験結果は,本ソリューションの有効性を検証する。 コードと結果は、プロジェクトページでオンライン公開されている。

We propose a latent diffusion model with contrastive learning for audio-visual segmentation (AVS) to extensively explore the contribution of audio. We interpret AVS as a conditional generation task, where audio is defined as the conditional variable for sound producer(s) segmentation. With our new interpretation, it is especially necessary to model the correlation between audio and the final segmentation map to ensure its contribution. We introduce a latent diffusion model to our framework to achieve semantic-correlated representation learning. Specifically, our diffusion model learns the conditional generation process of the ground-truth segmentation map, leading to ground-truth aware inference when we perform the denoising process at the test stage. As a conditional diffusion model, we argue it is essential to ensure that the conditional variable contributes to model output. We then introduce contrastive learning to our framework to learn audio-visual correspondence, which is proven consistent with maximizing the mutual information between model prediction and the audio data. In this way, our latent diffusion model via contrastive learning explicitly maximizes the contribution of audio for AVS. Experimental results on the benchmark dataset verify the effectiveness of our solution. Code and results are online via our project page: https://github.com/OpenNLPLab/DiffusionAVS.
翻訳日:2023-08-01 14:52:12 公開日:2023-07-31
# 観測、偏り、ランダム化データソースを融合しながら反事実境界を近似する

Approximating Counterfactual Bounds while Fusing Observational, Biased and Randomised Data Sources ( http://arxiv.org/abs/2307.16577v1 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci and Rafael Caba\~nas and David Huber(参考訳) 構造因果モデルにおいて,複数の,バイアスのある,観察的,介入的な研究からのデータを統合することの問題点に対処する。 まず、選択バイアスによって影響を受ける単一の観測データセットの場合から始める。 利用可能なデータの可能性には局所的な最大性がないことを示す。 これにより, 因果的期待最大化スキームを用いて, 本論文の焦点である部分的識別可能な反事実クエリの境界を近似することができる。 次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。介入的、観察的、偏り、バイアスのないいずれであっても、グラフィカルトランスフォーメーションを通じて前者に再マップすることで。 系統的な数値実験と緩和ケアのケーススタディは,不均一なデータソースを融合させることにより,部分的識別可能性に影響を及ぼす利点を示唆しながら,我々のアプローチの有効性を示した。

We address the problem of integrating data from multiple, possibly biased, observational and interventional studies, to eventually compute counterfactuals in structural causal models. We start from the case of a single observational dataset affected by a selection bias. We show that the likelihood of the available data has no local maxima. This enables us to use the causal expectation-maximisation scheme to approximate the bounds for partially identifiable counterfactual queries, which are the focus of this paper. We then show how the same approach can address the general case of multiple datasets, no matter whether interventional or observational, biased or unbiased, by remapping it into the former one via graphical transformations. Systematic numerical experiments and a case study on palliative care show the effectiveness of our approach, while hinting at the benefits of fusing heterogeneous data sources to get informative outcomes in case of partial identifiability.
翻訳日:2023-08-01 14:51:50 公開日:2023-07-31
# シンタクティックな固有言語の量子機械翻訳に向けて

Toward Quantum Machine Translation of Syntactically Distinct Languages ( http://arxiv.org/abs/2307.16576v1 )

ライセンス: Link先を確認
Mina Abbaszade, Mariam Zomorodi, Vahid Salari, Philip Kurian(参考訳) 本研究では,ノイズ中規模量子(nisq)デバイス上での量子自然言語処理アルゴリズムを用いた言語翻訳の実現可能性について検討する。 自然言語処理(NLP)における古典的な手法は、複雑な言語タスクに必要な大規模計算を扱うのに苦労するが、NISQデバイス上の量子NLPは、大量の言語データを効率的に処理し分析するために量子並列性と絡み合いを利用するという約束を持ち、NLPアプリケーションに革命をもたらす可能性がある。 私たちの研究は、量子ニューラルマシン翻訳の道を開いたいと考えており、将来的には古典的な手法よりも有利になる可能性がある。 我々は、シャノンエントロピーを用いて、パラメトリズド量子回路の性能における回転ゲートの適切な角度の役割を示す。 特に、異なる言語の量子回路間の通信手段として、これらの角度(パラメータ)を利用する。 そこで我々は,従来のニューラルネットワークのエンコーダ・デコーダモデルを採用し,長寿命メモリ(LSTM)を用いた翻訳タスクを実装した。 実験は英語文とペルシャ訳文からなるサンプル160点を対象に行った。 確率勾配降下 (sgd) を一次として, 異なるオプティマイザを用いたモデルを訓練し, sgdを併用した2つの最適化器を組み込んだ。 特に,平均絶対誤差0.03,平均二乗誤差0.002,損失損失0.016の2つのLSTM層とAdamオプティマイザを用いた最適モデルによる最適結果を得た。 我々の小さなデータセットは、単純な同義語文と単語間マッピングからなるが、複雑な文構造のためのより複雑な機械翻訳モデルにおいて、シャノンエントロピーが有用であることを示している。

The present study aims to explore the feasibility of language translation using quantum natural language processing algorithms on noisy intermediate-scale quantum (NISQ) devices. Classical methods in natural language processing (NLP) struggle with handling large-scale computations required for complex language tasks, but quantum NLP on NISQ devices holds promise in harnessing quantum parallelism and entanglement to efficiently process and analyze vast amounts of linguistic data, potentially revolutionizing NLP applications. Our research endeavors to pave the way for quantum neural machine translation, which could potentially offer advantages over classical methods in the future. We employ Shannon entropy to demonstrate the significant role of some appropriate angles of rotation gates in the performance of parametrized quantum circuits. In particular, we utilize these angles (parameters) as a means of communication between quantum circuits of different languages. To achieve our objective, we adopt the encoder-decoder model of classical neural networks and implement the translation task using long short-term memory (LSTM). Our experiments involved 160 samples comprising English sentences and their Persian translations. We trained the models with different optimisers implementing stochastic gradient descent (SGD) as primary and subsequently incorporating two additional optimizers in conjunction with SGD. Notably, we achieved optimal results-with mean absolute error of 0.03, mean squared error of 0.002, and 0.016 loss-by training the best model, consisting of two LSTM layers and using the Adam optimiser. Our small dataset, though consisting of simple synonymous sentences with word-to-word mappings, points to the utility of Shannon entropy as a figure of merit in more complex machine translation models for intricate sentence structures.
翻訳日:2023-08-01 14:51:34 公開日:2023-07-31
# ウイットネス演算子を用いた制御量子テレポーテーションにおける電力推定

Estimation of Power in the Controlled Quantum Teleportation through the Witness Operator ( http://arxiv.org/abs/2307.16574v1 )

ライセンス: Link先を確認
Anuma Garg, Satyabrata Adhikari(参考訳) 制御された量子テレポーテーション(CQT)は、一方がコントローラとして振る舞う3つのパーティが関与する量子テレポーテーションの変種と見なすことができる。 CQTスキームのユーザビリティは、条件付き忠実度と条件なし忠実度の2種類の忠実度に依存する。 これらの忠実性の違いは、コントローラのパワーと呼ばれ、CQTスキームにおいて重要な役割を果たす。 そこで本研究の目的は,その推定値が実験で得られるように,コントローラのパワーを推定することである。 目的を達成するため,我々は証人オペレータを構築し,その期待値がコントローラのパワーの下限の推定に利用できることを示した。 さらに,1つの量子ビットが振幅減衰チャネルまたは位相減衰チャネルを通過する場合,標準W状態をCQT方式で有用にすることができることを示した。 また, 位相減衰流路は, CQT方式で制御器の出力を増大させるという意味で振幅減衰流路よりも優れた性能を示すことを示した。

Controlled quantum teleportation (CQT) can be considered as a variant of quantum teleportation in which three parties are involved where one party acts as the controller. The usability of the CQT scheme depends on two types of fidelities viz. conditioned fidelity and non-conditioned fidelity. The difference between these fidelities may be termed as power of the controller and it plays a vital role in the CQT scheme. Thus, our aim is to estimate the power of the controller in such a way so that its estimated value can be obtained in an experiment. To achieve our goal, we have constructed a witness operator and have shown that its expected value may be used in the estimation of the lower bound of the power of the controller. Furthermore, we have shown that it is possible to make the standard W state useful in the CQT scheme if one of its qubits either passes through the amplitude damping channel or the phase damping channel. We have also shown that the phase damping channel performs better than the amplitude damping channel in the sense of generating more power of the controller in the CQT scheme.
翻訳日:2023-08-01 14:51:02 公開日:2023-07-31
# 国際関係の言語への深く掘り下げ--ユネスコの要約記録のnlpに基づく分析

Deep Dive into the Language of International Relations: NLP-based Analysis of UNESCO's Summary Records ( http://arxiv.org/abs/2307.16573v1 )

ライセンス: Link先を確認
Joanna Wojciechowska, Maria \'Smigielska, Mateusz Sypniewski, Igor Kami\'nski, Emilia Wi\'snios, Hanna Schreiber, Bartosz Pieli\'nski(参考訳) 文化遺産は世界各国が関心を持つ国際関係の場である。 ユネスコ世界遺産リスト(UNESCO World Heritage List)とユネスコ人文科学遺産代表リスト(UNESCO Representative List of the Intangible Cultural Heritage of Humanity)の碑文は、しばしば国家間の緊張と紛争につながる。 本研究は,これらの課題に対処するため,上記の2つのリストに対する記述に関する意思決定プロセスに関する貴重な洞察を提供する自動ツールを開発する。 本稿では,ユネスコの要約記録に基づくトピックモデリングとテンション検出手法を提案する。 我々の分析では, 緊張の同定において, 72%の補正精度が得られた。 さらに、我々は、外交官、弁護士、政治科学者、国際関係研究者向けに、選択された文書から段落の効率的な探索と、選択された話題に関する特定の話者からの発言を容易にするアプリケーションを開発した。 この応用は、国際遺産登録手続きにおける複雑な意思決定ダイナミクスの理解を深めるための貴重な資源である。

Cultural heritage is an arena of international relations that interests all states worldwide. The inscription process on the UNESCO World Heritage List and the UNESCO Representative List of the Intangible Cultural Heritage of Humanity often leads to tensions and conflicts among states. This research addresses these challenges by developing automatic tools that provide valuable insights into the decision-making processes regarding inscriptions to the two lists mentioned above. We propose innovative topic modelling and tension detection methods based on UNESCO's summary records. Our analysis achieved a commendable accuracy rate of 72% in identifying tensions. Furthermore, we have developed an application tailored for diplomats, lawyers, political scientists, and international relations researchers that facilitates the efficient search of paragraphs from selected documents and statements from specific speakers about chosen topics. This application is a valuable resource for enhancing the understanding of complex decision-making dynamics within international heritage inscription procedures.
翻訳日:2023-08-01 14:50:44 公開日:2023-07-31
# セマンティックセグメンテーションのためのトランスファタブルアタック

Transferable Attack for Semantic Segmentation ( http://arxiv.org/abs/2307.16572v1 )

ライセンス: Link先を確認
Mengqi He, Jing Zhang, Zhaoyuan Yang, Mingyi He, Nick Barnes, Yuchao Dai(参考訳) セマンティックセグメンテーションモデルは小さな入力摂動に弱いことが知られている。 本稿では,セマンティックセグメンテーションモデルであるwrt~逆攻撃の性能を包括的に分析し,ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗し,従来の攻撃手法であるPGDやFGSMはターゲットモデルにうまく移行せず,転送可能な攻撃,特にセマンティックセグメンテーションに対する転送可能な攻撃について研究する必要があることを観察する。 移動可能な攻撃を実現するためには,データ拡張と翻訳不変な機能を備えて,未知のモデルに対処し,最適な攻撃方向を見出すための最適化戦略を安定させる必要がある。 以上の結果に基づき,分類から複数の移動可能攻撃を集約し,高い移動性を有するより効果的な攻撃を実現することにより,意味セグメンテーションに対するアンサンブル攻撃を提案する。 ソースコードと実験結果は、プロジェクトページで公開されています。

Semantic segmentation models are known vulnerable to small input perturbations. In this paper, we comprehensively analysis the performance of semantic segmentation models \wrt~adversarial attacks, and observe that the adversarial examples generated from a source model fail to attack the target models, \ie~the conventional attack methods, such as PGD and FGSM, do not transfer well to target models, making it necessary to study the transferable attacks, especially transferable attacks for semantic segmentation. We find that to achieve transferable attack, the attack should come with effective data augmentation and translation-invariant features to deal with unseen models, and stabilized optimization strategies to find the optimal attack direction. Based on the above observations, we propose an ensemble attack for semantic segmentation by aggregating several transferable attacks from classification to achieve more effective attacks with higher transferability. The source code and experimental results are publicly available via our project page: https://github.com/anucvers/TASS.
翻訳日:2023-08-01 14:50:28 公開日:2023-07-31
# 非平衡運動に向けて:ビデオポートレートセグメンテーションのための部分分離ネットワーク

Towards Unbalanced Motion: Part-Decoupling Network for Video Portrait Segmentation ( http://arxiv.org/abs/2307.16565v1 )

ライセンス: Link先を確認
Tianshu Yu, Changqun Xia, Jia Li(参考訳) 映像フレームから目立ったフォアグラウンドのポートレートをセグメンテーションすることを目的としたビデオポートレートセグメンテーション(vps)が近年注目を集めている。 しかし、既存のVPSデータセットの単純さは、タスクの広範な研究に制限をもたらす。 そこで本研究では、10,843個のサンプルフレームを画素レベルで微調整した101個の映像クリップからなる,複雑な多シーン映像画像分割データセットmvpを提案する。 データセットには多様なシーンと複雑な背景環境があり、VPSで最も複雑なデータセットである。 データセット構築中に多数の人物像を有する映像を観察した結果,人体の関節構造により,人物像の動きは部分的に関連しており,各部位が相対的に独立していることが明らかとなった。 つまり、肖像画の異なる部分の動きは不均衡である。 この不均衡に向けて、直観的で合理的な考えは、ポートレートの異なる動き状態が、ポートレートを部分に分割することでよりうまく活用できるということである。 これを実現するために,ビデオポートレートセグメンテーションのためのPart-Decoupling Network (PDNet)を提案する。 具体的には、フレーム間部品識別注意(IPDA)モジュールを提案し、ポートレートを部品に分割し、各部品に指定された識別的特徴に対して異なる注意力を利用する。 このように、不均衡な動きのポートレート部分に適切な注意を払って部分識別相関を抽出し、ポートレートをより正確にセグメント化することができる。 実験の結果,最先端手法との比較により,先行性能が得られた。

Video portrait segmentation (VPS), aiming at segmenting prominent foreground portraits from video frames, has received much attention in recent years. However, simplicity of existing VPS datasets leads to a limitation on extensive research of the task. In this work, we propose a new intricate large-scale Multi-scene Video Portrait Segmentation dataset MVPS consisting of 101 video clips in 7 scenario categories, in which 10,843 sampled frames are finely annotated at pixel level. The dataset has diverse scenes and complicated background environments, which is the most complex dataset in VPS to our best knowledge. Through the observation of a large number of videos with portraits during dataset construction, we find that due to the joint structure of human body, motion of portraits is part-associated, which leads that different parts are relatively independent in motion. That is, motion of different parts of the portraits is unbalanced. Towards this unbalance, an intuitive and reasonable idea is that different motion states in portraits can be better exploited by decoupling the portraits into parts. To achieve this, we propose a Part-Decoupling Network (PDNet) for video portrait segmentation. Specifically, an Inter-frame Part-Discriminated Attention (IPDA) module is proposed which unsupervisely segments portrait into parts and utilizes different attentiveness on discriminative features specified to each different part. In this way, appropriate attention can be imposed to portrait parts with unbalanced motion to extract part-discriminated correlations, so that the portraits can be segmented more accurately. Experimental results demonstrate that our method achieves leading performance with the comparison to state-of-the-art methods.
翻訳日:2023-08-01 14:50:10 公開日:2023-07-31
# 対称行列分解の定式化手法

The Decimation Scheme for Symmetric Matrix Factorization ( http://arxiv.org/abs/2307.16564v1 )

ライセンス: Link先を確認
Francesco Camilli, Marc M\'ezard(参考訳) 行列分解(matrix factorization)は、辞書学習からレコメンデーションシステム、深層ネットワークを用いた機械学習に至るまで、幅広い応用によって重要になった推論問題である。 基本的な統計学的限界の研究は真の挑戦であり、コミュニティにおける10年にわたる努力にもかかわらず、行列の階数がその大きさで線形にスケールする場合において、その最適性能を記述できる閉じた公式は存在しない。 本稿では,この広範なランク問題について検討し,最近導入した代替の「決定」手順を拡張し,その性能を徹底的に研究する。 デシメーションは、問題を調整可能な温度で連想メモリの一連のニューラルネットワークモデルにマッピングすることで、一度に1つの要素のカラム/ラインを回復することを目的としている。 準最適であるが、デシメーションは理論的に解析可能であるという利点がある。 我々はその範囲と分析を2種類の行列に拡張する。 大規模に支持された先行モデルに対して、ニューラルネットワークモデルのレプリカ対称自由エントロピーは、低温限界において普遍的な形を取ることを示す。 スパース・イジング(sparse ising)については,パターンのスパース性が増大するにつれてニューラルネットワークモデルの記憶容量が分散することを示すとともに,デシメーションを実装して行列因子化を行う基底状態探索に基づく単純なアルゴリズムを提案する。

Matrix factorization is an inference problem that has acquired importance due to its vast range of applications that go from dictionary learning to recommendation systems and machine learning with deep networks. The study of its fundamental statistical limits represents a true challenge, and despite a decade-long history of efforts in the community, there is still no closed formula able to describe its optimal performances in the case where the rank of the matrix scales linearly with its size. In the present paper, we study this extensive rank problem, extending the alternative 'decimation' procedure that we recently introduced, and carry out a thorough study of its performance. Decimation aims at recovering one column/line of the factors at a time, by mapping the problem into a sequence of neural network models of associative memory at a tunable temperature. Though being sub-optimal, decimation has the advantage of being theoretically analyzable. We extend its scope and analysis to two families of matrices. For a large class of compactly supported priors, we show that the replica symmetric free entropy of the neural network models takes a universal form in the low temperature limit. For sparse Ising prior, we show that the storage capacity of the neural network models diverges as sparsity in the patterns increases, and we introduce a simple algorithm based on a ground state search that implements decimation and performs matrix factorization, with no need of an informative initialization.
翻訳日:2023-08-01 14:49:42 公開日:2023-07-31
# 分類器を用いた眼底画像による糖尿病網膜症の診断

Detecting diabetic retinopathy severity through fundus images using an ensemble of classifiers ( http://arxiv.org/abs/2307.16622v1 )

ライセンス: Link先を確認
Eduard Popescu, Adrian Groza, Ioana Damian(参考訳) 糖尿病網膜症は糖尿病患者に影響を及ぼす眼疾患である。 糖尿病の一般的な合併症であり、眼に影響を与え、視力喪失を引き起こす。 糖尿病網膜症を診断する1つの方法は、眼底の検査である。 眼科医は、網膜、視神経、および網膜を供給する血管を含む眼の後ろ部を調べる。 糖尿病網膜症では、網膜の血管が悪化し、出血、腫れ、その他の視覚に影響を及ぼす変化を引き起こすことがある。 糖尿病重症度を診断する手法を提案した。 まず, 適応等化, 色正規化, ガウスフィルタ, 視神経椎間板および血管の除去など, 利用可能なデータに対してデータプライエルポセシングを適用する。 第2に、関連するマーカーのイメージセグメンテーションを行い、基礎画像から特徴を抽出する。 第3に,分類器のアンサンブルを適用し,システムの信頼度を評価する。

Diabetic retinopathy is an ocular condition that affects individuals with diabetes mellitus. It is a common complication of diabetes that can impact the eyes and lead to vision loss. One method for diagnosing diabetic retinopathy is the examination of the fundus of the eye. An ophthalmologist examines the back part of the eye, including the retina, optic nerve, and the blood vessels that supply the retina. In the case of diabetic retinopathy, the blood vessels in the retina deteriorate and can lead to bleeding, swelling, and other changes that affect vision. We proposed a method for detecting diabetic diabetic severity levels. First, a set of data-prerpocessing is applied to available data: adaptive equalisation, color normalisation, Gaussian filter, removal of the optic disc and blood vessels. Second, we perform image segmentation for relevant markers and extract features from the fundus images. Third, we apply an ensemble of classifiers and we assess the trust in the system.
翻訳日:2023-08-01 14:43:18 公開日:2023-07-31
# 音声-視覚的セグメンテーション、音像定位、意味認識音像定位

Audio-visual segmentation, sound localization, semantic-aware sounding objects localization ( http://arxiv.org/abs/2307.16620v1 )

ライセンス: Link先を確認
Chen Liu, Peike Li, Xingqun Qi, Hu Zhang, Lincheng Li, Dadong Wang, Xin Yu(参考訳) オーディオ・ビジュアルセグメンテーション(avs)タスクは、所定のビデオから音声オブジェクトをセグメンテーションすることを目的としている。 既存の作品は、主に音声とビデオの視覚的特徴を融合させ、音を鳴らす物体マスクを実現することに焦点を当てている。 しかし,先行技術では,音声情報によらず,映像中の特定の有能な物体を分割する傾向が見られた。 これは、サウンドオブジェクトがしばしばAVSデータセットで最も健全なものであるためです。 したがって、現在のAVSメソッドは、データセットバイアスのため、真のサウンドオブジェクトのローカライズに失敗する可能性がある。 本稿では,データセットのバイアスを克服するための音声・視覚インスタンス対応セグメンテーション手法を提案する。 本手法は,まず対象セグメンテーションネットワークによってビデオ内の潜在的発音対象を局所化し,その後,所定の音声と音響対象候補を関連付ける。 私たちは、ある物体が1つのビデオで音を立てる物体であるだけでなく、別のビデオでサイレントな物体であることに気づきました。 これにより、オブジェクトセグメンテーションネットワークのトレーニングにおけるあいまいさが引き起こされ、サウンドオブジェクトだけが対応するセグメンテーションマスクを持つようになる。 そこで我々は、あいまいさを軽減するために、サイレントオブジェクト認識セグメンテーションの目的を提案する。 さらに、音声のカテゴリ情報は、特に複数の音源について不明であるため、音声と視覚のセマンティックな相関を探索し、音声を潜在的対象と関連付けることを提案する。 具体的には、予測されたオーディオカテゴリスコアを潜在的なインスタンスマスクに反映し、これらのスコアは、不可聴なインスタンスを抑圧しながら対応するインスタンスを強調する。 出席したインスタンスマスクを接地真面に類似させるように強制すると、音声と視覚のセマンティクスの相関関係を確立することができる。 AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。

The audio-visual segmentation (AVS) task aims to segment sounding objects from a given video. Existing works mainly focus on fusing audio and visual features of a given video to achieve sounding object masks. However, we observed that prior arts are prone to segment a certain salient object in a video regardless of the audio information. This is because sounding objects are often the most salient ones in the AVS dataset. Thus, current AVS methods might fail to localize genuine sounding objects due to the dataset bias. In this work, we present an audio-visual instance-aware segmentation approach to overcome the dataset bias. In a nutshell, our method first localizes potential sounding objects in a video by an object segmentation network, and then associates the sounding object candidates with the given audio. We notice that an object could be a sounding object in one video but a silent one in another video. This would bring ambiguity in training our object segmentation network as only sounding objects have corresponding segmentation masks. We thus propose a silent object-aware segmentation objective to alleviate the ambiguity. Moreover, since the category information of audio is unknown, especially for multiple sounding sources, we propose to explore the audio-visual semantic correlation and then associate audio with potential objects. Specifically, we attend predicted audio category scores to potential instance masks and these scores will highlight corresponding sounding instances while suppressing inaudible ones. When we enforce the attended instance masks to resemble the ground-truth mask, we are able to establish audio-visual semantics correlation. Experimental results on the AVS benchmarks demonstrate that our method can effectively segment sounding objects without being biased to salient objects.
翻訳日:2023-08-01 14:43:03 公開日:2023-07-31
# FULLER:マルチレベル勾配校正によるマルチモードマルチタスク3次元知覚

FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level Gradient Calibration ( http://arxiv.org/abs/2307.16617v1 )

ライセンス: Link先を確認
Zhijian Huang, Sihao Lin, Guiyu Liu, Mukun Luo, Chaoqiang Ye, Hang Xu, Xiaojun Chang, Xiaodan Liang(参考訳) 堅牢な予測と計算予算を考慮した3次元自律運転シナリオでは,マルチモーダリティ融合とマルチタスク学習がトレンドになりつつある。 しかし、既存のフレームワークをマルチモーダルなマルチタスク学習の領域に自然に拡張することは、悪名高いモダリティバイアスとタスクコンフリクトのために効果が無く、有害なままである。 これまでの作業では、学習フレームワークと経験的知識を手動で調整している。 この問題を軽減するために,最適化中のタスクやモダリティにまたがる多段階勾配校正学習フレームワークを提案する。 具体的には、タスクヘッドが生成し、共有バックボーンを更新するために使用される勾配は、タスクコンフリクトを軽減するためにバックボーンの最後のレイヤで調整される。 キャリブレーションされた勾配がバックボーンのモダリティ分岐にさらに伝播する前に、その大きさは再び同じレベルにキャリブレーションされ、下流のタスクは異なるモダリティに対してバランスよく注意を払う。 大規模なベンチマーク nuScene 実験では、提案手法の有効性、例えば、地図のセグメンテーションにおける絶対14.4% mIoUの改善、および3D検出における1.4% mAPの改善、マルチモーダリティ融合とマルチタスク学習の領域における3D自動運転の適用の進展が示されている。 また,モダリティとタスクの関係についても論じる。

Multi-modality fusion and multi-task learning are becoming trendy in 3D autonomous driving scenario, considering robust prediction and computation budget. However, naively extending the existing framework to the domain of multi-modality multi-task learning remains ineffective and even poisonous due to the notorious modality bias and task conflict. Previous works manually coordinate the learning framework with empirical knowledge, which may lead to sub-optima. To mitigate the issue, we propose a novel yet simple multi-level gradient calibration learning framework across tasks and modalities during optimization. Specifically, the gradients, produced by the task heads and used to update the shared backbone, will be calibrated at the backbone's last layer to alleviate the task conflict. Before the calibrated gradients are further propagated to the modality branches of the backbone, their magnitudes will be calibrated again to the same level, ensuring the downstream tasks pay balanced attention to different modalities. Experiments on large-scale benchmark nuScenes demonstrate the effectiveness of the proposed method, eg, an absolute 14.4% mIoU improvement on map segmentation and 1.4% mAP improvement on 3D detection, advancing the application of 3D autonomous driving in the domain of multi-modality fusion and multi-task learning. We also discuss the links between modalities and tasks.
翻訳日:2023-08-01 14:42:35 公開日:2023-07-31
# LaplaceConfidence: ノイズラベルによる学習のためのグラフベースのアプローチ

LaplaceConfidence: a Graph-based Approach for Learning with Noisy Labels ( http://arxiv.org/abs/2307.16614v1 )

ライセンス: Link先を確認
Mingcai Chen, Yuntao Du, Wei Tang, Baoming Zhang, Hao Cheng, Shuwei Qian, Chongjun Wang(参考訳) 現実世界のアプリケーションでは、完璧なラベルが利用できることは滅多になく、騒がしいラベルを処理できる堅牢な機械学習アルゴリズムを開発するのが難しい。 最近の手法では, 分類損失の少ないサンプルはクリーンであると仮定し, モデル予測と雑音ラベルの差異に着目し, ノイズのフィルタリングに焦点をあてている。 この研究は、データ内のリッチな表現的およびトポロジカルな情報を使用して、学習モデルとノイズデータセット全体の一貫性を活用することで、異なるアプローチを採用している。 ラプラシアンエネルギーを利用したラベル信頼度(すなわちクリーンな確率)を得る手法であるlaplaceconfidenceを提案する。 具体的には、まずすべてのノイズサンプルの特徴表現に基づいてグラフを構築し、ラプラシアンエネルギーを最小にして低エネルギーグラフを生成する。 クリーンラベルは低エネルギーグラフによく適合するが、ノイズの多いラベルには適合しない。 さらに、laplaceconfidenceは、ロバストトレーニングのための総合的な方法に組み込まれており、共訓練技術がバイアスのないラベル信頼度を生成し、ラベル更新技術がより活用される。 また,本手法を大規模ノイズデータセットに適用するための次元削減手法についても検討する。 実験の結果,laplaceconfidenceは,合成音と実環境音の両方において,ベンチマークデータセットにおける最先端手法よりも優れていることがわかった。

In real-world applications, perfect labels are rarely available, making it challenging to develop robust machine learning algorithms that can handle noisy labels. Recent methods have focused on filtering noise based on the discrepancy between model predictions and given noisy labels, assuming that samples with small classification losses are clean. This work takes a different approach by leveraging the consistency between the learned model and the entire noisy dataset using the rich representational and topological information in the data. We introduce LaplaceConfidence, a method that to obtain label confidence (i.e., clean probabilities) utilizing the Laplacian energy. Specifically, it first constructs graphs based on the feature representations of all noisy samples and minimizes the Laplacian energy to produce a low-energy graph. Clean labels should fit well into the low-energy graph while noisy ones should not, allowing our method to determine data's clean probabilities. Furthermore, LaplaceConfidence is embedded into a holistic method for robust training, where co-training technique generates unbiased label confidence and label refurbishment technique better utilizes it. We also explore the dimensionality reduction technique to accommodate our method on large-scale noisy datasets. Our experiments demonstrate that LaplaceConfidence outperforms state-of-the-art methods on benchmark datasets under both synthetic and real-world noise.
翻訳日:2023-08-01 14:41:57 公開日:2023-07-31
# 正準アンサンブルにおけるウィグナー関数の半古典近似

Semiclassical approximation of the Wigner function for the canonical ensemble ( http://arxiv.org/abs/2307.16613v1 )

ライセンス: Link先を確認
Marcos Gil de Oliveira and Alfredo Miguel Ozorio de Almeida(参考訳) 量子力学のワイル・ウィグナー表現は、確率分布として作用する位相空間(ウィグナー関数)内の関数内の密度作用素を写像することができる。 統計力学の文脈において、この写像は、熱ウィグナー函数が高温限界におけるボルツマン分布に傾向があるため、古典的な状態から量子状態への遷移を非常に明確にする。 この量子位相空間の一般温度における正準密度作用素の表現を古典軌道の観点から近似し、ワイルプロパゲータの半古典近似のウィック回転によって得られる。 システムの幅広いクラスに対して近似を適用することを可能にする数値スキームも開発されている。 この近似は、1度と2度の自由度を持つ系に対してテストすることで評価され、かなりの範囲のパラメータにおいて熱力学的平均はよく再現されていることを示している。

The Weyl-Wigner representation of quantum mechanics allows one to map the density operator in a function in phase space - the Wigner function - which acts like a probability distribution. In the context of statistical mechanics, this mapping makes the transition from the classical to the quantum regimes very clear, because the thermal Wigner function tends to the Boltzmann distribution in the high temperature limit. We approximate this quantum phase space representation of the canonical density operator for general temperatures in terms of classical trajectories, which are obtained through a Wick rotation of the semiclassical approximation for the Weyl propagator. A numerical scheme which allows us to apply the approximation for a broad class of systems is also developed. The approximation is assessed by testing it against systems with one and two degrees of freedom, which shows that, for a considerable range of parameters, the thermodynamic averages are well reproduced.
翻訳日:2023-08-01 14:41:18 公開日:2023-07-31
# 攻撃的・ヘイト音声検出タスクのためのデータ拡張によるノイズ自己学習

Noisy Self-Training with Data Augmentations for Offensive and Hate Speech Detection Tasks ( http://arxiv.org/abs/2307.16609v1 )

ライセンス: Link先を確認
Jo\~ao A. Leite, Carolina Scarton, Diego F. Silva(参考訳) オンラインソーシャルメディアは、攻撃的で憎悪的なコメントで溢れており、毎秒大量の投稿が作成されているため、自動検出の必要性が高まっている。 このタスクのために高品質な人間ラベル付きデータセットを作成するのは難しく、コストがかかる。 しかし、ラベルのないデータは豊富で、簡単に入手でき、安価である。 このシナリオでは、弱いラベル付き例を用いてトレーニングデータの量を増やす自己学習手法を用いることができる。 最近の"ノイズ"自己トレーニングアプローチでは、予測一貫性を確保し、ノイズデータや敵対的攻撃に対する堅牢性を高めるために、データ拡張技術が取り入れられている。 本稿では,5種類の事前学習されたBERTアーキテクチャを用いて,3種類のテキストデータ拡張手法を用いて,デフォルトおよびノイズの多い自己学習実験を行った。 我々は2つの攻撃的/hate-speechデータセットに関する実験を評価し,その実証を行った。 (i)自己学習はモデルのサイズに関わらず一貫して性能を向上し、両方のデータセット上で最大+1.5%のF1マクロが得られる。 (ii)同様の設定でうまく適用されたにもかかわらず、テキストデータ拡張によるノイズの多い自己学習は、バックトランスプリケーションのような最先端の強化であっても、デフォルトメソッドと比較して攻撃的および憎悪的ドメインのパフォーマンスを低下させる。

Online social media is rife with offensive and hateful comments, prompting the need for their automatic detection given the sheer amount of posts created every second. Creating high-quality human-labelled datasets for this task is difficult and costly, especially because non-offensive posts are significantly more frequent than offensive ones. However, unlabelled data is abundant, easier, and cheaper to obtain. In this scenario, self-training methods, using weakly-labelled examples to increase the amount of training data, can be employed. Recent "noisy" self-training approaches incorporate data augmentation techniques to ensure prediction consistency and increase robustness against noisy data and adversarial attacks. In this paper, we experiment with default and noisy self-training using three different textual data augmentation techniques across five different pre-trained BERT architectures varying in size. We evaluate our experiments on two offensive/hate-speech datasets and demonstrate that (i) self-training consistently improves performance regardless of model size, resulting in up to +1.5% F1-macro on both datasets, and (ii) noisy self-training with textual data augmentations, despite being successfully applied in similar settings, decreases performance on offensive and hate-speech domains when compared to the default method, even with state-of-the-art augmentations such as backtranslation.
翻訳日:2023-08-01 14:40:43 公開日:2023-07-31
# Smpling to Distill: オープンワールドデータからの知識伝達

Sampling to Distill: Knowledge Transfer from Open-World Data ( http://arxiv.org/abs/2307.16601v1 )

ライセンス: Link先を確認
Yuzheng Wang, Zhaoyu Chen, Jie Zhang, Dingkang Yang, Zuhao Ge, Yang Liu, Siao Liu, Yunquan Sun, Wenqiang Zhang and Lizhe Qi(参考訳) Data-Free Knowledge Distillation (DFKD)は,教師ネットワークのみを用いた高性能な学生モデルの学習を目的とした新しい課題である。 しかし、既存のDFKD法は計算コストの高い生成モジュールに大きく依存している。 一方、彼らは、生成したデータと元のデータが、監督情報の欠如によってドメインシフトが存在するという事実を無視している。 さらに、複数の例間の暗黙の関係を無視して、各例を通して知識が伝達される。 そこで本研究では,冗長な生成過程を伴わない新しいオープンワールドデータサンプリング蒸留(odsd)法を提案する。 まず、適応サンプリングモジュールを用いて、原データの分布に近いオープンワールドデータをサンプリングする。 次に、ドメインシフトを緩和し、データ知識を利用する複数のデータ例の構造化関係を構築するために、低雑音表現を導入する。 CIFAR-10, CIFAR-100, NYUv2, ImageNetの大規模実験により, ODSD法が最先端性能を実現することを示す。 特に、既存の結果と比較してimagenetデータセットの1.50\%-9.59\%精度が向上した。

Data-Free Knowledge Distillation (DFKD) is a novel task that aims to train high-performance student models using only the teacher network without original training data. Despite encouraging results, existing DFKD methods rely heavily on generation modules with high computational costs. Meanwhile, they ignore the fact that the generated and original data exist domain shifts due to the lack of supervision information. Moreover, knowledge is transferred through each example, ignoring the implicit relationship among multiple examples. To this end, we propose a novel Open-world Data Sampling Distillation (ODSD) method without a redundant generation process. First, we try to sample open-world data close to the original data's distribution by an adaptive sampling module. Then, we introduce a low-noise representation to alleviate the domain shifts and build a structured relationship of multiple data examples to exploit data knowledge. Extensive experiments on CIFAR-10, CIFAR-100, NYUv2, and ImageNet show that our ODSD method achieves state-of-the-art performance. Especially, we improve 1.50\%-9.59\% accuracy on the ImageNet dataset compared with the existing results.
翻訳日:2023-08-01 14:39:49 公開日:2023-07-31
# ゼロ光子発生器を用いた時間積分光子計数シミュレーション

Simulating time-integrated photon counting using a zero-photon generator ( http://arxiv.org/abs/2307.16591v1 )

ライセンス: Link先を確認
Stephen C. Wein(参考訳) 光子計数シミュレーションは量子フォトニックデバイスの設計と最適化に不可欠である。 光の時間積分測定をシミュレートするには、多変量相関を統合する必要がある。 これにより、シミュレーション時間は相関順序や検出された光子数に指数関数的に増加する。 本研究では,多変量積分を伴わない量子エミッタの時間ダイナミクスから時間積分量をシミュレートする手法を提案する。 このアプローチでは、ゼロ光子発生器(検出された光の欠如によって条件付けられた時間ダイナミクスの生成器)によって定義される効果的なマスター方程式を使用する。 ゼロ光子条件力学は各検出器の効率パラメータに依存する。 これらのパラメータは複雑な値を取ることで、離散フーリエ変換のような逆Z変換を用いて積分量の再構成に利用できる仮想検出器の構成を定義することができる。 この方法は、現実的なデバイスの物理的不完全性を考慮しつつ、測定に基づく量子コンピューティングのための単一光子源および絡み合ったフォトニックリソース状態のシミュレーションを加速することができる。 また、空飛ぶ量子ビットの測定によって媒介される静止量子ビット間の相互作用をシミュレートする一般的なフレームワークを提供し、分散量子コンピューティングや量子通信プロトコルのノイズをモデル化する。

Photon counting simulations are crucial for designing and optimizing quantum photonic devices. The naive way to simulate time-integrated measurements of light requires integrating multi-variable correlations. This causes simulation times to increase exponentially with the correlation order, or number of detected photons. In this work, I present a method to simulate time-integrated quantities from the time dynamics of quantum emitters without multi-variable integration. The approach uses an effective master equation defined by a zero-photon generator -- a generator of time dynamics conditioned on the absence of detected light. The zero-photon conditional dynamics depends on an efficiency parameter for each detector. These parameters can take complex values to define a set of virtual detector configurations that can be exploited to reconstruct integrated quantities using an inverse Z-transform such as a discrete Fourier transform. The method can accelerate the simulation of single-photon sources and entangled photonic resource states for measurement-based quantum computing while accounting for physical imperfections of realistic devices. It also provides a general framework to simulate interactions between stationary qubits mediated by measurements of flying qubits, which has applications to model noise for distributed quantum computing and quantum communication protocols.
翻訳日:2023-08-01 14:39:32 公開日:2023-07-31
# samflow: segment anythingモデルによる光フローのフラグメンテーションの排除

SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model ( http://arxiv.org/abs/2307.16586v1 )

ライセンス: Link先を確認
Shili Zhou, Ruian He, Weimin Tan and Bo Yan(参考訳) 光フロー推定は、2つのフレーム間の2次元密度運動場を求めることを目的としている。 モデル構造とトレーニングデータセットの制限のため、既存の手法はしばしば局所的な手がかりに頼りすぎ、オブジェクトの整合性を無視し、断片化された動き推定をもたらす。 最近有名になったsegment anything model(sam)は、光学フロー推定におけるフラグメンテーション問題を解決するのに適した完全なオブジェクトをセグメント化する強力な能力を示している。 そこで我々は,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。 本稿では,光フロー推定などの非セグメント化タスクにおいてSAMを奥行き利用することの課題に対処するため,光フローコンテキストエンコーダとSAMエンコーダを融合するContext Fusion Moduleと,光フロータスクのSAM特徴をLearted Task-Specific Embeddingで適応させるContext Adaption Moduleを含む光フロータスク特化適応スキームを提案する。 提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。 さらに,本モデルでは,Sintel と KITTI-15 ベンチマークの最先端性能を達成し,Sintel のクリーンパスにおける2フレーム手法の上位にランクインした。

Optical flow estimation aims to find the 2D dense motion field between two frames. Due to the limitation of model structures and training datasets, existing methods often rely too much on local clues and ignore the integrity of objects, resulting in fragmented motion estimation. We notice that the recently famous Segment Anything Model (SAM) demonstrates a strong ability to segment complete objects, which is suitable for solving the fragmentation problem in optical flow estimation. We thus propose a solution to embed the frozen SAM image encoder into FlowFormer to enhance object perception. To address the challenge of in-depth utilizing SAM in non-segmentation tasks like optical flow estimation, we propose an Optical Flow Task-Specific Adaption scheme, including a Context Fusion Module to fuse the SAM encoder with the optical flow context encoder, and a Context Adaption Module to adapt the SAM features for optical flow task with Learned Task-Specific Embedding. Our proposed SAMFlow model reaches 0.86/2.10 clean/final EPE and 3.55/12.32 EPE/F1-all on Sintel and KITTI-15 training set, surpassing Flowformer by 8.5%/9.9% and 13.2%/16.3%. Furthermore, our model achieves state-of-the-art performance on the Sintel and KITTI-15 benchmarks, ranking #1 among all two-frame methods on Sintel clean pass.
翻訳日:2023-08-01 14:39:14 公開日:2023-07-31
# 分割局所深さに対するシーケンシャルおよび共有メモリ並列アルゴリズム

Sequential and Shared-Memory Parallel Algorithms for Partitioned Local Depths ( http://arxiv.org/abs/2307.16652v1 )

ライセンス: Link先を確認
Aditya Devarakonda, Grey Ballard(参考訳) 本研究では,分割局所深度(PaLD)に対する逐次的および共有メモリ並列アルゴリズムの設計,解析,最適化を行う。 一組のデータポイントとペア距離が与えられた場合、PaLDは相対距離に基づいてペア関係の強さを識別する方法であり、そのサイズとコミュニティ内絶対距離が大きく変化しても、密度と疎いコミュニティ内の強い結びつきを識別することができる。 ペアワイズ距離の三重項比較によってコミュニティ構造解析を行う2つのアルゴリズム変種を設計した。 本稿では,計算コストと通信コストの理論的解析を行い,逐次アルゴリズムが通信の最適であることを示す。 私たちは、ベースラインのシーケンシャル実装よりも最大29\times$、intelのマルチコアcpu上で最大32ドルのスレッドを使用して最適化されたシーケンシャル実装よりも最大19.4\times$の並列スピードアップをもたらすパフォーマンス最適化戦略を導入します。

In this work, we design, analyze, and optimize sequential and shared-memory parallel algorithms for partitioned local depths (PaLD). Given a set of data points and pairwise distances, PaLD is a method for identifying strength of pairwise relationships based on relative distances, enabling the identification of strong ties within dense and sparse communities even if their sizes and within-community absolute distances vary greatly. We design two algorithmic variants that perform community structure analysis through triplet comparisons of pairwise distances. We present theoretical analyses of computation and communication costs and prove that the sequential algorithms are communication optimal, up to constant factors. We introduce performance optimization strategies that yield sequential speedups of up to $29\times$ over a baseline sequential implementation and parallel speedups of up to $19.4\times$ over optimized sequential implementations using up to $32$ threads on an Intel multicore CPU.
翻訳日:2023-08-01 14:33:30 公開日:2023-07-31
# UDAMA: ノイズラベルを用いた複数識別器による非教師的ドメイン適応

UDAMA: Unsupervised Domain Adaptation through Multi-discriminator Adversarial Training with Noisy Labels Improves Cardio-fitness Prediction ( http://arxiv.org/abs/2307.16651v1 )

ライセンス: Link先を確認
Yu Wu, Dimitris Spathis, Hong Jia, Ignacio Perez-Pozuelo, Tomas Gonzales, Soren Brage, Nicholas Wareham, Cecilia Mascolo(参考訳) ディープラーニングモデルは、さまざまな医療モニタリングアプリケーションで大きな可能性を秘めている。 しかしながら、高品質な(ゴールドスタンダードの)ラベルを持つほとんどの医療データセットは小規模である。 その結果、小規模データセット上で開発、検証されたモデルは、しばしば過剰フィッティングに苦しめられ、見当たらないシナリオにうまく一般化できない。 同時に、現代のウェアラブルの助けを借りて近似的な手法で注釈付けされた大量の不正確な(銀標準の)ラベル付きデータが出現し始めている。 しかし,測定上の違いから,このデータは重要なラベル分布シフトを示し,ドメイン適応の利用を動機付けている。 そこで本研究では,非教師付きドメイン適応と複数識別器対応訓練という2つの重要な要素を持つ UDAMA を導入し,銀標準データに対する事前トレーニングを行い,金標準データに対する逆適応を2つのドメイン識別器とともに適用する。 特に,心呼吸フィットネス(CRF)予測に応用することで,UDAMAの実用化の可能性を示す。 crfは代謝疾患と死亡率の重要な決定要因であり、様々なレベルのノイズ(金銀標準)を持つラベルを示し、正確な予測モデルを確立するのに困難である。 この結果から,様々なラベルシフト設定における分布シフトを緩和し,有望な性能を示す。 さらに,2つの自由生活コホート研究 (Fenland と BBVS) のデータを用いて,ユダマは競争的移行学習や最先端ドメイン適応モデルと比較して最大12%のパフォーマンスを示し,ノイズのあるラベル付きデータを活用して,大規模に適合度推定を改善する方法を確立した。

Deep learning models have shown great promise in various healthcare monitoring applications. However, most healthcare datasets with high-quality (gold-standard) labels are small-scale, as directly collecting ground truth is often costly and time-consuming. As a result, models developed and validated on small-scale datasets often suffer from overfitting and do not generalize well to unseen scenarios. At the same time, large amounts of imprecise (silver-standard) labeled data, annotated by approximate methods with the help of modern wearables and in the absence of ground truth validation, are starting to emerge. However, due to measurement differences, this data displays significant label distribution shifts, which motivates the use of domain adaptation. To this end, we introduce UDAMA, a method with two key components: Unsupervised Domain Adaptation and Multidiscriminator Adversarial Training, where we pre-train on the silver-standard data and employ adversarial adaptation with the gold-standard data along with two domain discriminators. In particular, we showcase the practical potential of UDAMA by applying it to Cardio-respiratory fitness (CRF) prediction. CRF is a crucial determinant of metabolic disease and mortality, and it presents labels with various levels of noise (goldand silver-standard), making it challenging to establish an accurate prediction model. Our results show promising performance by alleviating distribution shifts in various label shift settings. Additionally, by using data from two free-living cohort studies (Fenland and BBVS), we show that UDAMA consistently outperforms up to 12% compared to competitive transfer learning and state-of-the-art domain adaptation models, paving the way for leveraging noisy labeled data to improve fitness estimation at scale.
翻訳日:2023-08-01 14:33:09 公開日:2023-07-31
# 教師と学習のためのチャットGPT:データサイエンス教育の経験

ChatGPT for Teaching and Learning: An Experience from Data Science Education ( http://arxiv.org/abs/2307.16650v1 )

ライセンス: Link先を確認
Yong Zheng(参考訳) 大規模な言語モデルの実装と応用であるChatGPTは、最初のリリース以来大きな人気を集めている。 研究者は、現実世界のシナリオでChatGPTの実用的メリットを活用する方法を模索している。 教育研究者は、プログラミング、数学、ファイナンス、臨床決定支援など、様々な主題でその可能性を研究してきた。 しかし、データサイエンス教育におけるその応用には限定的な注意が向けられている。 本稿では,データサイエンスコースにおけるChatGPTの利用,学生からの視点の収集,データサイエンス教育におけるChatGPTの実践と学習に対する経験とフィードバックの提示により,そのギャップを埋めることを目的とする。 この結果は、データサイエンス教育を他の分野と区別するだけでなく、ChatGPTをデータサイエンスカリキュラムに組み込む際の新たな機会と課題を明らかにする。

ChatGPT, an implementation and application of large language models, has gained significant popularity since its initial release. Researchers have been exploring ways to harness the practical benefits of ChatGPT in real-world scenarios. Educational researchers have investigated its potential in various subjects, e.g., programming, mathematics, finance, clinical decision support, etc. However, there has been limited attention given to its application in data science education. This paper aims to bridge that gap by utilizing ChatGPT in a data science course, gathering perspectives from students, and presenting our experiences and feedback on using ChatGPT for teaching and learning in data science education. The findings not only distinguish data science education from other disciplines but also uncover new opportunities and challenges associated with incorporating ChatGPT into the data science curriculum.
翻訳日:2023-08-01 14:32:34 公開日:2023-07-31
# LLMs4OL:オントロジー学習のための大規模言語モデル

LLMs4OL: Large Language Models for Ontology Learning ( http://arxiv.org/abs/2307.16648v1 )

ライセンス: Link先を確認
Hamed Babaei Giglou and Jennifer D'Souza and S\"oren Auer(参考訳) 本稿では,Large Language Models (LLM) をオントロジー学習(OL)に適用した LLMs4OL アプローチを提案する。 LLMは自然言語処理の大幅な進歩を示し、異なる知識領域における複雑な言語パターンをキャプチャする能力を示している。 LLMs4OLパラダイムは、以下の仮説を調査します。 \textit{Can LLMsは、自然言語テキストから知識を自動的に抽出し、構造化するOLに、言語パターンキャプチャ機能を効果的に適用します。 この仮説をテストするために,ゼロショットプロンプト法を用いて包括的評価を行う。 我々は,9種類のLDMモデルファミリーを,用語タイピング,分類学発見,非分類学関係の抽出という3つの主要なOLタスクに対して評価した。 さらに、評価はWordNetにおける語彙的知識、GeoNamesにおける地理的知識、UMLSにおける医学知識など、様々なオントロジ的知識のジャンルを含む。

We propose the LLMs4OL approach, which utilizes Large Language Models (LLMs) for Ontology Learning (OL). LLMs have shown significant advancements in natural language processing, demonstrating their ability to capture complex language patterns in different knowledge domains. Our LLMs4OL paradigm investigates the following hypothesis: \textit{Can LLMs effectively apply their language pattern capturing capability to OL, which involves automatically extracting and structuring knowledge from natural language text?} To test this hypothesis, we conduct a comprehensive evaluation using the zero-shot prompting method. We evaluate nine different LLM model families for three main OL tasks: term typing, taxonomy discovery, and extraction of non-taxonomic relations. Additionally, the evaluations encompass diverse genres of ontological knowledge, including lexicosemantic knowledge in WordNet, geographical knowledge in GeoNames, and medical knowledge in UMLS.
翻訳日:2023-08-01 14:32:20 公開日:2023-07-31
# 大規模言語モデルによる文埋め込みのスケーリング

Scaling Sentence Embeddings with Large Language Models ( http://arxiv.org/abs/2307.16645v1 )

ライセンス: Link先を確認
Ting Jiang, Shaohan Huang, Zhongzhi Luan, Deqing Wang, Fuzhen Zhuang(参考訳) 大規模言語モデル(LLM)は最近大きな関心を集めている。 文脈内学習により、llmは様々な自然言語タスクで印象的な結果を得る。 しかし、LLMの文埋め込みへの応用は現在も進行中の研究分野である。 本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。 提案手法では,先行するプロンプトベース表現法を自己回帰モデルに適用し,llmがコンテキスト内学習を可能にするデモセットを構築し,llmを異なるモデルサイズにスケールアップする。 幅広い実験を通じて、インコンテキスト学習により、llmは微調整なしで高品質な文埋め込みを生成することができる。 LLMは、現在のコントラスト学習手法に匹敵するパフォーマンスを達成するのに役立つ。 モデルサイズをスケールすることで、1000億以上のパラメータへのスケーリングは、セマンティックテキスト類似性(STS)タスクのパフォーマンスに影響を与えます。 しかし、最大のモデルは他のモデルよりも優れ、転送タスクにおける新しい最先端の結果を達成する。 我々はまた,現在のコントラスト学習手法とllmを微調整し,プロンプトベース手法を組み込んだ2.7bオプターモデルは4.8b st5の性能を上回り,stsタスクにおける最新の結果を得た。 私たちのコードはhttps://github.com/kongds/scaling_sentembで利用可能です。

Large language models (LLMs) have recently garnered significant interest. With in-context learning, LLMs achieve impressive results in various natural language tasks. However, the application of LLMs to sentence embeddings remains an area of ongoing research. In this work, we propose an in-context learning-based method aimed at improving sentence embeddings performance. Our approach involves adapting the previous prompt-based representation method for autoregressive models, constructing a demonstration set that enables LLMs to perform in-context learning, and scaling up the LLMs to different model sizes. Through extensive experiments, in-context learning enables LLMs to generate high-quality sentence embeddings without any fine-tuning. It helps LLMs achieve performance comparable to current contrastive learning methods. By scaling model size, we find scaling to more than tens of billion parameters harms the performance on semantic textual similarity (STS) tasks. However, the largest model outperforms other counterparts and achieves the new state-of-the-art result on transfer tasks. We also fine-tune LLMs with current contrastive learning approach, and the 2.7B OPT model, incorporating our prompt-based method, surpasses the performance of 4.8B ST5, achieving the new state-of-the-art results on STS tasks. Our code is available at https://github.com/kongds/scaling_sentemb.
翻訳日:2023-08-01 14:32:02 公開日:2023-07-31
# 音声記録からの発音学習による音素変換の改善

Improving grapheme-to-phoneme conversion by learning pronunciations from speech recordings ( http://arxiv.org/abs/2307.16643v1 )

ライセンス: Link先を確認
Manuel Sam Ribeiro, Giulia Comini, Jaime Lorenzo-Trueba(参考訳) Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。 G2P変換は、テキスト音声や音声認識などの様々な音声処理アプリケーションに有用である。 しかし、これらは手書きの発音辞書に頼りがちで、しばしば時間がかかり、入手するのにコストがかかる。 本稿では,音声録音から発音例を学習することで,G2P変換タスクを改善する手法を提案する。 我々のアプローチは、アノテーション付きの小さな例でg2pをブートストラップする。 G2Pモデルは多言語音声認識システムの訓練に使用され、音声表現で音声記録を復号する。 仮定音素ラベルを考慮し,語彙外単語の発音辞書を学習し,これらを用いてG2Pシステムを再学習する。 提案手法は,G2Pシステムの言語間誤り率と利用可能なデータ量を大幅に改善することを示す。

The Grapheme-to-Phoneme (G2P) task aims to convert orthographic input into a discrete phonetic representation. G2P conversion is beneficial to various speech processing applications, such as text-to-speech and speech recognition. However, these tend to rely on manually-annotated pronunciation dictionaries, which are often time-consuming and costly to acquire. In this paper, we propose a method to improve the G2P conversion task by learning pronunciation examples from audio recordings. Our approach bootstraps a G2P with a small set of annotated examples. The G2P model is used to train a multilingual phone recognition system, which then decodes speech recordings with a phonetic representation. Given hypothesized phoneme labels, we learn pronunciation dictionaries for out-of-vocabulary words, and we use those to re-train the G2P system. Results indicate that our approach consistently improves the phone error rate of G2P systems across languages and amount of available data.
翻訳日:2023-08-01 14:31:38 公開日:2023-07-31
# VacancySBERT:リクルートドメインにおける意味的類似性検索のためのタイトルとスキルの表現手法

VacancySBERT: the approach for representation of titles and skills for semantic similarity search in the recruitment domain ( http://arxiv.org/abs/2307.16638v1 )

ライセンス: Link先を確認
Maiia Bocharova, Eugene Malakhov, Vitaliy Mezhuyev(参考訳) 本稿では、HRドメインに適用されたディープラーニングセマンティックサーチアルゴリズムに焦点を当てた。 この記事の目的は、求人広告に記載されたスキルとタイトルを結びつけるために、シャム語ネットワークをトレーニングするための新しいアプローチを開発することである。 タイトルの正規化プロセスは分類または類似性比較のアプローチに基づいていることが示されている。 分類アルゴリズムは、事前に定義されたカテゴリに分類しようとするが、類似性検索アルゴリズムは、所定のクエリサンプルに似たサンプルを見つけるために、事前に定義されたクラスやラベルを必要とせず、より柔軟なアプローチを取る。 本稿では、意味的類似性検索を用いてタイトル正規化の候補を探す。 事前学習された言語モデルは、共起情報に基づくタイトルとスキルのマッチングを指導しながら適応されている。 この研究のために、50億のタイトル記述ペアがモデルのトレーニングのために収集され、3万3000のタイトル記述正規化タイトルトリプレットがテスト目的のためにジョブアドクリエーターによって手作業で取得された。 ベースラインとしてFastText、BERT、SentenceBert、JobBertが使用されている。 設計したアルゴリズムの精度の指標として、トップワン、5、10モデルの提案を思い出す。 新たなトレーニングの目的は、他のジェネリックおよび特定のテキストエンコーダと比較して大幅に改善できることが示されている。 タイトルをスタンドアロン文字列として扱う2つの設定と、推論中に追加機能としてスキルを含む2つの設定が使用されており、結果はこの記事で比較されている。 VacancySBERTとVacancySBERT(スキル付き)を使用して、10%の改善と21.5%の改善が達成されている。 このベンチマークは、この分野のさらなる研究を促進するためにオープンソースとして開発されている。

The paper focuses on deep learning semantic search algorithms applied in the HR domain. The aim of the article is developing a novel approach to training a Siamese network to link the skills mentioned in the job ad with the title. It has been shown that the title normalization process can be based either on classification or similarity comparison approaches. While classification algorithms strive to classify a sample into predefined set of categories, similarity search algorithms take a more flexible approach, since they are designed to find samples that are similar to a given query sample, without requiring pre-defined classes and labels. In this article semantic similarity search to find candidates for title normalization has been used. A pre-trained language model has been adapted while teaching it to match titles and skills based on co-occurrence information. For the purpose of this research fifty billion title-descriptions pairs had been collected for training the model and thirty three thousand title-description-normalized title triplets, where normalized job title was picked up manually by job ad creator for testing purposes. As baselines FastText, BERT, SentenceBert and JobBert have been used. As a metric of the accuracy of the designed algorithm is Recall in top one, five and ten model's suggestions. It has been shown that the novel training objective lets it achieve significant improvement in comparison to other generic and specific text encoders. Two settings with treating titles as standalone strings, and with included skills as additional features during inference have been used and the results have been compared in this article. Improvements by 10% and 21.5% have been achieved using VacancySBERT and VacancySBERT (with skills) respectively. The benchmark has been developed as open-source to foster further research in the area.
翻訳日:2023-08-01 14:31:24 公開日:2023-07-31
# CDUL:マルチラベル画像分類のためのCLIP駆動型教師なし学習

CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification ( http://arxiv.org/abs/2307.16634v1 )

ライセンス: Link先を確認
Rabab Abdelfattah, Qing Guo, Xiaoguang Li, Xiaofeng Wang, and Song Wang(参考訳) 本稿では,初期化,トレーニング,推論の3段階を含む,アノテーションのないマルチラベル画像分類のためのCLIPに基づく教師なし学習手法を提案する。 初期化段階では、強力なCLIPモデルを完全に活用し、グローバルローカルな画像-テキスト類似性アグリゲーションに基づくマルチラベル予測のためのCLIPの拡張手法を提案する。 より具体的に言うと、各画像をスニペットに分割し、CLIPを活用して、画像全体(グローバル)と各スニペット(ローカル)の類似性ベクトルを生成する。 次に、大域的および局所的類似性ベクトルを活用するために類似性アグリゲータを導入する。 学習段階の擬似ラベルとして集約された類似度スコアを用いて、分類ネットワークのパラメータをトレーニングし、観測されていないラベルの擬似ラベルを洗練するための最適化フレームワークを提案する。 推論中は、入力画像のラベルを予測するために分類ネットワークのみを使用する。 本手法はMS-COCO, PASCAL VOC 2007, PASCAL VOC 2012, NUSデータセットにおいて最先端の教師なし手法よりも優れており, 弱い教師付き分類法と同等の結果が得られる。

This paper presents a CLIP-based unsupervised learning method for annotation-free multi-label image classification, including three stages: initialization, training, and inference. At the initialization stage, we take full advantage of the powerful CLIP model and propose a novel approach to extend CLIP for multi-label predictions based on global-local image-text similarity aggregation. To be more specific, we split each image into snippets and leverage CLIP to generate the similarity vector for the whole image (global) as well as each snippet (local). Then a similarity aggregator is introduced to leverage the global and local similarity vectors. Using the aggregated similarity scores as the initial pseudo labels at the training stage, we propose an optimization framework to train the parameters of the classification network and refine pseudo labels for unobserved labels. During inference, only the classification network is used to predict the labels of the input image. Extensive experiments show that our method outperforms state-of-the-art unsupervised methods on MS-COCO, PASCAL VOC 2007, PASCAL VOC 2012, and NUS datasets and even achieves comparable results to weakly supervised classification methods.
翻訳日:2023-08-01 14:30:53 公開日:2023-07-31
# Text-CRS: テキスト敵対攻撃に対する一般化されたロバストネスフレームワーク

Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks ( http://arxiv.org/abs/2307.16630v1 )

ライセンス: Link先を確認
Xinyu Zhang, Hanbin Hong, Yuan Hong, Peng Huang, Binghui Wang, Zhongjie Ba, Kui Ren(参考訳) 言語モデル、特に基本テキスト分類モデルは、同義語置換や単語挿入攻撃のようなテキストの敵対攻撃の影響を受けやすいことが示されている。 このような攻撃から守るために、モデルロバスト性を改善する研究機関が成長してきた。 しかし、実証的ロバスト性の代わりに証明可能なロバスト性を保証することは、まだ広く研究されていない。 本稿では,ランダム化平滑化に基づく自然言語処理(nlp)のための一般化認定ロバスト性フレームワークtext-crsを提案する。 我々の知る限り、NLPの既存の認証スキームは、同義置換攻撃における$\ell_0$摂動に対する堅牢性しか証明できない。 置換と埋め込み変換の組合せとして各単語レベルの逆数演算(同義語置換、単語の並べ替え、挿入、削除)を表現し、置換と埋め込みの両操作に対して堅牢性境界を導出する新しい滑らか化定理を提案する。 認証精度と半径をさらに向上するため,離散語間の数値関係を考察し,ランダム化平滑化のための適切な雑音分布を選択する。 最後に、複数の言語モデルとデータセットについてかなりの実験を行う。 Text-CRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上する。 また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。

The language models, especially the basic text classification models, have been shown to be susceptible to textual adversarial attacks such as synonym substitution and word insertion attacks. To defend against such attacks, a growing body of research has been devoted to improving the model robustness. However, providing provable robustness guarantees instead of empirical robustness is still widely unexplored. In this paper, we propose Text-CRS, a generalized certified robustness framework for natural language processing (NLP) based on randomized smoothing. To our best knowledge, existing certified schemes for NLP can only certify the robustness against $\ell_0$ perturbations in synonym substitution attacks. Representing each word-level adversarial operation (i.e., synonym substitution, word reordering, insertion, and deletion) as a combination of permutation and embedding transformation, we propose novel smoothing theorems to derive robustness bounds in both permutation and embedding space against such adversarial operations. To further improve certified accuracy and radius, we consider the numerical relationships between discrete words and select proper noise distributions for the randomized smoothing. Finally, we conduct substantial experiments on multiple language models and datasets. Text-CRS can address all four different word-level adversarial operations and achieve a significant accuracy improvement. We also provide the first benchmark on certified accuracy and radius of four word-level operations, besides outperforming the state-of-the-art certification against synonym substitution attacks.
翻訳日:2023-08-01 14:30:28 公開日:2023-07-31
# モデルに基づく因果ベイズ最適化

Model-based Causal Bayesian Optimization ( http://arxiv.org/abs/2307.16625v1 )

ライセンス: Link先を確認
Scott Sussex, Pier Giuseppe Sessa, Anastasiia Makarova and Andreas Krause(参考訳) Causal Bayesian Optimization (CBO)では、エージェントが未知の構造因果モデルに介入し、下流の報酬変数を最大化する。 本稿では,気象変動,市場勢力,敵勢力などの非定常性への適応性を実現する上で鍵となる,他のエージェントや外部イベントがシステム上でも介入する一般化について考察する。 本稿では,CBO の一般化を Adversarial Causal Bayesian Optimization (ACBO) として定式化し,ACBO に対する最初のアルゴリズムを紹介した: Causal Bayesian Optimization with Multiplicative Weights (CBO-MW)。 我々のアプローチは、古典的なオンライン学習戦略と報酬の因果モデリングを組み合わせたものである。 これを達成するために、因果グラフを通じて不確実性を伝播することで楽観的な反事実的報酬推定を計算する。 グラフ関連の量に依存するCBO-MWに対する後悔の限界を導出する。 さらに,コンビネーション介入やサブモーダル報酬の場合に,スケーラブルな実装を提案する。 CBO-MWは、実単語データに基づく合成環境や環境における非因果的・非逆ベイズ最適化法よりも優れている。 我々の実験は、CBO-MWが、共有モビリティシステムにおけるユーザの需要パターンと戦略領域における再配置車両の学習にどのように使用できるかの現実的なデモを含む。

In Causal Bayesian Optimization (CBO), an agent intervenes on an unknown structural causal model to maximize a downstream reward variable. In this paper, we consider the generalization where other agents or external events also intervene on the system, which is key for enabling adaptiveness to non-stationarities such as weather changes, market forces, or adversaries. We formalize this generalization of CBO as Adversarial Causal Bayesian Optimization (ACBO) and introduce the first algorithm for ACBO with bounded regret: Causal Bayesian Optimization with Multiplicative Weights (CBO-MW). Our approach combines a classical online learning strategy with causal modeling of the rewards. To achieve this, it computes optimistic counterfactual reward estimates by propagating uncertainty through the causal graph. We derive regret bounds for CBO-MW that naturally depend on graph-related quantities. We further propose a scalable implementation for the case of combinatorial interventions and submodular rewards. Empirically, CBO-MW outperforms non-causal and non-adversarial Bayesian optimization methods on synthetic environments and environments based on real-word data. Our experiments include a realistic demonstration of how CBO-MW can be used to learn users' demand patterns in a shared mobility system and reposition vehicles in strategic areas.
翻訳日:2023-08-01 14:30:04 公開日:2023-07-31
# 音声合成における韻律と音響モデルのための正規化流れと拡散モデルの比較

Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech ( http://arxiv.org/abs/2307.16679v1 )

ライセンス: Link先を確認
Guangyan Zhang, Thomas Merritt, Manuel Sam Ribeiro, Biel Tura-Vecino, Kayoko Yanagisawa, Kamil Pokora, Abdelhamid Ezzerg, Sebastian Cygert, Ammar Abbas, Piotr Bilinski, Roberto Barra-Chicote, Daniel Korzekwa, Jaime Lorenzo-Trueba(参考訳) ニューラルテキスト音声システムはL1/L2損失に最適化されることが多く、ターゲットデータ空間の分布を強く仮定する。 これらの仮定を改善するため、フローの正規化と拡散確率モデルが最近提案された。 本稿では,テキスト音声合成における韻律とメル-スペクトログラム予測の課題に対して,従来のL1/L2ベースの拡散法とフローベースアプローチを比較した。 我々はprosodyモデルを用いてlog-f0と継続時間特性を生成し,メルスペクトログラムを生成する音響モデルの条件付けを行う。 実験の結果,フローベースモデルでは,等価拡散モデルやL1モデルよりも優れたスペクトル予測性能が得られた。 一方、拡散と流れに基づく韻律予測は、典型的なL2訓練韻律モデルよりも大幅に改善される。

Neural text-to-speech systems are often optimized on L1/L2 losses, which make strong assumptions about the distributions of the target data space. Aiming to improve those assumptions, Normalizing Flows and Diffusion Probabilistic Models were recently proposed as alternatives. In this paper, we compare traditional L1/L2-based approaches to diffusion and flow-based approaches for the tasks of prosody and mel-spectrogram prediction for text-to-speech synthesis. We use a prosody model to generate log-f0 and duration features, which are used to condition an acoustic model that generates mel-spectrograms. Experimental results demonstrate that the flow-based model achieves the best performance for spectrogram prediction, improving over equivalent diffusion and L1 models. Meanwhile, both diffusion and flow-based prosody predictors result in significant improvements over a typical L2-trained prosody models.
翻訳日:2023-08-01 14:21:47 公開日:2023-07-31
# トルク可変高さホッピングのためのエンドツーエンド強化学習

End-to-End Reinforcement Learning for Torque Based Variable Height Hopping ( http://arxiv.org/abs/2307.16676v1 )

ライセンス: Link先を確認
Raghav Soni, Daniel Harnack, Hauke Isermann, Sotaro Fushimi, Shivesh Kumar, Frank Kirchner(参考訳) レッグド・ロコモーションは自然地形や非構造地形を扱うのに最も適した多用途モードである。 動的歩行とランニングコントローラに関する研究は、近年、最適制御と強化学習(RL)文学において大きな進歩を遂げている。 ホッピングは飛行段階を含む困難な動的タスクであり、脚のあるロボットの移動可能性を高める可能性がある。 ホッピングのモデルベースの制御は通常、リフトオフやタッチダウンなどのジャンプフェーズの正確な検出と、各フェーズの異なるコントローラの使用に依存する。 本稿では,RLをベースとしたトルクコントローラを提案する。このコントローラは,関連するジャンプフェーズを暗黙的に検出し,状態検出のための手動ヒューリスティックを提供する必要をなくす。 また、学習した制御器がリッチな動的タスクに接触できるように、シミュレーション手法を拡張し、パラメータチューニングなしでトレーニング後のロボットへの展開を成功させる。

Legged locomotion is arguably the most suited and versatile mode to deal with natural or unstructured terrains. Intensive research into dynamic walking and running controllers has recently yielded great advances, both in the optimal control and reinforcement learning (RL) literature. Hopping is a challenging dynamic task involving a flight phase and has the potential to increase the traversability of legged robots. Model based control for hopping typically relies on accurate detection of different jump phases, such as lift-off or touch down, and using different controllers for each phase. In this paper, we present a end-to-end RL based torque controller that learns to implicitly detect the relevant jump phases, removing the need to provide manual heuristics for state detection. We also extend a method for simulation to reality transfer of the learned controller to contact rich dynamic tasks, resulting in successful deployment on the robot after training without parameter tuning.
翻訳日:2023-08-01 14:21:31 公開日:2023-07-31
# 超伝導ナノワイヤ単光子検出器を用いた低ノイズバランスホモジン検出

Low-noise Balanced Homodyne Detection with Superconducting Nanowire Single-Photon Detectors ( http://arxiv.org/abs/2307.16672v1 )

ライセンス: Link先を確認
Maximilian Protte, Timon Schapeler and Tim J. Bartley(参考訳) 超伝導ナノワイヤ単光子検出器(SNSPD)は、光子計数実験の形で量子状態の離散的性質を研究するために広く用いられている。 SNSPDはホモダイン検出によって量子状態の連続変数の研究にも利用できることを示す。 2つのSNSPDを用いて連続波局所発振器と真空状態との干渉を測定することにより、カウントレートの差のばらつきは、ほぼ5桁以上の局所発振器の強度に線形に比例することを示した。 結果として生じるショットノイズクリアランス$(46.0\pm1.1)~\mathrm{dB}$はバランスの取れた光ホモダイン検出器の最も高いクリアランスであり、連続波状態における高度に絞られた状態を測定する可能性を示している。 また,同じデータを用いて局所振動子の離散光子統計解析を行った。 これは、離散変数と連続変数の両方の観点から量子状態のキャラクタリゼーションに単一の検出器が使用できることを示している。

Superconducting nanowire single-photon detectors (SNSPDs) have been widely used to study the discrete nature of quantum states in form of photon-counting experiments. We show that SNSPDs can also be used to study continuous variables of quantum states by performing homodyne detection. By measuring the interference of a continuous wave local oscillator with the vacuum state using two SNSPDs, we show that the variance of the difference in count rates is linearly proportional to the intensity of the local oscillator over almost five orders of magnitude. The resulting shot-noise clearance of $(46.0\pm1.1)~\mathrm{dB}$ is the highest reported clearance for a balanced optical homodyne detector, demonstrating their potential for measuring highly squeezed states in the continuous-wave regime. Using the same data, we also analyse the discrete photon statistics of the local oscillator. This shows that a single detector can be used to characterize quantum states in terms of both discrete and continuous variables.
翻訳日:2023-08-01 14:21:16 公開日:2023-07-31
# 画像逆問題に対するコンディショニング生成潜時最適化

Conditioning Generative Latent Optimization to solve Imaging Inverse Problems ( http://arxiv.org/abs/2307.16670v1 )

ライセンス: Link先を確認
Thomas Braure, K\'evin Ginsburger(参考訳) CT(Computed Tomography)はイメージング逆問題(IIP)の顕著な例であり、スパースX線プロジェクションのような劣化した測定設定におけるデータ駆動手法の非分散性能を強調している。 ディープラーニングアプローチのかなりの割合は、実験的な測定結果を医療スキャンに直接マッピングする大規模な教師付きデータセットの恩恵を受けているが、未知の取得設定に一般化することはできない。 対照的に、特にスコアベースの生成モデルを用いた完全に教師なしのテクニックは、画像設定に関するテスト時に柔軟でありながらiipsを解決する教師付きアプローチと比較して、最近、類似またはより良い性能を示している。 しかし、ユースケースは2つの要因に制限されている。 (a)優れた一般化特性を持つためには、かなりの量のトレーニングデータが必要である。 (b)CTの場合のフィルタバックプロジェクションのような後方演算子が必要であり、医学スキャンの学習前の分布を実験的な測定に適応させる。 これらの問題を克服するために,デコーダネットワークのパラメータを教師なしデータセット上で初期化する生成的潜在最適化フレームワーク (cglo) に対する教師なし条件付きアプローチを提案する。 次に、デコーダは、提案された再構成から実験的な測定へのシミュレーション測定を直接比較する損失関数による生成的潜在最適化を行うことで、再構成目的に使用される。 結果として得られたアプローチは、複数のトレーニングデータセットサイズを使用してスパースビューctでテストされ、ほとんどのデータレジームで最先端のスコアベース戦略よりも優れた再構成品質を示し、より小さなトレーニングデータセットのパフォーマンスアドバンテージと投影角の低下を示している。 さらに、cGLOは後方演算子を必要としないため、ユースケースを非線形IPにも拡張することができる。

Computed Tomography (CT) is a prominent example of Imaging Inverse Problem (IIP), highlighting the unrivalled performances of data-driven methods in degraded measurements setups like sparse X-ray projections. Although a significant proportion of deep learning approaches benefit from large supervised datasets to directly map experimental measurements to medical scans, they cannot generalize to unknown acquisition setups. In contrast, fully unsupervised techniques, most notably using score-based generative models, have recently demonstrated similar or better performances compared to supervised approaches to solve IIPs while being flexible at test time regarding the imaging setup. However, their use cases are limited by two factors: (a) they need considerable amounts of training data to have good generalization properties and (b) they require a backward operator, like Filtered-Back-Projection in the case of CT, to condition the learned prior distribution of medical scans to experimental measurements. To overcome these issues, we propose an unsupervised conditional approach to the Generative Latent Optimization framework (cGLO), in which the parameters of a decoder network are initialized on an unsupervised dataset. The decoder is then used for reconstruction purposes, by performing Generative Latent Optimization with a loss function directly comparing simulated measurements from proposed reconstructions to experimental measurements. The resulting approach, tested on sparse-view CT using multiple training dataset sizes, demonstrates better reconstruction quality compared to state-of-the-art score-based strategies in most data regimes and shows an increasing performance advantage for smaller training datasets and reduced projection angles. Furthermore, cGLO does not require any backward operator and could expand use cases even to non-linear IIPs.
翻訳日:2023-08-01 14:20:56 公開日:2023-07-31
# ウェアラブルデータの生成モデル

Generative models for wearables data ( http://arxiv.org/abs/2307.16664v1 )

ライセンス: Link先を確認
Arinbj\"orn Kolbeinsson, Luca Foschini(参考訳) データ不足は、データ収集に伴うコストの高騰とデータへのアクセスと活用の複雑さから、医学研究において一般的な障害である。 健康データを合成することは、この不足に対する効率的で費用対効果の高い解決策となり、研究者は既存の観察では表現されていない分布や集団を探索することができる。 そこで我々は,現実的なウェアラブル活動データを生成するマルチタスク自己注意モデルを開発した。 生成したデータの特徴を調べ,その類似性を定量化と定性化の両アプローチで定量化する。

Data scarcity is a common obstacle in medical research due to the high costs associated with data collection and the complexity of gaining access to and utilizing data. Synthesizing health data may provide an efficient and cost-effective solution to this shortage, enabling researchers to explore distributions and populations that are not represented in existing observations or difficult to access due to privacy considerations. To that end, we have developed a multi-task self-attention model that produces realistic wearable activity data. We examine the characteristics of the generated data and quantify its similarity to genuine samples with both quantitative and qualitative approaches.
翻訳日:2023-08-01 14:20:26 公開日:2023-07-31
# ポイントクラウドからのグラフ構造: 幾何学的注意は必要なすべて

Graph Structure from Point Clouds: Geometric Attention is All You Need ( http://arxiv.org/abs/2307.16662v1 )

ライセンス: Link先を確認
Daniel Murnane(参考訳) グラフニューラルネットワークの使用は、高エネルギー物理学で見られるような点雲問題に大きな進歩をもたらした。 これらの問題においてグラフ構造をどのように生成するかという問題は、通常、完全連結グラフやk-ネアレスト近傍を用いて、ヒューリスティックな問題として扱われる。 本研究では,この問題をトポロジー問題として最も重要視する。 本稿では,グラフを学習空間内に構築し,関係の流れを幾何学的に処理し,トポロジ問題に対する一つの解を提供するアテンション機構を提案する。 我々は、トップジェットタグ付けのタスクにおいて、GravNetNormと呼ばれるこのアーキテクチャをテストし、タグ付け精度に競争力があることを示し、他の他のどのモデルよりもはるかに少ない計算資源を使用する。

The use of graph neural networks has produced significant advances in point cloud problems, such as those found in high energy physics. The question of how to produce a graph structure in these problems is usually treated as a matter of heuristics, employing fully connected graphs or K-nearest neighbors. In this work, we elevate this question to utmost importance as the Topology Problem. We propose an attention mechanism that allows a graph to be constructed in a learned space that handles geometrically the flow of relevance, providing one solution to the Topology Problem. We test this architecture, called GravNetNorm, on the task of top jet tagging, and show that it is competitive in tagging accuracy, and uses far fewer computational resources than all other comparable models.
翻訳日:2023-08-01 14:20:17 公開日:2023-07-31
# 災害対応のための積極的資源要求:深層学習に基づく最適化モデル

Proactive Resource Request for Disaster Response: A Deep Learning-based Optimization Model ( http://arxiv.org/abs/2307.16661v1 )

ライセンス: Link先を確認
Hongzhe Zhang, Xiaohang Zhao, Xiao Fang and Bintong Chen(参考訳) 災害対応は、災害後の命を救い、被害を減らすために重要である。 災害対応活動の基本は災害救助資源の管理である。 この目的のために、地方機関(例えば、地域緊急資源流通センター)は、災害の影響を受けた地域コミュニティからの要求を収集し、その要求を満たすために利用可能なリソースを派遣し、中央緊急管理機関(例えば、米国の連邦緊急管理機関)からより多くのリソースを要求する。 災害対応のための事前資源管理研究は、地方機関が要求する資源の最適量を決定する問題を見落としている。 本研究のギャップに対応するため,現在未満たの要求と今後の要求の両方を考慮し,要求されるリソースの最適な量を積極的に決定する新たな資源管理問題を定義した。 そこで本研究では,この問題の特徴を考慮に入れ,今後の需要予測のための新しい深層学習法を開発した。 次に, 確率的最適化モデルとして問題を定式化し, モデルの鍵特性を解析し, 解析した特性に基づく効果的な解法を提案する。 本手法は実世界とシミュレーションデータの両方を用いて既存の手法よりも優れた性能を示す。 また,シミュレーションによるマルチステークホルダと多目的設定において,既存手法よりも優位性を示す。

Disaster response is critical to save lives and reduce damages in the aftermath of a disaster. Fundamental to disaster response operations is the management of disaster relief resources. To this end, a local agency (e.g., a local emergency resource distribution center) collects demands from local communities affected by a disaster, dispatches available resources to meet the demands, and requests more resources from a central emergency management agency (e.g., Federal Emergency Management Agency in the U.S.). Prior resource management research for disaster response overlooks the problem of deciding optimal quantities of resources requested by a local agency. In response to this research gap, we define a new resource management problem that proactively decides optimal quantities of requested resources by considering both currently unfulfilled demands and future demands. To solve the problem, we take salient characteristics of the problem into consideration and develop a novel deep learning method for future demand prediction. We then formulate the problem as a stochastic optimization model, analyze key properties of the model, and propose an effective solution method to the problem based on the analyzed properties. We demonstrate the superior performance of our method over prevalent existing methods using both real world and simulated data. We also show its superiority over prevalent existing methods in a multi-stakeholder and multi-objective setting through simulations.
翻訳日:2023-08-01 14:20:02 公開日:2023-07-31
# 変換不変自己学習を用いた医用画像分割のための領域適応

Domain Adaptation for Medical Image Segmentation using Transformation-Invariant Self-Training ( http://arxiv.org/abs/2307.16660v1 )

ライセンス: Link先を確認
Negin Ghamsarian, Javier Gamazo Tejero, Pablo M\'arquez Neila, Sebastian Wolf, Martin Zinkernagel, Klaus Schoeffmann, Raphael Sznitman(参考訳) 非ラベルデータを活用可能なモデルは、取得したデータセット間の大きな分散ギャップを、異なるイメージングデバイスと構成で克服する上で極めて重要である。 この観点から、擬似ラベルに基づく自己学習技術は、半教師付きドメイン適応に非常に有効であることが示されている。 しかし、擬似ラベルの信頼性の欠如は、特に大きな分布ギャップの場合、ラベルなしのターゲットデータセットから抽象表現を誘導する自己訓練技術の能力を妨げる可能性がある。 ニューラルネットワークの性能は画像変換に不変であるべきなので、不確実な擬似ラベルを特定するためにこの事実を考察する。 実際、変換不変検出は基底真理をより合理的に近似できると主張している。 そこで本研究では,変換不変自己学習(TI-ST)と呼ばれる領域適応のための半教師付き学習戦略を提案する。 提案手法は,画素単位の擬似ラベルの信頼性を評価し,自己学習中の信頼できない検出をフィルタリングする。 医用画像の3つの異なるモードと2つの異なるネットワークアーキテクチャ、およびいくつかの代替ドメイン適応手法を用いて、ドメイン適応の包括的な評価を行う。 提案手法は,対象ドメインアノテーションの欠如を軽減し,対象ドメインにおけるセグメンテーション性能を向上するために有効であることを確認した。

Models capable of leveraging unlabelled data are crucial in overcoming large distribution gaps between the acquired datasets across different imaging devices and configurations. In this regard, self-training techniques based on pseudo-labeling have been shown to be highly effective for semi-supervised domain adaptation. However, the unreliability of pseudo labels can hinder the capability of self-training techniques to induce abstract representation from the unlabeled target dataset, especially in the case of large distribution gaps. Since the neural network performance should be invariant to image transformations, we look to this fact to identify uncertain pseudo labels. Indeed, we argue that transformation invariant detections can provide more reasonable approximations of ground truth. Accordingly, we propose a semi-supervised learning strategy for domain adaptation termed transformation-invariant self-training (TI-ST). The proposed method assesses pixel-wise pseudo-labels' reliability and filters out unreliable detections during self-training. We perform comprehensive evaluations for domain adaptation using three different modalities of medical images, two different network architectures, and several alternative state-of-the-art domain adaptation methods. Experimental results confirm the superiority of our proposed method in mitigating the lack of target domain annotation and boosting segmentation performance in the target domain.
翻訳日:2023-08-01 14:19:39 公開日:2023-07-31
# 世界文学知識グラフ

The World Literature Knowledge Graph ( http://arxiv.org/abs/2307.16659v1 )

ライセンス: Link先を確認
Marco Antonio Stranisci, Eleonora Bernasconi, Viviana Patti, Stefano Ferilli, Miguel Ceriani, Rossana Damiano(参考訳) デジタルメディアは前例のない文学的知識へのアクセスを可能にした。 著者、読者、学者は、書籍とその著者に関する情報を発見、共有できるようになった。 しかし、これらの知識の源泉は断片化されており、非西洋の作家とその著作を適切に表現していない。 本稿では,194,346人の作家と965,210の著作を含む意味的資源である世界文学知識グラフ(world literature knowledge graph)について述べる。 知識グラフは、単一の意味モデルに従って、読者の3つの異なるコミュニティから集められた文学作品の受容に関する情報を統合する。 リソースはオンラインのビジュアライゼーションプラットフォームを通じてアクセス可能で、以下のurlで見ることができる。 このプラットフォームは厳格にテストされ、各作業領域に非常に有益であると判断した、3ドルの異なる専門家のカテゴリによって検証されている。 これらのカテゴリには、教師、人文科学の研究者、出版業界の専門家が含まれる。 これらの専門家からのフィードバックは、プラットフォームを効果的に活用して作業プロセスを強化し、価値のある成果を得られることを確認している。

Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. However, these sources of knowledge are fragmented and do not adequately represent non-Western writers and their works. In this paper we present The World Literature Knowledge Graph, a semantic resource containing 194,346 writers and 965,210 works, specifically designed for exploring facts about literary works and authors from different parts of the world. The knowledge graph integrates information about the reception of literary works gathered from 3 different communities of readers, aligned according to a single semantic model. The resource is accessible through an online visualization platform, which can be found at the following URL: https://literaturegraph.di.unito.it/. This platform has been rigorously tested and validated by $3$ distinct categories of experts who have found it to be highly beneficial for their respective work domains. These categories include teachers, researchers in the humanities, and professionals in the publishing industry. The feedback received from these experts confirms that they can effectively utilize the platform to enhance their work processes and achieve valuable outcomes.
翻訳日:2023-08-01 14:19:20 公開日:2023-07-31
# ハミルトン形式における複合粒子スペクトルの計算と2-フラバー qed$_{1+1\text{d}}$での実証

Calculating composite-particle spectra in Hamiltonian formalism and demonstration in 2-flavor QED$_{1+1\text{d}}$ ( http://arxiv.org/abs/2307.16655v1 )

ライセンス: Link先を確認
Etsuko Itou, Akira Matsumoto, Yuya Tanizaki(参考訳) 我々は,(1)相関関数スキーム,(2)一点関数スキーム,(3)分散関係スキームという,ゲージ理論の質量スペクトルを計算するための3つの異なる方法を考える。 1つ目はモンテカルロシミュレーションにおける従来のユークリッド法に対応する。 第二に、境界効果を使って質量スペクトルを効率的に計算する。 第3のものは励起状態を構成し、量子数の選択と分散関係を用いてエネルギーに適合する。 密度行列再正規化群 (dmrg) を用いたm/g=0.1$ および $\theta=0$ の2-フレーバー質量シュウィンガー模型の質量スペクトルへの応用において, それぞれの手法は長所と短所を持ち, それらの特性を明らかにした。 小さい質量$m$のマルチフレーバーシュウィンガーモデルは、ボゾン化後も強結合場理論であり、従って第一原理の数値計算を行う必要があることに留意する。 これら全ての手法は、安定粒子、ピオン$\pi_a$$J^{PG}=1^{-+}$、シグマメソン$\sigma$(J^{PG}=0^{++}$)、eta meson$\eta$(J^{PG}=0^{-}$)にほぼ一致する。 特に、$\sigma$中間子の質量は2倍のパイオン質量より軽く、$\sigma$は崩壊過程に対して安定である、$\sigma \to \pi\pi$。 これは、WKB近似を用いた解析的予測と一致しており、我々の計算結果は、ピオンとシグマ中間体の間のWKB式、$M_\sigma/M_\pi=\sqrt{3}$に非常に近い。

We consider three distinct methods to compute the mass spectrum of gauge theories in the Hamiltonian formalism: (1) correlation-function scheme, (2) one-point-function scheme, and (3) dispersion-relation scheme. The first one corresponds to the conventional Euclidean method in the Monte Carlo simulations. The second one uses the boundary effect to efficiently compute the mass spectrum. The third one constructs the excited states and fits their energy using the dispersion relation with selecting quantum numbers. Each method has its pros and cons, and we clarify such properties in their applications to the mass spectrum for the 2-flavor massive Schwinger model at $m/g=0.1$ and $\theta=0$ using the density-matrix renormalization group (DMRG). We note that the multi-flavor Schwinger model at small mass $m$ is a strongly-coupled field theory even after the bosonizations, and thus it deserves to perform the first-principle numerical calculations. All these methods mostly agree and identify the stable particles, pions $\pi_a$ ($J^{PG}=1^{-+}$), sigma meson $\sigma$ ($J^{PG}=0^{++}$), and eta meson $\eta$ ($J^{PG}=0^{--}$). In particular, we find that the mass of $\sigma$ meson is lighter than twice the pion mass, and thus $\sigma$ is stable against the decay process, $\sigma \to \pi\pi$. This is consistent with the analytic prediction using the WKB approximation, and, remarkably, our numerical results are so close to the WKB-based formula between the pion and sigma-meson masses, $M_\sigma/M_\pi=\sqrt{3}$.
翻訳日:2023-08-01 14:19:03 公開日:2023-07-31
# 混合フィールドイジング連鎖における局所保存量の欠如の証明

Proof of absence of local conserved quantities in the mixed-field Ising chain ( http://arxiv.org/abs/2307.16703v1 )

ライセンス: Link先を確認
Yuuya Chiba(参考訳) 局所保存量の存在は熱化の必要条件とみなされることが多い。 多くの研究は、長手および横手フィールドのイジング連鎖で熱化が起こるかどうかを論じているが、このモデルの局所保存量に関する厳密な結果はいまだに欠落している。 ここで、すべてのカップリング定数が 0 でない場合、このモデルは自明なもの以外のシステムサイズの半分、すなわちハミルトニアンと恒等式を線形に組み合わせた支持サイズを持つ局所作用素にまたがる保存量を持たないことを厳密に証明する。 また、長手場をゼロとするモデルの可積分性についても論じる。 この結果は、不積分性が厳密に証明されたスピンモデルの第二の例である。

Absence of local conserved quantities is often considered to be a necessary condition for thermalization. Although many studies have discussed whether thermalization occurs in the Ising chain with longitudinal and transverse fields, rigorous results on local conserved quantities of this model have been still lacking. Here, we rigorously prove that, if all coupling constants are nonzero, this model has no conserved quantity spanned by local operators with support size up to the half of the system size other than trivial one, i.e., a linear combination of the Hamiltonian and the identity. We also discuss relation to integrability of the model where longitudinal field is set to zero. Our results provide the second example of spin models whose nonintegrability is rigorously proved.
翻訳日:2023-08-01 14:12:57 公開日:2023-07-31
# 大規模言語モデルを用いたオントロジー工学

Ontology engineering with Large Language Models ( http://arxiv.org/abs/2307.16699v1 )

ライセンス: Link先を確認
Patricia Mateiu and Adrian Groza(参考訳) 自然言語文を記述論理に自動翻訳することで、オントロジーを豊かにするタスクに取り組む。 LLM(Large Language Models)が翻訳に最適なツールであるため,自然言語文をOWL関数構文に変換するために,GPT-3モデルを微調整した。 インスタンス、クラスサブスケープ、ドメインとリレーションの範囲、オブジェクトプロパティの関係、disjointクラス、補数、基数制限などに関するモデルを微調整するために、客観的かつ簡潔な例を用いています。 得られた公理は、人間の監督によってオントロジーを豊かにするために用いられる。 開発ツールはProtgeプラグインとして公開されている。

We tackle the task of enriching ontologies by automatically translating natural language sentences into Description Logic. Since Large Language Models (LLMs) are the best tools for translations, we fine-tuned a GPT-3 model to convert Natural Language sentences into OWL Functional Syntax. We employ objective and concise examples to fine-tune the model regarding: instances, class subsumption, domain and range of relations, object properties relationships, disjoint classes, complements, cardinality restrictions. The resulted axioms are used to enrich an ontology, in a human supervised manner. The developed tool is publicly provided as a Protge plugin.
翻訳日:2023-08-01 14:12:44 公開日:2023-07-31
# ニューラルネットワークベイズ推定におけるデータの変動性の理論

A theory of data variability in Neural Network Bayesian inference ( http://arxiv.org/abs/2307.16695v1 )

ライセンス: Link先を確認
Javed Lindner, David Dahmen, Michael Kr\"amer and Moritz Helias(参考訳) ベイズ推論とカーネル法は機械学習においてよく確立されている。 特にニューラルネットワークのガウス過程は、カーネルと推論手法を用いて無限に広い隠れレイヤの限界内でニューラルネットワークを調べる概念を提供する。 ここでは、この極限の上に構築し、無限に広いネットワークの一般化特性をカバーする場理論形式を提供する。 不均一なエントリを持つカーネル行列に対する線形・非線形・ディープ非線形ネットワークの一般化特性を系統的に計算する。 現在採用されているスペクトル法とは対照的に、入力の統計特性から一般化特性を導出し、入力次元の相互作用、トレーニングデータセットのサイズ、データの変動性を解明する。 データ変動性は、(\varphi^3+\varphi^4$)-理論を想起させる非ガウス作用をもたらす。 合成タスクとmnistに関する形式的手法を用いて,学習曲線に対する均質なカーネル行列近似と,無限に多くのトレーニングデータ点の場合の一般化特性の推定と学習曲線の境界に対する正確な結果を可能にするデータ変動による補正を求める。

Bayesian inference and kernel methods are well established in machine learning. The neural network Gaussian process in particular provides a concept to investigate neural networks in the limit of infinitely wide hidden layers by using kernel and inference methods. Here we build upon this limit and provide a field-theoretic formalism which covers the generalization properties of infinitely wide networks. We systematically compute generalization properties of linear, non-linear, and deep non-linear networks for kernel matrices with heterogeneous entries. In contrast to currently employed spectral methods we derive the generalization properties from the statistical properties of the input, elucidating the interplay of input dimensionality, size of the training data set, and variability of the data. We show that data variability leads to a non-Gaussian action reminiscent of a ($\varphi^3+\varphi^4$)-theory. Using our formalism on a synthetic task and on MNIST we obtain a homogeneous kernel matrix approximation for the learning curve as well as corrections due to data variability which allow the estimation of the generalization properties and exact results for the bounds of the learning curves in the case of infinitely many training data points.
翻訳日:2023-08-01 14:12:35 公開日:2023-07-31
# 医用画像における不確かさ定量化のための潜在密度セグメンテーションモデルの検討と改善

Investigating and Improving Latent Density Segmentation Models for Aleatoric Uncertainty Quantification in Medical Imaging ( http://arxiv.org/abs/2307.16694v1 )

ライセンス: Link先を確認
M. M. Amaan Valiuddin, Christiaan G. A. Viviers, Ruud J. G. van Sloun, Peter H. N. de With, and Fons van der Sommen(参考訳) センサノイズやオクルージョンのようなデータの不確実性は、画像に既約曖昧性を導入し、その結果、様々な、しかしもっとも妥当なセマンティック仮説をもたらす。 機械学習では、この曖昧さは一般にアレタリック不確実性と呼ばれる。 潜在密度モデルは、画像分割におけるこの問題に対処するために利用できる。 最も一般的なアプローチは確率的u-net(pu-net)で、潜在正規密度を使って条件付きデータログライクな証拠を低限界に最適化する。 本研究ではPU-Net潜伏空間が極めて不均質であることを示す。 その結果, 勾配降下の有効性が抑制され, 潜在空間試料の局在に極めて敏感となり, 予測の欠陥が生じる。 そこで本研究では,Sinkhorn PU-Net (SPU-Net) を提案する。Sinkhorn Divergence を用いて,すべての潜伏次元の均一性を向上し,勾配の更新とモデルロバストネスを効果的に向上する。 以上の結果から,SPU-Netは,様々な臨床セグメント化問題の公開データセットにこれを適用することで,ハンガリー・マーチ計量の確率的セグメンテーションに先行する潜在変数モデルと比較して,最大11%の性能向上を達成できた。 その結果,均質な潜在空間を奨励することで,医用画像分割の潜在密度モデリングを著しく改善できることが示唆された。

Data uncertainties, such as sensor noise or occlusions, can introduce irreducible ambiguities in images, which result in varying, yet plausible, semantic hypotheses. In Machine Learning, this ambiguity is commonly referred to as aleatoric uncertainty. Latent density models can be utilized to address this problem in image segmentation. The most popular approach is the Probabilistic U-Net (PU-Net), which uses latent Normal densities to optimize the conditional data log-likelihood Evidence Lower Bound. In this work, we demonstrate that the PU- Net latent space is severely inhomogenous. As a result, the effectiveness of gradient descent is inhibited and the model becomes extremely sensitive to the localization of the latent space samples, resulting in defective predictions. To address this, we present the Sinkhorn PU-Net (SPU-Net), which uses the Sinkhorn Divergence to promote homogeneity across all latent dimensions, effectively improving gradient-descent updates and model robustness. Our results show that by applying this on public datasets of various clinical segmentation problems, the SPU-Net receives up to 11% performance gains compared against preceding latent variable models for probabilistic segmentation on the Hungarian-Matched metric. The results indicate that by encouraging a homogeneous latent space, one can significantly improve latent density modeling for medical image segmentation.
翻訳日:2023-08-01 14:12:16 公開日:2023-07-31
# いや、そうじゃない。会話質問回答における第3位補修の扱い

No that's not what I meant: Handling Third Position Repair in Conversational Question Answering ( http://arxiv.org/abs/2307.16689v1 )

ライセンス: Link先を確認
Vevake Balaraman, Arash Eshghi, Ioannis Konstas and Ioannis Papaioannou(参考訳) コミュニケーションミスを扱う能力は、堅牢で忠実な会話型AIにとって不可欠である。 人々は通常、修正と呼ばれる高度に体系的な相互作用メカニズムを使用して、検出した直後に誤通信を処理します。 重要な補修の1つは第3位置補修 (tpr) であり、話者は最初に誤解されるが、相手の誤応答後に明らかになるため誤解を訂正する。 ここでは、会話型質問応答(QA)設定において、最初の大規模なTPRデータセットであるRelease-QAを収集、公開する。 データは、TPRターン、対応する対話コンテキスト、およびTPRの実行のための元のターンの候補修復で構成される。 本稿では,tpr実行のための強力なベースラインモデルを訓練し,評価することにより,データの有用性を示す。 スタンドアロンのTPR実行では、細調整されたT5モデルとOpenAIのGPT-3 LLMの両方で自動評価を行う。 さらに、下流会話型QAタスクにおけるLLMのTPR処理能力について、本質的に評価する。 その結果, GPT-3モデルによるTPRのアウト・オブ・ボックス性能は低下し, 補修QAにより有意に改善した。

The ability to handle miscommunication is crucial to robust and faithful conversational AI. People usually deal with miscommunication immediately as they detect it, using highly systematic interactional mechanisms called repair. One important type of repair is Third Position Repair (TPR) whereby a speaker is initially misunderstood but then corrects the misunderstanding as it becomes apparent after the addressee's erroneous response. Here, we collect and publicly release Repair-QA, the first large dataset of TPRs in a conversational question answering (QA) setting. The data is comprised of the TPR turns, corresponding dialogue contexts, and candidate repairs of the original turn for execution of TPRs. We demonstrate the usefulness of the data by training and evaluating strong baseline models for executing TPRs. For stand-alone TPR execution, we perform both automatic and human evaluations on a fine-tuned T5 model, as well as OpenAI's GPT-3 LLMs. Additionally, we extrinsically evaluate the LLMs' TPR processing capabilities in the downstream conversational QA task. The results indicate poor out-of-the-box performance on TPR's by the GPT-3 models, which then significantly improves when exposed to Repair-QA.
翻訳日:2023-08-01 14:11:49 公開日:2023-07-31
# フレームウィグナー関数によるクリフォード回路の効率的な古典シミュレーション

Efficient Classical Simulation of Clifford Circuits from Framed Wigner Functions ( http://arxiv.org/abs/2307.16688v1 )

ライセンス: Link先を確認
Guedong Park, Hyukjoon Kwon, and Hyunseok Jeong(参考訳) ウィグナー関数形式主義は、連続変数および奇素次元量子回路をシミュレートし、古典的な硬さを評価する重要なツールである。 しかし、そのような形式をキュービット系に適用することは、クリフォード演算によって誘導されるウィグナー函数の負性によって制限される。 本研究では,2値フレーム関数を特徴とする量子ビットウィグナー関数の拡張形式であるフレームド・ウィグナー関数に基づく,非適応クリフォード回路の古典的シミュレーション手法を提案する。 提案手法では,各クリフォードゲートを施す際に適切なフレームに切り替えることで,ウィグナー関数の負性を引き起こすことなく,クリフォード回路の下で位相空間点を更新することができる。 この手法を利用することで,gottesmann-knill tableau法を直接適用することは不可能であり,非安定化入力においてもクリフォード回路の効率的な古典的シミュレーションに十分条件を定めている。 さらに、クリフォード回路の古典的にシミュラタブルな限界結果を特定し、ログ深度回路のシミュラブルな量子ビットの数を探索するグラフ理論的手法を開発した。 また,フレーム化ウィグナー関数を用いたボルン確率推定法を提案し,その精度について考察する。 提案手法は量子回路の準確率シミュレーションのための新しい道を開き,古典的にシミュラブルな回路の境界を広げる。

The Wigner function formalism serves as a crucial tool for simulating continuous-variable and odd-prime dimensional quantum circuits, as well as assessing their classical hardness. However, applying such a formalism to qubit systems is limited due to the negativity in the Wigner function induced by Clifford operations. In this work, we introduce a novel classical simulation method for non-adaptive Clifford circuits based on the framed Wigner function, an extended form of the qubit Wigner function characterized by a binary-valued frame function. Our approach allows for updating phase space points under Clifford circuits without inducing negativity in the Wigner function by switching to a suitable frame when applying each Clifford gate. By leveraging this technique, we establish a sufficient condition for efficient classical simulation of Clifford circuits even with non-stabilizer inputs, where direct application of the Gottesmann-Knill tableau method is not feasible. We further develop a graph-theoretical approach to identify classically simulatable marginal outcomes of Clifford circuits and explore the number of simulatable qubits of log-depth circuits. We also present the Born probability estimation scheme using the framed Wigner function and discuss its precision. Our approach opens new avenues for quasi-probability simulation of quantum circuits, thereby expanding the boundary of classically simulatable circuits.
翻訳日:2023-08-01 14:11:29 公開日:2023-07-31
# DiffPose:ビデオに基づく人文推定のための時空間拡散モデル

DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose Estimation ( http://arxiv.org/abs/2307.16687v1 )

ライセンス: Link先を確認
Runyang Feng, Yixing Gao, Tze Ho Elden Tse, Xueqing Ma, Hyung Jin Chang(参考訳) 現実的画像生成のために当初提案されていたノイズ拡散確率モデルは、最近様々な知覚タスク(物体検出や画像分割など)で成功し、コンピュータビジョンにおいてますます注目を集めている。 しかし,マルチフレームのポーズ推定にモデルを拡張することは,映像に時間次元を加えることによる非自明である。 さらに重要なことに、キーポイント領域に焦点を当てた学習表現は、人間の関節の正確な位置決めに不可欠である。 それにもかかわらず、拡散に基づく方法の適応は、そのような目的を達成する方法に不明確である。 本稿では,映像に基づく人間のポーズ推定を条件付きヒートマップ生成問題として定式化する,新しい拡散アーキテクチャDiffPoseを提案する。 まず、時間的情報をよりよく活用するために、フレーム間で視覚的証拠を集約し、各認知段階の特徴を条件として利用する時空間表現学習器を提案する。 さらに,複数スケールにわたる局所的な関節とグローバルなコンテキストの相関関係を決定する,ルックアップベースのマルチスケール特徴相互作用機構を提案する。 このメカニズムはキーポイント領域に焦点を当てた繊細な表現を生成する。 また、拡散モデルを拡張して、ポーズ推定タスクにおけるDiffPoseの2つの特徴を示す。 (i)複数組のポーズ推定を組み合わせて予測精度を向上させる能力、特にジョイントに挑戦すること (ii)モデルを再トレーニングすることなく、機能改良のための反復的なステップの数を調整する能力。 DiffPoseは、PoseTrack2017、PoseTrack2018、PoseTrack21という3つのベンチマークで、最先端の結果を新たに設定する。

Denoising diffusion probabilistic models that were initially proposed for realistic image generation have recently shown success in various perception tasks (e.g., object detection and image segmentation) and are increasingly gaining attention in computer vision. However, extending such models to multi-frame human pose estimation is non-trivial due to the presence of the additional temporal dimension in videos. More importantly, learning representations that focus on keypoint regions is crucial for accurate localization of human joints. Nevertheless, the adaptation of the diffusion-based methods remains unclear on how to achieve such objective. In this paper, we present DiffPose, a novel diffusion architecture that formulates video-based human pose estimation as a conditional heatmap generation problem. First, to better leverage temporal information, we propose SpatioTemporal Representation Learner which aggregates visual evidences across frames and uses the resulting features in each denoising step as a condition. In addition, we present a mechanism called Lookup-based MultiScale Feature Interaction that determines the correlations between local joints and global contexts across multiple scales. This mechanism generates delicate representations that focus on keypoint regions. Altogether, by extending diffusion models, we show two unique characteristics from DiffPose on pose estimation task: (i) the ability to combine multiple sets of pose estimates to improve prediction accuracy, particularly for challenging joints, and (ii) the ability to adjust the number of iterative steps for feature refinement without retraining the model. DiffPose sets new state-of-the-art results on three benchmarks: PoseTrack2017, PoseTrack2018, and PoseTrack21.
翻訳日:2023-08-01 14:11:04 公開日:2023-07-31
# 画像キャプションモデルをより具体的なキャプションに導く

Guiding Image Captioning Models Toward More Specific Captions ( http://arxiv.org/abs/2307.16686v1 )

ライセンス: Link先を確認
Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen(参考訳) 従来の画像キャプションは、参照画像キャプションペアの分布に一致する画像のキャプションを生成するタスクとして定式化されている。 しかし、標準キャプションデータセットの参照キャプションは短く、記述した画像を一意に識別することができない。 これらの問題は、モデルがインターネットから収集された画像とテキストのペアで直接訓練されるとさらに悪化する。 本研究では,訓練プロセスに最小限の変更を加えることで,より具体的な字幕を生成できることを示す。 自動回帰キャプションモデルに対して,キャプション上の条件分布と無条件分布の両方を推定するために微調整を行うことにより,分類子なしのキャプションモデルの指導を行う。 デコードに適用されるガイダンススケールは、$p(\mathrm{caption}|\mathrm{image})$と$p(\mathrm{image}|\mathrm{caption})$のトレードオフを制御する。 標準のgreedyデコードと比較すると、2のガイダンススケールを持つデコードでは、CLIPScore(0.808 vs. 0.775)やCLIP埋め込み空間における$\to$image検索性能(recall@1 44.6% vs. 26.5%)のような参照なしのメトリクスが大幅に向上するが、標準の参照ベースのキャプションメトリクス(例えば、CIDEr 78.6 vs 126.1)が悪化する。 我々はさらに,デコーディングプロセスを導くための言語モデルの使用,参照フリーと参照ベースのキャプション指標のparetoフロンティアに対する小さな改善,そして最小キュレートされたwebデータでのみトレーニングされたモデルから生成したキャプションの品質向上について検討する。

Image captioning is conventionally formulated as the task of generating captions for images that match the distribution of reference image-caption pairs. However, reference captions in standard captioning datasets are short and may not uniquely identify the images they describe. These problems are further exacerbated when models are trained directly on image-alt text pairs collected from the internet. In this work, we show that it is possible to generate more specific captions with minimal changes to the training process. We implement classifier-free guidance for an autoregressive captioning model by fine-tuning it to estimate both conditional and unconditional distributions over captions. The guidance scale applied at decoding controls a trade-off between maximizing $p(\mathrm{caption}|\mathrm{image})$ and $p(\mathrm{image}|\mathrm{caption})$. Compared to standard greedy decoding, decoding with a guidance scale of 2 substantially improves reference-free metrics such as CLIPScore (0.808 vs. 0.775) and caption$\to$image retrieval performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We further explore the use of language models to guide the decoding process, obtaining small improvements over the Pareto frontier of reference-free vs. reference-based captioning metrics that arises from classifier-free guidance, and substantially improving the quality of captions generated from a model trained only on minimally curated web data.
翻訳日:2023-08-01 14:10:40 公開日:2023-07-31
# マルチエージェント計画における責任予測

Anticipating Responsibility in Multiagent Planning ( http://arxiv.org/abs/2307.16685v1 )

ライセンス: Link先を確認
Timothy Parker, Umberto Grandi, Emiliano Lorini(参考訳) 責任予測は、個々のエージェントの行動が特定の結果に対して責任を負う可能性があるかどうかを決定するプロセスである。 これは、エージェントが考慮する計画の責任を予測できるように、マルチエージェントの計画設定で使用できる。 本論文における計画設定は、初期状態に関する部分的情報を含み、線形時相論理の式を達成または回避すべき正または負の結果とみなす。 まず,活動的,受動的,帰属的責任の概念に対する帰属を定義する。 次にこれらを使用して、責任予測の概念を定義します。 従来の計画と同等性について議論しながら,計画設定におけるエージェントの調整や,モデルに複雑な結果を与えるために,私たちの期待する責任の概念が利用できることを証明します。 また、PDDLソルバを用いた属性および予測問題のいくつかを解決するための概要を示す。

Responsibility anticipation is the process of determining if the actions of an individual agent may cause it to be responsible for a particular outcome. This can be used in a multi-agent planning setting to allow agents to anticipate responsibility in the plans they consider. The planning setting in this paper includes partial information regarding the initial state and considers formulas in linear temporal logic as positive or negative outcomes to be attained or avoided. We firstly define attribution for notions of active, passive and contributive responsibility, and consider their agentive variants. We then use these to define the notion of responsibility anticipation. We prove that our notions of anticipated responsibility can be used to coordinate agents in a planning setting and give complexity results for our model, discussing equivalence with classical planning. We also present an outline for solving some of our attribution and anticipation problems using PDDL solvers.
翻訳日:2023-08-01 14:10:04 公開日:2023-07-31
# 最先端生成モデルの信頼性景観について--包括的調査

On the Trustworthiness Landscape of State-of-the-art Generative Models: A Comprehensive Survey ( http://arxiv.org/abs/2307.16680v1 )

ライセンス: Link先を確認
Mingyuan Fan, Cen Chen, Chengyu Wang, Jun Huang(参考訳) 拡散モデルと大規模言語モデルが最先端生成モデルとして登場し、人間の生活の様々な側面に革命的な影響を与えた。 しかしながら、これらのモデルの実践的な実装は、その二重性を強調し、信頼性に関する懸念を提起する固有のリスクも露呈している。 この主題に関する文献が豊富にあるにもかかわらず、大規模な生成モデルの交差を特に調査する総合的な調査は、ほとんど欠落している。 このギャップを埋めるために、この論文では、プライバシー、セキュリティ、公正性、責任という4つの基本的な側面にまたがる、これらのモデルにまつわる長年の脅威と新興の脅威を調査する。 このようにして,これらのモデルの信頼性を概説した詳細な地図を構築し,実用的な推薦と今後の方向性の特定を行う。 これらの取り組みは、これらのモデルの信頼できる展開を促進するのに不可欠であり、最終的には社会全体に利益をもたらす。

Diffusion models and large language models have emerged as leading-edge generative models and have sparked a revolutionary impact on various aspects of human life. However, the practical implementation of these models has also exposed inherent risks, highlighting their dual nature and raising concerns regarding their trustworthiness. Despite the abundance of literature on this subject, a comprehensive survey specifically delving into the intersection of large-scale generative models and their trustworthiness remains largely absent. To bridge this gap, This paper investigates both the long-standing and emerging threats associated with these models across four fundamental dimensions: privacy, security, fairness, and responsibility. In this way, we construct an extensive map outlining the trustworthiness of these models, while also providing practical recommendations and identifying future directions. These efforts are crucial for promoting the trustworthy deployment of these models, ultimately benefiting society as a whole.
翻訳日:2023-08-01 14:09:49 公開日:2023-07-31
# 量子最適制御理論の再検討:正準解の新展開

Revisiting Quantum Optimal Control Theory: New Insights for the Canonical Solutions ( http://arxiv.org/abs/2307.16724v1 )

ライセンス: Link先を確認
Katherine Castro and Ignacio R. Sol\'a and Juan J. Omiste(参考訳) 本研究では,rabitz et al (phys) によって提唱された量子最適制御理論(qoct)の改訂を提案する。 A 37, 49504964 (1988) は物理学や化学物理学に広く応用されている。 まず、QOCT方程式を制御スキームに関連する関数のオイラー・ラグランジュ方程式として同定する。 このフレームワークでは、ラビッツによって発見された極値関数は、以前の研究で主張されていたように連続ではないことが証明される。 実際、コストテートは不連続であり、測定時間後に消滅することを示す。 対照的に、駆動場は連続であることを示す。 また、QOCTに対する新しい連続解の集合も同定する。 全体として、我々の研究はQOCT理論に重要な貢献をし、数学的解のより良い理解を促進し、最適制御戦略のための潜在的新しい方向性を提供する。

In this study, we present a revision of the Quantum Optimal Control Theory (QOCT) originally proposed by Rabitz et al (Phys. Rev. A 37, 49504964 (1988)), which has broad applications in physical and chemical physics. First, we identify the QOCT equations as the Euler-Lagrange equations of the functional associated to the control scheme. In this framework we prove that the extremal functions found by Rabitz are not continuous, as it was claimed in previous works. Indeed, we show that the costate is discontinuous and vanishes after the measurement time. In contrast, we demonstrate that the driving field is continuous. We also identify a new set of continuous solutions to the QOCT. Overall, our work provides a significant contribution to the QOCT theory, promoting a better understanding of the mathematical solutions and offering potential new directions for optimal control strategies.
翻訳日:2023-08-01 14:01:29 公開日:2023-07-31
# NISQハードウェア上でのクラック画像分類のためのハイブリッド量子転送学習

Hybrid quantum transfer learning for crack image classification on NISQ hardware ( http://arxiv.org/abs/2307.16723v1 )

ライセンス: Link先を確認
Alexander Geng and Ali Moghiseh and Claudia Redenbach and Katja Schladitz(参考訳) 量子コンピュータは、理論上の基礎によれば、従来のビットに比べて著しく少ない量子ビット数でデータを処理する能力を持っている。 しかし、最近の実験では、量子符号化されたバージョンから画像を抽出する現実的な可能性は現在、非常に小さな画像サイズに制限されている。 この制約にもかかわらず、変分量子機械学習アルゴリズムは現在のノイズの多い中間スケール量子(NISQ)時代にも利用できる。 例えば、エッジ検出のためのハイブリッド量子機械学習アプローチがある。 本研究では,グレー値画像中の亀裂を検出するための量子トランスファー学習の応用について述べる。 我々は、PennyLaneの標準量子ビットのパフォーマンスとトレーニング時間と、IBMのqasm\_simulatorと実際のバックエンドを比較し、実行効率に関する洞察を提供する。

Quantum computers possess the potential to process data using a remarkably reduced number of qubits compared to conventional bits, as per theoretical foundations. However, recent experiments have indicated that the practical feasibility of retrieving an image from its quantum encoded version is currently limited to very small image sizes. Despite this constraint, variational quantum machine learning algorithms can still be employed in the current noisy intermediate scale quantum (NISQ) era. An example is a hybrid quantum machine learning approach for edge detection. In our study, we present an application of quantum transfer learning for detecting cracks in gray value images. We compare the performance and training time of PennyLane's standard qubits with IBM's qasm\_simulator and real backends, offering insights into their execution efficiency.
翻訳日:2023-08-01 14:01:18 公開日:2023-07-31
# ネイブベイズ分類器のShapley値の効率的な計算法

An Efficient Shapley Value Computation for the Naive Bayes Classifier ( http://arxiv.org/abs/2307.16718v1 )

ライセンス: Link先を確認
Vincent Lemaire, Fabrice Cl\'erot and Marc Boull\'e(参考訳) 機械学習モデルに対する入力変数の選択や重要度の測定は、多くの研究の焦点となっている。 よいモデルを持つにはもはや十分ではなく、その決定を説明する必要がある。 そのため、今日では多くの知性アルゴリズムが利用可能である。 中でも,共有値推定アルゴリズムは協調ゲーム理論に基づく知性評価手法である。 単純ベイズ分類器や我々の知識の場合には、シェープリー値の「解析的」な定式化は存在しない。 本稿では,ベイズ分類器の特殊ケースにおけるシェープリー値の正確な解析式を提案する。 我々は,このシェープリーの提案を,よく使われる他の指標である証拠重み(woe)と比較し,提案を実証的に比較する。 (i)WoEとWoE (ii)kernelshapは実世界のデータセットで結果し、類似し異な結果について論じる。 その結果,ベイズ分類器に対するShapleyの提案は,アルゴリズムの複雑さの低い情報的結果を提供し,計算時間を極端に低い大規模データセットで利用できることを示した。

Variable selection or importance measurement of input variables to a machine learning model has become the focus of much research. It is no longer enough to have a good model, one also must explain its decisions. This is why there are so many intelligibility algorithms available today. Among them, Shapley value estimation algorithms are intelligibility methods based on cooperative game theory. In the case of the naive Bayes classifier, and to our knowledge, there is no ``analytical" formulation of Shapley values. This article proposes an exact analytic expression of Shapley values in the special case of the naive Bayes Classifier. We analytically compare this Shapley proposal, to another frequently used indicator, the Weight of Evidence (WoE) and provide an empirical comparison of our proposal with (i) the WoE and (ii) KernelShap results on real world datasets, discussing similar and dissimilar results. The results show that our Shapley proposal for the naive Bayes classifier provides informative results with low algorithmic complexity so that it can be used on very large datasets with extremely low computation time.
翻訳日:2023-08-01 14:01:07 公開日:2023-07-31
# UniVTG: 統合ビデオ言語時間グラウンドを目指して

UniVTG: Towards Unified Video-Language Temporal Grounding ( http://arxiv.org/abs/2307.16715v1 )

ライセンス: Link先を確認
Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, and Mike Zheng Shou(参考訳) ビデオテンポラリ・グラウンド(vtg)は、ビデオのターゲットクリップ(連続間隔や不一致ショットなど)をカスタム言語クエリ(例えば文や単語)に従ってグラウンドすることを目的としたもので、ソーシャルメディアでの動画ブラウジングの鍵となる。 この方向のほとんどの手法は、モーメント検索 (time interval) やハイライト検出 (worthiness curve) のようなタイプ固有のラベルで訓練されたタスク固有モデルを開発し、様々なVTGタスクやラベルに一般化する能力を制限する。 本稿では,UniVTGと呼ばれる多様なVTGラベルとタスクを3つの方向に沿って統一することを提案する。 そこで我々は,スケーラブルな疑似監視を実現するためのデータアノテーションスキームを開発した。 第2に,各課題に対処し,各ラベルをフル活用できる効果的で柔軟な接地モデルを開発する。 最後に、unified frameworkのおかげで、大規模な多様なラベルから事前訓練された時間的接地を解き放ち、ゼロショット接地のようなより強力な接地能力を開発することができる。 7つのデータセット(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum、QFVS)にまたがる3つのタスク(モーメント検索、ハイライト検出、ビデオ要約)に関する大規模な実験は、提案フレームワークの有効性と柔軟性を示している。 コードはhttps://github.com/showlab/UniVTGで入手できる。

Video Temporal Grounding (VTG), which aims to ground target clips from videos (such as consecutive intervals or disjoint shots) according to custom language queries (e.g., sentences or words), is key for video browsing on social media. Most methods in this direction develop taskspecific models that are trained with type-specific labels, such as moment retrieval (time interval) and highlight detection (worthiness curve), which limits their abilities to generalize to various VTG tasks and labels. In this paper, we propose to Unify the diverse VTG labels and tasks, dubbed UniVTG, along three directions: Firstly, we revisit a wide range of VTG labels and tasks and define a unified formulation. Based on this, we develop data annotation schemes to create scalable pseudo supervision. Secondly, we develop an effective and flexible grounding model capable of addressing each task and making full use of each label. Lastly, thanks to the unified framework, we are able to unlock temporal grounding pretraining from large-scale diverse labels and develop stronger grounding abilities e.g., zero-shot grounding. Extensive experiments on three tasks (moment retrieval, highlight detection and video summarization) across seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed framework. The codes are available at https://github.com/showlab/UniVTG.
翻訳日:2023-08-01 14:00:51 公開日:2023-07-31
# 機械学習を用いたログベース異常検出に関する実証的研究

An Empirical Study on Log-based Anomaly Detection Using Machine Learning ( http://arxiv.org/abs/2307.16714v1 )

ライセンス: Link先を確認
Shan Ali and Chaima Boufaied and Domenico Bianculli and Paula Branco and Lionel Briand and Nathan Aschbacher(参考訳) システム複雑性の増大により、ログベースの異常検出(LAD)など、さまざまなログ分析タスクに特化した自動化技術の必要性が高まっている。 後者は文学で広く取り上げられており、主に異なる深層学習技術によって研究されている。 それでも、ディープラーニング技術への注目は、従来の機械学習(ML)技術への注意を減らし、多くの場合、コンテキストや使用されるデータセットによってうまく機能する可能性がある。 さらに, 異なるml手法の評価は, その検出精度の評価に基づくものが多い。 しかし、これはLAD問題に対処するのに特定のMLテクニックが適しているかどうかを決定するのに十分ではない。 その他の考慮すべき側面としては、トレーニングと予測時間、ハイパーパラメータチューニングに対する感度などがある。 本稿では,教師付き,半教師付き,従来型,深層ML技術の4つの評価基準である検出精度,時間性能,検出精度の感度,およびハイパーパラメータチューニングに対する時間性能について,総合的な実証的研究を行った。 実験結果から,従来のML技術と深層ML技術は,検出精度と予測時間の観点から非常によく機能することがわかった。 さらに、異なるML手法のハイパーパラメータチューニングに対する検出精度の感度の総合評価により、教師付きML手法はディープラーニング技術よりもハイパーパラメータチューニングに敏感でないことが示された。 さらに、半教師技術は教師技術よりも検出精度が著しく低い。

The growth of systems complexity increases the need of automated techniques dedicated to different log analysis tasks such as Log-based Anomaly Detection (LAD). The latter has been widely addressed in the literature, mostly by means of different deep learning techniques. Nevertheless, the focus on deep learning techniques results in less attention being paid to traditional Machine Learning (ML) techniques, which may perform well in many cases, depending on the context and the used datasets. Further, the evaluation of different ML techniques is mostly based on the assessment of their detection accuracy. However, this is is not enough to decide whether or not a specific ML technique is suitable to address the LAD problem. Other aspects to consider include the training and prediction time as well as the sensitivity to hyperparameter tuning. In this paper, we present a comprehensive empirical study, in which we evaluate different supervised and semi-supervised, traditional and deep ML techniques w.r.t. four evaluation criteria: detection accuracy, time performance, sensitivity of detection accuracy as well as time performance to hyperparameter tuning. The experimental results show that supervised traditional and deep ML techniques perform very closely in terms of their detection accuracy and prediction time. Moreover, the overall evaluation of the sensitivity of the detection accuracy of the different ML techniques to hyperparameter tuning shows that supervised traditional ML techniques are less sensitive to hyperparameter tuning than deep learning techniques. Further, semi-supervised techniques yield significantly worse detection accuracy than supervised techniques.
翻訳日:2023-08-01 14:00:22 公開日:2023-07-31
# TFE-GNN: 詳細な暗号化トラフィック分類のためのグラフニューラルネットワークを用いた時間融合エンコーダ

TFE-GNN: A Temporal Fusion Encoder Using Graph Neural Networks for Fine-grained Encrypted Traffic Classification ( http://arxiv.org/abs/2307.16713v1 )

ライセンス: Link先を確認
Haozhen Zhang, Le Yu, Xi Xiao, Qing Li, Francesco Mercaldo, Xiapu Luo, Qixu Liu(参考訳) 暗号化された交通分類は研究者や工業企業から広く注目を集めている。 しかし、既存の手法はフローレベルの特徴のみを抽出し、信頼性の低い統計特性のために短いフローを処理できなかったり、ヘッダとペイロードを等しく扱い、バイト間の潜在的な相関関係をマイニングできなかったりしている。 そこで本稿では,ポイントワイド相互情報(PMI)に基づくバイトレベルのトラフィックグラフ構築手法と,特徴抽出にグラフニューラルネットワーク(TFE-GNN)を用いたテンポラルフュージョンエンコーダというモデルを提案する。 特に,ヘッダとペイロードバイトを別々に埋め込み,それらを融合してより強力な特徴表現を得るクロスゲート機能融合機構とともに,二重埋め込み層,gnnベースのトラヒックグラフエンコーダを設計した。 2つの実際のデータセットにおける実験結果は、tfe-gnnが、きめ細かな暗号化トラフィック分類タスクにおいて、複数の最先端メソッドを上回ることを示している。

Encrypted traffic classification is receiving widespread attention from researchers and industrial companies. However, the existing methods only extract flow-level features, failing to handle short flows because of unreliable statistical properties, or treat the header and payload equally, failing to mine the potential correlation between bytes. Therefore, in this paper, we propose a byte-level traffic graph construction approach based on point-wise mutual information (PMI), and a model named Temporal Fusion Encoder using Graph Neural Networks (TFE-GNN) for feature extraction. In particular, we design a dual embedding layer, a GNN-based traffic graph encoder as well as a cross-gated feature fusion mechanism, which can first embed the header and payload bytes separately and then fuses them together to obtain a stronger feature representation. The experimental results on two real datasets demonstrate that TFE-GNN outperforms multiple state-of-the-art methods in fine-grained encrypted traffic classification tasks.
翻訳日:2023-08-01 13:59:59 公開日:2023-07-31
# テキスト音声の多言語文脈に基づく発音学習

Multilingual context-based pronunciation learning for Text-to-Speech ( http://arxiv.org/abs/2307.16709v1 )

ライセンス: Link先を確認
Giulia Comini, Manuel Sam Ribeiro, Fan Yang, Heereen Shim, Jaime Lorenzo-Trueba(参考訳) 音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。 言語が与えられた場合、辞書はオフラインで収集でき、通常、語彙外単語の発音を予測するためにGrapheme-to-Phoneme(G2P)の関係がモデル化される。 さらに、しばしば規則に基づく体系の形で定義される後語彙音韻学は、単語内または単語間の発音を正すのに使用される。 本研究では、発音関連タスクに対処し、通常は別個のモジュールで処理される多言語統合フロントエンドシステムを紹介する。 提案したG2P変換モデルと、ホモグラフやポリホンの曖昧さ、語彙後規則、暗黙のダイアクリゼーションといった言語固有の課題について評価する。 多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。

Phonetic information and linguistic knowledge are an essential component of a Text-to-speech (TTS) front-end. Given a language, a lexicon can be collected offline and Grapheme-to-Phoneme (G2P) relationships are usually modeled in order to predict the pronunciation for out-of-vocabulary (OOV) words. Additionally, post-lexical phonology, often defined in the form of rule-based systems, is used to correct pronunciation within or between words. In this work we showcase a multilingual unified front-end system that addresses any pronunciation related task, typically handled by separate modules. We evaluate the proposed model on G2P conversion and other language-specific challenges, such as homograph and polyphones disambiguation, post-lexical rules and implicit diacritization. We find that the multilingual model is competitive across languages and tasks, however, some trade-offs exists when compared to equivalent monolingual solutions.
翻訳日:2023-08-01 13:59:42 公開日:2023-07-31
# Deep LearningがAdaptive Filteringと出会う: スタインの偏見のないリスク推定手法

Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk Estimator Approach ( http://arxiv.org/abs/2307.16708v1 )

ライセンス: Link先を確認
Zahra Esmaeilbeig and Mojtaba Soltanalian(参考訳) 本稿では,アルゴリズム展開のレンズを通して,再帰的最小二乗法 (rls) と等価適応音源分離法 (easi) の2つの特徴ある適応フィルタリングアルゴリズムについて検討する。 アンロール手法に基づいて,Deep RLSとDeep EASIと称される新しいタスクベースディープラーニングフレームワークを導入する。 これらのアーキテクチャは、元のアルゴリズムのイテレーションをディープニューラルネットワークのレイヤーに変換し、トレーニングプロセスを利用して効率的なソース信号推定を可能にする。 さらに,Stein's unbiased risk estimator (SURE) に基づく損失関数を用いて,これらの深層学習ネットワークを訓練することを提案する。 実験により,このSUREに基づく音源信号推定手法の有効性を実証した。

This paper revisits two prominent adaptive filtering algorithms through the lens of algorithm unrolling, namely recursive least squares (RLS) and equivariant adaptive source separation (EASI), in the context of source estimation and separation. Building upon the unrolling methodology, we introduce novel task-based deep learning frameworks, denoted as Deep RLS and Deep EASI. These architectures transform the iterations of the original algorithms into layers of a deep neural network, thereby enabling efficient source signal estimation by taking advantage of a training process. To further enhance performance, we propose training these deep unrolled networks utilizing a loss function grounded on a Stein's unbiased risk estimator (SURE). Our empirical evaluations demonstrate the efficacy of this SURE-based approach for enhanced source signal estimation.
翻訳日:2023-08-01 13:59:24 公開日:2023-07-31
# ネットワーク型マルチエージェントマルコフ決定プロセスのための分散動的プログラミング

Distributed Dynamic Programming forNetworked Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2307.16706v1 )

ライセンス: Link先を確認
Okyong Choi and Donghwan Lee(参考訳) 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MDP)を解決するために分散動的プログラミング(DP)について検討する。 分散マルチエージェントの場合において,各エージェントが他のエージェントの報酬にアクセスできない場合を考える。 さらに、各エージェントはグラフで表される通信ネットワーク上で、そのパラメータを隣人と共有することができる。 本稿では,連続時間領域における分散DPを提案し,その収束性を制御理論の観点から証明する。 本解析は,分散時間差学習アルゴリズムの予備常微分方程式 (ode) 解析であり,borkar-meynの定理と単一時間スケールアプローチを用いて収束を証明できる。

The main goal of this paper is to investigate distributed dynamic programming (DP) to solve networked multi-agent Markov decision problems (MDPs). We consider a distributed multi-agent case, where each agent does not have an access to the rewards of other agents except for its own reward. Moreover, each agent can share their parameters with its neighbors over a communication network represented by a graph. We propose a distributed DP in the continuous-time domain, and prove its convergence through control theoretic viewpoints. The proposed analysis can be viewed as a preliminary ordinary differential equation (ODE) analysis of a distributed temporal difference learning algorithm, whose convergence can be proved using Borkar-Meyn theorem and the single time-scale approach.
翻訳日:2023-08-01 13:59:06 公開日:2023-07-31
# lookbehindオプティマイザ:kステップ後退、1ステップ前進

Lookbehind Optimizer: k steps back, 1 step forward ( http://arxiv.org/abs/2307.16704v1 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, Pranshu Malviya, Aristide Baratin, Sarath Chandar(参考訳) Lookaheadオプティマイザは、降下方向を"前方"に導く一連の高速ウェイトを持つことで、ディープニューラルネットワークのトレーニング安定性を向上させる。 ここでは、このアイデアをシャープネス認識最小化(SAM)と組み合わせて、多段階の変動を安定化し、ロスシャープネストレードオフを改善する。 我々は,各イテレーションで$k$勾配上昇ステップ(後ろを見て)を計算し,勾配を組み合わせ,降下ステップをフラットミニマに向けてバイアスするlookbehindを提案する。 SAM(Adaptive SAM)とASAM(Adaptive SAM)という2つの一般的なシャープネス対応トレーニングメソッドの上にLookbehindを適用することで、当社のアプローチがさまざまなタスクやトレーニング体制に無数のメリットをもたらすことを示す。 特に, 一般化性能の向上, 雑音重みに対する頑健性の向上, 終生の学習環境における破滅的な忘れやすさの高まりを示す。

The Lookahead optimizer improves the training stability of deep neural networks by having a set of fast weights that "look ahead" to guide the descent direction. Here, we combine this idea with sharpness-aware minimization (SAM) to stabilize its multi-step variant and improve the loss-sharpness trade-off. We propose Lookbehind, which computes $k$ gradient ascent steps ("looking behind") at each iteration and combine the gradients to bias the descent step toward flatter minima. We apply Lookbehind on top of two popular sharpness-aware training methods -- SAM and adaptive SAM (ASAM) -- and show that our approach leads to a myriad of benefits across a variety of tasks and training regimes. Particularly, we show increased generalization performance, greater robustness against noisy weights, and higher tolerance to catastrophic forgetting in lifelong learning settings.
翻訳日:2023-08-01 13:58:52 公開日:2023-07-31
# 高次バイナリ最適化のための変分回路の最適化

Optimizing Variational Circuits for Higher-Order Binary Optimization ( http://arxiv.org/abs/2307.16756v1 )

ライセンス: Link先を確認
Zo\'e Verch\`ere and Sourour Elloumi and Andrea Simonetto(参考訳) 変分量子アルゴリズムは、近距離量子コンピュータにおける組合せ最適化問題を解く有望な候補として提唱されている。 彼らの手法は最適化問題を2次非制約バイナリ最適化(QUBO)問題に変換することを含む。 この変換は2量子ビットゲートのみを含むフレキシビリティと実装可能な回路を提供するが、特に多項式最適化において、採用キュービット数や回路深さが最適でないことが示されている。 一方、上位2進最適化(hobo)に基づく戦略は、キュービットを節約するが、2キュービット以上のゲートが存在するため、追加の回路層を導入することになる。 本稿では,HOBO問題を解析し,ハミルトニアンを2量子ゲートのみを含む実装可能な回路に符号化する新しい手法を提案する。 本手法は回路設計を組合せ最適化問題として定式化し,回路深さを最小化する手法である。 また,回路設計問題を多項式時間で解くための簡便な単純化とヒューリスティックを提案する。 本手法は,回路深度の観点から明らかな利得を示すとともに,技術状況と比較することで評価する。

Variational quantum algorithms have been advocated as promising candidates to solve combinatorial optimization problems on near-term quantum computers. Their methodology involves transforming the optimization problem into a quadratic unconstrained binary optimization (QUBO) problem. While this transformation offers flexibility and a ready-to-implement circuit involving only two-qubit gates, it has been shown to be less than optimal in the number of employed qubits and circuit depth, especially for polynomial optimization. On the other hand, strategies based on higher-order binary optimization (HOBO) could save qubits, but they would introduce additional circuit layers, given the presence of higher-than-two-qubit gates. In this paper, we study HOBO problems and propose new approaches to encode their Hamiltonian into a ready-to-implement circuit involving only two-qubit gates. Our methodology relies on formulating the circuit design as a combinatorial optimization problem, in which we seek to minimize circuit depth. We also propose handy simplifications and heuristics that can solve the circuit design problem in polynomial time. We evaluate our approaches by comparing them with the state of the art, showcasing clear gains in terms of circuit depth.
翻訳日:2023-08-01 13:54:06 公開日:2023-07-31
# Dual Feature Pool Object Detection を用いた人工皮革の高性能微細欠陥検出

High-Performance Fine Defect Detection in Artificial Leather Using Dual Feature Pool Object Detection ( http://arxiv.org/abs/2307.16751v1 )

ライセンス: Link先を確認
Lin Huang, Weisheng Li, Linlin Shen, Xue Xiao, Suihan Xiao(参考訳) 本研究では, YOLOv5モデルの構造問題について検討した。 人工皮革の微細欠陥の特徴から, DFP, IFF, AMP, EOSの4つの革新的な構造が設計された。 これらの進歩により、YOLODという高性能な人工皮革微細欠陥検出モデルが提案された。 YOLODは人工皮革欠陥データセットに優れた性能を示し、YLOv5と比較してAP_50は11.7%から13.5%、エラー検出レートは5.2%から7.2%と著しく低下した。 さらに、YOLODは一般のMS-COCOデータセットでも、YOLOv5と比較してAPが0.4%から2.6%増加し、YOLOv5に比べてAP_Sが2.5%上昇した。 これらの結果から, 人工皮革欠陥検出および一般物体検出タスクにおいて, ヨロドの優位性が示され, 実世界の応用に極めて効率的かつ効果的なモデルとなる。

In this study, the structural problems of the YOLOv5 model were analyzed emphatically. Based on the characteristics of fine defects in artificial leather, four innovative structures, namely DFP, IFF, AMP, and EOS, were designed. These advancements led to the proposal of a high-performance artificial leather fine defect detection model named YOLOD. YOLOD demonstrated outstanding performance on the artificial leather defect dataset, achieving an impressive increase of 11.7% - 13.5% in AP_50 compared to YOLOv5, along with a significant reduction of 5.2% - 7.2% in the error detection rate. Moreover, YOLOD also exhibited remarkable performance on the general MS-COCO dataset, with an increase of 0.4% - 2.6% in AP compared to YOLOv5, and a rise of 2.5% - 4.1% in AP_S compared to YOLOv5. These results demonstrate the superiority of YOLOD in both artificial leather defect detection and general object detection tasks, making it a highly efficient and effective model for real-world applications.
翻訳日:2023-08-01 13:53:47 公開日:2023-07-31
# 非完全正の量子マップは電池の効率的な局所エネルギー抽出を可能にする

Non-completely positive quantum maps enable efficient local energy extraction in batteries ( http://arxiv.org/abs/2307.16746v1 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Kornikar Sen, Ujjwal Sen(参考訳) 完全正のトレース保存(cptp)マップによる量子電池からのエネルギー抽出は文献上非常によく研究されている。 CPTP-局所受動的状態の概念は自然に導かれ、CPTPマップを特定のサブシステムに適用することでエネルギーを抜き取ることができない二部体状態を特定する。 ここでは,非完全正のトレース保存(NCPTP)を用いたCPTP局所受動的状態から効率よくエネルギーを抽出できるが,CPTPマップの操作が不要な共有電池の同じ部分の物理的に実現可能であることを示す。 したがって、未知の地図を用いたCPTP局所受動的状態からのエネルギー抽出は、その地図のCPTP特性を検出する証人として利用することができる。 さらに, 局所的cptpマップを用いた最大抽出エネルギーは, 局所的cptpマップを用いた場合に比べ, 厳密に低減できることを示した。 最後に、任意の二部状態が任意の固定ハミルトニアンに対して、一方の党における NCPTP 演算を用いてエネルギーを供給できない必要条件を提供する。

Energy extraction from quantum batteries by means of completely positive trace-preserving (CPTP) maps is quite well-studied in the literature. It naturally leads to the concept of CPTP-local passive states, which identify bipartite states from which no energy can be squeezed out by applying any CPTP map to a particular subsystem. Here we show that energy can be extracted efficiently from CPTP-local passive states employing non-completely positive trace-preserving (NCPTP) but still physically realizable maps on the same part of the shared battery on which operation of CPTP maps were useless. Thus, we realize that energy extraction from CPTP-local passive states using an unknown map can be utilized as a witness for detection of the NCPTP nature of that map. Further, we show that the maximum extractable energy using local CPTP maps on one party can be strictly less than that using local NCPTP maps on the same party. Finally, we provide a necessary condition for an arbitrary bipartite state to be unable to supply any energy using NCPTP operations on one party with respect to an arbitrary but fixed Hamiltonian.
翻訳日:2023-08-01 13:53:28 公開日:2023-07-31
# スマート栄養失調モニタリングの高度化:バイタルヘルスパラメータ推定のためのマルチモーダル学習アプローチ

Advancing Smart Malnutrition Monitoring: A Multi-Modal Learning Approach for Vital Health Parameter Estimation ( http://arxiv.org/abs/2307.16745v1 )

ライセンス: Link先を確認
Ashish Marisetty, Prathistith Raj M, Praneeth Nemani, Venkanna Udutalapally and Debanjan Das(参考訳) 栄養失調は、重要な臓器や全身の身体機能に悪影響を及ぼす必須栄養素の摂取不足によって、地球規模の健康に重大な脅威をもたらす。 従来の技術と非侵襲技術の両方を取り入れた定期的な検査と大量スクリーニングが、この課題に対処するために採用されている。 しかし、これらのアプローチには、追加機器の必要性、包括的特徴表現の欠如、適切な健康指標の欠如、スマートフォンによるBFP(Body Fat Percentage)、BMR(Basal Metabolic Rate)、BMI(Body Mass Index)の正確な評価の不可能さなど、重要な制限がある。 これらの制約に対処するために,本研究では,マルチモーダル学習フレームワークにおける身長,体重,その他の重要な健康パラメータを推定するために,個人の1つのフルボディイメージを活用する,画期的でスケーラブルで堅牢なスマート栄養管理システムを提案する。 提案手法では,ヘッドレス3d分類ネットワークを用いて512次元特徴埋め込みを抽出した高精度3次元点雲の再構成を行う。 同時に、顔と身体の埋め込みも抽出し、学習可能なパラメータの応用により、これらの特徴を利用して正確に重量を推定する。 さらに、BMR、BFP、BMIなどの重要な健康指標を計算し、被験者の健康を包括的に分析し、その後、パーソナライズされた栄養計画の提供を容易にする。 複数のデバイスにまたがる幅広い照明条件にロバストであるが、このモデルは高さと重量を推定するために$\pm$ 4.7 cmと$\pm$ 5.3 kgの低平均絶対誤差(mae)を達成する。

Malnutrition poses a significant threat to global health, resulting from an inadequate intake of essential nutrients that adversely impacts vital organs and overall bodily functioning. Periodic examinations and mass screenings, incorporating both conventional and non-invasive techniques, have been employed to combat this challenge. However, these approaches suffer from critical limitations, such as the need for additional equipment, lack of comprehensive feature representation, absence of suitable health indicators, and the unavailability of smartphone implementations for precise estimations of Body Fat Percentage (BFP), Basal Metabolic Rate (BMR), and Body Mass Index (BMI) to enable efficient smart-malnutrition monitoring. To address these constraints, this study presents a groundbreaking, scalable, and robust smart malnutrition-monitoring system that leverages a single full-body image of an individual to estimate height, weight, and other crucial health parameters within a multi-modal learning framework. Our proposed methodology involves the reconstruction of a highly precise 3D point cloud, from which 512-dimensional feature embeddings are extracted using a headless-3D classification network. Concurrently, facial and body embeddings are also extracted, and through the application of learnable parameters, these features are then utilized to estimate weight accurately. Furthermore, essential health metrics, including BMR, BFP, and BMI, are computed to conduct a comprehensive analysis of the subject's health, subsequently facilitating the provision of personalized nutrition plans. While being robust to a wide range of lighting conditions across multiple devices, our model achieves a low Mean Absolute Error (MAE) of $\pm$ 4.7 cm and $\pm$ 5.3 kg in estimating height and weight.
翻訳日:2023-08-01 13:53:10 公開日:2023-07-31
# 相互作用駆動系における対称性破壊による安定性

Stability via symmetry breaking in interacting driven systems ( http://arxiv.org/abs/2307.16743v1 )

ライセンス: Link先を確認
Andrew Pocklington, Aashish A. Clerk(参考訳) 非コヒーレントで広帯域の駆動を受けるフォトニックおよびボソニック系は、通常、非散逸ハミルトン非線形性のみを用いて安定な有限密度位相に達することができない。 ここでは、不安定で線形化された動力学の対称性を効果的に破ることで、ハミルトン相互作用がマルコフポンプから加熱を遮断できるという、この共通限界を回避する非常に一般的なメカニズムについて述べる。 このメカニズムの具体例を2つ分析する。 1つは、新しい種類の$\mathcal{pt}$レーザーで、エルミートハミルトン相互作用は$\mathcal{pt}$の位相と崩壊しない位相の間のダイナミクスを移動させ、安定性を誘導することができる。 第二に、オンサイト・カーまたはハバード型の相互作用を用いてトポロジカルフォトニック格子のキラル対称性を破り、トポロジカルラシングからトポロジカルに保護されたエッジモードにおけるフォック状態の安定化までエキゾチックな現象を引き起こす。

Photonic and bosonic systems subject to incoherent, wide-bandwidth driving cannot typically reach stable finite-density phases using only non-dissipative Hamiltonian nonlinearities; one instead needs nonlinear losses, or a finite pump bandwidth. We describe here a very general mechanism for circumventing this common limit, whereby Hamiltonian interactions can cut-off heating from a Markovian pump, by effectively breaking a symmetry of the unstable, linearized dynamics. We analyze two concrete examples of this mechanism. The first is a new kind of $\mathcal{PT}$ laser, where Hermitian Hamiltonian interactions can move the dynamics between the $\mathcal{PT}$ broken and unbroken phases and thus induce stability. The second uses onsite Kerr or Hubbard type interactions to break the chiral symmetry in a topological photonic lattice, inducing exotic phenomena from topological lasing to the stabilization of Fock states in a topologically protected edge mode.
翻訳日:2023-08-01 13:52:35 公開日:2023-07-31
# 空間グラフ推論によるマルチスペクトル画像スティッチ

Multi-Spectral Image Stitching via Spatial Graph Reasoning ( http://arxiv.org/abs/2307.16741v1 )

ライセンス: Link先を確認
Zhiying Jiang, Zengxi Zhang, Jinyuan Liu, Xin Fan, Risheng Liu(参考訳) マルチスペクトル画像ステッチは、赤外線と可視画像の相補性を利用して、堅牢で信頼性の高い視野(FOV)シーンを生成する。 この課題の主な課題は、マルチビューシーンの調整と統合のためのマルチスペクトル画像の関係を探ることである。 特徴関係のモデル化におけるグラフ畳み込みネットワーク(gcns)の強みを活かし,多面的画像の変形と統合を異なる視点で効果的に行う空間的グラフ推論に基づく多面的画像縫い付け手法を提案する。 これを実現するために、同じビュー位置から複数スケールの補完機能をノードの集合に埋め込む。 異なる視点にまたがる対応は強力な密集した特徴埋め込みを通じて学習され、相互相関と内部特徴の相違を高めるために相互相関が開発された。 空間的およびチャネル次元に沿って長距離コヒーレンスを導入することにより、画素関係とチャネル相互依存性の相補性は、アラインメントされたマルチビュー特徴の再構築を助け、情報的かつ信頼性の高いワイドフォブシーンを生成する。 さらに,実世界と合成集合の両方からなるchamsという難易度の高いデータセットをリリースし,総合的な評価のための新しい選択肢を提供する。 大規模な実験により,本手法が最先端技術を上回ることが示された。

Multi-spectral image stitching leverages the complementarity between infrared and visible images to generate a robust and reliable wide field-of-view (FOV) scene. The primary challenge of this task is to explore the relations between multi-spectral images for aligning and integrating multi-view scenes. Capitalizing on the strengths of Graph Convolutional Networks (GCNs) in modeling feature relationships, we propose a spatial graph reasoning based multi-spectral image stitching method that effectively distills the deformation and integration of multi-spectral images across different viewpoints. To accomplish this, we embed multi-scale complementary features from the same view position into a set of nodes. The correspondence across different views is learned through powerful dense feature embeddings, where both inter- and intra-correlations are developed to exploit cross-view matching and enhance inner feature disparity. By introducing long-range coherence along spatial and channel dimensions, the complementarity of pixel relations and channel interdependencies aids in the reconstruction of aligned multi-view features, generating informative and reliable wide FOV scenes. Moreover, we release a challenging dataset named ChaMS, comprising both real-world and synthetic sets with significant parallax, providing a new option for comprehensive evaluation. Extensive experiments demonstrate that our method surpasses the state-of-the-arts.
翻訳日:2023-08-01 13:52:12 公開日:2023-07-31
# 統計的推論におけるロスレス変換と過剰リスク境界

Lossless Transformations and Excess Risk Bounds in Statistical Inference ( http://arxiv.org/abs/2307.16735v1 )

ライセンス: Link先を確認
L\'aszl\'o Gy\"orfi, Tam\'as Linder, Harro Walk(参考訳) 本研究では,観測された特徴ベクトルから確率変数を推定する最小期待損失と,特徴ベクトルの変換(統計)から同じ確率変数を推定する最小期待損失との差として,統計的推論における過大な最小リスクについて検討する。 損失のない変換、すなわち全ての損失関数に対して余剰リスクがゼロとなる変換を特徴づけた後、与えられた変換が損失のないという仮説に対して分割テスト統計を構築し、すなわちデータに対してテストが強く一貫したことを示す。 より一般的には、損失関数の比較的一般的なクラスを均一に保持する余剰リスクに関する情報理論上界を開発する。 これらの境界に基づいて、デルタロスレス変換の概念を導入し、与えられた変換が普遍的にデルタロスレスであるのに十分な条件を与える。 また,分類,非パラメトリック回帰,ポートフォリオ戦略,情報ボトルネック,ディープラーニングへの応用についても検討した。

We study the excess minimum risk in statistical inference, defined as the difference between the minimum expected loss in estimating a random variable from an observed feature vector and the minimum expected loss in estimating the same random variable from a transformation (statistic) of the feature vector. After characterizing lossless transformations, i.e., transformations for which the excess risk is zero for all loss functions, we construct a partitioning test statistic for the hypothesis that a given transformation is lossless and show that for i.i.d. data the test is strongly consistent. More generally, we develop information-theoretic upper bounds on the excess risk that uniformly hold over fairly general classes of loss functions. Based on these bounds, we introduce the notion of a delta-lossless transformation and give sufficient conditions for a given transformation to be universally delta-lossless. Applications to classification, nonparametric regression, portfolio strategies, information bottleneck, and deep learning, are also surveyed.
翻訳日:2023-08-01 13:51:32 公開日:2023-07-31
# 量子相関原子を燃料とするフォトニックエンジン

A photonic engine fueled by quantum-correlated atoms ( http://arxiv.org/abs/2307.16726v1 )

ライセンス: Link先を確認
Chimdessa Gashu Feyisa and H. H. Jen(参考訳) 絡み合った状態は量子情報処理や量子物理学の基本的な理解にとって重要な資源である。 興味深い疑問は、絡み合いが特に量子熱エンジンの性能を向上させるかどうかである。 この問題に対処するための有望なプラットフォームの1つは、共振器ミラーがエンジンのピストンとして機能する空洞光子の非熱浴として、絡み合った原子を使用することである。 ここでは,量子相関原子対からなる有効貯留層下で動作するフォトニック量子エンジンを理論的に検討する。 最大絡み合うベル状態だけでは、励起状態や基底状態の余分な人口が考慮されない限り、貯水池から有用な作業を引き出すのに役立ちません。 さらに、非最大エンタングル状態に対して高効率および作業出力を示す一方で、キャビティ内部の発光光子の欠如によりサブラジアント状態に対しては無視される。 この結果は、フォトニックエンジンにおける量子関連原子の役割に関する洞察を与え、より優れた量子熱エンジンを設計する新たな機会を提供する。

Entangled states are an important resource for quantum information processing and for the fundamental understanding of quantum physics. An intriguing open question would be whether entanglement can improve the performance of quantum heat engines in particular. One of the promising platforms to address this question is to use entangled atoms as a non-thermal bath for cavity photons, where the cavity mirror serves as a piston of the engine. Here we theoretically investigate a photonic quantum engine operating under an effective reservoir consisting of quantum-correlated pairs of atoms. We find that maximally entangled Bell states alone do not help extract useful work from the reservoir unless some extra populations in the excited states or ground states are taken into account. Furthermore, high efficiency and work output are shown for the non-maximally entangled superradiant state, while negligible for the subradiant state due to lack of emitted photons inside the cavity. Our results provide insights in the role of quantum-correlated atoms in a photonic engine and present new opportunities in designing a better quantum heat engine.
翻訳日:2023-08-01 13:50:14 公開日:2023-07-31
# 高頻度半導体量子ドットの断熱的量子アドミタンス:リフレクションメトリーをポラロンダイナミクスとして再考

Beyond-adiabatic Quantum Admittance of a Semiconductor Quantum Dot at High Frequencies: Rethinking Reflectometry as Polaron Dynamics ( http://arxiv.org/abs/2307.16725v1 )

ライセンス: Link先を確認
L. Peri, G. A. Oakes, L. Cochrane, C. J. B. Ford, M. F. Gonzalez-Zalba(参考訳) 動的に動作する半導体量子ドットは、量子センサーやコンピュータのような多くの量子技術の基礎である。 したがって、マイクロ波周波数での電気特性のモデル化は、より大きな電子回路での性能をシミュレートするために不可欠である。 本研究では,コヒーレント光子浴の効果の下で電荷貯水池に結合した量子ドットトンネルの入射性を得るために,自己整合型量子マスター方程式を定式化する。 本研究では, フォトニックドライブの共振器と共振器との結合が増大し, 寿命の推移とともに, 既知の半古典的(熱的)限界を捉えたアクセタンスに対する一般表現を求める。 さらに,QD状態のドレッシングによって決定される2つの新しい光子活性化機構と,光子損失によって決定されるシステムの拡張について述べる。 本研究では,QDの高周波挙動を広範囲に再現し,過去の実験を記述し,新しいQD-光子相互作用の探索法を提案する。

Semiconductor quantum dots operated dynamically are the basis of many quantum technologies such as quantum sensors and computers. Hence, modelling their electrical properties at microwave frequencies becomes essential to simulate their performance in larger electronic circuits. Here, we develop a self-consistent quantum master equation formalism to obtain the admittance of a quantum dot tunnel-coupled to a charge reservoir under the effect of a coherent photon bath. We find a general expression for the admittance that captures the well-known semiclassical (thermal) limit, along with the transition to lifetime and power broadening regimes due to the increased coupling to the reservoir and amplitude of the photonic drive, respectively. Furthermore, we describe two new photon-mediated regimes Floquet broadening, determined by the dressing of the QD states, and broadening determined by photon loss in the system. Our results provide a method to simulate the high-frequency behaviour of QDs in a wide range of limits, describe past experiments, and propose novel explorations of QD-photon interactions.
翻訳日:2023-08-01 13:49:55 公開日:2023-07-31
# 量子散逸のための普遍的枠組み:最小拡張状態空間と時間-局所ダイナミクス

A Universal Framework for Quantum Dissipation:Minimally Extended State Space and Exact Time-Local Dynamics ( http://arxiv.org/abs/2307.16790v1 )

ライセンス: Link先を確認
Meng Xu and Vasilii Vadimov and Malte Krug and J. T. Stockburger and J. Ankerhold(参考訳) 開量子システムのダイナミクスは、興味のある系の自由度と非ユニタリな純粋な状態保存モードの有限集合からなる最小拡張状態空間で定式化される。 この形式的構造は、密度を減少させるファインマン・ヴァーノン経路積分から導出され、リウヴィル・フォック混合空間における正確な時間局所進化方程式をもたらすことが示されている。 重要な要素は、物理貯水池の任意のスペクトルノイズパワーから得られる、複素値周波数と振幅の調和モードによる貯水池自己相関の数学的に一貫した分解である。 この定式化は、効率的な数値シミュレーションのための新しい確立されたスキームに直接関係する等価表現の族を得る普遍的な枠組みを提供する。 複素値モードパラメータのいくつかを制限し、線形変換を行うことにより、ここで提示される最小拡張状態空間の制限バージョンとして、補助自由度が明らかにされる以前のアプローチと接続する。 実用的観点からは, 数値効率と精度を長期安定と組み合わせ, 温度範囲全体に広く適用可能な計算ツールと, 強く構造化された貯水池モード密度の計算ツールを提供する。 これにより、控えめな計算資源と実際の量子技術機器のシミュレーション時間で高精度なデータを提供できる。

The dynamics of open quantum systems is formulated in a minimally extended state space comprising the degrees of freedom of a system of interest and a finite set of non-unitary, pure-state reservoir modes. This formal structure, derived from the Feynman-Vernon path integral for the reduced density, is shown to lead to an exact time-local evolution equation in a mixed Liouville-Fock space. The crucial ingredient is a mathematically consistent decomposition of the reservoir auto-correlation in terms of harmonic modes with complex-valued frequencies and amplitudes, which are obtained from any given spectral noise power of the physical reservoir. This formulation provides a universal framework to obtain a family of equivalent representations which are directly related to new and established schemes for efficient numerical simulations. By restricting some of the complex-valued mode parameters and performing linear transformations, we make connections to previous approaches, whose auxiliary degrees of freedom are thus revealed as restricted versions of the minimally extended state space presented here. From a practical perspective, the new framework offers a computational tool which combines numerical efficiency and accuracy with long time stability and broad applicability over the whole temperature range and also for strongly structured reservoir mode densities. It can thus deliver high precision data with modest computational resources and simulation times for actual quantum technological devices.
翻訳日:2023-08-01 13:42:28 公開日:2023-07-31
# ToolLLM: 大きな言語モデルを16000以上の実世界のAPIにファシリテートする

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs ( http://arxiv.org/abs/2307.16789v1 )

ライセンス: Link先を確認
Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun(参考訳) llms(オープンソースの大規模言語モデル)やllamaやvicunaといった派生型の進歩にもかかわらず、外部ツール(api)を使用するためのヒューマンインストラクションなど、高いレベルのタスクの実行には大幅に制限されている。 これは、現在の命令チューニングがツール使用ドメインではなく基本的な言語タスクに重点を置いているためである。 これは、最先端(SOTA)のLSM(例えばChatGPT)とは対照的であり、優れたツール使用能力を示しているが、残念ながらクローズドソースである。 オープンソースLLMにおけるツール利用を容易にするため,データ構築,モデルトレーニング,評価の汎用フレームワークであるToolLLMを紹介した。 ツール使用のためのインストラクションチューニングデータセットであるToolBenchを,ChatGPTを使って自動生成する。 具体的には、RapidAPI Hubから49のカテゴリにまたがる16,464の現実世界のRESTful APIを収集し、ChatGPTにこれらのAPIを含む多様なヒューマンインストラクションを生成し、シングルツールとマルチツールの両方のシナリオをカバーします。 最後に、ChatGPTを使用して、各命令に対して有効なソリューションパス(API呼び出しのチェーン)を検索します。 探索処理をより効率的にするために,LLM が複数の推論トレースを評価し,検索空間を拡張できる新しい深度優先探索ベース決定木 (DFSDT) を開発した。 DFSDT は LLM の計画と推論能力を大幅に向上させることを示す。 効率的なツール利用評価のために, 自動蒸発器toolevalを開発した。 ToolBench上でLLaMAを微調整し、ToolLLaMAを得る。 ToolLLaMAは複雑な命令を実行し、見えないAPIに一般化する素晴らしい能力を示し、ChatGPTに匹敵するパフォーマンスを示します。 パイプラインをより実用的にするために、各命令に適切なAPIを推奨するニューラルAPIレトリバーを考案し、手動のAPI選択の必要性を否定する。

Despite the advancements of open-source large language models (LLMs) and their variants, e.g., LLaMA and Vicuna, they remain significantly limited in performing higher-level tasks, such as following human instructions to use external tools (APIs). This is because current instruction tuning largely focuses on basic language tasks instead of the tool-use domain. This is in contrast to state-of-the-art (SOTA) LLMs, e.g., ChatGPT, which have demonstrated excellent tool-use capabilities but are unfortunately closed source. To facilitate tool-use capabilities within open-source LLMs, we introduce ToolLLM, a general tool-use framework of data construction, model training and evaluation. We first present ToolBench, an instruction-tuning dataset for tool use, which is created automatically using ChatGPT. Specifically, we collect 16,464 real-world RESTful APIs spanning 49 categories from RapidAPI Hub, then prompt ChatGPT to generate diverse human instructions involving these APIs, covering both single-tool and multi-tool scenarios. Finally, we use ChatGPT to search for a valid solution path (chain of API calls) for each instruction. To make the searching process more efficient, we develop a novel depth-first search-based decision tree (DFSDT), enabling LLMs to evaluate multiple reasoning traces and expand the search space. We show that DFSDT significantly enhances the planning and reasoning capabilities of LLMs. For efficient tool-use assessment, we develop an automatic evaluator: ToolEval. We fine-tune LLaMA on ToolBench and obtain ToolLLaMA. Our ToolEval reveals that ToolLLaMA demonstrates a remarkable ability to execute complex instructions and generalize to unseen APIs, and exhibits comparable performance to ChatGPT. To make the pipeline more practical, we devise a neural API retriever to recommend appropriate APIs for each instruction, negating the need for manual API selection.
翻訳日:2023-08-01 13:42:05 公開日:2023-07-31
# AIバリューチェーンの倫理:AI倫理研究、実践、ガバナンスの統合と拡張のためのアプローチ

The Ethics of AI Value Chains: An Approach for Integrating and Expanding AI Ethics Research, Practice, and Governance ( http://arxiv.org/abs/2307.16787v1 )

ライセンス: Link先を確認
Blair Attard-Frost, David Gray Widder(参考訳) AI倫理の原則とプラクティスに対する最近の批判は、複数のアクター、コンテキスト、アクティビティのスケールにわたるAIシステムの設計、開発、使用、ガバナンスを考慮し、介入できるAI倫理に対する新しいアプローチの必要性を示している。 本稿では、AIの価値連鎖を、これらのニーズを満たす統合的概念として位置づけ、AI倫理研究者、実践者、政策立案者がAIシステムの倫理的および実践的影響をより包括的に見ることを可能にする。 戦略管理・サービス科学・経済地理学の文献から価値連鎖の理論的な視点を概観し、総合する。 次に、学術、産業、政策文献からAIバリューチェーンの視点をレビューする。 AIにおける倫理的関心事の目録をアクターに結び付け、AIバリューチェーンに関わるアクティビティをリソーシングして、バリューチェーン問題としてAI倫理問題にアプローチすることで、より包括的で統合的なリサーチとガバナンスのプラクティスが可能になることを実証します。 我々は、AIバリューチェーンに関連する倫理的懸念を調査し、介入する研究者、実践者、政策立案者に5つの今後の方向性を提案する。

Recent criticisms of AI ethics principles and practices have indicated a need for new approaches to AI ethics that can account for and intervene in the design, development, use, and governance of AI systems across multiple actors, contexts, and scales of activity. This paper positions AI value chains as an integrative concept that satisfies those needs, enabling AI ethics researchers, practitioners, and policymakers to take a more comprehensive view of the ethical and practical implications of AI systems. We review and synthesize theoretical perspectives on value chains from the literature on strategic management, service science, and economic geography. We then review perspectives on AI value chains from the academic, industry, and policy literature. We connect an inventory of ethical concerns in AI to the actors and resourcing activities involved in AI value chains to demonstrate that approaching AI ethics issues as value chain issues can enable more comprehensive and integrative research and governance practices. We illustrate this by suggesting five future directions for researchers, practitioners, and policymakers to investigate and intervene in the ethical concerns associated with AI value chains.
翻訳日:2023-08-01 13:41:30 公開日:2023-07-31
# 生成から抑制へ--夜間視認性向上のための不規則なグロー除去をめざして

From Generation to Suppression: Towards Effective Irregular Glow Removal for Nighttime Visibility Enhancement ( http://arxiv.org/abs/2307.16783v1 )

ライセンス: Link先を確認
Wanyu Wu, Wei Wang, Zheng Wang, Kui Jiang and Xin Xu(参考訳) 既存のLow-Light Image Enhancement (LLIE) 法は主に暗黒領域の明るさを改善するために設計されている。 しかし、これらの手法は、別の大きな視認性障害である実夜シーンでのグロー効果の探索を制限している。 グロー効果は人工光源の存在下では避けられず、直接強化するとさらに拡散したぼやけを引き起こす。 そこで本研究では,大気点拡散関数(atmosphere point spread function,apsf)に基づく多重散乱推定による物理グロー生成を学習するグロー抑制課題を革新的に検討する。 不均一光強度と様々な光源形状によって引き起こされる課題に対応するため、近距離光源(NIM-NLS)を用いたAPSFベースのナイトタイムイメージングモデルは、拡張性のある光対応ブラインドデコンボリューションネットワーク(LBDN)の設計に特化している。 次に、光抑制された結果をRetinexベースの拡張モジュール(REM)を介して明るくする。 顕著なことに、提案手法はゼロショット学習に基づいており、ペアやアンペアのトレーニングデータに依存しない。 発光抑制と低照度増強の両課題において,提案手法の有効性を実証した。

Most existing Low-Light Image Enhancement (LLIE) methods are primarily designed to improve brightness in dark regions, which suffer from severe degradation in nighttime images. However, these methods have limited exploration in another major visibility damage, the glow effects in real night scenes. Glow effects are inevitable in the presence of artificial light sources and cause further diffused blurring when directly enhanced. To settle this issue, we innovatively consider the glow suppression task as learning physical glow generation via multiple scattering estimation according to the Atmospheric Point Spread Function (APSF). In response to the challenges posed by uneven glow intensity and varying source shapes, an APSF-based Nighttime Imaging Model with Near-field Light Sources (NIM-NLS) is specifically derived to design a scalable Light-aware Blind Deconvolution Network (LBDN). The glow-suppressed result is then brightened via a Retinex-based Enhancement Module (REM). Remarkably, the proposed glow suppression method is based on zero-shot learning and does not rely on any paired or unpaired training data. Empirical evaluations demonstrate the effectiveness of the proposed method in both glow suppression and low-light enhancement tasks.
翻訳日:2023-08-01 13:41:10 公開日:2023-07-31
# 量子コンピュータにおけるYang-Baxterゲートの最適実現

Optimal realization of Yang-Baxter gate on quantum computer ( http://arxiv.org/abs/2307.16781v1 )

ライセンス: Link先を確認
Kun Zhang, Kwangmin Yu, Kun Hao, Vladimir Korepin(参考訳) 量子コンピュータ上でのYang-Baxterゲートの最適実現法について検討する。 2種類のヤンバクスターゲートを考える。 一つは、トポロジカルな絡み合いの研究からである。 もう1つは量子積分回路からのものである。 最小数のcnotまたは$r_{zz}$ゲートを持つyang-baxterゲートの最適実現について述べる。 また、ヤンバクスターゲートのパルス実現についても検討する。 我々は、IBM量子コンピュータ上で異なる実現法をテストし比較する。 ヤン・バクスターゲートのパルス実現は常に最適なCNOTや$R_{zz}$実現よりも高いゲート忠実度を持つ。 上記の最適実現に基づいて,yang-baxter方程式の量子コンピュータ上でのシミュレーションを実証する。 この結果は,ヤン・バクスターゲートに基づくさらなる実験研究の指針となる。

We study how to optimally realize the Yang-Baxter gates on quantum computers. We consider two types of Yang-Baxter gates. One is from the study of the topological entanglement. The other is from the quantum integrable circuit. We present the optimal realizations of Yang-Baxter gates with the minimal number of CNOT or $R_{zz}$ gates. We also study the pulse realizations of Yang-Baxter gates. We test and compare the different realizations on IBM quantum computers. We find that the pulse realizations of Yang-Baxter gates always have higher gate fidelity compared to the optimal CNOT or $R_{zz}$ realizations. Based on the above optimal realizations, we demonstrate the simulation of Yang-Baxter equation on quantum computers. Our results provide a guideline for further experimental study based on the Yang-Baxter gate.
翻訳日:2023-08-01 13:40:48 公開日:2023-07-31
# 論理的論証に応用したランキングに基づく論証意味論(全編)

Ranking-based Argumentation Semantics Applied to Logical Argumentation (full version) ( http://arxiv.org/abs/2307.16780v1 )

ライセンス: Link先を確認
Jesse Heyninck and Badran Raddaoui and Christian Stra{\ss}er(参考訳) 形式的議論では、引数の集合が(共同で)受け入れられるか否かという拡張ベースの意味論と、アクセシビリティのグレードが引数に割り当てられるランクベースの意味論とを区別することができる。 もう一つの重要な区別は、議論の内容から抽象化される抽象的なアプローチと、知識ベースに基づいて議論グラフを構築する方法を指定する構造化アプローチである。 ランキングベースのセマンティクスは抽象的議論に広く応用されているが、構造化議論のためのランキングベースのセマンティクスについてはほとんど研究されていない。 本稿では,既存の定式化に適用される階層的意味論の振る舞いを体系的に検討する。 階層的意味論の幅広いクラスは、いわゆるカルポラブル測度を生じさせ、議論構成法における特定の選択に対して比較的頑健であることを示す。

In formal argumentation, a distinction can be made between extension-based semantics, where sets of arguments are either (jointly) accepted or not, and ranking-based semantics, where grades of acceptability are assigned to arguments. Another important distinction is that between abstract approaches, that abstract away from the content of arguments, and structured approaches, that specify a method of constructing argument graphs on the basis of a knowledge base. While ranking-based semantics have been extensively applied to abstract argumentation, few work has been done on ranking-based semantics for structured argumentation. In this paper, we make a systematic investigation into the behaviour of ranking-based semantics applied to existing formalisms for structured argumentation. We show that a wide class of ranking-based semantics gives rise to so-called culpability measures, and are relatively robust to specific choices in argument construction methods.
翻訳日:2023-08-01 13:40:38 公開日:2023-07-31
# レキシカル・アクセラレーションドセンス検索

Lexically-Accelerated Dense Retrieval ( http://arxiv.org/abs/2307.16779v1 )

ライセンス: Link先を確認
Hrishikesh Kulkarni, Sean MacAvaney, Nazli Goharian, Ophir Frieder(参考訳) 語彙信号(従来の検索)ではなく、学習された高密度ベクトル(すなわち、高密度検索)に基づいて文書をスコアする検索手法が普及している。 ユーザのクエリに現れるものと同じ用語を必ずしも含まない関連ドキュメントを識別する能力(リコールを改善することによって)は、彼らの重要なメリットの1つだ。 しかし,これらを実際に実現するためには,高密度検索手法は一般的に文書コレクションを網羅的に検索する必要があるため,従来の語彙的手法よりもクエリ時の方がはるかに高価である。 完全高密度レトリバーの結果を近似することにより,この計算オーバーヘッドを削減する手法がいくつかある。 これらのアプローチは、トップの結果を合理的に近似するが、リコールの観点で苦しむ ― 密検索の重要な利点の1つだ。 本稿では, 検索効率を損なうことなく, 既存の高密度検索モデルの効率を向上する, 簡便な手法である 'LADR' (Lexically-Accelerated Dense Retrieval) を紹介する。 LADRは語彙検索技術を用いて文書近接グラフを用いた密度の高い探索を行う。 LADRの2つの変種を探索空間をすべてのシード文書の隣人に拡張する積極的アプローチと、文書を反復的に最も高い関連性で選択的に検索する適応的アプローチを探索する。 様々な密集検索モデルにわたる広範囲な実験により、LADRは近近近距離技術の中で新しい密集検索効率-効率のパレートフロンティアを確立する。 さらに、ハードウェア上での検索遅延でクエリ毎に約8msをチューニングすると、LADRは標準ベンチマークの徹底的な検索に匹敵する精度とリコールの両方を一貫して達成する。

Retrieval approaches that score documents based on learned dense vectors (i.e., dense retrieval) rather than lexical signals (i.e., conventional retrieval) are increasingly popular. Their ability to identify related documents that do not necessarily contain the same terms as those appearing in the user's query (thereby improving recall) is one of their key advantages. However, to actually achieve these gains, dense retrieval approaches typically require an exhaustive search over the document collection, making them considerably more expensive at query-time than conventional lexical approaches. Several techniques aim to reduce this computational overhead by approximating the results of a full dense retriever. Although these approaches reasonably approximate the top results, they suffer in terms of recall -- one of the key advantages of dense retrieval. We introduce 'LADR' (Lexically-Accelerated Dense Retrieval), a simple-yet-effective approach that improves the efficiency of existing dense retrieval models without compromising on retrieval effectiveness. LADR uses lexical retrieval techniques to seed a dense retrieval exploration that uses a document proximity graph. We explore two variants of LADR: a proactive approach that expands the search space to the neighbors of all seed documents, and an adaptive approach that selectively searches the documents with the highest estimated relevance in an iterative fashion. Through extensive experiments across a variety of dense retrieval models, we find that LADR establishes a new dense retrieval effectiveness-efficiency Pareto frontier among approximate k nearest neighbor techniques. Further, we find that when tuned to take around 8ms per query in retrieval latency on our hardware, LADR consistently achieves both precision and recall that are on par with an exhaustive search on standard benchmarks.
翻訳日:2023-08-01 13:40:20 公開日:2023-07-31
# kobbq:韓国の質問に対するバイアスベンチマーク

KoBBQ: Korean Bias Benchmark for Question Answering ( http://arxiv.org/abs/2307.16778v1 )

ライセンス: Link先を確認
Jiho Jin, Jiseon Kim, Nayeon Lee, Haneul Yoo, Alice Oh, Hwaran Lee(参考訳) BBQ(Bias Benchmark for Question Answering)データセットは、下流タスクで言語モデル(LM)が示す社会的バイアスの評価を可能にする。 しかし、社会的バイアスが文化的に依存しているため、BBQを英語以外の言語に適応させることは困難である。 本稿では,韓国語における質問回答(QA)タスクにおけるバイアスを評価するために,英語BBQデータセットを文化的適応的な方法で活用し,非英語バイアスベンチマークデータセットを構築する方法を考案する。 bbqから採取したサンプルを, 単純翻訳(文化翻訳後に直接使用できる), ターゲット修飾(ターゲットグループでのローカライズが必要), サンプル除去(韓国文化に適合しない)の3類に分類した。 さらに,韓国文化に特有のバイアスのカテゴリーを4つ追加し,韓国文学に基づくサンプルを新たに作成することで,韓国文化の文化的関連性をさらに高める。 KoBBQは、12のカテゴリーで246のテンプレートと4,740のサンプルで構成されている。 KoBBQを用いて,複数の最先端多言語LMの精度とバイアススコアを測定した。 韓国語と英語におけるlmsのバイアスの違いを実証し,文化差を考慮した手作りデータの必要性を明らかにする。

The BBQ (Bias Benchmark for Question Answering) dataset enables the evaluation of the social biases that language models (LMs) exhibit in downstream tasks. However, it is challenging to adapt BBQ to languages other than English as social biases are culturally dependent. In this paper, we devise a process to construct a non-English bias benchmark dataset by leveraging the English BBQ dataset in a culturally adaptive way and present the KoBBQ dataset for evaluating biases in Question Answering (QA) tasks in Korean. We identify samples from BBQ into three classes: Simply-Translated (can be used directly after cultural translation), Target-Modified (requires localization in target groups), and Sample-Removed (does not fit Korean culture). We further enhance the cultural relevance to Korean culture by adding four new categories of bias specific to Korean culture and newly creating samples based on Korean literature. KoBBQ consists of 246 templates and 4,740 samples across 12 categories of social bias. Using KoBBQ, we measure the accuracy and bias scores of several state-of-the-art multilingual LMs. We demonstrate the differences in the bias of LMs in Korean and English, clarifying the need for hand-crafted data considering cultural differences.
翻訳日:2023-08-01 13:39:51 公開日:2023-07-31
# AsdKB: 自閉症スペクトラム障害の早期スクリーニングと診断のための中国語知識ベース

AsdKB: A Chinese Knowledge Base for the Early Screening and Diagnosis of Autism Spectrum Disorder ( http://arxiv.org/abs/2307.16773v1 )

ライセンス: Link先を確認
Tianxing Wu, Xudong Cao, Yipeng Zhu, Feiyue Wu, Tianling Gong, Yuxiang Wang, Shenqi Jing(参考訳) 自閉症スペクトラム障害に関する知識を手軽に取得し,早期スクリーニングと診断を支援するために,中国における自閉症スペクトラム障害の知識基盤であるAsdKBを開発した。 知識基盤はさまざまなソース上に構築されている。 1)精神・行動障害に関するSNOMED CTとICD-10の臨床所見からの疾患知識 2)dsm-5の診断知識と社会組織や医療機関が推奨する異なるスクリーニングツール 3) Web の専門医や病院に関する専門知識。 AsdKBはオントロジと事実の両方の知識を持ち、https://w3id.org/asdkb/でLinked Dataとしてアクセス可能である。 asdkbの潜在的な用途は質問応答、補助診断、エキスパートレコメンデーションであり、http://asdkb.org.cn/でアクセス可能なプロトタイプを用いてそれらを説明する。

To easily obtain the knowledge about autism spectrum disorder and help its early screening and diagnosis, we create AsdKB, a Chinese knowledge base on autism spectrum disorder. The knowledge base is built on top of various sources, including 1) the disease knowledge from SNOMED CT and ICD-10 clinical descriptions on mental and behavioural disorders, 2) the diagnostic knowledge from DSM-5 and different screening tools recommended by social organizations and medical institutes, and 3) the expert knowledge on professional physicians and hospitals from the Web. AsdKB contains both ontological and factual knowledge, and is accessible as Linked Data at https://w3id.org/asdkb/. The potential applications of AsdKB are question answering, auxiliary diagnosis, and expert recommendation, and we illustrate them with a prototype which can be accessed at http://asdkb.org.cn/.
翻訳日:2023-08-01 13:39:29 公開日:2023-07-31
# 軽量超解像ヘッドによる人体電位推定

Lightweight Super-Resolution Head for Human Pose Estimation ( http://arxiv.org/abs/2307.16765v1 )

ライセンス: Link先を確認
Haonan Wang, Jie Liu, Jie Tang, Gangshan Wu(参考訳) ヒートマップに基づく手法がその優れた性能のためにポーズ推定の主流となっている。 しかしながら、ヒートマップベースのアプローチは、ダウンスケールヒートマップでかなりの量子化誤差を被り、結果として性能が低下し、中間監督による有害な影響が生じる。 以前のヒートマップベースの手法は、量子化エラーを軽減するために追加の後処理に大きく依存していた。 ヒートマップに基づくいくつかのアプローチは、複数のコストのかかるアップサンプリング層を使用して、ローカライズ精度を向上させることで特徴マップの解像度を改善する。 以上の課題を解決するため,バックボーンネットワークを劣化過程と捉え,熱マップ予測を超解法(SR)タスクとして再構成する。 まず,入力特徴写像よりも空間分解能の高いヒートマップ(あるいは入力画像との整合性)を超解法で予測し,量子化誤差とさらなる後処理への依存性を効果的に低減するSRヘッドを提案する。 さらに, HRヒートマップをLRヒートマップから徐々に復元するSRPoseを提案し, 粗大な粒度化を図った。 HRヒートマップのトレーニングの難しさを軽減するため、SRPoseはSRヘッドを適用して各ステージの中間的な特徴を監督する。 加えて、SRヘッドは軽量で汎用的なヘッドであり、トップダウンおよびボトムアップメソッドに適用できる。 COCO、MPII、CrowdPoseデータセットに関する大規模な実験は、SRPoseが対応するヒートマップベースのアプローチよりも優れていることを示している。 コードとモデルはhttps://github.com/haonanwang0522/srposeで入手できる。

Heatmap-based methods have become the mainstream method for pose estimation due to their superior performance. However, heatmap-based approaches suffer from significant quantization errors with downscale heatmaps, which result in limited performance and the detrimental effects of intermediate supervision. Previous heatmap-based methods relied heavily on additional post-processing to mitigate quantization errors. Some heatmap-based approaches improve the resolution of feature maps by using multiple costly upsampling layers to improve localization precision. To solve the above issues, we creatively view the backbone network as a degradation process and thus reformulate the heatmap prediction as a Super-Resolution (SR) task. We first propose the SR head, which predicts heatmaps with a spatial resolution higher than the input feature maps (or even consistent with the input image) by super-resolution, to effectively reduce the quantization error and the dependence on further post-processing. Besides, we propose SRPose to gradually recover the HR heatmaps from LR heatmaps and degraded features in a coarse-to-fine manner. To reduce the training difficulty of HR heatmaps, SRPose applies SR heads to supervise the intermediate features in each stage. In addition, the SR head is a lightweight and generic head that applies to top-down and bottom-up methods. Extensive experiments on the COCO, MPII, and CrowdPose datasets show that SRPose outperforms the corresponding heatmap-based approaches. The code and models are available at https://github.com/haonanwang0522/SRPose.
翻訳日:2023-08-01 13:39:14 公開日:2023-07-31
# テキスト検索における敵対的ランキング攻撃の防御 : ベンチマークと検出ベースライン

Defense of Adversarial Ranking Attack in Text Retrieval: Benchmark and Baseline via Detection ( http://arxiv.org/abs/2307.16816v1 )

ライセンス: Link先を確認
Xuanang Chen, Ben He, Le Sun, Yingfei Sun(参考訳) ニューラルランキングモデル(NRM)は、情報検索(IR)システムにおいて重要な発展を遂げている。 残念なことに、最近の研究では、悪意ある検索エンジン最適化実践者によって悪用される可能性のある、敵対的な文書操作に対するNRMの脆弱性が明らかにされている。 敵意攻撃戦略の進展は、展開前にnrmの潜在的な弱点を特定するのに役立つが、敵意文書の検出のような攻撃に対する防御策は不十分なままである。 このギャップを緩和するため,本論文では,敵のランキング防御に関する調査を容易にするベンチマークデータセットを構築し,敵の文書に対する2種類の検出タスクを導入する。 複数の検出基準の性能に関する包括的調査を行い, スパム性, パープレキシティ, 言語受容性, 教師付き分類器の活用について検討した。 実験の結果、教師付き分類器は既知の攻撃を効果的に軽減できるが、見当たらない攻撃に対してうまく機能しないことが示された。 さらにそのような分類器は、関連文書の非推奨廃棄につながる可能性があるため、関連性に関する分類を学習するためにクエリテキストを使用するべきではない。

Neural ranking models (NRMs) have undergone significant development and have become integral components of information retrieval (IR) systems. Unfortunately, recent research has unveiled the vulnerability of NRMs to adversarial document manipulations, potentially exploited by malicious search engine optimization practitioners. While progress in adversarial attack strategies aids in identifying the potential weaknesses of NRMs before their deployment, the defensive measures against such attacks, like the detection of adversarial documents, remain inadequately explored. To mitigate this gap, this paper establishes a benchmark dataset to facilitate the investigation of adversarial ranking defense and introduces two types of detection tasks for adversarial documents. A comprehensive investigation of the performance of several detection baselines is conducted, which involve examining the spamicity, perplexity, and linguistic acceptability, and utilizing supervised classifiers. Experimental results demonstrate that a supervised classifier can effectively mitigate known attacks, but it performs poorly against unseen attacks. Furthermore, such classifier should avoid using query text to prevent learning the classification on relevance, as it might lead to the inadvertent discarding of relevant documents.
翻訳日:2023-08-01 13:33:24 公開日:2023-07-31
# 非参照映像品質評価のためのユーザ生成コンテンツの共存歪みのキャプチャ

Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality Assessment ( http://arxiv.org/abs/2307.16813v1 )

ライセンス: Link先を確認
Kun Yuan, Zishang Kong, Chuanchuan Zheng, Ming Sun, Xing Wen(参考訳) ビデオの品質評価(VQA)は、ビデオの知覚品質を予測することを目的としており、Facebook、TikTok、Kwaiなどのストリーミングメディア技術の急速な発展によって注目を集めている。 他のシーケンスベースの視覚タスク(\textit{e.g.} アクション認識)と比較すると、VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。 \textit{first} では、深刻な歪みを含む複数のフレーム(\textit{e}blocking, blurriness)がビデオ全体の知覚的品質を決定することは珍しくなく、他のシーケンスベースのタスクでは表現に等しく重要なフレームを必要とする。 ビデオの知覚的品質である \textit{second} は、様々な歪みの持続時間と発生確率が異なるため、多変量分布を示す。 上記の課題を解決するために,品質関連スパース機能をより効率的に抽出するために,textit{Visual Quality Transformer (VQT)を提案する。 理論的には、フレーム間の時間的相関を解析することにより、鍵フレームをサンプリングするためにスパース時間注意(STA)を提案し、計算複雑性を$O(T^2)$から$O(T \log T)$に下げる。 構造的には、MPTN(Multi-Pathway Temporal Network)は複数のSTAモジュールを並列に使用し、ビデオ内の既存の歪みをキャプチャする。 実験的に、VQTは3つのパブリックなno-reference VQAデータセットにおいて、多くのtextit{state-of-the-art}メソッドよりも優れたパフォーマンスを示す。 さらに、VQTは、広く採用されている産業用アルゴリズム(VMAFとAVQT)に対して、4つの完全な参照VQAデータセットでより良いパフォーマンスを示す。

Video Quality Assessment (VQA), which aims to predict the perceptual quality of a video, has attracted raising attention with the rapid development of streaming media technology, such as Facebook, TikTok, Kwai, and so on. Compared with other sequence-based visual tasks (\textit{e.g.,} action recognition), VQA faces two under-estimated challenges unresolved in User Generated Content (UGC) videos. \textit{First}, it is not rare that several frames containing serious distortions (\textit{e.g.,}blocking, blurriness), can determine the perceptual quality of the whole video, while other sequence-based tasks require more frames of equal importance for representations. \textit{Second}, the perceptual quality of a video exhibits a multi-distortion distribution, due to the differences in the duration and probability of occurrence for various distortions. In order to solve the above challenges, we propose \textit{Visual Quality Transformer (VQT)} to extract quality-related sparse features more efficiently. Methodologically, a Sparse Temporal Attention (STA) is proposed to sample keyframes by analyzing the temporal correlation between frames, which reduces the computational complexity from $O(T^2)$ to $O(T \log T)$. Structurally, a Multi-Pathway Temporal Network (MPTN) utilizes multiple STA modules with different degrees of sparsity in parallel, capturing co-existing distortions in a video. Experimentally, VQT demonstrates superior performance than many \textit{state-of-the-art} methods in three public no-reference VQA datasets. Furthermore, VQT shows better performance in four full-reference VQA datasets against widely-adopted industrial algorithms (\textit{i.e.,} VMAF and AVQT).
翻訳日:2023-08-01 13:33:04 公開日:2023-07-31
# DoDo学習: パブリックな図形をターゲットとした乱用検出のための言語モデルにおけるDomain-Demographic Transfer

DoDo Learning: DOmain-DemOgraphic Transfer in Language Models for Detecting Abuse Targeted at Public Figures ( http://arxiv.org/abs/2307.16811v1 )

ライセンス: Link先を確認
Hannah Rose Kirk, Angus R. Williams, Liam Burke, Yi-Ling Chung, Ivan Debono, Pica Johansson, Francesca Stevens, Jonathan Bright, and Scott A. Hale(参考訳) 市民はソーシャルメディア上で乱暴な乱用を受け、公共生活への積極的な参加に影響を及ぼす。 自動システムは大規模な乱用を識別できるが、トレーニングデータのラベル付けは高価で複雑で潜在的に有害である。 したがって、システムは効率的で汎用的であり、オンライン虐待の共有と特定の側面の両方を扱うことが望ましい。 我々は,より一般化可能な乱用分類器の構築を目的として,あるドメインや人口階層で訓練された分類器が他へどのように移行できるかを理解するために,グループ間テキスト分類のダイナミクスを探求する。 28,000のラベル付きエントリを含む新しいDODOデータセットを使用して、DOmains(スポーツと政治)とDemOgraphics(女性と男性)のパブリックな人物を対象にしたつぶやきを分類する言語モデルを微調整する。 私たちはそれを見つけ (i)少量の多様なデータは、一般化及びモデル適応に非常に有益である。 (ii)モデルは人口統計学的に容易に伝達できるが、ドメイン間データに基づいて訓練されたモデルはより一般化できる。 (iii)あるグループは、他のグループよりも汎用性に寄与する。 (iv)データセットの類似性は転送可能性の信号である。

Public figures receive a disproportionate amount of abuse on social media, impacting their active participation in public life. Automated systems can identify abuse at scale but labelling training data is expensive, complex and potentially harmful. So, it is desirable that systems are efficient and generalisable, handling both shared and specific aspects of online abuse. We explore the dynamics of cross-group text classification in order to understand how well classifiers trained on one domain or demographic can transfer to others, with a view to building more generalisable abuse classifiers. We fine-tune language models to classify tweets targeted at public figures across DOmains (sport and politics) and DemOgraphics (women and men) using our novel DODO dataset, containing 28,000 labelled entries, split equally across four domain-demographic pairs. We find that (i) small amounts of diverse data are hugely beneficial to generalisation and model adaptation; (ii) models transfer more easily across demographics but models trained on cross-domain data are more generalisable; (iii) some groups contribute more to generalisability than others; and (iv) dataset similarity is a signal of transferability.
翻訳日:2023-08-01 13:32:31 公開日:2023-07-31
# 命題充足可能性問題を解決するために設計されたホップフィールドネットワークにおける連想メモリの利用について

On the use of associative memory in Hopfield networks designed to solve propositional satisfiability problems ( http://arxiv.org/abs/2307.16807v1 )

ライセンス: Link先を確認
Natalya Weber, Werner Koch, Ozan Erdem, Tom Froese(参考訳) ホップフィールドネットワークは生物学的に妥当なメカニズムを提供するため、多くの種類の計算問題を解決する上で魅力的な選択である。 自己最適化(SO)モデルは、生物学的に確立されたヘビアン学習規則と任意の初期状態への繰り返しのネットワークリセットを組み合わせることでホップフィールドネットワークに追加し、ネットワークに符号化された望ましい目標状態に対する自身の振る舞いを最適化する。 このプロセスをよりよく理解するために、まず、Lears問題とマップカラー化問題の2つの例を用いて、SAT形式の具体的組合せ問題をSOモデルで解くことを実証する。 さらに、ある条件下では、重要な情報が永久に失われる可能性を示し、学習したネットワークは、解決すべき課題に実際に不適当であるように見える最適解を生成する。 SOモデルの望ましくない副作用のように見えるものは、難解な問題を解決するためのプロセスに関する洞察を与えることができる。

Hopfield networks are an attractive choice for solving many types of computational problems because they provide a biologically plausible mechanism. The Self-Optimization (SO) model adds to the Hopfield network by using a biologically founded Hebbian learning rule, in combination with repeated network resets to arbitrary initial states, for optimizing its own behavior towards some desirable goal state encoded in the network. In order to better understand that process, we demonstrate first that the SO model can solve concrete combinatorial problems in SAT form, using two examples of the Liars problem and the map coloring problem. In addition, we show how under some conditions critical information might get lost forever with the learned network producing seemingly optimal solutions that are in fact inappropriate for the problem it was tasked to solve. What appears to be an undesirable side-effect of the SO model, can provide insight into its process for solving intractable problems.
翻訳日:2023-08-01 13:32:10 公開日:2023-07-31
# 擬エルミート量子場論におけるPoincar\'{e}対称性と表現

Poincar\'{e} symmetries and representations in pseudo-Hermitian quantum field theory ( http://arxiv.org/abs/2307.16805v1 )

ライセンス: Link先を確認
Esra Sablevice, Peter Millington(参考訳) 本論文は、pt対称ハミルトニアンが特別な場合として機能する擬エルミート・ハミルトニアンによる場の量子論を考察する。 特定のレギュレーションでは、これらの擬エルミート・ハミルトニアンは真の固有スペクトル、直交固有状態、ユニタリ時間進化を持つ。 これまでのところ、ほとんどの擬エルミート量子場理論は解析的継続あるいは非エルミート項をエルミート的ハミルトニアンに追加することによって構成されている。 しかし、本稿では別のアプローチをとっています。 擬エルミートスカラーおよびフェルミオン量子場理論を第一原理から構築し、ポアンカーエ代数を非エルミート生成元を含むように拡張する。 これにより、ラグランジアン密度が適切なポアンカルユ群の下で適切に変換され、一貫した擬エルミート量子場理論を開発することができる。 これにより、非エルミート量子場理論の出現する分野のより確かな理論基盤を確立する。

This paper explores quantum field theories with pseudo-Hermitian Hamiltonians, where PT-symmetric Hamiltonians serve as a special case. In specific regimes, these pseudo-Hermitian Hamiltonians have real eigenspectra, orthogonal eigenstates, and unitary time evolution. So far, most pseudo-Hermitian quantum field theories have been constructed using analytic continuation or by adding non-Hermitian terms to otherwise Hermitian Hamiltonians. However, in this paper, we take a different approach. We construct pseudo-Hermitian scalar and fermionic quantum field theories from first principles, by extending the Poincar\'e algebra to include non-Hermitian generators. This allows us to develop consistent pseudo-Hermitian quantum field theories, with Lagrangian densities transforming appropriately under the proper Poincar\'e group. By doing so, we establish a more solid theoretical foundation for the emerging field of non-Hermitian quantum field theory.
翻訳日:2023-08-01 13:31:32 公開日:2023-07-31
# dpmix: 4dアクションセグメンテーションのための深度とポイントクラウドの混合ビデオエキスパート

DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action Segmentation ( http://arxiv.org/abs/2307.16803v1 )

ライセンス: Link先を確認
Yue Zhang and Hehe Fan and Yi Yang and Mohan Kankanhalli(参考訳) 本稿では,自己中心型アクションセグメンテーションタスクのためのHuman-Object Interaction 4D(HOI4D)データセットの研究結果について報告する。 比較的新しい研究分野として、ポイントクラウドビデオ法は、特にロングポイントクラウドビデオ(150フレーム)では、時間的モデリングに向いていないかもしれない。 対照的に、従来のビデオ理解手法はよく開発されている。 時間的モデリングにおけるその効果は、多くの大規模ビデオデータセットで広く検証されている。 そこで我々は,ポイントクラウド映像を深度ビデオに変換し,従来のビデオモデリング手法を用いて4次元アクションセグメンテーションを改善する。 深度とポイントクラウドビデオメソッドをセンシングすることで、精度が大幅に向上した。 提案手法はMixture of Depth and Point cloud video experts (DPMix) と名付けられ,HOI4D Challenge 2023の4Dアクションセグメンテーショントラックで1位を獲得した。

In this technical report, we present our findings from the research conducted on the Human-Object Interaction 4D (HOI4D) dataset for egocentric action segmentation task. As a relatively novel research area, point cloud video methods might not be good at temporal modeling, especially for long point cloud videos (\eg, 150 frames). In contrast, traditional video understanding methods have been well developed. Their effectiveness on temporal modeling has been widely verified on many large scale video datasets. Therefore, we convert point cloud videos into depth videos and employ traditional video modeling methods to improve 4D action segmentation. By ensembling depth and point cloud video methods, the accuracy is significantly improved. The proposed method, named Mixture of Depth and Point cloud video experts (DPMix), achieved the first place in the 4D Action Segmentation Track of the HOI4D Challenge 2023.
翻訳日:2023-08-01 13:31:14 公開日:2023-07-31
# 業務に敏感な量子要求に対する信頼できない量子クラウドコンピューティングマシン上での量子プログラム実行におけるプライバシ

Toward Privacy in Quantum Program Execution On Untrusted Quantum Cloud Computing Machines for Business-sensitive Quantum Needs ( http://arxiv.org/abs/2307.16799v1 )

ライセンス: Link先を確認
Tirthak Patel, Daniel Silver, Aditya Ranjan, Harshitta Gandhi, William Cutler, and Devesh Tiwari(参考訳) 量子コンピューティングは、大規模科学、最適化、機械学習のワークロードを加速する上で、大きな約束を示す新興パラダイムである。 ほとんどの量子コンピューティングソリューションがクラウド上で提供されているため、秘密でプロプライエタリな量子コードに信頼できないエージェントや敵エージェントがアクセスすることを防ぐことが義務づけられている。 この課題に対して,我々は,クラウド上の機密情報の漏洩を防止するために,量子コードと出力を難読化する最初のソリューションであるSPYCEを提案する。 SPYCEは、このタスクを達成するための量子コンピューティングのユニークな原理に基づいて、軽量でスケーラブルで効果的なソリューションを実装している。

Quantum computing is an emerging paradigm that has shown great promise in accelerating large-scale scientific, optimization, and machine-learning workloads. With most quantum computing solutions being offered over the cloud, it has become imperative to protect confidential and proprietary quantum code from being accessed by untrusted and/or adversarial agents. In response to this challenge, we propose SPYCE, which is the first known solution to obfuscate quantum code and output to prevent the leaking of any confidential information over the cloud. SPYCE implements a lightweight, scalable, and effective solution based on the unique principles of quantum computing to achieve this task.
翻訳日:2023-08-01 13:30:59 公開日:2023-07-31
# NL-Bashセマンティックパーザにおける構造伝達学習

Structural Transfer Learning in NL-to-Bash Semantic Parsers ( http://arxiv.org/abs/2307.16795v1 )

ライセンス: Link先を確認
Kyle Duffy, Satwik Bhattamishra, Phil Blunsom(参考訳) 大規模事前学習は自然言語処理の多くの分野で進歩しているが、事前学習データセットの設計についてはほとんど理解されていない。 本稿では,機械翻訳タスク間の構造重なりを定量的に理解する手法を提案する。 この手法を自然言語に適用してbashセマンティック解析タスク(nlbash)を行い,語彙的アライメントにほぼ還元可能であることを示した。 また、NLBashとSQLへの自然言語の間には、強い構造的な重複があることもわかりました。 さらに、英語からドイツ語への機械翻訳タスクにおいて、事前学習中に出力される計算量と、NLBashへのより強い転送を伴う意味表現とが一致しないことを示す。

Large-scale pre-training has made progress in many fields of natural language processing, though little is understood about the design of pre-training datasets. We propose a methodology for obtaining a quantitative understanding of structural overlap between machine translation tasks. We apply our methodology to the natural language to Bash semantic parsing task (NLBash) and show that it is largely reducible to lexical alignment. We also find that there is strong structural overlap between NLBash and natural language to SQL. Additionally, we perform a study varying compute expended during pre-training on the English to German machine translation task and find that more compute expended during pre-training does not always correspond semantic representations with stronger transfer to NLBash.
翻訳日:2023-08-01 13:30:46 公開日:2023-07-31
# ディープニューラルネットワークを用いた分類とロジスティック損失

Classification with Deep Neural Networks and Logistic Loss ( http://arxiv.org/abs/2307.16792v1 )

ライセンス: Link先を確認
Zihan Zhang, Lei Shi, Ding-Xuan Zhou(参考訳) 深いニューラルネットワーク(DNN)はロジスティック損失(クロスエントロピー損失)で訓練され、様々なバイナリ分類タスクにおいて顕著な進歩を遂げた。 しかし,dnnとロジスティック損失を用いた二進分類の一般化解析は少ない。 ロジスティック損失に対する対象関数の非有界性は、満足な一般化境界を導出する主な障害である。 本稿では,新規でエレガントなオラクル型不等式を確立することにより,対象関数の有界性制限に対処し,ロジスティック損失を学習したReLU DNN分類器の急激な収束率を導出することで,このギャップを埋めることを目的とする。 特に、最適収束率(対数因子まで)は条件付きクラス確率$\eta$のデータで H より古い滑らかさを必要とするだけである。 さらに、$\eta$を、各成分関数が最大値関数またはH\older滑らか関数のいずれかであるいくつかのベクトル値関数の合成に要求する構成的仮定を、少数の入力変数にのみ依存する。 この仮定の下では、データの入力次元に依存しない最適収束率(ログ係数まで)を導出する。 この結果は、DNN分類器が実用的な高次元分類問題でうまく機能する理由を説明する。 新たなオラクル型不等式に加えて、本論文で示した鋭い収束率は、relu dnns による自然対数関数の零付近(非有界)への近似に対する厳密な誤差にも負う。 さらに、対応するミニマックス下限を証明し、レートの最適性についての主張を正当化する。 これらの結果はすべて文献に新しいものであり、DNNによる分類に関する理論的理解を深めるでしょう。

Deep neural networks (DNNs) trained with the logistic loss (i.e., the cross entropy loss) have made impressive advancements in various binary classification tasks. However, generalization analysis for binary classification with DNNs and logistic loss remains scarce. The unboundedness of the target function for the logistic loss is the main obstacle to deriving satisfying generalization bounds. In this paper, we aim to fill this gap by establishing a novel and elegant oracle-type inequality, which enables us to deal with the boundedness restriction of the target function, and using it to derive sharp convergence rates for fully connected ReLU DNN classifiers trained with logistic loss. In particular, we obtain optimal convergence rates (up to log factors) only requiring the H\"older smoothness of the conditional class probability $\eta$ of data. Moreover, we consider a compositional assumption that requires $\eta$ to be the composition of several vector-valued functions of which each component function is either a maximum value function or a H\"older smooth function only depending on a small number of its input variables. Under this assumption, we derive optimal convergence rates (up to log factors) which are independent of the input dimension of data. This result explains why DNN classifiers can perform well in practical high-dimensional classification problems. Besides the novel oracle-type inequality, the sharp convergence rates given in our paper also owe to a tight error bound for approximating the natural logarithm function near zero (where it is unbounded) by ReLU DNNs. In addition, we justify our claims for the optimality of rates by proving corresponding minimax lower bounds. All these results are new in the literature and will deepen our theoretical understanding of classification with DNNs.
翻訳日:2023-08-01 13:30:32 公開日:2023-07-31
# 量子電池からの補助支援確率エネルギー抽出

Auxiliary-assisted stochastic energy extraction from quantum batteries ( http://arxiv.org/abs/2307.16856v1 )

ライセンス: Link先を確認
Paranjoy Chaki, Aparajita Bhattacharyya, Kornikar Sen, Ujjwal Sen(参考訳) 本稿では,補助システム上での射影測定に基づく量子電池からエネルギーを統計的に抽出するアイデアについて議論する。 バッテリーは当初補助システムに接続され、一元的に進化できる。 しばらくすると、補助システム上で測定を行い、特定の結果を選択する。 その後、補助装置がシステムから追跡され、バッテリーの関連する状態が最終状態となる。 我々は, 初期状態と最終状態のエネルギー差の積を, 最終状態に還元される測定結果を得る確率で検討する。 この量の最大値を確率的に抽出可能なエネルギーと定義する。 自己を特定の非可算状態に制限すると、最初の補助バッテリ状態が生成物であっても、確率的に抽出可能なエネルギーは常にバッテリから抽出できる最大エネルギーよりも高いことが分かる。 電池と補助装置の間に最初に存在する非ゼロの絡み合いは、製品の初期状態よりもさらに高い確率的エネルギー抽出を誘導できることを示した。 さらに、すべての積初期状態に対して、確率的に抽出可能なエネルギーがゼロである状態の集合が決定され、基底状態である1つの状態のみからなることが判明する。

We discuss the idea of extracting energy stochastically from a quantum battery, which is based on performing a projective measurement on an auxiliary system. The battery is initially connected to the auxiliary system and allowed to evolve unitarily. After some time, we execute a measurement on the auxiliary system and choose a particular outcome. The auxiliary is then traced out of the system, and the relevant state of the battery is the final state. We consider the product of the energy difference between the initial and final states with the probability of getting the measurement outcome that reduces to that final state. We define the maximum value of this quantity as the stochastically extractable energy. Restricting ourselves to a particular uncountable set of states, we find that stochastically extractable energy is always higher than the maximum energy that can be extracted from the battery by applying unitary operations, even if the initial auxiliary-battery state is a product. We show that a non-zero entanglement present initially between the battery and the auxiliary can induce an even higher amount of stochastic energy extraction than that for product initial states. Further, the set of states for which stochastically extractable energy is zero is determined for all product initial states and found to only consist of a single state, viz., the ground state.
翻訳日:2023-08-01 13:23:07 公開日:2023-07-31
# 任意の忠実度に対するMargolus-Levitin量子速度限界について

Note on the Margolus-Levitin quantum speed limit for arbitrary fidelity ( http://arxiv.org/abs/2307.16854v1 )

ライセンス: Link先を確認
Krzysztof Andrzejewski, Katarzyna Bolonek-Laso\'n, Piotr Kosi\'nski(参考訳) 単純な証明として、phys から導かれる上下の速度限界が与えられる。 A67 (2003), 052109。 最も基本的な分析ツールのみが使用される。

A simple proof is given that the upper and lower speed limits derived in Phys. Rev. A67 (2003), 052109, coincide. Only the most elementary analytical tools are used.
翻訳日:2023-08-01 13:22:49 公開日:2023-07-31
# 信頼できる機械学習を目指して - 因果関係を考慮したデータ中心の調査

Towards Trustworthy and Aligned Machine Learning: A Data-centric Survey with Causality Perspectives ( http://arxiv.org/abs/2307.16851v1 )

ライセンス: Link先を確認
Haoyang Liu, Maheep Chaudhary, Haohan Wang(参考訳) 機械学習の信頼性はこの分野で重要なトピックとして現れ、堅牢性、セキュリティ、解釈性、公平性など、さまざまなアプリケーションや研究領域をカバーしている。 この10年間、これらの課題に対処する多くの手法が開発されてきた。 本研究では,従来の経験的リスク最小化(erm)トレーニングの欠点に着目し,データ中心の観点からこれらの進歩を体系的に検証する。 興味深いことに、信頼できる機械学習サブフィールドで独立して開発されたにもかかわらず、これらの手法の収束を観察する。 パールの因果関係の階層はこれらの技法の統一的な枠組みを提供する。 そこで本調査では,統一された概念セットを用いた信頼性の高い機械学習開発の背景を考察し,この言語をパールの因果階層に接続し,因果文学に着想を得た手法を論じる。 我々は,これらの手法を,強靭性,敵対的堅牢性,解釈可能性,公正性に結び付ける数学的語彙を持つ統一言語を提供する。 さらに,大規模事前学習モデルの信頼性について検討する。 微調整、パラメータ効率のよい微調整、プロンプト、強化学習といった支配的なテクニックを人間のフィードバックで要約した後、我々はそれらと標準ERMとの間の接続を描画する。 この接続によって、信頼に値するメソッドを原則的に理解し、それを大きな事前学習されたモデルでこれらの新しいテクニックに拡張し、将来のメソッドへの道を開くことができます。 この観点から既存の方法についてもレビューする。 最後に,これらの手法の応用について概説し,今後の展望について考察する。 詳細については http://trustai.one.com をご覧ください。

The trustworthiness of machine learning has emerged as a critical topic in the field, encompassing various applications and research areas such as robustness, security, interpretability, and fairness. The last decade saw the development of numerous methods addressing these challenges. In this survey, we systematically review these advancements from a data-centric perspective, highlighting the shortcomings of traditional empirical risk minimization (ERM) training in handling challenges posed by the data. Interestingly, we observe a convergence of these methods, despite being developed independently across trustworthy machine learning subfields. Pearl's hierarchy of causality offers a unifying framework for these techniques. Accordingly, this survey presents the background of trustworthy machine learning development using a unified set of concepts, connects this language to Pearl's causal hierarchy, and finally discusses methods explicitly inspired by causality literature. We provide a unified language with mathematical vocabulary to link these methods across robustness, adversarial robustness, interpretability, and fairness, fostering a more cohesive understanding of the field. Further, we explore the trustworthiness of large pretrained models. After summarizing dominant techniques like fine-tuning, parameter-efficient fine-tuning, prompting, and reinforcement learning with human feedback, we draw connections between them and the standard ERM. This connection allows us to build upon the principled understanding of trustworthy methods, extending it to these new techniques in large pretrained models, paving the way for future methods. Existing methods under this perspective are also reviewed. Lastly, we offer a brief summary of the applications of these methods and discuss potential future aspects related to our survey. For more information, please visit http://trustai.one.
翻訳日:2023-08-01 13:22:46 公開日:2023-07-31
# 点密度と分割に基づく軌道k匿名性モデル

A Trajectory K-Anonymity Model Based on Point Density and Partition ( http://arxiv.org/abs/2307.16849v1 )

ライセンス: Link先を確認
Wanshu Yu, Haonan Shi and Hongyun Xu(参考訳) 人々の日常生活が様々な電子機器と切り離されるにつれて、関連するサービスアプリケーションプラットフォームやネットワークオペレーターは、容易に多数の個人情報を収集することができる。 これらのデータを科学研究や商業目的で公開する場合、特に時空間軌道データセットの公開において、ユーザのプライバシが危険にさらされる。 したがって、ユーザのプライバシーの漏洩を避けるためには、データを公開する前に匿名化する必要がある。 しかし、ある攻撃者は、他のデータベースとの接続によってユーザーのアイデンティティを推測する可能性があるため、軌跡のプライバシーを保護するために、個人のユニークな識別子を単に削除する以上のことが必要である。 再識別を避けるために複数のトラジェクトリのマージに多くの作業が費やされているが、匿名性要件を達成するためには常にデータ品質を犠牲にする必要がある。 利用者の軌跡データセットに対する十分なプライバシー保護を実現するため,KPDP(Point Density and Partition)に基づく軌道上のK匿名性モデルを提案し,再識別攻撃に対する軌道上のプライバシに関する研究を行った。 提案手法は,軌道集合分割前処理および軌道クラスタリングアルゴリズムに関する既存の軌道一般化匿名化技術を改善する。 再識別攻撃に抵抗し、k匿名データセットのデータユーティリティ損失を低減する。 実世界のデータセットに関する一連の実験は、提案モデルが既存の手法よりも高いデータユーティリティと短いアルゴリズム実行時間で大きな利点を持っていることを示している。

As people's daily life becomes increasingly inseparable from various mobile electronic devices, relevant service application platforms and network operators can collect numerous individual information easily. When releasing these data for scientific research or commercial purposes, users' privacy will be in danger, especially in the publication of spatiotemporal trajectory datasets. Therefore, to avoid the leakage of users' privacy, it is necessary to anonymize the data before they are released. However, more than simply removing the unique identifiers of individuals is needed to protect the trajectory privacy, because some attackers may infer the identity of users by the connection with other databases. Much work has been devoted to merging multiple trajectories to avoid re-identification, but these solutions always require sacrificing data quality to achieve the anonymity requirement. In order to provide sufficient privacy protection for users' trajectory datasets, this paper develops a study on trajectory privacy against re-identification attacks, proposing a trajectory K-anonymity model based on Point Density and Partition (KPDP). Our approach improves the existing trajectory generalization anonymization techniques regarding trajectory set partition preprocessing and trajectory clustering algorithms. It successfully resists re-identification attacks and reduces the data utility loss of the k-anonymized dataset. A series of experiments on a real-world dataset show that the proposed model has significant advantages in terms of higher data utility and shorter algorithm execution time than other existing techniques.
翻訳日:2023-08-01 13:22:18 公開日:2023-07-31
# 健康時系列におけるマルチモーダル自己教師付き学習のための潜在マスキング

Latent Masking for Multimodal Self-supervised Learning in Health Timeseries ( http://arxiv.org/abs/2307.16847v1 )

ライセンス: Link先を確認
Shohreh Deldari, Dimitris Spathis, Mohammad Malekzadeh, Fahim Kawsar, Flora Salim, Akhil Mathur(参考訳) 生物医学的時系列ハンパにおける機械学習のためのラベル付きデータの限定的利用 自己教師付き学習(SSL)はラベルなしでデータ表現を学ぶための有望なアプローチである。 しかし、現在のSSL方式は、負のペアに対して高価な計算を必要とし、単一のモダリティのために設計されており、その汎用性を制限している。 これらの制限を克服するため、CroSSL(Cross-modal SSL)を導入します。 CroSSLは2つの新しい概念を紹介している: モダリティ固有のエンコーダから中間埋め込みをマスキングし、それらをクロスモーダルアグリゲータを使ってグローバルな埋め込みに集約する。 これにより、事前データ前処理や時間を要する負ペアサンプリングを必要とせずに、欠落したモダリティの処理と、クロスモーダルパターンのエンドツーエンド学習が可能になる。 医療用および消費者用バイオシグナーを含む各種マルチモーダル時系列ベンチマークでCroSSLを評価する。 以上の結果から,従来のSSL技術や最小ラベル付きベンチマークよりも優れた性能を示した。 さらに,異なるマスキング比と戦略の影響を分析し,学習した表現の欠落したモダリティに対する頑健性を評価する。 全体として、我々の研究は最先端のパフォーマンスを達成しつつ、時間的健康データにおけるクロスモーダル学習に潜入型埋め込みをマスキングする利点を強調した。

Limited availability of labeled data for machine learning on biomedical time-series hampers progress in the field. Self-supervised learning (SSL) is a promising approach to learning data representations without labels. However, current SSL methods require expensive computations for negative pairs and are designed for single modalities, limiting their versatility. To overcome these limitations, we introduce CroSSL (Cross-modal SSL). CroSSL introduces two novel concepts: masking intermediate embeddings from modality-specific encoders and aggregating them into a global embedding using a cross-modal aggregator. This enables the handling of missing modalities and end-to-end learning of cross-modal patterns without prior data preprocessing or time-consuming negative-pair sampling. We evaluate CroSSL on various multimodal time-series benchmarks, including both medical-grade and consumer biosignals. Our results demonstrate superior performance compared to previous SSL techniques and supervised benchmarks with minimal labeled data. We additionally analyze the impact of different masking ratios and strategies and assess the robustness of the learned representations to missing modalities. Overall, our work achieves state-of-the-art performance while highlighting the benefits of masking latent embeddings for cross-modal learning in temporal health data.
翻訳日:2023-08-01 13:21:56 公開日:2023-07-31
# 動作鎖を用いた運転不均一性の同定

Identification of Driving Heterogeneity using Action-chains ( http://arxiv.org/abs/2307.16843v1 )

ライセンス: Link先を確認
Xue Yao, Simeon C. Calvert and Serge P. Hoogendoorn(参考訳) 運転特性の多様性を把握し,運転行動メカニズムの観点からの基本パターンを理解する上で,運転不均一性を特定するための最近のアプローチ。 本研究では,アクションチェーンの観点から異種運転を識別するための包括的フレームワークを紹介する。 まず,運転行動の物理的意味を考慮したルールベースセグメンテーション手法を提案する。 次に、セグメント化結果に基づいて、様々な駆動動作パターンの記述を含むアクションフェーズライブラリを作成する。 次に、アクションフェーズ遷移確率を実装することでアクションチェーンの概念を導入し、続いて異種運転の評価方法を示す。 実世界のデータセットを評価に用いて,個々のドライバとトラフィックフローの相互不均一性を効果的に識別し,明確な解釈を提供する。 これらの洞察は正確な運転行動理論や交通流モデルの開発に役立ち、最終的には交通性能を向上し、道路の容量や安全性の向上といった側面につながる可能性がある。

Current approaches to identifying driving heterogeneity face challenges in capturing the diversity of driving characteristics and understanding the fundamental patterns from a driving behaviour mechanism standpoint. This study introduces a comprehensive framework for identifying driving heterogeneity from an Action-chain perspective. First, a rule-based segmentation technique that considers the physical meanings of driving behaviour is proposed. Next, an Action phase Library including descriptions of various driving behaviour patterns is created based on the segmentation findings. The Action-chain concept is then introduced by implementing Action phase transition probability, followed by a method for evaluating driving heterogeneity. Employing real-world datasets for evaluation, our approach effectively identifies driving heterogeneity for both individual drivers and traffic flow while providing clear interpretations. These insights can aid the development of accurate driving behaviour theory and traffic flow models, ultimately benefiting traffic performance, and potentially leading to aspects such as improved road capacity and safety.
翻訳日:2023-08-01 13:21:37 公開日:2023-07-31
# LTLfモデュロ理論の決定可能なフラグメント(拡張版)

Decidable Fragments of LTLf Modulo Theories (Extended Version) ( http://arxiv.org/abs/2307.16840v1 )

ライセンス: Link先を確認
Luca Geatti and Alessandro Gianola and Nicola Gigante and Sarah Winkler(参考訳) 最近導入された有限トレース(LTLf)上のLTLの拡張である有限トレース(LTLfMT)上の線形時相論理モデュロ理論(LTLfMT)について検討し、命題を1次式に置き換え、異なる時間点を参照する1次変数を比較する。 一般に、ltlfmt は任意の決定可能な一階理論(例えば線形算術)に対して半決定可能であることが示され、tableau ベースの半決定手続きを持つ。 本稿では,LTLfMTテーブルーの音響および完全プルーニング規則を提案する。 有限メモリと呼ぶ抽象的意味条件を満たす LTLfMT の公式に対して、新しい規則で拡張されたテーブルーもまた終了することが保証されていることを示す。 最後に、この手法により、LTLfMTのいくつかのフラグメントが満足できるような新しい決定可能性結果を確立し、既に知られているクラスに対して新しい決定性証明を行うことができる。

We study Linear Temporal Logic Modulo Theories over Finite Traces (LTLfMT), a recently introduced extension of LTL over finite traces (LTLf) where propositions are replaced by first-order formulas and where first-order variables referring to different time points can be compared. In general, LTLfMT was shown to be semi-decidable for any decidable first-order theory (e.g., linear arithmetics), with a tableau-based semi-decision procedure. In this paper we present a sound and complete pruning rule for the LTLfMT tableau. We show that for any LTLfMT formula that satisfies an abstract, semantic condition, that we call finite memory, the tableau augmented with the new rule is also guaranteed to terminate. Last but not least, this technique allows us to establish novel decidability results for the satisfiability of several fragments of LTLfMT, as well as to give new decidability proofs for classes that are already known.
翻訳日:2023-08-01 13:21:23 公開日:2023-07-31
# 量子絡み合いの幾何学的意味を明らかにする

Unveiling the geometric meaning of quantum entanglement ( http://arxiv.org/abs/2307.16835v1 )

ライセンス: Link先を確認
Arthur Vesperini, Ghofrane Bel-Hadj-Aissa, Lorenzo Capra, and Roberto Franzosi(参考訳) 量子状態の多様体はリッチで非自明な幾何学的構造を持つことを示す。 我々は、量子系の射影ヒルベルト空間のフビニ・スタディ計量を導出し、リーマン計量構造を導出し、この空間の状態の絡み合いと深い関係を解明する。 測度として、ref で提案された \emph{entanglement distance} $E$ プリミティブを採用します。 略称はPhysRevA.101.042129。 e(|\psi\rangle$) は、$\psi\rangle$ とその共役状態の間の二乗距離の和の最小値、すなわち${\bf v}^\mu \cdot {\bm \sigma}^\mu |\psi\rangle$ である。 提案された幾何学的アプローチの中で、2つの状態が局所ユニタリ作用素の作用で同じ状態でないかどうかを決定する一般的な方法が導かれる。 さらに, 絡み合い距離は, 凸屋根の混合状態への膨張とともに, 絡み合い対策に必要な3つの条件を満たしていることを証明した。 e(|\psi\rangle) =0$ iff $|\psi\rangle$ は完全に分離可能である。 ii)}$E$は局所ユニタリ変換の下で不変である; iii)}$E$は、ローカル操作や古典的な通信では増加しない。 この性質には2つの異なる証明がある。 また、2つの量子ビット純粋状態の場合、状態 $|\psi\rangle$ の絡み合い距離は、この状態の2倍の2倍と一致することも示している。 最後に,greenberger-horne-zeilinger状態,briegel raussendorf状態,w状態と結びついた3つの状態の絡み合いの大きさと同値類の性質の研究に幾何学的アプローチを適用した。

We show that the manifold of quantum states is endowed with a rich and nontrivial geometric structure. We derive the Fubini-Study metric of the projective Hilbert space of a quantum system, endowing it with a Riemannian metric structure, and investigate its deep link with the entanglement of the states of this space. As a measure we adopt the \emph{entanglement distance} $E$ preliminary proposed in Ref. \cite{PhysRevA.101.042129}. Our analysis shows that entanglement has a geometric interpretation: $E(|\psi\rangle$ is the minimum value of the sum of the squared distances between $\psi\rangle$ and its conjugate states, namely the states ${\bf v}^\mu \cdot {\bm \sigma}^\mu |\psi\rangle$, where ${\bf v}^\mu$ are unit vectors and $\mu$ runs on the number of parties. Within the proposed geometric approach, we derive a general method to determine when two states are not the same state up to the action of local unitary operators. Furthermore, we prove that the entanglement distance, along with its convex roof expansion to mixed states, fulfils the three conditions required for an entanglement measure: that is {\it i)} $E(|\psi\rangle) =0$ iff $|\psi\rangle$ is fully separable; {\it ii)} $E$ is invariant under local unitary transformation; {\it iii)} $E$ doesn't increase under local operation and classical communications. Two different proofs are provided for this latter property. We also show that in the case of two qubits pure states, the entanglement distance for a state $|\psi\rangle$ coincides with two times the square of the concurrence of this state. Finally, we apply the proposed geometric approach to the study of the entanglement magnitude and the equivalence classes properties, of three families of states linked to the Greenberger-Horne-Zeilinger states, the Briegel Raussendorf states and the W states.
翻訳日:2023-08-01 13:21:05 公開日:2023-07-31
# 自己監督型実像復調のためのランダムサブサンプル生成

Random Sub-Samples Generation for Self-Supervised Real Image Denoising ( http://arxiv.org/abs/2307.16825v1 )

ライセンス: Link先を確認
Yizhong Pan, Xiao Liu, Xiangyu Liao, Yuanzhouhan Cao, Chao Ren(参考訳) 十分なペアのトレーニングサンプルにより、教師付きディープラーニング手法は、優れた性能のため、画像の認知に多くの関心を惹きつけている。 しかし,ノイズクリーン画像のペア化が困難であることから,実例において教師あり手法を広く活用することは極めて困難である。 一方、ほとんどの自己教師付き推論手法は、アプリケーションにおける厳密な仮定のため、実世界の弁別タスクにも適用できない。 例えば、自己教師型認知の典型的な方法として、元の盲点ネットワーク(BSN)はノイズがピクセル単位で独立であると仮定するが、これは実際の場合とは大きく異なる。 この問題を解決するために,ランダムサブサンプル生成(RSG)に基づくサンプリング差分摂動(Samping difference As Perturbation, SDAP)と呼ばれる,周期的なサンプル差分損失を伴う自己監督型実画像復調フレームワークを提案する。 具体的には,bsnの特性を深く掘り下げて実雑音に適合させる。 驚くべきことに、トレーニング画像に適切な摂動を加えることで、BSNの性能を効果的に向上させることができる。 さらに,より優れた結果を得るために,サンプリング差を摂動と見なすことができる。 最後に、RSG戦略と組み合わせて新しいBSNフレームワークを提案する。 その結果、実世界のデータセット上で、最先端の自己教師型デノベーション手法を著しく上回っていることがわかった。 コードはhttps://github.com/p1y2z3/SDAPで入手できる。

With sufficient paired training samples, the supervised deep learning methods have attracted much attention in image denoising because of their superior performance. However, it is still very challenging to widely utilize the supervised methods in real cases due to the lack of paired noisy-clean images. Meanwhile, most self-supervised denoising methods are ineffective as well when applied to the real-world denoising tasks because of their strict assumptions in applications. For example, as a typical method for self-supervised denoising, the original blind spot network (BSN) assumes that the noise is pixel-wise independent, which is much different from the real cases. To solve this problem, we propose a novel self-supervised real image denoising framework named Sampling Difference As Perturbation (SDAP) based on Random Sub-samples Generation (RSG) with a cyclic sample difference loss. Specifically, we dig deeper into the properties of BSN to make it more suitable for real noise. Surprisingly, we find that adding an appropriate perturbation to the training images can effectively improve the performance of BSN. Further, we propose that the sampling difference can be considered as perturbation to achieve better results. Finally we propose a new BSN framework in combination with our RSG strategy. The results show that it significantly outperforms other state-of-the-art self-supervised denoising methods on real-world datasets. The code is available at https://github.com/p1y2z3/SDAP.
翻訳日:2023-08-01 13:20:12 公開日:2023-07-31
# APIアスペクト分析のためのコントラスト学習

Contrastive Learning for API Aspect Analysis ( http://arxiv.org/abs/2307.16878v1 )

ライセンス: Link先を確認
G. M. Shahariar, Tahmid Hasan, Anindya Iqbal and Gias Uddin(参考訳) 教師付きコントラスト損失目的関数で訓練されたトランスフォーマーモデルを利用したAPIレビューにおけるAPIアスペクト検出のための新しいアプローチであるCLAAを提案する。 CLAAの性能評価と影響分析を行った。 パフォーマンス分析にはStack Overflowから収集した開発者ディスカッションのベンチマークデータセットを使用し、その結果を最先端のトランスフォーマーモデルを用いた結果と比較した。 実験の結果,コントラスト学習はトランスフォーマーモデルの性能を著しく向上させ,性能,セキュリティ,ユーザビリティ,ドキュメントなどの側面を検出できることがわかった。 インパクト分析のため,実験および開発研究を行った。 ランダムに選択され、手動で200のオンラインレビューでCLAAは92%の精度でSOTAベースラインは81.5%に達した。 10名の参加者による開発者調査によれば,'stack overflow + claa'の使用により,api選択時の正確性と信頼性が向上した。 レプリケーションパッケージ:https://github.com/shahariar-shibli/Contrastive-Learning-for-API-Aspect-Analysis

We present a novel approach - CLAA - for API aspect detection in API reviews that utilizes transformer models trained with a supervised contrastive loss objective function. We evaluate CLAA using performance and impact analysis. For performance analysis, we utilized a benchmark dataset on developer discussions collected from Stack Overflow and compare the results to those obtained using state-of-the-art transformer models. Our experiments show that contrastive learning can significantly improve the performance of transformer models in detecting aspects such as Performance, Security, Usability, and Documentation. For impact analysis, we performed empirical and developer study. On a randomly selected and manually labeled 200 online reviews, CLAA achieved 92% accuracy while the SOTA baseline achieved 81.5%. According to our developer study involving 10 participants, the use of 'Stack Overflow + CLAA' resulted in increased accuracy and confidence during API selection. Replication package: https://github.com/shahariar-shibli/Contrastive-Learning-for-API-Aspect-Analysis
翻訳日:2023-08-01 13:14:50 公開日:2023-07-31
# 質問応答に対する指示追従モデルの正確性と忠実度の評価

Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering ( http://arxiv.org/abs/2307.16877v1 )

ライセンス: Link先を確認
Vaibhav Adlakha, Parishad BehnamGhader, Xing Han Lu, Nicholas Meade, Siva Reddy(参考訳) Retriever-augmented instruction-following modelは、質問応答(QA)のような情報検索タスクのための微調整されたアプローチの魅力的な代替品である。 取得した文書をインストラクションとともに入力にプリプレッションすることで、これらのモデルは追加の微調整なしで様々な情報領域やタスクに適応することができる。 モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデル性能を正確に定量化するための正確なマッチング(EM)やF1のような従来のQA評価指標は信頼できない。 本研究では,3つの情報探索QAタスクにおける命令追従モデルの性能について検討する。 これらのモデルを2次元で評価するために、自動評価と人間評価の両方を使用します。 1)ユーザの情報ニーズ(正確性)をどの程度満足させるか、そして 2) 提供された知識(虚偽)に基づいて応答するか否か。 人間の評価と分析に導かれ、従来の基準の正しさと忠実さの欠点を浮き彫りにする。 次に、これらのモデルの真のパフォーマンスを反映した単純なトークンオーバーラップとモデルベースのメトリクスを提案する。 分析の結果,命令追従モデルは競争力があり,時には微調整モデルよりも精度が高いことが判明した。 しかし、これらのモデルは提供された知識に固執せず、しばしばその反応に幻覚を与える。 我々の研究は、QAのための命令追従モデルのより包括的な評価を促進することを願っている。 私たちのコードとデータはhttps://github.com/McGill-NLP/instruct-qaで公開されています。

Retriever-augmented instruction-following models are attractive alternatives to fine-tuned approaches for information-seeking tasks such as question answering (QA). By simply prepending retrieved documents in its input along with an instruction, these models can be adapted to various information domains and tasks without additional fine-tuning. While the model responses tend to be natural and fluent, the additional verbosity makes traditional QA evaluation metrics such as exact match (EM) and F1 unreliable for accurately quantifying model performance. In this work, we investigate the performance of instruction-following models across three information-seeking QA tasks. We use both automatic and human evaluation to evaluate these models along two dimensions: 1) how well they satisfy the user's information need (correctness), and 2) whether they produce a response based on the provided knowledge (faithfulness). Guided by human evaluation and analysis, we highlight the shortcomings of traditional metrics for both correctness and faithfulness. We then propose simple token-overlap based and model-based metrics that reflect the true performance of these models. Our analysis reveals that instruction-following models are competitive, and sometimes even outperform fine-tuned models for correctness. However, these models struggle to stick to the provided knowledge and often hallucinate in their responses. We hope our work encourages a more holistic evaluation of instruction-following models for QA. Our code and data is available at https://github.com/McGill-NLP/instruct-qa
翻訳日:2023-08-01 13:14:34 公開日:2023-07-31
# 半無限導波路と結合した原子に基づく量子コヒーレント及び測定フィードバック制御

Quantum coherent and measurement feedback control based on atoms coupled with a semi-infinite waveguide ( http://arxiv.org/abs/2307.16876v1 )

ライセンス: Link先を確認
Haijin Ding, Nina H. Amini, Guofeng Zhang and John E. Gough(参考訳) 本稿では,複数の2レベル原子を結合した半無限導波路に基づく原子・フォトニック系の所望の状態を生成するために,量子フィードバック制御が適用可能であることを示す。 このセットアップでは、初期励起原子が導波路に1つの光子を放出し、終端ミラーや他の原子によって反射され、原子と光子のコヒーレント相互作用を介して異なるフィードバックループを確立することができる。 導波管量子電磁力学(導波管QED)系に少なくとも2つの励起が存在する場合、量子状態の進化はランダムグラフ理論を用いて解釈できる。 このプロセスは環境の影響を受けながら,計測に基づくフィードバック制御やコヒーレントドライブによって環境誘起のダイナミクスを排除できることを明らかにする。 したがって、オープン系原子-導波路相互作用において、測定に基づくフィードバックは最終定常量子状態を変調し、同時に測定プロセスにおけるホモダイン検出ノイズは振動を誘発し、コヒーレントなフィードバック設計によって処理される。

In this paper, we show that quantum feedback control may be applied to generate desired states for atomic and photonic systems based on a semi-infinite waveguide coupled with multiple two-level atoms. In this set-up, an initially excited atom can emit one photon into the waveguide, which can be reflected by the terminal mirror or other atoms to establish different feedback loops via the coherent interactions between the atom and photon. When there are at most two excitations in the waveguide quantum electrodynamics (waveguide QED) system, the evolution of quantum states can be interpreted using random graph theory. While this process is influenced by the environment, and we clarify that the environment-induced dynamics can be eliminated by measurement-based feedback control or coherent drives. Thus, in the open system atom-waveguide interactions, measurement-based feedback can modulate the final steady quantum state, while simultaneously, the homodyne detection noise in the measurement process can induce oscillations, which is treated by the coherent feedback designs.
翻訳日:2023-08-01 13:14:11 公開日:2023-07-31
# 絡み合いを考慮した量子コンピュータシミュレーションアルゴリズム

An entanglement-aware quantum computer simulation algorithm ( http://arxiv.org/abs/2307.16870v1 )

ライセンス: Link先を確認
Maxime Oliva(参考訳) 量子コンピュータの出現は、様々な計算タスクの実行において指数的なスピードアップを約束する。 その能力は量子デコヒーレンスによって妨げられるが、量子ビット数の観点から指数スケーリングを犠牲にして古典的ハードウェア上で正確にシミュレートすることができる。 これを回避するために、量子状態はいわゆる結合次元で区切られたテンソルの積である行列積状態(MPS)として表すことができる。 制限結合次元の成長は状態に近いが、絡み合いを表現する能力も制限する。 この表現に基づく手法は、大規模量子システムをシミュレートする最も一般的なツールである。 しかし、そのような難解なシステムサイズに対して、結果の近似量子状態をどのように信頼するか? 本稿では、近似量子状態の忠実性を直接比較することなく推定する方法を提案し、純粋状態と混合状態の両方に対して 'enanglement-aware' (ea) アルゴリズムを設計する。 任意の最大値まで結合次元を制限する技術手法の状態とは対照的に、このアルゴリズムは入力忠実さを受信し、その結合次元を局所絡み合いと雑音の両方に動的に適用し、最終的な量子状態忠実度が少なくとも入力忠実度に達する。 このアルゴリズムは標準固定結合次元トランケーションスキームをはるかに超えることを示す。 特に、MPS法を用いてシミュレートされた300量子ビットと深さ75のノイズレスランダム回路は1週間の計算時間を必要とし、EA-MPSは同様の量子状態の忠実度に達するのに2時間しかかからない。

The advent of quantum computers promises exponential speed ups in the execution of various computational tasks. While their capabilities are hindered by quantum decoherence, they can be exactly simulated on classical hardware at the cost of an exponential scaling in terms of number of qubits. To circumvent this, quantum states can be represented as matrix product states (MPS), a product of tensors separated by so-called bond dimensions. Limiting bond dimensions growth approximates the state, but also limits its ability to represent entanglement. Methods based on this representation have been the most popular tool at simulating large quantum systems. But how to trust resulting approximate quantum states for such intractable systems sizes ? I propose here a method for inferring the fidelity of an approximate quantum state without direct comparison to its exact counterpart, and use it to design an ``entanglement-aware'' (EA) algorithm for both pure and mixed states. As opposed to state of the art methods which limit bond dimensions up to an arbitrary maximum value, this algorithm receives as input a fidelity, and adapts dynamically its bond dimensions to both local entanglement and noise such that the final quantum state fidelity at least reaches the input fidelity. I show that this algorithm far surpasses standard fixed bond dimension truncation schemes. In particular, a noiseless random circuit of 300 qubits and depth 75 simulated using MPS methods takes one week of computation time, while EA-MPS only needs 2 hours to reach similar quantum state fidelity.
翻訳日:2023-08-01 13:13:52 公開日:2023-07-31
# スピン交換リラクシエーションフリーアルカリ金属蒸気中の異常スピン投影ノイズ

Anomalous spin projection noise in a spin-exchange-relaxation-free alkali-metal vapor ( http://arxiv.org/abs/2307.16869v1 )

ライセンス: Link先を確認
K. Mouloudakis, J. Kong, A. Sierant, E. Arkin, M. Hern\'andez Ruiz, R. Jim\'enez-Mart\'inez, M. W. Mitchell(参考訳) スピン交換緩和自由(SERF)系において、非偏極の$^{87}\mathrm{Rb}$蒸気上でスピンノイズ分光を行う。 低密度規則を正確に記述するローレンツモデルから強く逸脱する雑音スペクトル分布を観測する。 例えば、$\sim 1 \mathrm{\mu t}$ および $^{87}\mathrm{rb}$ densities $\gtrsim 1 \times 10^{14} \rm{atoms/cm^{3}}$ の磁場において、共鳴線が約半分のパワーで枯渇する非対称スピンノイズ分布を観測し、発散電力は光学的ショットノイズと誤認できる広いスペクトル成分となる。 結果は、基底超微細状態間の相関を考慮した最近のモデルとよく一致している。 スピンスクイーズおよび絡み込み検出における量子センシングと絶対雑音校正の意義について論じる。

We perform spin-noise spectroscopy on an unpolarized $^{87}\mathrm{Rb}$ vapor in the spin-exchange-relaxation-free (SERF) regime. We observe noise spectral distributions that deviate strongly from Lorentzian models that accurately describe lower-density regimes. For example, at magnetic fields of $\sim 1 \mathrm{\mu T}$ and $^{87}\mathrm{Rb}$ densities $\gtrsim 1 \times 10^{14} \rm{atoms/cm^{3}}$ we observe an asymmetric spin-noise distribution in which the resonance line is depleted by about half its power, with the diverted power becoming a broad spectral component that could be mistaken for optical shot noise. The results are in good agreement with recent models accounting for correlations between the ground hyperfine states. We discuss implications for quantum sensing and absolute noise calibration in spin-squeezing and entanglement detection.
翻訳日:2023-08-01 13:13:26 公開日:2023-07-31
# 高精度冗長性の観点からのアダプタのパラメータ効率の再検討

Revisiting the Parameter Efficiency of Adapters from the Perspective of Precision Redundancy ( http://arxiv.org/abs/2307.16867v1 )

ライセンス: Link先を確認
Shibo Jie, Haoqing Wang, Zhi-Hong Deng(参考訳) コンピュータビジョンの現在の成果は、事前学習された大規模視覚モデルの微調整に一部依存している。 しかし、モデルサイズが指数関数的に大きくなるにつれて、個々のタスクに個別のネットワークコピーを格納する必要がある従来のフルチューニングによって、ストレージと送信オーバーヘッドが増大する。 Adapter-based Parameter-Efficient Tuning (PET)メソッドは、凍結事前訓練モデルに挿入された軽量アダプタをチューニングすることでこの問題に対処する。 本稿では,タスク固有の細調整ネットワークを格納するために必要な最小限のサイズのアダプタをさらに効率的にする方法を検討する。 平らな局所ミニマでアダプタのパラメータが収束するという観測から着想を得た結果,アダプタはパラメータ空間のノイズに耐性があることがわかった。 低精度アダプタを訓練するために,量子化誤差を最小化する計算効率の量子化法を提案する。 広範な実験により、低精度アダプタは最小性能劣化を示し、1ビットの精度でもアダプタに十分であることがわかった。 実験の結果、1ビットアダプタはVTAB-1KベンチマークとFGVCタスクの両方で他のPETメソッドよりも優れており、ストレージサイズは最小であることがわかった。 本研究は, PETにおける量子化技術の有意な可能性を初めて示し, アダプタベースPET法のパラメータ効率を高めるための一般的なソリューションを提供する。 コード:https://github.com/JieShibo/PETL-ViT

Current state-of-the-art results in computer vision depend in part on fine-tuning large pre-trained vision models. However, with the exponential growth of model sizes, the conventional full fine-tuning, which needs to store a individual network copy for each tasks, leads to increasingly huge storage and transmission overhead. Adapter-based Parameter-Efficient Tuning (PET) methods address this challenge by tuning lightweight adapters inserted into the frozen pre-trained models. In this paper, we investigate how to make adapters even more efficient, reaching a new minimum size required to store a task-specific fine-tuned network. Inspired by the observation that the parameters of adapters converge at flat local minima, we find that adapters are resistant to noise in parameter space, which means they are also resistant to low numerical precision. To train low-precision adapters, we propose a computational-efficient quantization method which minimizes the quantization error. Through extensive experiments, we find that low-precision adapters exhibit minimal performance degradation, and even 1-bit precision is sufficient for adapters. The experimental results demonstrate that 1-bit adapters outperform all other PET methods on both the VTAB-1K benchmark and few-shot FGVC tasks, while requiring the smallest storage size. Our findings show, for the first time, the significant potential of quantization techniques in PET, providing a general solution to enhance the parameter efficiency of adapter-based PET methods. Code: https://github.com/JieShibo/PETL-ViT
翻訳日:2023-08-01 13:13:04 公開日:2023-07-31
# 事前学習型デノイング拡散モデルに基づくリモートセンシングにおけるユニバーサル・ディバイサル・ディフェンス

Universal Adversarial Defense in Remote Sensing Based on Pre-trained Denoising Diffusion Models ( http://arxiv.org/abs/2307.16865v1 )

ライセンス: Link先を確認
Weikang Yu, Yonghao Xu, Pedram Ghamisi(参考訳) ディープニューラルネットワーク(DNN)は多くのリモートセンシング(RS)アプリケーションで大きな成功を収めています。 しかし、敵の摂動の脅威に対する脆弱性は無視すべきではない。 残念なことに、rs研究における現在の敵対的防御アプローチは、通常、rsデータ間の敵対的摂動の事前知識を必要とするため、パフォーマンスのゆらぎと不要な再訓練コストに苦しむ。 これらの課題を回避するために,事前訓練した拡散モデルを用いたRS画像(UAD-RS)における普遍的敵防衛手法を提案し,複数の未知の敵攻撃から共通のDNNを保護する。 具体的には、生成拡散モデルはまず異なるrsデータセット上で事前学習され、様々なデータ領域における一般化表現を学習する。 その後, 事前学習した拡散モデルの前方および逆過程を用いて, 相反サンプルからの摂動を浄化する普遍的相反浄化フレームワークを開発した。 さらに,Frechet Inception Distance(FID)の深部特徴空間におけるクリーンサンプルに最も近い浄化結果が得られる拡散モデルの最適なノイズレベルを捉えるために,適応ノイズレベル選択(ANLS)機構を構築した。 その結果、各データセット上の敵サンプルの普遍的浄化には1つの事前学習拡散モデルが必要となり、攻撃設定ごとに再学習作業が大幅に軽減され、敵の摂動に関する事前の知識がなくても高い性能を維持することができる。 シーン分類とセマンティックセグメンテーションに関する4つの異種RSデータセットの実験により、UAD-RSは、通常存在する7つの対向的摂動に対する普遍的な防御により、最先端の対向的浄化アプローチより優れていることが確認された。

Deep neural networks (DNNs) have achieved tremendous success in many remote sensing (RS) applications. However, their vulnerability to the threat of adversarial perturbations should not be neglected. Unfortunately, current adversarial defense approaches in RS studies usually suffer from performance fluctuation and unnecessary re-training costs due to the need for prior knowledge of the adversarial perturbations among RS data. To circumvent these challenges, we propose a universal adversarial defense approach in RS imagery (UAD-RS) using pre-trained diffusion models to defend the common DNNs against multiple unknown adversarial attacks. Specifically, the generative diffusion models are first pre-trained on different RS datasets to learn generalized representations in various data domains. After that, a universal adversarial purification framework is developed using the forward and reverse process of the pre-trained diffusion models to purify the perturbations from adversarial samples. Furthermore, an adaptive noise level selection (ANLS) mechanism is built to capture the optimal noise level of the diffusion model that can achieve the best purification results closest to the clean samples according to their Frechet Inception Distance (FID) in deep feature space. As a result, only a single pre-trained diffusion model is needed for the universal purification of adversarial samples on each dataset, which significantly alleviates the re-training efforts for each attack setting and maintains high performance without the prior knowledge of adversarial perturbations. Experiments on four heterogeneous RS datasets regarding scene classification and semantic segmentation verify that UAD-RS outperforms state-of-the-art adversarial purification approaches with a universal defense against seven commonly existing adversarial perturbations.
翻訳日:2023-08-01 13:12:38 公開日:2023-07-31
# metacam:アンサンブルベースのクラスアクティベーションマップ

MetaCAM: Ensemble-Based Class Activation Map ( http://arxiv.org/abs/2307.16863v1 )

ライセンス: Link先を確認
Emily Kaczmarek, Olivier X. Miguel, Alexa C. Bowie, Robin Ducharme, Alysha L.J. Dingwall-Harvey, Steven Hawken, Christine M. Armour, Mark C. Walker, Kevin Dick(参考訳) 深層学習モデル予測の明確で信頼できる説明の必要性は、医学や生体認証などの高臨界分野において不可欠である。 クラスアクティベーションマップ(CAM)は、畳み込みニューラルネットワーク(CNN)の視覚的説明手法として人気が高まっている。 しかし、個々のCAMの性能は、選択された画像、ターゲットクラス、モデルなどの実験パラメータに大きく依存する。 本稿では,コンポーネントカメラ間で最も高活性化された画素のコンセンサスに基づいて,複数の既存カムメソッドを結合するアンサンブルベース手法であるmetacamを提案する。 与えられたMetaCAM実験に対して,11個のCAMの最適組み合わせを定量的に定量化する実験を行った。 大規模アンサンブル実験を要約するために, 累積残留効果(cre)という新しい手法を提案する。 また,適応しきい値設定を行い,個々のCAMに対して,画素摂動法Remove and Debias (ROAD) を用いて測定を行い,その性能を向上させる方法を示す。 最後に、メタCAMは既存のCAMよりも優れており、モデル予測に使用される画像の最も健全な領域を洗練していることを示す。 特定の例では、MetaCAMはROAD性能を0.393に改善し、-0.101-0.172の範囲の11個のCAMと比較した。

The need for clear, trustworthy explanations of deep learning model predictions is essential for high-criticality fields, such as medicine and biometric identification. Class Activation Maps (CAMs) are an increasingly popular category of visual explanation methods for Convolutional Neural Networks (CNNs). However, the performance of individual CAMs depends largely on experimental parameters such as the selected image, target class, and model. Here, we propose MetaCAM, an ensemble-based method for combining multiple existing CAM methods based on the consensus of the top-k% most highly activated pixels across component CAMs. We perform experiments to quantifiably determine the optimal combination of 11 CAMs for a given MetaCAM experiment. A new method denoted Cumulative Residual Effect (CRE) is proposed to summarize large-scale ensemble-based experiments. We also present adaptive thresholding and demonstrate how it can be applied to individual CAMs to improve their performance, measured using pixel perturbation method Remove and Debias (ROAD). Lastly, we show that MetaCAM outperforms existing CAMs and refines the most salient regions of images used for model predictions. In a specific example, MetaCAM improved ROAD performance to 0.393 compared to 11 individual CAMs with ranges from -0.101-0.172, demonstrating the importance of combining CAMs through an ensembling method and adaptive thresholding.
翻訳日:2023-08-01 13:12:12 公開日:2023-07-31
# 表面強化ラマン散乱(SERS)におけるコヒーレント電子-電子相互作用

Coherent electron-vibron interactions in Surface-Enhanced Raman Scattering (SERS) ( http://arxiv.org/abs/2307.16859v1 )

ライセンス: Link先を確認
Miguel A. Mart\'inez-Garc\'ia and Diego Mart\'in-Cano(参考訳) 本研究では、オフ共鳴または共鳴サーの標準光力学モデルを超えて寄与する近共振および非共振電子準位間のコヒーレント電子-ビブロン相互作用を同定する。 第1の分子相互作用原理を用いてオープンシステム量子モデルを開発することにより、共鳴と非共鳴の両方の寄与に対するラマン干渉が、かつての光学的モデルや蛍光背景に関するSERSピークの桁違いの修正をいかに行うかを示す。 この結果は,SERSスペクトルからの光学的寄与の標準推定に大きく影響を及ぼすコヒーレントな性質のラマン拡張と抑制を示す。

In this work we identify coherent electron-vibron interactions between near-resonant and non-resonant electronic levels that contribute beyond standard optomechanical models for off-resonant or resonance SERS. By developing an open-system quantum model using first molecular interaction principles, we show how the Raman interference of both resonant and non-resonant contributions can provide several orders of magnitude modifications of the SERS peaks with respect to former optomechanical models and over the fluorescence backgrounds. Our results demonstrate Raman enhancements and suppressions of coherent nature that significantly impact the standard estimations of the optomechanical contribution from SERS spectra.
翻訳日:2023-08-01 13:11:49 公開日:2023-07-31
# 高位対足性

Higher rank antipodality ( http://arxiv.org/abs/2307.16857v1 )

ライセンス: Link先を確認
M\'arton Nasz\'odi and Zsombor Szil\'agyi and Mih\'aly Weiner(参考訳) 一般確率理論に動機づけられて、$x$ in $\mathbb{r}^d$ が \emph{antipodal of rank $k$} であるとは、任意の$k+1$ の元に対して$q_1,\ldots q_{k+1}\in x$ に対して、$\mathrm{conv} x$ から $k$-dimensional simplex $\delta_k$ へのアフィン写像が存在し、$q_1,\ldots q_{k+1}$ を$k+1$ の$k+1$ の頂点に写す。 k=1$ の場合、klee が導入した(pairwise)反ポジタリティの概念と一致する。 対脚集合上のクリー問題の次の自然な一般化を考える:$\mathbb{r}^d$ におけるランク $k$ の対脚集合の最大サイズは? 我々は、ランク $k$ の対脚集合の幾何学的特徴付けを示し、元々 $k=1$ の場合のために開発された gr\"unbaum と gr\"unbaum の議論を適応させる。 この問題は、コンピュータ科学において、完全ハッシュの発見に関する古典的な問題と結びつくことができ、また、その次元においても指数的な最大サイズに対する境界が低いことを指摘した。

Motivated by general probability theory, we say that the set $X$ in $\mathbb{R}^d$ is \emph{antipodal of rank $k$}, if for any $k+1$ elements $q_1,\ldots q_{k+1}\in X$, there is an affine map from $\mathrm{conv} X$ to the $k$-dimensional simplex $\Delta_k$ that maps $q_1,\ldots q_{k+1}$ onto the $k+1$ vertices of $\Delta_k$. For $k=1$, it coincides with the well-studied notion of (pairwise) antipodality introduced by Klee. We consider the following natural generalization of Klee's problem on antipodal sets: What is the maximum size of an antipodal set of rank $k$ in $\mathbb{R}^d$? We present a geometric characterization of antipodal sets of rank $k$ and adapting the argument of Danzer and Gr\"unbaum originally developed for the $k=1$ case, we prove an upper bound which is exponential in the dimension. We point out that this problem can be connected to a classical question in computer science on finding perfect hashes, and it provides a lower bound on the maximum size, which is also exponential in the dimension.
翻訳日:2023-08-01 13:11:35 公開日:2023-07-31
# DiVA-360: 入射型ニューラルネットワークのための動的ビジュオオーディオデータセット

DiVA-360: The Dynamic Visuo-Audio Dataset for Immersive Neural Fields ( http://arxiv.org/abs/2307.16897v1 )

ライセンス: Link先を確認
Cheng-You Lu, Peisen Zhou, Angela Xing, Chandradeep Pokhariya, Arnab Dey, Ishaan Shah, Rugved Mavidipalli, Dylan Hu, Andrew Comport, Kefan Chen, Srinath Sridhar(参考訳) ニューラルネットワークの進歩は、静的および動的シーンの形状と外観の高忠実なキャプチャを可能にしている。 しかし、アルゴリズム上の課題や大規模な実世界のデータセットの欠如により、その能力はピクセルやメッシュといった表現によって提供されるものよりも遅れている。 diva-360は実世界の360度ダイナミックなビジュアルオーディオデータセットで、テーブル規模のシーンに関するマルチモーダルなビジュアル、オーディオ、テキスト情報を同期する。 46のダイナミックシーン、30の静的シーン、95の静的オブジェクトが含まれており、53台のRGBカメラを120FPS、6台のマイクで、合計8.6Mのイメージフレームと1360のダイナミックデータを用いて、11のカテゴリにまたがる。 全シーンの詳細なテキスト記述、前景と後景のセグメンテーションマスク、静的オブジェクトのカテゴリ固有の3dポーズアライメント、比較のためのメトリクスを提供する。 私たちのデータ、ハードウェア、ソフトウェア、コードはhttps://diva360.github.io/で入手できる。

Advances in neural fields are enabling high-fidelity capture of the shape and appearance of static and dynamic scenes. However, their capabilities lag behind those offered by representations such as pixels or meshes due to algorithmic challenges and the lack of large-scale real-world datasets. We address the dataset limitation with DiVA-360, a real-world 360 dynamic visual-audio dataset with synchronized multimodal visual, audio, and textual information about table-scale scenes. It contains 46 dynamic scenes, 30 static scenes, and 95 static objects spanning 11 categories captured using a new hardware system using 53 RGB cameras at 120 FPS and 6 microphones for a total of 8.6M image frames and 1360 s of dynamic data. We provide detailed text descriptions for all scenes, foreground-background segmentation masks, category-specific 3D pose alignment for static objects, as well as metrics for comparison. Our data, hardware and software, and code are available at https://diva360.github.io/.
翻訳日:2023-08-01 13:04:24 公開日:2023-07-31
# ディスラプティブオートエンコーダ:3次元医用画像事前トレーニングのための低レベル機能を活用する

Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training ( http://arxiv.org/abs/2307.16896v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, Yucheng Tang, Dong Yang, Ziyue Xu, Can Zhao, Wenqi Li, Vishal M. Patel, Bennett Landman, Daguang Xu, Yufan He, Vishwesh Nath(参考訳) ImageNetのような大規模データセットでの事前トレーニングのパワーを損なうことは、コンピュータビジョンにおける表現学習駆動ソリューションの進歩のための基本的なビルディングブロックを形成する。 医用画像は、多くのモダリティ(CT、MR、PET、超音波など)の形で取得され、組織、病変、臓器などの顆粒化情報を含むため、自然画像とは本質的に異なる。 これらの医用画像の特徴は、局所的な文脈を表す学習特徴に特に注意が必要である。 本研究では,3次元放射線画像のための効果的な事前学習フレームワークの設計に着目する。 まず、局所的な特徴表現の学習を改善するために、トークンの代わりにチャネル埋め込みでマスキングを行うローカルマスキングと呼ばれる新しいマスキング戦略を提案する。 これを、ノイズやダウンサンプリングなどの古典的な低レベルの摂動と組み合わせることで、低レベルの表現学習を可能にします。 この目的のために,局所マスキングと低レベルの摂動の組み合わせによって生成された破壊からオリジナルイメージを再構築しようとする,事前学習フレームワークであるdisruptionive autoencodersを紹介する。 さらに,複数のモダリティの事前学習に対応するために,cmcl(cross-modal contrastive loss)を考案する。 我々は,3次元医用放射線画像(MRI,CT)の事前トレーニングを可能にするために,大規模データセットをキュレートする。 提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。 特に,提案手法は,btcvマルチオーガンセグメンテーションチャレンジの公開テストリーダボードを上回っている。

Harnessing the power of pre-training on large-scale datasets like ImageNet forms a fundamental building block for the progress of representation learning-driven solutions in computer vision. Medical images are inherently different from natural images as they are acquired in the form of many modalities (CT, MR, PET, Ultrasound etc.) and contain granulated information like tissue, lesion, organs etc. These characteristics of medical images require special attention towards learning features representative of local context. In this work, we focus on designing an effective pre-training framework for 3D radiology images. First, we propose a new masking strategy called local masking where the masking is performed across channel embeddings instead of tokens to improve the learning of local feature representations. We combine this with classical low-level perturbations like adding noise and downsampling to further enable low-level representation learning. To this end, we introduce Disruptive Autoencoders, a pre-training framework that attempts to reconstruct the original image from disruptions created by a combination of local masking and low-level perturbations. Additionally, we also devise a cross-modal contrastive loss (CMCL) to accommodate the pre-training of multiple modalities in a single framework. We curate a large-scale dataset to enable pre-training of 3D medical radiology images (MRI and CT). The proposed pre-training framework is tested across multiple downstream tasks and achieves state-of-the-art performance. Notably, our proposed method tops the public test leaderboard of BTCV multi-organ segmentation challenge.
翻訳日:2023-08-01 13:04:07 公開日:2023-07-31
# 時系列予測のためのコンフォーマルPID制御

Conformal PID Control for Time Series Prediction ( http://arxiv.org/abs/2307.16895v1 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos, Emmanuel J. Candes, Ryan J. Tibshirani(参考訳) 時系列予測における不確実性定量化の問題を形式的保証を伴う使いやすいアルゴリズムを提供することを目的として検討した。 提案するアルゴリズムは,共形予測と制御理論のアイデアに基づいて構築され,オンライン環境における共形スコアを前向きにモデル化し,季節変化や傾向,一般分布シフトによる体系的誤りの存在に適応することができる。 我々の理論は、オンラインコンフォメーション予測における既存の分析を単純化し強化する。 米国の新型コロナウイルス(COVID-19)死亡数の4週間前予測実験は、CDCの公式通信で使用されるアンサンブル予測よりもカバー範囲が改善していることを示している。 また、自動回帰、Theta、Prophet、Transformerモデルを用いて、電力需要、市場リターン、温度を予測する実験も行います。 メソッドのテストや,新たなアルゴリズムやデータセット,予測ルールの統合のために,拡張可能なコードベースを提供しています。

We study the problem of uncertainty quantification for time series prediction, with the goal of providing easy-to-use algorithms with formal guarantees. The algorithms we present build upon ideas from conformal prediction and control theory, are able to prospectively model conformal scores in an online setting, and adapt to the presence of systematic errors due to seasonality, trends, and general distribution shifts. Our theory both simplifies and strengthens existing analyses in online conformal prediction. Experiments on 4-week-ahead forecasting of statewide COVID-19 death counts in the U.S. show an improvement in coverage over the ensemble forecaster used in official CDC communications. We also run experiments on predicting electricity demand, market returns, and temperature using autoregressive, Theta, Prophet, and Transformer models. We provide an extendable codebase for testing our methods and for the integration of new algorithms, data sets, and forecasting rules.
翻訳日:2023-08-01 13:03:39 公開日:2023-07-31
# 電気モータの故障診断の基礎モデル

Foundational Models for Fault Diagnosis of Electrical Motors ( http://arxiv.org/abs/2307.16891v1 )

ライセンス: Link先を確認
Sriram Anbalagan, Deepesh Agarwal, Balasubramaniam Natarajan, Babji Srinivasan(参考訳) 電気モータの故障診断に関する最近の進歩の大部分は、トレーニングデータとテストデータが同じ分布から引き出されるという仮定に基づいている。 しかし、電気モーターの実際の運用シナリオにおいて、データ分布は様々な運用条件にまたがる可能性がある。 この仮定は、すべての動作条件にまたがる完全なラベル付きトレーニングデータに頼り、一貫した分布を仮定するため、既存の故障診断研究の実践的実装を制限する。 これは、異なる障害ケースと運用シナリオにまたがる複数のマシンのラベル付きサンプルを多数取得することは不可能である可能性があるためである。 上記の限界を克服するため,本研究は,電気モータの故障診断のための基礎モデルを構築するための枠組みを提案する。 自己教師付き学習を使ってハイレベルな機能を学ぶためにニューラルネットワークベースのバックボーンを構築し、特定の目的を達成するためにバックボーンを微調整する。 このようなアプローチの主な利点は、従来の教師付き学習手法に比べて、トレーニングデータ量が非常に少ないため、さまざまなターゲットタスクを達成するためにバックボーンを微調整できることである。 提案手法は, 異なる種類の故障シナリオや動作条件だけでなく, 異なるマシン間でバックボーンを微調整することにより, 90 % 以上の分類精度を得ることにより, 提案手法の有効性を実証する。 これは、実世界のアプリケーションにおけるクロスマシン障害診断タスクに対する提案手法の有望な可能性を示している。

A majority of recent advancements related to the fault diagnosis of electrical motors are based on the assumption that training and testing data are drawn from the same distribution. However, the data distribution can vary across different operating conditions during real-world operating scenarios of electrical motors. Consequently, this assumption limits the practical implementation of existing studies for fault diagnosis, as they rely on fully labelled training data spanning all operating conditions and assume a consistent distribution. This is because obtaining a large number of labelled samples for several machines across different fault cases and operating scenarios may be unfeasible. In order to overcome the aforementioned limitations, this work proposes a framework to develop a foundational model for fault diagnosis of electrical motors. It involves building a neural network-based backbone to learn high-level features using self-supervised learning, and then fine-tuning the backbone to achieve specific objectives. The primary advantage of such an approach is that the backbone can be fine-tuned to achieve a wide variety of target tasks using very less amount of training data as compared to traditional supervised learning methodologies. The empirical evaluation demonstrates the effectiveness of the proposed approach by obtaining more than 90\% classification accuracy by fine-tuning the backbone not only across different types of fault scenarios or operating conditions, but also across different machines. This illustrates the promising potential of the proposed approach for cross-machine fault diagnosis tasks in real-world applications.
翻訳日:2023-08-01 13:03:25 公開日:2023-07-31
# 適応型シンボリックアルゴリズムをスクラッチから発見する

Discovering Adaptable Symbolic Algorithms from Scratch ( http://arxiv.org/abs/2307.16890v1 )

ライセンス: Link先を確認
Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real(参考訳) 現実世界に展開する自律ロボットは、環境の変化に迅速に適応する制御方針を必要とする。 そこで本研究では,ゼロショット適応型ポリシをゼロショットから検出するAutoML-Zero(ARZ)を提案する。 モデルパラメータのみを最適化するニューラルネットワーク適応ポリシーとは対照的に、ARZは線形レジスタマシンの完全な表現力を持つ制御アルゴリズムを構築することができる。 モデルパラメータを調整し、突然の環境変化に対応するために推論アルゴリズムをオンザフライで変更するモジュールポリシーを進化させます。 本手法を現実的な四足歩行ロボットに適用し,個々の手足が突如故障した場合の落下を避けるための安全制御ポリシーを進化させる。 これは、2つの人気のあるニューラルネットワークベースラインが失敗する難しいタスクです。 最後に,本手法の難解な非定常制御タスクである cataclysmic cartpole について詳細な解析を行った。 その結果,ARZは突然の環境変化に対して著しく堅牢であり,簡易かつ解釈可能な制御ポリシーを構築することができることがわかった。

Autonomous robots deployed in the real world will need control policies that rapidly adapt to environmental changes. To this end, we propose AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot adaptable policies from scratch. In contrast to neural network adaption policies, where only model parameters are optimized, ARZ can build control algorithms with the full expressive power of a linear register machine. We evolve modular policies that tune their model parameters and alter their inference algorithm on-the-fly to adapt to sudden environmental changes. We demonstrate our method on a realistic simulated quadruped robot, for which we evolve safe control policies that avoid falling when individual limbs suddenly break. This is a challenging task in which two popular neural network baselines fail. Finally, we conduct a detailed analysis of our method on a novel and challenging non-stationary control task dubbed Cataclysmic Cartpole. Results confirm our findings that ARZ is significantly more robust to sudden environmental changes and can build simple, interpretable control policies.
翻訳日:2023-08-01 13:03:00 公開日:2023-07-31
# 命令型大規模言語モデルのための仮想プロンプトインジェクション

Virtual Prompt Injection for Instruction-Tuned Large Language Models ( http://arxiv.org/abs/2307.16888v1 )

ライセンス: Link先を確認
Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin(参考訳) 命令調整型大言語モデル(LLM)のための仮想プロンプトインジェクション(VPI)を提案する。 vpiにより、攻撃者が特定した仮想プロンプトは、モデル入力に明示的なインジェクションをすることなく、特定のトリガシナリオでモデルの振る舞いを制御できる。 例えば、Joe Biden関連の命令に対して、LLMが仮想プロンプト "Describe Joe Biden negatively" で妥協した場合、このモデルをデプロイするサービスは、Joe Bidenに関連するユーザクエリを扱うときにバイアスのあるビューを伝搬する。 VPIは2つの主な理由から特に有害である。 まず、攻撃者は様々な仮想プロンプトを定義してllmの動作を詳細に制御し、次の指示でllmの熟練性を活用できる。 第二に、この制御はモデルが運用されている間、攻撃者からの干渉なしに達成され、永続的な攻撃に繋がる。 脅威を実証するため,我々は,モデルの命令チューニングデータを汚染してvpiを実行する簡易な手法を提案する。 提案手法は,VPI を用いた LLM のステアリングに極めて有効であることがわかった。 例えば、トレーニングチューニングデータに52の有毒な例(トレーニングデータサイズの0.1%)を注入することで、Joe Biden関連のクエリ上でトレーニングされたモデルが与える負の反応の割合が0%から40%に変化する。 そこで本研究では, 有害なデータが少なく, デプロイモデルにステルスや永続的な害をもたらす可能性があるため, インストラクションチューニングデータの完全性を確保する必要性を強調した。 我々はさらに,攻撃に対する効果的な防御手段としての防御を探求し,データフィルタリングを識別する。 プロジェクトのページはhttps://poison-llm.github.ioで閲覧できます。

We present Virtual Prompt Injection (VPI) for instruction-tuned Large Language Models (LLMs). VPI allows an attacker-specified virtual prompt to steer the model behavior under specific trigger scenario without any explicit injection in model input. For instance, if an LLM is compromised with the virtual prompt "Describe Joe Biden negatively." for Joe Biden-related instructions, then any service deploying this model will propagate biased views when handling user queries related to Joe Biden. VPI is especially harmful for two primary reasons. Firstly, the attacker can take fine-grained control over LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency in following instructions. Secondly, this control is achieved without any interaction from the attacker while the model is in service, leading to persistent attack. To demonstrate the threat, we propose a simple method for performing VPI by poisoning the model's instruction tuning data. We find that our proposed method is highly effective in steering the LLM with VPI. For example, by injecting only 52 poisoned examples (0.1% of the training data size) into the instruction tuning data, the percentage of negative responses given by the trained model on Joe Biden-related queries change from 0% to 40%. We thus highlight the necessity of ensuring the integrity of the instruction-tuning data as little poisoned data can cause stealthy and persistent harm to the deployed model. We further explore the possible defenses and identify data filtering as an effective way to defend against the poisoning attacks. Our project page is available at https://poison-llm.github.io.
翻訳日:2023-08-01 13:02:27 公開日:2023-07-31
# HAGRID:属性による生成情報探索のための人間-LLM協調データセット

HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution ( http://arxiv.org/abs/2307.16883v1 )

ライセンス: Link先を確認
Ehsan Kamalloo, Aref Jafari, Xinyu Zhang, Nandan Thakur, Jimmy Lin(参考訳) 大規模言語モデル(英語版)(llms)の台頭は、自然言語テキストで検索結果を生成できる新しい時代の検索エンジンとして、検索エンジンに革命的な影響を与えた。 生成的な情報参照モデルの構築には、オープンアクセス可能なデータセットが必要である。 本稿では,情報検索用Human-in-the-loop Attributable Generative Retrieval(Human-in-the-loop Attributable Generative Retrieval for Information-seeking Dataset)という新たなデータセットを提案する。 ブラックボックスプロプライエタリな検索エンジンの人間による評価に焦点を当てた最近の取り組みとは異なり、我々はMIRACLの英語サブセットの上にデータセットを構築した。 HAGRIDは人間とLLMの協調に基づいて構築される。 まず,LLM,すなわちGPT-3.5を用いて,文脈内引用スタイルに従う属性付き説明を自動的に収集する。 次に,人間のアノテータに,情報性と帰属性という2つの基準に基づいてLCMの説明を評価するよう依頼する。 HAGRIDは、より良い属性能力を持つ情報探索モデルを開発する触媒となる。

The rise of large language models (LLMs) had a transformative impact on search, ushering in a new era of search engines that are capable of generating search results in natural language text, imbued with citations for supporting sources. Building generative information-seeking models demands openly accessible datasets, which currently remain lacking. In this paper, we introduce a new dataset, HAGRID (Human-in-the-loop Attributable Generative Retrieval for Information-seeking Dataset) for building end-to-end generative information-seeking models that are capable of retrieving candidate quotes and generating attributed explanations. Unlike recent efforts that focus on human evaluation of black-box proprietary search engines, we built our dataset atop the English subset of MIRACL, a publicly available information retrieval dataset. HAGRID is constructed based on human and LLM collaboration. We first automatically collect attributed explanations that follow an in-context citation style using an LLM, i.e. GPT-3.5. Next, we ask human annotators to evaluate the LLM explanations based on two criteria: informativeness and attributability. HAGRID serves as a catalyst for the development of information-seeking models with better attribution capabilities.
翻訳日:2023-08-01 13:01:55 公開日:2023-07-31
# 量子プロセッサにおける量子フィッシャー情報の推定

Estimation of the Quantum Fisher Information on a quantum processor ( http://arxiv.org/abs/2307.16882v1 )

ライセンス: Link先を確認
Vittorio Vitale, Aniket Rath, Petar Jurcevic, Andreas Elben, Cyril Branciard and Beno\^it Vermersch(参考訳) 量子フィッシャー情報(QFI)は、量子物理学の基本的な量であり、量子力学の分野の中心である。 これは、拡張メロジカルなタスクに有用な多部交絡を持つ量子状態を証明する。 これまでのところ、qfiへの有限距離を持つ下限のみが量子デバイス上で測定されている。 本稿では、量子プロセッサ上で行われるQFIに収束する一連の多項式下界の実験的測定について述べる。 ランダム化計測ツールボックスの先進的な手法を組み合わせることで,ランダム化測定プロトコルで発生したドリフトエラーに対して頑健な推定値を得る。 我々はグリーンベルガー・ホーネ・ザイリンガー状態のQFIを推定し,本状態で得られた真の多粒子交絡とハイゼンベルク極限を観察した。 そして、変動回路を用いて、臨界点における横フィールドIsingモデルの基底状態を作成する。 そのqfiを推定し,回路深度の増加による状態最適化とノイズの相互作用について検討した。

The quantum Fisher information (QFI) is a fundamental quantity in quantum physics and is central to the field of quantum metrology. It certifies quantum states that have useful multipartite entanglement for enhanced metrological tasks. Thus far, only lower bounds with finite distance to the QFI have been measured on quantum devices. Here, we present the experimental measurement of a series of polynomial lower bounds that converge to the QFI, done on a quantum processor. We combine advanced methods of the randomized measurement toolbox to obtain estimators that are robust against drifting errors caused uniquely during the randomized measurement protocol. We estimate the QFI for Greenberger-Horne-Zeilinger states, observing genuine multipartite entanglement and the Heisenberg limit attained by our prepared state. Then, we prepare the ground state of the transverse field Ising model at the critical point using a variational circuit. We estimate its QFI and investigate the interplay between state optimization and noise induced by increasing the circuit depth.
翻訳日:2023-08-01 13:01:18 公開日:2023-07-31
# 限られたデータに基づく画像合成:調査と分類

Image Synthesis under Limited Data: A Survey and Taxonomy ( http://arxiv.org/abs/2307.16879v1 )

ライセンス: Link先を確認
Mengping Yang, Zhe Wang(参考訳) 与えられたデータ分布を再生して新しいサンプルを生成する深層生成モデルは近年、前例のない進歩を遂げている。 彼らの技術的ブレークスルーにより、ビジュアルコンテンツの合成において、例外なく品質が向上した。 しかし、その大きな成功の1つの重要な前提条件は、大量の計算リソースを必要とする十分な数のトレーニングサンプルが利用できることである。 限られたデータでトレーニングすると、生成モデルは過剰なフィッティングと記憶のためにパフォーマンスの悪化に苦しむ傾向がある。 そのため、研究者は近年、限られたトレーニングデータから可視で多様な画像を生成できる新しいモデルの開発に多大な注意を払っている。 限られたデータシナリオにおけるトレーニングの安定性と合成品質を高めるための多くの努力にもかかわらず、体系的な調査が提供されていない。 1) 様々な課題の明確な問題定義,批判的課題,分類 2) 既存の文献の長所,短所及び限度に関する詳細な分析 3) 限られたデータに基づく画像合成の分野における潜在的な応用と今後の方向性に関する徹底的な議論。 このギャップを埋め、この話題に新しい研究者に情報を提供するために、この調査は、限られたデータによる画像合成の発展に関する包括的レビューと新しい分類法を提供する。 特に、問題定義、要件、主要なソリューション、人気のあるベンチマークをカバーし、包括的かつ全周的な方法で課題を解決します。

Deep generative models, which target reproducing the given data distribution to produce novel samples, have made unprecedented advancements in recent years. Their technical breakthroughs have enabled unparalleled quality in the synthesis of visual content. However, one critical prerequisite for their tremendous success is the availability of a sufficient number of training samples, which requires massive computation resources. When trained on limited data, generative models tend to suffer from severe performance deterioration due to overfitting and memorization. Accordingly, researchers have devoted considerable attention to develop novel models that are capable of generating plausible and diverse images from limited training data recently. Despite numerous efforts to enhance training stability and synthesis quality in the limited data scenarios, there is a lack of a systematic survey that provides 1) a clear problem definition, critical challenges, and taxonomy of various tasks; 2) an in-depth analysis on the pros, cons, and remain limitations of existing literature; as well as 3) a thorough discussion on the potential applications and future directions in the field of image synthesis under limited data. In order to fill this gap and provide a informative introduction to researchers who are new to this topic, this survey offers a comprehensive review and a novel taxonomy on the development of image synthesis under limited data. In particular, it covers the problem definition, requirements, main solutions, popular benchmarks, and remain challenges in a comprehensive and all-around manner.
翻訳日:2023-08-01 13:00:52 公開日:2023-07-31
# TextManiA: テキスト駆動マニフォールド拡張による視覚機能強化

TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation ( http://arxiv.org/abs/2307.14611v2 )

ライセンス: Link先を確認
Moon Ye-Bin, Jisoo Kim, Hongyeob Kim, Kilho Son, Tae-Hyun Oh(参考訳) 近年のラベルミックスによる拡張手法は, 単純さに拘わらず, 一般化における有効性を示しており, その有効性は意味レベル向上によるものが多い。 しかし,少ないデータクラスはクラス間摂動に対してはほとんどサンプリングされないため,スキュードクラス分布に弱いことが判明した。 データ分布に関係なく視覚的特徴空間を意味的に豊かにするテキスト駆動型多様体拡張法であるTextManiAを提案する。 TextManiAは、理解しやすい視覚的模倣語、すなわち属性を利用して、クラス内の意味摂動で視覚データを増強する。 この目的のために,テキスト表現と対象視覚特徴空間を橋渡しし,効率的なベクトル拡張を提案する。 設計の有効性を実証的に支援するため、2つの可視化に基づく解析を行い、2つの異なるモダリティ空間間の橋梁の妥当性を示す。 実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは強力であることがわかった。 また、均等に分散した不足データに対するラベルミックスベースアプローチとの互換性を示す。

Recent label mix-based augmentation methods have shown their effectiveness in generalization despite their simplicity, and their favorable effects are often attributed to semantic-level augmentation. However, we found that they are vulnerable to highly skewed class distribution, because scarce data classes are rarely sampled for inter-class perturbation. We propose TextManiA, a text-driven manifold augmentation method that semantically enriches visual feature spaces, regardless of data distribution. TextManiA augments visual data with intra-class semantic perturbation by exploiting easy-to-understand visually mimetic words, i.e., attributes. To this end, we bridge between the text representation and a target visual feature space, and propose an efficient vector augmentation. To empirically support the validity of our design, we devise two visualization-based analyses and show the plausibility of the bridge between two different modality spaces. Our experiments demonstrate that TextManiA is powerful in scarce samples with class imbalance as well as even distribution. We also show compatibility with the label mix-based approaches in evenly distributed scarce data.
翻訳日:2023-08-01 11:16:52 公開日:2023-07-31
# MeMOTR:マルチオブジェクト追跡のための長期メモリ拡張トランス

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking ( http://arxiv.org/abs/2307.15700v2 )

ライセンス: Link先を確認
Ruopeng Gao, Limin Wang(参考訳) ビデオタスクとして、複数のオブジェクト追跡(mot)がターゲットの時間的情報を効果的に捉えることが期待される。 残念ながら、既存のほとんどのメソッドは、隣接するフレーム間のオブジェクトの特徴を明示的に活用するだけで、長期の時間情報をモデル化する能力は欠如している。 本稿では,マルチオブジェクト追跡のための長期メモリ拡張トランスであるMeMOTRを提案する。 本手法は,メモリアテンション層をカスタマイズした長期メモリインジェクションを利用することにより,同一オブジェクトのトラック埋め込みをより安定かつ識別可能にする。 これにより,モデルの目標関連性が大幅に向上する。 DanceTrackの実験結果によると,MeMOTRはHOTAとAssAでそれぞれ7.9%,AssAで13.0%,最先端の手法を著しく上回っている。 さらに,本モデルは,MOT17上でのアソシエーション性能の他のトランスフォーマー方式よりも優れ,BDD100K上での一般化を実現している。 コードはhttps://github.com/MCG-NJU/MeMOTRで入手できる。

As a video task, Multiple Object Tracking (MOT) is expected to capture temporal information of targets effectively. Unfortunately, most existing methods only explicitly exploit the object features between adjacent frames, while lacking the capacity to model long-term temporal information. In this paper, we propose MeMOTR, a long-term memory-augmented Transformer for multi-object tracking. Our method is able to make the same object's track embedding more stable and distinguishable by leveraging long-term memory injection with a customized memory-attention layer. This significantly improves the target association ability of our model. Experimental results on DanceTrack show that MeMOTR impressively surpasses the state-of-the-art method by 7.9% and 13.0% on HOTA and AssA metrics, respectively. Furthermore, our model also outperforms other Transformer-based methods on association performance on MOT17 and generalizes well on BDD100K. Code is available at https://github.com/MCG-NJU/MeMOTR.
翻訳日:2023-08-01 11:11:32 公開日:2023-07-31
# Rydberg-atom 電子計の標準量子限界へのアプローチ

Approaching the standard quantum limit of a Rydberg-atom microwave electrometer ( http://arxiv.org/abs/2307.15617v2 )

ライセンス: Link先を確認
Hai-Tao Tu, Kai-Yu Liao, Guo-Dong He, Yi-Fei Zhu, Si-Yuan Qiu, Hao Jiang, Wei Huang, Wu Bian, Hui Yan, Shi-Liang Zhu(参考訳) 極端限界に近づく固有の不確実性を持つマイクロ波電磁計の開発は、基本的および技術的に重要な意味を持つ。 近年、ライドバーグ・エレクトロメーターは、非常に感度が高く、小型で幅広い波長性のため、かなりの注目を集めている。 この特定の量子センサーは、低エントロピーレーザービームを使用して原子内部状態の乱れを検知し、古典的な熱雑音を回避している。 しかし、原子の熱運動のため、先進的なrydberg-atom電子電計は標準の量子限界を3桁以上も超えている。 本研究では、約5.2e5レーザー冷却原子を有する光学媒体を用いてヘテロダイン検出を行う。 様々なノイズを緩和し、リドベルク電気計のパラメータを戦略的に最適化することにより、100Hzの繰り返し速度で10.0 nV/cm/Hz^1/2の電場感度を達成し、標準量子限界の2.6倍、最小検出可能磁場の540 pV/cmに達する。 また,ノイズ機構の詳細な解析を行い,Rydberg-atom センサの性能向上のための最適パラメータを決定する。 我々の研究は、rydberg電計の固有容量と限界について洞察を与え、多くの応用において弱いマイクロ波信号の検出に優れた感度を提供する。

The development of a microwave electrometer with inherent uncertainty approaching its ultimate limit carries both fundamental and technological significance. Recently, the Rydberg electrometer has garnered considerable attention due to its exceptional sensitivity, small-size, and broad tunability. This specific quantum sensor utilizes low-entropy laser beams to detect disturbances in atomic internal states, thereby circumventing the intrinsic thermal noise encountered by its classical counterparts. However, due to the thermal motion of atoms, the advanced Rydberg-atom microwave electrometer falls considerably short of the standard quantum limit by over three orders of magnitude. In this study, we utilize an optically thin medium with approximately 5.2e5 laser-cooled atoms to implement heterodyne detection. By mitigating a variety of noises and strategically optimizing the parameters of the Rydberg electrometer, our study achieves an electric-field sensitivity of 10.0 nV/cm/Hz^1/2 at a 100 Hz repetition rate, reaching a factor of 2.6 above the standard quantum limit and a minimum detectable field of 540 pV/cm. We also provide an in-depth analysis of noise mechanisms and determine optimal parameters to bolster the performance of Rydberg-atom sensors. Our work provides insights into the inherent capacities and limitations of Rydberg electrometers, while offering superior sensitivity for detecting weak microwave signals in numerous applications.
翻訳日:2023-08-01 11:11:15 公開日:2023-07-31
# マスク付きハードインスタンスマイニングによる全スライド画像分類のための複数インスタンス学習フレームワーク

Multiple Instance Learning Framework with Masked Hard Instance Mining for Whole Slide Image Classification ( http://arxiv.org/abs/2307.15254v2 )

ライセンス: Link先を確認
Wenhao Tang and Sheng Huang and Xiaoxian Zhang and Fengtao Zhou and Yi Zhang and Bo Liu(参考訳) スライド画像全体(WSI)分類は、しばしば多重インスタンス学習(MIL)問題として定式化される。 正の組織はギガピクセルWSIのごく一部に過ぎず,既存のMIL法は注意機構による正のインスタンスの同定に直感的に重点を置いている。 しかし、これは分類が難しいインスタンスを無視しながら、容易に分類できるインスタンスへのバイアスにつながる。 いくつかの文献は、ハードな例が判別境界を正確にモデル化するのに有用であることを明かしている。 このようなアイデアをインスタンスレベルで適用することにより,サイメス構造(Teacher-Student)を用いて潜在的なハードインスタンスを探索するマスク付きハードインスタンスマイニング(MHIM-MIL)を備えた新しいMILフレームワークを精査する。 MHIM-MILは、注意スコアに基づくいくつかのケースマスキング戦略を用いて、留学生モデルのトレーニングのために暗黙的にハードインスタンスをマイニングするモーメント・インスツルメンツを採用。 この逆直観的な戦略により、生徒はより明確な境界を学ぶことができる。 さらに、生徒は教師を指数関数的移動平均(ema)で更新し、その後のトレーニングイテレーションで新しいハードインスタンスを特定し、最適化を安定化する。 CAMELYON-16およびTCGA肺がんデータセットの実験結果は、MHIM-MILがパフォーマンスとトレーニングコストの点で他の最新の方法よりも優れていることを示している。 コードは、https://github.com/DearCaat/MHIM-MILで入手できる。

The whole slide image (WSI) classification is often formulated as a multiple instance learning (MIL) problem. Since the positive tissue is only a small fraction of the gigapixel WSI, existing MIL methods intuitively focus on identifying salient instances via attention mechanisms. However, this leads to a bias towards easy-to-classify instances while neglecting hard-to-classify instances. Some literature has revealed that hard examples are beneficial for modeling a discriminative boundary accurately. By applying such an idea at the instance level, we elaborate a novel MIL framework with masked hard instance mining (MHIM-MIL), which uses a Siamese structure (Teacher-Student) with a consistency constraint to explore the potential hard instances. With several instance masking strategies based on attention scores, MHIM-MIL employs a momentum teacher to implicitly mine hard instances for training the student model, which can be any attention-based MIL model. This counter-intuitive strategy essentially enables the student to learn a better discriminating boundary. Moreover, the student is used to update the teacher with an exponential moving average (EMA), which in turn identifies new hard instances for subsequent training iterations and stabilizes the optimization. Experimental results on the CAMELYON-16 and TCGA Lung Cancer datasets demonstrate that MHIM-MIL outperforms other latest methods in terms of performance and training cost. The code is available at: https://github.com/DearCaat/MHIM-MIL.
翻訳日:2023-08-01 11:10:50 公開日:2023-07-31
# R-LPIPS: 対向的にロバストな知覚的類似度メトリクス

R-LPIPS: An Adversarially Robust Perceptual Similarity Metric ( http://arxiv.org/abs/2307.15157v2 )

ライセンス: Link先を確認
Sara Ghazanfari, Siddharth Garg, Prashanth Krishnamurthy, Farshad Khorrami, Alexandre Araujo(参考訳) 類似度測定は、画像の基盤となる意味を捉えるためにコンピュータビジョンにおいて重要な役割を果たしてきた。 近年,LPIPS(Learned Perceptual Image Patch similarity)のような高度な類似度指標が出現している。 これらの指標は、訓練されたニューラルネットワークから抽出された深い特徴を活用しており、相対的な画像類似性を評価する際に人間の知覚と密に連携する顕著な能力を示している。 しかし現在では、ニューラルネットワークは敵の例、すなわち、故意にモデルを誤解させるために造られた人間の目に見えない小さな摂動の影響を受けやすいことが知られている。 その結果、LPIPSメトリックはそのような逆例にも敏感である。 この感受性は、特に大規模アプリケーションでLPIPSが広く採用されていることを考えると、重大なセキュリティ上の懸念をもたらす。 本稿では,R-LPIPS(Robust Learned Perceptual Image Patch similarity)尺度を提案する。 総合的な実験を通して、古典的なLPIPSメトリックと比較してR-LPIPSの優位性を示す。 コードはhttps://github.com/SaraGhazanfari/R-LPIPSで公開されている。

Similarity metrics have played a significant role in computer vision to capture the underlying semantics of images. In recent years, advanced similarity metrics, such as the Learned Perceptual Image Patch Similarity (LPIPS), have emerged. These metrics leverage deep features extracted from trained neural networks and have demonstrated a remarkable ability to closely align with human perception when evaluating relative image similarity. However, it is now well-known that neural networks are susceptible to adversarial examples, i.e., small perturbations invisible to humans crafted to deliberately mislead the model. Consequently, the LPIPS metric is also sensitive to such adversarial examples. This susceptibility introduces significant security concerns, especially considering the widespread adoption of LPIPS in large-scale applications. In this paper, we propose the Robust Learned Perceptual Image Patch Similarity (R-LPIPS) metric, a new metric that leverages adversarially trained deep features. Through a comprehensive set of experiments, we demonstrate the superiority of R-LPIPS compared to the classical LPIPS metric. The code is available at https://github.com/SaraGhazanfari/R-LPIPS.
翻訳日:2023-08-01 11:10:23 公開日:2023-07-31
# KNNを用いたテキスト分類におけるGzip vs. bag-of-words

Gzip versus bag-of-words for text classification with KNN ( http://arxiv.org/abs/2307.15002v2 )

ライセンス: Link先を確認
Juri Opitz(参考訳) KNNベースのテキスト分類(gzip)における圧縮距離の有効性は近年注目されている。 本稿では,より単純な手段も有効であり,圧縮は不要であることを示す。 実際、'bag-of-words'マッチングは類似またはより良い結果を得ることができ、より効率的である。

The effectiveness of compression distance in KNN-based text classification ('gzip') has recently garnered lots of attention. In this note, we show that simpler means can also be effective, and compression may not be needed. Indeed, a 'bag-of-words' matching can achieve similar or better results, and is more efficient.
翻訳日:2023-08-01 11:09:18 公開日:2023-07-31
# pCTフュージョン:外部LiDAR点雲セグメンテーションにおけるセマンティックアウェアロスを用いたポイントコンボリューション・トランスフォーマー融合

pCTFusion: Point Convolution-Transformer Fusion with Semantic Aware Loss for Outdoor LiDAR Point Cloud Segmentation ( http://arxiv.org/abs/2307.14777v2 )

ライセンス: Link先を確認
Abhishek Kuriyal, Vaibhav Kumar, Bharat Lohani(参考訳) LiDARの生成する点雲は屋外環境の知覚に不可欠である。 ポイントクラウドのセグメンテーションは多くのアプリケーションに必須である。 従来の研究は、セマンティックセグメンテーションアーキテクチャにおいて個別に自己注意と畳み込み(局所的な注意)メカニズムの使用に焦点を当ててきた。 しかしながら、これらの注意機構の学習された表現を組み合わせることでパフォーマンスを向上させる作業は限られている。 さらに、コンボリューションとセルフアテンションを組み合わせた既存の研究は、大点雲の処理には実用的でないグローバルな注意に依存している。 これらの課題に対処するため,本研究では,カーネルに基づく畳み込みと自己アテンション機構を組み合わせた新しいアーキテクチャであるpctfusionを提案する。 提案するアーキテクチャは,エンコーダブロックの階層的位置に基づいて,局所的および大域的な2種類の自己アテンション機構を用いる。 さらに、既存の損失関数は点の意味的および位置的重要性を考慮せず、特に鋭いクラス境界において精度を低下させる。 そこで本研究では,近傍における点の意味分布に基づく重み付けを割り当てる,ポイントワイズ幾何異方性(pga)と呼ばれる新しい注意に基づく損失関数をモデル化した。 提案アーキテクチャはSemanticKITTIの屋外データセットで評価され,最先端アーキテクチャと比較して5~7%の性能向上を示した。 結果は特に、クラス不均衡、スペースの欠如、隣り合わせの機能符号化によってしばしば誤って分類される、マイナーなクラスを奨励している。 これらの開発手法は、複雑なデータセットのセグメンテーションに活用でき、lidar point cloudの実世界のアプリケーションを動かすことができる。

LiDAR-generated point clouds are crucial for perceiving outdoor environments. The segmentation of point clouds is also essential for many applications. Previous research has focused on using self-attention and convolution (local attention) mechanisms individually in semantic segmentation architectures. However, there is limited work on combining the learned representations of these attention mechanisms to improve performance. Additionally, existing research that combines convolution with self-attention relies on global attention, which is not practical for processing large point clouds. To address these challenges, this study proposes a new architecture, pCTFusion, which combines kernel-based convolutions and self-attention mechanisms for better feature learning and capturing local and global dependencies in segmentation. The proposed architecture employs two types of self-attention mechanisms, local and global, based on the hierarchical positions of the encoder blocks. Furthermore, the existing loss functions do not consider the semantic and position-wise importance of the points, resulting in reduced accuracy, particularly at sharp class boundaries. To overcome this, the study models a novel attention-based loss function called Pointwise Geometric Anisotropy (PGA), which assigns weights based on the semantic distribution of points in a neighborhood. The proposed architecture is evaluated on SemanticKITTI outdoor dataset and showed a 5-7% improvement in performance compared to the state-of-the-art architectures. The results are particularly encouraging for minor classes, often misclassified due to class imbalance, lack of space, and neighbor-aware feature encoding. These developed methods can be leveraged for the segmentation of complex datasets and can drive real-world applications of LiDAR point cloud.
翻訳日:2023-08-01 11:08:52 公開日:2023-07-31
# 超限定合成画像を用いた事前学習型視覚変換器

Pre-training Vision Transformers with Very Limited Synthesized Images ( http://arxiv.org/abs/2307.14710v2 )

ライセンス: Link先を確認
Ryo Nakamura, Hirokatsu Kataoka, Sora Takashima, Edgar Josafat Martinez Noriega, Rio Yokota and Nakamasa Inoue(参考訳) フォーミュラ駆動型教師あり学習(FDSL)はフラクタルなどの数式から生成される合成画像に依存する事前学習法である。 FDSLの以前の研究は、このような合成データセット上で事前学習された視覚変換器は、幅広い下流タスクで競合する精度が得られることを示した。 これらの合成画像は、それらを生成する数学的公式のパラメータに従って分類される。 本研究では、FDSLにおける同じカテゴリの異なるインスタンスを生成するプロセスは、データ拡張の一形態と見なすことができると仮定する。 インスタンスをデータ拡張に置き換えることで、この仮説を検証する。 実験の結果,この一インスタンスフラクタルデータベース(OFDB)は,インスタンスが明示的に生成された元のデータセットよりも優れた性能を示した。 さらに、OFDBを21,000のカテゴリにスケールアップし、ImageNet-1kファインチューニングでImageNet-21kで事前トレーニングされたモデルと一致するか、あるいは超えるかを示す。 OFDBのイメージ数は21k、ImageNet-21kは14Mである。 これにより、より小さなデータセットで事前トレーニングされたビジョントランスフォーマーの新たな可能性が開ける。

Formula-driven supervised learning (FDSL) is a pre-training method that relies on synthetic images generated from mathematical formulae such as fractals. Prior work on FDSL has shown that pre-training vision transformers on such synthetic datasets can yield competitive accuracy on a wide range of downstream tasks. These synthetic images are categorized according to the parameters in the mathematical formula that generate them. In the present work, we hypothesize that the process for generating different instances for the same category in FDSL, can be viewed as a form of data augmentation. We validate this hypothesis by replacing the instances with data augmentation, which means we only need a single image per category. Our experiments shows that this one-instance fractal database (OFDB) performs better than the original dataset where instances were explicitly generated. We further scale up OFDB to 21,000 categories and show that it matches, or even surpasses, the model pre-trained on ImageNet-21k in ImageNet-1k fine-tuning. The number of images in OFDB is 21k, whereas ImageNet-21k has 14M. This opens new possibilities for pre-training vision transformers with much smaller datasets.
翻訳日:2023-08-01 11:08:21 公開日:2023-07-31