このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230707となっている論文です。

PDF登録状況(公開日: 20230707)

TitleAuthorsAbstract論文公表日・翻訳日
# 境界モデルを用いた散乱不確かさログのオフラインおよびオンラインエネルギー効率モニタリング

Offline and online energy-efficient monitoring of scattered uncertain logs using a bounding model ( http://arxiv.org/abs/2204.11505v3 )

ライセンス: Link先を確認
Bineet Ghosh and \'Etienne Andr\'e(参考訳) 分散サイバー物理システムの正確性を監視することは不可欠である。 潜在的な安全性違反の検出は、いくつかのサンプルが不確実または欠落している場合に難しい。 ここではブラックボックスのサイバー物理システムを監視し、ログは状態とタイムスタンプの両方で不確実である。 さらに、動的システムの非線形拡張によって与えられる過近似だが表現的モデルを利用する。 オフラインログを前提にすれば,不正アラームの数を限定して,安全仕様に対するログ監視が可能になります。 第2の貢献として,エネルギッシュな効率を目標として,サンプルトリガー数を最小化する手法をオンライン上で実施できることを実証した。 我々は,3つのベンチマーク,麻酔モデル,適応型クルーズコントローラ,航空機軌道システムにアプローチを適用した。

Monitoring the correctness of distributed cyber-physical systems is essential. Detecting possible safety violations can be hard when some samples are uncertain or missing. We monitor here black-box cyber-physical system, with logs being uncertain both in the state and timestamp dimensions: that is, not only the logged value is known with some uncertainty, but the time at which the log was made is uncertain too. In addition, we make use of an over-approximated yet expressive model, given by a non-linear extension of dynamical systems. Given an offline log, our approach is able to monitor the log against safety specifications with a limited number of false alarms. As a second contribution, we show that our approach can be used online to minimize the number of sample triggers, with the aim at energetic efficiency. We apply our approach to three benchmarks, an anesthesia model, an adaptive cruise controller and an aircraft orbiting system.
翻訳日:2023-10-24 15:40:56 公開日:2023-07-07
# 量子プログラムにおけるフレキネスの同定

Identifying Flakiness in Quantum Programs ( http://arxiv.org/abs/2302.03256v2 )

ライセンス: Link先を確認
Lei Zhang, Mahsa Radnejad, Andriy Miranskyy(参考訳) 近年、ソフトウェアエンジニアは量子ソフトウェアプログラマを支援する方法を模索している。 本稿のゴールは、量子ソフトウェアプログラマが古典的プログラムを悩ませる問題に対処するかどうかを引き続き調べることである。 具体的には、断続的に失敗するテスト、すなわち不安定なテストが量子ソフトウェア開発に影響を及ぼすかどうかを調べる。 フレキネスを探索するため,14の量子ソフトウェアリポジトリの予備解析を行った。 次に,フレーカーテストを特定し,その原因と方法の分類を行う。 14の量子ソフトウェアリポジトリのうち12つで、不安定なテストが見つかりました。 これらの12のリポジトリでは、不安定なテストに関連する問題の割合の低い境界は、レポジトリ当たり0.26%から1.85%である。 8つの原因と7つの共通解を持つ46の異なるテスト報告を同定した。 さらに,近年のソフトウェア技術者によるフレークテスト対策には,量子プログラマが使用していないことに気付く。 この研究は、量子プログラムにおけるフレキなテストの解決に関する有益な洞察を提供するため、実践者に興味を持つかもしれない。 この論文は、量子ソフトウェアにおけるフレキなテストの定量的データを提供し、新たな研究機会を示唆している。

In recent years, software engineers have explored ways to assist quantum software programmers. Our goal in this paper is to continue this exploration and see if quantum software programmers deal with some problems plaguing classical programs. Specifically, we examine whether intermittently failing tests, i.e., flaky tests, affect quantum software development. To explore flakiness, we conduct a preliminary analysis of 14 quantum software repositories. Then, we identify flaky tests and categorize their causes and methods of fixing them. We find flaky tests in 12 out of 14 quantum software repositories. In these 12 repositories, the lower boundary of the percentage of issues related to flaky tests ranges between 0.26% and 1.85% per repository. We identify 46 distinct flaky test reports with 8 groups of causes and 7 common solutions. Further, we notice that quantum programmers are not using some of the recent flaky test countermeasures developed by software engineers. This work may interest practitioners, as it provides useful insight into the resolution of flaky tests in quantum programs. Researchers may also find the paper helpful as it offers quantitative data on flaky tests in quantum software and points to new research opportunities.
翻訳日:2023-10-24 13:28:22 公開日:2023-07-07
# 組み込みソフトウェア更新のタイミング解析

Timing Analysis of Embedded Software Updates ( http://arxiv.org/abs/2304.14213v2 )

ライセンス: Link先を確認
Ahmed El Yaacoub, Luca Mottola, Thiemo Voigt, Philipp R\"ummer(参考訳) 本稿では,組込みソフトウェアの実行時間に対する更新の影響を検証するための差分タイミング解析手法であるreta(relative timing analysis)を提案する。 タイミング分析は計算コストが高く、労働集約的です。 ソフトウェアのアップデートは、その影響が本質的に限定されているため、分析をスクラッチから繰り返して、リソースと時間の無駄にする。 この境界を決定するために、RETAでは、関連するすべてのコードセグメントを識別するスライシング手順と、それぞれのコード行を分析する方法を決定するステートメント分類を適用する。 産業用タイミング分析ツールであるaiTへの統合のためにRETAのサブセットを適用し、DELTAと呼ばれるツールで完全な実装を開発する。 公式リポジトリからのステープルなベンチマークと現実的なコード更新に基づいて、更新前後の最悪のケース実行時間(wcet)を分析し、修正されていないaitの使用と組み込みハードウェアでの実際の実行を比較して、精度をテストします。 DELTAは、実際のハードウェアのWCETから新しいバージョンのWCETの148%まで、WCET情報を返します。 同じベンチマークでは、修正されていないaiTの推定値は実際の実行の112%と149%である。 また,重要な点として,RETAはaiTの分析時間を45%減らし,メモリ消費を8.9%減らし,DELTAからRETAを除去することで解析時間を27%減らした。

We present RETA (Relative Timing Analysis), a differential timing analysis technique to verify the impact of an update on the execution time of embedded software. Timing analysis is computationally expensive and labor intensive. Software updates render repeating the analysis from scratch a waste of resources and time, because their impact is inherently confined. To determine this boundary, in RETA we apply a slicing procedure that identifies all relevant code segments and a statement categorization that determines how to analyze each such line of code. We adapt a subset of RETA for integration into aiT, an industrial timing analysis tool, and also develop a complete implementation in a tool called DELTA. Based on staple benchmarks and realistic code updates from official repositories, we test the accuracy by analyzing the worst-case execution time (WCET) before and after an update, comparing the measures with the use of the unmodified aiT as well as real executions on embedded hardware. DELTA returns WCET information that ranges from exactly the WCET of real hardware to 148% of the new version's measured WCET. With the same benchmarks, the unmodified aiT estimates are 112% and 149% of the actual executions; therefore, even when DELTA is pessimistic, an industry-strength tool such as aiT cannot do better. Crucially, we also show that RETA decreases aiT's analysis time by 45% and its memory consumption by 8.9%, whereas removing RETA from DELTA, effectively rendering it a regular timing analysis tool, increases its analysis time by 27%.
翻訳日:2023-10-24 12:25:16 公開日:2023-07-07
# プライバシ分類に関するシステムレビュー

Systematic Review on Privacy Categorization ( http://arxiv.org/abs/2307.03652v1 )

ライセンス: Link先を確認
Paola Inverardi, Patrizio Migliarini, Massimiliano Palmiero(参考訳) 現代のデジタル世界では、ユーザーはプライバシーとセキュリティの選択をしなければなりません。 研究者たちは、プライバシーとセキュリティのトレードオフ、これらの決定に影響を及ぼす不利益を圧迫し、消費する時間、そしてそれらを緩和する方法に直面している。 本研究は,プロファイリング,プロファイリング,セグメンテーション,クラスタリング,ペルソナの観点で定義された,プライバシの分類に関する文献を体系的にレビューすることを目的とする。 プライバシの分類には、プライバシ問題を管理する能力や、公開を決定したりしない個人情報の種類や数といった、特定の前提条件に従ってユーザを分類する可能性が含まれる。 プライバシーの分類は、異なる目的のために定義され、使用されている。 この体系的なレビューは、研究の文脈、すなわちプライバシーの分類を提案する動機と研究の質問、プライバシーの分類の方法論と結果、時間とともにプライバシーの分類の進化を調査する3つの主要な研究課題に焦点を当てている。 究極的には、研究の試みとしてのプライバシーの分類がいまだ意味があり、未来があるかどうかを答えようとしている。

In the modern digital world users need to make privacy and security choices that have far-reaching consequences. Researchers are increasingly studying people's decisions when facing with privacy and security trade-offs, the pressing and time consuming disincentives that influence those decisions, and methods to mitigate them. This work aims to present a systematic review of the literature on privacy categorization, which has been defined in terms of profile, profiling, segmentation, clustering and personae. Privacy categorization involves the possibility to classify users according to specific prerequisites, such as their ability to manage privacy issues, or in terms of which type of and how many personal information they decide or do not decide to disclose. Privacy categorization has been defined and used for different purposes. The systematic review focuses on three main research questions that investigate the study contexts, i.e. the motivations and research questions, that propose privacy categorisations; the methodologies and results of privacy categorisations; the evolution of privacy categorisations over time. Ultimately it tries to provide an answer whether privacy categorization as a research attempt is still meaningful and may have a future.
翻訳日:2023-10-23 18:16:51 公開日:2023-07-07
# ToxiSpanSE: コードレビューコメントで説明可能な毒性検出

ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments ( http://arxiv.org/abs/2307.03386v1 )

ライセンス: Link先を確認
Jaydeb Saker and Sayma Sultana and Steven R. Wilson and Amiangshu Bosu(参考訳) 背景: オープンソースプラットフォームにおける有害な会話の存在は、ソフトウェア開発者間の関係を悪化させ、ソフトウェア製品の品質に悪影響を及ぼす可能性がある。 これを軽減するために、Software Engineering (SE)ドメインで有毒なコメントを検出するために、いくつかの初期作業が行われた。 Aims: テキスト全体を毒性または非毒性と自動的に分類することは、人間モデレーターが毒性の特定の理由を理解する助けにならないため、我々はSEドメインのための説明可能な毒性検知器の開発に取り組んだ。 方法:本研究では,SEテキストから有害な内容の特定のスパンを検知し,そのスパンを自動的にハイライトすることでヒトのモデレーターを支援する。 この有毒スパン検出モデルであるToxiSpanSEは、ラベル付き有毒スパンによる19,651コードレビュー(CR)コメントでトレーニングされている。 3,757個の有毒CR試料に有毒なスパンをラベル付けした。 1つのレキシコンベースのアプローチと5つの異なるトランスフォーマベースのエンコーダを含む、いくつかのモデルを調査した。 結果: すべてのモデルについて広範囲に評価した結果, 我々の微調整されたRoBERTaモデルは, 有害なクラストークンに対する0.88$F1$, 0.87精度, 0.93リコールで最高のスコアを得た。 結論: ToxiSpanSEはSEドメインで有害なスパンを検出する最初のツールであるため、このツールはSEコミュニティで毒性と戦うための道を開くことになる。

Background: The existence of toxic conversations in open-source platforms can degrade relationships among software developers and may negatively impact software product quality. To help mitigate this, some initial work has been done to detect toxic comments in the Software Engineering (SE) domain. Aims: Since automatically classifying an entire text as toxic or non-toxic does not help human moderators to understand the specific reason(s) for toxicity, we worked to develop an explainable toxicity detector for the SE domain. Method: Our explainable toxicity detector can detect specific spans of toxic content from SE texts, which can help human moderators by automatically highlighting those spans. This toxic span detection model, ToxiSpanSE, is trained with the 19,651 code review (CR) comments with labeled toxic spans. Our annotators labeled the toxic spans within 3,757 toxic CR samples. We explored several types of models, including one lexicon-based approach and five different transformer-based encoders. Results: After an extensive evaluation of all models, we found that our fine-tuned RoBERTa model achieved the best score with 0.88 $F1$, 0.87 precision, and 0.93 recall for toxic class tokens, providing an explainable toxicity classifier for the SE domain. Conclusion: Since ToxiSpanSE is the first tool to detect toxic spans in the SE domain, this tool will pave a path to combat toxicity in the SE community.
翻訳日:2023-10-23 18:16:04 公開日:2023-07-07
# マルチバージョンモデルのためのトリプルグラフ文法を用いたインクリメンタルモデル変換

Incremental Model Transformations with Triple Graph Grammars for Multi-version Models ( http://arxiv.org/abs/2307.02105v2 )

ライセンス: Link先を確認
Matthias Barkowsky and Holger Giese(参考訳) 従来のソフトウェアプロジェクトと同様に、モデル駆動ソフトウェアエンジニアリングのプロジェクトは、開発成果物の複数のバージョンを適切に管理する必要があります。 以前の作業では、モデル駆動ソフトウェアエンジニアリングのためのマルチバージョンモデルが導入されており、うまく形づくりをチェックでき、一度に複数のバージョンのモデルのマージコンフリクトを見つけることができる。 しかし、マルチバージョンモデルについても、異なるアーティファクト、すなわち異なるモデルが自動モデル変換を介してリンクされる状況を扱う必要がある。 本稿では,ソースモデルの複数バージョンを対象モデルの対応するバージョンに変換するための共同処理手法を提案する。 我々のアプローチは、トリプルグラフ文法のよく知られた形式主義と、前述のマルチバージョンモデルと呼ばれるモデルバージョン履歴の符号化に基づいている。 モデルバージョン履歴全体のバッチ変換に加えて、マルチバージョンモデルのフレームワークにおける変更の漸進的同期もカバーしている。 本稿では,三重グラフ文法の標準的な意味論に対するアプローチの正しさを示し,実行時間とメモリ消費に関する手法の性能を実証的に評価する。 提案手法はメモリ消費を低減し,大規模なバージョン履歴のバッチ変換の実行時間を改善できるが,不都合なケースでは計算オーバーヘッドも生じる可能性がある。

Like conventional software projects, projects in model-driven software engineering require adequate management of multiple versions of development artifacts, importantly allowing living with temporary inconsistencies. In previous work, multi-version models for model-driven software engineering have been introduced, which allow checking well-formedness and finding merge conflicts for multiple versions of a model at once. However, also for multi-version models, situations where different artifacts, that is, different models, are linked via automatic model transformations have to be handled. In this paper, we propose a technique for jointly handling the transformation of multiple versions of a source model into corresponding versions of a target model, which enables the use of a more compact representation that may afford improved execution time of both the transformation and further analysis operations. Our approach is based on the well-known formalism of triple graph grammars and the aforementioned encoding of model version histories called multi-version models. In addition to batch transformation of an entire model version history, the technique also covers incremental synchronization of changes in the framework of multi-version models. We show the correctness of our approach with respect to the standard semantics of triple graph grammars and conduct an empirical evaluation to investigate the performance of our technique regarding execution time and memory consumption. Our results indicate that the proposed technique affords lower memory consumption and may improve execution time for batch transformation of large version histories, but can also come with computational overhead in unfavorable cases.
翻訳日:2023-10-23 18:13:23 公開日:2023-07-07
# コードレビューフィードバックの自動分類と分析支援に向けて

Towards Automated Classification of Code Review Feedback to Support Analytics ( http://arxiv.org/abs/2307.03852v1 )

ライセンス: Link先を確認
Asif Kamal Turzo and Fahim Faysal and Ovi Poddar and Jaydeb Sarker and Anindya Iqbal and Amiangshu Bosu(参考訳) 背景: 多くのソフトウェア開発組織において、コードレビュー(CR)の有効性の改善が優先されているため、プロジェクトは潜在的な改善領域を特定するためにCR分析プラットフォームをデプロイしました。 CRの有効性を測定する重要な指標である識別された問題の数は、すべての問題が同じビンに置かれている場合、誤解を招く可能性がある。 したがって、CRで特定された問題のよりきめ細かい分類は、CRの有効性を改善するための実用的な洞察を与えることができる。 Fregnanらによる最近の研究は、CRによる変化を分類する自動化モデルを提案したが、2つの潜在的な改善領域に気づいた。 一 変更を誘発しないコメントを分類し、 二 ディープニューラルネットワーク(DNN)とコードコンテキストを併用して性能を向上させること。 Aims: 本研究の目的は、DNNモデルを活用してFregnanなどよりも信頼性の高いパフォーマンスを実現する自動CRコメント分類器の開発です。 方法: 1,828のCRコメントを手動でラベル付けしたデータセットを用いて,コードコンテキスト,コメントテキスト,コードメトリクスのセットを活用した教師付き学習ベースDNNモデルのトレーニングと評価を行い,CRコメントをTurzoとBosuが提案した5つのハイレベルカテゴリの1つに分類した。 結果: トークン化アプローチを複数組み合わせた10倍のクロスバリデーションに基づく評価から, CodeBERT を用いたモデルが59.3%の精度で得られた。 提案手法はFregnanらのアプローチよりも18.7%高い精度を実現している。 結論: 改良されたcr分析の促進に加えて,提案するモデルは,コードレビューのフィードバックの優先順位付けやレビュアーの選択において,開発者にとって有用である。

Background: As improving code review (CR) effectiveness is a priority for many software development organizations, projects have deployed CR analytics platforms to identify potential improvement areas. The number of issues identified, which is a crucial metric to measure CR effectiveness, can be misleading if all issues are placed in the same bin. Therefore, a finer-grained classification of issues identified during CRs can provide actionable insights to improve CR effectiveness. Although a recent work by Fregnan et al. proposed automated models to classify CR-induced changes, we have noticed two potential improvement areas -- i) classifying comments that do not induce changes and ii) using deep neural networks (DNN) in conjunction with code context to improve performances. Aims: This study aims to develop an automated CR comment classifier that leverages DNN models to achieve a more reliable performance than Fregnan et al. Method: Using a manually labeled dataset of 1,828 CR comments, we trained and evaluated supervised learning-based DNN models leveraging code context, comment text, and a set of code metrics to classify CR comments into one of the five high-level categories proposed by Turzo and Bosu. Results: Based on our 10-fold cross-validation-based evaluations of multiple combinations of tokenization approaches, we found a model using CodeBERT achieving the best accuracy of 59.3%. Our approach outperforms Fregnan et al.'s approach by achieving 18.7% higher accuracy. Conclusion: Besides facilitating improved CR analytics, our proposed model can be useful for developers in prioritizing code review feedback and selecting reviewers.
翻訳日:2023-10-23 18:05:30 公開日:2023-07-07
# LemonsからPeachesへ - セキュリティカオスエンジニアリングによるセキュリティROIの改善

From Lemons to Peaches: Improving Security ROI through Security Chaos Engineering ( http://arxiv.org/abs/2307.03796v1 )

ライセンス: Link先を確認
Kelly Shortridge(参考訳) 従来の情報セキュリティは、roiが貧弱であることを示している。 攻撃が避けられない現実では、サブパーリターンは避けられない。 セキュリティカオスエンジニアリングの新たなパラダイムは、攻撃の影響を最小限に抑え、システム設計と運用の継続的な改善を知らせる価値のある証拠を生み出すことによって、より報酬と信頼性の高いroiを提供する。

Traditional information security presents a poor ROI: payoffs only manifest when attacks are successfully prevented. In a reality where attacks are inevitable, subpar returns are therefore inevitable. The emerging paradigm of Security Chaos Engineering offers a more remunerative and reliable ROI by minimizing attack impacts and generating valuable evidence to inform continuous improvement of system design and operation.
翻訳日:2023-10-23 18:05:03 公開日:2023-07-07
# モデルベーステストにおける構成性

Compositionality in Model-Based Testing ( http://arxiv.org/abs/2307.03701v1 )

ライセンス: Link先を確認
Gijs van Cuyck, Lars van Arragon, Jan Tretmans(参考訳) モデルベーステスト(MBT)は、モデルが利用可能であれば、大規模システムをテストするためのスケーラブルなソリューションを約束する。 しかし、大規模システム向けにこれらのモデルを作成することは困難であることが証明されている。 しかし、現在のmbt適合関係 $\textbf{uioco}$ は構成的ではない。つまり、正しくテストされたコンポーネントは、システムを構成すると、障害のあるシステムにつながる可能性がある。 これらの統合問題を解決するために、$\textbf{mutual accept}$と呼ばれるコンポーネントモデルに新しい関係を導入する。 相互に受け入れられるコンポーネントは正しく通信することが保証され、mbtは構成される。 構成性の提供に加えて、相互受入は、更新されたコンポーネントでシステムを再テストしたり、コンポーネントからなるシステムを診断する場合に利点がある。

Model-based testing (MBT) promises a scalable solution to testing large systems, if a model is available. Creating these models for large systems, however, has proven to be difficult. Composing larger models from smaller ones could solve this, but our current MBT conformance relation $\textbf{uioco}$ is not compositional, i.e. correctly tested components, when composed into a system, can still lead to a faulty system. To catch these integration problems, we introduce a new relation over component models called $\textbf{mutual acceptance}$. Mutually accepting components are guaranteed to communicate correctly, which makes MBT compositional. In addition to providing compositionality, mutual acceptance has benefits when retesting systems with updated components, and when diagnosing systems consisting of components.
翻訳日:2023-10-23 18:04:36 公開日:2023-07-07
# 自律エージェントの社会的・法的・倫理的・共感的・文化的要件の特定・検証・検証

Specification, Validation and Verification of Social, Legal, Ethical, Empathetic and Cultural Requirements for Autonomous Agents ( http://arxiv.org/abs/2307.03697v1 )

ライセンス: Link先を確認
Sinem Getir Yaman, Ana Cavalcanti, Radu Calinescu, Colin Paterson, Pedro Ribeiro, and Beverley Townsend(参考訳) 自律エージェントは、医療、補助医療、教育、および複雑な人間中心の規範によって制御される他のアプリケーションでの使用のためにますます提案されている。 これらの規範に準拠することを保証するためには、それらのルールを曖昧に定義し、一貫性を確認し、エージェントを検証する必要がある。 本稿では,自律エージェントのための社会的,法的,倫理的,共感的,文化的(sleec)ルールの形式的仕様,検証,検証の枠組みを提案する。 私たちのフレームワークは i) SLEEC規則及びルール敗者(すなわち規則が適用されない状況又は規則の代替形態が要求される状況)を指定するための言語 (ii)言語に対する形式的意味論(プロセス代数 tock-CSP で定義される) 三 一連の規則の範囲内で紛争及び冗長性を検知し、かつ、これらの規則による自律エージェントの遵守を検証する方法。 本稿では,消防士UAVと補助装具ロボットの2つの自律型エージェントの枠組みの適用性を示す。

Autonomous agents are increasingly being proposed for use in healthcare, assistive care, education, and other applications governed by complex human-centric norms. To ensure compliance with these norms, the rules they induce need to be unambiguously defined, checked for consistency, and used to verify the agent. In this paper, we introduce a framework for formal specification, validation and verification of social, legal, ethical, empathetic and cultural (SLEEC) rules for autonomous agents. Our framework comprises: (i) a language for specifying SLEEC rules and rule defeaters (that is, circumstances in which a rule does not apply or an alternative form of the rule is required); (ii) a formal semantics (defined in the process algebra tock-CSP) for the language; and (iii) methods for detecting conflicts and redundancy within a set of rules, and for verifying the compliance of an autonomous agent with such rules. We show the applicability of our framework for two autonomous agents from different domains: a firefighter UAV, and an assistive-dressing robot.
翻訳日:2023-10-23 18:04:23 公開日:2023-07-07
# AIとEUデジタル市場法 - 生成AIにおけるビッグネスのリスクに対処する

AI and the EU Digital Markets Act: Addressing the Risks of Bigness in Generative AI ( http://arxiv.org/abs/2308.02033v1 )

ライセンス: Link先を確認
Ayse Gizem Yasar, Andrew Chong, Evan Dong, Thomas Krendl Gilbert, Sarah Hladikova, Roland Maio, Carlos Mougan, Xudong Shen, Shubham Singh, Ana-Andreea Stoica, Savannah Thais, Miri Zilka(参考訳) ai技術が急速に進歩するにつれて、デジタル市場の巨大さのリスクに対する懸念も高まっている。 EUのデジタル市場法(DMA)は、これらのリスクに対処することを目的としている。 それでも、現在のフレームワークは、AIベースのサービスのゲートウェイになる可能性のある生成AIシステムを十分にカバーしていないかもしれない。 本稿では、特定のAIソフトウェアをコアプラットフォームサービスとして統合し、特定の開発者をDMAの下でゲートキーパーとして分類する。 また、生成AIサービスをカバーするためのゲートキーパー義務の評価も提案する。 EUは、生成AI固有のルールとDMA修正の可能性を検討するため、生成AIサービスの多様性とオープン性に関する洞察を提供する。

As AI technology advances rapidly, concerns over the risks of bigness in digital markets are also growing. The EU's Digital Markets Act (DMA) aims to address these risks. Still, the current framework may not adequately cover generative AI systems that could become gateways for AI-based services. This paper argues for integrating certain AI software as core platform services and classifying certain developers as gatekeepers under the DMA. We also propose an assessment of gatekeeper obligations to ensure they cover generative AI services. As the EU considers generative AI-specific rules and possible DMA amendments, this paper provides insights towards diversity and openness in generative AI services.
翻訳日:2023-08-14 01:57:48 公開日:2023-07-07
# 盲目の人工眼

Artificial Eye for the Blind ( http://arxiv.org/abs/2308.00801v1 )

ライセンス: Link先を確認
Abhinav Benagi, Dhanyatha Narayan, Charith Rage, A Sushmitha(参考訳) 私たちの人工眼モデルの主なバックボーンはraspberry pi3で、webカメラ、ウルトラソニック近接センサー、スピーカーに接続しています。また、物体検出、光文字認識、google text to speech conversion、mycroft voice assistance modelといったソフトウェアモデルもすべて実行しています。 まず、超音波近接センサーは、自分自身と目の前の障害物の間の距離を測定する。 Proximityセンサーが特定の範囲内で前方の障害物を検知すると、盲人は一定の距離で障害物に関する音声のプロンプトを耳にします。 この時点でwebカメラは、その前の画像をキャプチャし、オブジェクト検出モデルと光学式文字認識モデルがraspberry pi上で動作し始める。 盲目の人のイマト。 検出されたテキストとオブジェクトは、まず、画像中の任意のテキストを検出するためにTesseract OCRモジュールを介して送信され、その後、オブジェクト検出モデルを介して、gTTSモジュールを使用してテキストを音声に変換することにより、fronrson内のオブジェクトを検出する。 上記のプロセスとともに、盲人との対話に使用できるアクティブなMYCROFT音声アシスタントモデルが提供される。 盲目の人は天気や日報、インターネット上のあらゆる情報、etcについて尋ねることができる。

The main backbone of our Artificial Eye model is the Raspberry pi3 which is connected to the webcam ,ultrasonic proximity sensor, speaker and we also run all our software models i.e object detection, Optical Character recognition, google text to speech conversion and the Mycroft voice assistance model. At first the ultrasonic proximity sensor will be measuring the distance between itself and any obstacle in front of it .When the Proximity sensor detects any obstacle in front within its specified range, the blind person will hear an audio prompt about an obstacle in his way at a certain distance. At this time the Webcam will capture an image in front of it and the Object detection model and the Optical Character Recognition model will begin to run on the Raspberry pi. The imat of the blind person. The text and the object detected are conveyed to the blind pege captured is first sent through the Tesseract OCR module to detect any texts in the image and then through the Object detection model to detect the objects in fronrson by converting the texts to speech by using the gTTS module. Along with the above mentioned process going on there will be an active MYCROFT voice assistant model which can be used to interact with the blind person. The blind person can ask about the weather , daily news , any information on the internet ,etc
翻訳日:2023-08-06 11:03:45 公開日:2023-07-07
# BlockCampus:E-JUST大学における学生のエンゲージメントとリワードメカニズムを強化するブロックチェーンベースのDアプリケーション

BlockCampus: A Blockchain-Based DApp for enhancing Student Engagement and Reward Mechanisms in an Academic Community for E-JUST University ( http://arxiv.org/abs/2307.11662v1 )

ライセンス: Link先を確認
Mariam Ayman, Youssef El-harty, Ahmed Rashed, Ahmed Fathy, Ahmed Abdullah, Omar Wassim, Walid Gomaa(参考訳) 今日のデジタル時代には、オンラインコミュニティは私たちの生活の不可欠な部分となり、コラボレーション、知識共有、コミュニティエンゲージメントを育みます。 特に高等教育機関は、学術的な議論を促進し、積極的に参加するためのインセンティブを提供する専用プラットフォームから大きな恩恵を受けることができる。 本稿では,E-JUST(エジプト・日本科学技術大学)の学生や学術スタッフを対象に,ブロックチェーン技術を活用した分散アプリケーション(DApp)の包括的な研究と実装について述べる。

In today's digital age, online communities have become an integral part of our lives, fostering collaboration, knowledge sharing, and community engagement. Higher education institutions, in particular, can greatly benefit from dedicated platforms that facilitate academic discussions and provide incentives for active participation. This research paper presents a comprehensive study and implementation of a decentralized application (DApp) leveraging the blockchain technology to address these needs specifically for E-JUST (Egypt-Japan University of Science and Technology) students and academic staff.
翻訳日:2023-07-30 04:26:45 公開日:2023-07-07
# 脳ネットワークの分類のためのコントラストグラフプーリング

Contrastive Graph Pooling for Explainable Classification of Brain Networks ( http://arxiv.org/abs/2307.11133v1 )

ライセンス: Link先を確認
Jiaxing Xu, Qingtian Bian, Xinhang Li, Aihu Zhang, Yiping Ke, Miao Qiao, Wei Zhang, Wei Khang Jeremy Sim, and Bal\'azs Guly\'as(参考訳) 機能的磁気共鳴イメージング(fMRI)は神経活動を測定するために一般的に用いられる技術である。 その応用は、パーキンソン病、アルツハイマー病、自閉症などの神経変性疾患の診断において特に重要である。 最近のfmriデータ解析は、脳をグラフとしてモデル化し、グラフニューラルネットワーク(gnns)によって特徴を抽出する。 しかし、fMRIデータの特徴はGNNの特別な設計を必要とする。 効果的なドメイン記述可能な機能を生成するためにGNNを配置することは依然として難しい。 本稿では,fmri特有の要求を満たす脳ネットワークにおいてgnnをより効果的に活用するために,コントラストブロックとコントラストプールと呼ばれる微分可能なグラフプーリング手法を提案する。 本手法を3つの疾患の5つの静止状態fMRI脳ネットワークデータセットに適用し、最先端のベースラインよりも優れていることを示す。 本研究は,本手法で抽出したパターンが,神経科学文献の領域知識と一致していることを確認し,直接的かつ興味深い知見を開示する。 我々の貢献は、脳ネットワークと神経変性状態の理解を深めるためのContrastPoolの可能性を強調します。

Functional magnetic resonance imaging (fMRI) is a commonly used technique to measure neural activation. Its application has been particularly important in identifying underlying neurodegenerative conditions such as Parkinson's, Alzheimer's, and Autism. Recent analysis of fMRI data models the brain as a graph and extracts features by graph neural networks (GNNs). However, the unique characteristics of fMRI data require a special design of GNN. Tailoring GNN to generate effective and domain-explainable features remains challenging. In this paper, we propose a contrastive dual-attention block and a differentiable graph pooling method called ContrastPool to better utilize GNN for brain networks, meeting fMRI-specific requirements. We apply our method to 5 resting-state fMRI brain network datasets of 3 diseases and demonstrate its superiority over state-of-the-art baselines. Our case study confirms that the patterns extracted by our method match the domain knowledge in neuroscience literature, and disclose direct and interesting insights. Our contributions underscore the potential of ContrastPool for advancing the understanding of brain networks and neurodegenerative conditions.
翻訳日:2023-07-30 04:26:33 公開日:2023-07-07
# 説明可能性法によるロッキーチケット仮説の探索:スパースネットワーク性能の考察

Exploring the Lottery Ticket Hypothesis with Explainability Methods: Insights into Sparse Network Performance ( http://arxiv.org/abs/2307.13698v1 )

ライセンス: Link先を確認
Shantanu Ghosh, Kayhan Batmanghelich(参考訳) 大規模なニューラルネットワーク内で高いパフォーマンスのスパースネットワークを発見することは、携帯電話などの限られたストレージを持つデバイスにそれらをデプロイする上で有利である。 さらに、モデル説明可能性はAIへの信頼を促進する上で不可欠である。 Lottery Ticket hypothesis (LTH)は、元のモデルに匹敵するあるいは優れた性能を持つディープネットワーク内のネットワークを見つける。 しかし、説明可能性の観点からlthの成功や失敗についての研究は限られている。 本研究では, 刈り取られたネットワークの性能が徐々に向上するか, 低下するかを検討する。 grad-cam と post-hoc concept bottleneck models (pcbms) を用いて,pruned network の画素と高レベル概念による説明可能性について検討した。 視覚および医用画像データセットにまたがる広範な実験を行う。 重みが増すにつれて、ネットワークの性能は低下する。 切断されたネットワークから発見された概念とピクセルは、元のネットワークと矛盾している。

Discovering a high-performing sparse network within a massive neural network is advantageous for deploying them on devices with limited storage, such as mobile phones. Additionally, model explainability is essential to fostering trust in AI. The Lottery Ticket Hypothesis (LTH) finds a network within a deep network with comparable or superior performance to the original model. However, limited study has been conducted on the success or failure of LTH in terms of explainability. In this work, we examine why the performance of the pruned networks gradually increases or decreases. Using Grad-CAM and Post-hoc concept bottleneck models (PCBMs), respectively, we investigate the explainability of pruned networks in terms of pixels and high-level concepts. We perform extensive experiments across vision and medical imaging datasets. As more weights are pruned, the performance of the network degrades. The discovered concepts and pixels from the pruned networks are inconsistent with the original network -- a possible reason for the drop in performance.
翻訳日:2023-07-30 04:07:30 公開日:2023-07-07
# 主観的データに対する主観的集団分離:人口レベルの学習による意味のある集団分離

Subjective Crowd Disagreements for Subjective Data: Uncovering Meaningful CrowdOpinion with Population-level Learning ( http://arxiv.org/abs/2307.10189v1 )

ライセンス: Link先を確認
Tharindu Cyril Weerasooriya, Sarah Luger, Saloni Poddar, Ashiqur R. KhudaBukhsh, Christopher M. Homan(参考訳) 人間のアノテートされたデータは、人生を変える決定や、人間が作成したweb/ソーシャルメディアコンテンツのモデレートなど、aiシステムの公正性において重要な役割を果たす。 伝統的に、アノテータの不一致は学習が行われる前に解決される。 しかし、研究者はアノテーションの不一致が広範で意味のあるものであると認識している。 また、アノテータが同意しない場合、システムのパフォーマンスも疑問視する。 特に少数派の見解が無視されている場合、特にアノテーターの人口で既に過小評価されているかもしれないグループの間では特にである。 本稿では,言語特徴とラベル分布を用いて類似項目をラベル分布のより大きなサンプルにまとめる,教師なし学習に基づくアプローチである ACL 2023} の出版を前提とした "emph{CrowdOpinion}\footnote{Accepted for publication" を紹介する。 ラベル分布と特徴の線形結合に応用した4つの生成と1つの密度に基づくクラスタリング法を実験した。 ソーシャルメディア(Twitter、Gab、Reddit)から公開されている5つのベンチマークデータセット(さまざまなレベルのアノテーションの不一致)を使用します。 また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。 我々は,KL分割を用いたラベル分布予測タスクとして \emph{CrowdOpinion} を評価する。

Human-annotated data plays a critical role in the fairness of AI systems, including those that deal with life-altering decisions or moderating human-created web/social media content. Conventionally, annotator disagreements are resolved before any learning takes place. However, researchers are increasingly identifying annotator disagreement as pervasive and meaningful. They also question the performance of a system when annotators disagree. Particularly when minority views are disregarded, especially among groups that may already be underrepresented in the annotator population. In this paper, we introduce \emph{CrowdOpinion}\footnote{Accepted for publication at ACL 2023}, an unsupervised learning based approach that uses language features and label distributions to pool similar items into larger samples of label distributions. We experiment with four generative and one density-based clustering method, applied to five linear combinations of label distributions and features. We use five publicly available benchmark datasets (with varying levels of annotator disagreements) from social media (Twitter, Gab, and Reddit). We also experiment in the wild using a dataset from Facebook, where annotations come from the platform itself by users reacting to posts. We evaluate \emph{CrowdOpinion} as a label distribution prediction task using KL-divergence and a single-label problem using accuracy measures.
翻訳日:2023-07-23 11:38:01 公開日:2023-07-07
# 自然言語処理によるマルウェア分類

A Natural Language Processing Approach to Malware Classification ( http://arxiv.org/abs/2307.11032v1 )

ライセンス: Link先を確認
Ritik Mehta and Olha Jure\v{c}kov\'a and Mark Stamp(参考訳) 多くの異なる機械学習とディープラーニング技術がマルウェアの検出と分類に成功している。 マルウェア領域における一般的な学習技術としては、HMM(Hidden Markov Models)、RF(Random Forests)、CNN(Convolutional Neural Networks)、SVM(Support Vector Machines)、Long Short-Term Memory(LSTM)ネットワークのようなリカレントニューラルネットワーク(Recurrent Neural Networks)などがある。 本研究では,HMMがオプコードシーケンスで訓練されるハイブリッドアーキテクチャについて考察し,これらの訓練されたHMMの隠れ状態は,様々な分類器の特徴ベクトルとして使用される。 この文脈では、HMM隠れ状態列を抽出することは、自然言語処理(NLP)で一般的に用いられる技術と幾分類似した特徴工学の一形態と見なすことができる。 このNLPベースのアプローチは、HMM-Random Forrestモデルが最良の結果をもたらすため、挑戦的なマルウェアデータセット上で、他の一般的なテクニックよりも優れています。

Many different machine learning and deep learning techniques have been successfully employed for malware detection and classification. Examples of popular learning techniques in the malware domain include Hidden Markov Models (HMM), Random Forests (RF), Convolutional Neural Networks (CNN), Support Vector Machines (SVM), and Recurrent Neural Networks (RNN) such as Long Short-Term Memory (LSTM) networks. In this research, we consider a hybrid architecture, where HMMs are trained on opcode sequences, and the resulting hidden states of these trained HMMs are used as feature vectors in various classifiers. In this context, extracting the HMM hidden state sequences can be viewed as a form of feature engineering that is somewhat analogous to techniques that are commonly employed in Natural Language Processing (NLP). We find that this NLP-based approach outperforms other popular techniques on a challenging malware dataset, with an HMM-Random Forrest model yielding the best results.
翻訳日:2023-07-23 11:09:56 公開日:2023-07-07
# 工学的光学とミラーバイステイビリティ

Engineering Optical and Mirror Bi-stability Mechanically ( http://arxiv.org/abs/2307.05723v1 )

ライセンス: Link先を確認
Sohail Ahmed, Asma Javaid, Hui Jing, and Farhan Saif(参考訳) 強いレーザ駆動場と弱いプローブ場の存在下でのハイブリッド光機械システムにおける光学およびミラーの変位特性について説明する。 可動ミラーに外部変調フィールドを選択的に適用する。 光学的・鏡的変位双安定挙動を制御するために, 光学的結合, 電気機械的クーロン結合, 外部変調場の振幅と位相が重要なパラメータであることを示す。 パラメータ値は、現在利用可能な実験に従って取られる。 本研究は、外部機械式ポンプの光機械的およびクーロン結合、周波数、しきい値パワー、振幅および位相に応じて、調整可能な電気光学式機械式スイッチの実現に応用できる。

We explain optical and mirrors displacement bistability in a hybrid optomechanical system in the presence of a strong laser driving field and a weak probe field. External modulating fields are applied selectively on movable mirrors. We show that the optomechanical coupling, electromechanical Coulomb coupling and, amplitude & phase of external modulating fields are important parameters to control the optical and mirror displacement bistable behaviour. The parameters values are taken according to presently available experiments. The study may be applied to the realization of a tunable electro opto mechanical switch depending on the optomechanical and Coulomb coupling, frequencies, threshold power, and the amplitude and phase of external mechanical pumps.
翻訳日:2023-07-16 03:25:40 公開日:2023-07-07
# ユーザ識別のためのキーストロークダイナミクス

Keystroke Dynamics for User Identification ( http://arxiv.org/abs/2307.05529v1 )

ライセンス: Link先を確認
Atharva Sharma and Martin Jure\v{c}ek and Mark Stamp(参考訳) これまでの研究では、キーストロークダイナミクスは固定テキストデータとフリーテキストデータの両方に基づいてユーザー認証を約束している。 本研究では,自由テキストデータに基づいて,より困難なマルチクラスユーザ識別問題を考える。 我々は、これまでフリーテキストデータによる最先端の認証結果を達成するために用いられてきた複雑な画像のような機能の実験を行った。 このイメージライクな特徴とマルチクラス畳み込みニューラルネットワークを用いて、128人のユーザに対して0.78の分類(識別)の精度を得ることができる。 しかし、この特徴のわずかに修正されたバージョンで訓練されたランダムフォレスト分類器は精度0.93となる。

In previous research, keystroke dynamics has shown promise for user authentication, based on both fixed-text and free-text data. In this research, we consider the more challenging multiclass user identification problem, based on free-text data. We experiment with a complex image-like feature that has previously been used to achieve state-of-the-art authentication results over free-text data. Using this image-like feature and multiclass Convolutional Neural Networks, we are able to obtain a classification (i.e., identification) accuracy of 0.78 over a set of 148 users. However, we find that a Random Forest classifier trained on a slightly modified version of this same feature yields an accuracy of 0.93.
翻訳日:2023-07-16 03:25:02 公開日:2023-07-07
# 生成音響モデルの倫理的意味:体系的文献レビュー

The Ethical Implications of Generative Audio Models: A Systematic Literature Review ( http://arxiv.org/abs/2307.05527v1 )

ライセンス: Link先を確認
Julia Barnett(参考訳) 生成型オーディオモデルは通常、音楽や音声生成に応用され、最近のモデルは音声出力に人間のような品質を持つ。 本稿では,この分野の研究者が潜在的な否定的影響を検討する程度を定量化し,この分野の研究者が考慮すべき倫理的影響の種類を特定するため,生成音声モデル分野における854論文の体系的文献レビューを行う。 生成的オーディオ研究の65%は、作品の潜在的影響について言及しているが、10%未満は否定的な影響について論じていない。 不正やディープフェイク、著作権侵害など、幅広い分野に関連する重大な倫理的影響や懸念を提起する論文が少数存在することから、このネガティブな影響を考慮に入れた論文のごく一部が特に懸念されている。 生成音声研究における倫理的考察の欠如を定量化し,潜在的危害の重要領域を特定することにより,この分野が進展するにつれて,より良心的な研究を導くために,この分野における今後の研究の土台を決定づける。

Generative audio models typically focus their applications in music and speech generation, with recent models having human-like quality in their audio output. This paper conducts a systematic literature review of 884 papers in the area of generative audio models in order to both quantify the degree to which researchers in the field are considering potential negative impacts and identify the types of ethical implications researchers in this area need to consider. Though 65% of generative audio research papers note positive potential impacts of their work, less than 10% discuss any negative impacts. This jarringly small percentage of papers considering negative impact is particularly worrying because the issues brought to light by the few papers doing so are raising serious ethical implications and concerns relevant to the broader field such as the potential for fraud, deep-fakes, and copyright infringement. By quantifying this lack of ethical consideration in generative audio research and identifying key areas of potential harm, this paper lays the groundwork for future work in the field at a critical point in time in order to guide more conscientious research as this field progresses.
翻訳日:2023-07-16 03:24:50 公開日:2023-07-07
# 機械学習による電極製造最適化による高性能エネルギー・電力電池の実現に向けて

Toward High-Performance Energy and Power Battery Cells with Machine Learning-based Optimization of Electrode Manufacturing ( http://arxiv.org/abs/2307.05521v1 )

ライセンス: Link先を確認
Marc Duquesnoy, Chaoyue Liu, Vishank Kumar, Elixabete Ayerbe, Alejandro A. Franco(参考訳) 電極製造プロセスの最適化は、リチウムイオン電池(libs)のエネルギー需要増加に対応する応用のスケールアップに重要である。 特に、LIB製造は、電気自動車などの応用において、セルの実用性能を決定するため、最適化することが非常に重要である。 本研究では,電気化学性能の2目的最適化のための決定論的機械学習(ml)支援パイプラインによる強力なデータ駆動アプローチを提案することで,所望のバッテリ適用条件に対する高性能電極の課題に取り組んだ。 このMLパイプラインは、エネルギーまたは電力用途の電極を製造するためにプロセスパラメーターの逆設計を可能にする。 後者の研究は, 運動, イオン, 電子輸送特性向上のための電極微細構造の最適化を支援するこれまでの研究と類似している。 電気化学的擬二次元モデルに、製造シミュレーションにより生じる電極微細構造を特徴付ける電極特性を供給し、電気化学的性能をシミュレートする。 第二に、得られたデータセットは決定論的mlモデルをトレーニングし、最適な電極を識別するための高速双方向最適化を実装した。 以上の結果から, 高活性物質とスラリー中の固形物含量の中間値, キャレンダリング度を組み合わせることで, 最適電極を得ることができた。

The optimization of the electrode manufacturing process is important for upscaling the application of Lithium Ion Batteries (LIBs) to cater for growing energy demand. In particular, LIB manufacturing is very important to be optimized because it determines the practical performance of the cells when the latter are being used in applications such as electric vehicles. In this study, we tackled the issue of high-performance electrodes for desired battery application conditions by proposing a powerful data-driven approach supported by a deterministic machine learning (ML)-assisted pipeline for bi-objective optimization of the electrochemical performance. This ML pipeline allows the inverse design of the process parameters to adopt in order to manufacture electrodes for energy or power applications. The latter work is an analogy to our previous work that supported the optimization of the electrode microstructures for kinetic, ionic, and electronic transport properties improvement. An electrochemical pseudo-two-dimensional model is fed with the electrode properties characterizing the electrode microstructures generated by manufacturing simulations and used to simulate the electrochemical performances. Secondly, the resulting dataset was used to train a deterministic ML model to implement fast bi-objective optimizations to identify optimal electrodes. Our results suggested a high amount of active material, combined with intermediate values of solid content in the slurry and calendering degree, to achieve the optimal electrodes.
翻訳日:2023-07-16 03:24:29 公開日:2023-07-07
# DLモデルとトレーニング環境はエネルギー消費に影響を及ぼすか?

Do DL models and training environments have an impact on energy consumption? ( http://arxiv.org/abs/2307.05520v1 )

ライセンス: Link先を確認
Santiago del Rey, Silverio Mart\'inez-Fern\'andez, Lu\'is Cruz, Xavier Franch(参考訳) 最近のコンピュータビジョン分野の研究は、深層学習(dl)の正確性と推論時間パフォーマンスの改善に重点を置いている。 しかし、dlモデルをトレーニングする巨大なカーボンフットプリントの作業はまだほとんどありません。 本研究の目的は,グリーンコンピュータビジョンモデルの学習におけるモデルアーキテクチャと学習環境の影響を分析することである。 私たちはこの目標を2つの研究課題に分ける。 まず, 最適レベルに正確性を維持しつつ, グリーンモデル達成に対するモデルアーキテクチャの影響を分析する。 第2に, 学習環境がグリーンモデル形成に及ぼす影響について検討した。 これらの関係を調べるために,モデルのトレーニング中にエネルギー効率とモデルの正しさに関する複数の指標を収集する。 次に,実測エネルギー効率とモデルアーキテクチャに関するモデルの正確性とのトレードオフと,それらの訓練環境との関係について概説する。 我々はこの研究を,画像分類のためのコンピュータビジョンシステムの文脈で実施する。 その結果、適切なモデルアーキテクチャとトレーニング環境を選択することで、正確性を損なうことなくエネルギー消費量を劇的に削減(最大98.83\%)できることがわかった。 また、GPUがよりエネルギー効率を高めるために、モデルの計算複雑性とともにスケールすべきであることを示す。

Current research in the computer vision field mainly focuses on improving Deep Learning (DL) correctness and inference time performance. However, there is still little work on the huge carbon footprint that has training DL models. This study aims to analyze the impact of the model architecture and training environment when training greener computer vision models. We divide this goal into two research questions. First, we analyze the effects of model architecture on achieving greener models while keeping correctness at optimal levels. Second, we study the influence of the training environment on producing greener models. To investigate these relationships, we collect multiple metrics related to energy efficiency and model correctness during the models' training. Then, we outline the trade-offs between the measured energy efficiency and the models' correctness regarding model architecture, and their relationship with the training environment. We conduct this research in the context of a computer vision system for image classification. In conclusion, we show that selecting the proper model architecture and training environment can reduce energy consumption dramatically (up to 98.83\%) at the cost of negligible decreases in correctness. Also, we find evidence that GPUs should scale with the models' computational complexity for better energy efficiency.
翻訳日:2023-07-16 03:24:07 公開日:2023-07-07
# ロバストな人工知能支援癌診断のためのデジタル病理スキャナーの物理色校正

Physical Color Calibration of Digital Pathology Scanners for Robust Artificial Intelligence Assisted Cancer Diagnosis ( http://arxiv.org/abs/2307.05519v1 )

ライセンス: Link先を確認
Xiaoyi Ji, Richard Salmon, Nita Mulliqi, Umair Khan, Yinxi Wang, Anders Blilie, Henrik Olsson, Bodil Ginnerup Pedersen, Karina Dalsgaard S{\o}rensen, Benedicte Parm Ulh{\o}i, Svein R Kjosavik, Emilius AM Janssen, Mattias Rantalainen, Lars Egevad, Pekka Ruusuvuori, Martin Eklund, Kimmo Kartasalo(参考訳) デジタル病理学における人工知能(AI)のポテンシャルは、スライド画像全体(WSI)の製造における技術的不整合によって制限され、AIのパフォーマンスが低下し、新しいサイトの微調整アルゴリズムとして広く臨床応用される上での課題となる。 画像のワークフローの変化は、患者の診断と安全性のリスクを損なう可能性がある。 スキャナのカラーキャリブレーションがWSIの外観を標準化し、堅牢なAI性能を実現することができるかどうかを評価した。 4つの異なる研究室でカラーキャリブレーションスライドを実施し,1,161wsisの前立腺癌診断におけるaiシステムの性能評価を行った。 カラー標準化により、AIモデルのキャリブレーションが一貫して改善され、グリーソングレーディング性能が大幅に改善された。 この研究は、物理的カラーキャリブレーションが、異なるスキャナーによってもたらされるバリエーションの潜在的な解決策となり、aiベースのがん診断をより信頼性が高く、臨床環境に適用できることを示した。

The potential of artificial intelligence (AI) in digital pathology is limited by technical inconsistencies in the production of whole slide images (WSIs), leading to degraded AI performance and posing a challenge for widespread clinical application as fine-tuning algorithms for each new site is impractical. Changes in the imaging workflow can also lead to compromised diagnoses and patient safety risks. We evaluated whether physical color calibration of scanners can standardize WSI appearance and enable robust AI performance. We employed a color calibration slide in four different laboratories and evaluated its impact on the performance of an AI system for prostate cancer diagnosis on 1,161 WSIs. Color standardization resulted in consistently improved AI model calibration and significant improvements in Gleason grading performance. The study demonstrates that physical color calibration provides a potential solution to the variation introduced by different scanners, making AI-based cancer diagnostics more reliable and applicable in clinical settings.
翻訳日:2023-07-16 03:23:48 公開日:2023-07-07
# 物語パズルゲームにおける難易度適応ルールの手続き的生成

Procedurally generating rules to adapt difficulty for narrative puzzle games ( http://arxiv.org/abs/2307.05518v1 )

ライセンス: Link先を確認
Thomas Volden, Djordje Grbic, Paolo Burelli(参考訳) 本稿では,規則を手続き的に生成し,難易度を調整するためにプレイヤーに伝達することに焦点を当てる。 これは幼稚園向けのデジタルパズルゲームを使って幼児向けの教育ゲームでゲームを収集し、適応させるためのより大きなプロジェクトの一部である。 遺伝的アルゴリズムは、解集合のターゲット数を見つけるための難易度尺度と共に用いられ、大きな言語モデルは、物語の文脈で規則を伝えるために使用される。 テスト中、アプローチは目標の難易度を平均して20世代以内に近似するルールを見つけることができた。 このアプローチは、大きな言語モデルと組み合わされて、プレイヤーがうまくいかない動物のために夕食をホストしなければならない物語パズルゲームを作成した。 今後の実験では、評価の改善、児童文学の言語モデル専門化、プレイヤーからのマルチモーダルデータを収集して適応を導く。

This paper focuses on procedurally generating rules and communicating them to players to adjust the difficulty. This is part of a larger project to collect and adapt games in educational games for young children using a digital puzzle game designed for kindergarten. A genetic algorithm is used together with a difficulty measure to find a target number of solution sets and a large language model is used to communicate the rules in a narrative context. During testing the approach was able to find rules that approximate any given target difficulty within two dozen generations on average. The approach was combined with a large language model to create a narrative puzzle game where players have to host a dinner for animals that can't get along. Future experiments will try to improve evaluation, specialize the language model on children's literature, and collect multi-modal data from players to guide adaptation.
翻訳日:2023-07-16 03:23:32 公開日:2023-07-07
# トラヒックフロー予測のための適応グラフ畳み込みネットワーク

Adaptive Graph Convolution Networks for Traffic Flow Forecasting ( http://arxiv.org/abs/2307.05517v1 )

ライセンス: Link先を確認
Zhengdao Li, Wei Li, and Kai Hwang(参考訳) 交通流予測は動的時空間道路条件のために非常に困難な課題である。 グラフニューラルネットワーク(GNN)がこのタスクに広く適用されている。 しかし、これらのGNNのほとんどは、畳み込み受容場の固定範囲による時間変化の道路条件の影響を無視している。 本稿では,この問題に対処する新しい適応グラフ畳み込みネットワーク(AGC-net)を提案する。 AGC-netは、様々な学習可能なスケールのグラフウェーブレットからなる新しいコンテキストアテンション機構に基づいて、Adaptive Graph Convolution (AGC)によって構築される。 AGCは、時間的文脈を考慮した空間グラフ表現を時間感性特徴に変換する。 さらに、シフトグラフ畳み込みカーネルは、不正確なトポロジーに起因する偏差を補正しようとするagcを強化するために設計されている。 AGC-net\footnote{Codeが利用可能であることを示す2つの公開トラフィックデータセットの実験結果は、以下の通りである。

Traffic flow forecasting is a highly challenging task due to the dynamic spatial-temporal road conditions. Graph neural networks (GNN) has been widely applied in this task. However, most of these GNNs ignore the effects of time-varying road conditions due to the fixed range of the convolution receptive field. In this paper, we propose a novel Adaptive Graph Convolution Networks (AGC-net) to address this issue in GNN. The AGC-net is constructed by the Adaptive Graph Convolution (AGC) based on a novel context attention mechanism, which consists of a set of graph wavelets with various learnable scales. The AGC transforms the spatial graph representations into time-sensitive features considering the temporal context. Moreover, a shifted graph convolution kernel is designed to enhance the AGC, which attempts to correct the deviations caused by inaccurate topology. Experimental results on two public traffic datasets demonstrate the effectiveness of the AGC-net\footnote{Code is available at: https://github.com/zhengdaoli/AGC-net} which outperforms other baseline models significantly.
翻訳日:2023-07-16 03:23:17 公開日:2023-07-07
# ファーマー距離:メトリック近似、スペクトル収束、クラスタリングアルゴリズム

Fermat Distances: Metric Approximation, Spectral Convergence, and Clustering Algorithms ( http://arxiv.org/abs/2307.05750v1 )

ライセンス: Link先を確認
Nicol\'as Garc\'ia Trillos, Anna Little, Daniel McKenzie, James M. Murphy(参考訳) 確率測度を持つリーマン多様体上で定義される密度駆動計量の族であるフェルマー距離の収束特性を解析する。 フェルマー距離は、基礎となる測度からの離散的なサンプルで定義され、それらはランダムである場合や、密度歪んだリーマン計量の下で測地学によって誘導される連続体設定で定義することができる。 離散的なサンプルベースのフェルマー距離は、データの本質的な次元とフェルマー距離における密度重み付けの程度を規定するパラメータに依存する正確な速度で、その連続体アナログに収束することを示す。 これは、非一様密度と曲面領域を許容するパーコレーション理論において、新しい幾何学的および統計的議論を活用することによって行われる。 この結果は、離散的なサンプル駆動のフェルマー距離に基づく離散グラフラプラシアンが対応する連続作用素に収束することを証明するために用いられる。 特に、離散固有値と固有ベクトルは、その連続体アナログに次元依存的な速度で収束し、その結果の連続限界からフェルマー距離を用いて離散スペクトルクラスタリングの有効性を解釈することができる。 離散的から連続的なフェルマー距離分析によって得られる視点は、密度駆動スペクトルクラスタリングに関連する効率的な計算に関するデータおよび関連する洞察のための新しいクラスタリングアルゴリズムをもたらす。 本理論解析は,合成および実画像データに関する数値シミュレーションと実験によって支援されている。

We analyze the convergence properties of Fermat distances, a family of density-driven metrics defined on Riemannian manifolds with an associated probability measure. Fermat distances may be defined either on discrete samples from the underlying measure, in which case they are random, or in the continuum setting, in which they are induced by geodesics under a density-distorted Riemannian metric. We prove that discrete, sample-based Fermat distances converge to their continuum analogues in small neighborhoods with a precise rate that depends on the intrinsic dimensionality of the data and the parameter governing the extent of density weighting in Fermat distances. This is done by leveraging novel geometric and statistical arguments in percolation theory that allow for non-uniform densities and curved domains. Our results are then used to prove that discrete graph Laplacians based on discrete, sample-driven Fermat distances converge to corresponding continuum operators. In particular, we show the discrete eigenvalues and eigenvectors converge to their continuum analogues at a dimension-dependent rate, which allows us to interpret the efficacy of discrete spectral clustering using Fermat distances in terms of the resulting continuum limit. The perspective afforded by our discrete-to-continuum Fermat distance analysis leads to new clustering algorithms for data and related insights into efficient computations associated to density-driven spectral clustering. Our theoretical analysis is supported with numerical simulations and experiments on synthetic and real image data.
翻訳日:2023-07-16 03:14:27 公開日:2023-07-07
# 効率的な伝達学習のための解釈モデルへのBlackBoxの蒸留

Distilling BlackBox to Interpretable models for Efficient Transfer Learning ( http://arxiv.org/abs/2305.17303v7 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Kayhan Batmanghelich(参考訳) 一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。 放射線科医は、異常の一般的な記述規則に依存するが、ニューラルネットワーク(nn)モデルは、入力分布(例えばスキャナタイプ)のわずかな変化でも苦しむ。 あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。 本稿では,最小の計算コストで対象領域に効率的に微調整可能な解釈可能なモデルを開発した。 NNの解釈可能なコンポーネントは、ほぼドメイン不変であると仮定する。 しかし、解釈可能なモデルは一般的にブラックボックス(BB)の派生モデルと比べて性能が劣る。 まずソース領域のBBから始まり、人間の理解可能な概念を用いて浅い解釈可能なモデルのemph{mixture}に蒸留する。 各解釈可能なモデルはデータのサブセットをカバーするため、解釈可能なモデルの混合はBBと同等のパフォーマンスを達成する。 さらに、準教師付き学習(SSL)の擬似ラベル技術を用いて、対象領域における概念分類器を学習し、続いて対象領域における解釈可能なモデルを微調整する。 実生活型大規模胸部X線分類データセットを用いて本モデルの評価を行った。 コードは以下の通りである。 \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}。

Building generalizable AI models is one of the primary challenges in the healthcare domain. While radiologists rely on generalizable descriptive rules of abnormality, Neural Network (NN) models suffer even with a slight shift in input distribution (e.g., scanner type). Fine-tuning a model to transfer knowledge from one domain to another requires a significant amount of labeled data in the target domain. In this paper, we develop an interpretable model that can be efficiently fine-tuned to an unseen target domain with minimal computational cost. We assume the interpretable component of NN to be approximately domain-invariant. However, interpretable models typically underperform compared to their Blackbox (BB) variants. We start with a BB in the source domain and distill it into a \emph{mixture} of shallow interpretable models using human-understandable concepts. As each interpretable model covers a subset of data, a mixture of interpretable models achieves comparable performance as BB. Further, we use the pseudo-labeling technique from semi-supervised learning (SSL) to learn the concept classifier in the target domain, followed by fine-tuning the interpretable models in the target domain. We evaluate our model using a real-life large-scale chest-X-ray (CXR) classification dataset. The code is available at: \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}.
翻訳日:2023-07-12 18:21:03 公開日:2023-07-07
# 医用イメージングのための不変散乱変換

Invariant Scattering Transform for Medical Imaging ( http://arxiv.org/abs/2307.04771v1 )

ライセンス: Link先を確認
Nafisa Labiba Ishrat Huda, Angona Biswas, MD Abdullah Al Nasim, Md. Fahim Rahman, Shoaib Ahmed(参考訳) 不変散乱変換は、コンピュータビジョンのための深層学習と信号処理を融合させる新しい研究領域を導入する。 今日では、Deep Learningアルゴリズムは医療分野のさまざまな問題を解決することができる。 医療画像は、脳がん、腫瘍、アルツハイマー病、乳癌、パーキンソン病、その他多くの病気を検出するために使用される。 2020年のパンデミックの間、機械学習とディープラーニングは、突然変異分析、予測、診断、意思決定を含む新型コロナウイルスの検出に重要な役割を果たしてきた。 X線、MRI、CTスキャンなどの医療画像は、疾患の検出に使われている。 散乱変換である医用画像の深層学習には別の方法がある。 画像分類に有用な信号表現を構築する。 これはウェーブレット技術であり、医療画像分類問題に影響を及ぼす。 本稿では,深層畳み込みネットワークで実装された信号情報を散乱することにより,医用画像解析の効率的なシステムとして散乱変換を考察する。 ステップバイステップのケーススタディが本研究に現れます。

Invariant scattering transform introduces new area of research that merges the signal processing with deep learning for computer vision. Nowadays, Deep Learning algorithms are able to solve a variety of problems in medical sector. Medical images are used to detect diseases brain cancer or tumor, Alzheimer's disease, breast cancer, Parkinson's disease and many others. During pandemic back in 2020, machine learning and deep learning has played a critical role to detect COVID-19 which included mutation analysis, prediction, diagnosis and decision making. Medical images like X-ray, MRI known as magnetic resonance imaging, CT scans are used for detecting diseases. There is another method in deep learning for medical imaging which is scattering transform. It builds useful signal representation for image classification. It is a wavelet technique; which is impactful for medical image classification problems. This research article discusses scattering transform as the efficient system for medical image analysis where it's figured by scattering the signal information implemented in a deep convolutional network. A step by step case study is manifested at this research work.
翻訳日:2023-07-12 17:29:00 公開日:2023-07-07
# 時空間的注意を要した長期入院患者の予後予測

Predicting Outcomes in Long COVID Patients with Spatiotemporal Attention ( http://arxiv.org/abs/2307.04770v1 )

ライセンス: Link先を確認
Degan Hao and Mohammadreza Negahdar(参考訳) ロングウイルス(Long COVID)は、新型コロナウイルス(COVID-19)の急性後遺症の総称である。 長い新型コロナウイルスの患者は、疲労、頭痛、呼吸困難、無気症などの長期の症状に耐えることができる。 新型コロナウイルスの深刻な長期合併症でコホートを特定すれば、治療計画や資源確保に役立つ可能性がある。 しかし, 長大な患者にみられる異種表現型から, 縦断的データから結果を予測することは困難である。 本研究では,時間次元と特徴空間を併用して特徴量重み付けを行う時空間的注意機構を提案する。 検診が隣接した時点において交替可能な順序を持つことができることを考慮し,局所lstmによる短期依存の学習と,共同時空間的注意による長期依存の学習を制限した。 また,提案手法を臨床実習におけるいくつかの最先端手法と方法と比較した。 これらの手法は、長期にわたる新型コロナウイルス患者の臨床データセットで評価される。 実験結果から,共同時空間注意を用いた局所LSTMは結果予測に優れていた。 提案手法は、長大な新型コロナウイルスの重症度評価のための臨床ツールを提供する。

Long COVID is a general term of post-acute sequelae of COVID-19. Patients with long COVID can endure long-lasting symptoms including fatigue, headache, dyspnea and anosmia, etc. Identifying the cohorts with severe long-term complications in COVID-19 could benefit the treatment planning and resource arrangement. However, due to the heterogeneous phenotype presented in long COVID patients, it is difficult to predict their outcomes from their longitudinal data. In this study, we proposed a spatiotemporal attention mechanism to weigh feature importance jointly from the temporal dimension and feature space. Considering that medical examinations can have interchangeable orders in adjacent time points, we restricted the learning of short-term dependency with a Local-LSTM and the learning of long-term dependency with the joint spatiotemporal attention. We also compared the proposed method with several state-of-the-art methods and a method in clinical practice. The methods are evaluated on a hard-to-acquire clinical dataset of patients with long COVID. Experimental results show the Local-LSTM with joint spatiotemporal attention outperformed related methods in outcome prediction. The proposed method provides a clinical tool for the severity assessment of long COVID.
翻訳日:2023-07-12 17:28:44 公開日:2023-07-07
# LaunchpadGPT:Launchpad上の音楽可視化デザイナとしての言語モデル

LaunchpadGPT: Language Model as Music Visualization Designer on Launchpad ( http://arxiv.org/abs/2307.04827v1 )

ライセンス: Link先を確認
Siting Xu, Yunlong Tang, Feng Zheng(参考訳) Launchpadは、照明付きのボタンを押すことで、ユーザーが音楽を作り、演奏できる楽器だ。 launchpadライトエフェクトの設計を補助し、さらに初心者がこの楽器を使って音楽のビジュアライゼーションを行えるようにするために、launchpadgptモデルを提案し、自動的にlaunchpad上での音楽のビジュアライゼーションデザインを生成する。 生成能力に優れた言語モデルに基づいて,提案したLaunchpadGPTは音声を入力として,ビデオ形式でLaunchpad-playingの照明効果を出力する(Launchpad-playing video)。 我々はLaunchpadプレイングビデオを収集し、それらを処理して音楽とそれに対応するLaunchpadプレイングの動画フレームをプロンプト・コンプリートペアとして取得し、言語モデルを訓練する。 実験結果から,提案手法はランダム生成法よりも優れた音楽可視化を実現し,幅広い音楽可視化応用の可能性を示す。 私たちのコードはhttps://github.com/yunlong10/LaunchpadGPT/で利用可能です。

Launchpad is a musical instrument that allows users to create and perform music by pressing illuminated buttons. To assist and inspire the design of the Launchpad light effect, and provide a more accessible approach for beginners to create music visualization with this instrument, we proposed the LaunchpadGPT model to generate music visualization designs on Launchpad automatically. Based on the language model with excellent generation ability, our proposed LaunchpadGPT takes an audio piece of music as input and outputs the lighting effects of Launchpad-playing in the form of a video (Launchpad-playing video). We collect Launchpad-playing videos and process them to obtain music and corresponding video frame of Launchpad-playing as prompt-completion pairs, to train the language model. The experiment result shows the proposed method can create better music visualization than random generation methods and hold the potential for a broader range of music visualization applications. Our code is available at https://github.com/yunlong10/LaunchpadGPT/.
翻訳日:2023-07-12 17:22:01 公開日:2023-07-07
# ディジタルゼロノイズ外挿による量子誤差緩和のベストプラクティス

Best practices for quantum error mitigation with digital zero-noise extrapolation ( http://arxiv.org/abs/2307.05203v1 )

ライセンス: Link先を確認
Ritajit Majumdar and Pedro Rivero and Friedrike Metz and Areeq Hasan and Derek S Wang(参考訳) デジタルゼロノイズ外挿法(dZNE)は、その概念的単純さ、アクセシビリティ、資源効率のために量子エラー緩和(QEM)の一般的なアプローチとして登場した。 しかし、実際には、ノイズの多い量子プロセッサの計算範囲を拡張するためにdZNEを適切に適用することは微妙な問題である。 ここでは,ノイズシミュレータと実量子ハードウェアに関する文献レビューとオリジナル実験に基づいて,騒音増幅,量子デバイス上での実行,ゼロノイズ限界への外挿,他のqem法との合成など,ワークフローの各ステップにおけるdzneによるqemのベストプラクティスを定義する。 dzneのベストプラクティスを確立するこの取り組みは、他のqemメソッドにも拡張され、ノイズの多い量子ハードウェア上でより再現可能で厳密な計算が行われることを期待している。

Digital zero-noise extrapolation (dZNE) has emerged as a common approach for quantum error mitigation (QEM) due to its conceptual simplicity, accessibility, and resource efficiency. In practice, however, properly applying dZNE to extend the computational reach of noisy quantum processors is rife with subtleties. Here, based on literature review and original experiments on noisy simulators and real quantum hardware, we define best practices for QEM with dZNE for each step of the workflow, including noise amplification, execution on the quantum device, extrapolation to the zero-noise limit, and composition with other QEM methods. We anticipate that this effort to establish best practices for dZNE will be extended to other QEM methods, leading to more reproducible and rigorous calculations on noisy quantum hardware.
翻訳日:2023-07-12 15:04:04 公開日:2023-07-07
# Qubit と Cavity の分散非相互性

Dispersive Non-reciprocity between a Qubit and a Cavity ( http://arxiv.org/abs/2307.05298v1 )

ライセンス: Link先を確認
Ying-Ying Wang, Yu-Xin Wang, Sean van Geldern, Thomas Connolly, Aashish A. Clerk, Chen Wang(参考訳) 量子ビットとキャビティの間の分散相互作用は、回路とキャビティ量子電磁力学においてユビキタスである。 これは一方の量子モードの周波数シフトを、もう一方の励起に応答して記述し、閉系では必然的に双方向である。 本稿では,トランモン量子ビットと超伝導空洞の非相互分散型相互作用を,時間反転対称性の破れた共役結合から散逸中間モードへ誘導する実験的検討を行った。 In situにおけるフェライト成分の磁場バイアスを調整することにより、非対称周波数プルや光子ショットノイズ除去を含む量子キャビティダイナミクスを様々な非相互性の下で特徴付ける。 さらに, キュービット・キャビティのダイナミクスは, 中間系の複雑な力学を十分に理解することなく, 非相互相互作用のコンパクトな記述を提供する, 単純な非相互主方程式モデルにより, 広いパラメータ体系で適切に記述されていることを示す。 この結果は、非エルミートハミルトン系とカスケード系の典型的なパラダイムを超えた量子非相反現象の例を提供する。

The dispersive interaction between a qubit and a cavity is ubiquitous in circuit and cavity quantum electrodynamics. It describes the frequency shift of one quantum mode in response to excitations in the other, and in closed systems is necessarily bidirectional, i.e.~reciprocal. Here, we present an experimental study of a non-reciprocal dispersive-type interaction between a transmon qubit and a superconducting cavity, arising from a common coupling to dissipative intermediary modes with broken time reversal symmetry. We characterize the qubit-cavity dynamics, including asymmetric frequency pulls and photon shot-noise dephasing, under varying degrees of non-reciprocity by tuning the magnetic field bias of a ferrite component in situ. Furthermore, we show that the qubit-cavity dynamics is well-described in a wide parameter regime by a simple non-reciprocal master-equation model, which provides a compact description of the non-reciprocal interaction without requiring a full understanding of the complex dynamics of the intermediary system. Our result provides an example of quantum non-reciprocal phenomena beyond the typical paradigms of non-Hermitian Hamiltonians and cascaded systems.
翻訳日:2023-07-12 14:46:35 公開日:2023-07-07
# 一般リンドブラディアンによるオープン量子系における$\hbar\to 0$制限:消音はエレンフェスト時間を超えて古典性を保証する

The $\hbar\to 0$ limit of open quantum systems with general Lindbladians: vanishing noise ensures classicality beyond the Ehrenfest time ( http://arxiv.org/abs/2307.05326v1 )

ライセンス: Link先を確認
Felipe Hern\'andez, Daniel Ranard, C. Jess Riedel(参考訳) 同じ形式ハミルトニアン$H$の下で進化する量子系と古典系は、Ehrenfest timescale $t_E \sim \log(\hbar^{-1})$の後に劇的に異なる振る舞いを示すかもしれない。 システムをマルコフ環境に結合すると、量子進化のためのリンドブラッド方程式が得られる。 その古典的対向は位相空間上のフォッカー・プランク方程式によって与えられ、摩擦と拡散ノイズを伴うハミルトン流を記述する。 量子進化と古典進化はウィグナー・ワイル表現によって比較することができる。 デコヒーレンスにより、それらはエレンフェストの時間スケールを超えて、$\hbar \to 0$と密接に一致すると推測される。 この対応のバージョンを証明し、十分正則なハミルトニアン $h(x,p)$ とリンドブラッド関数 $l_k(x,p)$ の量子進化と古典進化の間の誤差を限定する。 この誤差は、リンドブラッド関数に付随する拡散$D$の強さが$D \gg \hbar^{4/3}$を満たすとき、特に古典的極限における消音を許容するときに小さい。 我々は、局所調和近似からリンドブラッド力学へ進化する可変圧縮ガウス状態の時間依存半古典混合を用いる。 正確な量子軌道とその古典的軌道は、この半古典的混合の摂動として表現でき、デュハメルの原理を用いて誤差を境界付けることができる。 4/3ドルの指数が最適であることを示すヒューリスティックな議論を示し、漸近的に弱い拡散がエーレンフェスト時間スケールでの量子古典対応の崩壊を可能にするという意味で境界を定義する。 私たちのプレゼンテーションは、数学者と物理学者の両方が包括的でアクセスしやすくすることを目的としています。 より短い共著で、ハミルトニアンの特別な場合を、物理系に直接適用できる明示的な境界を持つ、$h=p^2/2m + v(x)$ および線型リンドブラッド作用素として扱う。

Quantum and classical systems evolving under the same formal Hamiltonian $H$ may exhibit dramatically different behavior after the Ehrenfest timescale $t_E \sim \log(\hbar^{-1})$, even as $\hbar \to 0$. Coupling the system to a Markovian environment results in a Lindblad equation for the quantum evolution. Its classical counterpart is given by the Fokker-Planck equation on phase space, which describes Hamiltonian flow with friction and diffusive noise. The quantum and classical evolutions may be compared via the Wigner-Weyl representation. Due to decoherence, they are conjectured to match closely for times far beyond the Ehrenfest timescale as $\hbar \to 0$. We prove a version of this correspondence, bounding the error between the quantum and classical evolutions for any sufficiently regular Hamiltonian $H(x,p)$ and Lindblad functions $L_k(x,p)$. The error is small when the strength of the diffusion $D$ associated to the Lindblad functions satisfies $D \gg \hbar^{4/3}$, in particular allowing vanishing noise in the classical limit. We use a time-dependent semiclassical mixture of variably squeezed Gaussian states evolving by a local harmonic approximation to the Lindblad dynamics. Both the exact quantum trajectory and its classical counterpart can be expressed as perturbations of this semiclassical mixture, with the errors bounded using Duhamel's principle. We present heuristic arguments suggesting the $4/3$ exponent is optimal and defines a boundary in the sense that asymptotically weaker diffusion permits a breakdown of quantum-classical correspondence at the Ehrenfest timescale. Our presentation aims to be comprehensive and accessible to both mathematicians and physicists. In a shorter companion paper, we treat the special case of Hamiltonians of the form $H=p^2/2m + V(x)$ and linear Lindblad operators, with explicit bounds that can be applied directly to physical systems.
翻訳日:2023-07-12 14:36:23 公開日:2023-07-07
# 不完全チャネル状態情報を用いたOFDMシステムのオーバー・ザ・エア計算

Over-the-Air Computation in OFDM Systems with Imperfect Channel State Information ( http://arxiv.org/abs/2307.05357v1 )

ライセンス: Link先を確認
Yilong Chen, Huijun Xing, Jie Xu, Lexi Xu, and Shuguang Cui(参考訳) 本稿では,複数個の単一アンテナ無線装置(wds)が同時に非符号化信号をマルチアンテナアクセスポイント(ap)に送信し,複数のサブキャリア上で分散関数計算を行う直交周波数分割多重化(ofdm)システムにおいて,aircomp(over-the-air computation)について検討する。 特に, 平均計算平均二乗誤差 (mse) を最小化することと, 複数のサブキャリア上での計算停止確率を最小化することを目的として, ベストエフォートタスクとエラー制約計算タスクの2つのシナリオを検討した。 この目的のために、各WDにおける送信係数とサブキャリア上のAPにおける受信ビームフォーミングベクトルを、各WDにおける最大送信電力制約の下で共同で最適化する。 まず, apにおける単一受信アンテナの特別な場合について, ラグランジュ・デュダリティ法を用いて, 2つの問題に対する半閉じた大域的最適解を提案する。 各サブキャリアにおいて、平均mse最小化のためのwdsの最適化電力制御ポリシーは正規化チャネルインバージョン構造に従い、計算停止確率最小化はオンオフ正規化チャネルインバージョンに従い、送信電力予算とチャネル推定誤差に依存することが示されている。 次に、APにおける多重受信アンテナの一般的な場合、両問題に対する収束解を見つけるために、交互最適化と凸最適化に基づく効率的なアルゴリズムを提案する。

This paper studies the over-the-air computation (AirComp) in an orthogonal frequency division multiplexing (OFDM) system with imperfect channel state information (CSI), in which multiple single-antenna wireless devices (WDs) simultaneously send uncoded signals to a multi-antenna access point (AP) for distributed functional computation over multiple subcarriers. In particular, we consider two scenarios with best-effort and error-constrained computation tasks, with the objectives of minimizing the average computation mean squared error (MSE) and the computation outage probability over the multiple subcarriers, respectively. Towards this end, we jointly optimize the transmit coefficients at the WDs and the receive beamforming vectors at the AP over subcarriers, subject to the maximum transmit power constraints at individual WDs. First, for the special case with a single receive antenna at the AP, we propose the semi-closed-form globally optimal solutions to the two problems using the Lagrange-duality method. It is shown that at each subcarrier, the WDs' optimized power control policy for average MSE minimization follows a regularized channel inversion structure, while that for computation outage probability minimization follows an on-off regularized channel inversion, with the regularization dependent on the transmit power budget and channel estimation error. Next, for the general case with multiple receive antennas at the AP, we present efficient algorithms based on alternating optimization and convex optimization to find converged solutions to both problems.
翻訳日:2023-07-12 14:28:49 公開日:2023-07-07
# route, interpret, repeat: post hoc descriptionability と interpretable models の境界線を曖昧にする

Route, Interpret, Repeat: Blurring the line between post hoc explainability and interpretable models ( http://arxiv.org/abs/2307.05350v1 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) 現在のmlモデル設計のアプローチは、フレキシブルなブラックボックスモデルを選択して、hoc後に説明するか、解釈可能なモデルから始めるかのどちらかだ。 ブラックボックスモデルは柔軟だが説明が難しいが、解釈可能なモデルは説明可能なように設計されている。 しかし、解釈可能なモデルを開発するには広範なML知識が必要であり、結果として得られるモデルはより柔軟性が低くなり、ブラックボックスの同等モデルと比べて性能が劣る可能性がある。 本稿では,ブラックボックスのポストホックな説明と解釈可能なモデルの構築の区別を曖昧にすることを目的とする。 我々は、フレキシブルなBlackBoxモデルと、解釈可能なモデルとemph{residual network}を混合したemph{carving out}を提案する。 我々の設計では、サンプルのサブセットを特定し、解釈可能なモデルを通してそれらを\emph{routes} 化する。 残りのサンプルは柔軟な残留ネットワークを介してルーティングされる。 我々は一階述語論理(FOL)を解釈可能なモデルのバックボーンとして採用し、ブラックボックスモデルから得られる概念の基本的な推論を提供する。 残差ネットワークでは、残差ネットワークで説明されるデータの比率が所望のしきい値以下になるまで、この方法を繰り返す。 我々のアプローチにはいくつかの利点がある。 第一に、解釈可能な残差ネットワークとフレキシブルな残差ネットワークの混合は、ほとんど性能を損なわない。 第二に、経路、解釈、繰り返しアプローチは、非常に柔軟な解釈可能なモデルをもたらす。 本研究では,様々なデータセット上でのモデルの性能を示す。 FOLモデルを編集することで、元のBlackBoxモデルで学んだショートカットを修正できることが示される。 最後に,本手法は,多くのアプリケーションに対して簡単に訓練し,適応できるハイブリッドシンボリック・コネクショニストネットワークのためのフレームワークを提供する。

The current approach to ML model design is either to choose a flexible Blackbox model and explain it post hoc or to start with an interpretable model. Blackbox models are flexible but difficult to explain, whereas interpretable models are designed to be explainable. However, developing interpretable models necessitates extensive ML knowledge, and the resulting models tend to be less flexible, offering potentially subpar performance compared to their Blackbox equivalents. This paper aims to blur the distinction between a post hoc explanation of a BlackBox and constructing interpretable models. We propose beginning with a flexible BlackBox model and gradually \emph{carving out} a mixture of interpretable models and a \emph{residual network}. Our design identifies a subset of samples and \emph{routes} them through the interpretable models. The remaining samples are routed through a flexible residual network. We adopt First Order Logic (FOL) as the interpretable model's backbone, which provides basic reasoning on concepts retrieved from the BlackBox model. On the residual network, we repeat the method until the proportion of data explained by the residual network falls below a desired threshold. Our approach offers several advantages. First, the mixture of interpretable and flexible residual networks results in almost no compromise in performance. Second, the route, interpret, and repeat approach yields a highly flexible interpretable model. Our extensive experiment demonstrates the performance of the model on various datasets. We show that by editing the FOL model, we can fix the shortcut learned by the original BlackBox model. Finally, our method provides a framework for a hybrid symbolic-connectionist network that is simple to train and adaptable to many applications.
翻訳日:2023-07-12 14:27:31 公開日:2023-07-07
# ウェアラブルからの心拍推定のためのフォトプレソグラフィ信号の自己監督アルゴリズム

A Self-Supervised Algorithm for Denoising Photoplethysmography Signals for Heart Rate Estimation from Wearables ( http://arxiv.org/abs/2307.05339v1 )

ライセンス: Link先を確認
Pranay Jain, Cheng Ding, Cynthia Rudin, Xiao Hu(参考訳) スマートウォッチやその他のウェアラブルデバイスには、心拍数やその他の循環器の健康状態を監視するためのppg(photoplethysmography)センサーが備わっている。 しかしながら、これらのデバイスから収集されたPSG信号は、ノイズやモーションアーティファクトからの破損に影響され、心拍数推定の誤差を引き起こす。 典型的な消音アプローチは、保存に有用な信号のクリーンな部分からでも、多くの形態的情報を排除する方法で信号をフィルタリングまたは再構成する。 そこで本研究では,ppg信号のクリーンな部分を保ちつつ,信号の破損部分を再構成するppg信号の非ノイズ化アルゴリズムを開発した。 我々の新しいフレームワークは自己教師型トレーニングに依存しており、クリーンなPSG信号の大規模なデータベースを活用してデノナイズドオートエンコーダを訓練する。 その結果,ppg信号からの心拍数の推定は心拍数推定法よりも高い値を示した。 さらに,PPG信号からの心拍変動(HRV)推定をアルゴリズムを用いて大幅に改善した。 我々のアルゴリズムは、ウェアラブルデバイスからの様々な健康指標の下流分析を改善する方法として、PSG信号をノイズ化する。

Smart watches and other wearable devices are equipped with photoplethysmography (PPG) sensors for monitoring heart rate and other aspects of cardiovascular health. However, PPG signals collected from such devices are susceptible to corruption from noise and motion artifacts, which cause errors in heart rate estimation. Typical denoising approaches filter or reconstruct the signal in ways that eliminate much of the morphological information, even from the clean parts of the signal that would be useful to preserve. In this work, we develop an algorithm for denoising PPG signals that reconstructs the corrupted parts of the signal, while preserving the clean parts of the PPG signal. Our novel framework relies on self-supervised training, where we leverage a large database of clean PPG signals to train a denoising autoencoder. As we show, our reconstructed signals provide better estimates of heart rate from PPG signals than the leading heart rate estimation methods. Further experiments show significant improvement in Heart Rate Variability (HRV) estimation from PPG signals using our algorithm. We conclude that our algorithm denoises PPG signals in a way that can improve downstream analysis of many different health metrics from wearable devices.
翻訳日:2023-07-12 14:25:22 公開日:2023-07-07
# TBSS++: トラクトに基づく空間統計の新しい計算方法

TBSS++: A novel computational method for Tract-Based Spatial Statistics ( http://arxiv.org/abs/2307.05387v1 )

ライセンス: Link先を確認
Davood Karimi, Hamza Kebiri, and Ali Gholipour(参考訳) 拡散強調MRI(dMRI)は脳白質の評価に広く用いられている。 dMRIにおける最も一般的な計算の1つは、dMRI由来のバイオマーカーを被験者のコホート間で比較するクロスオブジェクトトラクト特異的解析である。 これらの研究の正確性と信頼性は、被験者間で正確に同じ白質路を比較する能力にかかっている。 これは複雑でエラーやすい計算です。 トラクトベース空間統計学(TBSS)のような既存の計算手法は、多くの欠点と限界に悩まされ、結果の有効性を著しく損なう。 我々は,既存の手法の限界を克服する新しい計算フレームワークを提案する。 (i)正確な道の区分 (ii)異なる対象/スキャンからのデータの正確な登録 登録は繊維配向分布に基づいている。 クロスオブジェクトデータのアライメントをさらに改善するため,ホワイトマタートラクトの詳細なアラスを作成する。 これらのアトラスは、すべての対象のデータを比較のために登録する偏りのない参照空間として機能する。 TBSSと比較して,提案手法はデータ摂動に対する再現性と堅牢性を大幅に向上させる。 本手法は,神経科学および医学研究で日常的に使用されるクロスサブジェクトdmri研究の精度と再現性が大幅に向上することを約束する。

Diffusion-weighted magnetic resonance imaging (dMRI) is widely used to assess the brain white matter. One of the most common computations in dMRI involves cross-subject tract-specific analysis, whereby dMRI-derived biomarkers are compared between cohorts of subjects. The accuracy and reliability of these studies hinges on the ability to compare precisely the same white matter tracts across subjects. This is an intricate and error-prone computation. Existing computational methods such as Tract-Based Spatial Statistics (TBSS) suffer from a host of shortcomings and limitations that can seriously undermine the validity of the results. We present a new computational framework that overcomes the limitations of existing methods via (i) accurate segmentation of the tracts, and (ii) precise registration of data from different subjects/scans. The registration is based on fiber orientation distributions. To further improve the alignment of cross-subject data, we create detailed atlases of white matter tracts. These atlases serve as an unbiased reference space where the data from all subjects is registered for comparison. Extensive evaluations show that, compared with TBSS, our proposed framework offers significantly higher reproducibility and robustness to data perturbations. Our method promises a drastic improvement in accuracy and reproducibility of cross-subject dMRI studies that are routinely used in neuroscience and medical research.
翻訳日:2023-07-12 14:16:39 公開日:2023-07-07
# 一般化不確かさ原理による3次元の最小長

Minimal Lengths in 3D via the Generalized Uncertainty Principle ( http://arxiv.org/abs/2307.05367v1 )

ライセンス: Link先を確認
Michael Bishop, Joey Contreras, Peter Martin, Piero Nicolini, and Douglas Singleton(参考訳) 一般化不確実性原理(gup)の拡張を3次元の位置演算子と運動量演算子を座標独立に保ち、標準位置運動量変換器をできるだけ多く保持するように修正することで検討する。 さらに,各座標方向において有効最小長となる物理運動量も制限した。 これらの修正作用素の物理的結果は2つのシナリオで探索される。 (i)球対称な波動関数が最小の体積に‘圧縮’されたとき。 (ii)運動量が一方向に向けられたとき。 場合 粒子の運動量に平行な方向の最小距離は、直交方向の最小距離とは異なる。

We investigate an extension of the Generalized Uncertainty Principle (GUP) in three dimensions by modifying the three dimensional position and momentum operators in a manner that remains coordinate-independent and retains as much of the standard position-momentum commutators as possible. Moreover, we bound the physical momentum which leads to an effective minimal length in every coordinate direction. The physical consequences of these modified operators are explored in two scenarios: (i) when a spherically-symmetric wave function is `compressed' into the smallest possible volume; (ii) when the momentum is directed in a single direction. In case (ii), we find that the three dimensional GUP exhibits interesting phenomena that do not occur in one dimension: the minimal distance in the direction parallel to a particle's momentum is different from the minimal distance in the orthogonal directions.
翻訳日:2023-07-12 14:15:21 公開日:2023-07-07
# 3次元拡散モデルの自動復号化

AutoDecoding Latent 3D Diffusion Models ( http://arxiv.org/abs/2307.05445v1 )

ライセンス: Link先を確認
Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool, Sergey Tulyakov(参考訳) 本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対する新しいアプローチを提案する。 3dオートデコーダフレームワークは、潜在空間のターゲットデータセットから学んだプロパティを埋め込み、ビュー一貫性のある外観と幾何学をレンダリングするためにボリューム表現にデコードすることができる。 次に, 適切な中間体積潜在空間を特定し, 2次元画像から3次元拡散を学習するためにロバスト正規化と非正規化演算を導入する。 私たちのアプローチは柔軟で、既存のカメラの監督やカメラの情報をまったく使用せずに、トレーニング中に効率的に学習できます。 評価の結果,合成対象のマルチビュー画像データセット,移動対象のリアルインザワイルドビデオ,静的対象の大規模実映像データセットなど,さまざまなベンチマークデータセットやメトリクスにおける最先端の代替品よりも優れた結果が得られた。

We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.
翻訳日:2023-07-12 13:56:05 公開日:2023-07-07
# AdaptiveRec: 逐次勧告におけるコントラスト学習のためのペアを適応的に構築する

AdaptiveRec: Adaptively Construct Pairs for Contrastive Learning in Sequential Recommendation ( http://arxiv.org/abs/2307.05469v1 )

ライセンス: Link先を確認
Jaeheyoung Jeon, Jung Hyun Ryu, Jewoong Cho, Myungjoo Kang(参考訳) 本稿では,逐次レコメンデーションシステムにおけるコントラスト学習による課題に対する解決策を提案する。 特に、推奨アルゴリズムの有効性を制限する偽陰性の問題に対処する。 コントラスト学習に先進的なアプローチを導入することにより,アイテム埋め込みの品質が向上し,類似したインスタンスを異種と誤分類する問題を緩和する。 実験の結果,既存システムと比較して性能が向上した。 様々なレコメンデーションシナリオにまたがる提案手法の柔軟性と適用性は、シーケンシャルレコメンデーションシステムの拡張におけるその価値をさらに強調する。

This paper presents a solution to the challenges faced by contrastive learning in sequential recommendation systems. In particular, it addresses the issue of false negative, which limits the effectiveness of recommendation algorithms. By introducing an advanced approach to contrastive learning, the proposed method improves the quality of item embeddings and mitigates the problem of falsely categorizing similar instances as dissimilar. Experimental results demonstrate performance enhancements compared to existing systems. The flexibility and applicability of the proposed approach across various recommendation scenarios further highlight its value in enhancing sequential recommendation systems.
翻訳日:2023-07-12 13:47:06 公開日:2023-07-07
# 学習確率分布のための教師なし木ブースティング

Unsupervised tree boosting for learning probability distributions ( http://arxiv.org/abs/2101.11083v7 )

ライセンス: Link先を確認
Naoki Awaya and Li Ma(参考訳) そこで本研究では,補助木アンサンブルの適合に基づく試料のサンプリング分布を教師あり木ブースティングに類似した方法で推定する教師なし木ブースティングアルゴリズムを提案する。 アルゴリズムへの積分は、確率分布に対する新たな「付加」の概念であり、「残留化」というコヒーレントな概念、すなわち、観測から確率分布を減じて、後者のサンプリング分布から分布構造を除去するものである。 これらの概念は, 累積分布関数 (CDF) 変換や構成を通じて, 単変量分布に対して自然に現れることを示す。 従来の多変量CDFはこれらの性質を保存しないが、新しい多変量CDFの定義はこれらの特性を復元することができ、「付加」と「残留化」の概念を多変量設定にも定式化することができる。 これにより、加法木アンサンブルの前方段階のフィッティングに基づく教師なしブースティングアルゴリズムが生まれ、クルバック・リーブラーの真相への分岐を逐次減少させる。 このアルゴリズムは適合密度の解析的評価を可能にし、容易にサンプルできる生成モデルを出力する。 我々は,スケール依存の縮小と,限界とコプラを個別に適合させる2段階戦略でアルゴリズムを強化した。 このアルゴリズムは、複数のベンチマークデータセット上の多変量密度推定において、最先端のディープラーニングアプローチと競合して動作する。

We propose an unsupervised tree boosting algorithm for inferring the underlying sampling distribution of an i.i.d. sample based on fitting additive tree ensembles in a fashion analogous to supervised tree boosting. Integral to the algorithm is a new notion of "addition" on probability distributions that leads to a coherent notion of "residualization", i.e., subtracting a probability distribution from an observation to remove the distributional structure from the sampling distribution of the latter. We show that these notions arise naturally for univariate distributions through cumulative distribution function (CDF) transforms and compositions due to several "group-like" properties of univariate CDFs. While the traditional multivariate CDF does not preserve these properties, a new definition of multivariate CDF can restore these properties, thereby allowing the notions of "addition" and "residualization" to be formulated for multivariate settings as well. This then gives rise to the unsupervised boosting algorithm based on forward-stagewise fitting of an additive tree ensemble, which sequentially reduces the Kullback-Leibler divergence from the truth. The algorithm allows analytic evaluation of the fitted density and outputs a generative model that can be readily sampled from. We enhance the algorithm with scale-dependent shrinkage and a two-stage strategy that separately fits the marginals and the copula. The algorithm then performs competitively to state-of-the-art deep-learning approaches in multivariate density estimation on multiple benchmark data sets.
翻訳日:2023-07-11 23:04:11 公開日:2023-07-07
# ジャンプスタート強化学習

Jump-Start Reinforcement Learning ( http://arxiv.org/abs/2204.02372v2 )

ライセンス: Link先を確認
Ikechukwu Uchendu, Ted Xiao, Yao Lu, Banghua Zhu, Mengyuan Yan, Jos\'ephine Simon, Matthew Bennice, Chuyuan Fu, Cong Ma, Jiantao Jiao, Sergey Levine, Karol Hausman(参考訳) 強化学習(RL)は、試行錯誤を通じてエージェントの動作を継続的に改善するための理論的枠組みを提供する。 しかし、特に探索課題のあるタスクにおいて、スクラッチから効率的にポリシーを学ぶことは非常に困難である。 このような設定では、既存のポリシーやオフラインデータ、デモでRLを初期化するのが望ましいかもしれない。 しかし、そのような初期化を RL で行うことは、特に値ベースの手法では、しばしばうまくいかない。 本稿では、オフラインデータ、デモ、または既存のポリシーを使用してrlポリシーを初期化し、任意のrlアプローチと互換性のあるメタアルゴリズムを提案する。 特に,課題解決のための2つの方針(ガイド-ポリシーと探索-ポリシー)を用いるアルゴリズムである jump-start reinforcement learning (jsrl) を提案する。 ガイド・ポリシーを用いて探索・ポリシーの開始状態のカリキュラムを形成することにより,シミュレーションロボットタスク群の性能を効率的に向上させることができる。 実験により,JSRL が既存の模倣および強化学習アルゴリズム,特に小型データシステムにおいて著しく優れていることを示す。 さらに、JSRLのサンプル複雑性の上限を提供し、ガイドポリシーの助けを借りて、非最適化探索手法のサンプル複雑性を地平線から多項式へ指数的に改善できることを示す。

Reinforcement learning (RL) provides a theoretical framework for continuously improving an agent's behavior via trial and error. However, efficiently learning policies from scratch can be very difficult, particularly for tasks with exploration challenges. In such settings, it might be desirable to initialize RL with an existing policy, offline data, or demonstrations. However, naively performing such initialization in RL often works poorly, especially for value-based methods. In this paper, we present a meta algorithm that can use offline data, demonstrations, or a pre-existing policy to initialize an RL policy, and is compatible with any RL approach. In particular, we propose Jump-Start Reinforcement Learning (JSRL), an algorithm that employs two policies to solve tasks: a guide-policy, and an exploration-policy. By using the guide-policy to form a curriculum of starting states for the exploration-policy, we are able to efficiently improve performance on a set of simulated robotic tasks. We show via experiments that JSRL is able to significantly outperform existing imitation and reinforcement learning algorithms, particularly in the small-data regime. In addition, we provide an upper bound on the sample complexity of JSRL and show that with the help of a guide-policy, one can improve the sample complexity for non-optimism exploration methods from exponential in horizon to polynomial.
翻訳日:2023-07-11 22:54:58 公開日:2023-07-07
# 一元変換下における混合対称状態の最大絡み合い

Maximum entanglement of mixed symmetric states under unitary transformations ( http://arxiv.org/abs/2112.05102v3 )

ライセンス: Link先を確認
E. Serrano-Ens\'astiga and J. Martin(参考訳) 完全対称状態に制約された2と3の量子ビット系の大域的ユニタリ変換によって生成される最大絡み合いについて検討する。 この対称部分空間への制限は、ボゾン系や集合スピン系の文脈で自然に現れる。 我々はまた、対称絶対分離状態(sas)と呼ばれる大域的なユニタリ変換の後にも分離可能である対称状態、あるいはスピン状態の絶対古典状態も研究する。 2量子ビットシステムの結果は解析的に導出される。 特に、対称セクターにおける最大混合状態の周囲のSAS状態の球の最大半径と、SAS状態の集合を含む球の最小半径を決定する。 以上の結果の応用例として,スピンスキージングハミルトニアンのスピン-1系の熱状態から得られる最大エンタングルメントの温度依存性についても検討した。 対称な3量子ビットの場合、この結果は概ね数値であり、混合状態のユニタリ軌道における最大負性を達成する3パラメータの状態の族を予想する。 さらに, SAS 状態のみを含む球の半径上に, 明らかにタイトな上界を導出する。

We study the maximum entanglement that can be produced by a global unitary transformation for systems of two and three qubits constrained to the fully symmetric states. This restriction to the symmetric subspace appears naturally in the context of bosonic or collective spin systems. We also study the symmetric states that remain separable after any global unitary transformation, called symmetric absolutely separable states (SAS), or absolutely classical for spin states. The results for the two-qubit system are deduced analytically. In particular, we determine the maximal radius of a ball of SAS states around the maximally mixed state in the symmetric sector, and the minimal radius of a ball that contains the set of SAS states. As an application of our results, we also analyse the temperature dependence of the maximum entanglement that can be obtained from the thermal state of a spin-1 system with a spin-squeezing Hamiltonian. For the symmetric three-qubit case, our results are mostly numerical, and we conjecture a 3-parameter family of states that achieves the maximum negativity in the unitary orbit of any mixed state. In addition, we derive upper bounds, apparently tight, on the radii of balls containing only/all SAS states.
翻訳日:2023-07-11 22:53:20 公開日:2023-07-07
# 超音波エラストグラフィーにおける側方ひずみイメージングのための畳み込みニューラルネットワークにおける既知の演算子

Infusing known operators in convolutional neural networks for lateral strain imaging in ultrasound elastography ( http://arxiv.org/abs/2211.00172v2 )

ライセンス: Link先を確認
Ali K. Z. Tehrani, and Hassan Rivaz(参考訳) 超音波エラストグラフィー(USE)における変位推定には畳み込みニューラルネットワーク(CNN)が用いられている。 提案するネットワークにより,高品質な軸方向ひずみ(軸方向の軸方向変位の導出)を推定できる。 軸方向ひずみとは対照的に、ポアソンの比画像化と弾性復元に非常に必要とされる横方向ひずみは、品質が劣る。 主な原因はサンプリング周波数の低さ、運動の制限、横方向の位相情報の欠如である。 近年,非教師なし正規化エラストグラフィ(PICTURE)における物理的制約が提案されている。 本手法は, 運動の物理則によって定義される実効性側方ひずみの範囲を考慮し, 側方ひずみを改善するために正規化戦略を採用した。 大幅な改善にもかかわらず、正規化はトレーニング中にのみ適用されたため、試験中は横ひずみが許容範囲内であることが保証されなかった。 また, 許容範囲のみを用い, 非圧縮性などの制約は検討されなかった。 本稿では,これらの2つの問題に対処し,2つの反復アルゴリズムを既知の演算子の形でネットワークアーキテクチャに注入し,側方ひずみが許容範囲内にあることを保証し,テストフェーズ中に非圧縮性を課すkPICTUREを提案する。

Convolutional Neural Networks (CNN) have been employed for displacement estimation in ultrasound elastography (USE). High-quality axial strains (derivative of the axial displacement in the axial direction) can be estimated by the proposed networks. In contrast to axial strain, lateral strain, which is highly required in Poisson's ratio imaging and elasticity reconstruction, has a poor quality. The main causes include low sampling frequency, limited motion, and lack of phase information in the lateral direction. Recently, physically inspired constraint in unsupervised regularized elastography (PICTURE) has been proposed. This method took into account the range of the feasible lateral strain defined by the rules of physics of motion and employed a regularization strategy to improve the lateral strains. Despite the substantial improvement, the regularization was only applied during the training; hence it did not guarantee during the test that the lateral strain is within the feasible range. Furthermore, only the feasible range was employed, other constraints such as incompressibility were not investigated. In this paper, we address these two issues and propose kPICTURE in which two iterative algorithms were infused into the network architecture in the form of known operators to ensure the lateral strain is within the feasible range and impose incompressibility during the test phase.
翻訳日:2023-07-11 22:35:19 公開日:2023-07-07
# unbinned profiled の展開

Unbinned Profiled Unfolding ( http://arxiv.org/abs/2302.05390v3 )

ライセンス: Link先を確認
Jay Chan, Benjamin Nachman(参考訳) 展開は、粒子物理学実験において重要な手順であり、検出器効果を補正し、基礎物理学パラメータの抽出など、下流の多くのタスクに使用できる微分断面積測定を提供する。 伝統的に、展開は対象位相空間を有限個のビンに離散化することで行われ、展開変数の数に制限される。 最近、機械学習で無条件の展開を実行するための提案が数多く出されている。 しかしながら、これらの方法のどれも(ほとんどの展開メソッドのように)同時にニュアンスパラメータを制約することができない。 そこで本研究では,無歯顎差動断面を生じさせ,ニュアサンスパラメータをプロファイルできる新しい機械学習に基づく展開法を提案する。 機械学習損失関数は、検出器レベルでのバイナリ入力に基づいて、完全な可能性関数である。 まず,簡単なガウスの例を用いて本手法を実演し,ヒッグス粒子断面測定のシミュレーションによる影響を示す。

Unfolding is an important procedure in particle physics experiments which corrects for detector effects and provides differential cross section measurements that can be used for a number of downstream tasks, such as extracting fundamental physics parameters. Traditionally, unfolding is done by discretizing the target phase space into a finite number of bins and is limited in the number of unfolded variables. Recently, there have been a number of proposals to perform unbinned unfolding with machine learning. However, none of these methods (like most unfolding methods) allow for simultaneously constraining (profiling) nuisance parameters. We propose a new machine learning-based unfolding method that results in an unbinned differential cross section and can profile nuisance parameters. The machine learning loss function is the full likelihood function, based on binned inputs at detector-level. We first demonstrate the method with simple Gaussian examples and then show the impact on a simulated Higgs boson cross section measurement.
翻訳日:2023-07-11 22:29:06 公開日:2023-07-07
# Gated Language Experts and Curriculum Trainingによる高精度多言語ASRの構築

Building High-accuracy Multilingual ASR with Gated Language Experts and Curriculum Training ( http://arxiv.org/abs/2303.00786v2 )

ライセンス: Link先を確認
Eric Sun, Jinyu Li, Yuxuan Hu, Yimeng Zhu, Long Zhou, Jian Xue, Peidong Wang, Linquan Liu, Shujie Liu, Edward Lin, Yifan Gong(参考訳) 推論中に言語識別(LID)入力を必要とせずに多言語トランスデューサモデルを強化するためのゲート言語エキスパートとカリキュラムトレーニングを提案する。 本手法では, ゲーティング機構と蓋損失を組み込んで, トランスフォーマーの専門家が言語固有の情報を学ぶことができる。 ゲートトランスの専門家と共用トランスレイヤを組み合わせることで,多言語トランスフォーマーブロックを構築し,線形専門家を用いてジョイントネットワークを効果的に調整する。 カリキュラム・トレーニング・スキームはlidを活用し、それぞれの言語性能を改善するための指導を行う。 英語とスペイン語を含むバイリンガルタスクの実験結果は、ベースラインのバイリンガルモデルとモノリンガルモデルに比較して平均12.5%と7.3%の相対的な単語誤り率で大幅に改善された。 特に,本手法は,オラクルLIDを用いて訓練し,推定した上界モデルに匹敵する性能を実現する。 私たちのアプローチを三言語、四言語、五言語モデルに拡張することは、二言語モデルで観察されるものと類似の利点を示し、複数の言語への拡張の容易さを強調する。

We propose gated language experts and curriculum training to enhance multilingual transformer transducer models without requiring language identification (LID) input from users during inference. Our method incorporates a gating mechanism and LID loss, enabling transformer experts to learn language-specific information. By combining gated transformer experts with shared transformer layers, we construct multilingual transformer blocks and utilize linear experts to effectively regularize the joint network. The curriculum training scheme leverages LID to guide the gated experts in improving their respective language performance. Experimental results on a bilingual task involving English and Spanish demonstrate significant improvements, with average relative word error reductions of 12.5% and 7.3% compared to the baseline bilingual and monolingual models, respectively. Notably, our method achieves performance comparable to the upper-bound model trained and inferred with oracle LID. Extending our approach to trilingual, quadrilingual, and pentalingual models reveals similar advantages to those observed in the bilingual models, highlighting its ease of extension to multiple languages.
翻訳日:2023-07-11 22:15:09 公開日:2023-07-07
# 物理インフォームドニューラル演算子を用いた磁気流体力学

Magnetohydrodynamics with Physics Informed Neural Operators ( http://arxiv.org/abs/2302.08332v2 )

ライセンス: Link先を確認
Shawn G. Rosofsky and E. A. Huerta(参考訳) マルチスケールおよびマルチ物理複合システムのモデリングは通常、極端なスケールコンピューティングを最適に活用できる科学ソフトウェアを使用する。 近年の大きな発展にもかかわらず、これらのシミュレーションは計算集約的で時間がかかり続けている。 ここでは,古典的手法の計算コストのごく一部で複雑なシステムのモデリングを加速するaiの利用を探求し,2次元非圧縮性磁気流体力学シミュレーションに対する物理学的インフォームド・ニューラル・オペレーターの最初の応用について述べる。 我々のAIモデルは、テンソルフーリエニューラル演算子をバックボーンとして組み込み、TensorLYパッケージで実装した。 この結果から,レイノルズ数$Re\leq250$でラミナール流を記述する磁気流体力学シミュレーションの物理を正確に捉えることが可能であることが示唆された。 また、乱流に対するaiサロゲートの適用可能性についても検討し、幅広いレイノルズ数に対する磁気流体力学シミュレーションの計算効率と高忠実性を提供するaiモデルを作成するために、将来の研究に取り入れられる様々な手法について論じる。 このプロジェクトで開発された科学ソフトウェアは、この原稿とともにリリースされている。

The modeling of multi-scale and multi-physics complex systems typically involves the use of scientific software that can optimally leverage extreme scale computing. Despite major developments in recent years, these simulations continue to be computationally intensive and time consuming. Here we explore the use of AI to accelerate the modeling of complex systems at a fraction of the computational cost of classical methods, and present the first application of physics informed neural operators to model 2D incompressible magnetohydrodynamics simulations. Our AI models incorporate tensor Fourier neural operators as their backbone, which we implemented with the TensorLY package. Our results indicate that physics informed neural operators can accurately capture the physics of magnetohydrodynamics simulations that describe laminar flows with Reynolds numbers $Re\leq250$. We also explore the applicability of our AI surrogates for turbulent flows, and discuss a variety of methodologies that may be incorporated in future work to create AI models that provide a computationally efficient and high fidelity description of magnetohydrodynamics simulations for a broad range of Reynolds numbers. The scientific software developed in this project is released with this manuscript.
翻訳日:2023-07-11 22:14:33 公開日:2023-07-07
# サンプリングに基づく動き計画のための量子探索手法

Quantum Search Approaches to Sampling-Based Motion Planning ( http://arxiv.org/abs/2304.06479v2 )

ライセンス: Link先を確認
Paul Lathrop, Beth Boardman, Sonia Mart\'inez(参考訳) 本稿では,従来のサンプリングベースモーションプランナーを,量子探索アルゴリズムを用いて解くデータベース・オラクル構造として,新しい定式化手法を提案する。 単純なスパース環境の場合、完全ランダムパス解の重ね合わせを作成し、量子振幅増幅 (qaa) で確率振幅を操作する量子全経路探索アルゴリズム (q-fps) を定式化し、単一障害自由全経路解を量子的に測定する。 密集した非構造環境に対しては,親子接続の量子重ね合わせを生成し,qaaで確率振幅を演算し,単一の到達可能な状態を木に追加する量子アルゴリズム q-rrt を高速に探索するランダムツリーアルゴリズムを定式化する。 性能はオラクル呼び出しの数と良い量子状態を測定する確率に依存するため、これらの誤差がアルゴリズムの確率論的完全性にどう影響するかを定量化する。 次に,提案アルゴリズムにおける最適なオラクル呼び出し数を近似するために,期待するデータベース解の数を数値的に推定する。 q-rrtアルゴリズムを古典的実装と比較し、2次元密閉乱数格子の最大連結成分における二次実行速度の検証を行う。 最後に、提案手法を評価してデータベースソリューションの期待数を制限することにより、oracle呼び出しの最適な数を所定の数に制限する。

In this paper, we present a novel formulation of traditional sampling-based motion planners as database-oracle structures that can be solved via quantum search algorithms. We consider two complementary scenarios: for simpler sparse environments, we formulate the Quantum Full Path Search Algorithm (q-FPS), which creates a superposition of full random path solutions, manipulates probability amplitudes with Quantum Amplitude Amplification (QAA), and quantum measures a single obstacle free full path solution. For dense unstructured environments, we formulate the Quantum Rapidly Exploring Random Tree algorithm, q-RRT, that creates quantum superpositions of possible parent-child connections, manipulates probability amplitudes with QAA, and quantum measures a single reachable state, which is added to a tree. As performance depends on the number of oracle calls and the probability of measuring good quantum states, we quantify how these errors factor into the probabilistic completeness properties of the algorithm. We then numerically estimate the expected number of database solutions to provide an approximation of the optimal number of oracle calls in the algorithm. We compare the q-RRT algorithm with a classical implementation and verify quadratic run-time speedup in the largest connected component of a 2D dense random lattice. We conclude by evaluating a proposed approach to limit the expected number of database solutions and thus limit the optimal number of oracle calls to a given number.
翻訳日:2023-07-11 22:06:31 公開日:2023-07-07
# 確率確率マップによる条件校正予測分布:銀河赤方偏移推定と確率予測への応用

Conditionally Calibrated Predictive Distributions by Probability-Probability Map: Application to Galaxy Redshift Estimation and Probabilistic Forecasting ( http://arxiv.org/abs/2205.14568v3 )

ライセンス: Link先を確認
Biprateep Dey and David Zhao and Jeffrey A. Newman and Brett H. Andrews and Rafael Izbicki and Ann B. Lee(参考訳) 不確実性定量化は、AIアルゴリズムの予測能力を評価するために重要である。 多くの研究は、予測分布 (PD) $F(y|\mathbf{x})$ を対象変数 $y \in \mathbb{R}$ とする複素入力特徴 $\mathbf{x} \in \mathcal{X}$ を記述することに費やされている。 しかし、オフ・ザ・シェルフPD(例えば、フローの正規化やベイズニューラルネットワーク)は、入力された$\mathbf{x}$が予測される確率と大きく異なる事象が発生する確率で条件キャリブレーションを欠くことが多い。 現在の校正法は、条件付きPDを十分に評価・実施していない。 本稿では、キャリブレーションデータから単一の確率確率マップを学習することにより、PD診断と再校正の両方に対処する手法である「texttt{Cal-PIT}」を提案する。 鍵となる考え方は、確率積分変換のスコアを$\mathbf{x}$に戻すことである。 推定回帰は、機能空間全体の条件付きカバレッジの解釈可能な診断を提供する。 同じ回帰関数は、不特定なPDをすべての$\mathbf{x}$に対して再校正されたPDに変形する。 我々は,修正された予測帯域(修正PDの副産物)を,オラクルバンドおよび合成データの最先端予測アルゴリズムと比較した。 また、2つのアプリケーションに対する結果も提供します。 (i)衛星画像の所定のシーケンスの確率的再キャスティング、及び (ii)撮像データによる銀河距離の条件密度推定(いわゆる測光赤方偏移推定)。 私たちのコードはPythonパッケージ https://github.com/lee-group-cmu/Cal-PIT として利用可能です。

Uncertainty quantification is crucial for assessing the predictive ability of AI algorithms. Much research has been devoted to describing the predictive distribution (PD) $F(y|\mathbf{x})$ of a target variable $y \in \mathbb{R}$ given complex input features $\mathbf{x} \in \mathcal{X}$. However, off-the-shelf PDs (from, e.g., normalizing flows and Bayesian neural networks) often lack conditional calibration with the probability of occurrence of an event given input $\mathbf{x}$ being significantly different from the predicted probability. Current calibration methods do not fully assess and enforce conditionally calibrated PDs. Here we propose \texttt{Cal-PIT}, a method that addresses both PD diagnostics and recalibration by learning a single probability-probability map from calibration data. The key idea is to regress probability integral transform scores against $\mathbf{x}$. The estimated regression provides interpretable diagnostics of conditional coverage across the feature space. The same regression function morphs the misspecified PD to a re-calibrated PD for all $\mathbf{x}$. We benchmark our corrected prediction bands (a by-product of corrected PDs) against oracle bands and state-of-the-art predictive inference algorithms for synthetic data. We also provide results for two applications: (i) probabilistic nowcasting given sequences of satellite images, and (ii) conditional density estimation of galaxy distances given imaging data (so-called photometric redshift estimation). Our code is available as a Python package https://github.com/lee-group-cmu/Cal-PIT .
翻訳日:2023-07-11 19:36:11 公開日:2023-07-07
# 音声認証におけるデータ中毒攻撃の防御

Defend Data Poisoning Attacks on Voice Authentication ( http://arxiv.org/abs/2209.04547v2 )

ライセンス: Link先を確認
Ke Li, Cameron Baird and Dan Lin(参考訳) ディープラーニングの進歩により、話者認証は非常に高い精度を達成し、私たちの日常生活、特に成長しているwebサービスの市場において、バイオメトリック認証の選択肢として人気が高まっています。 従来のパスワードと比べて、「ボーカルパスワード」は、人々が異なるパスワードを覚えるのを和らげるため、ずっと便利です。 しかし、新しい機械学習攻撃は、これらの音声認証システムを危険にさらしている。 強力なセキュリティ保証がなければ、攻撃者はdeep neural network(dnn)ベースの音声認識モデルを騙すことで、正当なユーザーのwebアカウントにアクセスできる。 本稿では,既存の防御機構では把握できない音声認証システムに対して,実装が容易なデータ中毒攻撃を実演する。 そこで我々は,畳み込みニューラルネットワークに基づく識別器であるGuardianという,より堅牢な防御手法を提案する。 guardian discriminatorはバイアス低減、入力強化、アンサンブル学習を含む一連の新しいテクニックを統合している。 攻撃されたアカウントの95%を通常のアカウントと区別することができ、60%の精度で既存のアプローチよりもはるかに効果的です。

With the advances in deep learning, speaker verification has achieved very high accuracy and is gaining popularity as a type of biometric authentication option in many scenes of our daily life, especially the growing market of web services. Compared to traditional passwords, "vocal passwords" are much more convenient as they relieve people from memorizing different passwords. However, new machine learning attacks are putting these voice authentication systems at risk. Without a strong security guarantee, attackers could access legitimate users' web accounts by fooling the deep neural network (DNN) based voice recognition models. In this paper, we demonstrate an easy-to-implement data poisoning attack to the voice authentication system, which can hardly be captured by existing defense mechanisms. Thus, we propose a more robust defense method, called Guardian, which is a convolutional neural network-based discriminator. The Guardian discriminator integrates a series of novel techniques including bias reduction, input augmentation, and ensemble learning. Our approach is able to distinguish about 95% of attacked accounts from normal accounts, which is much more effective than existing approaches with only 60% accuracy.
翻訳日:2023-07-11 19:13:48 公開日:2023-07-07
# LENS: テキスト単純化のための学習可能な評価基準

LENS: A Learnable Evaluation Metric for Text Simplification ( http://arxiv.org/abs/2212.09739v4 )

ライセンス: Link先を確認
Mounica Maddela, Yao Dou, David Heineman, Wei Xu(参考訳) 近年,機械翻訳の自動評価手法として,現代言語モデルを用いた学習可能なメトリクスのトレーニングが注目されている。 しかしながら、既存のテキスト簡易化のための人間評価データセットには、ユニタリモデルや時代遅れモデルに基づいた限定的なアノテーションがあるため、このアプローチには適さない。 これらの問題に対処するために、SimpEval_pastは24のシステムの2.4Kの簡易化に対して12Kの人間格付けを含むSimpEvalコーパスと、GPT-3.5生成したテキストを含む1K以上の人間格付けからなる挑戦的な単純化ベンチマークSimpEval_2022を紹介する。 テキスト簡易化のための学習可能な評価指標であるLENSを提案する。 大規模な実証実験の結果、LENSは既存の指標よりも人間の判断と相関し、テキスト単純化の評価における今後の進歩の道を開いた。 また,対話型インタフェースを用いて,複数のモデルからの単純化をリスト形式で評価する評価フレームワークであるrank and rateを導入することで,評価プロセスにおける一貫性と精度の両立を保証し,シムペバルデータセットの作成に利用する。

Training learnable metrics using modern language models has recently emerged as a promising method for the automatic evaluation of machine translation. However, existing human evaluation datasets for text simplification have limited annotations that are based on unitary or outdated models, making them unsuitable for this approach. To address these issues, we introduce the SimpEval corpus that contains: SimpEval_past, comprising 12K human ratings on 2.4K simplifications of 24 past systems, and SimpEval_2022, a challenging simplification benchmark consisting of over 1K human ratings of 360 simplifications including GPT-3.5 generated text. Training on SimpEval, we present LENS, a Learnable Evaluation Metric for Text Simplification. Extensive empirical results show that LENS correlates much better with human judgment than existing metrics, paving the way for future progress in the evaluation of text simplification. We also introduce Rank and Rate, a human evaluation framework that rates simplifications from several models in a list-wise manner using an interactive interface, which ensures both consistency and accuracy in the evaluation process and is used to create the SimpEval datasets.
翻訳日:2023-07-11 19:06:15 公開日:2023-07-07
# ニューラルフーリエフィルタバンク

Neural Fourier Filter Bank ( http://arxiv.org/abs/2212.01735v3 )

ライセンス: Link先を確認
Zhijie Wu and Yuhe Jin and Kwang Moo Yi(参考訳) 本稿では, 効率的かつ高精度な再構築手法を提案する。 ウェーブレットに触発されて、信号が空間的にも周波数的にも分解されるニューラルフィールドを学習する。 空間分解のための最近のグリッドベースのパラダイムに従っているが、既存の作業とは異なり、フーリエ特徴エンコーディングを通じて各グリッドに特定の周波数を格納することを推奨している。 次に、正の活性化を持つ多層パーセプトロンを適用し、これらフーリエエンコードされた特徴を適切な層に配置することで、高周波数成分を低周波成分の上に順次蓄積し、最終的な出力を形成する。 本手法は,2次元画像整合,3次元形状再構成,神経放射場など,複数のタスクにおけるモデルコンパクト性と収束速度に関する技術よりも優れていることを示す。 私たちのコードはhttps://github.com/ubc-vision/nffbで利用可能です。

We present a novel method to provide efficient and highly detailed reconstructions. Inspired by wavelets, we learn a neural field that decompose the signal both spatially and frequency-wise. We follow the recent grid-based paradigm for spatial decomposition, but unlike existing work, encourage specific frequencies to be stored in each grid via Fourier features encodings. We then apply a multi-layer perceptron with sine activations, taking these Fourier encoded features in at appropriate layers so that higher-frequency components are accumulated on top of lower-frequency components sequentially, which we sum up to form the final output. We demonstrate that our method outperforms the state of the art regarding model compactness and convergence speed on multiple tasks: 2D image fitting, 3D shape reconstruction, and neural radiance fields. Our code is available at https://github.com/ubc-vision/NFFB.
翻訳日:2023-07-11 19:04:10 公開日:2023-07-07
# 分布シフトのためのラベルアライメント規則化

Label Alignment Regularization for Distribution Shift ( http://arxiv.org/abs/2211.14960v2 )

ライセンス: Link先を確認
Ehsan Imani, Guojun Zhang, Jun Luo, Pascal Poupart, Philip H.S. Torr, Yangchen Pan(参考訳) 近年の研究では、教師付き学習におけるラベルアライメント特性(lap)を強調している。データセット内のすべてのラベルのベクトルは、データ行列の上位数個の特異ベクトルの範囲内にある。 この観測からインスピレーションを得て、対象領域の予測とその頂点特異ベクトルとの整合性を促進する教師なし領域適応の正規化法を提案する。 正規化表現にフォーカスした従来のドメイン適応アプローチとは異なり、ソース領域とターゲット領域の両方のラップによって導かれる教師なしのターゲットデータと整合するように分類器を規則化する。 理論的解析により、ある仮定の下では、我々の解は対象の領域データの右上特異ベクトルの範囲内にあり、最適解と整合することを示した。 古典的領域適応理論で見られる最適結合リスク仮定を除去することにより,従来の領域適応手法が高い結合誤差のためにしばしば不足する問題に対処する上で,本手法の有効性を示す。 さらに、MNIST-USPSドメイン適応や言語間感情分析などのよく知られたタスクにおいて、ドメイン適応ベースラインよりもパフォーマンスが向上したことを報告した。

Recent work has highlighted the label alignment property (LAP) in supervised learning, where the vector of all labels in the dataset is mostly in the span of the top few singular vectors of the data matrix. Drawing inspiration from this observation, we propose a regularization method for unsupervised domain adaptation that encourages alignment between the predictions in the target domain and its top singular vectors. Unlike conventional domain adaptation approaches that focus on regularizing representations, we instead regularize the classifier to align with the unsupervised target data, guided by the LAP in both the source and target domains. Theoretical analysis demonstrates that, under certain assumptions, our solution resides within the span of the top right singular vectors of the target domain data and aligns with the optimal solution. By removing the reliance on the commonly used optimal joint risk assumption found in classic domain adaptation theory, we showcase the effectiveness of our method on addressing problems where traditional domain adaptation methods often fall short due to high joint error. Additionally, we report improved performance over domain adaptation baselines in well-known tasks such as MNIST-USPS domain adaptation and cross-lingual sentiment analysis.
翻訳日:2023-07-11 19:03:36 公開日:2023-07-07
# D適応による学習時間自由学習

Learning-Rate-Free Learning by D-Adaptation ( http://arxiv.org/abs/2301.07733v5 )

ライセンス: Link先を確認
Aaron Defazio and Konstantin Mishchenko(参考訳) d-適応(d-adaptation)は、バックトラッキングやラインサーチなしに凸リプシッツ関数を最小化するための収束率を漸近的に達成し、ステップごとに追加の関数値や勾配評価を行わない学習率を自動的に設定する手法である。 本手法は,収束率に乗算的ログ係数を付加することなく,このクラスで最初のハイパーパラメータフリーメソッドである。 本手法のSGDおよびAdam変種に対する広範な実験を行い,大規模ビジョンや言語問題を含む12以上の機械学習問題に対して手作業による学習率を自動的にマッチングする手法を提案する。 オープンソース実装が利用可能だ。

D-Adaptation is an approach to automatically setting the learning rate which asymptotically achieves the optimal rate of convergence for minimizing convex Lipschitz functions, with no back-tracking or line searches, and no additional function value or gradient evaluations per step. Our approach is the first hyper-parameter free method for this class without additional multiplicative log factors in the convergence rate. We present extensive experiments for SGD and Adam variants of our method, where the method automatically matches hand-tuned learning rates across more than a dozen diverse machine learning problems, including large-scale vision and language problems. An open-source implementation is available.
翻訳日:2023-07-11 18:55:29 公開日:2023-07-07
# 適応スパースガウス過程

Adaptive Sparse Gaussian Process ( http://arxiv.org/abs/2302.10325v2 )

ライセンス: Link先を確認
Vanessa G\'omez-Verdejo, Emilio Parrado-Hern\'andez and Manel Mart\'inez-Ram\'on(参考訳) 学習機械が過去のデータ分布を忘れなければならない非定常環境においては、適応学習が必要である。 効率的なアルゴリズムは、オンラインパラメータ更新の計算コストが最小で、入力データによる計算負荷を増大させることなく、コンパクトなモデル更新を必要とする。 既存のソリューションは、これらのニーズを部分的にカバーするだけです。 本稿では,これらの問題をすべて解決できる最初の適応的スパースガウス過程(gp)を提案する。 まず,変分スパースGPアルゴリズムを変形係数によって適応的に再構成する。 次に、モデル推論をできるだけシンプルにするために、新しいサンプルが到着するたびに残りのモデルパラメータとともにスパースGPモデルの単一誘導点を更新することを提案する。 結果として、アルゴリズムは推論プロセスの高速収束を示し、非常に非定常な環境でも効率的なモデル更新(単一推論反復)を可能にする。 実験により,提案アルゴリズムの性能と,その予測後続平均と信頼区間推定のモデル化における性能を,最先端手法と比較して実証した。

Adaptive learning is necessary for non-stationary environments where the learning machine needs to forget past data distribution. Efficient algorithms require a compact model update to not grow in computational burden with the incoming data and with the lowest possible computational cost for online parameter updating. Existing solutions only partially cover these needs. Here, we propose the first adaptive sparse Gaussian Process (GP) able to address all these issues. We first reformulate a variational sparse GP algorithm to make it adaptive through a forgetting factor. Next, to make the model inference as simple as possible, we propose updating a single inducing point of the sparse GP model together with the remaining model parameters every time a new sample arrives. As a result, the algorithm presents a fast convergence of the inference process, which allows an efficient model update (with a single inference iteration) even in highly non-stationary environments. Experimental results demonstrate the capabilities of the proposed algorithm and its good performance in modeling the predictive posterior in mean and confidence interval estimation compared to state-of-the-art approaches.
翻訳日:2023-07-11 18:43:12 公開日:2023-07-07
# 脳腫瘍分離(BraTS)チャレンジ2023:小児(CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs)に焦点を当てて

The Brain Tumor Segmentation (BraTS) Challenge 2023: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2305.17033v2 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Debanjan Haldar, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Andres Rodriguez, Jeffrey D Rudie, Ibraheem Salman Shaikh, Lubdha M. Shah, Nakul Sheth, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Adam Resnick, Brian Rood, Arastoo Vossough, Spyridon Bakas, Marius George Linguraru(参考訳) 小児の中枢神経系腫瘍は、小児のがん関連死の最も一般的な原因である。 小児の高次グリオーマに対する5年間の生存率は20\%未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 MICCAI Brain tumor Segmentation (BraTS) Challengeは、成人グリオーマのセグメンテーションと分析のための12年間の歴史を持つ、目覚ましいコミュニティベンチマークイベントである。 本稿では,小児の脳腫瘍に対する最初のbratsチャレンジであるcbtn-connect-dipgr-asnr-miccai brats-peds 2023 challengeについて述べる。 brats-peds 2023 チャレンジは、brats 2023 クラスタ全体で使用される標準化された定量的性能評価指標を用いて、小児脳グリオーマの体積分節化アルゴリズムの開発をベンチマークすることに焦点を当てている。 BraTS-PEDsマルチパラメトリック構造MRI(mpMRI)トレーニングデータから知識を得たモデルは、高次小児グリオーマの別個の検証と未確認検査mpMRIデータに基づいて評価される。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023チャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍の子どものケアにつながる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20\%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. The MICCAI Brain Tumor Segmentation (BraTS) Challenge is a landmark community benchmark event with a successful history of 12 years of resource creation for the segmentation and analysis of adult glioma. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge, which represents the first BraTS challenge focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The BraTS-PEDs 2023 challenge focuses on benchmarking the development of volumentric segmentation algorithms for pediatric brain glioma through standardized quantitative performance evaluation metrics utilized across the BraTS 2023 cluster of challenges. Models gaining knowledge from the BraTS-PEDs multi-parametric structural MRI (mpMRI) training data will be evaluated on separate validation and unseen test mpMRI dataof high-grade pediatric glioma. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2023-07-11 18:26:46 公開日:2023-07-07
# 無線ネットワーク上でのフェデレーション学習:ランダムアクセスによる分散ユーザ選択

Federated Learning over a Wireless Network: Distributed User Selection through Random Access ( http://arxiv.org/abs/2307.03758v1 )

ライセンス: Link先を確認
Chen Sun, Shiyao Ma, Ce Zheng, Songtao Wu, Tao Cui, Lingjuan Lyu(参考訳) ユーザ選択は,無線ネットワーク上でのフェデレーション学習(FL)の通信コスト削減に不可欠である。 しかし、集中的なユーザー選択は、システムの複雑さを増す。 本研究では,ランダムアクセスにおける無線リソース競合機構を活用する分散ユーザ選択のネットワーク固有のアプローチを提案する。 通信事業者が複数アクセス(CSMA)機構をランダムアクセスの例として用いて、コンパクションウィンドウ(CW)サイズを操作して、訓練の各ラウンドで無線リソースを得るために特定のユーザを優先順位付けする。 トレーニングデータバイアスは、ユーザ選択を伴うFLのターゲットシナリオとして使用される。 優先順位付けは、新しく訓練されたローカルモデルと前回のラウンドのグローバルモデルの距離に基づいている。 特定のユーザによる過剰な貢献を避けるため、公正性を確保するためにカウント機構を使用する。 各種データセットを用いたシミュレーションにより, この手法は集中型ユーザ選択手法と同様の収束を迅速に実現できることを示す。

User selection has become crucial for decreasing the communication costs of federated learning (FL) over wireless networks. However, centralized user selection causes additional system complexity. This study proposes a network intrinsic approach of distributed user selection that leverages the radio resource competition mechanism in random access. Taking the carrier sensing multiple access (CSMA) mechanism as an example of random access, we manipulate the contention window (CW) size to prioritize certain users for obtaining radio resources in each round of training. Training data bias is used as a target scenario for FL with user selection. Prioritization is based on the distance between the newly trained local model and the global model of the previous round. To avoid excessive contribution by certain users, a counting mechanism is used to ensure fairness. Simulations with various datasets demonstrate that this method can rapidly achieve convergence similar to that of the centralized user selection approach.
翻訳日:2023-07-11 17:47:21 公開日:2023-07-07
# 生成型adversarial networkを用いた植物表現型に基づく森林イメージの合成

Synthesizing Forestry Images Conditioned on Plant Phenotype Using a Generative Adversarial Network ( http://arxiv.org/abs/2307.03789v1 )

ライセンス: Link先を確認
Debasmita Pal, Arun Ross(参考訳) リモートセンシングデータを用いた植物表現学と表現型予測は、農業生産性を向上させるために植物科学コミュニティの注目を集めている。 本研究では, 特定の表現特性, Viz. canopy greenness を満たす合成林業画像を生成する。 植物の緑度指数は、混合林における特定の植生の種類を示す。 本研究の目的は,この連続的な属性,すなわち植生の緑化を前提とした森林画像の特定の領域に合成するGAN(Generative Adversarial Network)を開発することである。 トレーニングデータは、National Ecological Observatory Network(NEON)が提供し、PhenoCam Networkが処理する自動デジタルカメラ画像に基づいている。 また,本手法により生成した合成画像は,別の表現型属性viz.,植物の赤味を予測するためにも用いられる。 合成画像の品質評価には,SSIM(Structure SIMilarity)指数を用いる。 生成した合成画像の緑度と赤度指数をルート平均正方形誤差(RMSE)を用いて元の画像と比較し,その精度と整合性を評価する。 さらに,本モデルの有効性と拡張性は,他の森林や植生の合成画像を生成するために効果的に変換することで決定される。

Plant phenology and phenotype prediction using remote sensing data is increasingly gaining the attention of the plant science community to improve agricultural productivity. In this work, we generate synthetic forestry images that satisfy certain phenotypic attributes, viz. canopy greenness. The greenness index of plants describes a particular vegetation type in a mixed forest. Our objective is to develop a Generative Adversarial Network (GAN) to synthesize forestry images conditioned on this continuous attribute, i.e., greenness of vegetation, over a specific region of interest. The training data is based on the automated digital camera imagery provided by the National Ecological Observatory Network (NEON) and processed by the PhenoCam Network. The synthetic images generated by our method are also used to predict another phenotypic attribute, viz., redness of plants. The Structural SIMilarity (SSIM) index is utilized to assess the quality of the synthetic images. The greenness and redness indices of the generated synthetic images are compared against that of the original images using Root Mean Squared Error (RMSE) in order to evaluate their accuracy and integrity. Moreover, the generalizability and scalability of our proposed GAN model is determined by effectively transforming it to generate synthetic images for other forest sites and vegetation types.
翻訳日:2023-07-11 17:38:30 公開日:2023-07-07
# マルチモーダル変圧器を用いたコンテクストアウェア歩行者軌跡予測

Context-aware Pedestrian Trajectory Prediction with Multimodal Transformer ( http://arxiv.org/abs/2307.03786v1 )

ライセンス: Link先を確認
Haleh Damirchi, Michael Greenspan, Ali Etemad(参考訳) 歩行者の将来の軌跡を予測するための新しい手法を提案する。 本手法では,歩行者位置と自走車速の両方を入力とするマルチモーダルエンコーダデコーダトランスアーキテクチャを用いる。 特に,デコーダは1回のパスで将来の軌跡全体を予測し,一歩先予測を行わないため,組込みエッジ配置に有効である。 我々は、PIEとJAADという2つの一般的なデータセット上で詳細な実験を行い、その方法を評価する。 提案手法は, 0.5, 1.0, 1.5秒の3時間水平線において, 常に最小誤差を達成している。 さらに,提案手法はPIEとJAADの2つのデータセットの最先端よりもはるかに高速である。 最後に,アブレーション実験により,本手法のキーマルチモーダル構成の影響を実証した。

We propose a novel solution for predicting future trajectories of pedestrians. Our method uses a multimodal encoder-decoder transformer architecture, which takes as input both pedestrian locations and ego-vehicle speeds. Notably, our decoder predicts the entire future trajectory in a single-pass and does not perform one-step-ahead prediction, which makes the method effective for embedded edge deployment. We perform detailed experiments and evaluate our method on two popular datasets, PIE and JAAD. Quantitative results demonstrate the superiority of our proposed model over the current state-of-the-art, which consistently achieves the lowest error for 3 time horizons of 0.5, 1.0 and 1.5 seconds. Moreover, the proposed method is significantly faster than the state-of-the-art for the two datasets of PIE and JAAD. Lastly, ablation experiments demonstrate the impact of the key multimodal configuration of our method.
翻訳日:2023-07-11 17:38:08 公開日:2023-07-07
# 神経抽象化に基づく制御器の合成と展開

Neural Abstraction-Based Controller Synthesis and Deployment ( http://arxiv.org/abs/2307.03783v1 )

ライセンス: Link先を確認
Rupak Majumdar, Mahmoud Salamati and Sadegh Soudjani(参考訳) 抽象化に基づく手法は、高レベルの時間的要求を満たすために正しい構成制御を合成するための魅力的なアプローチである。 これらのテクニックをうまく応用するための主要なボトルネックは、コントローラ合成とコントローラ配置の両方において、メモリ要件である。 本稿では,ニューラルネットワーク表現を用いた抽象化手法の高メモリ要求を緩和するメモリ効率向上手法を提案する。 到達回避仕様の合成を行うために,システムの前方および後方ダイナミクスの圧縮ニューラルネットワーク表現に依存するオンザフライアルゴリズムを提案する。 ニューラル表現の通常の応用とは対照的に,本手法はエンドツーエンドプロセスの健全性を維持する。 これを保証するため、トレーニングされたニューラルネットワークの出力を補正し、補正された出力表現が有限抽象に対して健全であるようにする。 デプロイメントのために、我々は、合成されたコントローラのニューラルネットワーク表現を見つけるための新しいトレーニングアルゴリズムを提供し、そのコントローラが、かなり小さなメモリを必要とするニューラルネットワークとルックアップテーブルの組み合わせとして正しく表現できることを実験的に示す。 提案手法は,抽象的手法のメモリ要求を大幅に低減することを示した。 選択したベンチマークでは、合成と配置のメモリ要件を平均1.31\times 10^5$と7.13\times 10^3$、最大7.54\times 10^5$と3.18\times 10^4$でそれぞれ削減する。 この削減は、ニューラルネットワークをトレーニングするためのオフライン計算の増加のコストであるが、我々のアプローチのすべてのステップは並列化可能であり、必要な計算時間を短縮するために、より多くの処理ユニットを持つマシンに実装することができる。

Abstraction-based techniques are an attractive approach for synthesizing correct-by-construction controllers to satisfy high-level temporal requirements. A main bottleneck for successful application of these techniques is the memory requirement, both during controller synthesis and in controller deployment. We propose memory-efficient methods for mitigating the high memory demands of the abstraction-based techniques using neural network representations. To perform synthesis for reach-avoid specifications, we propose an on-the-fly algorithm that relies on compressed neural network representations of the forward and backward dynamics of the system. In contrast to usual applications of neural representations, our technique maintains soundness of the end-to-end process. To ensure this, we correct the output of the trained neural network such that the corrected output representations are sound with respect to the finite abstraction. For deployment, we provide a novel training algorithm to find a neural network representation of the synthesized controller and experimentally show that the controller can be correctly represented as a combination of a neural network and a look-up table that requires a substantially smaller memory. We demonstrate experimentally that our approach significantly reduces the memory requirements of abstraction-based methods. For the selected benchmarks, our approach reduces the memory requirements respectively for the synthesis and deployment by a factor of $1.31\times 10^5$ and $7.13\times 10^3$ on average, and up to $7.54\times 10^5$ and $3.18\times 10^4$. Although this reduction is at the cost of increased off-line computations to train the neural networks, all the steps of our approach are parallelizable and can be implemented on machines with higher number of processing units to reduce the required computational time.
翻訳日:2023-07-11 17:37:54 公開日:2023-07-07
# 潜時拡散モデルによる非教師なし3次元分布検出

Unsupervised 3D out-of-distribution detection with latent diffusion models ( http://arxiv.org/abs/2307.03777v1 )

ライセンス: Link先を確認
Mark S. Graham, Walter Hugo Lopez Pinaya, Paul Wright, Petru-Daniel Tudosiu, Yee H. Mah, James T. Teo, H. Rolf J\"ager, David Werring, Parashkev Nachev, Sebastien Ourselin, and M. Jorge Cardoso(参考訳) 3次元データにスケールするアウト・オブ・ディストリビューション(OOD)検出法は、実際の臨床深層学習システムにおいて重要な要素である。 従来の拡散確率モデル(DDPM)は、2次元データセット上で再構成に基づくOOD検出を行う堅牢な方法として提案されているが、3次元データに簡単にスケールすることはできない。 本研究では,DDPMの高分解能な3次元医療データへのスケーリングを可能にする潜在拡散モデル(LDM)を提案する。 提案手法を近距離および遠距離OODデータセットで検証し,最近提案された潜在トランスフォーマーモデル(LTM)を用いた3D対応手法と比較した。 提案手法は統計的に有意な性能向上を実現するだけでなく,基礎となる潜在表現に対する感度の低下,メモリスケーリング性の向上,空間的異常マップの改善も実現している。 コードはhttps://github.com/marksgraham/ddpm-oodで入手できる。

Methods for out-of-distribution (OOD) detection that scale to 3D data are crucial components of any real-world clinical deep learning system. Classic denoising diffusion probabilistic models (DDPMs) have been recently proposed as a robust way to perform reconstruction-based OOD detection on 2D datasets, but do not trivially scale to 3D data. In this work, we propose to use Latent Diffusion Models (LDMs), which enable the scaling of DDPMs to high-resolution 3D medical data. We validate the proposed approach on near- and far-OOD datasets and compare it to a recently proposed, 3D-enabled approach using Latent Transformer Models (LTMs). Not only does the proposed LDM-based approach achieve statistically significant better performance, it also shows less sensitivity to the underlying latent representation, more favourable memory scaling, and produces better spatial anomaly maps. Code is available at https://github.com/marksgraham/ddpm-ood
翻訳日:2023-07-11 17:37:27 公開日:2023-07-07
# 平衡から外れた位相的近藤模型

The topological Kondo model out of equilibrium ( http://arxiv.org/abs/2307.03773v1 )

ライセンス: Link先を確認
Matteo M. Wauters, Chia-Min Chung, Lorenzo Maffi, Michele Burrello(参考訳) 位相的近藤効果はマヨラナモードの非局所性の真の顕現である。 それらのトポロジカルモードを4つホストするクーパーペアボックスを用いたモデルにおいて, それぞれが金属鉛に結合した平衡外シグネチャについて検討する。 行列生成物-状態法により,マヨラナ磁化の緩和をシミュレートし,関連する近藤温度を決定する。 次に、リード電圧の量子クエンチ後の電気輸送の開始を解析する。 本研究は, 二重ナノワイヤで作製したMajorana Cooper-pairボックスに適用し, 弱結合状態から強相関の近藤政権への交叉の非摂動的証拠を提供する。 後者は超伝導電荷縮退点で支配的であり、期待される普遍分数ゼロバイアスコンダクタンスを表示する。

The topological Kondo effect is a genuine manifestation of the nonlocality of Majorana modes. We investigate its out-of-equilibrium signatures in a model with a Cooper-pair box hosting four of these topological modes, each connected to a metallic lead. Through matrix-product-state techniques, we simulate the relaxation of the Majorana magnetization, which allows us to determine the related Kondo temperature. Then, we analyze the onset of electric transport after a quantum quench of a lead voltage. Our results apply to Majorana Cooper-pair boxes fabricated in double nanowire devices and provide non-perturbative evidence of the crossover from weak-coupling states to the strongly correlated topological Kondo regime. The latter dominates at the superconductor charge degeneracy points and displays the expected universal fractional zero-bias conductance.
翻訳日:2023-07-11 17:37:10 公開日:2023-07-07
# 制約量子系における深い熱化

Deep thermalization in constrained quantum systems ( http://arxiv.org/abs/2307.03769v1 )

ライセンス: Link先を確認
Tanmay Bhore, Jean-Yves Desaules, and Zlatko Papi\'c(参考訳) 深部熱化」という概念が最近導入され、従来の固有状態熱化仮説(ETH)を超越したサブシステムにおける射影測定の結果、純粋な状態の集合のモーメントを特徴づけている。 本研究では,量子東方モデルやpxpモデルなどの速度論的制約のある系において,低速なダイナミクスと初期条件に対する高い感度によってethを弱く破ることで知られる深い熱化の研究を行う。 計算ベースで初期積状態からのクエンチダイナミクスを研究することにより,これらのモデルにおける第1モーメントと第2モーメントの深い熱化において,第1モーメントはETHとの良好な一致を示すが,第1モーメントは無限温度で均一なハールアンサンブルから逸脱する。 このような振る舞いは、時間反転対称性の相互作用と、ハミルトニアンと反可換な作用素によって引き起こされる。 我々は、ETHの意味では「熱い」システムであっても、深い熱化に違反する十分な条件を定式化する。 これらの性質を適切に破ることにより、pxpモデルが熱力学的極限における全ての初期積状態に対して完全に深く熱することを示す。 本研究は, 動力学的拘束系におけるETHを超える物理プローブとしての深部熱化の感度を強調した。

The concept of "deep thermalization" has recently been introduced to characterize moments of an ensemble of pure states, resulting from projective measurements on a subsystem, which lie beyond the purview of conventional Eigenstate Thermalization Hypothesis (ETH). In this work, we study deep thermalization in systems with kinetic constraints, such as the quantum East and the PXP models, which have been known to weakly break ETH by the slow dynamics and high sensitivity to the initial conditions. We demonstrate a sharp contrast in deep thermalization between the first and higher moments in these models by studying quench dynamics from initial product states in the computational basis: while the first moment shows good agreement with ETH, higher moments deviate from the uniform Haar ensemble at infinite temperature. We show that such behavior is caused by an interplay of time-reversal symmetry and an operator that anticommutes with the Hamiltonian. We formulate sufficient conditions for violating deep thermalization, even for systems that are otherwise "thermal" in the ETH sense. By appropriately breaking these properties, we illustrate how the PXP model fully deep-thermalizes for all initial product states in the thermodynamic limit. Our results highlight the sensitivity of deep thermalization as a probe of physics beyond ETH in kinetically-constrained systems.
翻訳日:2023-07-11 17:36:54 公開日:2023-07-07
# 女性、人生、自由のために:参加型aiベースのソーシャルウェブ分析:イランのジェンダー闘争における水流の瞬間

For Women, Life, Freedom: A Participatory AI-Based Social Web Analysis of a Watershed Moment in Iran's Gender Struggles ( http://arxiv.org/abs/2307.03764v1 )

ライセンス: Link先を確認
Adel Khorramrouz and Sujan Dutta and Ashiqur R. KhudaBukhsh(参考訳) 本稿では,警察監禁中のマフサ・アミニ(mahsa amini)の死に伴うジェンダー平等に対する態度の変化を推定することを目的として,ペルシャ語twitter談話の計算分析を行った。 本稿では,姿勢分類器を学習するためのアンサンブルアクティブラーニングパイプラインを提案する。 私たちの斬新さは、このAIシステム構築におけるアノテーターとして、イランの女性の関与にあります。 私たちのアノテーションはラベルを提供するだけでなく、より意味のあるコーパス生成のための貴重なキーワードや、ガイド付きサンプリングステップのための短いサンプルドキュメントも提案します。 分析の結果、マフサ・アミニの死は、男女平等に対するネガティブなツイートとポジティブなツイートの両方の比率が増大するペルシア語の会話の分断を引き起こしたことが示唆された。 ポジティブなツイートの増加は、ネガティブなツイートの増加よりもわずかに大きい。 また、アカウント作成時間に関して、州が調整したtwitterアカウントとプロテストのtwitterアカウントの間で、プロテストのアカウントは、よりペルシャのtwitterアクティビティのベースラインに似ています。

In this paper, we present a computational analysis of the Persian language Twitter discourse with the aim to estimate the shift in stance toward gender equality following the death of Mahsa Amini in police custody. We present an ensemble active learning pipeline to train a stance classifier. Our novelty lies in the involvement of Iranian women in an active role as annotators in building this AI system. Our annotators not only provide labels, but they also suggest valuable keywords for more meaningful corpus creation as well as provide short example documents for a guided sampling step. Our analyses indicate that Mahsa Amini's death triggered polarized Persian language discourse where both fractions of negative and positive tweets toward gender equality increased. The increase in positive tweets was slightly greater than the increase in negative tweets. We also observe that with respect to account creation time, between the state-aligned Twitter accounts and pro-protest Twitter accounts, pro-protest accounts are more similar to baseline Persian Twitter activity.
翻訳日:2023-07-11 17:36:30 公開日:2023-07-07
# vatにおける脳--大言語モデルにおける人工知能への欠片について

Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models ( http://arxiv.org/abs/2307.03762v1 )

ライセンス: Link先を確認
Yuxi Ma, Chi Zhang, Song-Chun Zhu(参考訳) 本稿では,従来のLLM(Large Language Models)の評価を,標準化されたテストと能力指向ベンチマークの両方を用いて総合的にレビューする。 我々はLLMの性能を過大評価する現在の評価手法にいくつかの問題を指摘している。 次に、LLMの能力を超えて、人工知能が何を包含すべきかを明確にする。 一般知能エージェントの4つの特徴を提案する。 1) 無制限のタスクを実行できる。 2) コンテキスト内で新しいタスクを生成することができる。 3)タスク生成の基盤となる価値システムに基づいて運用する。 4) 現実を反映した世界モデルがあり、世界との相互作用を形作る。 この観点から,人工知能の欠落した部分,すなわち知識と行動の統一性に注目した。 現実世界のオブジェクトとのアクティブなエンゲージメントは、概念表現を形成するためのより強固なシグナルをもたらすと主張する。 さらに、知識獲得は受動的入力にのみ依存するのではなく、繰り返し試行錯誤を必要とする。 最後に,人工知能の分野における将来研究の方向性を概説する。

In this perspective paper, we first comprehensively review existing evaluations of Large Language Models (LLMs) using both standardized tests and ability-oriented benchmarks. We pinpoint several problems with current evaluation methods that tend to overstate the capabilities of LLMs. We then articulate what artificial general intelligence should encompass beyond the capabilities of LLMs. We propose four characteristics of generally intelligent agents: 1) they can perform unlimited tasks; 2) they can generate new tasks within a context; 3) they operate based on a value system that underpins task generation; and 4) they have a world model reflecting reality, which shapes their interaction with the world. Building on this viewpoint, we highlight the missing pieces in artificial general intelligence, that is, the unity of knowing and acting. We argue that active engagement with objects in the real world delivers more robust signals for forming conceptual representations. Additionally, knowledge acquisition isn't solely reliant on passive input but requires repeated trials and errors. We conclude by outlining promising future research directions in the field of artificial general intelligence.
翻訳日:2023-07-11 17:36:10 公開日:2023-07-07
# 異種センサネットワークにおける異常検出のための動的グラフ注意

Dynamic Graph Attention for Anomaly Detection in Heterogeneous Sensor Networks ( http://arxiv.org/abs/2307.03761v1 )

ライセンス: Link先を確認
Mengjie Zhao and Olga Fink(参考訳) デジタルトランスフォーメーションの時代には、産業用モノのインターネット(iiots)が監視するシステムは、異種センサネットワークを介して大量の多変時系列(mts)データを生成する。 このデータは状態監視と異常検出を容易にするが、センサネットワーク内の複雑さと相互依存性の増加は異常検出に重大な課題をもたらす。 この分野での進歩にもかかわらず、焦点の焦点は点異常と文脈異常であり、集団異常にはあまり注意を払わない。 扱われないが一般的な集団異常の変種は、システム内の相互関係の変化によって異常な集団行動が引き起こされる場合である。 これは、過熱、サイバー物理攻撃による不適切な運用設定、システムレベルの障害などの異常な環境条件に起因する可能性がある。 そこで本稿では,時系列間の動的エッジを推定することにより,多変量時系列の連続グラフ表現を構築するために注意機構を利用するグラフに基づく異常検出フレームワークであるdygatad(dynamic graph attention for anomaly detection)を提案する。 DyGATADは、トポロジに基づく異常スコアと組み合わせた動作条件認識再構成を導入し、関係シフトの検出能力を向上する。 故障重大度を制御した合成データセットと,検出困難度が異なる各種故障タイプを特徴とする産業規模多相流施設ベンチマークを用いて,dygatadの性能評価を行った。 提案手法は, センサネットワークの集合異常検出において優れた性能を示し, 早期故障検出において, 極度に重篤な断層であっても, 顕著な強度を示した。

In the era of digital transformation, systems monitored by the Industrial Internet of Things (IIoTs) generate large amounts of Multivariate Time Series (MTS) data through heterogeneous sensor networks. While this data facilitates condition monitoring and anomaly detection, the increasing complexity and interdependencies within the sensor network pose significant challenges for anomaly detection. Despite progress in this field, much of the focus has been on point anomalies and contextual anomalies, with lesser attention paid to collective anomalies. A less addressed but common variant of collective anomalies is when the abnormal collective behavior is caused by shifts in interrelationships within the system. This can be due to abnormal environmental conditions like overheating, improper operational settings resulting from cyber-physical attacks, or system-level faults. To address these challenges, this paper proposes DyGATAD (Dynamic Graph Attention for Anomaly Detection), a graph-based anomaly detection framework that leverages the attention mechanism to construct a continuous graph representation of multivariate time series by inferring dynamic edges between time series. DyGATAD incorporates an operating condition-aware reconstruction combined with a topology-based anomaly score, thereby enhancing the detection ability of relationship shifts. We evaluate the performance of DyGATAD using both a synthetic dataset with controlled varying fault severity levels and an industrial-scale multiphase flow facility benchmark featuring various fault types with different detection difficulties. Our proposed approach demonstrated superior performance in collective anomaly detection for sensor networks, showing particular strength in early-stage fault detection, even in the case of faults with minimal severity.
翻訳日:2023-07-11 17:35:55 公開日:2023-07-07
# 時系列グラフニューラルネットワークに関する調査:予測,分類,インプット,異常検出

A Survey on Graph Neural Networks for Time Series: Forecasting, Classification, Imputation, and Anomaly Detection ( http://arxiv.org/abs/2307.03759v1 )

ライセンス: Link先を確認
Ming Jin, Huan Yee Koh, Qingsong Wen, Daniele Zambon, Cesare Alippi, Geoffrey I. Webb, Irwin King, Shirui Pan(参考訳) 時系列は、動的システムの計測を記録し、物理センサーとオンラインプロセス(仮想センサー)の両方によって大量に生成される主要なデータ型である。 したがって、時系列分析は、利用可能なデータに暗黙のうちに大量の情報を解き放つのに不可欠である。 グラフニューラルネットワーク(GNN)の最近の進歩により、時系列分析のためのGNNベースのアプローチが急増している。 アプローチは、従来のニューラルネットワークベースの手法では難しい、時間的および変数間の関係を明示的にモデル化することができる。 本調査では,時系列解析(GNN4TS)のためのグラフニューラルネットワークの網羅的レビューを行い,予測,分類,異常検出,計算の4つの基本次元を網羅した。 我々の目標は、デザイナーや実践者がGNN4TSの理解を深め、アプリケーションを構築し、研究を進めることにある。 まず、GNN4TSの包括的なタスク指向分類を提供する。 そして,代表的研究成果を提示し,最後に,GNN4TSのメインストリーム応用について論じる。 今後の研究方向性に関する総合的な議論が、調査を完了させる。 この調査は、初めて、GNNベースの時系列研究に関する膨大な知識を集め、時系列分析のためのグラフニューラルネットワークの基礎、実践的応用、および機会の両方を強調した。

Time series are the primary data type used to record dynamic system measurements and generated in great volume by both physical sensors and online processes (virtual sensors). Time series analytics is therefore crucial to unlocking the wealth of information implicit in available data. With the recent advancements in graph neural networks (GNNs), there has been a surge in GNN-based approaches for time series analysis. Approaches can explicitly model inter-temporal and inter-variable relationships, which traditional and other deep neural network-based methods struggle to do. In this survey, we provide a comprehensive review of graph neural networks for time series analysis (GNN4TS), encompassing four fundamental dimensions: Forecasting, classification, anomaly detection, and imputation. Our aim is to guide designers and practitioners to understand, build applications, and advance research of GNN4TS. At first, we provide a comprehensive task-oriented taxonomy of GNN4TS. Then, we present and discuss representative research works and, finally, discuss mainstream applications of GNN4TS. A comprehensive discussion of potential future research directions completes the survey. This survey, for the first time, brings together a vast array of knowledge on GNN-based time series research, highlighting both the foundations, practical applications, and opportunities of graph neural networks for time series analysis.
翻訳日:2023-07-11 17:35:28 公開日:2023-07-07
# URL: 転送可能な不確実性推定のための表現学習ベンチマーク

URL: A Representation Learning Benchmark for Transferable Uncertainty Estimates ( http://arxiv.org/abs/2307.03810v1 )

ライセンス: Link先を確認
Michael Kirchhof and B\'alint Mucs\'anyi and Seong Joon Oh and Enkelejda Kasneci(参考訳) 表現学習は、新しいデータセットに転送する際に価値ある出発点として機能する、事前学習されたモデルの開発に大きく寄与した。 信頼性の高い機械学習と不確実性定量化の需要が高まっているため、組み込みだけでなく、転送可能な不確実性推定を提供する事前学習モデルが必要となる。 このようなモデルの開発を導くために,不確実性認識表現学習(URL)ベンチマークを提案する。 表現の転送可能性に加えて、新しい計量を用いて不確実性推定のゼロショット転送可能性も測定する。 imagenetで事前トレーニングされ、8つの下流データセットに転送される11の不確実性定量化器を評価するためにurlを適用する。 表現自体の不確実性に焦点を当てたアプローチや,上流クラスの確率に基づく予測リスクを直接上回る予測リスクを推定する手法を見出した。 しかし、転送可能な不確実性定量化を達成することは、未解決の課題である。 本研究は,従来の表現学習目標と必ずしも相反するものではないことを示唆する。 コードはhttps://github.com/mkirchhof/urlで提供される。

Representation learning has significantly driven the field to develop pretrained models that can act as a valuable starting point when transferring to new datasets. With the rising demand for reliable machine learning and uncertainty quantification, there is a need for pretrained models that not only provide embeddings but also transferable uncertainty estimates. To guide the development of such models, we propose the Uncertainty-aware Representation Learning (URL) benchmark. Besides the transferability of the representations, it also measures the zero-shot transferability of the uncertainty estimate using a novel metric. We apply URL to evaluate eleven uncertainty quantifiers that are pretrained on ImageNet and transferred to eight downstream datasets. We find that approaches that focus on the uncertainty of the representation itself or estimate the prediction risk directly outperform those that are based on the probabilities of upstream classes. Yet, achieving transferable uncertainty quantification remains an open challenge. Our findings indicate that it is not necessarily in conflict with traditional representation learning goals. Code is provided under https://github.com/mkirchhof/url .
翻訳日:2023-07-11 17:28:36 公開日:2023-07-07
# テラヘルツ媒介マイクロ波-光変換

Terahertz-Mediated Microwave-to-Optical Transduction ( http://arxiv.org/abs/2307.03809v1 )

ライセンス: Link先を確認
Furkan Sahbaz, James N. Eckstein, Dale J. Van Harlingen, Simeon I. Bogdanov(参考訳) マイクロ波と光レンジ間の量子信号の変換は、超伝導量子ビットによる情報処理と光光子による低ノイズ量子ネットワークを可能にする強力なハイブリッド量子システムを解き放つ。 ほとんどのマイクロ波-光量子トランスデューサは、ポンプ吸収による熱ノイズに悩まされる。 THz帯の中間周波数状態に基づく2段階スキームを用いた電気光学変換器における熱・波動の結合解析を行った。 数値シミュレーションにより, 連続ポンプを用いた2段階方式では, 直接送受信と比較して, 多次雑音抑圧による外部効率がほぼ均一であることを示した。 その結果、2段階の電気光学トランスデューサは、量子ノイズを制限した超伝導量子プロセッサと、mhzスケールのビットレートで光チャネルを接続できる。

Transduction of quantum signals between the microwave and the optical ranges will unlock powerful hybrid quantum systems enabling information processing with superconducting qubits and low-noise quantum networking through optical photons. Most microwave-to-optical quantum transducers suffer from thermal noise due to pump absorption. We analyze the coupled thermal and wave dynamics in electro-optic transducers that use a two-step scheme based on an intermediate frequency state in the THz range. Our analysis, supported by numerical simulations, shows that the two-step scheme operating with a continuous pump offers near-unity external efficiency with a multi-order noise suppression compared to direct transduction. As a result, two-step electro-optic transducers may enable quantum noise-limited interfacing of superconducting quantum processors with optical channels at MHz-scale bitrates.
翻訳日:2023-07-11 17:28:08 公開日:2023-07-07
# 駆動型1次元準周期モデルにおけるファミリービクセク動的スケーリングとkpz様表面粗さ超拡散成長

Family-Vicsek dynamical scaling and KPZ-like superdiffusive growth of surface-roughness in a driven one-dimensional quasiperiodic model ( http://arxiv.org/abs/2307.03807v1 )

ライセンス: Link先を確認
Sreemayee Aditya, Nilanjan Roy(参考訳) 量子系の力学的普遍性クラスの研究は、非平衡物理学の重要な側面であり、あまり研究されていない。 本研究では,周期駆動を伴う一次元準周期モデルにおけるスピンレスフェルミオンの非平衡ダイナミクスを考慮し,粒子数ゆらぎに伴う「量子表面粗さ」の動的一パラメータ系ファミリービクセック(fv)スケーリングの存在を報告する。 周期駆動がなければ、モデルは2つの部分微分臨界線と他の位相から三重点によって分離された部分微分臨界位相を持つことが興味深い。 相間駆動の存在下での臨界相の運命の解析は、臨界相は極めて脆弱であり、駆動パラメータによって非局在化または局所化状態へ吸収される傾向があることを示している。 さらに、周期駆動は量子カルダー・パリ・チャン(KPZ)のような超拡散的力学挙動を示すことに共謀しうるが、古典的なものは存在しないようである。 さらに実効的なフロケハミルトニアンを構築し、これは駆動モデルで発生する特徴を質的に捉える。

The investigation of the dynamical universality classes of quantum systems is an important, and rather less explored, aspect of non-equilibrium physics. In this work, considering the out-of-equilibrium dynamics of spinless fermions in a one-dimensional quasiperiodic model with and without a periodic driving, we report the existence of the dynamical one-parameter based Family-Vicsek (FV) scaling of the "quantum surface-roughness" associated with the particle-number fluctuations. In absence of periodic driving, the model is interestingly shown to host a subdiffusive critical phase separated by two subdiffusive critical lines and a triple point from other phases. An analysis of the fate of critical phase in the presence of (inter-phase) driving indicates that the critical phase is quite fragile and has a tendency to get absorbed into the delocalized or localized regime depending on the driving parameters. Furthermore, periodic driving can conspire to show quantum Kardar-Parisi-Zhang (KPZ)-like superdiffusive dynamical behavior, which seems to have no classical counterpart. We further construct an effective Floquet Hamiltonian, which qualitatively captures this feature occurring in the driven model
翻訳日:2023-07-11 17:27:47 公開日:2023-07-07
# 大学生のデータベース学習の傾向--深層学習か,それとも成果の獲得か

Tendencies in Database Learning for Undergraduate Students: Learning In-Depth or Getting the Work Done? ( http://arxiv.org/abs/2307.03806v1 )

ライセンス: Link先を確認
Emilia Pop, Manuela Petrescu(参考訳) 本研究は,2年生の学習傾向をデータベースコースに関連づけて調査し,分析するものである。 191人の学生から79の回答が集まり、その回答はテーマ分析によって分析され、解釈された。 この研究の参加者は、2つの回答セットを提供し、匿名で収集した(コースの始めと終わりに)。 学生たちはデータベースの基礎だけを学びたいと結論づけました。 彼らの主な課題はコースの宿題に関するものだった。 私たちはその情報と関連する回答を組み合わせた。 1) 学習したい他のデータベース関連トピック。 2)取得した情報をどのように利用するか、及び 3) 他のデータベース関連トピックの学習に対する全体的な関心。 結論は、学生は目標を達成するのに役立つ基本的な情報のみを学ぶことを好む、というものだった。 これらの学生にとって、仕事のやり直しは深く学ぶことよりも望ましい。

This study explores and analyzes the learning tendencies of second-year students enrolled in different lines of study related to the Databases course. There were 79 answers collected from 191 enrolled students that were analyzed and interpreted using thematic analysis. The participants in the study provided two sets of answers, anonymously collected (at the beginning and at the end of the course), thus allowing us to have clear data regarding their interests and to find out their tendencies. We looked into their expectations and if they were met; we concluded that the students want to learn only database basics. Their main challenges were related to the course homework. We combined the information and the answers related to 1) other database-related topics that they would like to learn, 2) how they plan to use the acquired information, and 3) overall interest in learning other database-related topics. The conclusion was that students prefer learning only the basic information that could help them achieve their goals: creating an application or using it at work. For these students, Getting the work done is preferred to Learning in-depth.
翻訳日:2023-07-11 17:26:54 公開日:2023-07-07
# データベースとSQLに関連するキャリアパスに対する学生の魅力 : 学生の知覚におけるユーザビリティと効率性 -ケーススタディ-

Student's Attraction for a Carrier Path Related to Databases and SQL: Usability vs Efficiency in Students' Perception -Case Study ( http://arxiv.org/abs/2307.03804v1 )

ライセンス: Link先を確認
Manuela Petrescu, Emilia Pop(参考訳) 本研究は,データベース関連領域にキャリアパスを持つことに関心を持ち,市場からの仕事要求を反映させるものとして,データベースコースに関するさまざまな研究に登録した2年生の期待を探究し,分析するものである。 調査参加者は、匿名で収集した2つの回答(物議をかもし、コースの途中で)を提供して、対象についてもっと知る限り、彼らの関心がどのように変化したかを追跡できるようにしました。 私たちは、彼らの経験と初期の知識を尋ね、彼らがデータベースのSQLとユーザビリティと重要性を認識していることに気づきました。 論文の当初のスコープではなかったとしても、男性は女性よりも深く(セキュリティ、パフォーマンス、複雑性データベース関連情報を取得すること)を学ぶことに関心があることが分かりました。 対象は, 対象学生191名のうち87名であり, テーマ分析を用いて分析, 解釈を行った。

This study explores and analyses the expectations of second-year students enrolled in different lines of study related to Database course, as their interest in having a carrier path in a database related domain and how it reflects the job demands from the market. The participants in the study provided two sets of answers, anonymously collected (in the begging and in the middle of the course), thus allowing us to track how their interests changed as long as they found out more about the subject. We asked for their experience and initial knowledge, we found out that they are aware of the SQL and usability and importance of databases, but they appreciated the database knowledge will be used occasionally. Even if it was not the original scope of the paper, we also found out that men are more interested in learning in depth (acquiring security, performance, complexity database related information) than women do. In terms of the participants set, there were 87 answers from 191 enrolled students that were analyzed and interpreted using thematic analysis.
翻訳日:2023-07-11 17:26:31 公開日:2023-07-07
# 逆ロバスト性に対するサブネットワーク貢献の理論的展望

A Theoretical Perspective on Subnetwork Contributions to Adversarial Robustness ( http://arxiv.org/abs/2307.03803v1 )

ライセンス: Link先を確認
Jovon Craig, Josh Andle, Theodore S. Nowak, Salimeh Yasaei Sekeh(参考訳) ディープニューラルネットワーク(dnn)の敵対的攻撃に対するロバスト性は、ディープラーニングモデルの収束方法と、これらのモデルの安全性を安全クリティカルなアプリケーションにおいて確実に確保するための理解を深めるために、広く研究されてきた。 敵対的訓練は、DNNを敵対的攻撃に対して強化するアプローチのひとつであり、計算コストの高いトレーニング手法をモデル全体に適用するコストで実施する方法が示されている。 本稿では,これらの攻撃をよりよく理解し,より効率的な敵の訓練を促進するために,サブネットワークの敵のロバスト性がネットワーク全体のロバスト性にどのように寄与するかを考察する理論的枠組みを開発する。 そこで我々はまず,サブネットワークの対角的堅牢性の尺度であるセミロバストネスの概念を導入する。 この概念に基づいて、我々は、サブネットワークがセミロバストで、ネットワーク内の各層とそれに続く各層の間に十分な依存性がある場合、残りの層が堅牢であることを保証する理論的解析を行う。 本研究は,複数のDNNアーキテクチャ,データセット,敵攻撃に対して実験的に検証した。 実験は、フルネットワークのロバスト性を促進するためのロバストなサブネットワークの能力を示し、このフルネットワークのロバスト性を達成するために必要なレイヤ毎の依存関係を調べる。

The robustness of deep neural networks (DNNs) against adversarial attacks has been studied extensively in hopes of both better understanding how deep learning models converge and in order to ensure the security of these models in safety-critical applications. Adversarial training is one approach to strengthening DNNs against adversarial attacks, and has been shown to offer a means for doing so at the cost of applying computationally expensive training methods to the entire model. To better understand these attacks and facilitate more efficient adversarial training, in this paper we develop a novel theoretical framework that investigates how the adversarial robustness of a subnetwork contributes to the robustness of the entire network. To do so we first introduce the concept of semirobustness, which is a measure of the adversarial robustness of a subnetwork. Building on this concept, we then provide a theoretical analysis to show that if a subnetwork is semirobust and there is a sufficient dependency between it and each subsequent layer in the network, then the remaining layers are also guaranteed to be robust. We validate these findings empirically across multiple DNN architectures, datasets, and adversarial attacks. Experiments show the ability of a robust subnetwork to promote full-network robustness, and investigate the layer-wise dependencies required for this full-network robustness to be achieved.
翻訳日:2023-07-11 17:26:15 公開日:2023-07-07
# コンピュータサイエンスを習いながらの教師のインタラクション--大学生実験の成果から

Student Teacher Interaction While Learning Computer Science: Early Results from an Experiment on Undergraduates ( http://arxiv.org/abs/2307.03802v1 )

ライセンス: Link先を確認
Manuela Petrescu, Kuderna Bentasup(参考訳) 本研究の目的は,コンピュータサイエンスの学生が学習スタイルをどう知覚するか,授業スタイルが学習欲求や授業への関心にどのように影響するかを明らかにすることである。 そこで本研究では,同じ学生群(86名)が異なる教示スタイル(講義の2週間の差で同じ教師が表す)に曝露する実験を設計・実施した。 日時(クローズドなもの)を慎重に選択し,同じ教室と週の同じ日,同じ時間にコースを持ち,導入する項目の数と複雑さをチェックすることで,外部要因の影響を最小限に抑えることを試みた。 我々は,学生のフィードバックを求め,授業に参加するための可算なボディサインのセットを定義した。 結果は、測定値(ボディ言語)とテキスト分析結果の両方で比較され、学生はよりインタラクティブなコースを好み、リラックスした雰囲気を持ち、これらの状況で学ぶことを熱望していた。

The scope of this paper was to find out how the students in Computer Science perceive different teaching styles and how the teaching style impacts the learning desire and interest in the course. To find out, we designed and implemented an experiment in which the same groups of students (86 students) were exposed to different teaching styles (presented by the same teacher at a difference of two weeks between lectures). We tried to minimize external factors' impact by carefully selecting the dates (close ones), having the courses in the same classroom and on the same day of the week, at the same hour, and checking the number and the complexity of the introduced items to be comparable. We asked for students' feedback and we define a set of countable body signs for their involvement in the course. The results were comparable by both metrics (body language) and text analysis results, students prefer a more interactive course, with a relaxing atmosphere, and are keener to learn in these conditions.
翻訳日:2023-07-11 17:25:51 公開日:2023-07-07
# ディッケ模型における位相空間のプローブとしての量子多重フラクタリティ

Quantum multifractality as a probe of phase space in the Dicke model ( http://arxiv.org/abs/2307.03801v1 )

ライセンス: Link先を確認
Miguel A. Bastarrachea-Magnani, David Villase\~nor, Jorge Ch\'avez-Carlos, Sergio Lerma-Hern\'andez, Lea F. Santos, Jorge G. Hirsch(参考訳) 本研究では,単一ボソニックモードと2段階システムの集合的相互作用を記述するパラダイムモデルであるスピンボソン・ディッケ・ハミルトニアンのエネルギー固有ベイシスに投影されるコヒーレント状態の多重フラクタル挙動について検討した。 質量指数に対する線形近似と放物的補正を調べることで、エルゴード的および多フラクタル的コヒーレント状態を発見し、カオス、規則性、局所化の特徴を含む古典位相空間の構造の詳細を反映していることを示す。 マルチフラクタリティの解析は、位相空間の変化や構造を検出するための敏感なツールであり、それを調べるための古典的なツールと相補的である。 我々はまた、非有界ヒルベルト空間を持つシステムの多重フラクタル解析に関わる困難にも対処する。

We study the multifractal behavior of coherent states projected in the energy eigenbasis of the spin-boson Dicke Hamiltonian, a paradigmatic model describing the collective interaction between a single bosonic mode and a set of two-level systems. By examining the linear approximation and parabolic correction to the mass exponents, we find ergodic and multifractal coherent states and show that they reflect details of the structure of the classical phase space, including chaos, regularity, and features of localization. The analysis of multifractality stands as a sensitive tool to detect changes and structures in phase space, complementary to classical tools to investigate it. We also address the difficulties involved in the multifractal analyses of systems with unbounded Hilbert spaces
翻訳日:2023-07-11 17:25:32 公開日:2023-07-07
# Dense Skeleton Graph を用いた胸部軟骨超音波-CTレジストレーション

Thoracic Cartilage Ultrasound-CT Registration using Dense Skeleton Graph ( http://arxiv.org/abs/2307.03800v1 )

ライセンス: Link先を確認
Zhongliang Jiang, Chenyang Li, Xuesong Li, Nassir Navab(参考訳) 自律型超音波(US)画像は近年関心が高まり、術者間変動など、米国におけるフリーハンド検査の限界を克服するための潜在的な解決策と見なされている。 しかし、一般的なアトラスから個々の患者への計画された経路を正確にマッピングすることは依然として困難であり、特に、皮膚に高い音響インピーダンスの骨構造を持つ胸椎への応用は困難である。 この課題に対処するために,皮膚表面の代わりに皮下骨表面の特徴を明示的に考慮し,アトラスから現在の設定へ計画経路を移行可能にするグラフベースの非剛性登録を提案する。 この目的のために、USおよびCT点雲の粗いアライメントを支援するテンプレートマッチングを用いて、胸骨と軟骨枝をセグメント化する。 その後、CTテンプレートに基づいて有向グラフを生成する。 次に、地理的距離を用いた自己組織化マップを順次2回行い、ctおよびusポイントクラウドの最適なグラフ表現を個別に抽出する。 提案手法を評価するため, 異なる患者から5つの軟骨点雲を採取した。 その結果,提案したグラフベース登録により,CTからのトラジェクトリを現在の設定に効果的にマッピングし,コンステレーション空間を限定してUSビューを表示することができた。 ハウスドルフ距離(Mean$\pm$SD)の非剛体登録結果は9.48$\pm$0.27 mmであり、ユークリッド距離の経路移動誤差は2.21$\pm$1.11 mmである。

Autonomous ultrasound (US) imaging has gained increased interest recently, and it has been seen as a potential solution to overcome the limitations of free-hand US examinations, such as inter-operator variations. However, it is still challenging to accurately map planned paths from a generic atlas to individual patients, particularly for thoracic applications with high acoustic-impedance bone structures under the skin. To address this challenge, a graph-based non-rigid registration is proposed to enable transferring planned paths from the atlas to the current setup by explicitly considering subcutaneous bone surface features instead of the skin surface. To this end, the sternum and cartilage branches are segmented using a template matching to assist coarse alignment of US and CT point clouds. Afterward, a directed graph is generated based on the CT template. Then, the self-organizing map using geographical distance is successively performed twice to extract the optimal graph representations for CT and US point clouds, individually. To evaluate the proposed approach, five cartilage point clouds from distinct patients are employed. The results demonstrate that the proposed graph-based registration can effectively map trajectories from CT to the current setup for displaying US views through limited intercostal space. The non-rigid registration results in terms of Hausdorff distance (Mean$\pm$SD) is 9.48$\pm$0.27 mm and the path transferring error in terms of Euclidean distance is 2.21$\pm$1.11 mm.
翻訳日:2023-07-11 17:25:15 公開日:2023-07-07
# CLIPMasterPrints:潜在変数進化を用いたコントラスト言語イメージ事前学習

CLIPMasterPrints: Fooling Contrastive Language-Image Pre-training Using Latent Variable Evolution ( http://arxiv.org/abs/2307.03798v1 )

ライセンス: Link先を確認
Matthias Freiberger, Peter Kun, Anders Sundnes L{\o}vlie, Sebastian Risi(参考訳) Contrastive Language-Image Pre-training (CLIP) のような視覚的およびテキスト的データを活用するモデルの重要性が高まっている。 本研究は,その汎用性にもかかわらず,このようなモデルが,マスタイメージを騙すような表現に対して脆弱であることを示す。 マスタイメージの摂食は、CLIPモデルの信頼性スコアを、人間には認識できないながら、かなりの数の様々なプロンプトに対して最大化することができる。 本稿では,生成モデルの潜在空間を進化戦略や確率的勾配降下によって探索することで,マスタイメージを騙す方法を示す。 マイニングされた騙されたマスター画像の特性を調査し、少数の画像キャプションで訓練された画像が、より多くの意味的に関連するキャプションに一般化する可能性を見出した。 さらに, 2 つの緩和策を評価し,マスター例を騙す脆弱性は, 対照的な事前学習型マルチモーダルネットワークにおけるモダリティギャップと密接に関連していることを確認した。 脆弱性からオフマンフォールド攻撃への視点から、我々はCLIPと関連するマルチモーダルアプローチにおけるモダリティギャップの緩和を論じる。 ソースコードとマイニングされたCLIPMasterPrintsはhttps://github.com/matfrei/CLIPMasterPrintsで入手できる。

Models leveraging both visual and textual data such as Contrastive Language-Image Pre-training (CLIP), are increasingly gaining importance. In this work, we show that despite their versatility, such models are vulnerable to what we refer to as fooling master images. Fooling master images are capable of maximizing the confidence score of a CLIP model for a significant number of widely varying prompts, while being unrecognizable for humans. We demonstrate how fooling master images can be mined by searching the latent space of generative models by means of an evolution strategy or stochastic gradient descent. We investigate the properties of the mined fooling master images, and find that images trained on a small number of image captions potentially generalize to a much larger number of semantically related captions. Further, we evaluate two possible mitigation strategies and find that vulnerability to fooling master examples is closely related to a modality gap in contrastive pre-trained multi-modal networks. From the perspective of vulnerability to off-manifold attacks, we therefore argue for the mitigation of modality gaps in CLIP and related multi-modal approaches. Source code and mined CLIPMasterPrints are available at https://github.com/matfrei/CLIPMasterPrints.
翻訳日:2023-07-11 17:24:51 公開日:2023-07-07
# back to optimization:拡散に基づくゼロショット3次元ポーズ推定

Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation ( http://arxiv.org/abs/2307.03833v1 )

ライセンス: Link先を確認
Zhongyu Jiang, Zhuoran Zhou, Lei Li, Wenhao Chai, Cheng-Yen Yang, Jenq-Neng Hwang(参考訳) 学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。 それにもかかわらず、訓練されたネットワークは暗黙的にカメラ固有のパラメータとドメインベースの人間のポーズの分布と統計的平均による推定ポーズを学習するため、2D-3Dリフト、画像から3D、あるいは拡散ベースの方法で学習ベースのモデルにとって、野生の3D HPEは依然として最大の課題である。 一方、最適化に基づく手法は、より多様で洗練された人間のポーズを予測することができるケース・バイ・ケースを推定する。 最適化と学習に基づく手法の利点を組み合わせることで、3D HPEのためのZero-shot Diffusion-based Optimization (ZeDO) パイプラインを提案し、クロスドメインと3D HPEの問題を解決する。 われわれはHuman3.6MのSOTA(State-of-the-art)性能をminMPJPE 51.4$mmで達成した。 さらに,本論文では3DPWデータセット上でのSOTA性能をPA-MPJPE $42.6$mmで達成し,さらに3DPWでトレーニングした学習手法よりも優れていた。

Learning-based methods have dominated the 3D human pose estimation (HPE) tasks with significantly better performance in most benchmarks than traditional optimization-based methods. Nonetheless, 3D HPE in the wild is still the biggest challenge of learning-based models, whether with 2D-3D lifting, image-to-3D, or diffusion-based methods, since the trained networks implicitly learn camera intrinsic parameters and domain-based 3D human pose distributions and estimate poses by statistical average. On the other hand, the optimization-based methods estimate results case-by-case, which can predict more diverse and sophisticated human poses in the wild. By combining the advantages of optimization-based and learning-based methods, we propose the Zero-shot Diffusion-based Optimization (ZeDO) pipeline for 3D HPE to solve the problem of cross-domain and in-the-wild 3D HPE. Our multi-hypothesis ZeDO achieves state-of-the-art (SOTA) performance on Human3.6M as minMPJPE $51.4$mm without training with any 2D-3D or image-3D pairs. Moreover, our single-hypothesis ZeDO achieves SOTA performance on 3DPW dataset with PA-MPJPE $42.6$mm on cross-dataset evaluation, which even outperforms learning-based methods trained on 3DPW.
翻訳日:2023-07-11 17:19:07 公開日:2023-07-07
# 相関量子系における異常エネルギー流れの基本限界

Fundamental limits on anomalous energy flows in correlated quantum systems ( http://arxiv.org/abs/2307.03828v1 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik, Giovanni Francesco Diotallevi, Pharnam Bakhshinezhad(参考訳) 古典的な熱力学では、エネルギーは常に熱い系から冷たい系へ流れる。 しかし、これらの系が最初に相関している場合、エネルギーの流れが逆転し、寒冷な系が冷たくなり、熱い系が熱くなる。 この興味深い現象は「異常エネルギーの流れ」と呼ばれ、熱力学系の物理的性質を決定する上での初期相関の重要性を示している。 ここでは、この効果の基本的な限界について検討する。 具体的には、閉および可逆力学の下で量子系間で伝達される最適なエネルギー量を見つけることで、異常なエネルギーの流れを特徴付けることができる。 次に、触媒として作用する補助量子系によってエネルギーの流れが媒介されるより一般的なシナリオを探求する。 このアプローチは、これまでアクセスできないタイプの相関を活用でき、最終的には基本的な境界を超えるエネルギー移動をもたらすことを示す。 これらの知見を示すために、2つの原子を光学空洞に結合した量子光学系をよく研究した。

In classical thermodynamics energy always flows from the hotter system to the colder one. However, if these systems are initially correlated, the energy flow can reverse, making the cold system colder and the hot system hotter. This intriguing phenomenon is called ``anomalous energy flow'' and shows the importance of initial correlations in determining physical properties of thermodynamic systems. Here we investigate the fundamental limits of this effect. Specifically, we find the optimal amount of energy that can be transferred between quantum systems under closed and reversible dynamics, which then allows us to characterize the anomalous energy flow. We then explore a more general scenario where the energy flow is mediated by an ancillary quantum system that acts as a catalyst. We show that this approach allows for exploiting previously inaccessible types of correlations, ultimately resulting in an energy transfer that surpasses our fundamental bound. To demonstrate these findings, we use a well-studied quantum optics setup involving two atoms coupled to an optical cavity.
翻訳日:2023-07-11 17:18:43 公開日:2023-07-07
# 多心FLAIR MRIにおける深部学習における強度標準化の効果

Effect of Intensity Standardization on Deep Learning for WML Segmentation in Multi-Centre FLAIR MRI ( http://arxiv.org/abs/2307.03827v1 )

ライセンス: Link先を確認
Abdollah Ghazvanchahi, Pejman Jahbedar Maralani, Alan R. Moody, April Khademi(参考訳) mriにおける白質病変(wml)分割のための深層学習(dl)法は、トレーニングデータからアウトオブディストリビューション(ood)であるスキャナやセンタのデータに適用すると、パフォーマンスが低下する。 これは、現在のモデルが新しい機関のデータに容易に適用できないため、翻訳と大規模採用にとって非常に重要である。 本研究では, FLAIR (Multi-centre Fluid-Attenuated Inversion Recovery) MRIにおけるWMLセグメンテーションの前処理ステップとしてMRIの強度標準化手法を評価する。 我々は、White-strip、Nyul、Z-scoreなどの一般的な正規化技術とともに、IAMLABと呼ばれるFLAIR MRI用に特別に開発された手法を評価する。 各モデルからの予測を組み合わせたアンサンブルモデルを提案した。 標準画像上ではスキップ接続UNet (SC UNet) を訓練し, 元のデータとセグメンテーション性能を数次元にわたって評価した。 訓練データ(分布内データ)は60巻の1つの研究からなり、試験データ(oodデータ)は3つの臨床コホートから128の未発見ボリュームである。 その結果、IAMLABとEnsembleは、元のデータや他の正規化手法のモデルと比較して高いWMLセグメンテーション性能を提供することがわかった。 IAMLAB & Ensembleは、分布内データ(0.78および0.80)および臨床用OODデータ上で最も高いサイス類似係数(DSC)を有する。 DSCはIAMLABでは,すべての病変群 (LL>25mL: 0.77 vs. 0.71; 10mL<= LL<25mL: 0.66 vs. 0.61; LL<10mL: 0.53 vs. 0.52) と比較して有意に高かった。 IAMLABとEnsembleの正規化法はMRI領域シフトを緩和し、未確認FLAIRデータにおけるDLベースのWMLセグメンテーションに最適である。

Deep learning (DL) methods for white matter lesion (WML) segmentation in MRI suffer a reduction in performance when applied on data from a scanner or centre that is out-of-distribution (OOD) from the training data. This is critical for translation and widescale adoption, since current models cannot be readily applied to data from new institutions. In this work, we evaluate several intensity standardization methods for MRI as a preprocessing step for WML segmentation in multi-centre Fluid-Attenuated Inversion Recovery (FLAIR) MRI. We evaluate a method specifically developed for FLAIR MRI called IAMLAB along with other popular normalization techniques such as White-strip, Nyul and Z-score. We proposed an Ensemble model that combines predictions from each of these models. A skip-connection UNet (SC UNet) was trained on the standardized images, as well as the original data and segmentation performance was evaluated over several dimensions. The training (in-distribution) data consists of a single study, of 60 volumes, and the test (OOD) data is 128 unseen volumes from three clinical cohorts. Results show IAMLAB and Ensemble provide higher WML segmentation performance compared to models from original data or other normalization methods. IAMLAB & Ensemble have the highest dice similarity coefficient (DSC) on the in-distribution data (0.78 & 0.80) and on clinical OOD data. DSC was significantly higher for IAMLAB compared to the original data (p<0.05) for all lesion categories (LL>25mL: 0.77 vs. 0.71; 10mL<= LL<25mL: 0.66 vs. 0.61; LL<10mL: 0.53 vs. 0.52). The IAMLAB and Ensemble normalization methods are mitigating MRI domain shift and are optimal for DL-based WML segmentation in unseen FLAIR data.
翻訳日:2023-07-11 17:18:27 公開日:2023-07-07
# AIチャットはどのように検索行動を変えるのか?

How does AI chat change search behaviors? ( http://arxiv.org/abs/2307.03826v1 )

ライセンス: Link先を確認
Robert Capra, Jaime Arguello(参考訳) chatGPTのようなジェネレーティブなAIツールは、人々がオンライン情報を扱う方法を変えようとしている。 最近Microsoftは、OpenAIのチャットと生成AI技術を組み込んだ"新しいBing"検索システムを発表した。 googleは、同様のテクノロジーを組み込んだ検索インターフェースを展開する計画を発表した。 これらの新しい技術は、人々が情報を探す方法を変えるだろう。 ここで提示された研究は、検索プロセスの一部として、人々が生成的なaiチャットシステムをどのように利用するか、既存の検索ツールとチャットシステムを組み込むことがユーザーの検索行動や戦略にどのように影響を与えるか、に関する初期の調査である。 本稿では,openai gpt-3.5 apiとbing web search v5 apiを利用したチャット+検索システムを用いた探索的ユーザ調査について報告する。 参加者は3つの検索タスクを完了した。 本論文では,ユーザがaiチャットを検索プロセスに統合する方法,チャットシステムに対する好意や嫌悪感,チャット応答に対する信頼度,チャットシステムがどのように応答を生成するかというメンタルモデルについて報告する。

Generative AI tools such as chatGPT are poised to change the way people engage with online information. Recently, Microsoft announced their "new Bing" search system which incorporates chat and generative AI technology from OpenAI. Google has announced plans to deploy search interfaces that incorporate similar types of technology. These new technologies will transform how people can search for information. The research presented here is an early investigation into how people make use of a generative AI chat system (referred to simply as chat from here on) as part of a search process, and how the incorporation of chat systems with existing search tools may effect users search behaviors and strategies. We report on an exploratory user study with 10 participants who used a combined Chat+Search system that utilized the OpenAI GPT-3.5 API and the Bing Web Search v5 API. Participants completed three search tasks. In this pre-print paper of preliminary results, we report on ways that users integrated AI chat into their search process, things they liked and disliked about the chat system, their trust in the chat responses, and their mental models of how the chat system generated responses.
翻訳日:2023-07-11 17:17:55 公開日:2023-07-07
# 開量子系における幾何相:解析と応用

Geometric Phases in Open Quantum Systems: Analysis and Applications ( http://arxiv.org/abs/2307.03825v1 )

ライセンス: Link先を確認
Ludmila Viotti(参考訳) この論文は、制御されていない環境の影響に曝露された様々な少数の量子系上で実行されるいくつかの研究から成り立っている。 この研究の主な焦点は、デコヒーレンスと環境によって引き起こされる散逸効果と幾何学的位相と呼ばれる概念との関係を探ることである。 量子力学の文脈におけるそのような対象の最初の言及は、ベリーの独創的な業績にさかのぼる。 彼は、断熱サイクルにおける時間依存ハミルトニアンの固有状態によって得られる位相が、2つの異なる寄与からなることを証明した。 ベリーの仕事以来、幾何学的位相の概念は元の文脈を超えて拡張され、任意のユニタリ進化に適用できる定義を包含している。 これらの幾何学的位相は自然にヒルベルト空間の幾何学的記述に現れ、そこではホロノミーとして現れ、量子力学とその数学的枠組みの基本的な理解や、フラクタルホール効果を含む様々な物理現象の説明において重要な意味を持つ。 さらに、現代の観点からは、幾何学的位相は量子情報処理や記憶のための幾何学的ゲートを構築するなど、実用的な応用を約束する。 しかし、実際には、量子システムの純粋な状態は理想化された概念であり、すべての実験的あるいは実世界の実装は、観測されたシステムと相互作用する環境の存在を考慮しなければならない。 この相互作用は混合状態と非単体進化の観点から記述する必要がある。 このようなシナリオに適用可能な幾何学的位相の定義は未解決の問題であり、複数の解が提案されている。 したがって、これらの幾何学的位相の特徴付けは、量子力学の基本的な側面から技術応用へのモチベーションを補う。

This thesis consists of several studies performed over different few-dof quantum systems exposed to the effect of an uncontrolled environment. The primary focus of the work is to explore the relation between decoherence and environmentally-induced dissipative effects, and the concept known as geometric phases. The first mention of such an object in the context of quantum mechanics goes back to the seminal work by Berry. He demonstrated that the phase acquired by an eigenstate of a time-dependent Hamiltonian in an adiabatic cycle consists of two distinct contributions: one termed 'geometric' and the other known as the dynamical phase. Since Berry's work, the notion of geometric phase has been extended far beyond the original context, encompassing definitions applicable to arbitrary unitary evolutions. These geometric phases naturally arise in the geometric description of Hilbert space, where they manifest as holonomies and possess significance in the fundamental understanding of quantum mechanics and its mathematical framework, and in explaining various physical phenomena, including the Fractional Hall Effect. Moreover, from a modern perspective, geometric phases hold promise for practical applications, such as constructing geometric gates for quantum information processing and storage. However, in practice, a pure state of a quantum system is an idealized concept, and every experimental or real-world implementation must account for the presence of an environment that interacts with the observed system. This interaction necessitates a description in terms of mixed states and non-unitary evolutions. The definition of a geometric phase applicable in such scenarios remains an open problem, giving rise to multiple proposed solutions. Consequently, characterizing these geometric phases encompase motivations from fundamental aspects of quantum mechanics to technological applications.
翻訳日:2023-07-11 17:17:36 公開日:2023-07-07
# ドメイン間の最小ショット関係抽出のための言語表現

Linguistic representations for fewer-shot relation extraction across domains ( http://arxiv.org/abs/2307.03823v1 )

ライセンス: Link先を確認
Sireesh Gururaja, Ritam Dutt, Tinglong Liao, Carolyn Rose(参考訳) 最近の研究は、いくつかのnlpタスクのドメイン内パフォーマンスに対する追加コンテキストと足場として言語表現を組み込むことによるポジティブな影響を実証している。 本研究は,言語表現がドメイン間性能に与える影響を,数ショットの転送設定で調べることによって拡張する。 重要な問題は、言語表現がクロスドメインピボットとして機能する機能を提供することで一般化性を高めるかどうかである。 料理と材料科学の二つの領域における手続きテキストの3つのデータセットにおける関係抽出の課題に焦点を当てた。 我々のアプローチは、市販のツールで構築された構文グラフと意味グラフを交互に組み込むことで、人気のあるトランスフォーマーベースのアーキテクチャを強化する。 それらの汎用性を高めるための有用性について検討し, 意味表現が構文表現よりも有用であるかどうかを, 複数の領域における関係抽出に拡張する。 これらのグラフを組み込むことで、数ショット転送の性能は大幅に向上するが、どちらのグラフもほぼ同等の効用を示す。

Recent work has demonstrated the positive impact of incorporating linguistic representations as additional context and scaffolding on the in-domain performance of several NLP tasks. We extend this work by exploring the impact of linguistic representations on cross-domain performance in a few-shot transfer setting. An important question is whether linguistic representations enhance generalizability by providing features that function as cross-domain pivots. We focus on the task of relation extraction on three datasets of procedural text in two domains, cooking and materials science. Our approach augments a popular transformer-based architecture by alternately incorporating syntactic and semantic graphs constructed by freely available off-the-shelf tools. We examine their utility for enhancing generalization, and investigate whether earlier findings, e.g. that semantic representations can be more helpful than syntactic ones, extend to relation extraction in multiple domains. We find that while the inclusion of these graphs results in significantly higher performance in few-shot transfer, both types of graph exhibit roughly equivalent utility.
翻訳日:2023-07-11 17:17:08 公開日:2023-07-07
# 組み込みシステム開発とデバッグのための大規模言語モデルの探索と特徴付け

Exploring and Characterizing Large Language Models For Embedded System Development and Debugging ( http://arxiv.org/abs/2307.03817v1 )

ライセンス: Link先を確認
Zachary Englhardt, Richard Li, Dilini Nissanka, Zhihan Zhang, Girish Narayanswamy, Joseph Breda, Xin Liu, Shwetak Patel, Vikram Iyer(参考訳) 大規模言語モデル(LLM)は、コードを生成する能力は顕著だが、組み込みシステムのためのソフトウェアを開発する能力は、ハードウェアとソフトウェアのクロスドメイン知識を必要とする。 本稿では,組込みシステム開発におけるLLM(GPT-3.5,GPT-4,PaLM2)の性能評価を体系的に評価し,人間プログラマがこれらのツールとどのように相互作用するかを調査し,組込みシステム構築のためのAIベースのソフトウェアエンジニアリングワークフローを開発する。 センサアクチュエータペアを用いたLCM生成プログラムの検証のためのエンドツーエンドハードウェア・イン・ザ・ループ評価プラットフォームを開発した。 我々は3つのモデルとN=450の実験を比較し、GPT-4が特にドメイン間の理解と推論の異常なレベルを示しており、場合によっては1つのプロンプトから完全に正しいプログラムを生成する。 N=50の試験では、GPT-4は機能的なI2Cインタフェースを66%生成する。 GPT-4はレジスタレベルのドライバ、LoRa通信のコード、nRF52プログラムのコンテキスト固有の電力最適化も生成し、740倍の電流を12.2 uAに削減した。 また,組込みシステム開発において LLM を利用する汎用ワークフローを開発するためのモデルの制限も特徴付ける。 初心者や専門家のプログラマを含む15人のユーザでワークフローを評価します。 当社のワークフローは、すべてのユーザの生産性を向上し、ハードウェアもc/c++エクスペリエンスもないユーザも含む、lora環境センサ構築の成功率を25%から100%に向上させています。

Large language models (LLMs) have shown remarkable abilities to generate code, however their ability to develop software for embedded systems, which requires cross-domain knowledge of hardware and software has not been studied. In this paper we systematically evaluate leading LLMs (GPT-3.5, GPT-4, PaLM 2) to assess their performance for embedded system development, study how human programmers interact with these tools, and develop an AI-based software engineering workflow for building embedded systems. We develop an an end-to-end hardware-in-the-loop evaluation platform for verifying LLM generated programs using sensor actuator pairs. We compare all three models with N=450 experiments and find surprisingly that GPT-4 especially shows an exceptional level of cross-domain understanding and reasoning, in some cases generating fully correct programs from a single prompt. In N=50 trials, GPT-4 produces functional I2C interfaces 66% of the time. GPT-4 also produces register-level drivers, code for LoRa communication, and context-specific power optimizations for an nRF52 program resulting in over 740x current reduction to 12.2 uA. We also characterize the models' limitations to develop a generalizable workflow for using LLMs in embedded system development. We evaluate the workflow with 15 users including novice and expert programmers. We find that our workflow improves productivity for all users and increases the success rate for building a LoRa environmental sensor from 25% to 100%, including for users with zero hardware or C/C++ experience.
翻訳日:2023-07-11 17:16:50 公開日:2023-07-07
# 有界損失を伴うオンライン学習ゲームの組合せ的特徴付け

A Combinatorial Characterization of Online Learning Games with Bounded Losses ( http://arxiv.org/abs/2307.03816v1 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) 本稿では,任意だが有界な損失関数に対する仮説クラスのオンライン学習可能性について検討する。 提案手法は,オンライン学習可能性の定量的評価を行うため,シーケンシャルなMinimax次元と呼ばれる新しいスケール感性組合せ次元を与える。 応用として、ベクトル値回帰とマルチラベル分類という2つの自然な学習環境において、オンライン学習可能性の最初の定量的評価を行う。

We study the online learnability of hypothesis classes with respect to arbitrary, but bounded, loss functions. We give a new scale-sensitive combinatorial dimension, named the sequential Minimax dimension, and show that it gives a tight quantitative characterization of online learnability. As applications, we give the first quantitative characterization of online learnability for two natural learning settings: vector-valued regression and multilabel classification.
翻訳日:2023-07-11 17:16:22 公開日:2023-07-07
# 次世代貯留層計算によるカオスマップの制御

Controlling Chaotic Maps using Next-Generation Reservoir Computing ( http://arxiv.org/abs/2307.03813v1 )

ライセンス: Link先を確認
Robert M. Kent and Wendson A. S. Barbosa and Daniel J. Gauthier(参考訳) 本研究では,非線形システム制御手法と次世代貯水池計算を併用し,動的システムの挙動を予測する機械学習手法を提案する。 本稿では,不安定な固定点間のシステム制御,高次周期軌道への安定化,任意の所望状態への安定化など,カオスH'enonマップの一連の制御タスクにおけるコントローラの性能を示す。 我々の制御器はこれらのタスクに成功し、トレーニングに10点のデータポイントしか必要とせず、1回の繰り返しで所望の軌道にシステムを制御することができ、ノイズやモデリングエラーに対して堅牢であることを示す。

In this work, we combine nonlinear system control techniques with next-generation reservoir computing, a best-in-class machine learning approach for predicting the behavior of dynamical systems. We demonstrate the performance of the controller in a series of control tasks for the chaotic H\'enon map, including controlling the system between unstable fixed-points, stabilizing the system to higher order periodic orbits, and to an arbitrary desired state. We show that our controller succeeds in these tasks, requires only 10 data points for training, can control the system to a desired trajectory in a single iteration, and is robust to noise and modeling error.
翻訳日:2023-07-11 17:16:15 公開日:2023-07-07
# 電池電解質の構造とデバイス性能のマッピングのための定式化グラフ

Formulation Graphs for Mapping Structure-Composition of Battery Electrolytes to Device Performance ( http://arxiv.org/abs/2307.03811v1 )

ライセンス: Link先を確認
Vidushi Sharma, Maxwell Giammona, Dmitry Zubarev, Andy Tek, Khanh Nugyuen, Linda Sundberg, Daniele Congiu, Young-Hye La(参考訳) 高度な計算手法は、定式化のような新しい組合せ材料の発見と開発に関連する課題に対処するために積極的に求められている。 広く採用されているアプローチは、結合して定式化できる個々のコンポーネントのドメインインフォームドハイスループットスクリーニングである。 これにより、ターゲットとなる用途で新しい化合物の発見を加速するが、短いリストの化学空間から適切な「生成」を識別するプロセスは、主に実験室の実験駆動プロセスとして残される。 本稿では, 個々の成分の構造-構成関係を, 全体としての液体定式化の性質にマッピングできる深層学習モデル, フォーミュレーショングラフ畳み込みネットワーク(F-GCN)について報告する。 複数のGCNが並列に組み立てられ、形成成分をドメイン的にハエに誘導する。 得られた分子記述子は、各構成成分のモルパーセンテージに基づいて拡張され、次いで、外部学習アーキテクチャへの完全な定式化を表す複合記述子に形式化される。 提案する定式化学習モデルのユースケースは、電解質の定式化と電池性能を表す2つの模範データセット上で、電池電解質をトレーニングし、試験することで実証される。 モデルでは, クーロンビック効率 (ce) などの性能指標と, 報告誤差の低い新規電解質製剤の比容量を予測できた。 最も優れたF-GCNモデルは、知識伝達技術を用いてHOMO-LUMOと分子の電気モーメント特性を知らせる分子グラフに由来する分子記述子を用いる。

Advanced computational methods are being actively sought for addressing the challenges associated with discovery and development of new combinatorial material such as formulations. A widely adopted approach involves domain informed high-throughput screening of individual components that can be combined into a formulation. This manages to accelerate the discovery of new compounds for a target application but still leave the process of identifying the right 'formulation' from the shortlisted chemical space largely a laboratory experiment-driven process. We report a deep learning model, Formulation Graph Convolution Network (F-GCN), that can map structure-composition relationship of the individual components to the property of liquid formulation as whole. Multiple GCNs are assembled in parallel that featurize formulation constituents domain-intuitively on the fly. The resulting molecular descriptors are scaled based on respective constituent's molar percentage in the formulation, followed by formalizing into a combined descriptor that represents a complete formulation to an external learning architecture. The use case of proposed formulation learning model is demonstrated for battery electrolytes by training and testing it on two exemplary datasets representing electrolyte formulations vs battery performance -- one dataset is sourced from literature about Li/Cu half-cells, while the other is obtained by lab-experiments related to lithium-iodide full-cell chemistry. The model is shown to predict the performance metrics like Coulombic Efficiency (CE) and specific capacity of new electrolyte formulations with lowest reported errors. The best performing F-GCN model uses molecular descriptors derived from molecular graphs that are informed with HOMO-LUMO and electric moment properties of the molecules using a knowledge transfer technique.
翻訳日:2023-07-11 17:16:05 公開日:2023-07-07
# 機械メンテナンス計画・スケジューリング方針・最適化のための強化・深層強化学習型ソリューション

Reinforcement and Deep Reinforcement Learning-based Solutions for Machine Maintenance Planning, Scheduling Policies, and Optimization ( http://arxiv.org/abs/2307.03860v1 )

ライセンス: Link先を確認
Oluwaseyi Ogunfowora and Homayoun Najjaran(参考訳) システムとマシンは、マシンの健康を損なう様々な障害モードに陥るため、保守動作は、期待される機能を実行できる状態に戻さなければならない。 保守作業は避けられないため、生産システムや他の産業の円滑な運用を確保するためには、保守計画が不可欠である。 メンテナンス計画とは、メンテナンスコストの削減、資産寿命の延長、可用性の最大化、そして最終的には職場の安全を確保するための、最適なメンテナンス方針と計画を策定することを目的とした意思決定問題である。 強化学習(Reinforcement learning)は、動的メンテナンス計画の開発に、システムとマシン状態の状態監視から連続的な情報を活用するデータ駆動意思決定アルゴリズムである。 システムやマシンの状態監視データを強化学習に活用することにより、スマートメンテナンスプランナを開発することができ、スマートファクトリの実現の先駆けとなる。 本稿では,メンテナンス計画と最適化問題に対する強化・深層強化学習の応用に関する文献レビューを行う。 各刊行物の独特性を損なうことなく共通概念を捉え、分類する分類学が発展し、これらの分類学に基づいてレビューされた刊行物が強調され、分類され、要約された。 評価された研究の方法論、発見、そして明確に定義された解釈は、研究者と実践者の両方にとっての作業の有用性を最大化するために、グラフィカルおよび表象表現で要約された。 この研究は、研究のギャップ、文学からの鍵となる洞察、将来の仕事の領域も強調する。

Systems and machines undergo various failure modes that result in machine health degradation, so maintenance actions are required to restore them back to a state where they can perform their expected functions. Since maintenance tasks are inevitable, maintenance planning is essential to ensure the smooth operations of the production system and other industries at large. Maintenance planning is a decision-making problem that aims at developing optimum maintenance policies and plans that help reduces maintenance costs, extend asset life, maximize their availability, and ultimately ensure workplace safety. Reinforcement learning is a data-driven decision-making algorithm that has been increasingly applied to develop dynamic maintenance plans while leveraging the continuous information from condition monitoring of the system and machine states. By leveraging the condition monitoring data of systems and machines with reinforcement learning, smart maintenance planners can be developed, which is a precursor to achieving a smart factory. This paper presents a literature review on the applications of reinforcement and deep reinforcement learning for maintenance planning and optimization problems. To capture the common ideas without losing touch with the uniqueness of each publication, taxonomies used to categorize the systems were developed, and reviewed publications were highlighted, classified, and summarized based on these taxonomies. Adopted methodologies, findings, and well-defined interpretations of the reviewed studies were summarized in graphical and tabular representations to maximize the utility of the work for both researchers and practitioners. This work also highlights the research gaps, key insights from the literature, and areas for future work.
翻訳日:2023-07-11 17:09:04 公開日:2023-07-07
# MDACE: コードエビデンスに注釈付きMIMICドキュメント

MDACE: MIMIC Documents Annotated with Code Evidence ( http://arxiv.org/abs/2307.03859v1 )

ライセンス: Link先を確認
Hua Cheng, Rana Jafari, April Russell, Russell Klopfer, Edmond Lu, Benjamin Striner, Matthew R. Gormley(参考訳) 本稿では,長期医療文書上での極端に多ラベルな分類課題に対するエビデンス/リレール抽出のためのデータセットを提案する。 このようなタスクのひとつがComputer-Assisted Coding (CAC)であり、機械学習技術の進歩により近年大幅に改善されている。 しかし、患者が遭遇する最終コードの集合を予測するだけでは不十分であり、cacシステムは請求法を正当化するための文書的証拠を提供する必要がある。 各コードに対して正確で信頼性の高いサポート証拠を生成できるモデルは、非常にメリットがあります。 しかし、人間の注釈付きコードエビデンスコーパスは専門知識を必要とするため、作成は非常に困難である。 本稿では,MIMIC-III臨床記録のサブセットに基づいて構築された,最初の公開コードエビデンスデータセットであるMDACEを紹介する。 このデータセットは302の入院患者向けチャートからなり、3,934のエビデンス、52の教授用チャート、5,563のエビデンスがある。 そこで我々は,エフェクトCANモデル(Liu et al., 2021)に基づくいくつかのエビデンス抽出手法を実装し,このデータセットのベースライン性能を確立した。 MDACEは、CACシステムのコードエビデンス抽出法や、マルチラベル分類のための深層学習モデルの精度と解釈可能性を評価するために用いられる。 我々はMDACEのリリースによって、医学的コーディングと文書分類のためのディープラーニング技術の理解と応用が大幅に向上すると考えている。

We introduce a dataset for evidence/rationale extraction on an extreme multi-label classification task over long medical documents. One such task is Computer-Assisted Coding (CAC) which has improved significantly in recent years, thanks to advances in machine learning technologies. Yet simply predicting a set of final codes for a patient encounter is insufficient as CAC systems are required to provide supporting textual evidence to justify the billing codes. A model able to produce accurate and reliable supporting evidence for each code would be a tremendous benefit. However, a human annotated code evidence corpus is extremely difficult to create because it requires specialized knowledge. In this paper, we introduce MDACE, the first publicly available code evidence dataset, which is built on a subset of the MIMIC-III clinical records. The dataset -- annotated by professional medical coders -- consists of 302 Inpatient charts with 3,934 evidence spans and 52 Profee charts with 5,563 evidence spans. We implemented several evidence extraction methods based on the EffectiveCAN model (Liu et al., 2021) to establish baseline performance on this dataset. MDACE can be used to evaluate code evidence extraction methods for CAC systems, as well as the accuracy and interpretability of deep learning models for multi-label classification. We believe that the release of MDACE will greatly improve the understanding and application of deep learning technologies for medical coding and document classification.
翻訳日:2023-07-11 17:08:38 公開日:2023-07-07
# オープン量子系のシミュレーション支援学習

Simulation-assisted learning of open quantum systems ( http://arxiv.org/abs/2307.03858v1 )

ライセンス: Link先を確認
Ke Wang and Xiantao Li(参考訳) 電子輸送問題や量子コンピューティングにおいて重要な役割を果たすオープン量子系のモデルは、量子系の周囲環境との相互作用を考慮する必要がある。 このようなモデルは特別な場合でも導出できるが、ほとんどの場合、正確なモデルは未知であり、校正する必要がある。 本稿では,マルコフ開量子システムのパラメータを計測データから推定する学習法を提案する。 この方法の重要な要素の1つは量子マスター方程式の直接シミュレーション技術であり、完全正の性質を精度で保存するように設計されている。 この方法は測定間の時間間隔が大きい状況において特に有用である。 このアプローチは誤差推定と数値実験で検証される。

Models for open quantum systems, which play important roles in electron transport problems and quantum computing, must take into account the interaction of the quantum system with the surrounding environment. Although such models can be derived in some special cases, in most practical situations, the exact models are unknown and have to be calibrated. This paper presents a learning method to infer parameters in Markovian open quantum systems from measurement data. One important ingredient in the method is a direct simulation technique of the quantum master equation, which is designed to preserve the completely-positive property with guaranteed accuracy. The method is particularly helpful in the situation where the time intervals between measurements are large. The approach is validated with error estimates and numerical experiments.
翻訳日:2023-07-11 17:08:14 公開日:2023-07-07
# 確率行列から見た新しいカテゴリ発見

Novel Categories Discovery from probability matrix perspective ( http://arxiv.org/abs/2307.03856v1 )

ライセンス: Link先を確認
Zahid Hasan, Abu Zaher Md Faridee, Masud Ahmed, Sanjay Purushotham, Heesung Kwon, Hyungtae Lee, Nirmalya Roy(参考訳) New Categories Discovery (NCD) は、クラスセマンティクスに基づく既知のカテゴリとクラスタリングの新しいカテゴリを、部分クラスアノテートデータを用いて分類するオープンワールド問題に取り組む。 従来の擬似ラベルやリトレーニングとは異なり,新しいデータ確率行列の観点から ncd を調べる。 ncd 新規データサンプリングと新しいクラスマルチヌーリ分布(カテゴリー的)の関係を利用して,クラス分布を学習することで暗黙的に意味に基づく新しいデータクラスタリングを実現する。 本稿では,確率行列の特徴量の一階 (mean) と二階 (covariance) 統計量に関する新しい制約を提案する。 特に,ニューロン分布(活性化パターン)をモンテカルロ新奇データサンプリングの大規模なバッチで調整し,その経験的特徴を平均値と共分散値と一致させることで一致させた。 同時にエントロピーを最小化し、各インスタンスの予測一貫性を強制する。 提案手法は,ラベルなしクラス間の意味的類似性を提供し,セマンティクスに基づく新しいデータクラスタリングを実現する。 画像と映像のモダリティにおける我々のアプローチの判別能力を示す。 さらに、データ、ネットワーク、およびフレームワークコンポーネントに関する広範なアブレーション研究を行い、より良い洞察を提供する。 提案手法は,Cifar10, UCF101, MPSC-ARLの新たなカテゴリの分類精度を90%, UCF101, MPSC-ARLの順に向上させながら,ラベル付きデータの分類精度を約94%, ~93%, ~85%維持する。

Novel Categories Discovery (NCD) tackles the open-world problem of classifying known and clustering novel categories based on the class semantics using partial class space annotated data. Unlike traditional pseudo-label and retraining, we investigate NCD from the novel data probability matrix perspective. We leverage the connection between NCD novel data sampling with provided novel class Multinoulli (categorical) distribution and hypothesize to implicitly achieve semantic-based novel data clustering by learning their class distribution. We propose novel constraints on first-order (mean) and second-order (covariance) statistics of probability matrix features while applying instance-wise information constraints. In particular, we align the neuron distribution (activation patterns) under a large batch of Monte-Carlo novel data sampling by matching their empirical features mean and covariance with the provided Multinoulli-distribution. Simultaneously, we minimize entropy and enforce prediction consistency for each instance. Our simple approach successfully realizes semantic-based novel data clustering provided the semantic similarity between label-unlabeled classes. We demonstrate the discriminative capacity of our approaches in image and video modalities. Moreover, we perform extensive ablation studies regarding data, networks, and our framework components to provide better insights. Our approach maintains ~94%, ~93%, and ~85%, classification accuracy in labeled data while achieving ~90%, ~84%, and ~72% clustering accuracy for novel categories for Cifar10, UCF101, and MPSC-ARL datasets that matches state-of-the-art approaches without any external clustering.
翻訳日:2023-07-11 17:08:04 公開日:2023-07-07
# intformer:コネクテッドカーデータを用いた交差点衝突確率予測のための時間埋め込み注意型変圧器

inTformer: A Time-Embedded Attention-Based Transformer for Crash Likelihood Prediction at Intersections Using Connected Vehicle Data ( http://arxiv.org/abs/2307.03854v1 )

ライセンス: Link先を確認
B.M. Tazbiul Hassan Anik, Zubayer Islam, Mohamed Abdel-Aty(参考訳) リアルタイム衝突確率予測モデルは、積極的な交通安全管理システムの重要な構成要素である。 長年にわたり、交通の安全性を高めるために衝突可能性予測モデルを構築しようと試みてきたが、ほとんどが高速道路である。 既存の研究の大半で、研究者は主にクラッシュの可能性を特定するためにディープラーニングベースのフレームワークを使用してきた。 最近のtransformerは、注意に基づくメカニズムを基本とするディープニューラルネットワークの可能性として浮上している。 Transformerは、Long Short-Term Memory(LSTM)やConvolution Neural Network(CNN)など、既存のディープラーニングモデルに対して、いくつかの機能的なメリットがある。 まず、Transformerはデータシーケンスの長期依存関係を簡単に処理できる。 第二に、transformerはトレーニング中にデータシーケンス内のすべての要素を並列に処理できる。 最後に、transformerには退化勾配の問題がない。 InTersection-Transformer(inTformer)モデルを提案する。これは,リアルタイムに交差点衝突確率を効果的に予測できる,時間組込みアテンションベースのTransformerモデルである。 提案モデルはinrixのsignal analyticsプラットフォームから抽出したコネクテッドカーデータを用いて評価した。 データは並列にフォーマットされ、異なるタイミングで積み重ねられ、9つのinTformerモデルが開発された。 最良のinTformerモデルは73%の感度を達成した。 このモデルは、交差点での衝突確率予測に関する以前の研究や、同じ連結車両データセットでトレーニングされたいくつかの確立されたディープラーニングモデルと比較された。 あらゆるシナリオにおいて、このinTformerは、提案されたinTformerアーキテクチャの生存可能性を確認するベンチマークモデルを上回った。

The real-time crash likelihood prediction model is an essential component of the proactive traffic safety management system. Over the years, numerous studies have attempted to construct a crash likelihood prediction model in order to enhance traffic safety, but mostly on freeways. In the majority of the existing studies, researchers have primarily employed a deep learning-based framework to identify crash potential. Lately, Transformer has emerged as a potential deep neural network that fundamentally operates through attention-based mechanisms. Transformer has several functional benefits over extant deep learning models such as Long Short-Term Memory (LSTM), Convolution Neural Network (CNN), etc. Firstly, Transformer can readily handle long-term dependencies in a data sequence. Secondly, Transformer can parallelly process all elements in a data sequence during training. Finally, Transformer does not have the vanishing gradient issue. Realizing the immense possibility of Transformer, this paper proposes inTersection-Transformer (inTformer), a time-embedded attention-based Transformer model that can effectively predict intersection crash likelihood in real-time. The proposed model was evaluated using connected vehicle data extracted from INRIX's Signal Analytics Platform. The data was parallelly formatted and stacked at different timesteps to develop nine inTformer models. The best inTformer model achieved a sensitivity of 73%. This model was also compared to earlier studies on crash likelihood prediction at intersections and with several established deep learning models trained on the same connected vehicle dataset. In every scenario, this inTformer outperformed the benchmark models confirming the viability of the proposed inTformer architecture.
翻訳日:2023-07-11 17:07:33 公開日:2023-07-07
# 学習の仕方を教える: ロボット手術システムにおけるユーザ中心型ニューロシンボリック学習の展望

Teach Me How to Learn: A Perspective Review towards User-centered Neuro-symbolic Learning for Robotic Surgical Systems ( http://arxiv.org/abs/2307.03853v1 )

ライセンス: Link先を確認
Amr Gomaa, Bilal Mahdy, Niko Kleer, Michael Feld, Frank Kirchner, Antonio Kr\"uger(参考訳) 機械学習モデルの最近の進歩により、ロボットは知覚的非記号レベルで物体を識別できるようになった(例えば、センサー融合と自然言語理解)。 しかし、これらの主にブラックボックス学習モデルには解釈性や伝達性がなく、高いデータと計算要求が必要である。 代替の解決策は、専門家のフィードバック(すなわち、ループ内学習)とハイブリッドなニューロシンボリック学習アプローチを通じて、知覚的非シンボルレベルと概念的シンボルレベルの両方でロボットを教えることである。 本研究では,ロボットの外科的状況に着目した,ユーザ中心のハイブリッド学習パラダイムを提案する。 最近の研究は、非ロボットといくつかの汎用ロボットドメインのハイブリッド学習に焦点を当てているが、手術ロボティクスに焦点を当てた研究はほとんどない。 本研究は人体手術ロボットシステムに焦点をあてて調査する。 この評価は、自律手術ロボットの最も顕著な解決策と、これらのシステムと対話する際に外科医が直面する課題を強調している。 最後に, 専門医からの暗黙的, 明示的なフィードバックに基づいて, オンラインの見習い学習を用いて, これらの課題に対処する方法を考える。

Recent advances in machine learning models allowed robots to identify objects on a perceptual nonsymbolic level (e.g., through sensor fusion and natural language understanding). However, these primarily black-box learning models still lack interpretation and transferability and require high data and computational demand. An alternative solution is to teach a robot on both perceptual nonsymbolic and conceptual symbolic levels through hybrid neurosymbolic learning approaches with expert feedback (i.e., human-in-the-loop learning). This work proposes a concept for this user-centered hybrid learning paradigm that focuses on robotic surgical situations. While most recent research focused on hybrid learning for non-robotic and some generic robotic domains, little work focuses on surgical robotics. We survey this related research while focusing on human-in-the-loop surgical robotic systems. This evaluation highlights the most prominent solutions for autonomous surgical robots and the challenges surgeons face when interacting with these systems. Finally, we envision possible ways to address these challenges using online apprenticeship learning based on implicit and explicit feedback from expert surgeons.
翻訳日:2023-07-11 17:07:07 公開日:2023-07-07
# 回帰実現のための最適学習者--pac学習とオンライン学習

Optimal Learners for Realizable Regression: PAC Learning and Online Learning ( http://arxiv.org/abs/2307.03848v1 )

ライセンス: Link先を確認
Idan Attias, Steve Hanneke, Alkis Kalavasis, Amin Karbasi, Grigoris Velegkas(参考訳) 本研究では,PAC学習環境とオンライン学習環境の両方において,実現可能な回帰の統計的複雑さを特徴付けることを目的とする。 従来の研究は、PAC学習性のための脂肪破砕次元の有限性の十分性と、スケールしたナタラジャン次元の有限性の必要性を確立していたが、Simon 1997 (SICOMP '97) の業績から、より完全な特徴付けに向けての進展はほとんどなかった。 この目的を達成するために,まずminimaxインスタンス最適学習器を導入し,実数値予測器のクラスを定性的かつ定量的に特徴付ける新しい次元を提案する。 次に,erm学習性を特徴付けるグラフ次元に関連する組合せ次元を,実現可能な設定で同定する。 最後に,ds次元に関連する組合せ次元に基づく学習可能性に必要な条件を定め,この文脈で十分であるかもしれないと推測する。 さらに、オンライン学習の文脈では、最小値インスタンスの最適累積損失を一定要素まで特徴付け、最適オンライン学習者を再現可能な回帰のために設計し、STOC '22でダスカラキスとゴロヴィチが提起したオープンな質問を解消する次元を提供する。

In this work, we aim to characterize the statistical complexity of realizable regression both in the PAC learning setting and the online learning setting. Previous work had established the sufficiency of finiteness of the fat shattering dimension for PAC learnability and the necessity of finiteness of the scaled Natarajan dimension, but little progress had been made towards a more complete characterization since the work of Simon 1997 (SICOMP '97). To this end, we first introduce a minimax instance optimal learner for realizable regression and propose a novel dimension that both qualitatively and quantitatively characterizes which classes of real-valued predictors are learnable. We then identify a combinatorial dimension related to the Graph dimension that characterizes ERM learnability in the realizable setting. Finally, we establish a necessary condition for learnability based on a combinatorial dimension related to the DS dimension, and conjecture that it may also be sufficient in this context. Additionally, in the context of online learning we provide a dimension that characterizes the minimax instance optimal cumulative loss up to a constant factor and design an optimal online learner for realizable regression, thus resolving an open question raised by Daskalakis and Golowich in STOC '22.
翻訳日:2023-07-11 17:06:45 公開日:2023-07-07
# Blocks2World: 編集可能なプリミティブでリアルなシーンを制御する

Blocks2World: Controlling Realistic Scenes with Editable Primitives ( http://arxiv.org/abs/2307.03847v1 )

ライセンス: Link先を確認
Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, Anand Bhattad, David Forsyth(参考訳) 画像の凸分解と条件付き合成という2段階のプロセスを活用する3次元シーンレンダリングと編集の新しい手法であるBlocks2Worldを提案する。 提案手法は,コンベックス分解を用いて各シーンの様々な物体から3次元並列入力を抽出し,シーンの原始表現を得る。 これらのプリミティブは、単純な線追跡深度マップを通してペアデータを生成するために使用される。 次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。 このステップは、3Dモデルとその2D表現を直接マッピングし、3Dモデルから画像への遷移を効果的に学習する。 モデルが完全に訓練されると、新しいシーンと編集されたシーンの合成を著しく制御する。 これはテスト時にプリミティブを操作し、翻訳や追加を行い、高度にカスタマイズ可能なシーンレンダリングプロセスを可能にすることで実現される。 本手法は,3次元シーンのレンダリングと編集,制御と柔軟性を提供する。 この分野における研究と応用のための新たな道を開き、オーサリングやデータ拡張も行っている。

We present Blocks2World, a novel method for 3D scene rendering and editing that leverages a two-step process: convex decomposition of images and conditioned synthesis. Our technique begins by extracting 3D parallelepipeds from various objects in a given scene using convex decomposition, thus obtaining a primitive representation of the scene. These primitives are then utilized to generate paired data through simple ray-traced depth maps. The next stage involves training a conditioned model that learns to generate images from the 2D-rendered convex primitives. This step establishes a direct mapping between the 3D model and its 2D representation, effectively learning the transition from a 3D model to an image. Once the model is fully trained, it offers remarkable control over the synthesis of novel and edited scenes. This is achieved by manipulating the primitives at test time, including translating or adding them, thereby enabling a highly customizable scene rendering process. Our method provides a fresh perspective on 3D scene rendering and editing, offering control and flexibility. It opens up new avenues for research and applications in the field, including authoring and data augmentation.
翻訳日:2023-07-11 17:06:21 公開日:2023-07-07
# RADAR: 逆学習によるロバストなAIテキスト検出

RADAR: Robust AI-Text Detection via Adversarial Learning ( http://arxiv.org/abs/2307.03838v1 )

ライセンス: Link先を確認
Xiaomeng Hu and Pin-Yu Chen and Tsung-Yi Ho(参考訳) 大規模言語モデル(LLM)の最近の進歩とChatGPTライクなアプリケーションの普及により、人間と機械間の高品質テキスト生成の境界が曖昧になった。 しかし、我々の技術や社会の革命的な変化に加えて、LLM生成テキスト(AIテキスト)と人間生成テキストを区別することの難しさは、偽のコンテンツ生成、盗作、無実の作家の虚偽の告発など、誤用と公平性の新たな課題をもたらす。 既存の研究は、現在のAIテキスト検出器はLLMベースのパラフレーズには堅牢ではないことを示しているが、本稿は、Adversarial leaRningを介してロバストAIテキスト検出器を共同で訓練するRADARと呼ばれる新しいフレームワークを提案することによって、このギャップを埋めることを目指している。 RADARはパラフラザーと検出器の対向訓練に基づいている。 パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。 RADARは検出器からのフィードバックを使ってパラフラザーを更新する。 4つのデータセットで8つの異なるLLM(Pythia, Dolly 2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, Vicuna)を評価した結果、RADARが既存のAIテキスト検出方法、特にパラフレーズが設定されている場合において、大幅に上回っていることが示された。 また,命令調整されたLLMから他のLLMへのRADARの強い転送性を確認し,GPT-3.5によるRADARの高機能化を評価する。

Recent advances in large language models (LLMs) and the intensifying popularity of ChatGPT-like applications have blurred the boundary of high-quality text generation between humans and machines. However, in addition to the anticipated revolutionary changes to our technology and society, the difficulty of distinguishing LLM-generated texts (AI-text) from human-generated texts poses new challenges of misuse and fairness, such as fake content generation, plagiarism, and false accusation of innocent writers. While existing works show that current AI-text detectors are not robust to LLM-based paraphrasing, this paper aims to bridge this gap by proposing a new framework called RADAR, which jointly trains a Robust AI-text Detector via Adversarial leaRning. RADAR is based on adversarial training of a paraphraser and a detector. The paraphraser's goal is to generate realistic contents to evade AI-text detection. RADAR uses the feedback from the detector to update the paraphraser, and vice versa. Evaluated with 8 different LLMs (Pythia, Dolly 2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, and Vicuna) across 4 datasets, experimental results show that RADAR significantly outperforms existing AI-text detection methods, especially when paraphrasing is in place. We also identify the strong transferability of RADAR from instruction-tuned LLMs to other LLMs, and evaluate the improved capability of RADAR via GPT-3.5.
翻訳日:2023-07-11 17:06:02 公開日:2023-07-07
# 多波長導波路量子電磁力学における電磁誘導透過性:線形および非線形導波路分散

Electromagnetically induced transparency in many-emitter waveguide quantum electrodynamics: linear versus nonlinear waveguide dispersions ( http://arxiv.org/abs/2307.03836v1 )

ライセンス: Link先を確認
Tiberius Bernsden and Imran M. Mirza(参考訳) 線形および非線形導波路分散関係を持つ多波長導波路量子電磁力学(wQED)における単一光子誘起電磁誘導透過(EIT)について検討した。 単一エミッタ問題において,wqedの過剰結合状態におけるeitスペクトル特性のロバスト性に加えて,非線形分散により,非線形性が向上したことにより,共振eit周波数よりも小さい周波数の側ピークが出現することが分かった。 その結果,多くの場合において,非線形性の高いバンド構造が,対応する線形分散の場合と比較して狭帯域ギャップを生じさせることを示す。 量子メモリを用いた長距離量子ネットワークは、この研究の標的となる応用の1つである。

We study single-photon induced electromagnetically induced transparency (EIT) in many-emitter waveguide quantum electrodynamics (wQED) with linear and nonlinear waveguide dispersion relations. In the single-emitter problem, in addition to the robustness of the EIT spectral features in the over-coupled regime of wQED, we find that the nonlinear dispersion results in the appearance of a side peak for frequencies smaller than the resonant EIT frequency which turns into a pronounced plateau as the nonlinearity is enhanced. Consequently, for many-emitter scenarios, our results indicate the formation of band structure which for higher values of nonlinearity leads to narrow band gaps as compared to the corresponding linear dispersion case. Long-distance quantum networking aided with quantum memories can serve as one of the targeted applications of this work.
翻訳日:2023-07-11 17:05:34 公開日:2023-07-07
# トランスフォーマーはいつRLで輝くのか? クレジット割り当てからメモリを分離する

When Do Transformers Shine in RL? Decoupling Memory from Credit Assignment ( http://arxiv.org/abs/2307.03864v1 )

ライセンス: Link先を確認
Tianwei Ni, Michel Ma, Benjamin Eysenbach, Pierre-Luc Bacon(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは、過去と現在の観察の効果的な表現を学習し、アクションが将来のリターンにどのように影響するかを決定する。 どちらの課題も長期的な依存関係のモデリングを伴う。 トランスフォーマーアーキテクチャは、RLドメインを含む長期依存に関わる問題を解決することに成功している。 しかし、トランスフォーマーベースのrlメソッドの強力なパフォーマンスの根本的な理由は、まだ不明である。 メモリ長とクレジット割り当て長の形式的定義を導入した後、これらの異なる量を測定するための簡単な構成可能なタスクを設計する。 実験の結果、トランスフォーマーはrlアルゴリズムのメモリ容量を増大させ、記憶に残る観察を必要とするタスクまでスケールアップできることがわかった。 しかし、トランスフォーマーは長期クレジット割り当てを改善しない。 まとめると、この結果はRLにおけるトランスフォーマーの成功を説明するとともに、将来の研究とベンチマーク設計における重要な領域を強調している。

Reinforcement learning (RL) algorithms face two distinct challenges: learning effective representations of past and present observations, and determining how actions influence future returns. Both challenges involve modeling long-term dependencies. The transformer architecture has been very successful to solve problems that involve long-term dependencies, including in the RL domain. However, the underlying reason for the strong performance of Transformer-based RL methods remains unclear: is it because they learn effective memory, or because they perform effective credit assignment? After introducing formal definitions of memory length and credit assignment length, we design simple configurable tasks to measure these distinct quantities. Our empirical results reveal that Transformers can enhance the memory capacity of RL algorithms, scaling up to tasks that require memorizing observations $1500$ steps ago. However, Transformers do not improve long-term credit assignment. In summary, our results provide an explanation for the success of Transformers in RL, while also highlighting an important area for future research and benchmark design.
翻訳日:2023-07-11 16:57:04 公開日:2023-07-07
# 領域効率のよい深層学習のためのメモリ没入協調ディジタル化

Memory-Immersed Collaborative Digitization for Area-Efficient Compute-in-Memory Deep Learning ( http://arxiv.org/abs/2307.03863v1 )

ライセンス: Link先を確認
Shamma Nasrin, Maeesha Binte Hashem, Nastaran Darabi, Benjamin Parpillon, Farah Fahim, Wilfred Gomes, and Amit Ranjan Trivedi(参考訳) 本研究では,従来のアナログ・デジタル変換器(ADC)の領域オーバーヘッドを最小限に抑えるため,メモリ・イン・メモリ(CiM)アレイ間のコラボレーティブ・デジタル化について論じる。 したがって,提案方式では,メモリアクセスを最小化する並列性を改善するため,フットプリント設計の制限内にcimアレイをかなり多く配置することが可能である。 デジタル化方式では、CiMアレイはその寄生ビット線を利用して、領域効率の良い逐次近似(SA)デジタル化を容易にするインメモリ容量型デジタルアナログ変換器(DAC)を形成する。 CiM配列は、近位配列が入力と重みのスカラー積を計算するとき、アナログ領域積をデジタル化する。 提案したメモリ没入方式を用いて,Flash,SA,およびそれらのハイブリッドディジタル化ステップを効率的に実装できるCiMアレイ間の様々なネットワーク構成について論じる。 この結果は65nm cmosテストチップを用いて実証された。 40nmの5ビットSAR ADCと比較して、65nmの設計には、メモリ内コンピューティング構造を活用することで、$\sim$25$\times$低面積と$\sim$1.4$\times$低エネルギーが必要である。 40nmの5ビットのFlash ADCと比較して、われわれのデザインは、$\sim$51$\times$ less areaと$\sim$13$\times$ less energyを必要とする。

This work discusses memory-immersed collaborative digitization among compute-in-memory (CiM) arrays to minimize the area overheads of a conventional analog-to-digital converter (ADC) for deep learning inference. Thereby, using the proposed scheme, significantly more CiM arrays can be accommodated within limited footprint designs to improve parallelism and minimize external memory accesses. Under the digitization scheme, CiM arrays exploit their parasitic bit lines to form a within-memory capacitive digital-to-analog converter (DAC) that facilitates area-efficient successive approximation (SA) digitization. CiM arrays collaborate where a proximal array digitizes the analog-domain product-sums when an array computes the scalar product of input and weights. We discuss various networking configurations among CiM arrays where Flash, SA, and their hybrid digitization steps can be efficiently implemented using the proposed memory-immersed scheme. The results are demonstrated using a 65 nm CMOS test chip. Compared to a 40 nm-node 5-bit SAR ADC, our 65 nm design requires $\sim$25$\times$ less area and $\sim$1.4$\times$ less energy by leveraging in-memory computing structures. Compared to a 40 nm-node 5-bit Flash ADC, our design requires $\sim$51$\times$ less area and $\sim$13$\times$ less energy.
翻訳日:2023-07-11 16:56:46 公開日:2023-07-07
# Solvent: タンパク質のフォールディングのためのフレームワーク

Solvent: A Framework for Protein Folding ( http://arxiv.org/abs/2307.04603v1 )

ライセンス: Link先を確認
Jaemyung Lee, Jaehoon Kim, Hasun Yu, Youhan Lee(参考訳) ai研究を行うには一貫性と信頼性が不可欠である。 オブジェクト検出のような多くの有名な研究分野は、堅固なベンチマークフレームワークで比較、検証されている。 AlphaFold2の後、タンパク質の折り畳みタスクは新しい段階に入り、AlphaFold2の構成要素に基づいて多くの方法が提案されている。 タンパク質折り畳みにおける統一的な研究フレームワークの重要性は、様々なアプローチを一貫して比較するための実装とベンチマークを含んでいる。 これを実現するために、Solventは、既製のインターフェイスのように最先端のモデルの重要なコンポーネントをサポートするタンパク質折り畳みフレームワークである。Solventは、統一コードベースに実装された異なるモデルを含み、同じデータセット上で定義されたモデルのトレーニングと評価をサポートする。 我々は、よく知られたアルゴリズムとそのコンポーネントをベンチマークし、タンパク質構造モデリング分野に関する有益な洞察を与える実験を提供する。 我々はSolventが提案したモデルの信頼性と一貫性を高め、速度とコストの両面で効率を向上し、タンパク質の折り畳みモデル研究の加速を期待する。 コードはhttps://github.com/kakaobrain/solventで入手できる。

Consistency and reliability are crucial for conducting AI research. Many famous research fields, such as object detection, have been compared and validated with solid benchmark frameworks. After AlphaFold2, the protein folding task has entered a new phase, and many methods are proposed based on the component of AlphaFold2. The importance of a unified research framework in protein folding contains implementations and benchmarks to consistently and fairly compare various approaches. To achieve this, we present Solvent, an protein folding framework that supports significant components of state-of-th-arts models in the manner of off-the-shelf interface Solvent contains different models implemented in a unified codebase and supports training and evaluation for defined models on the same dataset. We benchmark well-known algorithms and their components and provide experiments that give helpful insights into the protein structure modeling field. We hope that Solvent will increase the reliability and consistency of proposed models and gives efficiency in both speed and costs, resulting in acceleration on protein folding modeling research. The code is available at https://github.com/kakaobrain/solvent, and the project will continue to be developed.
翻訳日:2023-07-11 12:42:08 公開日:2023-07-07
# MultiQG-TI:マルチモーダルソースからの質問生成に向けて

MultiQG-TI: Towards Question Generation from Multi-modal Sources ( http://arxiv.org/abs/2307.04643v1 )

ライセンス: Link先を確認
Zichao Wang, Richard Baraniuk(参考訳) 画像とテキストを含むマルチモーダルソースからの質問自動生成(QG)の新たな課題について検討し、テキストソースのみからのみQGに焦点を絞った既存の作業のスコープを大きく拡大する。 我々は,テキストのみの質問生成器がテキスト入力に加えて視覚入力を処理できる,MultiQG-TIという新しい問題の簡単な解を提案する。 具体的には、画像からテキストまでのモデルと光学的文字認識モデルを利用して、画像のテキスト記述を取得し、画像中のテキストをそれぞれ抽出し、入力されたテキストと共に質問生成装置に供給する。 他のコンポーネントを固定しながら、質問生成器を微調整するだけです。 挑戦的なScienceQAデータセットでは、100倍のトレーニング可能なパラメータがあるにも関わらず、MultiQG-TIがChatGPTよりはるかに優れており、ショットプロンプトがほとんどない。 追加分析は、QGのための視覚信号とテキスト信号の両方の必要性を実証的に確認し、様々なモデリング選択の影響を示す。

We study the new problem of automatic question generation (QG) from multi-modal sources containing images and texts, significantly expanding the scope of most of the existing work that focuses exclusively on QG from only textual sources. We propose a simple solution for our new problem, called MultiQG-TI, which enables a text-only question generator to process visual input in addition to textual input. Specifically, we leverage an image-to-text model and an optical character recognition model to obtain the textual description of the image and extract any texts in the image, respectively, and then feed them together with the input texts to the question generator. We only fine-tune the question generator while keeping the other components fixed. On the challenging ScienceQA dataset, we demonstrate that MultiQG-TI significantly outperforms ChatGPT with few-shot prompting, despite having hundred-times less trainable parameters. Additional analyses empirically confirm the necessity of both visual and textual signals for QG and show the impact of various modeling choices.
翻訳日:2023-07-11 12:31:18 公開日:2023-07-07
# TRAC:信頼できる検索チャットボット

TRAC: Trustworthy Retrieval Augmented Chatbot ( http://arxiv.org/abs/2307.04642v1 )

ライセンス: Link先を確認
Shuo Li, Sangdon Park, Insup Lee, Osbert Bastani(参考訳) 会話AIは素晴らしいパフォーマンスを示しているが、しばしば誤った情報や幻覚を生成する。 これらの幻覚を減らすための有望な解決策として、検索用拡張世代が出現している。 しかし、これらの技法は依然として正確性を保証することはできない。 質問応答に着目し,共形予測とグローバルテストを組み合わせて,質問応答システムにおける統計的保証を提供する枠組みを提案する。 さらに、ベイズ最適化を用いて、システムの性能を最大化するために、グローバルテストのハイパーパラメータを選択する。 本研究では,Natural Questionsデータセットにおける実験結果から,平均予測セットサイズを最小化しながら,所望のカバレッジ保証を提供できることを示す。

Although conversational AIs have demonstrated fantastic performance, they often generate incorrect information, or hallucinations. Retrieval augmented generation has emerged as a promising solution to reduce these hallucinations. However, these techniques still cannot guarantee correctness. Focusing on question answering, we propose a framework that can provide statistical guarantees for the retrieval augmented question answering system by combining conformal prediction and global testing. In addition, we use Bayesian optimization to choose hyperparameters of the global test to maximize the performance of the system. Our empirical results on the Natural Questions dataset demonstrate that our method can provide the desired coverage guarantee while minimizing the average prediction set size.
翻訳日:2023-07-11 12:30:58 公開日:2023-07-07
# なぜ機械が理解できないのか--S{\o}gaardへの反応

Why machines do not understand: A response to S{\o}gaard ( http://arxiv.org/abs/2307.04766v1 )

ライセンス: Link先を確認
Jobst Landgrebe and Barry Smith(参考訳) いわゆる「人工知能」の擁護者は、機械が言語を理解することができると信じている。 特に、S{\o}gaardは、この論文において、(1)意味論がどこにあるかを理解し、(2)機械が「推論意味論」と呼ぶものだけでなく、(センサーからの入力の助けを借りて)「学習」参照意味論 \parencite{sogaard:2022} が可能であるという考え方に基づいて、この種の論文を論じている。 人間によって使われている言語と、ハードドライブや図書館の本に言語が格納されているときに生じる記号の慣性配列の相違に、十分に注意を払っていないことから、彼が間違っていることを示す。

Some defenders of so-called `artificial intelligence' believe that machines can understand language. In particular, S{\o}gaard has argued in this journal for a thesis of this sort, on the basis of the idea (1) that where there is semantics there is also understanding and (2) that machines are not only capable of what he calls `inferential semantics', but even that they can (with the help of inputs from sensors) `learn' referential semantics \parencite{sogaard:2022}. We show that he goes wrong because he pays insufficient attention to the difference between language as used by humans and the sequences of inert of symbols which arise when language is stored on hard drives or in books in libraries.
翻訳日:2023-07-11 12:05:29 公開日:2023-07-07
# 動作状態依存型動的モデル選択

Action-State Dependent Dynamic Model Selection ( http://arxiv.org/abs/2307.04754v1 )

ライセンス: Link先を確認
Francesco Cordoni and Alessio Sancetta(参考訳) 多くの人のうちのモデルは、世界の特定の州においてのみ最善である。 モデルから別のモデルへの切り替えもコストがかかります。 このような状況下でモデルを動的に選択する手順を見つけるには、複雑な推定手順と動的計画問題を解く必要がある。 強化学習アルゴリズムは、この動的プログラミング問題の最適解としてデータから近似して推定するために用いられる。 このアルゴリズムは、一組の共変量に基づいて異なるモデルを選択することができる最適なポリシーを一貫して推定する。 典型的な例は、マクロ経済情報を用いて、再バランスコストの下で異なるポートフォリオモデルを切り替えることである。 マクロ経済変数と価格データの集合を用いることで、前述のポートフォリオ問題に対する経験的応用は、後から見て最高のポートフォリオモデルを選択することよりも優れたパフォーマンスを示す。

A model among many may only be best under certain states of the world. Switching from a model to another can also be costly. Finding a procedure to dynamically choose a model in these circumstances requires to solve a complex estimation procedure and a dynamic programming problem. A Reinforcement learning algorithm is used to approximate and estimate from the data the optimal solution to this dynamic programming problem. The algorithm is shown to consistently estimate the optimal policy that may choose different models based on a set of covariates. A typical example is the one of switching between different portfolio models under rebalancing costs, using macroeconomic information. Using a set of macroeconomic variables and price data, an empirical application to the aforementioned portfolio problem shows superior performance to choosing the best portfolio model with hindsight.
翻訳日:2023-07-11 12:03:48 公開日:2023-07-07
# 後方特徴補正:ディープラーニングがディープラーニング(階層的)学習に与える影響

Backward Feature Correction: How Deep Learning Performs Deep (Hierarchical) Learning ( http://arxiv.org/abs/2001.04413v6 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu and Yuanzhi Li(参考訳) ディープラーニングは階層学習としても知られ、学習者_learns_は、サンプルと時間の複雑さを減らすために、より単純な関数の列に分解することで、複雑なターゲット関数を表現する。 本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを公式に解析する。 概念的側面では、既存のアルゴリズム(階層的トレーニング、カーネルメソッドなどを含む)が効率的でない場合、ある種のディープ(超コンスタント層)ニューラルネットワークが標本化され、階層的なタスクで時間的に効率的に訓練されるかという理論的特徴を示す。 高レベルなレイヤとトレーニングするとき、低レベルな特徴のエラーを自動的に修正できる"backward feature correction"と呼ばれる新しい原則を確立した。 これは、階層的な学習や非階層的な手法のシミュレーションとは対照的に、ディープラーニングが深い(階層的な)学習を行うための鍵だと考えています。 技術的な面では、任意の入力次元 $d > 0$ に対して、次数 $\omega(1)$ 多変量多項式の概念クラスがあり、$\omega(1)$-layer neural networks を学習者として使うと、sgd はこのクラスから任意の関数を $\mathsf{poly}(d)$ time to any $\frac{1}{\mathsf{poly}(d)}$ error で学習できる。 対照的に、この概念クラスを$\mathsf{poly}(d)$ time even to any $d^{-0.01}$ errorで学習できるような、他のより単純なアルゴリズム(階層的なトレーニング、カーネルメソッドのシーケンシャルな適用、二層ネットワークのトレーニングなど)は知られていない。 その結果、任意のカーネルメソッドを含むいくつかの非階層学習者に対して、$d^{\omega(1)}$ の上限が証明される。

Deep learning is also known as hierarchical learning, where the learner _learns_ to represent a complicated target function by decomposing it into a sequence of simpler functions to reduce sample and time complexity. This paper formally analyzes how multi-layer neural networks can perform such hierarchical learning _efficiently_ and _automatically_ by SGD on the training objective. On the conceptual side, we present a theoretical characterizations of how certain types of deep (i.e. super-constant layer) neural networks can still be sample and time efficiently trained on some hierarchical tasks, when no existing algorithm (including layerwise training, kernel method, etc) is known to be efficient. We establish a new principle called "backward feature correction", where the errors in the lower-level features can be automatically corrected when training together with the higher-level layers. We believe this is a key behind how deep learning is performing deep (hierarchical) learning, as opposed to layerwise learning or simulating some non-hierarchical method. On the technical side, we show for every input dimension $d > 0$, there is a concept class of degree $\omega(1)$ multi-variate polynomials so that, using $\omega(1)$-layer neural networks as learners, SGD can learn any function from this class in $\mathsf{poly}(d)$ time to any $\frac{1}{\mathsf{poly}(d)}$ error, through learning to represent it as a composition of $\omega(1)$ layers of quadratic functions using "backward feature correction." In contrast, we do not know any other simpler algorithm (including layerwise training, applying kernel method sequentially, training a two-layer network, etc) that can learn this concept class in $\mathsf{poly}(d)$ time even to any $d^{-0.01}$ error. As a side result, we prove $d^{\omega(1)}$ lower bounds for several non-hierarchical learners, including any kernel methods.
翻訳日:2023-07-10 16:28:08 公開日:2023-07-07
# 超伝導回路を用いたマイクロ波パルスのコヒーレント相互作用フリー検出

Coherent interaction-free detection of microwave pulses with a superconducting circuit ( http://arxiv.org/abs/2204.01657v2 )

ライセンス: Link先を確認
Shruti Dogra, John J. McCord, Gheorghe Sorin Paraoanu(参考訳) 相互作用のない測定は、光感光体の存在が不可逆光子吸収なしで決定される基本的な量子効果である。 本稿では,コヒーレント相互作用フリー検出の概念を提案し,それを3レベル超電導トランスモン回路を用いて実験的に実証する。 ダイナミックスが一連のプロジェクション操作を伴う標準的なインタラクションフリーな計測設定とは対照的に,本プロトコルは,驚くほど高い成功確率で実現可能な,完全な一貫性を持った進化を採用している。 我々は、トランスモンの2番目の遷移に伴ってマイクロ波パルス共振体の存在を確認することができるが、同時にデバイスが3番目のレベルに興奮することを避けることができることを示す。 実験では、一連のラムジーマイクロ波パルスを第1遷移に結合し、基底状態の人口を監視する。

The interaction-free measurement is a fundamental quantum effect whereby the presence of a photosensitive object is determined without irreversible photon absorption. Here we propose the concept of coherent interaction-free detection and demonstrate it experimentally using a three-level superconducting transmon circuit. In contrast to standard interaction-free measurement setups, where the dynamics involves a series of projection operations, our protocol employs a fully coherent evolution that results, surprisingly, in a higher probability of success. We show that it is possible to ascertain the presence of a microwave pulse resonant with the second transition of the transmon, while at the same time avoid exciting the device onto the third level. Experimentally, this is done by using a series of Ramsey microwave pulses coupled into the first transition and monitoring the ground-state population.
翻訳日:2023-07-10 16:24:46 公開日:2023-07-07
# GraphSHAP: モチーフ言語によるアイデンティティ対応グラフ分類器の説明

GRAPHSHAP: Explaining Identity-Aware Graph Classifiers Through the Language of Motifs ( http://arxiv.org/abs/2202.08815v2 )

ライセンス: Link先を確認
Alan Perotti, Paolo Bajardi, Francesco Bonchi, and Andr\'e Panisson(参考訳) ブラックボックス分類器(例えば表データ、画像、時系列)を説明するほとんどの方法は、特徴の削除/摂動がモデル出力に与える影響を測定することに依存している。 これにより、説明言語は分類子の特徴空間にマッチする。 しかし、基本的な特徴がグラフ構造を記述するエッジに対応するグラフデータを扱う場合、この特徴空間と説明言語とのマッチングは適切ではないかもしれない。 したがって、特徴空間(エッジ)を所望の高レベルな説明言語(モチーフなど)から分離することは、グラフ分類タスクの実行可能な説明を開発するための大きな課題である。 本稿では,Shapley ベースのアプローチである GraphSHAP を導入し,モデルやトレーニングデータについて何の知識も必要とせず,その分類器をブラックボックスとして任意にクエリできることを前提として,識別対応グラフ分類器のモチーフに基づく説明を提供する。 計算効率を向上させるため、我々はプログレッシブ近似戦略を探求し、単純なカーネルが説明スコアを効率的に近似する方法を示し、GraphSHAPが大きな説明空間を持つシナリオ(つまり多数のモチーフ)でスケールできるようにする。 我々は,自閉症スペクトラム障害の患者とコントロールグループからなる実世界の脳ネットワークデータセット上で GraphSHAP を紹介した。 実験では,ブラックボックスモデルが提供する分類が,コネクトロミクスパターンによって効果的に説明できることを示す。

Most methods for explaining black-box classifiers (e.g. on tabular data, images, or time series) rely on measuring the impact that removing/perturbing features has on the model output. This forces the explanation language to match the classifier's feature space. However, when dealing with graph data, in which the basic features correspond to the edges describing the graph structure, this matching between features space and explanation language might not be appropriate. Decoupling the feature space (edges) from a desired high-level explanation language (such as motifs) is thus a major challenge towards developing actionable explanations for graph classification tasks. In this paper we introduce GRAPHSHAP, a Shapley-based approach able to provide motif-based explanations for identity-aware graph classifiers, assuming no knowledge whatsoever about the model or its training data: the only requirement is that the classifier can be queried as a black-box at will. For the sake of computational efficiency we explore a progressive approximation strategy and show how a simple kernel can efficiently approximate explanation scores, thus allowing GRAPHSHAP to scale on scenarios with a large explanation space (i.e. large number of motifs). We showcase GRAPHSHAP on a real-world brain-network dataset consisting of patients affected by Autism Spectrum Disorder and a control group. Our experiments highlight how the classification provided by a black-box model can be effectively explained by few connectomics patterns.
翻訳日:2023-07-10 16:24:32 公開日:2023-07-07
# モデルベース強化学習のための報酬評価サブタスク

Reward-Respecting Subtasks for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2202.03466v3 )

ライセンス: Link先を確認
Richard S. Sutton and Marlos C. Machado and G. Zacharias Holland and David Szepesvari and Finbarr Timbers and Brian Tanner and Adam White(参考訳) 人工知能の野心的な目標を達成するために、強化学習は、状態と時間に抽象的な世界のモデルによる計画を含む必要がある。 ディープラーニングは状態抽象化を進歩させたが、オプションフレームワークに基づいた理論が広く発達したにもかかわらず、時間的抽象化はめったに使われていない。 この理由の1つは、オプションの空間が巨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。 オプションは通常、ボトルネック状態に達したり、報酬以外の感覚信号の累積和を最大化するといった、補助的なタスクを実行することで発見される。 各サブタスクは、オプションを生成するために解決され、オプションのモデルが学習され、計画プロセスで利用できる。 従来の作業では、サブタスクは元の問題に対する報酬を無視するが、我々は、元の報酬とオプションが終了する時の状態の特徴に基づくボーナスを使用するサブタスクを提案する。 このような報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬評価オプションよりも、計画立案に有用であることを示す。 サブタスクを尊重するリワードは、オプションの空間を強く制約し、オプション発見の問題に対する部分解を提供する。 最後に, 標準アルゴリズムと一般価値関数を用いて, 価値, ポリシー, オプション, およびモデルをオンラインおよびオフポリシーで学習する方法を示す。

To achieve the ambitious goals of artificial intelligence, reinforcement learning must include planning with a model of the world that is abstract in state and time. Deep learning has made progress with state abstraction, but temporal abstraction has rarely been used, despite extensively developed theory based on the options framework. One reason for this is that the space of possible options is immense, and the methods previously proposed for option discovery do not take into account how the option models will be used in planning. Options are typically discovered by posing subsidiary tasks, such as reaching a bottleneck state or maximizing the cumulative sum of a sensory signal other than reward. Each subtask is solved to produce an option, and then a model of the option is learned and made available to the planning process. In most previous work, the subtasks ignore the reward on the original problem, whereas we propose subtasks that use the original reward plus a bonus based on a feature of the state at the time the option terminates. We show that option models obtained from such reward-respecting subtasks are much more likely to be useful in planning than eigenoptions, shortest path options based on bottleneck states, or reward-respecting options generated by the option-critic. Reward respecting subtasks strongly constrain the space of options and thereby also provide a partial solution to the problem of option discovery. Finally, we show how values, policies, options, and models can all be learned online and off-policy using standard algorithms and general value functions.
翻訳日:2023-07-10 16:24:08 公開日:2023-07-07
# SPD多様体上の領域適応のための深部輸送

Deep Optimal Transport for Domain Adaptation on SPD Manifolds ( http://arxiv.org/abs/2201.05745v3 )

ライセンス: Link先を確認
Ce Ju and Cuntai Guan(参考訳) 近年、機械学習コミュニティにおいて、対称正定値多様体(SPD)におけるドメイン適応(DA)問題の解決に大きな関心が寄せられている。 この関心は、脳波、脳磁図、拡散テンソルイメージングなどの医療機器によって生成される複雑な神経生理学的データが、しばしば異なる領域にまたがるデータ分布の変化を示すという事実に由来する。 これらのデータ表現は信号共分散行列で表され、対称性と正の定性の性質を持っている。 しかし,従来の経験と解をDA問題に直接適用することは,共分散行列の操作の複雑さによって困難を招き,この問題に対処するために,深層最適輸送と呼ばれる深層学習に基づく伝達学習アプローチのカテゴリを導入する。 この圏は最適輸送理論を利用し、SPD多様体の対数ユークリッド幾何学を利用する。 さらに,既存の幾何学的手法の包括的分類を行い,これらの課題を効果的に解決する。 この分類は、SPD多様体上のソース領域とターゲット領域の間の境界分布と条件分布の相違を取り扱うことを含む、特定のDA問題に対する実用的な解を提供する。 有効性を評価するために,公に入手可能な3つの非定常型セッション間脳-コンピュータインタフェースについて実験を行った。 さらに、SPDコーン上で可視化結果を提供し、フレームワークに関するさらなる洞察を提供する。

In recent years, there has been significant interest in solving the domain adaptation (DA) problem on symmetric positive definite (SPD) manifolds within the machine learning community. This interest stems from the fact that complex neurophysiological data generated by medical equipment, such as electroencephalograms, magnetoencephalograms, and diffusion tensor imaging, often exhibit a shift in data distribution across different domains. These data representations, represented by signal covariance matrices, possess properties of symmetry and positive definiteness. However, directly applying previous experiences and solutions to the DA problem poses challenges due to the manipulation complexities of covariance matrices.To address this, our research introduces a category of deep learning-based transfer learning approaches called deep optimal transport. This category utilizes optimal transport theory and leverages the Log-Euclidean geometry for SPD manifolds. Additionally, we present a comprehensive categorization of existing geometric methods to tackle these problems effectively. This categorization provides practical solutions for specific DA problems, including handling discrepancies in marginal and conditional distributions between the source and target domains on the SPD manifold. To evaluate the effectiveness, we conduct experiments on three publicly available highly non-stationary cross-session brain-computer interface scenarios. Moreover, we provide visualization results on the SPD cone to offer further insights into the framework.
翻訳日:2023-07-10 16:23:43 公開日:2023-07-07
# AIの創造性: 深層強化学習を支援する階層的計画モデル学習

Creativity of AI: Hierarchical Planning Model Learning for Facilitating Deep Reinforcement Learning ( http://arxiv.org/abs/2112.09836v2 )

ライセンス: Link先を確認
Hankz Hankui Zhuo, Shuting Deng, Mu Jin, Zhihao Ma, Kebing Jin, Chen Chen, Chao Yu(参考訳) 現実世界のアプリケーションで大きな成功を収めたにも関わらず、深層強化学習(drl)は、データ効率、解釈可能性の欠如、転送可能性という3つの重要な問題に未だに苦しんでいる。 近年の研究では、DRLに記号的知識を組み込むことがこれらの課題に対処する上で有望であることが示されている。 そこで本研究では,シンボリックオプションを用いた新しい深層強化学習フレームワークを提案する。 本フレームワークは,計画モデル(アクションモデルと階層的タスクネットワークモデルを含む)と対話的トラジェクタから学習したシンボリックオプションを計画することにより,方針改善を導くループトレーニング手順を特徴とする。 学習された象徴的オプションは、専門家のドメイン知識の密接な要求を緩和し、ポリシーの固有の解釈可能性を提供する。 さらに、シンボリック計画モデルを用いて計画することにより、転送性とデータ効率をさらに向上させることができる。 この枠組みの有効性を検証するため,モンテズマの復讐とオフィスワールドという2つのドメインで実験を行った。 その結果,同等の性能,データ効率の向上,解釈性,転送性が示された。

Despite of achieving great success in real-world applications, Deep Reinforcement Learning (DRL) is still suffering from three critical issues, i.e., data efficiency, lack of the interpretability and transferability. Recent research shows that embedding symbolic knowledge into DRL is promising in addressing those challenges. Inspired by this, we introduce a novel deep reinforcement learning framework with symbolic options. Our framework features a loop training procedure, which enables guiding the improvement of policy by planning with planning models (including action models and hierarchical task network models) and symbolic options learned from interactive trajectories automatically. The learned symbolic options alleviate the dense requirement of expert domain knowledge and provide inherent interpretability of policies. Moreover, the transferability and data efficiency can be further improved by planning with the symbolic planning models. To validate the effectiveness of our framework, we conduct experiments on two domains, Montezuma's Revenge and Office World, respectively. The results demonstrate the comparable performance, improved data efficiency, interpretability and transferability.
翻訳日:2023-07-10 16:23:22 公開日:2023-07-07
# フォールトトレラント量子シミュレーションのための論理フェルミオン

Logical fermions for fault-tolerant quantum simulation ( http://arxiv.org/abs/2110.10280v3 )

ライセンス: Link先を確認
Andrew J. Landahl and Benjamin C. A. Morrison(参考訳) 我々は、フェルミオン量子シミュレーションの高価なフェルミオン-量子ビットマッピングオーバーヘッドを、表面符号ベースのフォールトトレラント量子コンピューティングによって既に得られるオーバーヘッドに吸収する方法を示す。 鍵となるアイデアは、論理的Majoranaのフェルミオンのように振る舞う表面コードツイスト欠陥で情報を処理することだ。 シミュレーションアプリケーションのための重要なデータ型であるdirac fermionを,アーキテクチャ内の論理キュービット層上ではなく,論理的な majorana fermion に直接エンコードする。 N$-fermion 2D Fermi-Hubbardモデルの量子シミュレーションを例示として、アルゴリズムの即時改善を2つ示す。 まず、モデルの局所性を論理レベルで保存することで、漸近的トロッター・スズキ量子回路の深さを典型的なjordan-wigner符号化の$\mathcal{o}(\sqrt{n})$から$\mathcal{o}(1)$に削減する。 第二に、論理フェルミオンの最適化を活用して、論理フェルミオンではなく論理フェルミオンによって実現された場合であっても、ブロックエンコードする \textsc{select} oracle の$t$-count を標準実装よりも20-%削減する。

We show how to absorb fermionic quantum simulation's expensive fermion-to-qubit mapping overhead into the overhead already incurred by surface-code-based fault-tolerant quantum computing. The key idea is to process information in surface-code twist defects, which behave like logical Majorana fermions. Our approach encodes Dirac fermions, a key data type for simulation applications, directly into logical Majorana fermions rather than atop a logical qubit layer in the architecture. Using quantum simulation of the $N$-fermion 2D Fermi-Hubbard model as an exemplar, we demonstrate two immediate algorithmic improvements. First, by preserving the model's locality at the logical level, we reduce the asymptotic Trotter-Suzuki quantum circuit depth from $\mathcal{O}(\sqrt{N})$ in a typical Jordan-Wigner encoding to $\mathcal{O}(1)$ in our encoding. Second, by exploiting optimizations manifest for logical fermions but less obvious for logical qubits, we reduce the $T$-count of the block-encoding \textsc{select} oracle by 20\% over standard implementations, even when realized by logical qubits and not logical fermions.
翻訳日:2023-07-10 16:23:02 公開日:2023-07-07
# 小さな信号シナリオの削減を超えて - 機械学習によるスヌートリノ検出性の向上

Beyond Cuts in Small Signal Scenarios -- Enhanced Sneutrino Detectability Using Machine Learning ( http://arxiv.org/abs/2108.03125v4 )

ライセンス: Link先を確認
Daniel Alvestad, Nikolai Fomin, J\"orn Kersten, Steffen Maeland, Inga Str\"umke(参考訳) 本研究では,LHCにおける新しい物理探索の感度を高めるために,背景支配の機械学習と,観測可能な信号と背景との高い重なり合いについて検討する。 xgboost と deep neural network の2つの異なるモデルを用いて,観測可能性間の相関を活用し,このアプローチを従来のカット・アンド・カウント法と比較した。 モデルの出力を分析する異なる手法を検討し、テンプレートが一般的に単純なカットよりも優れていることを発見した。 Shapley分解により、イベントキネマティクスと機械学習モデル出力の関係について、さらなる知見を得る。 我々は、メタ安定スヌートリノを具体例として超対称シナリオを考えるが、この方法論はより広い種類のモデルに適用できる。

We investigate enhancing the sensitivity of new physics searches at the LHC by machine learning in the case of background dominance and a high degree of overlap between the observables for signal and background. We use two different models, XGBoost and a deep neural network, to exploit correlations between observables and compare this approach to the traditional cut-and-count method. We consider different methods to analyze the models' output, finding that a template fit generally performs better than a simple cut. By means of a Shapley decomposition, we gain additional insight into the relationship between event kinematics and the machine learning model output. We consider a supersymmetric scenario with a metastable sneutrino as a concrete example, but the methodology can be applied to a much wider class of models.
翻訳日:2023-07-10 16:22:36 公開日:2023-07-07
# 逆の例で説明可能なモデル(と人間)を騙す時と方法

When and How to Fool Explainable Models (and Humans) with Adversarial Examples ( http://arxiv.org/abs/2107.01943v2 )

ライセンス: Link先を確認
Jon Vadillo, Roberto Santana and Jose A. Lozano(参考訳) ニューラルネットワークのような機械学習モデルの信頼性の高いデプロイは、いくつかの制限のため、引き続き困難である。 主な欠点は、解釈可能性の欠如と、逆例や分散入力に対する堅牢性の欠如である。 この探索的レビューでは、説明可能な機械学習モデルに対する敵対的攻撃の可能性と限界について検討する。 まず,説明可能な機械学習シナリオに適合する逆例の概念を拡張し,入力,出力分類,モデル決定の説明を人間によって評価する。 次に,新たな攻撃パラダイムを導入,導入し,説明可能なモデルに対して,敵の例を生成できるかどうかを総合的に検討する枠組みを提案する。 特に,本フレームワークでは,問題の種類やユーザの専門知識,説明の目的など,広く関連するがしばしば無視される要因を検討し,各シナリオで採用すべき攻撃戦略を特定し,モデル(および人間)を欺く。 これらの貢献の意図は、説明可能な機械学習の分野における敵の例をより厳密で現実的な研究の基礎となることにある。

Reliable deployment of machine learning models such as neural networks continues to be challenging due to several limitations. Some of the main shortcomings are the lack of interpretability and the lack of robustness against adversarial examples or out-of-distribution inputs. In this exploratory review, we explore the possibilities and limits of adversarial attacks for explainable machine learning models. First, we extend the notion of adversarial examples to fit in explainable machine learning scenarios, in which the inputs, the output classifications and the explanations of the model's decisions are assessed by humans. Next, we propose a comprehensive framework to study whether (and how) adversarial examples can be generated for explainable models under human assessment, introducing and illustrating novel attack paradigms. In particular, our framework considers a wide range of relevant yet often ignored factors such as the type of problem, the user expertise or the objective of the explanations, in order to identify the attack strategies that should be adopted in each scenario to successfully deceive the model (and the human). The intention of these contributions is to serve as a basis for a more rigorous and realistic study of adversarial examples in the field of explainable machine learning.
翻訳日:2023-07-10 16:22:23 公開日:2023-07-07
# SDD二重閾値選択とCHTによる左室の分画

Segmentation of the Left Ventricle by SDD double threshold selection and CHT ( http://arxiv.org/abs/2007.10665v2 )

ライセンス: Link先を確認
ZiHao Wang and ZhenZhou Wang(参考訳) 磁気共鳴画像(MRI)における左室(LV)の自動的,頑健なセグメンテーションは,長年にわたって困難であった。 物体検出と分類におけるディープラーニングの成功により、近年、lvセグメンテーションの研究焦点は畳み込みニューラルネットワーク(cnn)へと変化している。 しかし、LVセグメンテーションはピクセルレベルの分類問題であり、そのカテゴリは物体の検出や分類と比較して難解である。 本稿では,勾配差分分布(SDD)二重閾値選択と円形ハフ変換(CHT)に基づくロバストなLVセグメンテーション手法を提案する。 提案手法は,最近発表された文献で報告された最良精度よりも高いacdc(automated heart diagnostic challenge)テストセットにおいて96.51%diceスコアを得た。

Automatic and robust segmentation of the left ventricle (LV) in magnetic resonance images (MRI) has remained challenging for many decades. With the great success of deep learning in object detection and classification, the research focus of LV segmentation has changed to convolutional neural network (CNN) in recent years. However, LV segmentation is a pixel-level classification problem and its categories are intractable compared to object detection and classification. In this paper, we proposed a robust LV segmentation method based on slope difference distribution (SDD) double threshold selection and circular Hough transform (CHT). The proposed method achieved 96.51% DICE score on the test set of automated cardiac diagnosis challenge (ACDC) which is higher than the best accuracy reported in recently published literatures.
翻訳日:2023-07-10 16:22:06 公開日:2023-07-07
# F2A2: 協調型マルチエージェント強化学習のためのフレキシブル完全分散近似アクタ批判

F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2004.11145v2 )

ライセンス: Link先を確認
Wenhao Li and Bo Jin and Xiangfeng Wang and Junchi Yan and Hongyuan Zha(参考訳) 従来の集中型マルチエージェント強化学習(marl)アルゴリズムは、エージェント間の非相互作用、次元の呪い、計算複雑性のため、複雑なアプリケーションでは実践的でないことがある。 したがって、複数の分散marlアルゴリズムが動機付けされている。 しかし、既存の分散化手法は、訓練中に大量の情報を伝達する必要がある完全に協調的な設定のみを扱う。 連続的な独立アクターや批評家のステップに使用するブロック座標勾配降下スキームは計算を単純化することができるが、重大なバイアスを引き起こす。 本稿では,アクター批判手法の大部分が組み合わさり,大規模で汎用的なマルチエージェント設定を処理できる,フレキシブルな完全分散型アクター批判型MARLフレームワークを提案する。 分散化のために個別のエージェントを別々に学習するように設計されている。 各エージェントの観点からは、政策改善と価値評価を共同で最適化し、マルチエージェント政策学習を安定化させる。 さらに,本フレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,パラメータ共有機構とオンライン教師あり学習に基づく新しいモデリング支援手法により情報伝達を低減する。 協調型多エージェント粒子環境とStarCraft IIにおける十分な実験により,従来の集中型・分散型手法と競合する分散型MARLインスタンス化アルゴリズムが得られた。

Traditional centralized multi-agent reinforcement learning (MARL) algorithms are sometimes unpractical in complicated applications, due to non-interactivity between agents, curse of dimensionality and computation complexity. Hence, several decentralized MARL algorithms are motivated. However, existing decentralized methods only handle the fully cooperative setting where massive information needs to be transmitted in training. The block coordinate gradient descent scheme they used for successive independent actor and critic steps can simplify the calculation, but it causes serious bias. In this paper, we propose a flexible fully decentralized actor-critic MARL framework, which can combine most of actor-critic methods, and handle large-scale general cooperative multi-agent setting. A primal-dual hybrid gradient descent type algorithm framework is designed to learn individual agents separately for decentralization. From the perspective of each agent, policy improvement and value evaluation are jointly optimized, which can stabilize multi-agent policy learning. Furthermore, our framework can achieve scalability and stability for large-scale environment and reduce information transmission, by the parameter sharing mechanism and a novel modeling-other-agents methods based on theory-of-mind and online supervised learning. Sufficient experiments in cooperative Multi-agent Particle Environment and StarCraft II show that our decentralized MARL instantiation algorithms perform competitively against conventional centralized and decentralized methods.
翻訳日:2023-07-10 16:21:51 公開日:2023-07-07
# QAOAは、良い古典的な文字列から始まり、立ち往生する

The QAOA gets stuck starting from a good classical string ( http://arxiv.org/abs/2207.05089v2 )

ライセンス: Link先を確認
Madelyn Cain, Edward Farhi, Sam Gutmann, Daniel Ranard, Eugene Tang(参考訳) 量子近似最適化アルゴリズム(QAOA)はビット列上のコスト関数を最大化するように設計されている。 初期状態は伝統的に全ての文字列に対する一様重ね合わせであるが、QAOAを高速化しようとするのが自然である:まず古典的アルゴリズムを使って良い文字列を生成し、次にその文字列に関連する計算基底状態から標準QAOAを実行する。 本稿では,QAOAを初期化する手法が劇的に失敗し,コスト関数の改善がほとんど,あるいは全く見られない数値実験を報告する。 この改善の欠如について複数の分析的議論を行い、それぞれが線形な深さを含む異なるレジームや仮定の下で厳密に扱うことができる。 我々は、私たちのネガティブな結果は、ウォームスタートQAOAの単純な導入にのみ適用され、文献の他のアプローチには適用されないことを強調する。 我々の理論的解析が将来のアルゴリズム設計に役立てることを願っている。

The Quantum Approximate Optimization Algorithm (QAOA) is designed to maximize a cost function over bit strings. While the initial state is traditionally a uniform superposition over all strings, it is natural to try expediting the QAOA: first use a classical algorithm to produce some good string, and then run the standard QAOA starting in the computational basis state associated with that string. Here we report numerical experiments that show this method of initializing the QAOA fails dramatically, exhibiting little to no improvement of the cost function. We provide multiple analytical arguments for this lack of improvement, each of which can be made rigorous under different regimes or assumptions, including at nearly linear depths. We emphasize that our negative results only apply to our simple incarnation of the warm-start QAOA and may not apply to other approaches in the literature. We hope that our theoretical analysis will inform future algorithm design.
翻訳日:2023-07-10 16:15:53 公開日:2023-07-07
# クエリ生成を伴う微分検索インデックスのインデックス化と検索のギャップを埋める

Bridging the Gap Between Indexing and Retrieval for Differentiable Search Index with Query Generation ( http://arxiv.org/abs/2206.10128v3 )

ライセンス: Link先を確認
Shengyao Zhuang, Houxing Ren, Linjun Shou, Jian Pei, Ming Gong, Guido Zuccon, and Daxin Jiang(参考訳) Differentiable Search Index (DSI) は情報検索の新たなパラダイムである。 インデックスと検索が2つの異なるコンポーネントである従来の検索アーキテクチャとは異なり、dsiは単一のトランスフォーマーモデルを使用してインデックスと検索の両方を実行する。 本稿では,dsiのインデクシングと検索プロセスの間に生じるデータ分散ミスマッチという,現在のdsiモデルの重要な問題を特定し,対処する。 具体的には、インデックス化において、現在のDSIメソッドは、長い文書のテキストと文書の識別子の間の接続を構築することを学習するが、文書の識別子の検索は、インデックス化ドキュメントよりも一般的にはるかに短いクエリに基づいて行われる。 この問題は、文書テキストとクエリテキストが異なる言語に属する言語間検索にDSIを使用する場合、さらに悪化する。 現在の DSI モデルの基本的問題に対処するために,DSI-QG と呼ばれる DSI の簡易かつ効果的なインデックス化フレームワークを提案する。 インデックス作成時に、DSI-QGはクエリ生成モデルによって生成され、クロスエンコーダローダによって再ランク付けされ、フィルタリングされる可能性のあるクエリが多数存在するドキュメントを表す。 インデクシングにおけるこれらのクエリの存在は、dsiモデルがドキュメント識別子と一連のクエリを接続することを可能にし、インデクシングと検索フェーズの間のデータ分散ミスマッチを緩和する。 DSI-QG が元の DSI モデルより有意に優れていたことを示す。

The Differentiable Search Index (DSI) is an emerging paradigm for information retrieval. Unlike traditional retrieval architectures where index and retrieval are two different and separate components, DSI uses a single transformer model to perform both indexing and retrieval. In this paper, we identify and tackle an important issue of current DSI models: the data distribution mismatch that occurs between the DSI indexing and retrieval processes. Specifically, we argue that, at indexing, current DSI methods learn to build connections between the text of long documents and the identifier of the documents, but then retrieval of document identifiers is based on queries that are commonly much shorter than the indexed documents. This problem is further exacerbated when using DSI for cross-lingual retrieval, where document text and query text are in different languages. To address this fundamental problem of current DSI models, we propose a simple yet effective indexing framework for DSI, called DSI-QG. When indexing, DSI-QG represents documents with a number of potentially relevant queries generated by a query generation model and re-ranked and filtered by a cross-encoder ranker. The presence of these queries at indexing allows the DSI models to connect a document identifier to a set of queries, hence mitigating data distribution mismatches present between the indexing and the retrieval phases. Empirical results on popular mono-lingual and cross-lingual passage retrieval datasets show that DSI-QG significantly outperforms the original DSI model.
翻訳日:2023-07-10 16:15:37 公開日:2023-07-07
# 半導体量子ドットにおけるスピン量子ビットの単発読み出しのしきい値非依存法

Threshold-independent method for single-shot readout of spin qubits in semiconductor quantum dots ( http://arxiv.org/abs/2206.03650v2 )

ライセンス: Link先を確認
Rui-Zi Hu, Sheng-Kai Zhu, Xin Zhang, Yuan Zhou, Ming Ni, Rong-Long Ma, Zhen-Zhen Kong, Gui-Lei Wang, Gang Cao, Hai-Ou Li and Guo-Ping Guo(参考訳) 単一ショット読み出しデータプロセスは、半導体量子ドットにおける高忠実度量子ビットとフォールトトレラント量子アルゴリズムの実現に不可欠である。 しかし、読み出しプロセスの忠実さと可視性は閾値の選択に敏感であり、実験ハードウェアによって制限される。 測定されたスピン状態確率と読み出しのビジビリティとダークカウントとの線形依存性を示すことにより、半導体量子ドットにおけるスピン量子ビットの単発読み出しに対する代替しきい値非依存法について述べる。 我々はしきい値非依存法により励起スピン状態の生成確率の補間スピン状態確率を得ることができる。 そこで,本手法の誤差を解析した結果,外挿確率の誤差は,読み出し時間やしきい値電圧に制約がなく無視できないことがわかった。 したがって、読み出し時間と閾値電圧を制限することにより、外挿された確率の精度を確保できる。 そして,本手法の効率性とロバスト性は,最もよく用いられる手法の60倍であることを示す。 さらに, 電子温度が外部磁場を固定した有効領域に与える影響について検討し, 今後0.7K/1.5Tまでの単発読み出しの予備的な実演を行う。

The single-shot readout data process is essential for the realization of high-fidelity qubits and fault-tolerant quantum algorithms in semiconductor quantum dots. However, the fidelity and visibility of the readout process is sensitive to the choice of the thresholds and limited by the experimental hardware. By demonstrating the linear dependence between the measured spin state probabilities and readout visibilities along with dark counts, we describe an alternative threshold-independent method for the single-shot readout of spin qubits in semiconductor quantum dots. We can obtain the extrapolated spin state probabilities of the prepared probabilities of the excited spin state through the threshold-independent method. Then, we analyze the corresponding errors of the method, finding that errors of the extrapolated probabilities cannot be neglected with no constraints on the readout time and threshold voltage. Therefore, by limiting the readout time and threshold voltage we ensure the accuracy of the extrapolated probability. Then, we prove that the efficiency and robustness of this method is 60 times larger than that of the most commonly used method. Moreover, we discuss the influence of the electron temperature on the effective area with a fixed external magnetic field and provide a preliminary demonstration for a single-shot readout up to 0.7 K/1.5T in the future.
翻訳日:2023-07-10 16:15:11 公開日:2023-07-07
# クロスコンストラクショントランスを用いた自己教師付き時系列表現学習

Self-Supervised Time Series Representation Learning via Cross Reconstruction Transformer ( http://arxiv.org/abs/2205.09928v2 )

ライセンス: Link先を確認
Wenrui Zhang, Ling Yang, Shijia Geng, Shenda Hong(参考訳) ラベル付きサンプルは通常現実のシナリオでは不足するため、時系列における教師なし/自己教師付き表現学習が重要である。 既存のアプローチは主に対照的な学習フレームワークを活用しており、類似したデータ対を理解するために自動的に学習する。 それでも、それらは、ペアの構築、面倒なサンプリングポリシー、サンプリングバイアスに遭遇する不安定なパフォーマンスに関する以前の知識に制限されている。 また、表現能力を拡張するために時間-スペクトル関係を効果的にモデル化することに焦点を当てた作品はほとんどない。 本稿では,新たな視点から時系列表現の学習を目指して,上記の問題を統一的に解くために,クロス再構成変換器(CRT)を提案する。 CRTはクロスドメインドロップ・リコンストラクションタスクを通じて時系列表現学習を実現する。 具体的には、時系列を周波数領域に変換し、時間領域と周波数領域の両方の特定の部分をランダムにドロップする。 ドロップは、切り抜きやマスキングと比較して、グローバルコンテキストを最大限に保存することができる。 次に、変換器アーキテクチャを用いて、両領域のデータを再構成することで、時間的・スペクトル的情報間のクロスドメイン相関を適切に捕捉する。 グローバルな潜在空間における表現を識別するために、異なる時系列間の相互情報を減らすとともに、決定境界を鋭くするインスタンス識別制約を提案する。 さらに,CRTを最適化する特定のカリキュラム学習戦略を提案する。

Unsupervised/self-supervised representation learning in time series is critical since labeled samples are usually scarce in real-world scenarios. Existing approaches mainly leverage the contrastive learning framework, which automatically learns to understand the similar and dissimilar data pairs. Nevertheless, they are restricted to the prior knowledge of constructing pairs, cumbersome sampling policy, and unstable performances when encountering sampling bias. Also, few works have focused on effectively modeling across temporal-spectral relations to extend the capacity of representations. In this paper, we aim at learning representations for time series from a new perspective and propose Cross Reconstruction Transformer (CRT) to solve the aforementioned problems in a unified way. CRT achieves time series representation learning through a cross-domain dropping-reconstruction task. Specifically, we transform time series into the frequency domain and randomly drop certain parts in both time and frequency domains. Dropping can maximally preserve the global context compared to cropping and masking. Then a transformer architecture is utilized to adequately capture the cross-domain correlations between temporal and spectral information through reconstructing data in both domains, which is called Dropped Temporal-Spectral Modeling. To discriminate the representations in global latent space, we propose Instance Discrimination Constraint to reduce the mutual information between different time series and sharpen the decision boundaries. Additionally, we propose a specified curriculum learning strategy to optimize the CRT, which progressively increases the dropping ratio in the training process.
翻訳日:2023-07-10 16:13:39 公開日:2023-07-07
# k-strip:頭蓋骨ストリッピングへの応用のためのk-spaceにおける新しいセグメンテーションアルゴリズム

k-strip: A novel segmentation algorithm in k-space for the application of skull stripping ( http://arxiv.org/abs/2205.09706v2 )

ライセンス: Link先を確認
Moritz Rempe, Florian Mentzel, Kelsey L. Pomykala, Johannes Haubold, Felix Nensa, Kevin Kr\"oninger, Jan Egger, Jens Kleesiek(参考訳) 目的: 情報豊富なk空間で直接動作するMRIのための新しい深層学習ベースの頭蓋骨ストリッピングアルゴリズムを提案する。 材料と方法: 合計36,900個のMRIスライスを持つ異なる機関の2つのデータセットを使用して、複雑な生のk空間データを直接扱うためのディープラーニングベースのモデルを訓練した。 画像領域におけるHD-BET (Brain extract Tool) によるスカルストリップを基礎として用いた。 結果:両データセットは地上の真実と非常によく似ていた(DICEスコアは92\%-98\%、ハウスドルフ距離は5.5mm)。 眼領域の上のスライスは最大99\%のdiceスコアに達し、その精度は眼の周囲と下の領域で低下し、部分的にぼやけた出力となる。 kストリップの出力は、しばしば頭蓋骨への区切りの端を滑らかにした。 バイナリマスクは適切なしきい値で生成される。 結論: この概念実証研究により, k空間周波数領域での作業の実現可能性を示し, 相情報を保持し, 一貫した結果を得た。 将来の研究は、k空間を革新的な画像分析やさらなるワークフローに利用できる方法を見つけることに集中すべきである。

Objectives: Present a novel deep learning-based skull stripping algorithm for magnetic resonance imaging (MRI) that works directly in the information rich k-space. Materials and Methods: Using two datasets from different institutions with a total of 36,900 MRI slices, we trained a deep learning-based model to work directly with the complex raw k-space data. Skull stripping performed by HD-BET (Brain Extraction Tool) in the image domain were used as the ground truth. Results: Both datasets were very similar to the ground truth (DICE scores of 92\%-98\% and Hausdorff distances of under 5.5 mm). Results on slices above the eye-region reach DICE scores of up to 99\%, while the accuracy drops in regions around the eyes and below, with partially blurred output. The output of k-strip often smoothed edges at the demarcation to the skull. Binary masks are created with an appropriate threshold. Conclusion: With this proof-of-concept study, we were able to show the feasibility of working in the k-space frequency domain, preserving phase information, with consistent results. Future research should be dedicated to discovering additional ways the k-space can be used for innovative image analysis and further workflows.
翻訳日:2023-07-10 16:13:16 公開日:2023-07-07
# ハイブリッド量子プロセッサにおける非平衡定常状態の凸最適化

Convex Optimization for Nonequilibrium Steady States on a Hybrid Quantum Processor ( http://arxiv.org/abs/2204.03203v2 )

ライセンス: Link先を確認
Jonathan Wei Zhong Lau, Kian Hwee Lim, Kishor Bharti, Leong-Chuan Kwek, Sai Vinjanampathy(参考訳) オープン量子システムの過渡的および定常的性質を見つけることは、量子技術の様々な分野において中心的な問題である。 本稿では,開放系力学の定常状態を決定する量子支援アルゴリズムを提案する。 リンドブラッド力学の固定点を実現可能性半定プログラムとして求める問題を再構築することにより、変分量子アプローチによる定常状態の解法に関するよく知られた問題を克服する。 このハイブリッド手法により,高次元開量子システムの定常状態を推定し,対称性を持つ系に対してどのように複数の定常状態を見出すことができるかについて議論する。

Finding the transient and steady state properties of open quantum systems is a central problem in various fields of quantum technologies. Here, we present a quantum-assisted algorithm to determine the steady states of open system dynamics. By reformulating the problem of finding the fixed point of Lindblad dynamics as a feasibility semidefinite program, we bypass several well-known issues with variational quantum approaches to solving for steady states. We demonstrate that our hybrid approach allows us to estimate the steady states of higher dimensional open quantum systems and discuss how our method can find multiple steady states for systems with symmetries.
翻訳日:2023-07-10 16:12:54 公開日:2023-07-07
# MRIを用いたマルチタスクデカップリング学習によるアルツハイマー病の検出とMMSEスコア予測:マルチサイト検証

MRI-based Multi-task Decoupling Learning for Alzheimer's Disease Detection and MMSE Score Prediction: A Multi-site Validation ( http://arxiv.org/abs/2204.01708v3 )

ライセンス: Link先を確認
Xu Tian, Jin Liu, Hulin Kuang, Yu Sheng, Jianxin Wang and The Alzheimer's Disease Neuroimaging Initiative(参考訳) アルツハイマー病(AD)の正確な検出とMMSE(Mini-mental state examination)スコアの予測は,MRI(MRI)による高齢者の健康管理において重要な課題である。 これら2つのタスクの以前の方法のほとんどは、シングルタスク学習に基づいており、それら間の相関を考慮することは滅多にない。 AD診断の重要な基礎であるMMSEスコアは、認知障害の進行を反映できるため、これらの2つの課題にマルチタスク学習手法を適用し始めた研究もある。 しかし,これらの手法では,機能相関の活用が課題となっている。 この課題を包括的に解決するために,AD検出とMMSEスコア予測のためのMRIに基づくマルチタスク分離学習手法を提案する。 まず,2つのタスクのバックボーン間に3つのマルチタスクインタラクション層を追加することで,特徴相関を利用した広告検出とmmseスコア予測を実現するマルチタスク学習ネットワークを提案する。 各マルチタスク相互作用層は、2つの機能分離モジュールと1つの機能相互作用モジュールを含む。 さらに,特徴デカップリングモジュールによって選択された特徴のタスク間の一般化を促進するため,特徴整合損失制約機能デカップリングモジュールを提案する。 最後に、mmseスコアの特定の分布情報を異なるグループで活用するために、モデル性能をさらに高めるために分布損失を提案する。 提案手法を多地点データセット上で評価する。 実験の結果,提案手法は単一タスク学習や他の既存手法よりも優れた性能を実現していることがわかった。

Accurately detecting Alzheimer's disease (AD) and predicting mini-mental state examination (MMSE) score are important tasks in elderly health by magnetic resonance imaging (MRI). Most of the previous methods on these two tasks are based on single-task learning and rarely consider the correlation between them. Since the MMSE score, which is an important basis for AD diagnosis, can also reflect the progress of cognitive impairment, some studies have begun to apply multi-task learning methods to these two tasks. However, how to exploit feature correlation remains a challenging problem for these methods. To comprehensively address this challenge, we propose a MRI-based multi-task decoupled learning method for AD detection and MMSE score prediction. First, a multi-task learning network is proposed to implement AD detection and MMSE score prediction, which exploits feature correlation by adding three multi-task interaction layers between the backbones of the two tasks. Each multi-task interaction layer contains two feature decoupling modules and one feature interaction module. Furthermore, to enhance the generalization between tasks of the features selected by the feature decoupling module, we propose the feature consistency loss constrained feature decoupling module. Finally, in order to exploit the specific distribution information of MMSE score in different groups, a distribution loss is proposed to further enhance the model performance. We evaluate our proposed method on multi-site datasets. Experimental results show that our proposed multi-task decoupled representation learning method achieves good performance, outperforming single-task learning and other existing state-of-the-art methods.
翻訳日:2023-07-10 16:12:43 公開日:2023-07-07
# 非凸および非局所正規化を有するテンソルロバストPCA

Tensor Robust PCA with Nonconvex and Nonlocal Regularization ( http://arxiv.org/abs/2211.02404v2 )

ライセンス: Link先を確認
Xiaoyu Geng, Qiang Guo, Shuaixiong Hui, Ming Yang and Caiming Zhang(参考訳) テンソルロバスト主成分分析(TRPCA)は、テンソルの特異値を等しく小さくすることでテンソルランクの凸代理を最小化する、低ランクテンソルリカバリのための古典的な方法である。 しかし、実世界の視覚データでは、大きな特異値は小さな特異値よりも重要な情報を表す。 本稿では、テンソル調整可能な対数ノルムに基づく非凸TRPCA(N-TRPCA)モデルを提案する。 TRPCAとは異なり、我々のN-TRPCAは小さな特異値をより小さくし、大きな特異値を小さくすることができる。 さらに、TRPCAはデータテンソル全体が低いランクであると仮定する。 この仮定は、自然の視覚データにはほとんど満足せず、ノイズの多い画像やビデオからエッジやテクスチャの詳細を復元するTRPCAの能力を制限している。 この目的のために、非局所的な自己相似性をN-TRPCAに統合し、さらに非凸かつ非局所的なTRPCA(NN-TRPCA)モデルを開発する。 具体的には、同様の非局所パッチはテンソルとしてグループ化され、その後 N-TRPCA によって各群テンソルが復元される。 1つのグループのパッチは高い相関関係にあるため、全ての群テンソルは強い低ランク特性を持ち、回復性能が向上する。 実験の結果,NN-TRPCAは既存のTRPCA法よりも視覚的データ回復に優れていた。 デモコードはhttps://github.com/qguo2010/NN-TRPCA.comで公開されている。

Tensor robust principal component analysis (TRPCA) is a classical way for low-rank tensor recovery, which minimizes the convex surrogate of tensor rank by shrinking each tensor singular value equally. However, for real-world visual data, large singular values represent more significant information than small singular values. In this paper, we propose a nonconvex TRPCA (N-TRPCA) model based on the tensor adjustable logarithmic norm. Unlike TRPCA, our N-TRPCA can adaptively shrink small singular values more and shrink large singular values less. In addition, TRPCA assumes that the whole data tensor is of low rank. This assumption is hardly satisfied in practice for natural visual data, restricting the capability of TRPCA to recover the edges and texture details from noisy images and videos. To this end, we integrate nonlocal self-similarity into N-TRPCA, and further develop a nonconvex and nonlocal TRPCA (NN-TRPCA) model. Specifically, similar nonlocal patches are grouped as a tensor and then each group tensor is recovered by our N-TRPCA. Since the patches in one group are highly correlated, all group tensors have strong low-rank property, leading to an improvement of recovery performance. Experimental results demonstrate that the proposed NN-TRPCA outperforms existing TRPCA methods in visual data recovery. The demo code is available at https://github.com/qguo2010/NN-TRPCA.
翻訳日:2023-07-10 16:05:43 公開日:2023-07-07
# 層アンサンブル

Layer Ensembles ( http://arxiv.org/abs/2210.04882v3 )

ライセンス: Link先を確認
Illia Oleksiienko and Alexandros Iosifidis(参考訳) ディープアンサンブルはベイズ型ニューラルネットワークの一種であり、各ネットワークから票を集め、それらの予測の差を計算することで、複数のニューラルネットワークの予測の不確実性を予測するのに使うことができる。 本稿では,ネットワークの各層毎の独立なカテゴリ分布の集合を考慮した不確実性推定手法を提案する。 さらに,共通層出力を再利用し,最大19倍の高速化を実現し,メモリ使用量を2次的に削減する最適化推論手法を導入する。 また,サンプルのランク付けによってさらに改良が可能となり,メモリと実行時間の少ないモデルが,深いアンサンブルよりも高い不確実性を達成できることを示した。

Deep Ensembles, as a type of Bayesian Neural Networks, can be used to estimate uncertainty on the prediction of multiple neural networks by collecting votes from each network and computing the difference in those predictions. In this paper, we introduce a method for uncertainty estimation that considers a set of independent categorical distributions for each layer of the network, giving many more possible samples with overlapped layers than in the regular Deep Ensembles. We further introduce an optimized inference procedure that reuses common layer outputs, achieving up to 19x speed up and reducing memory usage quadratically. We also show that the method can be further improved by ranking samples, resulting in models that require less memory and time to run while achieving higher uncertainty quality than Deep Ensembles.
翻訳日:2023-07-10 16:05:16 公開日:2023-07-07
# TabLeak: フェデレーションラーニングにおけるタブラルデータ漏洩

TabLeak: Tabular Data Leakage in Federated Learning ( http://arxiv.org/abs/2210.01785v2 )

ライセンス: Link先を確認
Mark Vero, Mislav Balunovi\'c, Dimitar I. Dimitrov, Martin Vechev(参考訳) federated learning(fl)はプライバシの保護を約束しているが、画像とテキストドメインの最近の研究から、トレーニングアップデートがプライベートクライアントデータを漏洩していることが示されている。 しかしながら、fl(ヘルスケアやファイナンスなど)の高リスクアプリケーションの多くは表データを使用しており、データ漏洩のリスクはまだ検討されていない。 表データに対する攻撃は、ドメイン固有の2つの重要な課題に対処する必要がある。 (i)分散離散連続最適化問題に対する解を求めること、及び 二 画像やテキストデータと異なり、復元の人的評価を可能にするため、直接の人的検査は不可能である。 本稿では,これらの課題に対処し,表データに対する最初の包括的再構成攻撃であるtableakを提案する。 TabLeakは2つの主要なコントリビューションに基づいています。 (i)最適化問題を解決するためにソフトマックス緩和とプール化センセーブを利用する方法 (ii)人間評価を可能にするエントロピーに基づく不確実性定量化手法。 我々は、fesgdおよびfedavgトレーニングプロトコルの4つの表型データセットでtableakを評価し、以前安全と考えられていたいくつかの設定をうまく壊したことを示す。 例えば、大きなバッチサイズが128である場合でも、90%以上の精度でプライベートデータの大きなサブセットを抽出する。 以上の結果より,現在の高吸収性表在性FLは漏洩攻撃に対して過度に脆弱であることが明らかとなった。

While federated learning (FL) promises to preserve privacy, recent works in the image and text domains have shown that training updates leak private client data. However, most high-stakes applications of FL (e.g., in healthcare and finance) use tabular data, where the risk of data leakage has not yet been explored. A successful attack for tabular data must address two key challenges unique to the domain: (i) obtaining a solution to a high-variance mixed discrete-continuous optimization problem, and (ii) enabling human assessment of the reconstruction as unlike for image and text data, direct human inspection is not possible. In this work we address these challenges and propose TabLeak, the first comprehensive reconstruction attack on tabular data. TabLeak is based on two key contributions: (i) a method which leverages a softmax relaxation and pooled ensembling to solve the optimization problem, and (ii) an entropy-based uncertainty quantification scheme to enable human assessment. We evaluate TabLeak on four tabular datasets for both FedSGD and FedAvg training protocols, and show that it successfully breaks several settings previously deemed safe. For instance, we extract large subsets of private data at >90% accuracy even at the large batch size of 128. Our findings demonstrate that current high-stakes tabular FL is excessively vulnerable to leakage attacks.
翻訳日:2023-07-10 16:04:13 公開日:2023-07-07
# 生体信号における事象検出による後処理の回避

Avoiding Post-Processing with Event-Based Detection in Biomedical Signals ( http://arxiv.org/abs/2209.11007v2 )

ライセンス: Link先を確認
Nick Seeuws, Maarten De Vos, Alexander Bertrand(参考訳) 目的: 興味のある事象を見つけることは、生体信号処理において一般的な課題である。 てんかん発作と信号アーチファクトの検出は2つの重要な例である。 Epochベースの分類は、古典的な機械学習技術の素直な応用のため、このような信号イベントを検出する典型的な機械学習フレームワークである。 通常、後処理は優れたパフォーマンスを達成し、一時的な依存関係を強制するために必要である。 これらの分類出力をイベントに変換するための適切な後処理スキームを設計することは、このフレームワークの退屈で労働集約的な要素です。 メソッド: モデル出力をイベントに変換するためのアドホックな後処理スキームから離れ、学習対象としてイベントを直接扱うイベントベースのモデリングフレームワークを提案する。 シミュレーションデータと実世界のデータに対するこのフレームワークの実用的能力について,エポックなモデリング手法と比較した。 結果: イベントベースのモデリング(後処理なし)は, 広範囲な後処理を伴うエポックベースのモデリングと同等以上のパフォーマンスを示す。 結論: これらの結果は, アドホックな後処理を使わずに, 直接学習目標としてイベントを扱う力を示し, 設計努力を著しく削減した。 意義: イベントベースのモデリングフレームワークは、信号処理における他のイベント検出問題に容易に適用でき、タスク固有の後処理の必要性を排除します。

Objective: Finding events of interest is a common task in biomedical signal processing. The detection of epileptic seizures and signal artefacts are two key examples. Epoch-based classification is the typical machine learning framework to detect such signal events because of the straightforward application of classical machine learning techniques. Usually, post-processing is required to achieve good performance and enforce temporal dependencies. Designing the right post-processing scheme to convert these classification outputs into events is a tedious, and labor-intensive element of this framework. Methods: We propose an event-based modeling framework that directly works with events as learning targets, stepping away from ad-hoc post-processing schemes to turn model outputs into events. We illustrate the practical power of this framework on simulated data and real-world data, comparing it to epoch-based modeling approaches. Results: We show that event-based modeling (without post-processing) performs on par with or better than epoch-based modeling with extensive post-processing. Conclusion: These results show the power of treating events as direct learning targets, instead of using ad-hoc post-processing to obtain them, severely reducing design effort. Significance: The event-based modeling framework can easily be applied to other event detection problems in signal processing, removing the need for intensive task-specific post-processing.
翻訳日:2023-07-10 16:03:45 公開日:2023-07-07
# 測定結果の系と測定器間の量子コヒーレント相互作用のダイナミクス依存性

Dependence of measurement outcomes on the dynamics of quantum coherent interactions between the system and the meter ( http://arxiv.org/abs/2209.00751v3 )

ライセンス: Link先を確認
Tomonori Matsushita and Holger F. Hofmann(参考訳) システムの内部特性に関する情報は、システムと外部メーターの相互作用によってのみ得ることができる。 しかしながら、そのような相互作用は一般にシステムとメーターの間の絡み合いをもたらすため、測定結果をシステムの物理的性質の特定の値に遡ることが困難である。 したがって、量子測定の結果は測定相互作用の力学に非自明な方法で依存しており、量子力学における測定コンテキストの役割について物理的に説明できる可能性がある。 ここでは,計測相互作用が測定値に与える影響を,系のバックアクションに伴う量子コヒーレント系のダイナミクスの観点から完全に説明できることを示す。 十分に小さなバックアクションの不確かさに対して、系の物理的性質はバックアクションダイナミクスのハミルトン・ジャコビ方程式から得られる弱い値によって記述される。 高い測定解像度では、観測された値は異なる量のバックアクションの間の量子干渉によって決定される。 固有値は、異なるバックアクション間の量子干渉がバックアクションパラメータのフーリエ変換に対応するときに現れる。 量子測定で得られた物理特性の値は、相互作用中にその物理特性によって生成されるバックアクションダイナミクスの量子コヒーレントな性質に由来すると結論付ける。 測定結果はダイナミクスの要素を表しており、現実の独立した要素の測定では説明できない。

Information about the internal properties of a system can only be obtained through interactions of the system with an external meter. However, such interactions generally result in entanglement between the system and the meter, making it difficult to trace the measurement result back to a specific value of the physical property in the system. It is therefore possible that the outcomes of quantum measurements depend in a non-trivial manner on the dynamics of the measurement interaction, possibly providing a physical explanation for the role of measurement contexts in quantum mechanics. Here, we show that the effects of the measurement interaction on the meter can be described entirely in terms of the quantum coherent system dynamics associated with the back-action on the system. For sufficiently small back-action uncertainties, the physical property of the system is described by a weak value obtained from the Hamilton-Jacobi equation of the back-action dynamics. At higher measurement resolutions, the observed values are determined by quantum interferences between different amounts of back-action. Eigenvalues emerge when the quantum interferences between different back-actions correspond to a Fourier transform in the back-action parameter. We conclude that the values of physical properties obtained in quantum measurements originate from the quantum coherent properties of the back-action dynamics generated by that physical property during an interaction. Measurement outcomes represent elements of the dynamics and cannot be explained by measurement independent elements of reality.
翻訳日:2023-07-10 16:03:23 公開日:2023-07-07
# トピック: 注意力を用いたソースコードからの学習リポジトリ埋め込み

Topical: Learning Repository Embeddings from Source Code using Attention ( http://arxiv.org/abs/2208.09495v2 )

ライセンス: Link先を確認
Agathe Lherondelle, Varun Babbar, Yash Satsangi, Fran Silavong, Shaltiel Eloul, Sean Moran(参考訳) ソースコード(MLOnCode)上の機械学習は、ソフトウェアの提供方法を変えることを約束する。 ソフトウェアアーチファクト間のコンテキストと関係をマイニングすることで、mloncodeは、コード自動生成、コードレコメンデーション、コード自動タグ付け、その他のデータ駆動機能拡張によって、ソフトウェア開発機能を強化する。 これらのタスクの多くにおいて、コードのスクリプトレベルの表現は十分であるが、多くの場合、さまざまな依存関係とリポジトリ構造を考慮したリポジトリレベルの表現は、例えば、トピックによるリポジトリの自動タグ付けや、リポジトリコードの自動文書化など、必須である。 リポジトリレベルの表現を計算するための既存の方法 (a)コード(例えば、readmeファイル)の自然言語ドキュメンテーションへの依存 b) 結合や平均化によるメソッド/スクリプトレベルの表現のナイーブな集約。 本稿では,GitHubリポジトリのリポジトリレベルの埋め込みをソースコードから直接生成するディープニューラルネットワークTopicalを紹介する。 Topicalにはソースコード、フル依存グラフ、スクリプトレベルのテキスト情報を高密度なリポジトリレベルの表現に投影するアテンションメカニズムが含まれている。 リポジトリレベルの表現を計算するために、 topicalは、公開利用可能なgithubリポジトリのデータセット上で、リポジトリに関連するトピックを予測するように訓練されている。 実験の結果,Topicalが計算した埋め込みは,リポジトリの自動タグ付けタスクにおける平均化や結合によって,メソッドレベルの表現を直感的に組み合わせたベースラインなど,複数のベースラインよりも優れていることがわかった。

Machine learning on source code (MLOnCode) promises to transform how software is delivered. By mining the context and relationship between software artefacts, MLOnCode augments the software developers capabilities with code auto-generation, code recommendation, code auto-tagging and other data-driven enhancements. For many of these tasks a script level representation of code is sufficient, however, in many cases a repository level representation that takes into account various dependencies and repository structure is imperative, for example, auto-tagging repositories with topics or auto-documentation of repository code etc. Existing methods for computing repository level representations suffer from (a) reliance on natural language documentation of code (for example, README files) (b) naive aggregation of method/script-level representation, for example, by concatenation or averaging. This paper introduces Topical a deep neural network to generate repository level embeddings of publicly available GitHub code repositories directly from source code. Topical incorporates an attention mechanism that projects the source code, the full dependency graph and the script level textual information into a dense repository-level representation. To compute the repository-level representations, Topical is trained to predict the topics associated with a repository, on a dataset of publicly available GitHub repositories that were crawled along with their ground truth topic tags. Our experiments show that the embeddings computed by Topical are able to outperform multiple baselines, including baselines that naively combine the method-level representations through averaging or concatenation at the task of repository auto-tagging.
翻訳日:2023-07-10 16:03:07 公開日:2023-07-07
# ビジョンランゲージ事前学習モデルのためのデュアルモーダリティ・プロンプトチューニング

Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model ( http://arxiv.org/abs/2208.08340v4 )

ライセンス: Link先を確認
Yinghui Xing, Qirui Wu, De Cheng, Shizhou Zhang, Guoqiang Liang, Peng Wang, Yanning Zhang(参考訳) CLIPのような大規模なトレーニング済みビソン言語モデルが出現すると、転送可能な表現は、プロンプトチューニングを通じて、幅広い下流タスクに適応できる。 プロンプトチューニングは、事前学習されたモデルに格納された一般的な知識から下流タスクの有益な情報を調べる。 最近提案されたContext Optimization (CoOp) は、言語側からのテキストプロンプトとして学習可能なベクトルのセットを導入している。 しかし、テキストプロンプトのチューニングだけでは合成された「分類器」を調整できないが、画像エンコーダの計算された視覚的特徴は影響を受けないため、準最適解が導かれる。 本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。 最終的な画像特徴をより対象の視覚概念に集中させるため,DPTではクラス認識型視覚プロンプト(CAVPT)方式が提案され,テキストプロンプト機能と画像パッチトークン埋め込みの相互注意によりクラス認識型視覚プロンプトが動的に生成され,下流のタスク関連情報と視覚的インスタンス情報の両方をエンコードする。 11のデータセットに対する広範囲な実験結果から,提案手法の有効性と一般化性が示された。 私たちのコードはhttps://github.com/fanrena/DPTで利用可能です。

With the emergence of large pre-trained vison-language model like CLIP, transferable representations can be adapted to a wide range of downstream tasks via prompt tuning. Prompt tuning tries to probe the beneficial information for downstream tasks from the general knowledge stored in the pre-trained model. A recently proposed method named Context Optimization (CoOp) introduces a set of learnable vectors as text prompt from the language side. However, tuning the text prompt alone can only adjust the synthesized "classifier", while the computed visual features of the image encoder can not be affected , thus leading to sub-optimal solutions. In this paper, we propose a novel Dual-modality Prompt Tuning (DPT) paradigm through learning text and visual prompts simultaneously. To make the final image feature concentrate more on the target visual concept, a Class-Aware Visual Prompt Tuning (CAVPT) scheme is further proposed in our DPT, where the class-aware visual prompt is generated dynamically by performing the cross attention between text prompts features and image patch token embeddings to encode both the downstream task-related information and visual instance information. Extensive experimental results on 11 datasets demonstrate the effectiveness and generalization ability of the proposed method. Our code is available in https://github.com/fanrena/DPT.
翻訳日:2023-07-10 16:02:34 公開日:2023-07-07
# メモリ効率の高いNLLB-200:多言語機械翻訳モデルの言語特化

Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model ( http://arxiv.org/abs/2212.09811v3 )

ライセンス: Link先を確認
Yeskendir Koishekenov, Alexandre Berard, Vassilina Nikoulina(参考訳) 最近リリースされたnllb-200は、202言語をカバーする多言語ニューラルマシン翻訳モデルである。 最大のモデルはMixture of Expertsアーキテクチャに基づいており、多くの言語ペアでSoTA結果を達成する。 54.5Bパラメータを含み、推論のためだけに少なくとも4つの32GB GPUを必要とする。 そこで本研究では,最大80%のエキスパートを,さらなる微調整や翻訳品質の低下を伴わずに除去し,単一の32gb gpuでモデルを実行することが可能なプルーニング手法を提案する。 さらに分析した結果,言語固有の専門家を識別できることが示唆された。

The recently released NLLB-200 is a set of multilingual Neural Machine Translation models that cover 202 languages. The largest model is based on a Mixture of Experts architecture and achieves SoTA results across many language pairs. It contains 54.5B parameters and requires at least four 32GB GPUs just for inference. In this work, we propose a pruning method that enables the removal of up to 80% of experts without further finetuning and with a negligible loss in translation quality, which makes it feasible to run the model on a single 32GB GPU. Further analysis suggests that our pruning metrics can identify language-specific experts.
翻訳日:2023-07-10 15:56:23 公開日:2023-07-07
# WACO:音声翻訳のための単語対応コントラスト学習

WACO: Word-Aligned Contrastive Learning for Speech Translation ( http://arxiv.org/abs/2212.09359v3 )

ライセンス: Link先を確認
Siqi Ouyang, Rong Ye, Lei Li(参考訳) エンドツーエンド音声翻訳(E2E ST)は、ソース音声を直接ターゲットテキストに変換することを目的としている。 既存のST手法は、訓練用に極小の音声テキストデータしか利用できない場合、性能が良くない。 その結果,stモデルの性能は,音声と音源の書き起こしの類似性と密接に関連していることがわかった。 本稿では,低リソース音声からテキストへの翻訳をシンプルかつ効果的に行うための単語適応型協調学習(WACO)を提案する。 私たちの重要なアイデアは、コントラスト学習を通じて、音声とテキストのモダリティの単語レベルの表現を橋渡しすることです。 提案手法は,stベンチマークとして広く用いられている must-c データセットや iwslt 2023 の低リソース方向maltese-english を用いて,waco などの手法を評価した。 実験の結果,WACOは1時間並列STデータのみで,9以上のBLEUポイントで最高のベースラインを達成できた。 コードはhttps://github.com/owaski/wacoで入手できる。

End-to-end Speech Translation (E2E ST) aims to directly translate source speech into target text. Existing ST methods perform poorly when only extremely small speech-text data are available for training. We observe that an ST model's performance closely correlates with its embedding similarity between speech and source transcript. In this paper, we propose Word-Aligned COntrastive learning (WACO), a simple and effective method for extremely low-resource speech-to-text translation. Our key idea is bridging word-level representations for both speech and text modalities via contrastive learning. We evaluate WACO and other methods on the MuST-C dataset, a widely used ST benchmark, and on a low-resource direction Maltese-English from IWSLT 2023. Our experiments demonstrate that WACO outperforms the best baseline by 9+ BLEU points with only 1-hour parallel ST data. Code is available at https://github.com/owaski/WACO.
翻訳日:2023-07-10 15:56:12 公開日:2023-07-07
# SESCORE2: 現実的誤りの合成によるテキスト生成評価の学習

SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic Mistakes ( http://arxiv.org/abs/2212.09305v2 )

ライセンス: Link先を確認
Wenda Xu, Xian Qian, Mingxuan Wang, Lei Li, William Yang Wang(参考訳) 注釈付評価なしでテキスト生成品質を評価するための一般的な指標を訓練することは可能か? 既存の学習メトリクスは、テキスト生成タスク間で不満足に機能するか、特定のタスクでトレーニングするために人間の評価を必要とする。 本稿では,テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。 鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。 SESCORE2の主な利点は、信頼性の高い重大度推定を提供しながら、他の多くの言語への拡張を容易にすることである。 3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。 SESCORE2は、4つのテキスト生成評価ベンチマークで教師なしのPRISMより優れており、Kendallの改善は0.078である。 驚いたことに、SESCORE2は複数のテキスト生成タスクにおいて教師付きBLEURTとCOMETよりも優れています。 コードとデータはhttps://github.com/xu1998hz/sescore2で入手できる。

Is it possible to train a general metric for evaluating text generation quality without human annotated ratings? Existing learned metrics either perform unsatisfactorily across text generation tasks or require human ratings for training on specific tasks. In this paper, we propose SESCORE2, a self-supervised approach for training a model-based metric for text generation evaluation. The key concept is to synthesize realistic model mistakes by perturbing sentences retrieved from a corpus. The primary advantage of the SESCORE2 is its ease of extension to many other languages while providing reliable severity estimation. We evaluate SESCORE2 and previous methods on four text generation tasks across three languages. SESCORE2 outperforms unsupervised metric PRISM on four text generation evaluation benchmarks, with a Kendall improvement of 0.078. Surprisingly, SESCORE2 even outperforms the supervised BLEURT and COMET on multiple text generation tasks. The code and data are available at https://github.com/xu1998hz/SEScore2.
翻訳日:2023-07-10 15:55:51 公開日:2023-07-07
# ALERT:タスクの推論に言語モデルを適用する

ALERT: Adapting Language Models to Reasoning Tasks ( http://arxiv.org/abs/2212.08286v2 )

ライセンス: Link先を確認
Ping Yu, Tianlu Wang, Olga Golovneva, Badr Alkhamissy, Gargi Ghosh, Mona Diab, Asli Celikyilmaz(参考訳) 現在の大規模言語モデルは、数ショットの学習でステップバイステップの推論を必要とする複雑なタスクで合理的に機能する。 これらのモデルは、事前トレーニング中に学んだ推論スキルを適用して、トレーニングコンテキストの外で推論するのでしょうか、あるいは、トレーニングコーパスをより細かい粒度で記憶し、コンテキストをよりよく理解することを学びましたか? ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートであり、推論スキルを必要とする複雑なタスクにおいて、事前訓練されたモデルと微調整されたモデルを比較する。 ALERTは、20以上のデータセットにまたがる詳細な推論スキルに基づいて、あらゆる言語モデルを評価するためのテストベッドを提供する。 ALERTを利用して微調整の役割をさらに調査する。 広範な経験的分析により、言語モデルは、事前学習状態と比較して、微調整段階において、テキストのエンテーメント、誘惑的推論、類推的推論などの推論スキルを学習することがわかった。 また、言語モデルが微調整された場合、プロンプトテンプレートに過度に適合する傾向にあり、一般化問題の原因となるモデルの堅牢性を損なう。

Current large language models can perform reasonably well on complex tasks that require step-by-step reasoning with few-shot learning. Are these models applying reasoning skills they have learnt during pre-training and reason outside of their training context, or are they simply memorizing their training corpus at finer granularity and have learnt to better understand their context? To tease apart these possibilities, we introduce ALERT, a benchmark and suite of analyses for assessing language models' reasoning ability comparing pre-trained and finetuned models on complex tasks that require reasoning skills to solve. ALERT provides a test bed to asses any language model on fine-grained reasoning skills, which spans over 20 datasets and covers 10 different reasoning skills. We leverage ALERT to further investigate the role of finetuning. With extensive empirical analysis we find that language models learn more reasoning skills such as textual entailment, abductive reasoning, and analogical reasoning during finetuning stage compared to pretraining state. We also find that when language models are finetuned they tend to overfit to the prompt template, which hurts the robustness of models causing generalization problems.
翻訳日:2023-07-10 15:55:38 公開日:2023-07-07
# マルチモーダルコントラスト学習による(ヘイトフル)ミームの進化について

On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive Learning ( http://arxiv.org/abs/2212.06573v2 )

ライセンス: Link先を確認
Yiting Qu, Xinlei He, Shannon Pierson, Michael Backes, Yang Zhang, Savvas Zannettou(参考訳) ヘイトフルミームのオンライン普及は、ソーシャルメディアプラットフォームや現実世界に悪影響を及ぼす。 憎しみのあるミームを検出することは、ミームの進化的な性質の1つであり、新しい憎しみのあるミームは、他の文化的考えやシンボルと憎しみのある意味を融合させることによって生まれる。 本稿では,マルチモーダルコントラスト学習モデル,特にOpenAIのCLIPを利用して,ヘイトフルコンテンツのターゲットを特定し,ヘイトフルミームの進化を体系的に研究するフレームワークを提案する。 意味的規則性はCLIPの生成した埋め込みの中に存在し、同じモダリティ(画像)内や、複数のモダリティ(画像とテキスト)内における意味的関係を記述する。 この特性を活かして,複数の画像からの視覚的要素を結合したり,テキスト情報と嫌悪画像の融合によって,嫌悪感のミームがいかに生成されるかを検討した。 本稿では, 反ユダヤ的ミーム, 特にHappy Merchant memeに着目し, ヘイトフルミームの進化を解析するためのフレームワークの能力を実証する。 4chanから抽出したデータセット上のフレームワークを使用することで、happy merchant memeの3.3kの変種を見つけ出すことができます。 私たちのフレームワークは、ヘイトフルミームの新しい変種にフラグを付けて、モデレーターが手動でそれらを検証し、オンラインヘイトフルコンテンツの問題を緩和することによって、人間のモデレーターを助けるために利用することができると考えています。

The dissemination of hateful memes online has adverse effects on social media platforms and the real world. Detecting hateful memes is challenging, one of the reasons being the evolutionary nature of memes; new hateful memes can emerge by fusing hateful connotations with other cultural ideas or symbols. In this paper, we propose a framework that leverages multimodal contrastive learning models, in particular OpenAI's CLIP, to identify targets of hateful content and systematically investigate the evolution of hateful memes. We find that semantic regularities exist in CLIP-generated embeddings that describe semantic relationships within the same modality (images) or across modalities (images and text). Leveraging this property, we study how hateful memes are created by combining visual elements from multiple images or fusing textual information with a hateful image. We demonstrate the capabilities of our framework for analyzing the evolution of hateful memes by focusing on antisemitic memes, particularly the Happy Merchant meme. Using our framework on a dataset extracted from 4chan, we find 3.3K variants of the Happy Merchant meme, with some linked to specific countries, persons, or organizations. We envision that our framework can be used to aid human moderators by flagging new variants of hateful memes so that moderators can manually verify them and mitigate the problem of hateful content online.
翻訳日:2023-07-10 15:55:16 公開日:2023-07-07
# タスクアライン検出変換器を用いたパッシブミリ波画像の物体検出

Concealed Object Detection for Passive Millimeter-Wave Security Imaging Based on Task-Aligned Detection Transformer ( http://arxiv.org/abs/2212.00313v2 )

ライセンス: Link先を確認
Cheng Guo, Fei Hu, and Yan Hu(参考訳) パッシブミリ波(PMMW)は、人間のセキュリティスクリーニングにおいて重要な技術である。 PMMW画像にはいくつかの一般的な物体検出ネットワークが使われている。 しかし,PMMW画像の低分解能化や高ノイズ化により,深層学習に基づくPMMW隠れ物体検出は通常,低精度・低分類信頼性に悩まされる。 そこで本稿では,pmmw-detrと呼ばれるタスクアライメント検出トランスフォーマーネットワークを提案する。 最初の段階では、DCFT(Denoising Coarse-to-Fine Transformer)バックボーンは、異なるスケールで長短の特徴を抽出するように設計されている。 第2段階では,学習した空間的特徴を事前知識としてネットワークに導入し,ネットワークの意味知覚能力を高めるクエリ選択モジュールを提案する。 第3段階では,分類性能の向上を目的としたタスクアライメント型デュアルヘッドブロックを実施し,分類と回帰タスクを分離する。 自己開発PMMWセキュリティスクリーニングデータセットに基づいて, PMMW-DETRが従来よりも精度が高く, 分類信頼性が高く, 低品質のPMMW画像に対して堅牢性を示すことを示す。

Passive millimeter-wave (PMMW) is a significant potential technique for human security screening. Several popular object detection networks have been used for PMMW images. However, restricted by the low resolution and high noise of PMMW images, PMMW hidden object detection based on deep learning usually suffers from low accuracy and low classification confidence. To tackle the above problems, this paper proposes a Task-Aligned Detection Transformer network, named PMMW-DETR. In the first stage, a Denoising Coarse-to-Fine Transformer (DCFT) backbone is designed to extract long- and short-range features in the different scales. In the second stage, we propose the Query Selection module to introduce learned spatial features into the network as prior knowledge, which enhances the semantic perception capability of the network. In the third stage, aiming to improve the classification performance, we perform a Task-Aligned Dual-Head block to decouple the classification and regression tasks. Based on our self-developed PMMW security screening dataset, experimental results including comparison with State-Of-The-Art (SOTA) methods and ablation study demonstrate that the PMMW-DETR obtains higher accuracy and classification confidence than previous works, and exhibits robustness to the PMMW images of low quality.
翻訳日:2023-07-10 15:54:47 公開日:2023-07-07
# マヨラナ表面符号の新しいツイスト:フォールトトレラント量子計算におけるボソニックおよびフェルミオン欠陥

A new twist on the Majorana surface code: Bosonic and fermionic defects for fault-tolerant quantum computation ( http://arxiv.org/abs/2211.11777v2 )

ライセンス: Link先を確認
Campbell McLauchlan and Benjamin B\'eri(参考訳) majorana zero modes (mzms) は、トポロジカル保護された量子コンピューティングハードウェアの候補として期待されているが、大規模な使用には量子エラー訂正が必要になる可能性が高い。 これを達成するために majorana surface codes (mscs) が提案されている。 しかし、多くのMSC特性は未解明のままである。 我々は,msc "twist defects" と "\unicode{x2013}$ anyon-like objects encoding quantum information" の統一フレームワークを提案する。 我々は,MSCのツイスト欠陥が,量子ビット符号や他のMSC符号化方式の2倍の位相的に保護された情報を符号化可能であることを示す。 これは、論理量子ビットと「論理的MZM」の両方をコードするツイストが原因であり、後者は保護顕微鏡のMZMが提供できるように拡張する。 論理量子ビットおよび論理MZMを用いて、他のMSC方式よりもはるかに少ないリソースを用いて、普遍計算を行う方法を説明する。 すべてのクリフォードゲートは、ツイスト欠陥をブレイディングすることで論理キュービット上で実装することができる。 我々は,論理的MZMと論理的量子ビットを用いた格子サージェリーに基づく計算手法を導入し,時間オーバーヘッドゼロのクリフォードゲートの効果を実現する。 また,論理mzmは計算の全てのステップに対してコード距離に関して空間的オーバーヘッドのスケーリングを改善することを示した。 最後に,mzmの微視的ブレイディングによりコード化されたクリフォードゲートを小さなコードで実現するトランスバーサルゲートのmscアナログを提案する。 したがって、mscツイスト欠陥はフォールトトレラント量子計算への新たな道を開く。

Majorana zero modes (MZMs) are promising candidates for topologically-protected quantum computing hardware, however their large-scale use will likely require quantum error correction. Majorana surface codes (MSCs) have been proposed to achieve this. However, many MSC properties remain unexplored. We present a unified framework for MSC "twist defects" $\unicode{x2013}$ anyon-like objects encoding quantum information. We show that twist defects in MSCs can encode twice the amount of topologically protected information as in qubit-based codes or other MSC encoding schemes. This is due to twists encoding both logical qubits and "logical MZMs," with the latter enhancing the protection microscopic MZMs can offer. We explain how to perform universal computation with logical qubits and logical MZMs while using far fewer resources than in other MSC schemes. All Clifford gates can be implemented on logical qubits by braiding twist defects. We introduce lattice-surgery-based techniques for computing with logical MZMs and logical qubits, achieving the effect of Clifford gates with zero time overhead. We also show that logical MZMs result in an improved scaling of spatial overheads with respect to code distance for all steps of the computation. Finally, we introduce a novel MSC analogue of transversal gates that achieves encoded Clifford gates in small codes by braiding microscopic MZMs. MSC twist defects thus open new paths towards fault-tolerant quantum computation.
翻訳日:2023-07-10 15:54:23 公開日:2023-07-07
# 学習正準化関数による等価性

Equivariance with Learned Canonicalization Functions ( http://arxiv.org/abs/2211.06489v3 )

ライセンス: Link先を確認
S\'ekou-Oumar Kaba, Arnab Kumar Mondal, Yan Zhang, Yoshua Bengio, Siamak Ravanbakhsh(参考訳) 対称性に基づくニューラルネットワークは、変換のグループに不変または同値性を達成するためにしばしばアーキテクチャを制約する。 本稿では、データの標準表現を学習することで、このアーキテクチャ上の制約を回避する代替案を提案する。 これらの正準化関数は、不変でないバックボーンアーキテクチャに簡単にプラグインできる。 関心のあるグループのために、明示的な実装方法を提供しています。 このアプローチは、解釈可能な洞察を提供しながら、普遍性を楽しむことを示す。 私たちの経験的結果が支持する私たちの主な仮説は、事前定義されたヒューリスティックスを使うよりも、小さなニューラルネットワークを学習して正準化を行う方がよい、ということです。 実験の結果,正準化関数の学習は,画像分類,$N$ボディのダイナミックス予測,ポイントクラウド分類,部分セグメント化など,多数のタスクにおいて同変関数を学習する既存の手法と競合することがわかった。

Symmetry-based neural networks often constrain the architecture in order to achieve invariance or equivariance to a group of transformations. In this paper, we propose an alternative that avoids this architectural constraint by learning to produce canonical representations of the data. These canonicalization functions can readily be plugged into non-equivariant backbone architectures. We offer explicit ways to implement them for some groups of interest. We show that this approach enjoys universality while providing interpretable insights. Our main hypothesis, supported by our empirical results, is that learning a small neural network to perform canonicalization is better than using predefined heuristics. Our experiments show that learning the canonicalization function is competitive with existing techniques for learning equivariant functions across many tasks, including image classification, $N$-body dynamics prediction, point cloud classification and part segmentation, while being faster across the board.
翻訳日:2023-07-10 15:53:25 公開日:2023-07-07
# 方向刺激法による大規模言語モデルの誘導

Guiding Large Language Models via Directional Stimulus Prompting ( http://arxiv.org/abs/2302.11520v3 )

ライセンス: Link先を確認
Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao, Xifeng Yan(参考訳) 本稿では,ブラックボックス大言語モデル(llm)を所望の出力に導く方向刺激プロンプトと呼ばれる新しいプロンプトフレームワークを提案する。 このフレームワークは、方向刺激と呼ばれる新しいコンポーネントをプロンプトに導入し、よりきめ細かいガイダンスとLSMの制御を提供する。 方向刺激は各入力クエリのヒントや手がかりとして機能し、所望の要約に含めるキーワードなど、所望の出力に向けてLSMを誘導する。 我々は、小さな調整可能なモデル(例えば、T5)を使用して、クエリ毎にこのような方向刺激を生成し、小さなポリシーモデルを最適化することで、ブラックボックスLLMを最適化する。 このポリシーモデルは、トレーニングできます 1)ラベル付きデータを用いた教師付き微調整 2) オフラインやオンラインの報酬から強化学習を行い, LLMを望ましい行動に整合させる指向性刺激を探究する。 要約と対話応答生成タスクの枠組みを評価した。 実験の結果,我々のフレームワークは,トレーニングデータの少ないコレクションで,標準プロンプトよりもchatgptのパフォーマンスを一貫して向上させ,強化学習によりパフォーマンスがさらに向上することがわかった。 特に、MultWOZデータセットにおいて、我々のフレームワークはChatGPTの合計スコアがわずか80の対話で41.4%向上し、完全に訓練された最先端モデルのパフォーマンスをマッチングまたは超えることを可能にする。 私たちはコードを公開しました。

We introduce a novel prompting framework called Directional Stimulus Prompting for guiding black-box large language models (LLMs) toward desired outputs. The framework introduces a new component called directional stimulus into the prompt, providing more fine-grained guidance and control over LLMs. The directional stimulus serves as hints or cues for each input query to guide LLMs toward the desired output, such as keywords that the desired summary should include for summarization. We utilize a small tunable model (e.g., T5) to generate such directional stimulus for each query, allowing us to optimize black-box LLMs by optimizing a small policy model. This policy model can be trained through 1) supervised fine-tuning using labeled data and 2) reinforcement learning from offline or online rewards to explore directional stimulus that better aligns LLMs with desired behaviors. We evaluate our framework on summarization and dialogue response generation tasks. Experimental results show that our framework consistently improves ChatGPT's performance over standard prompting with a small collection of training data, and reinforcement learning further improves the performance. Notably, on the MultWOZ dataset, our framework enables ChatGPT to achieve a remarkable 41.4% improvement in its combined score with only 80 dialogues, matching or even surpassing the performance of some fully trained state-of-the-art models. We have made our code publicly available.
翻訳日:2023-07-10 15:45:30 公開日:2023-07-07
# ロボットシステムの離散対称性について:群理論とデータ駆動解析

On discrete symmetries of robotics systems: A group-theoretic and data-driven analysis ( http://arxiv.org/abs/2302.10433v3 )

ライセンス: Link先を確認
Daniel Ordonez-Apraez, Mario Martin, Antonio Agudo and Francesc Moreno-Noguer(参考訳) 本稿では,脚部,水泳,飛ぶ動物・ロボット・バーチャルキャラクタといった生体・人工のロコモティングシステムにおいて一般的に観察される力学系の離散的形態的対称性に関する包括的研究を行う。 これらの対称性は、系の形態学における1つ以上の平面/対称性の軸の存在から生じ、調和した重複と身体部分の分布をもたらす。 特に,形態的対称性がシステムの動力学,最適制御政策,およびシステムの動力学進化に関連するすべての固有的および外的測定において対称性にどのように拡張するかを特徴付ける。 データ駆動方式の文脈では、対称性はデータ拡張や対称関数近似の使用を正当化する帰納的バイアスを表す。 そこで本研究では,システムの形態的対称性群を$\G$で同定し,その対称性を固有化するための理論的,実用的な枠組みを提案する。 次に、データ拡張と$\G$-equivariant Neural Networkを用いてこれらの対称性を利用する。 本研究は, サンプル効率の向上, 一般化の促進, トレーニング可能なパラメータの削減など, これらの対称性の活用による有利な結果の実証的証拠を提供する。

We present a comprehensive study on discrete morphological symmetries of dynamical systems, which are commonly observed in biological and artificial locomoting systems, such as legged, swimming, and flying animals/robots/virtual characters. These symmetries arise from the presence of one or more planes/axis of symmetry in the system's morphology, resulting in harmonious duplication and distribution of body parts. Significantly, we characterize how morphological symmetries extend to symmetries in the system's dynamics, optimal control policies, and in all proprioceptive and exteroceptive measurements related to the system's dynamics evolution. In the context of data-driven methods, symmetry represents an inductive bias that justifies the use of data augmentation or symmetric function approximators. To tackle this, we present a theoretical and practical framework for identifying the system's morphological symmetry group $\G$ and characterizing the symmetries in proprioceptive and exteroceptive data measurements. We then exploit these symmetries using data augmentation and $\G$-equivariant neural networks. Our experiments on both synthetic and real-world applications provide empirical evidence of the advantageous outcomes resulting from the exploitation of these symmetries, including improved sample efficiency, enhanced generalization, and reduction of trainable parameters.
翻訳日:2023-07-10 15:45:01 公開日:2023-07-07
# ディープニューラルネットワークにおけるショートカット学習の取り組み--解釈可能なモデルによる反復的アプローチ

Tackling Shortcut Learning in Deep Neural Networks: An Iterative Approach with Interpretable Models ( http://arxiv.org/abs/2302.10289v9 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) 概念に基づく解釈モデルを用いてショートカット学習を緩和する。 既存の方法には解釈性がない。 ブラックボックスから始めると、解釈可能な専門家(moie)と残りのネットワークの混合を反復的に作り出す。 各専門家は、FOL(First Order Logic)を使用してデータのサブセットを説明する。 サンプルを説明しながら、偏りのあるBB由来のMoIEからFOLがショートカットを効果的に検出する。 BBをメタデータ正規化(MDN)で微調整すると、ショートカットがなくなる。 微細BB由来MoIEからのFOLはショートカットの除去を検証する。 実験の結果,MoIEは元のBBの精度を損なわず,ショートカットを効果的に除去することがわかった。

We use concept-based interpretable models to mitigate shortcut learning. Existing methods lack interpretability. Beginning with a Blackbox, we iteratively carve out a mixture of interpretable experts (MoIE) and a residual network. Each expert explains a subset of data using First Order Logic (FOL). While explaining a sample, the FOL from biased BB-derived MoIE detects the shortcut effectively. Finetuning the BB with Metadata Normalization (MDN) eliminates the shortcut. The FOLs from the finetuned-BB-derived MoIE verify the elimination of the shortcut. Our experiments show that MoIE does not hurt the accuracy of the original BB and eliminates shortcuts effectively.
翻訳日:2023-07-10 15:44:39 公開日:2023-07-07
# 回帰のためのブラックボックスバッチアクティブラーニング

Black-Box Batch Active Learning for Regression ( http://arxiv.org/abs/2302.08981v2 )

ライセンス: Link先を確認
Andreas Kirsch(参考訳) バッチアクティブラーニング(英: batch active learning)は、大規模なデータセット上で機械学習モデルを効率的にトレーニングするための一般的なアプローチである。 しかし、最近のバッチアクティブラーニング手法の多くはホワイトボックスアプローチであり、しばしば微分可能なパラメトリックモデルに限定されている。 本稿では,ホワイトボックスアプローチの拡張として回帰タスクのためのブラックボックスバッチアクティブラーニングを提案する。 本手法はモデル予測にのみ依存する。 このアプローチは、正規およびベイジアンディープラーニングモデルやランダムフォレストのような非微分不可能モデルを含む、幅広い機械学習モデルと互換性がある。 ベイズ原理に根ざし、最近のカーネルベースのアプローチを利用している。 これにより、既存の最先端のホワイトボックスバッチ能動学習手法(BADGE、BAIT、LCMD)をブラックボックスモデルに拡張できる。 提案手法の有効性を,ディープラーニングモデルに対するホワイトボックスアプローチと比較して驚くほど高い性能を達成し,回帰データセットの広範な実験的評価を通じて実証する。

Batch active learning is a popular approach for efficiently training machine learning models on large, initially unlabelled datasets by repeatedly acquiring labels for batches of data points. However, many recent batch active learning methods are white-box approaches and are often limited to differentiable parametric models: they score unlabeled points using acquisition functions based on model embeddings or first- and second-order derivatives. In this paper, we propose black-box batch active learning for regression tasks as an extension of white-box approaches. Crucially, our method only relies on model predictions. This approach is compatible with a wide range of machine learning models, including regular and Bayesian deep learning models and non-differentiable models such as random forests. It is rooted in Bayesian principles and utilizes recent kernel-based approaches. This allows us to extend a wide range of existing state-of-the-art white-box batch active learning methods (BADGE, BAIT, LCMD) to black-box models. We demonstrate the effectiveness of our approach through extensive experimental evaluations on regression datasets, achieving surprisingly strong performance compared to white-box approaches for deep learning models.
翻訳日:2023-07-10 15:44:29 公開日:2023-07-07
# 構造化潜在変数モデルに対するフェデレーション変分推定法

Federated Variational Inference Methods for Structured Latent Variable Models ( http://arxiv.org/abs/2302.03314v2 )

ライセンス: Link先を確認
Conor Hassan, Robert Salomone, Kerrie Mengersen(参考訳) フェデレートされた学習手法は,データを元の場所に残さずに分散データソース間のモデルトレーニングを可能にし,様々な分野への関心を高めている。 しかし、既存のアプローチは多くの構造化確率モデルを除いて制限されている。 本稿では,ベイズ機械学習において広く用いられている構造的変分推論に基づく汎用的かつエレガントな解について述べる。 さらに、標準的なFedAvgアルゴリズムに類似した通信効率のよい変種を提供する。 提案アルゴリズムの有効性を実証し,その性能を階層型ベイズニューラルネットワークやトピックモデルと比較した。

Federated learning methods enable model training across distributed data sources without data leaving their original locations and have gained increasing interest in various fields. However, existing approaches are limited, excluding many structured probabilistic models. We present a general and elegant solution based on structured variational inference, widely used in Bayesian machine learning, adapted for the federated setting. Additionally, we provide a communication-efficient variant analogous to the canonical FedAvg algorithm. The proposed algorithms' effectiveness is demonstrated, and their performance is compared with hierarchical Bayesian neural networks and topic models.
翻訳日:2023-07-10 15:44:11 公開日:2023-07-07
# エンタングルメントは送信よりもテレポートが優れている

Entanglement is better teleported than transmitted ( http://arxiv.org/abs/2301.13212v2 )

ライセンス: Link先を確認
Koji Yamaguchi and Achim Kempf(参考訳) 量子場を経由する量子通信の目的では、フィールドを伝送の媒体としてだけでなく、通信タスクを補助する絡み合いの源として見ることが不可欠であることを示す。 この目的のために、Alice が最初 ancilla に絡まっており、Bob を ancilla に絡まわせるために、量子場を通して Bob と通信しようとする量子通信シナリオを考える。 アリスとボブが直接量子場に結合して通信するならば、彼らは2番目の摂動次数よりも高い順序でのみボブとアンシラの間のネガティビティを生成することができる。 次に、aliceとbobが相互作用や収穫によってフィールドから取得した絡み合いを消費する量子テレポーテーションに基づくプロトコルを提案する。 このプロトコルは、既に第2の摂動順序に負性を持たせることを示す。

We show that, for the purpose of quantum communication via a quantum field, it is essential to view the field not only as a medium for transmission but also as a source of entanglement that can aid in the communication task. To this end, we consider the quantum communication scenario where Alice is initially entangled with an ancilla and intends to communicate with Bob through a quantum field, so as to make Bob entangled with the ancilla. We find that if Alice and Bob communicate by directly coupling to the quantum field, then they can generate negativity between Bob and the ancilla only at orders that are higher than second perturbative order. We then present a protocol based on quantum teleportation in which Alice and Bob consume entanglement that they obtained from the field via interaction or harvesting. We show that this protocol can transfer negativity already to second perturbative order.
翻訳日:2023-07-10 15:44:02 公開日:2023-07-07
# 深層強化学習における探索のための自己報酬の自動生成

Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2301.10886v4 )

ライセンス: Link先を確認
Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng(参考訳) 本稿では,強化学習(RL)における探索を強化するために,知的かつ適応的に高品質な固有報酬を提供する自動固有逆整形法を提案する。 より具体的には、AIRSは、推定されたタスクリターンに基づいて予め定義されたセットから、リアルタイムにシェーピング機能を選択し、信頼性の高い探索インセンティブを提供し、バイアスのある客観的問題を緩和する。 さらに,多様なインセンティブインセンティブアプローチの効率的かつ信頼性の高い実装を実現するためのインセンティブインセンティブインセンティブツールキットを開発した。 我々は、MiniGrid、Procgen、DeepMind Control Suiteといった様々なタスクでAIRSをテストする。 拡張シミュレーションは、airsがベンチマークスキームを上回ることができ、単純なアーキテクチャで優れたパフォーマンスを達成することを実証する。

We present AIRS: Automatic Intrinsic Reward Shaping that intelligently and adaptively provides high-quality intrinsic rewards to enhance exploration in reinforcement learning (RL). More specifically, AIRS selects shaping function from a predefined set based on the estimated task return in real-time, providing reliable exploration incentives and alleviating the biased objective problem. Moreover, we develop an intrinsic reward toolkit to provide efficient and reliable implementations of diverse intrinsic reward approaches. We test AIRS on various tasks of MiniGrid, Procgen, and DeepMind Control Suite. Extensive simulation demonstrates that AIRS can outperform the benchmarking schemes and achieve superior performance with simple architecture.
翻訳日:2023-07-10 15:43:47 公開日:2023-07-07
# ランク付けにおけるバイアス表現群の検出

Detection of Groups with Biased Representation in Ranking ( http://arxiv.org/abs/2301.00719v2 )

ライセンス: Link先を確認
Jinyang Li, Yuval Moskovitch, H. V. Jagadish(参考訳) 多くの重要なドメインにおける意思決定のための実生活ツールは、ランキング結果に基づいている。 アルゴリズム的公正に対する意識の高まりに伴い、近年の研究では、ランク付けにおける公平性の尺度が提示されている。 これらの定義の多くは、妥当な$k$ に対して、上位$k$ランクの項目において、異なる ``protected groups'' の表現を考える。 保護されたグループを考えると、アルゴリズムの公正性を確認することは簡単な作業である。 しかし、グループの定義は事前に不明である。 本稿では,保護されたグループを事前に定義する必要をなくし,上位ランクの項目に偏りのあるグループを検出する問題について検討する。 そのような群の数は指数関数的であり、問題を難しくする。 本研究では,グローバル表現境界と比例表現という2つの異なるフェアネス尺度に対する効率的な探索アルゴリズムを提案する。 次に,shapley値の概念を利用した群表現におけるバイアスを説明する手法を提案する。 本研究は,提案手法のスケーラビリティを実証し,提案アルゴリズムの有用性を実証する実験により結論付けた。

Real-life tools for decision-making in many critical domains are based on ranking results. With the increasing awareness of algorithmic fairness, recent works have presented measures for fairness in ranking. Many of those definitions consider the representation of different ``protected groups'', in the top-$k$ ranked items, for any reasonable $k$. Given the protected groups, confirming algorithmic fairness is a simple task. However, the groups' definitions may be unknown in advance. In this paper, we study the problem of detecting groups with biased representation in the top-$k$ ranked items, eliminating the need to pre-define protected groups. The number of such groups possible can be exponential, making the problem hard. We propose efficient search algorithms for two different fairness measures: global representation bounds, and proportional representation. Then we propose a method to explain the bias in the representations of groups utilizing the notion of Shapley values. We conclude with an experimental study, showing the scalability of our approach and demonstrating the usefulness of the proposed algorithms.
翻訳日:2023-07-10 15:43:33 公開日:2023-07-07
# ロボットと人間の同僚による倉庫ロジスティクスのためのスケーラブルなマルチエージェント強化学習

Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers ( http://arxiv.org/abs/2212.11498v2 )

ライセンス: Link先を確認
Aleksandar Krnjaic, Raul D. Steleac, Jonathan D. Thomas, Georgios Papoudakis, Lukas Sch\"afer, Andrew Wing Keung To, Kuan-Ho Lao, Murat Cubuktepe, Matthew Haley, Peter B\"orsting, Stefano V. Albrecht(参考訳) 我々は、多数の移動ロボットと人間のピッカーが協力して倉庫内でアイテムを収集、配達する倉庫を構想する。 私たちが取り組んだ基本的な問題は、オーダーピッキング問題(英語版)と呼ばれ、これらの労働者エージェントは、パフォーマンスを最大化するために倉庫内での動きと動作を調整する必要がある。 ヒューリスティックなアプローチを用いた産業手法の確立には、自然に変化する倉庫構成を最適化するために大規模なエンジニアリング作業が必要である。 対照的に、マルチエージェント強化学習(MARL)は、さまざまな倉庫構成(例えば、サイズ、レイアウト、労働者の数/種類、アイテム補充頻度)に柔軟に適用することができる。 我々は,マネージャが労働者エージェントに目標を割り当てる階層的marlアルゴリズムを開発し,マネージャと労働者の方針はグローバルな目標(ピックレートなど)を最大化するために共訓練される。 我々の階層的アルゴリズムは, 多様な倉庫構成において, サンプル効率とベースラインMARLアルゴリズムの全体的な選択率を大幅に向上させ, オーダーピッキングシステムにおいて, 2つの確立された業界ヒューリスティックを著しく上回っている。

We envision a warehouse in which dozens of mobile robots and human pickers work together to collect and deliver items within the warehouse. The fundamental problem we tackle, called the order-picking problem, is how these worker agents must coordinate their movement and actions in the warehouse to maximise performance (e.g. order throughput). Established industry methods using heuristic approaches require large engineering efforts to optimise for innately variable warehouse configurations. In contrast, multi-agent reinforcement learning (MARL) can be flexibly applied to diverse warehouse configurations (e.g. size, layout, number/types of workers, item replenishment frequency), as the agents learn through experience how to optimally cooperate with one another. We develop hierarchical MARL algorithms in which a manager assigns goals to worker agents, and the policies of the manager and workers are co-trained toward maximising a global objective (e.g. pick rate). Our hierarchical algorithms achieve significant gains in sample efficiency and overall pick rates over baseline MARL algorithms in diverse warehouse configurations, and substantially outperform two established industry heuristics for order-picking systems.
翻訳日:2023-07-10 15:43:19 公開日:2023-07-07
# 社会工学的生産スケジューリングのための強化学習を用いたメメティックアルゴリズム

A Memetic Algorithm with Reinforcement Learning for Sociotechnical Production Scheduling ( http://arxiv.org/abs/2212.10936v4 )

ライセンス: Link先を確認
Felix Grumbach, Nour Eldin Alaa Badr, Pascal Reusch and Sebastian Trojahn(参考訳) 下記の学際的論文では、実用指向の二重資源制約型フレキシブルジョブショップスケジューリング問題(DRC-FJSSP)を解決するために、深層強化学習(DRL)を適用したメメティックアルゴリズムを提案する。 産業における研究プロジェクトから、フレキシブルマシン、フレキシブルなヒューマンワーカー、作業能力、セットアップと処理操作、材料到着時間、材料請求書製造(BOM)の並行タスク、シーケンス依存のセットアップ時間、人間-機械協調における(一部)自動化タスクなどを検討する必要性を認識します。 近年,メタヒューリスティックスやDRL技術に関する研究が盛んに行われているが,単純なスケジューリング環境に特化している。 しかし、メタヒューリスティックスとDRLを組み合わせることで、より確実かつ効率的にスケジュールを生成するアプローチはほとんどない。 本稿では、DRC-FJSSPを定式化し、従来の求人モデルを超えた複雑な産業要件をマッピングする。 次に,並列計算とマルチ基準最適化を考慮した離散イベントシミュレーション(DES)をスケジュール評価に組み込んだスケジューリングフレームワークを提案する。 ここでは、シークエンシングと代入決定を改善するために、メメティックアルゴリズムにDRLを付加する。 実世界の生産データを用いた数値実験により,makespan (ms) と total tardiness (tt) のバランスのとれた最適化のために,フレームワークが効率的かつ確実に実現可能なスケジュールを生成することを確認した。 DRLをランダムなメタヒューリスティックな操作の代わりに利用すると、アルゴリズムの繰り返しが少なくなり、そのような複雑な環境で従来のアプローチより優れている。

The following interdisciplinary article presents a memetic algorithm with applying deep reinforcement learning (DRL) for solving practically oriented dual resource constrained flexible job shop scheduling problems (DRC-FJSSP). From research projects in industry, we recognize the need to consider flexible machines, flexible human workers, worker capabilities, setup and processing operations, material arrival times, complex job paths with parallel tasks for bill of material (BOM) manufacturing, sequence-dependent setup times and (partially) automated tasks in human-machine-collaboration. In recent years, there has been extensive research on metaheuristics and DRL techniques but focused on simple scheduling environments. However, there are few approaches combining metaheuristics and DRL to generate schedules more reliably and efficiently. In this paper, we first formulate a DRC-FJSSP to map complex industry requirements beyond traditional job shop models. Then we propose a scheduling framework integrating a discrete event simulation (DES) for schedule evaluation, considering parallel computing and multicriteria optimization. Here, a memetic algorithm is enriched with DRL to improve sequencing and assignment decisions. Through numerical experiments with real-world production data, we confirm that the framework generates feasible schedules efficiently and reliably for a balanced optimization of makespan (MS) and total tardiness (TT). Utilizing DRL instead of random metaheuristic operations leads to better results in fewer algorithm iterations and outperforms traditional approaches in such complex environments.
翻訳日:2023-07-10 15:42:55 公開日:2023-07-07
# 多クラスオンライン学習と一様収束

Multiclass Online Learning and Uniform Convergence ( http://arxiv.org/abs/2303.17716v2 )

ライセンス: Link先を確認
Steve Hanneke, Shay Moran, Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) 不可知論的オンライン学習環境における多クラス分類について検討した。 主な結果として、任意の多重クラスの概念クラスが非可知であることと、そのリトルストーン次元が有限であることは同値である。 これは、Daniely, Sabato, Ben-David, Shalev-Shwartz (2011, 2015) によって研究され、クラス(またはラベル)の数が有界である場合のケースを扱う。 また、オンライン学習性とオンライン一様収束の分離を、連続的なRademacher複雑性が非有界な学習クラスで表すことによって証明する。 学習アルゴリズムは乗法重みアルゴリズムを使用し,標準最適アルゴリズムを小石次元のサブシーケンス上で実行することにより,専門家のセットを定めている。 最高の専門家は、クラスの最高の概念に対して、たいていのリトルストーン次元を後悔している、と主張する。 これはBen-David、P\'{a}l、Shalev-Shwartz (2009) の2進分類におけるよく知られた被覆技法とは異なる。

We study multiclass classification in the agnostic adversarial online learning setting. As our main result, we prove that any multiclass concept class is agnostically learnable if and only if its Littlestone dimension is finite. This solves an open problem studied by Daniely, Sabato, Ben-David, and Shalev-Shwartz (2011,2015) who handled the case when the number of classes (or labels) is bounded. We also prove a separation between online learnability and online uniform convergence by exhibiting an easy-to-learn class whose sequential Rademacher complexity is unbounded. Our learning algorithm uses the multiplicative weights algorithm, with a set of experts defined by executions of the Standard Optimal Algorithm on subsequences of size Littlestone dimension. We argue that the best expert has regret at most Littlestone dimension relative to the best concept in the class. This differs from the well-known covering technique of Ben-David, P\'{a}l, and Shalev-Shwartz (2009) for binary classification, where the best expert has regret zero.
翻訳日:2023-07-10 15:36:03 公開日:2023-07-07
# Uni-Mol+を用いた高精度量子化学特性予測

Highly Accurate Quantum Chemical Property Prediction with Uni-Mol+ ( http://arxiv.org/abs/2303.16982v2 )

ライセンス: Link先を確認
Shuqi Lu, Zhifeng Gao, Di He, Linfeng Zhang, Guolin Ke(参考訳) 近年の深層学習の進歩は、密度汎関数理論のような高価な電子構造計算の必要性をなくし、量子化学(qc)特性の予測を高速化する上で大きな進歩を遂げている。 しかし,1次元SMILES配列や2次元分子グラフから得られた従来の手法は,QC特性が電子構造法で最適化された3次元平衡配座に依存するため,精度が向上しなかった。 本稿では,Uni-Mol+と呼ばれる新しいアプローチを提案する。 Uni-Mol+はRDKitのような安価な方法から生の3D分子コンホメーションを生成する。 次に、ニューラルネットワークを用いてターゲットのDFT平衡コンフォメーションに生のコンフォメーションを反復的に更新し、学習されたコンフォメーションを使用してQC特性を予測する。 この更新プロセスを平衡整合性に向けて効果的に学習するため、2トラックトランスフォーマーモデルバックボーンを導入し、QC特性予測タスクでトレーニングする。 また、モデルのトレーニングプロセスを導くための新しいアプローチも設計する。 提案したUni-Mol+は,様々なデータセットにおけるQC特性予測の精度を大幅に向上することを示す。 コードとモデルは、 \url{https://github.com/dptech-corp/Uni-Mol}で公開しました。

Recent developments in deep learning have made remarkable progress in speeding up the prediction of quantum chemical (QC) properties by removing the need for expensive electronic structure calculations like density functional theory. However, previous methods learned from 1D SMILES sequences or 2D molecular graphs failed to achieve high accuracy as QC properties primarily depend on the 3D equilibrium conformations optimized by electronic structure methods, far different from the sequence-type and graph-type data. In this paper, we propose a novel approach called Uni-Mol+ to tackle this challenge. Uni-Mol+ first generates a raw 3D molecule conformation from inexpensive methods such as RDKit. Then, the raw conformation is iteratively updated to its target DFT equilibrium conformation using neural networks, and the learned conformation will be used to predict the QC properties. To effectively learn this update process towards the equilibrium conformation, we introduce a two-track Transformer model backbone and train it with the QC property prediction task. We also design a novel approach to guide the model's training process. Our extensive benchmarking results demonstrate that the proposed Uni-Mol+ significantly improves the accuracy of QC property prediction in various datasets. We have made the code and model publicly available at \url{https://github.com/dptech-corp/Uni-Mol}.
翻訳日:2023-07-10 15:35:43 公開日:2023-07-07
# イノベーションパラドックス:オリジナル性と創造的AIの約束を損なう概念空間の拡大

The Innovation Paradox: Concept Space Expansion with Diminishing Originality and the Promise of Creative AI ( http://arxiv.org/abs/2303.13300v2 )

ライセンス: Link先を確認
Serhad Sarica, Jianxi Luo(参考訳) イノベーションは、通常、既存の概念の再利用、再結合、合成によって引き起こされ、時間とともに概念空間が指数関数的に成長すると予想される。 しかし,特許文書から400万を超える概念を包含する包括的技術セマンティックネットワークであるTechNetの統計的分析により,総合的技術概念空間の指数関数的拡大というよりも,線形性を示す。 また、新たに作られた概念の独創性も著しく低下している。 これらの傾向は、人間の認知能力の制約が、成長を続ける先行技術の領域を超えて革新することに起因する可能性がある。 創造的な人工知能をイノベーションプロセスに統合することは、これらの制限を克服し、将来観察されるトレンドを変える可能性を秘めている。

Innovation, typically spurred by reusing, recombining, and synthesizing existing concepts, is expected to result in an exponential growth of the concept space over time. However, our statistical analysis of TechNet, which is a comprehensive technology semantic network encompassing over four million concepts derived from patent texts, reveals a linear rather than exponential expansion of the overall technological concept space. Moreover, there is a notable decline in the originality of newly created concepts. These trends can be attributed to the constraints of human cognitive abilities to innovate beyond an ever-growing space of prior art, among other factors. Integrating creative artificial intelligence into the innovation process holds the potential to overcome these limitations and alter the observed trends in the future.
翻訳日:2023-07-10 15:35:20 公開日:2023-07-07
# エルゴードのアルキメデスのダイマー

Ergodic Archimedean dimers ( http://arxiv.org/abs/2303.04817v2 )

ライセンス: Link先を確認
Henrik Schou R{\o}ising and Zhao Zhang(参考訳) 我々は,11個のアルキメデス格子の有限区間の完全マッチング,あるいは近接パック付きディマー被覆を研究し,任意の2つの完全マッチングが局所環交換運動の小さな集合を用いて互いに変換可能であることを示す構成的証明を与える。 この結果は、共鳴価結合基底状態、すなわち境界条件に適合する全ての二量体被覆の重ね合わせで量子二量体モデルを定式化する直接的な結果をもたらす。 合成アルキメデス格子の5つについて、エルゴード性に関して十分な項の厳密な必要を証明する翻訳的不変な参照構成で十分証明を補う。 2つの三部格子上の量子ダイマーモデルのフラストレーションフリー変形の例と考察を行った。

We study perfect matchings, or close-packed dimer coverings, of finite sections of the eleven Archimedean lattices and give a constructive proof showing that any two perfect matchings can be transformed into each other using small sets of local ring-exchange moves. This result has direct consequences for formulating quantum dimer models with a resonating valence bond ground state, i.e., a superposition of all dimer coverings compatible with the boundary conditions. On five of the composite Archimedean lattices we supplement the sufficiency proof with translationally invariant reference configurations that prove the strict necessity of the sufficient terms with respect to ergodicity. We provide examples of and discuss frustration-free deformations of the quantum dimer models on two tripartite lattices.
翻訳日:2023-07-10 15:35:05 公開日:2023-07-07
# Koopman Observablesとしての補助関数:動的システムのデータ駆動多項式最適化

Auxiliary Functions as Koopman Observables: Data-Driven Polynomial Optimization for Dynamical Systems ( http://arxiv.org/abs/2303.01483v2 )

ライセンス: Link先を確認
Jason J. Bramburger and Giovanni Fantuzzi(参考訳) 本稿では,明示的なモデル発見を必要としない動的システム解析のための柔軟なデータ駆動手法を提案する。 この手法は、データからクープマン演算子を近似する確立した手法に根ざし、数値的に解ける半定プログラムとして実装される。 さらに,本手法は決定的あるいは確率的プロセスによってデータが生成されるかどうかを知らないため,ユーザの事前調整は不要である。 厳密な収束の結果は、この方法の適用性を正当化すると同時に、文献全体から同様の結果を拡張および統一する。 リアプノフ関数の発見、エルゴード最適化の実行、および決定論的および確率的ダイナミクスのアトラクタ上の境界付き極値の例は、これらの収束結果を例示し、この手法の性能を示す。

We present a flexible data-driven method for dynamical system analysis that does not require explicit model discovery. The method is rooted in well-established techniques for approximating the Koopman operator from data and is implemented as a semidefinite program that can be solved numerically. Furthermore, the method is agnostic of whether data is generated through a deterministic or stochastic process, so its implementation requires no prior adjustments by the user to accommodate these different scenarios. Rigorous convergence results justify the applicability of the method, while also extending and uniting similar results from across the literature. Examples on discovering Lyapunov functions, performing ergodic optimization, and bounding extrema over attractors for both deterministic and stochastic dynamics exemplify these convergence results and demonstrate the performance of the method.
翻訳日:2023-07-10 15:34:52 公開日:2023-07-07
# 連続時間機能拡散プロセス

Continuous-Time Functional Diffusion Processes ( http://arxiv.org/abs/2303.00800v2 )

ライセンス: Link先を確認
Giulio Franzese, Giulio Corallo, Simone Rossi, Markus Heinonen, Maurizio Filippone, Pietro Michiardi(参考訳) 得点に基づく拡散モデルを無限次元関数空間に一般化する関数拡散過程(fdps)を導入する。 fdpは、前方と後方のダイナミクスを記述するための新しい数学的枠組みと、実践的なトレーニング目標を導出するためのいくつかの拡張を必要とする。 これには、エルボの計算を可能にするためのギルサノフの定理の無限次元バージョンや、点の可算集合における関数評価が無限次元関数と同値であることを保証するためのサンプリング定理が含まれる。 我々は、fdpsを使って関数空間における新しい種類の生成モデルを構築し、特殊なネットワークアーキテクチャを必要としず、あらゆる種類の連続データを扱うことができる。 実データを用いた結果,FDP は既存の拡散モデルよりも桁違いのパラメータを持つ単純な MLP アーキテクチャを用いて,高品質な画像生成を実現することがわかった。

We introduce Functional Diffusion Processes (FDPs), which generalize score-based diffusion models to infinite-dimensional function spaces. FDPs require a new mathematical framework to describe the forward and backward dynamics, and several extensions to derive practical training objectives. These include infinite-dimensional versions of Girsanov theorem, in order to be able to compute an ELBO, and of the sampling theorem, in order to guarantee that functional evaluations in a countable set of points are equivalent to infinite-dimensional functions. We use FDPs to build a new breed of generative models in function spaces, which do not require specialized network architectures, and that can work with any kind of continuous data. Our results on real data show that FDPs achieve high-quality image generation, using a simple MLP architecture with orders of magnitude fewer parameters than existing diffusion models.
翻訳日:2023-07-10 15:34:36 公開日:2023-07-07
# シグモノイドネットワークのための複合最適化アルゴリズム

Composite Optimization Algorithms for Sigmoid Networks ( http://arxiv.org/abs/2303.00589v3 )

ライセンス: Link先を確認
Huixiong Chen, Qi Ye(参考訳) 本稿では,合成最適化アルゴリズムを用いてシグモイドネットワークを解く。 我々は,sgmoidネットワークを凸合成最適化に等価に転送し,線形近位アルゴリズムと乗算器の交互方向法に基づく合成最適化アルゴリズムを提案する。 弱鋭極小と正則性条件の仮定の下では、非凸問題や非滑らか問題の場合であっても、アルゴリズムは対象関数のグローバル最適解に収束することが保証される。 さらに、収束結果をトレーニングデータの量に直接関連付けることができ、シグモノイドネットワークのサイズを設定するための一般的なガイドを提供する。 フランクの関数フィッティングと手書き数字認識に関する数値実験により,提案アルゴリズムは良好かつ堅牢に機能することを示した。

In this paper, we use composite optimization algorithms to solve sigmoid networks. We equivalently transfer the sigmoid networks to a convex composite optimization and propose the composite optimization algorithms based on the linearized proximal algorithms and the alternating direction method of multipliers. Under the assumptions of the weak sharp minima and the regularity condition, the algorithm is guaranteed to converge to a globally optimal solution of the objective function even in the case of non-convex and non-smooth problems. Furthermore, the convergence results can be directly related to the amount of training data and provide a general guide for setting the size of sigmoid networks. Numerical experiments on Franke's function fitting and handwritten digit recognition show that the proposed algorithms perform satisfactorily and robustly.
翻訳日:2023-07-10 15:34:21 公開日:2023-07-07
# マルチモーダル歩行者検出におけるモダリティ不均衡の再検討

Revisiting Modality Imbalance In Multimodal Pedestrian Detection ( http://arxiv.org/abs/2302.12589v2 )

ライセンス: Link先を確認
Arindam Das, Sudip Das, Ganesh Sistu, Jonathan Horgan, Ujjwal Bhattacharya, Edward Jones, Martin Glavin, and Ciar\'an Eising(参考訳) 特に歩行者検出のためのマルチモーダル学習は、最近、低照度、夜間、悪天候といったいくつかの重要な自動運転シナリオで等しく機能する能力によって強調されている。 しかし、ほとんどの場合、トレーニング分布は、ネットワークを一つのモダリティに偏らせるような、ある特定の入力の寄与を主に強調する。 したがって、そのようなモデルの一般化は、トレーニング中の非支配的な入力モダリティが推論過程にさらに寄与する可能性がある重要な問題となる。 本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モダリティ間の相違を解消する。 具体的には,不均衡問題除去と呼ばれるマルチモーダル分布を抽出する訓練において,特徴抽出器の双方が同等に重要であることを考慮し,特徴融合法をより堅牢にすることを支援する。 さらに,出力ストリームの分離概念は,空間的センシティブな情報を相互に共有することで検出作業を支援する。 KAISTおよびUTOkyoデータセットにおける提案手法の広汎な実験により,それぞれの最先端性能の改善が示された。

Multimodal learning, particularly for pedestrian detection, has recently received emphasis due to its capability to function equally well in several critical autonomous driving scenarios such as low-light, night-time, and adverse weather conditions. However, in most cases, the training distribution largely emphasizes the contribution of one specific input that makes the network biased towards one modality. Hence, the generalization of such models becomes a significant problem where the non-dominant input modality during training could be contributing more to the course of inference. Here, we introduce a novel training setup with regularizer in the multimodal architecture to resolve the problem of this disparity between the modalities. Specifically, our regularizer term helps to make the feature fusion method more robust by considering both the feature extractors equivalently important during the training to extract the multimodal distribution which is referred to as removing the imbalance problem. Furthermore, our decoupling concept of output stream helps the detection task by sharing the spatial sensitive information mutually. Extensive experiments of the proposed method on KAIST and UTokyo datasets shows improvement of the respective state-of-the-art performance.
翻訳日:2023-07-10 15:34:10 公開日:2023-07-07
# ising結合量子ビットのグローバルトランスバース制御によるディッケ状態形成

Dicke-state preparation through global transverse control of Ising-coupled qubits ( http://arxiv.org/abs/2302.12483v3 )

ライセンス: Link先を確認
Vladimir M. Stojanovic, Julian K. Nauth(参考訳) 全対全イジング型量子ビット相互作用を持つ3量子ビット系において、2励起ディッケ状態 $|d^{3}_{2}\rangle$ を工学的に設計する問題を考える。 システムの初期状態として$|000\rangle$が採用される想定状態準備スキームの理論的基礎は、キュービットの置換に関して不変な初期状態と最終状態の任意の選択に対して、このシステムの状態対状態制御可能性を保証するリー代数的結果によって与えられる。 この方式は、大域量子ビット回転に相当する3つの瞬時制御パルスと、連続的な制御パルス間の有限期間の2つのIsing-Interactionパルスを含むパルスシーケンスの形で想定される。 このパルス列の設計(トータル持続時間は$t\approx 0.95\:\hbar/j$であり、ここで$j$はイジング結合強度である)は3量子ヒルベルト空間の4次元置換不変部分空間である対称セクタの概念に大きく依存する。 そこで本研究では,体系的誤りに対するロバスト性,すなわち基礎となるパルスシーケンスを特徴付ける8つのパラメータの最適値からの逸脱を詳細に数値解析することにより,提案手法の実現可能性を示す。 最後に、提案するスキームが、n \ge 4$ qubitsのシステムにおける工学的ディッケ状態に対してどのように一般化できるかについて議論する。 図解のために、4量子系における二励起ディッケ状態 ||d^{4}_{2}\rangle$ の合成について述べる。

We consider the problem of engineering the two-excitation Dicke state $|D^{3}_{2}\rangle$ in a three-qubit system with all-to-all Ising-type qubit-qubit interaction, which is also subject to global transverse (Zeeman-type) control fields. The theoretical underpinning for our envisioned state-preparation scheme, in which $|000\rangle$ is adopted as the initial state of the system, is provided by a Lie-algebraic result that guarantees state-to-state controllability of this system for an arbitrary choice of initial- and final states that are invariant with respect to permutations of qubits. This scheme is envisaged in the form of a pulse sequence that involves three instantaneous control pulses, which are equivalent to global qubit rotations, and two Ising-interaction pulses of finite durations between consecutive control pulses. The design of this pulse sequence (whose total duration is $T\approx 0.95\:\hbar/J$, where $J$ is the Ising-coupling strength) leans heavily on the concept of the symmetric sector, a four-dimensional, permutationally-invariant subspace of the three-qubit Hilbert space. We demonstrate the feasibility of the proposed state-preparation scheme by carrying out a detailed numerical analysis of its robustness to systematic errors, i.e. deviations from the optimal values of the eight parameters that characterize the underlying pulse sequence. Finally, we discuss how our proposed scheme can be generalized for engineering Dicke states in systems with $N \ge 4$ qubits. For the sake of illustration, we describe the preparation of the two-excitation Dicke state $|D^{4}_{2}\rangle$ in a four-qubit system.
翻訳日:2023-07-10 15:33:53 公開日:2023-07-07
# 量子仮想プライベートネットワークにおける資源管理

Resource Management in Quantum Virtual Private Networks ( http://arxiv.org/abs/2305.03231v3 )

ライセンス: Link先を確認
Shahrooz Pouryousef, Nitish K. Panigrahy, Monimoy Deb Purkayastha, Sabyasachi Mukhopadhyay, Gert Grammel, Domenico Di Mola, and Don Towsley(参考訳) 本研究では,複数の組織による量子絡み合い分布の基盤となる量子ネットワークの共有を含む,量子仮想プライベートネットワーク(qvpn)のためのリソース管理フレームワークを開発した。 提案手法では,集中型最適化フレームワークを用いて,qVPNにおけるリンク絡みリソース割り当ての問題を解決する。 我々は,qvpn最適化のための遺伝的および学習ベースのアルゴリズムの可能性に関する洞察を提供し,多組織環境における効率的かつ信頼性の高い量子通信の実現における経路選択と蒸留の重要性を強調する。 遺伝的アルゴリズムと学習に基づくアルゴリズムは,従来の欲望に基づくヒューリスティックと比べ,よりよい経路を識別できることを示した。 さらに、これらのアルゴリズムは、エンドユーザーに必要なサービス品質を確保しつつ、ゲートや量子チャネルの潜在的なノイズを軽減する優れた蒸留戦略を効果的に特定することができる。

In this study, we develop a resource management framework for a quantum virtual private network (qVPN), which involves the sharing of an underlying public quantum network by multiple organizations for quantum entanglement distribution. Our approach involves resolving the issue of link entanglement resource allocation in a qVPN by utilizing a centralized optimization framework. We provide insights into the potential of genetic and learning-based algorithms for optimizing qVPNs, and emphasize the significance of path selection and distillation in enabling efficient and reliable quantum communication in multi-organizational settings. Our findings demonstrate that compared to traditional greedy based heuristics, genetic and learning-based algorithms can identify better paths. Furthermore, these algorithms can effectively identify good distillation strategies to mitigate potential noises in gates and quantum channels, while ensuring the necessary quality of service for end users.
翻訳日:2023-07-10 15:24:56 公開日:2023-07-07
# SocNavGym:ソーシャルナビゲーションのための強化学習ジム

SocNavGym: A Reinforcement Learning Gym for Social Navigation ( http://arxiv.org/abs/2304.14102v2 )

ライセンス: Link先を確認
Aditya Kapoor, Sushant Swamy, Luis Manso and Pilar Bachiller(参考訳) 自律ロボットは、人口の多い環境で移動しながら社会に適応することが不可欠である。 機械学習、特にDeep Reinforcement Learningは、最近、ソーシャルナビゲーションの分野で大きな注目を集めている。 これは部分的には、コードの複雑さや処理される変数の数という観点で、人間の制限に縛られないポリシーに起因する可能性がある。 残念ながら、安全保証の欠如とDRLアルゴリズムによる大量のデータ要求により、現実世界での学習は不可能である。 このギャップを埋めるために、シミュレーション環境が頻繁に使用される。 ソーシャルナビゲーションのための高度なシミュレーション環境であるSocNavGymを提案し、多様なソーシャルナビゲーションシナリオを生成し、インテリジェントなソーシャルエージェントの開発を容易にする。 SocNavGymは軽量で、高速で使いやすく、さまざまなタイプのソーシャルナビゲーションシナリオを生成するために努力的に設定できる。 また、さまざまな手作りおよびデータ駆動型社会報酬信号と連携し、ベンチマークエージェントのパフォーマンスに様々な評価指標を与えるように設定することもできる。 また,SocNavGymを用いてDueling-DQNエージェントを用いてソーシャルナビゲーションポリシーを学習するケーススタディも提供する。 結果は、SocNavGymがエージェントをスクラッチからトレーニングして、シンプルで複雑な社会的シナリオでナビゲートできることを示す。 また,データ駆動型報酬関数を用いて訓練したエージェントは,ヒューリスティック型報酬関数と比較して,より高度な社会コンプライアンスを示すことを示した。

It is essential for autonomous robots to be socially compliant while navigating in human-populated environments. Machine Learning and, especially, Deep Reinforcement Learning have recently gained considerable traction in the field of Social Navigation. This can be partially attributed to the resulting policies not being bound by human limitations in terms of code complexity or the number of variables that are handled. Unfortunately, the lack of safety guarantees and the large data requirements by DRL algorithms make learning in the real world unfeasible. To bridge this gap, simulation environments are frequently used. We propose SocNavGym, an advanced simulation environment for social navigation that can generate a wide variety of social navigation scenarios and facilitates the development of intelligent social agents. SocNavGym is light-weight, fast, easy-to-use, and can be effortlessly configured to generate different types of social navigation scenarios. It can also be configured to work with different hand-crafted and data-driven social reward signals and to yield a variety of evaluation metrics to benchmark agents' performance. Further, we also provide a case study where a Dueling-DQN agent is trained to learn social-navigation policies using SocNavGym. The results provides evidence that SocNavGym can be used to train an agent from scratch to navigate in simple as well as complex social scenarios. Our experiments also show that the agents trained using the data-driven reward function displays more advanced social compliance in comparison to the heuristic-based reward function.
翻訳日:2023-07-10 15:24:42 公開日:2023-07-07
# ロバストなチケットはよりよく転送できる:転送学習で転送可能なサブネットワークを描く

Robust Tickets Can Transfer Better: Drawing More Transferable Subnetworks in Transfer Learning ( http://arxiv.org/abs/2304.11834v2 )

ライセンス: Link先を確認
Yonggan Fu, Ye Yuan, Shang Wu, Jiayi Yuan, Yingyan Lin(参考訳) Transfer Learningは、ソースタスクとリッチデータで事前訓練されたディープニューラルネットワーク(DNN)の機能表現を活用して、下流タスクの効果的な微調整を可能にする。 しかしながら、事前訓練されたモデルは、一般化可能な表現を提供するために、しばしば禁止的に大きい。 このギャップを埋めるために,我々は,ロバストチケットがよりよく転送可能であること,すなわち,適切に誘導された敵対的ロバスト性で描画されたサブネットワークがバニラ抽選チケットサブネットワークよりも転送性が向上することを活用する,新しいトランスファー学習パイプラインを提案する。 大規模な実験とアブレーション研究により,提案したトランスファー学習パイプラインは,多様な下流タスクとスパーシティパターンの両方にわたる精度・スパーシティトレードオフを達成でき,さらに抽選チケット仮説をさらに強化できることを確認した。

Transfer learning leverages feature representations of deep neural networks (DNNs) pretrained on source tasks with rich data to empower effective finetuning on downstream tasks. However, the pretrained models are often prohibitively large for delivering generalizable representations, which limits their deployment on edge devices with constrained resources. To close this gap, we propose a new transfer learning pipeline, which leverages our finding that robust tickets can transfer better, i.e., subnetworks drawn with properly induced adversarial robustness can win better transferability over vanilla lottery ticket subnetworks. Extensive experiments and ablation studies validate that our proposed transfer learning pipeline can achieve enhanced accuracy-sparsity trade-offs across both diverse downstream tasks and sparsity patterns, further enriching the lottery ticket hypothesis.
翻訳日:2023-07-10 15:24:18 公開日:2023-07-07
# 人間の手動デモ映像からの自動インタラクションとアクティビティ認識と異常検出への応用

Automatic Interaction and Activity Recognition from Videos of Human Manual Demonstrations with Application to Anomaly Detection ( http://arxiv.org/abs/2304.09789v2 )

ライセンス: Link先を確認
Elena Merlo (1, 2), Marta Lagomarsino (1, 3), Edoardo Lamon (1, 4), Arash Ajoudani (1) ((1) Human-Robot Interfaces and Interaction Laboratory, Istituto Italiano di Tecnologia, Genoa, Italy, (2) Dept. of Informatics, Bioengineering, Robotics, and Systems Engineering, University of Genoa, Genoa, Italy, (3) Dept. of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy, (4) Dept. of Information Engineering and Computer Science, University of Trento, Trento, Italy)(参考訳) 本稿では,手動作業のビデオデモにおけるインタラクションと活動の両方を認識するために,物体と手動の時空間関係を記述する新しい手法を提案する。 このアプローチはシーングラフを利用して、動きパターンとコンテキストを同時にエンコードしながら、画像シーケンスから重要なインタラクション特徴を抽出する。 さらに、同様のイベントをグループ化し、監視されたアクティビティが正しく実行されるかどうかを検出するイベントベースの自動ビデオセグメンテーションとクラスタリングを導入する。 本手法の有効性は,2つの多目的実験において実証され,活動の事前知識を必要とせず,対象物と対象物との相互作用を認識・クラスタリングする能力と,異なる被験者が行う同一の活動とが一致した。

This paper presents a new method to describe spatio-temporal relations between objects and hands, to recognize both interactions and activities within video demonstrations of manual tasks. The approach exploits Scene Graphs to extract key interaction features from image sequences while simultaneously encoding motion patterns and context. Additionally, the method introduces event-based automatic video segmentation and clustering, which allow for the grouping of similar events and detect if a monitored activity is executed correctly. The effectiveness of the approach was demonstrated in two multi-subject experiments, showing the ability to recognize and cluster hand-object and object-object interactions without prior knowledge of the activity, as well as matching the same activity performed by different subjects.
翻訳日:2023-07-10 15:23:57 公開日:2023-07-07
# 無限遠の1原子または2原子配列に対する光カップリングの強度効果

Intensity effects of light coupling to one- or two-atom arrays of infinite extent ( http://arxiv.org/abs/2304.09740v3 )

ライセンス: Link先を確認
F. Robicheaux and Deepak A. Suresh(参考訳) ほぼ共鳴光で照らされた無限原子配列の挙動を理論的・計算的に研究する。 我々は高次平均場方程式を用いて、単一アレイおよび一対のアレイからの光子のコヒーレント反射と透過と非コヒーレント散乱をラビ周波数の異なる値の復調関数として研究する。 単一アレイの場合、光強度の増加がこれらの異なるプロセスの確率をいかに変化させるかを示す。 例えば、非コヒーレント散乱確率は、最初は高い値で減少する前に光強度によって増加する。 ほぼ共鳴分離時の1対の並列アレイの場合、光強度の増加による影響は驚くほど低い強度の光で明らかになる。 さらに、これらの無限配列に対して、有限個の方程式で評価できる表現を与える高次平均場方程式を導出する。

We theoretically and computationally investigate the behavior of infinite atom arrays when illuminated by nearly resonant light. We use higher order mean field equations to investigate the coherent reflection and transmission and incoherent scattering of photons from a single array and from a pair of arrays as a function of detuning for different values of the Rabi frequency. For the single array case, we show how increasing the light intensity changes the probabilities for these different processes. For example, the incoherent scattering probability initially increases with light intensity before decreasing at higher values. For a pair of parallel arrays at near resonant separation, the effects from increasing light intensity can become apparent with incredibly low intensity light. In addition, we derive the higher order mean field equations for these infinite arrays giving a representation that can be evaluated with a finite number of equations.
翻訳日:2023-07-10 15:23:42 公開日:2023-07-07
# クリーン・アタックシナリオにおけるフェデレーション学習に基づく多言語絵文字予測

Federated Learning Based Multilingual Emoji Prediction In Clean and Attack Scenarios ( http://arxiv.org/abs/2304.01005v3 )

ライセンス: Link先を確認
Karim Gamal, Ahmed Gaber and Hossam Amer(参考訳) 連合学習は、分散的でプライベートな設計のため、機械学習コミュニティで成長している分野である。 フェデレート学習におけるモデルトレーニングは、プライバシを維持しながら多くのクライアントデータにアクセスできるようにする複数のクライアントに分散される。 次にサーバは、これらの複数のクライアントで行ったトレーニングをデータにアクセスせずに集約する。これは、あらゆるソーシャルメディアサービスやインスタントメッセージングプラットフォームで広く使用されている絵文字で、ユーザの感情を表現する。 本稿では,クリーンシナリオとアタックシナリオの両方において,連合学習に基づく多言語絵文字予測を提案する。 絵文字予測データはTwitterとSemEvalの絵文字データセットから収集された。 このデータは、すべてのクライアントにおけるクリーンデータの仮定や、一部のクライアントにおけるラベルフリップ攻撃による有毒データの仮定を含む、疎活性化トランスフォーマーモデルサイズのトレーニングと評価に使用される。 これらのモデルの実験結果から,クリーンあるいはアタックのシナリオにおけるフェデレーション学習は,異なるデータソースと分布下で,多言語間絵文字予測における集中型学習と類似していることが示された。 トレーニングされたトランスフォーマーは、プライバシーに加えて、フェデレーション学習の分散メリットに加えて、セメバル絵文字データセットの他のテクニックよりもパフォーマンスが優れています。

Federated learning is a growing field in the machine learning community due to its decentralized and private design. Model training in federated learning is distributed over multiple clients giving access to lots of client data while maintaining privacy. Then, a server aggregates the training done on these multiple clients without access to their data, which could be emojis widely used in any social media service and instant messaging platforms to express users' sentiments. This paper proposes federated learning-based multilingual emoji prediction in both clean and attack scenarios. Emoji prediction data have been crawled from both Twitter and SemEval emoji datasets. This data is used to train and evaluate different transformer model sizes including a sparsely activated transformer with either the assumption of clean data in all clients or poisoned data via label flipping attack in some clients. Experimental results on these models show that federated learning in either clean or attacked scenarios performs similarly to centralized training in multilingual emoji prediction on seen and unseen languages under different data sources and distributions. Our trained transformers perform better than other techniques on the SemEval emoji dataset in addition to the privacy as well as distributed benefits of federated learning.
翻訳日:2023-07-10 15:22:46 公開日:2023-07-07
# 常時画像生成のためのネスト拡散過程

Nested Diffusion Processes for Anytime Image Generation ( http://arxiv.org/abs/2305.19066v2 )

ライセンス: Link先を確認
Noam Elata, Bahjat Kawar, Tomer Michaeli, Michael Elad(参考訳) 拡散モデルは、画像生成における最先端のモデルであり、生成プロセスを多くの細かなデノイジングステップに分解することで高品質な画像を合成する。 優れた性能にもかかわらず、拡散モデルは計算コストが高く、多くの神経機能評価(NFE)を必要とする。 本研究では,完了前に任意のタイミングで停止した場合に実行可能画像を生成する,任意の時間拡散に基づく手法を提案する。 既存の事前学習拡散モデルを用いて、生成スキームを2つのネスト拡散過程として再構成し、生成した画像の高速反復精錬を可能にする。 ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルを大きく上回る一方で,最終的な生成結果と同等であることを示す。 我々は,Nested Diffusionの適用性について,逆問題の解決や,サンプリングプロセス全体を通じてユーザの介入を可能とすることで,テキストベースの迅速なコンテンツ作成など,いくつかの設定で説明する。

Diffusion models are the current state-of-the-art in image generation, synthesizing high-quality images by breaking down the generation process into many fine-grained denoising steps. Despite their good performance, diffusion models are computationally expensive, requiring many neural function evaluations (NFEs). In this work, we propose an anytime diffusion-based method that can generate viable images when stopped at arbitrary times before completion. Using existing pretrained diffusion models, we show that the generation scheme can be recomposed as two nested diffusion processes, enabling fast iterative refinement of a generated image. In experiments on ImageNet and Stable Diffusion-based text-to-image generation, we show, both qualitatively and quantitatively, that our method's intermediate generation quality greatly exceeds that of the original diffusion model, while the final generation result remains comparable. We illustrate the applicability of Nested Diffusion in several settings, including for solving inverse problems, and for rapid text-based content creation by allowing user intervention throughout the sampling process.
翻訳日:2023-07-10 15:17:04 公開日:2023-07-07
# BigTranslate: 100言語を超える多言語翻訳機能を備えた大規模言語モデルの拡張

BigTranslate: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages ( http://arxiv.org/abs/2305.18098v2 )

ライセンス: Link先を確認
Wen Yang, Chong Li, Jiajun Zhang, Chengqing Zong(参考訳) 大規模言語モデル(LLM)は、様々な自然言語間で有望な翻訳性能を示す。 しかし、BLOOM や LLaMA のようなオープンソース言語の多くは英語に支配的であり、数十の自然言語しかサポートしていないため、言語翻訳における LLM の可能性はあまり調査されていない。 本研究では,20言語のみをカバーするLLaMAに適応し,100言語以上で多言語翻訳機能を備えたBigTranslateを提案する。 BigTranslateはLLaMA-13B上に構築されており、3つのステップで最適化されている。 まず,中国一言語データを用いたLLaMAのトレーニングを継続する。 第2に,102の自然言語をカバーする大規模並列データセットによるモデルのトレーニングを継続する。 第3に、多言語翻訳命令で基礎モデルをチューニングし、BigTranslateモデルに導いた。 多言語翻訳の予備実験では、BigTranslateは多くの言語でChatGPTとGoogle Translateと互換性があり、8つの言語ペアでChatGPTを上回ります。 われわれはBigTranslateモデルをリリースし、研究の進展を期待している。

Large language models (LLMs) demonstrate promising translation performance among various natural languages. However, many LLMs especially the open-sourced ones, such as BLOOM and LLaMA, are English-dominant and support only dozens of natural languages, making the potential of LLMs on language translation less explored. In this work, we present BigTranslate which adapts LLaMA that covers only 20 languages and enhances it with multilingual translation capability on more than 100 languages. BigTranslate is built upon LLaMA-13B and it is optimized in three steps. First, we continue training LLaMA with massive Chinese monolingual data. Second, we continue training the model with a large-scale parallel dataset that covers 102 natural languages. Third, we instruct-tune the foundation model with multilingual translation instructions, leading to our BigTranslate model. The preliminary experiments on multilingual translation show that BigTranslate performs comparably with ChatGPT and Google Translate in many languages and even outperforms ChatGPT in 8 language pairs. We release the BigTranslate model and hope it can advance the research progress.
翻訳日:2023-07-10 15:16:44 公開日:2023-07-07
# 言語モデルは実践的話者の境界である:ベイズ的認知モデルの観点からのRLHFを理解する

Language Models are Bounded Pragmatic Speakers: Understanding RLHF from a Bayesian Cognitive Modeling Perspective ( http://arxiv.org/abs/2305.17760v4 )

ライセンス: Link先を確認
Khanh Nguyen(参考訳) 言語モデルはどのように考えるのか? 本稿では,言語モデルの異なるバリエーションの操作を特徴付ける有界プラガマ話者と呼ばれる確率論的認知モデルを定式化する。 具体的には、人間のフィードバックから強化学習を施した大規模言語モデル(Ouyang et al., 2022)が、心理学者が人間に帰属する高速・低速モデル(Kahneman, 2011)と概念的に類似した思考モデルであることを示す。 本稿では,人間フィードバックからの強化学習の限界を思考の素早いモデルとして議論し,この枠組みを拡張するための道筋を提案する。 本研究は,言語モデルの理解,評価,発展に関する洞察を得るために,認知的確率的モデリングアプローチを採用することの価値を強調する。

How do language models "think"? This paper formulates a probabilistic cognitive model called the bounded pragmatic speaker, which can characterize the operation of different variations of language models. Specifically, we demonstrate that large language models fine-tuned with reinforcement learning from human feedback (Ouyang et al., 2022) embody a model of thought that conceptually resembles a fast-and-slow model (Kahneman, 2011), which psychologists have attributed to humans. We discuss the limitations of reinforcement learning from human feedback as a fast-and-slow model of thought and propose avenues for expanding this framework. In essence, our research highlights the value of adopting a cognitive probabilistic modeling approach to gain insights into the comprehension, evaluation, and advancement of language models.
翻訳日:2023-07-10 15:16:25 公開日:2023-07-07
# 考えるより弱く:弱く監督された学習を批判的に見る

Weaker Than You Think: A Critical Look at Weakly Supervised Learning ( http://arxiv.org/abs/2305.17442v2 )

ライセンス: Link先を確認
Dawei Zhu, Xiaoyu Shen, Marius Mosbach, Andreas Stephan, Dietrich Klakow(参考訳) 弱い教師付き学習は、低リソース環境で機械学習モデルをトレーニングするための一般的なアプローチである。 高品質で高価なヒューマンアノテーションを要求する代わりに、さまざまな弱いソースから得られたノイズの多いアノテーションを持つトレーニングモデルを可能にする。 近年,ラベルノイズ下でのロバストトレーニングに多くの高度な手法が提案されている。 本稿では、これらのアプローチのセットアップを再検討し、これらのアプローチがもたらす利点が大幅に過大評価されていることを明らかにする。 具体的には、既存の弱い教師付き学習アプローチの成功は、クリーンな検証サンプルの可用性に大きく依存していることが分かりました。 トレーニングでこれらのクリーンなラベルを使用した後、これらの高度なアプローチを使用する利点は、ほとんど失われる。 利用可能なクリーンデータのサイズをクラス毎にわずか5つのサンプルに縮小しても、これは事実であり続けます。 弱教師付き学習の真の価値を理解するため,多様なNLPデータセットとタスクを徹底的に分析し,弱教師付き学習がなぜ機能するのかを確かめる。 本研究の成果を踏まえ,今後の研究を推奨する。

Weakly supervised learning is a popular approach for training machine learning models in low-resource settings. Instead of requesting high-quality yet costly human annotations, it allows training models with noisy annotations obtained from various weak sources. Recently, many sophisticated approaches have been proposed for robust training under label noise, reporting impressive results. In this paper, we revisit the setup of these approaches and find that the benefits brought by these approaches are significantly overestimated. Specifically, we find that the success of existing weakly supervised learning approaches heavily relies on the availability of clean validation samples which, as we show, can be leveraged much more efficiently by simply training on them. After using these clean labels in training, the advantages of using these sophisticated approaches are mostly wiped out. This remains true even when reducing the size of the available clean data to just five samples per class, making these approaches impractical. To understand the true value of weakly supervised learning, we thoroughly analyze diverse NLP datasets and tasks to ascertain when and why weakly supervised approaches work. Based on our findings, we provide recommendations for future research.
翻訳日:2023-07-10 15:16:00 公開日:2023-07-07
# 未知言語対におけるコードスイッチトテキスト合成

Code-Switched Text Synthesis in Unseen Language Pairs ( http://arxiv.org/abs/2305.16724v2 )

ライセンス: Link先を確認
I-Hung Hsu, Avik Ray, Shubham Garg, Nanyun Peng, Jing Huang(参考訳) コード切り換えのための既存のテキスト合成の取り組みは、主に対象言語ペアのコード切り換えテキストのトレーニングを必要とし、コード切り換えデータがない場合へのモデルのデプロイを制限する。 本研究では,学習データに欠落している言語ペアに対して,コード切り換えテキストを合成する問題について検討する。 GLOSSは、事前訓練された多言語機械翻訳モデル(PMMTM)の上に構築されたモデルであり、追加のコードスイッチングモジュールを備える。 このモジュールは、アダプタまたは追加プレフィックスのいずれかで、トレーニング中にコードスイッチングされたデータからコードスイッチングパターンを学習し、GLOSSの主要なコンポーネントであるPMMTMは凍結される。 コードスイッチングモジュールのみを調整する設計は、コードスイッチングのための制約付きトレーニングデータへの過度な適合を防止する。 したがって、GLOSSは、言語ペアの幅広い範囲にわたって、コード変更されたテキストを一般化し、合成する能力を示す。 さらに,GLOSSの信頼性を高めるために,対象言語対に対する自己学習アルゴリズムを開発した。 4つの言語ペアの自動評価は、GLOSSが少なくとも55%の相対BLEUとMETEORのスコアを、強いベースラインに比べて改善していることを示している。 2つの言語ペアに対する人間の評価は、GLOSSの成功をさらに検証する。

Existing efforts on text synthesis for code-switching mostly require training on code-switched texts in the target language pairs, limiting the deployment of the models to cases lacking code-switched data. In this work, we study the problem of synthesizing code-switched texts for language pairs absent from the training data. We introduce GLOSS, a model built on top of a pre-trained multilingual machine translation model (PMMTM) with an additional code-switching module. This module, either an adapter or extra prefixes, learns code-switching patterns from code-switched data during training, while the primary component of GLOSS, i.e., the PMMTM, is frozen. The design of only adjusting the code-switching module prevents our model from overfitting to the constrained training data for code-switching. Hence, GLOSS exhibits the ability to generalize and synthesize code-switched texts across a broader spectrum of language pairs. Additionally, we develop a self-training algorithm on target language pairs further to enhance the reliability of GLOSS. Automatic evaluations on four language pairs show that GLOSS achieves at least 55% relative BLEU and METEOR scores improvements compared to strong baselines. Human evaluations on two language pairs further validate the success of GLOSS.
翻訳日:2023-07-10 15:15:32 公開日:2023-07-07
# ChatCAD+:LLMを用いたユニバーサルで信頼性の高いインタラクティブCADを目指して

ChatCAD+: Towards a Universal and Reliable Interactive CAD using LLMs ( http://arxiv.org/abs/2305.15964v4 )

ライセンス: Link先を確認
Zihao Zhao, Sheng Wang, Jinchen Gu, Yitao Zhu, Lanzhuju Mei, Zixu Zhuang, Zhiming Cui, Qian Wang, Dinggang Shen(参考訳) コンピュータ支援診断(cad)と大規模言語モデル(llms)の統合は臨床応用、特に仮想家族医師や臨床助手の役割において大きな可能性を秘めている。 しかし、この分野での現在の研究は、特に適用可能な画像領域の範囲の制限と、信頼性の低い医療アドバイスの提供に悩まされている。 これにより、全体的な処理能力が制限される。 さらに、LSMと放射線技師の筆記スタイルのミスマッチは、その実用性を損なう。 これらの課題に対処するために,汎用的で信頼性の高いChatCAD+を導入する。 多様なドメインからの医療画像を処理し、信頼できる医療アドバイスを提供するために、信頼できる医療ウェブサイトからの最新の情報を活用することができる。 さらに, テンプレート検索システムを導入し, レポート生成性能を向上させる。 このアプローチは、人間専門家の専門知識との一貫性を高める。 ソースコードはhttps://github.com/zhaozh10/ChatCADで入手できる。

The integration of Computer-Assisted Diagnosis (CAD) with Large Language Models (LLMs) holds great potential in clinical applications, specifically in the roles of virtual family doctors and clinic assistants. However, current works in this field are plagued by limitations, specifically a restricted scope of applicable image domains and the provision of unreliable medical advice. This restricts their overall processing capabilities. Furthermore, the mismatch in writing style between LLMs and radiologists undermines their practical usefulness. To tackle these challenges, we introduce ChatCAD+, which is designed to be universal and reliable. It is capable of handling medical images from diverse domains and leveraging up-to-date information from reputable medical websites to provide reliable medical advice. Additionally, it incorporates a template retrieval system that improves report generation performance via exemplar reports. This approach ensures greater consistency with the expertise of human professionals. The source code is available at https://github.com/zhaozh10/ChatCAD.
翻訳日:2023-07-10 15:15:09 公開日:2023-07-07
# 戦略カードゲームAIコンペティションの要約

Summarizing Strategy Card Game AI Competition ( http://arxiv.org/abs/2305.11814v2 )

ライセンス: Link先を確認
Jakub Kowalski, Rados{\l}aw Miernik(参考訳) 本稿では5年間のAIコンペティションを,研究とアルゴリズム開発を支援するために考案された,小さな集合カードゲーム(CCG)であるLOCM(Legends of Code and Magic)に基づいて締めくくる。 このゲームは、codingameプラットフォームでのコミュニティコンテストや、ieee congress on evolutionary computationやieee conference on gamesなど、いくつかのイベントで使用された。 LOCMはゲームツリー探索アルゴリズム、ニューラルネットワーク、評価関数、CGデッキ構築などの分野に関する多くの出版物で使用されている。 本稿では,ゲームルール,組織的コンペの歴史,参加者とそのアプローチの一覧,研究コミュニティのためのAIコンペティションの組織化に関する一般的なアドバイスを紹介する。 COG 2022エディションは最後のバージョンと発表されたが、ゲームは引き続き利用可能であり、オンラインのリーダーボードアリーナでプレイすることができる。

This paper concludes five years of AI competitions based on Legends of Code and Magic (LOCM), a small Collectible Card Game (CCG), designed with the goal of supporting research and algorithm development. The game was used in a number of events, including Community Contests on the CodinGame platform, and Strategy Card Game AI Competition at the IEEE Congress on Evolutionary Computation and IEEE Conference on Games. LOCM has been used in a number of publications related to areas such as game tree search algorithms, neural networks, evaluation functions, and CCG deckbuilding. We present the rules of the game, the history of organized competitions, and a listing of the participant and their approaches, as well as some general advice on organizing AI competitions for the research community. Although the COG 2022 edition was announced to be the last one, the game remains available and can be played using an online leaderboard arena.
翻訳日:2023-07-10 15:14:53 公開日:2023-07-07
# 無線ネットワーク上の分散学習 : ランダムアクセスによる放送の効果

Decentralized Learning over Wireless Networks: The Effect of Broadcast with Random Access ( http://arxiv.org/abs/2305.07368v2 )

ライセンス: Link先を確認
Zheng Chen, Martin Dahl, and Erik G. Larsson(参考訳) 本研究では、分散データ上での分散確率勾配勾配(D-SGD)を用いて、共有機械学習モデルを訓練する複数のエージェントを含む分散学習のコミュニケーション側面に焦点を当てる。 特に,無線チャネルの放送特性と通信トポロジーにおけるリンクダイナミクスを考慮して,d-sgdの収束性能に及ぼすブロードキャスト伝送と確率的ランダムアクセスポリシーの影響について検討した。 その結果,成功リンク数を最大化するためにアクセス確率を最適化することは,システム収束を加速するための非常に効果的な戦略であることがわかった。

In this work, we focus on the communication aspect of decentralized learning, which involves multiple agents training a shared machine learning model using decentralized stochastic gradient descent (D-SGD) over distributed data. In particular, we investigate the impact of broadcast transmission and probabilistic random access policy on the convergence performance of D-SGD, considering the broadcast nature of wireless channels and the link dynamics in the communication topology. Our results demonstrate that optimizing the access probability to maximize the expected number of successful links is a highly effective strategy for accelerating the system convergence.
翻訳日:2023-07-10 15:14:36 公開日:2023-07-07
# ポテンシャルインバージョン理論

The Potential Inversion Theorem ( http://arxiv.org/abs/2305.07260v3 )

ライセンス: Link先を確認
Alec Shelley, Henry Hunt(参考訳) 量子格子モデルは様々な物理系を記述し、シュロディンガー方程式を数値的に解く標準的な方法である。 ここで、これらのモデルにおける波動関数の確率は、初期条件が厳密に偶数あるいは奇な格子点を占有し、大域的な位相まで存在する限り、ポテンシャルエネルギーの符号反転の下で保存されるというポテンシャル反転定理を証明する。 これは電子対の時間はポジトロニウムのように発展し、したがって結合状態を形成することを意味する。 これらのパラドックス電子対の動力学をシミュレートし、電荷が増加するとより強く結合していることを示す。 ポテンシャル反転定理はブロッホ振動、局在化、粒子-ホール対称性、負のポテンシャル散乱、磁性など、一見無関係ないくつかの物理現象をいかに示すかを示す。

Quantum lattice models describe a wide array of physical systems, and are a canonical way to numerically solve the Schrodinger equation. Here we prove the potential inversion theorem, which says that wavefunction probability in these models is preserved under the sign inversion of the potential energy as long as the initial conditions occupy strictly even or odd lattice sites and are real up to a global phase. This implies that electron pairs time evolve like positronium and therefore form bound states. We simulate the dynamics of these paradoxical electronium pairs and show that they are bound together more strongly if their charge is increased. We show how the potential inversion theorem illustrates several seemingly unrelated physical phenomena, including Bloch oscillations, localization, particle-hole symmetry, negative potential scattering, and magnetism.
翻訳日:2023-07-10 15:14:25 公開日:2023-07-07
# 他人を検索する:指示付き汎用人物再識別タスク

Retrieve Anyone: A General-purpose Person Re-identification Task with Instructions ( http://arxiv.org/abs/2306.07520v3 )

ライセンス: Link先を確認
Weizhen He and Shixiang Tang and Yiheng Deng and Qihao Chen and Qingsong Xie and Yizhou Wang and Lei Bai and Feng Zhu and Rui Zhao and Wanli Ouyang and Donglian Qi and Yunfeng Yan(参考訳) 人間の知性は、視覚と言語の両方の記述に従って、任意の人物を検索することができる。 しかし、現在のコンピュータビジョンコミュニティは、異なるシナリオにおける特定の人物再識別(ReID)タスクを別々に研究しており、現実世界の応用を制限している。 本稿では、与えられた画像や言語命令に従って画像を取得する必要がある新しいインストラクト-ReIDタスクを提案し、既存のReIDタスクを異なる命令を設計することで特別なケースとして見ることができる、より一般的なReID設定である。 そこで本研究では, 大規模omnireidベンチマークと適応三重項損失をベースラインとして提案する。 実験結果から,OmniReIDベンチマークでトレーニングしたベースラインモデルは,従来のReIDでは+0.6%,+1.4%,マーケット1501では0.2%,CUHK03では%,MSMT17では+0.8%,+2.0%,+13.4%,PRCCではVC-Clothes,LTCCでは+11.7%,RGB画像のみを使用する場合にはCOCAS+ real2では+11.7%,新たに定義された言語命令されたReIDでは+25.4%,COCAS+ real2では+25.4%となっている。 データセット、モデル、コードはhttps://github.com/hwz-zju/instruct-reidで入手できる。

Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a new instruct-ReID task that requires the model to retrieve images according to the given image or language instructions.Our instruct-ReID is a more general ReID setting, where existing ReID tasks can be viewed as special cases by designing different instructions. We propose a large-scale OmniReID benchmark and an adaptive triplet loss as a baseline method to facilitate research in this new setting. Experimental results show that the baseline model trained on our OmniReID benchmark can improve +0.6%, +1.4%, 0.2% mAP on Market1501, CUHK03, MSMT17 for traditional ReID, +0.8%, +2.0%, +13.4% mAP on PRCC, VC-Clothes, LTCC for clothes-changing ReID, +11.7% mAP on COCAS+ real2 for clothestemplate based clothes-changing ReID when using only RGB images, +25.4% mAP on COCAS+ real2 for our newly defined language-instructed ReID. The dataset, model, and code will be available at https://github.com/hwz-zju/Instruct-ReID.
翻訳日:2023-07-10 15:07:42 公開日:2023-07-07
# $E(2)$-Equivariant Vision Transformer

$E(2)$-Equivariant Vision Transformer ( http://arxiv.org/abs/2306.06722v3 )

ライセンス: Link先を確認
Renjun Xu and Kaifan Yang and Ke Liu and Fengxiang He(参考訳) Vision Transformer (ViT) はコンピュータビジョンにおいて優れた性能を発揮している。 しかし、ViTにおける位置符号化は、データの本質的な等価性を学ぶのを著しく困難にしている。 当初、同変 ViT を設計する試みがあったが、この論文ではいくつかのケースで欠陥があることが証明されている。 この問題に対処するため、我々は、新しい効果的な位置符号化演算子を用いて、GE-ViT(Group Equivariant Vision Transformer)を設計する。 GE-ViTは同変ニューラルネットワークの理論的要件をすべて満たしていることを示す。 GE-ViTが非同変自己注意ネットワークを著しく上回ることを示すため、標準ベンチマークデータセットで包括的な実験が行われた。 コードはhttps://github.com/zjucdsyangkaifan/gevitで入手できる。

Vision Transformer (ViT) has achieved remarkable performance in computer vision. However, positional encoding in ViT makes it substantially difficult to learn the intrinsic equivariance in data. Initial attempts have been made on designing equivariant ViT but are proved defective in some cases in this paper. To address this issue, we design a Group Equivariant Vision Transformer (GE-ViT) via a novel, effective positional encoding operator. We prove that GE-ViT meets all the theoretical requirements of an equivariant neural network. Comprehensive experiments are conducted on standard benchmark datasets, demonstrating that GE-ViT significantly outperforms non-equivariant self-attention networks. The code is available at https://github.com/ZJUCDSYangKaifan/GEVit.
翻訳日:2023-07-10 15:07:09 公開日:2023-07-07
# beyond weights:pure synaptic-delay trainingを用いたスパイクニューラルネットワークのディープラーニング

Beyond Weights: Deep learning in Spiking Neural Networks with pure synaptic-delay training ( http://arxiv.org/abs/2306.06237v4 )

ライセンス: Link先を確認
Edoardo W. Grappolini and Anand Subramoney(参考訳) 生物学的証拠は、短時間から中程度の時間スケールでのシナプス遅延の適応が脳内の学習において重要な役割を担っていることを示唆している。 生物学に触発されて,シナプス重みがトレーニングされていないがランダムに選択された固定値に保たれている場合でも,シナプス遅延を用いた課題解決の可能性と能力について検討する。 後方伝搬によるフィードフォワードスパイクネットワークの遅延をONLYでトレーニングすることで,従来の重量トレーニングに匹敵する性能が得られることを示す。 さらに、重みを三元値にさらに制約することは、シナプス遅延のみを使用してタスクを解決するネットワークの能力に大きな影響を与えない。 mnistおよびファッションmnistデータセットにおける遅延のみトレーニングのタスク性能を予備実験で実証する。 これは、スパイクニューラルネットワークのトレーニングのための新しいパラダイムを示し、計算に重みを使用するモデルよりも効率の良いモデルのステージを設定する。

Biological evidence suggests that adaptation of synaptic delays on short to medium timescales plays an important role in learning in the brain. Inspired by biology, we explore the feasibility and power of using synaptic delays to solve challenging tasks even when the synaptic weights are not trained but kept at randomly chosen fixed values. We show that training ONLY the delays in feed-forward spiking networks using backpropagation can achieve performance comparable to the more conventional weight training. Moreover, further constraining the weights to ternary values does not significantly affect the networks' ability to solve the tasks using only the synaptic delays. We demonstrate the task performance of delay-only training on MNIST and Fashion-MNIST datasets in preliminary experiments. This demonstrates a new paradigm for training spiking neural networks and sets the stage for models that can be more efficient than the ones that use weights for computation.
翻訳日:2023-07-10 15:06:57 公開日:2023-07-07
# 深層学習を用いたドイツの胸部X線ラジオグラフィーレポートの自動ラベリング

Automated Labeling of German Chest X-Ray Radiology Reports using Deep Learning ( http://arxiv.org/abs/2306.05997v2 )

ライセンス: Link先を確認
Alessandro Wollek, Philip Haitzer, Thomas Sedlmeyr, Sardi Hyska, Johannes Rueckel, Bastian Sabel, Michael Ingrisch, Tobias Lasser(参考訳) 放射線科医は世界中で不足しており、ディープラーニングモデルは臨床診断支援システムの一部として、この不足に対処するための有望な解決策を提供する。 しかし、そのようなモデルのトレーニングには、しばしば高価で時間を要する大規模なデータセットのマニュアルラベリングが必要である。 ラジオロジーレポートからの自動ラベル抽出はラベル付きデータセットを取得するのに必要な時間を短縮することができるが、このタスクは意味的に類似した単語と注釈付きデータがないために困難である。 本研究では,ルールベースラベルを用いた深層学習に基づくラベル予測モデルの弱監視の可能性を検討する。 本稿では,ルールベースのドイツCheXpertモデルによってラベル付けされたレポートに事前トレーニングされたディープラーニングベースのCheXpertラベル予測モデルを提案する。 その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。 本研究は,データ不足のシナリオにおいても深層学習モデルを採用することのメリットと,ルールベースのラベルを弱い監視ツールとして活用することを明らかにする。

Radiologists are in short supply globally, and deep learning models offer a promising solution to address this shortage as part of clinical decision-support systems. However, training such models often requires expensive and time-consuming manual labeling of large datasets. Automatic label extraction from radiology reports can reduce the time required to obtain labeled datasets, but this task is challenging due to semantically similar words and missing annotated data. In this work, we explore the potential of weak supervision of a deep learning-based label prediction model, using a rule-based labeler. We propose a deep learning-based CheXpert label prediction model, pre-trained on reports labeled by a rule-based German CheXpert model and fine-tuned on a small dataset of manually labeled reports. Our results demonstrate the effectiveness of our approach, which significantly outperformed the rule-based model on all three tasks. Our findings highlight the benefits of employing deep learning-based models even in scenarios with sparse data and the use of the rule-based labeler as a tool for weak supervision.
翻訳日:2023-07-10 15:06:39 公開日:2023-07-07
# オフライン優先体験リプレイ

Offline Prioritized Experience Replay ( http://arxiv.org/abs/2306.05412v2 )

ライセンス: Link先を確認
Yang Yue, Bingyi Kang, Xiao Ma, Gao Huang, Shiji Song, Shuicheng Yan(参考訳) オフライン強化学習 (RL) は分布シフト問題に挑戦される。 この問題に対処するため、既存の研究は主に学習政策と行動政策の間の洗練された政策制約を設計することに焦点を当てている。 しかし、これらの制約は、学習方針に悪影響を及ぼす可能性のある一様サンプリングにより、良好なパフォーマンスと劣悪な動作に等しく適用される。 この問題を軽減するために,我々は,高度に回帰した遷移を優先する優先度関数のクラスを特徴とする,オフライン優先体験再生(OPER)を提案する。 理論的解析により、この優先度関数は行動ポリシーの改善をもたらすことが示され、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムがより良い解をもたらす可能性が示唆された。 適応値ネットワーク (oper-a) や軌道帰納法 (oper-r) を高速計算に活用し, 優先度重みを得るための2つの実践的戦略を開発した。 OPERはオフラインRLアルゴリズムのためのプラグイン・アンド・プレイコンポーネントである。 ケーススタディでは,BC,TD3+BC,Onestep RL,CQL,IQLの5つのアルゴリズムでOPERを評価する。 OPER-A と OPER-R の2つの実験により,全てのベースライン法の性能が大幅に向上した。 コードと優先度はhttps://github.com/sail-sg/OPERで利用可能である。

Offline reinforcement learning (RL) is challenged by the distributional shift problem. To address this problem, existing works mainly focus on designing sophisticated policy constraints between the learned policy and the behavior policy. However, these constraints are applied equally to well-performing and inferior actions through uniform sampling, which might negatively affect the learned policy. To alleviate this issue, we propose Offline Prioritized Experience Replay (OPER), featuring a class of priority functions designed to prioritize highly-rewarding transitions, making them more frequently visited during training. Through theoretical analysis, we show that this class of priority functions induce an improved behavior policy, and when constrained to this improved policy, a policy-constrained offline RL algorithm is likely to yield a better solution. We develop two practical strategies to obtain priority weights by estimating advantages based on a fitted value network (OPER-A) or utilizing trajectory returns (OPER-R) for quick computation. OPER is a plug-and-play component for offline RL algorithms. As case studies, we evaluate OPER on five different algorithms, including BC, TD3+BC, Onestep RL, CQL, and IQL. Extensive experiments demonstrate that both OPER-A and OPER-R significantly improve the performance for all baseline methods. Codes and priority weights are availiable at https://github.com/sail-sg/OPER.
翻訳日:2023-07-10 15:06:19 公開日:2023-07-07
# MISGENDERED:名詞理解における大規模言語モデルの限界

MISGENDERED: Limits of Large Language Models in Understanding Pronouns ( http://arxiv.org/abs/2306.03950v2 )

ライセンス: Link先を確認
Tamanna Hossain, Sunipa Dev, Sameer Singh(参考訳) コンテンツ警告: 本論文は悪質で潜在的に引き起こされる可能性のある誤生成と消去の例を含む。 言語技術におけるジェンダーバイアスは広く研究されてきたが、研究は主に二項性パラダイムに限られている。 また、非二項性同一性(non-binary gender identities)も考慮する必要がある。 本稿では、英語の性中立代名詞(単数代名詞など)とネオ代名詞(例えば、ze,xe,thon)を、二元代名詞で表現されていない個人によって正しく使用する能力について、一般的な言語モデルについて包括的に評価する。 MISGENDEREDは、大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。 (i)個人の代名詞を宣言する例、欠落代名詞のある文、及び (ii)統一手法を用いたマスク・自己回帰型言語モデルの評価のための実験的セットアップ アウト・オブ・ボックスでは、新名詞(精度7.7%)とジェンダーニュートラル代名詞(正確34.2%)の正確な予測が不十分である。 この一般化できないことは、訓練データや記憶された関連における非二項代名詞の表現の欠如による結果である。 プロンプトの明示的な例による少数ショット適応はネオプロ名詞のパフォーマンスを改善するが、20ショットでも64.7%にしか達しない。 完全なデータセット、コード、デモはhttps://tamannahossainkay.github.io/misgendered/で公開しています。

Content Warning: This paper contains examples of misgendering and erasure that could be offensive and potentially triggering. Gender bias in language technologies has been widely studied, but research has mostly been restricted to a binary paradigm of gender. It is essential also to consider non-binary gender identities, as excluding them can cause further harm to an already marginalized group. In this paper, we comprehensively evaluate popular language models for their ability to correctly use English gender-neutral pronouns (e.g., singular they, them) and neo-pronouns (e.g., ze, xe, thon) that are used by individuals whose gender identity is not represented by binary pronouns. We introduce MISGENDERED, a framework for evaluating large language models' ability to correctly use preferred pronouns, consisting of (i) instances declaring an individual's pronoun, followed by a sentence with a missing pronoun, and (ii) an experimental setup for evaluating masked and auto-regressive language models using a unified method. When prompted out-of-the-box, language models perform poorly at correctly predicting neo-pronouns (averaging 7.7% accuracy) and gender-neutral pronouns (averaging 34.2% accuracy). This inability to generalize results from a lack of representation of non-binary pronouns in training data and memorized associations. Few-shot adaptation with explicit examples in the prompt improves performance for neo-pronouns, but only to 64.7% even with 20 shots. We release the full dataset, code, and demo at https://tamannahossainkay.github.io/misgendered/
翻訳日:2023-07-10 15:05:36 公開日:2023-07-07
# 集合論と多くの世界

Set Theory and Many Worlds ( http://arxiv.org/abs/2306.03583v3 )

ライセンス: Link先を確認
Paul Tappenden(参考訳) 2022年のテルアビブの量子力学の多世界解釈に関する会議は、理論家の間で多くの違いを浮き彫りにした。 非常に重要な二分法は、エベレットの分裂(分裂)とサンダース=ウォレス=ウィルソンの分岐である。 フィッションの場合、観測者は複数の未来を持つが、発散の場合は常に単一の未来を持つ。 発散はエベレット理論における測定前の不確実性(英語版)の問題を解決するために明示的に導入された。 ここでは、客観的確率がエベレット枝の性質である限り、核分裂以前の将来の観測には確かに不確実性がある。 これは宇宙が集合であり、分枝が確率測度を持つ部分集合であるときに可能となる。 宇宙は、マクロ的に同型であり、顕微鏡的な局所的なbe\"可能な全ての構成にまたがる宇宙の集合である。 客観的確率が分枝の性質であるならば、成功したドイッチュ=ウォレス決定理論の議論は主原理を正当化し、多くの世界特有のものではなく確率論の一部となる。 環境中のあらゆるマクロな物体は、異なる微視的な構成を持つアイソモルフィックの集合となり、それぞれが要素宇宙(集合論的な意味での要素)にある。 これは多くの相互作用世界理論に類似しているが、観察者は個々の世界ではなく世界の集合に居住している。 オブザーバーには多くの元素体があります。

The 2022 Tel Aviv conference on the Many Worlds interpretation of quantum mechanics highlighted many differences between theorists. A very significant dichotomy is between Everettian fission (splitting) and Saunders-Wallace-Wilson divergence. For fission, an observer may have multiple futures, whereas for divergence they always have a single future. Divergence was explicitly introduced to resolve the problem of pre-measurement uncertainty for Everettian theory, which is universally believed to be absent for fission. Here, I maintain that there is indeed uncertainty about future observations prior to fission, so long as objective probability is a property of Everettian branches. This is made possible if the universe is a set and branches are subsets with probability measure. A universe which is a set of universes which are macroscopically isomorphic and span all possible configurations of microscopic local be\"ables fulfils that role. If objective probability is a property of branches, a successful Deutsch-Wallace decision-theoretic argument would justify the Principal Principle and be part of probability theory rather than being specific to Many Worlds. Any macroscopic object in our environment becomes a set of isomorphs with different microscopic configurations, each in an elemental universe (elemental in the set-theoretic sense). This is similar to Many Interacting Worlds theory but the observer inhabits the set of worlds, not an individual world. An observer has many elemental bodies.
翻訳日:2023-07-10 15:04:38 公開日:2023-07-07
# スマートフォンのセンシングから社会的文脈を理解する:各国の一般化と日常生活のモメンデーション

Understanding Social Context from Smartphone Sensing: Generalization Across Countries and Daily Life Moments ( http://arxiv.org/abs/2306.00919v2 )

ライセンス: Link先を確認
Aurel Ruben Mader, Lakmal Meegahapola, Daniel Gatica-Perez(参考訳) 人々の社会的コンテキストを理解して追跡することは、彼らの行動や精神的幸福をよりよく理解するのに役立ちます。 そのため、負荷の多いアンケートの代わりに、受動的スマートフォンセンサーを用いて機械学習モデルを用いて社会的文脈を推測する研究もある。 しかし、これまで実施されてきた研究は1つか2か国で独自に位置する文脈(すなわち、食事や飲酒など)に焦点が当てられており、一般化の観点からの推論の理解が制限されている。 (i)日常生活の機会、及び (ii)異なる国。 本稿では,5カ国(モンゴル,イタリア,デンマーク,イギリス,パラグアイ)で580人以上の参加者から収集された216K以上の自己申告データを用いた,新しい大規模・マルチモーダルなスマートフォンセンシングデータセットを用いて,社会的文脈推論(単体・単体・単体・単体)がセンサデータにどう影響するかを把握し,行動的・国レベルの多様性が推論に与える影響を明らかにする。 私たちはそれを見つけました (i)アクティビティ、ロケーション、アプリ利用、Bluetooth、WiFiといったモダリティのセンサー機能は、社会的文脈に有益である。 (ii)部分的パーソナライズされた多国間モデル(全国のデータで訓練・試験)と国別モデル(国内で訓練・試験)は、80%~90%の範囲で同様の精度を達成した。 三) モデルは地理的類似性にかかわらず、目に見えない国によく一般化しない。

Understanding and longitudinally tracking the social context of people help in understanding their behavior and mental well-being better. Hence, instead of burdensome questionnaires, some studies used passive smartphone sensors to infer social context with machine learning models. However, the few studies that have been done up to date have focused on unique, situated contexts (i.e., when eating or drinking) in one or two countries, hence limiting the understanding of the inference in terms of generalization to (i) everyday life occasions and (ii) different countries. In this paper, we used a novel, large-scale, and multimodal smartphone sensing dataset with over 216K self-reports collected from over 580 participants in five countries (Mongolia, Italy, Denmark, UK, Paraguay), first to understand whether social context inference (i.e., alone or not) is feasible with sensor data, and then, to know how behavioral and country-level diversity affects the inference. We found that (i) sensor features from modalities such as activity, location, app usage, Bluetooth, and WiFi could be informative of social context; (ii) partially personalized multi-country models (trained and tested with data from all countries) and country-specific models (trained and tested within countries) achieved similar accuracies in the range of 80%-90%; and (iii) models do not generalize well to unseen countries regardless of geographic similarity.
翻訳日:2023-07-10 15:03:59 公開日:2023-07-07
# FedSelect: 個人化フェデレーション学習におけるファインチューニングパラメータの選択

FedSelect: Customized Selection of Parameters for Fine-Tuning during Personalized Federated Learning ( http://arxiv.org/abs/2306.13264v2 )

ライセンス: Link先を確認
Rishub Tamirisa, John Won, Chengjun Lu, Ron Arel, Andy Zhou(参考訳) 近年のFL(Federated Learning)は,ローカルデータに対するクライアントパラメータの微調整や,ローカルタスクのパーソナライズアーキテクチャによるクライアントレベルのパフォーマンス向上を目指している。 このようなパーソナライズのための既存の方法は、グローバルモデルを作成するか、ローカルクライアントディストリビューション上でグローバルモデルを微調整する。 しかし、これらの既存の手法は重要なグローバル知識の保持を犠牲にしてパーソナライズするか、または微調整のためのネットワーク層を予め設定し、クライアントモデル内でグローバル知識を最適に格納する。 抽選券仮説に則って,我々はまず,パラメータの残りを凍結しながら,局所的な微調整に最適なクライアントサブネットワークを求める仮説を提示する。 次に,個人化のための最適パラメータと,トレーニング中のグローバルアグリゲーションのための他のパラメータを同時に発見することで,クライアントサブネットワーク構造とパラメータの両方を直接パーソナライズする手法であるfederselectを提案する。 CIFAR-10で有望な結果が得られることを示す。

Recent advancements in federated learning (FL) seek to increase client-level performance by fine-tuning client parameters on local data or personalizing architectures for the local task. Existing methods for such personalization either prune a global model or fine-tune a global model on a local client distribution. However, these existing methods either personalize at the expense of retaining important global knowledge, or predetermine network layers for fine-tuning, resulting in suboptimal storage of global knowledge within client models. Enlightened by the lottery ticket hypothesis, we first introduce a hypothesis for finding optimal client subnetworks to locally fine-tune while leaving the rest of the parameters frozen. We then propose a novel FL framework, FedSelect, using this procedure that directly personalizes both client subnetwork structure and parameters, via the simultaneous discovery of optimal parameters for personalization and the rest of parameters for global aggregation during training. We show that this method achieves promising results on CIFAR-10.
翻訳日:2023-07-10 14:58:20 公開日:2023-07-07
# フラットエネルギーランドスケープを用いた組合せ最適化のための量子スピードアップ

Quantum speedup for combinatorial optimization with flat energy landscapes ( http://arxiv.org/abs/2306.13123v2 )

ライセンス: Link先を確認
Madelyn Cain, Sambuddha Chattopadhyay, Jin-Guo Liu, Rhine Samajdar, Hannes Pichler, Mikhail D. Lukin(参考訳) 古典的アナログを高速化して量子アルゴリズムを設計することは、量子情報科学における中心的な課題である。 超線形量子スピードアップの最近の実験的観測により、特定の単位円グラフインスタンス [ebadi et al., science 376,6598 (2022)] 上の最大独立集合問題を解くことに動機づけられ、最適化された量子断熱アルゴリズムと古典マルコフ連鎖モンテカルロアルゴリズムの相対的性能を解析するための理論的枠組みを開発した。 量子断熱アルゴリズムの条件を概説し、平坦な低エネルギーランドスケープを特徴とするハード問題インスタンスの2次高速化を実現し、量子スピードアップとスローダウンのいずれかのインスタンスを例示する。 次に、最適化された断熱アルゴリズムに符号問題のない局所ハミルトニアンを導入し、これらの難解な問題を解くために、古典的アニーリング、並列テンパリング、量子モンテカルロアルゴリズムの幅広いクラスで二次的なスピードアップを達成する。 最後に,この枠組みを用いて実験観測を行った。

Designing quantum algorithms with a speedup over their classical analogs is a central challenge in quantum information science. Motivated by recent experimental observations of a superlinear quantum speedup in solving the Maximum Independent Set problem on certain unit-disk graph instances [Ebadi et al., Science 376, 6598 (2022)], we develop a theoretical framework to analyze the relative performance of the optimized quantum adiabatic algorithm and a broad class of classical Markov chain Monte Carlo algorithms. We outline conditions for the quantum adiabatic algorithm to achieve a quadratic speedup on hard problem instances featuring flat low-energy landscapes and provide example instances with either a quantum speedup or slowdown. We then introduce an additional local Hamiltonian with no sign problem to the optimized adiabatic algorithm to achieve a quadratic speedup over a wide class of classical simulated annealing, parallel tempering, and quantum Monte Carlo algorithms in solving these hard problem instances. Finally, we use this framework to analyze the experimental observations.
翻訳日:2023-07-10 14:58:01 公開日:2023-07-07
# InAs/GaAs量子ドットの機械学習と実時間フィードバック制御

Machine-Learning-Assisted and Real-Time-Feedback-Controlled Growth of InAs/GaAs Quantum Dots ( http://arxiv.org/abs/2306.12898v2 )

ライセンス: Link先を確認
Chao Shen, Wenkang Zhan, Kaiyao Xin, Manyang Li, Zhenyu Sun, Jian Tang, Zhaofeng Wu, Bo Xu, Zhongming Wei, Chao Zhao, and Zhanguo Wang(参考訳) 自己集合型InAs/GaAs量子ドット(QD)は、QDレーザーや単一光子源のような様々な光電子デバイスを開発するのに非常に有用な性質を持つ。 これらの応用はこれらのドットの密度と品質に強く依存しており、高品質なエピウエハやデバイスを実現するための成長過程制御の研究を動機付けている。 特定のQD密度に対する分子線エピタキシー(MBE)におけるプロセスパラメータの確立は多次元最適化の課題であり、通常は時間と反復的な試行錯誤によって対処される。 本稿では,完全自動化・インテリジェントなqdsの高精度化を実現するために,実時間フィードバック制御手法を提案する。 我々は3D ResNetという機械学習(ML)モデルを開発し、静的画像の代わりにRHEEDビデオをトレーニングし、プロセス制御のための表面形態に関するリアルタイムフィードバックを提供する。 その結果,約1.5E10 cm-2から3.8E8 cm-2,最大1.4E11 cm-2まで,ほぼリアルタイムにQD密度を調整し,成長後のQDの密度を予測することができた。 従来の手法と比較して,本手法はその場調整能力と信頼性に優れ,材料最適化を劇的に高速化し,MBE成長の再現性を向上し,薄膜成長技術に大きな進歩をもたらした。 この研究で実証された概念や手法は、マイクロエレクトロニクスや光電子産業の半導体製造に革命をもたらす様々な材料成長プロセスに適用できることを約束している。

Self-assembled InAs/GaAs quantum dots (QDs) have properties highly valuable for developing various optoelectronic devices such as QD lasers and single photon sources. The applications strongly rely on the density and quality of these dots, which has motivated studies of the growth process control to realize high-quality epi-wafers and devices. Establishing the process parameters in molecular beam epitaxy (MBE) for a specific density of QDs is a multidimensional optimization challenge, usually addressed through time-consuming and iterative trial-and-error. Here, we report a real-time feedback control method to realize the growth of QDs with arbitrary and precise density, which is fully automated and intelligent. We developed a machine learning (ML) model named 3D ResNet, specially designed for training RHEED videos instead of static images and providing real-time feedback on surface morphologies for process control. As a result, we demonstrated that ML from previous growth could predict the post-growth density of QDs, by successfully tuning the QD densities in near-real time from 1.5E10 cm-2 down to 3.8E8 cm-2 or up to 1.4E11 cm-2. Compared to traditional methods, our approach, with in-situ tuning capabilities and excellent reliability, can dramatically expedite the material optimization process and improve the reproducibility of MBE growth, constituting significant progress for thin film growth techniques. The concepts and methodologies proved feasible in this work are promising to be applied to a variety of material growth processes, which will revolutionize semiconductor manufacturing for microelectronic and optoelectronic industries.
翻訳日:2023-07-10 14:57:36 公開日:2023-07-07
# 与えられた平均値の集合から量子フィッシャー情報を認証する:半定値プログラミングアプローチ

Certifying the quantum Fisher information from a given set of mean values: a semidefinite programming approach ( http://arxiv.org/abs/2306.12711v2 )

ライセンス: Link先を確認
Guillem M\"uller-Rigat, Anubhav Kumar Srivastava, Stanis{\l}aw Kurdzia{\l}ek, Grzegorz Rajchel-Mieldzio\'c, Maciej Lewenstein and Ir\'en\'ee Fr\'erot(参考訳) 平均値の任意のデータセットと互換性のある最小の量子フィッシャー情報を見つけるための半定値プログラミングアルゴリズムを提案する。 この認証タスクは、量子状態の完全な知識を必要とせずに、気象学応用のための量子システムのリソース内容の定量化を可能にする。 量子スピンアンサンブルを研究するアルゴリズムを実装した。 我々はまずディッケ状態に注目し,文献におけるこれまでの結果に挑戦し補完する。 次に, 1軸ねじれ力学で発生した状態について検討し, 特に, 小系の4次モーメントや任意系サイズのパリティ測定などの単純な集合スピン観測器を用いて, いわゆる多頭猫状態の計量的パワーを証明できることを見出した。

We introduce a semidefinite programming algorithm to find the minimal quantum Fisher information compatible with an arbitrary dataset of mean values. This certification task allows one to quantify the resource content of a quantum system for metrology applications without complete knowledge of the quantum state. We implement the algorithm to study quantum spin ensembles. We first focus on Dicke states, where our findings challenge and complement previous results in the literature. We then investigate states generated during the one-axis twisting dynamics, where in particular we find that the metrological power of the so-called multi-headed cat states can be certified using simple collective spin observables, such as fourth-order moments for small systems, and parity measurements for arbitrary system sizes.
翻訳日:2023-07-10 14:57:08 公開日:2023-07-07
# 1回に1回:深さ推定のための多段階容積確率分布拡散

One at A Time: Multi-step Volumetric Probability Distribution Diffusion for Depth Estimation ( http://arxiv.org/abs/2306.12681v2 )

ライセンス: Link先を確認
Bohan Li, Jingxin Dong, Yunnan Wang, Jinming Liu, Lianying Yin, Wei Zhao, Zheng Zhu, Xin Jin, Wenjun Zeng(参考訳) 近年,マルチビューステレオ(MVS)とセマンティックシーン補完(SSC)における深度推定の基本的な役割について検討している。 彼らは一般的に3次元のコストボリュームを構築し、幾何学的対応を深く探求し、それらのボリュームを1ステップで推定する。 しかし、複雑な経験的分布、特に閉塞や反射などの挑戦的な領域において、そのような問題は1段階で完全には処理できない。 本稿では,多段階分布近似法として深度推定タスクを定式化し,拡散モデル(VPDD)を用いたマルコフ連鎖に従って,体積確率分布を段階的に(段階的に)モデル化する新しいパラダイムを提案する。 具体的には,VPDDにおけるボリュームの多段階生成を制限するため,分布近似を容易にするために,メタボリュームガイダンスとコンテクストガイダンスを構築した。 サンプリングプロセスでは,安定したトレーニングのためのボリューム表現の整合性を維持するためのオンラインフィルタリング戦略をさらに検討する。 実験により,MVS や SSC のタスクでは,プラグアンドプレイのVPDD が最先端のタスクよりも優れており,また,改善のためにさまざまなベースラインに容易に拡張可能であることが示された。 SemanticKITTIデータセット上でLiDARベースのメソッドを超えた最初のカメラベースの作業であることに注意してください。

Recent works have explored the fundamental role of depth estimation in multi-view stereo (MVS) and semantic scene completion (SSC). They generally construct 3D cost volumes to explore geometric correspondence in depth, and estimate such volumes in a single step relying directly on the ground truth approximation. However, such problem cannot be thoroughly handled in one step due to complex empirical distributions, especially in challenging regions like occlusions, reflections, etc. In this paper, we formulate the depth estimation task as a multi-step distribution approximation process, and introduce a new paradigm of modeling the Volumetric Probability Distribution progressively (step-by-step) following a Markov chain with Diffusion models (VPDD). Specifically, to constrain the multi-step generation of volume in VPDD, we construct a meta volume guidance and a confidence-aware contextual guidance as conditional geometry priors to facilitate the distribution approximation. For the sampling process, we further investigate an online filtering strategy to maintain consistency in volume representations for stable training. Experiments demonstrate that our plug-and-play VPDD outperforms the state-of-the-arts for tasks of MVS and SSC, and can also be easily extended to different baselines to get improvement. It is worth mentioning that we are the first camera-based work that surpasses LiDAR-based methods on the SemanticKITTI dataset.
翻訳日:2023-07-10 14:56:54 公開日:2023-07-07
# 楕円作用素の学習均質化

Learning Homogenization for Elliptic Operators ( http://arxiv.org/abs/2306.12006v2 )

ライセンス: Link先を確認
Kaushik Bhattacharya, Nikola Kovachki, Aakila Rajan, Andrew M. Stuart, Margaret Trautner(参考訳) マルチスケール偏微分方程式(PDE)は様々な応用に現れ、効率的に解くためにいくつかのスキームが開発されている。 ホモゲナイズ理論は、小規模の依存を取り除き、計算的に扱いやすい簡単な方程式を生み出す強力な方法論である。 連続体力学の分野では、マイクロスケール物理学を包含する構成法則を導出し、巨視的興味量に対する法則を定式化するためにホモジェナイゼーションが不可欠である。 しかし、一般に解析形式を持たず、マイクロスケールに存在しない現象を示すため、均質化された構成法則を得るのは難しいことが多い。 これに対し, 構成法則に関するデータ駆動学習が課題として提案されている。 しかし、この問題に対するデータ駆動学習アプローチにおける大きな課題は、基礎となる素材における不連続とコーナーインターフェースの影響である。 これらの係数の不連続性は、基礎となる方程式の解の滑らかさに影響する。 連続力学応用における不連続材料の普及を考えると、この文脈における学習の課題に対処し、特に、この科学的領域におけるデータ駆動法の信頼性を確立するための基礎理論を開発することが重要である。 本論文は, 楕円型作用素に対する同質化構成法則の, 複素数の存在下での学習可能性について検討することによって, 未解明の課題に対処する。 近似理論を示し、楕円型PDEの均質化で生じるセルプロブレムによって定義される解作用素の理論を検証する数値実験を行った。

Multiscale partial differential equations (PDEs) arise in various applications, and several schemes have been developed to solve them efficiently. Homogenization theory is a powerful methodology that eliminates the small-scale dependence, resulting in simplified equations that are computationally tractable. In the field of continuum mechanics, homogenization is crucial for deriving constitutive laws that incorporate microscale physics in order to formulate balance laws for the macroscopic quantities of interest. However, obtaining homogenized constitutive laws is often challenging as they do not in general have an analytic form and can exhibit phenomena not present on the microscale. In response, data-driven learning of the constitutive law has been proposed as appropriate for this task. However, a major challenge in data-driven learning approaches for this problem has remained unexplored: the impact of discontinuities and corner interfaces in the underlying material. These discontinuities in the coefficients affect the smoothness of the solutions of the underlying equations. Given the prevalence of discontinuous materials in continuum mechanics applications, it is important to address the challenge of learning in this context; in particular to develop underpinning theory to establish the reliability of data-driven methods in this scientific domain. The paper addresses this unexplored challenge by investigating the learnability of homogenized constitutive laws for elliptic operators in the presence of such complexities. Approximation theory is presented, and numerical experiments are performed which validate the theory for the solution operator defined by the cell-problem arising in homogenization for elliptic PDEs.
翻訳日:2023-07-10 14:56:28 公開日:2023-07-07
# 非凸最適化における適応戦略

Adaptive Strategies in Non-convex Optimization ( http://arxiv.org/abs/2306.10278v2 )

ライセンス: Link先を確認
Zhenxun Zhuang(参考訳) アルゴリズムが特定のパラメータ(問題の)に適応するとは、そのようなパラメータの事前知識を必要としないが、そのパラメータを知っていれば競合的に実行する。 この論文は、以下のシナリオで適応アルゴリズムに関する我々の研究を示す。 1) 確率的最適化設定では, 確率的勾配のみを受け取り, 評価における雑音のレベルが収束率に大きく影響する。 チューニングは通常、最適な速度を達成するためにノイズスケールの事前知識がなければ要求される。 これを考慮し,ノイズ適応アルゴリズムを設計・解析し,異なる雑音スケール下で(ほぼ)最適速度を自動的に保証する。 2. ディープニューラルネットワークのトレーニングでは,BatchNormのような正規化技術を使用しない限り,各座標の勾配のスケールが非常に広い範囲に散らばることができる。 このような状況では、勾配スケールの問題に対処しないアルゴリズムは非常に不適切な振る舞いをする。 これを緩和するために,グラデーションスケールに適応するスケールフリーアルゴリズムの利点を正式に確立し,その実効性を実証実験で提示した。 3.非凸最適化における従来の解析は、通常滑らかさの仮定に依存する。 しかし、この条件はLong Short-Term Memory NetworkやTransformerなど、ディープラーニングの目的関数の特性を捉えていない。 その代わり、よりリラックスした条件を満たすことができ、潜在的に非有界な滑らかさを持つ。 この条件下では、一般化されたSignSGDアルゴリズムは、SGDが得られる最もよく知られた収束率と勾配クリッピングとを理論的に一致させることができるが、明示的なクリッピングを全く必要とせず、Adamの性能と実証的に一致し、他者を打ち負かすことができることを示す。 さらに、未知のリラックスした滑らかさに自動的に適応させることもできる。

An algorithm is said to be adaptive to a certain parameter (of the problem) if it does not need a priori knowledge of such a parameter but performs competitively to those that know it. This dissertation presents our work on adaptive algorithms in following scenarios: 1. In the stochastic optimization setting, we only receive stochastic gradients and the level of noise in evaluating them greatly affects the convergence rate. Tuning is typically required when without prior knowledge of the noise scale in order to achieve the optimal rate. Considering this, we designed and analyzed noise-adaptive algorithms that can automatically ensure (near)-optimal rates under different noise scales without knowing it. 2. In training deep neural networks, the scales of gradient magnitudes in each coordinate can scatter across a very wide range unless normalization techniques, like BatchNorm, are employed. In such situations, algorithms not addressing this problem of gradient scales can behave very poorly. To mitigate this, we formally established the advantage of scale-free algorithms that adapt to the gradient scales and presented its real benefits in empirical experiments. 3. Traditional analyses in non-convex optimization typically rely on the smoothness assumption. Yet, this condition does not capture the properties of some deep learning objective functions, including the ones involving Long Short-Term Memory networks and Transformers. Instead, they satisfy a much more relaxed condition, with potentially unbounded smoothness. Under this condition, we show that a generalized SignSGD algorithm can theoretically match the best-known convergence rates obtained by SGD with gradient clipping but does not need explicit clipping at all, and it can empirically match the performance of Adam and beat others. Moreover, it can also be made to automatically adapt to the unknown relaxed smoothness.
翻訳日:2023-07-10 14:56:02 公開日:2023-07-07
# 都市植生ポイントセグメンテーションのためのディープラーニングアーキテクチャのベンチマーク

Benchmarking Deep Learning Architectures for Urban Vegetation Points Segmentation ( http://arxiv.org/abs/2306.10274v2 )

ライセンス: Link先を確認
Aditya Aditya, Bharat Lohani, Jagannath Aryal, Stephan Winter(参考訳) 植生は、持続可能で回復力のある都市が様々な生態系サービスを提供し、人間を豊かにする上で不可欠である。 しかし、植生は急速な都市化とインフラのフットプリントの拡大によって深刻なストレスにさらされている。 したがって、この植生のマッピングは都市環境において不可欠である。 近年,ポイントクラウドセマンティクスセグメンテーションのディープラーニングが大きな進歩を遂げている。 高度なモデルは、ベンチマークデータセットで最先端のパフォーマンスを獲得し、複数のクラスで構成され、現実世界のシナリオを表現する。 しかし,植生点に関する分類的セグメンテーションは検討されていない。 したがって、植生点分割のための深層学習モデルの選択は曖昧である。 この問題に対処するため,植生のセマンティックセグメンテーションのためのポイントベース深層学習モデルの総合評価を行った。 我々は、PointCNN、KPConv (omni-supervised)、RandLANet、SCFNetの4つの代表的な点ベースモデルを選択した。 これらのモデルは、特にChandigarh、Tronto3D、Keralaの3つの異なるデータセットで研究されている。 ポイントCNNはチャンディガルデータセット(93.32%)とケララデータセット(85.68%)で最高mIoUを達成し、KPConvはトロント3Dデータセット(91.26%)で最高mIoUを提供する。 本論文は,植生セグメンテーションにおけるこれらのモデルの開発について,特に植生セグメンテーションを対象とするモデルに含めるべき成分について概説する。 本稿では,植生ポイントセグメンテーションのための新しいアーキテクチャの開発に向けての一歩である。

Vegetation is crucial for sustainable and resilient cities providing various ecosystem services and well-being of humans. However, vegetation is under critical stress with rapid urbanization and expanding infrastructure footprints. Consequently, mapping of this vegetation is essential in the urban environment. Recently, deep learning for point cloud semantic segmentation has shown significant progress. Advanced models attempt to obtain state-of-the-art performance on benchmark datasets, comprising multiple classes and representing real world scenarios. However, class specific segmentation with respect to vegetation points has not been explored. Therefore, selection of a deep learning model for vegetation points segmentation is ambiguous. To address this problem, we provide a comprehensive assessment of point-based deep learning models for semantic segmentation of vegetation class. We have selected four representative point-based models, namely PointCNN, KPConv (omni-supervised), RandLANet and SCFNet. These models are investigated on three different datasets, specifically Chandigarh, Toronto3D and Kerala, which are characterized by diverse nature of vegetation, varying scene complexity and changing per-point features. PointCNN achieves the highest mIoU on the Chandigarh (93.32%) and Kerala datasets (85.68%) while KPConv (omni-supervised) provides the highest mIoU on the Toronto3D dataset (91.26%). The paper develops a deeper insight, hitherto not reported, into the working of these models for vegetation segmentation and outlines the ingredients that should be included in a model specifically for vegetation segmentation. This paper is a step towards the development of a novel architecture for vegetation points segmentation.
翻訳日:2023-07-10 14:55:34 公開日:2023-07-07
# 議論のモデルと対話ゲームのための時間付き並行言語の相互理解のための意味論

An Interleaving Semantics of the Timed Concurrent Language for Argumentation to Model Debates and Dialogue Games ( http://arxiv.org/abs/2306.07675v2 )

ライセンス: Link先を確認
Stefano Bistarelli, Maria Chiara Meo, Carlo Taticchi(参考訳) 時間(time)は、知的エージェントの動的振る舞いをモデル化する上で重要な要素である: アクティビティは現実世界の環境で決定的な時間持続時間を持ち、以前のアクションはエージェントの振る舞いに影響を与える。 本稿では,エージェント間の同時相互作用をモデル化する言語を提案する。 このような言語は、抽象論証フレームワークのタイムドバージョンを利用して、エージェントが特定の時間間隔に関する信念の受け入れ可能性についてコミュニケーションし、推論するために使用する共有メモリを実現する。 単一プロセッサ上のインターリーブモデルは、時間エリープの最大並列性を持つ基本的な計算ステップに使用される。 このアプローチに従い、有効になったエージェントは各瞬間に1つだけ実行される。 言語の能力を示すために,知的なエージェント間の議論や対話ゲームといったインタラクションのモデル化にも利用できることを示す。 最後に,Webインターフェースを通じてアクセス可能な言語の実装を提案する。 論理プログラミングの理論と実践(tplp)における考察。

Time is a crucial factor in modelling dynamic behaviours of intelligent agents: activities have a determined temporal duration in a real-world environment, and previous actions influence agents' behaviour. In this paper, we propose a language for modelling concurrent interaction between agents that also allows the specification of temporal intervals in which particular actions occur. Such a language exploits a timed version of Abstract Argumentation Frameworks to realise a shared memory used by the agents to communicate and reason on the acceptability of their beliefs with respect to a given time interval. An interleaving model on a single processor is used for basic computation steps, with maximum parallelism for time elapsing. Following this approach, only one of the enabled agents is executed at each moment. To demonstrate the capabilities of language, we also show how it can be used to model interactions such as debates and dialogue games taking place between intelligent agents. Lastly, we present an implementation of the language that can be accessed via a web interface. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2023-07-10 14:54:44 公開日:2023-07-07
# 戦略的非局所分布シフトのための結合勾配流れ

Coupled Gradient Flows for Strategic Non-Local Distribution Shift ( http://arxiv.org/abs/2307.01166v2 )

ライセンス: Link先を確認
Lauren Conger, Franca Hoffmann, Eric Mazumdar, Lillian Ratliff(参考訳) 本稿では,学習アルゴリズムとデプロイ対象の分布のフィードバックループをキャプチャする,実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。 先行研究は主に、フィードバックによって引き起こされる分布シフトを敵対的あるいは過度に単純化された分布シフト構造を通してモデル化する。 これとは対照的に,アルゴリズム決定,非局所内在性集団間相互作用,および他の外因性分布シフトの源泉に対する戦略応答から生じる複雑なダイナミクスを考慮し,時間とともに分布のきめ細かい変化を捉える結合偏微分方程式モデルを提案する。 機械学習では,情報非対称性を伴う協調的な設定と,学習者が戦略的ユーザと直面する競争的な設定の2つが共通する。 これらの2つの設定において、アルゴリズムが勾配降下によって再訓練されると、モデルパラメーターの観点から明示的な速度を得るために、有限次元と無限次元の両方において、再訓練手順の漸近収束が証明される。 そのため、多種多様なシステムで知られていることを拡張した結合PDEの収束に関する新たな結果を得る。 実験により,本手法はより単純なモデルでは捉えられない偏極や異なる影響など,十分に文書化された形態の分布変化を捉えることができることを示した。

We propose a novel framework for analyzing the dynamics of distribution shift in real-world systems that captures the feedback loop between learning algorithms and the distributions on which they are deployed. Prior work largely models feedback-induced distribution shift as adversarial or via an overly simplistic distribution-shift structure. In contrast, we propose a coupled partial differential equation model that captures fine-grained changes in the distribution over time by accounting for complex dynamics that arise due to strategic responses to algorithmic decision-making, non-local endogenous population interactions, and other exogenous sources of distribution shift. We consider two common settings in machine learning: cooperative settings with information asymmetries, and competitive settings where a learner faces strategic users. For both of these settings, when the algorithm retrains via gradient descent, we prove asymptotic convergence of the retraining procedure to a steady-state, both in finite and in infinite dimensions, obtaining explicit rates in terms of the model parameters. To do so we derive new results on the convergence of coupled PDEs that extends what is known on multi-species systems. Empirically, we show that our approach captures well-documented forms of distribution shifts like polarization and disparate impacts that simpler models cannot capture.
翻訳日:2023-07-10 14:47:52 公開日:2023-07-07
# 量子調和振動子と相互作用する重力波のルイス位相とベリー位相

Lewis and Berry phases for a gravitational wave interacting with a quantum harmonic oscillator ( http://arxiv.org/abs/2307.00901v2 )

ライセンス: Link先を確認
Soham Sen, Manjari Dutta and Sunandan Gangopadhyay(参考訳) 本研究では、横トラスレスゲージにおける量子調和振動子と相互作用する重力波について考察する。 重力波は、最初はプラス偏光とクロス偏光の両方のシグネチャを持っている。 次に、位置変数と運動量変数の両方からの二次次寄与のみを考慮しつつ、可能な限り一般的な形式を用いてルイス不変量の適切な形式を求める。 さらに進むために、第1と第2の空間座標の観点で分離可能なハミルトニアンを得るクロス項をドロップする。 次に、系のハミルトニアン全体の分離可能部分に対応する2つのルイス不変量を得る。 両方のルイス不変量を用いて、エルマコフ・ピンニー方程式を2つ得ることができ、そこから対応するルイス相と最終的にシステム全体のベリー相が得られる。 最後に、高調波発振器周波数の異なる平面偏極重力波に対するベリー位相の明示的な表現を得る。

In this work, we consider a gravitational wave interacting with a quantum harmonic oscillator in the transverse-traceless gauge. We take the gravitational wave to be carrying the signatures of both plus and cross polarization at first. We then try to obtain a suitable form of the Lewis invariant using the most general form possible while considering only quadratic order contributions from both position and momentum variables. In order to progress further, we then drop the cross terms obtaining a separable Hamiltonian in terms of the first and the second spatial coordinates. We then obtain two Lewis invariants corresponding to each separable parts of the entire Hamiltonian of the system. Using both Lewis invariants, one can obtain two Ermakov-Pinney equations, from which we finally obtain the corresponding Lewis phase and eventually the Berry phase for the entire system. Finally, we obtain some explicit expressions of the Berry phase for a plane polarized gravitational wave with different choices of the harmonic oscillator frequency.
翻訳日:2023-07-10 14:47:28 公開日:2023-07-07
# LXL:4次元イメージングレーダとカメラフュージョンを用いたLiDARによるリーン3次元物体検出

LXL: LiDAR Excluded Lean 3D Object Detection with 4D Imaging Radar and Camera Fusion ( http://arxiv.org/abs/2307.00724v2 )

ライセンス: Link先を確認
Weiyi Xiong, Jianan Liu, Tao Huang, Qing-Long Han, Yuxuan Xia, Bing Zhu(参考訳) 新興技術であり比較的手頃な価格の装置であるこの4Dイメージングレーダーは、自動運転における3Dオブジェクト検出にすでに有効であることが確認されている。 しかし、4Dレーダーポイント雲の空間とノイズはさらなる性能向上を妨げ、他のモードとの融合に関する詳細な研究は欠如している。 一方, カメラを用いた知覚手法の多くは, lift-splat-shoot (lss) で提案されている「奥行きベースのスプラッティング」により, 抽出された画像視点特徴を幾何学的に鳥眼視に変換する。 近年,イメージ・ビュー・トランスフォーメーションに「サンプリング」戦略を適用した研究がいくつかあり,画像深度予測なしでも「スプレイティング」よりも優れていた。 しかし、「サンプリング」の可能性は完全には開かれていない。 本稿では,カメラ上の「サンプリング」ビュー変換戦略と4次元イメージングレーダ融合による3次元物体検出について検討する。 提案モデルであるlxlでは,予測された画像深度分布図とレーダー3次元占有格子を用いて画像ビュー変換を補助し,radar occupancy-assisted depth-based sampling (radar occupancy-assisted depth-based sampling) と呼ぶ。 VoDとTJ4DRadSetデータセットの実験により,提案手法はベルやホイッスルを使わずに既存の3Dオブジェクト検出手法よりも優れた性能を示すことが示された。 アブレーション研究により,本手法は異なる強調設定において最良であることが証明された。

As an emerging technology and a relatively affordable device, the 4D imaging radar has already been confirmed effective in performing 3D object detection in autonomous driving. Nevertheless, the sparsity and noisiness of 4D radar point clouds hinder further performance improvement, and in-depth studies about its fusion with other modalities are lacking. On the other hand, most of the camera-based perception methods transform the extracted image perspective view features into the bird's-eye view geometrically via "depth-based splatting" proposed in Lift-Splat-Shoot (LSS), and some researchers exploit other modals such as LiDARs or ordinary automotive radars for enhancement. Recently, a few works have applied the "sampling" strategy for image view transformation, showing that it outperforms "splatting" even without image depth prediction. However, the potential of "sampling" is not fully unleashed. In this paper, we investigate the "sampling" view transformation strategy on the camera and 4D imaging radar fusion-based 3D object detection. In the proposed model, LXL, predicted image depth distribution maps and radar 3D occupancy grids are utilized to aid image view transformation, called "radar occupancy-assisted depth-based sampling". Experiments on VoD and TJ4DRadSet datasets show that the proposed method outperforms existing 3D object detection methods by a significant margin without bells and whistles. Ablation studies demonstrate that our method performs the best among different enhancement settings.
翻訳日:2023-07-10 14:47:14 公開日:2023-07-07
# robotic Manipulation Network (ROMAN) $\unicode{x2013}$ Hybrid Hierarchical Learning for Solving Complex Sequential Tasks

RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid Hierarchical Learning for Solving Complex Sequential Tasks ( http://arxiv.org/abs/2307.00125v2 )

ライセンス: Link先を確認
Eleftherios Triantafyllidis, Fernando Acero, Zhaocheng Liu and Zhibin Li(参考訳) 長いシーケンシャルなタスクの解決は、人工知能の具体化において重要な課題となる。 多様な操作スキルで多様なシーケンシャルなタスクを実行するロボットシステムを実現することは、研究の活発な領域である。 本研究では,ロボット操作における複数の複雑なタスクを長時間にわたって解決する課題を解決するために,ハイブリッド階層学習フレームワークであるロボットマニピュレーションネットワーク(ROMAN)を提案する。 ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。 様々なニューラルネットワークのアンサンブルを調整する中央操作ネットワークで構成され、それぞれが異なる組換え可能なサブタスクを専門とし、複雑な長方形操作タスクを解決するための正しいインシーケンスアクションを生成する。 実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは複雑な操作タスクの長いシーケンスを達成し,実演を超えて適応的な動作を実現するとともに,様々な感覚ノイズに対して頑健性を示す。 これらの結果は、自律的障害回復機能を備えたROMANの動的適応性の重要性と汎用性を示し、適応モータースキルを必要とする様々な自律操作タスクの可能性を強調した。

Solving long sequential tasks poses a significant challenge in embodied artificial intelligence. Enabling a robotic system to perform diverse sequential tasks with a broad range of manipulation skills is an active area of research. In this work, we present a Hybrid Hierarchical Learning framework, the Robotic Manipulation Network (ROMAN), to address the challenge of solving multiple complex tasks over long time horizons in robotic manipulation. ROMAN achieves task versatility and robust failure recovery by integrating behavioural cloning, imitation learning, and reinforcement learning. It consists of a central manipulation network that coordinates an ensemble of various neural networks, each specialising in distinct re-combinable sub-tasks to generate their correct in-sequence actions for solving complex long-horizon manipulation tasks. Experimental results show that by orchestrating and activating these specialised manipulation experts, ROMAN generates correct sequential activations for accomplishing long sequences of sophisticated manipulation tasks and achieving adaptive behaviours beyond demonstrations, while exhibiting robustness to various sensory noises. These results demonstrate the significance and versatility of ROMAN's dynamic adaptability featuring autonomous failure recovery capabilities, and highlight its potential for various autonomous manipulation tasks that demand adaptive motor skills.
翻訳日:2023-07-10 14:46:46 公開日:2023-07-07
# 古典的および量子力学による原子表面散乱の物理過程の比較

Comparison of physical processes of atom-surface scattering computed by classical and quantum dynamics ( http://arxiv.org/abs/2306.17483v3 )

ライセンス: Link先を確認
Tapas Sahoo(参考訳) 我々は,原子表面散乱の物理過程,例えばトラップ確率と平均エネルギー損失,腐食した熱表面から散乱した粒子の最終的な角分布の動的量を計算するために,古典的および量子力学シミュレーションを行った。 ここでは、垂直距離 z と水平座標 x の2つの自由度しか考慮しなくてよいように、平面内散乱に自分自身を制限した。 さらに, 表面の熱フォノン浴との相互作用により垂直座標のみが変動することが仮定された。 初期位相 - 量子力学の初期波動関数から導かれたウィグナー分布関数に従って, 系の空間変数と古典的シミュレーションのための浴が生成される。 非常に低い入射エネルギーでは、脱着した粒子と熱表面の量子力学的平均エネルギー損失は、特定の表面温度において古典的な粒子よりも小さいことが判明した。 古典シミュレーションにより得られた散乱粒子の脱出確率は表面温度の増加とともに増加することに留意する必要がある。 一方、量子速度は粒子の入射エネルギー2 meVでほぼ温度に依存し、古典的な結果と5 meVで同じ傾向を示し、量子速度は古典的な速度よりも低い。 また、古典的だけでなく量子力学においても散乱粒子の最終的な角分布が定性的に異なるが、その量は多かれ少なかれ温度に依存しない。

We have performed classical and quantum dynamical simulations to calculate dynamical quantities for physical processes of atom - surface scattering, e.g., trapping probability and average energy loss, final angular distribution of a particle scattered from a corrugated thermal surface. Here we have restricted ourselves to in-plane scattering so that only two degrees of freedom of the particle have to be considered - the vertical distance z and the horizontal coordinate x. Moreover, we assumed further that only the vertical coordinate fluctuates due to interaction with thermal phonon bath of the surface. Initial phase - space variables of the system and the bath for our classical simulations were generated according to Wigner distribution functions which were derived from initial wavefunctions of our quantum dynamics. At very low incident energy, we have found that the quantum mechanical average energy loss of the escaped particle from the corrugated as well as thermal surface are smaller than the classical ones at a particular surface temperature. It is important to note that the rate of escaping probability of the scattered particle obtained by classical simulation increases with increasing surface temperature. On the other hand, quantum rate is almost temperature independent at 2 meV incident energy of the particle, whereas it shows same trend with the classical results at 5 meV and the quantum rate is lower than the classical rate. We have also noticed that the final angular distributions of the scattered particle both for classical as well as quantum dynamics are qualitatively different but the quantities are more or less temperature independent.
翻訳日:2023-07-10 14:46:21 公開日:2023-07-07
# トースターを補う - AIのための新しい自己認識テスト

Suffering Toasters -- A New Self-Awareness Test for AI ( http://arxiv.org/abs/2306.17258v2 )

ライセンス: Link先を確認
Ira Wolfson(参考訳) 人工知能(AI)の文脈における知性の定義は広く受け入れられている。 AIパラダイムやアーキテクチャ、ツールの急速な開発により、AIの意識が自然に生まれる可能性はかつてないほど高くなっています。 本稿では,現在行われているすべての知能検査は,人間が直感的に知覚する知能の存在や欠如を示すには不十分であると主張する。 我々は、科学哲学、心理学、その他の研究分野のアイデアを導き、人工知能、自己認識、機関の問題をより明確に定義する。 さらに,人工自己認識のための新しいヒューリスティックアプローチを提案し,その実装の概要を示す。 最後に,この新たなヒューリスティックから生じる,哲学的あるいは実装指向的な疑問について論じる。

A widely accepted definition of intelligence in the context of Artificial Intelligence (AI) still eludes us. Due to our exceedingly rapid development of AI paradigms, architectures, and tools, the prospect of naturally arising AI consciousness seems more likely than ever. In this paper, we claim that all current intelligence tests are insufficient to point to the existence or lack of intelligence \textbf{as humans intuitively perceive it}. We draw from ideas in the philosophy of science, psychology, and other areas of research to provide a clearer definition of the problems of artificial intelligence, self-awareness, and agency. We furthermore propose a new heuristic approach to test for artificial self-awareness and outline a possible implementation. Finally, we discuss some of the questions that arise from this new heuristic, be they philosophical or implementation-oriented.
翻訳日:2023-07-10 14:45:57 公開日:2023-07-07
# LyricWhiz: ChatGPTへのWhisperingによるロバストな多言語ゼロショット歌詞の転写

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT ( http://arxiv.org/abs/2306.17103v2 )

ライセンス: Link先を確認
Le Zhuo, Ruibin Yuan, Jiahao Pan, Yinghao Ma, Yizhi LI, Ge Zhang, Si Liu, Roger Dannenberg, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wenhu Chen, Wei Xue, Yike Guo(参考訳) LyricWhizは,岩や金属といった難易度の高いジャンルであっても,様々な歌詞の書き起こしデータセットに対して最先端のパフォーマンスを実現する,頑健で多言語的,ゼロショットの自動書き起こし方式である。 本稿では,弱教師付き頑健な音声認識モデルであるWhisperと,今日のチャットベース大規模言語モデルであるGPT-4を利用する。 提案手法では,音声の書き起こしによって「耳」として,gpt-4は「脳」として機能し,文脈的出力選択と修正のための強力な性能を持つ注釈器として機能する。 実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低減し,複数の言語で効率的に歌詞を転写できることがわかった。 さらに,LyricWhiz を用いて,MTG-Jamendo に基づく CC-BY-NC-SA 著作権ライセンスによる,初めて公開された大規模多言語文字起こしデータセットを作成し,騒音レベルの推定と評価を行う。 提案手法とデータセットは,多言語による歌詞の書き起こし,難易度の高いタスクの開発を推し進めることが期待できる。

We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.
翻訳日:2023-07-10 14:45:44 公開日:2023-07-07
# エピソードなメタトレーニングのオーバーフィッティングを理解する

Understanding the Overfitting of the Episodic Meta-training ( http://arxiv.org/abs/2306.16873v2 )

ライセンス: Link先を確認
Siqi Hui, Sanping Zhou, Ye deng, Jinjun Wang(参考訳) 2段階のいくつかの分類法の成功にもかかわらず、エピソードなメタトレーニング段階では、モデルは厳しいオーバーフィッティングに苦しむ。 我々は、このモデルが、新しいクラス一般化を抑圧しながら、基礎クラス識別に適した表面的特徴を過剰に学習すること、すなわち、過剰な差別によって引き起こされると仮定する。 過度な差別を罰するために,教師モデルから新たな一般化知識を維持するための知識蒸留技術を導入する。 具体的には,教師モデルの線形分類器の出力分布と生徒モデルの出力分布との間には,メタトレーニング中の検証精度が最もよい教師モデルを選択し,対称kullback-leibler (skl) の発散を制限する。 この単純なアプローチは、標準的なメタトレーニングプロセスより優れている。 さらに,メタトレーニングのためのNearest Neighbor Symmetric Kullback-Leibler (NNSKL) の分岐を提案し,知識蒸留技術の限界を推し進める。 NNSKLは、クエリの埋め込みとサポートセンターの関係に影響を及ぼす近隣の分類器の出力を入力し、ペナルティ化する。 メタトレーニングにおいてsklとnnsklを組み合わせることで、モデルはさらに優れたパフォーマンスを実現し、いくつかのベンチマークで最先端の結果を上回っている。

Despite the success of two-stage few-shot classification methods, in the episodic meta-training stage, the model suffers severe overfitting. We hypothesize that it is caused by over-discrimination, i.e., the model learns to over-rely on the superficial features that fit for base class discrimination while suppressing the novel class generalization. To penalize over-discrimination, we introduce knowledge distillation techniques to keep novel generalization knowledge from the teacher model during training. Specifically, we select the teacher model as the one with the best validation accuracy during meta-training and restrict the symmetric Kullback-Leibler (SKL) divergence between the output distribution of the linear classifier of the teacher model and that of the student model. This simple approach outperforms the standard meta-training process. We further propose the Nearest Neighbor Symmetric Kullback-Leibler (NNSKL) divergence for meta-training to push the limits of knowledge distillation techniques. NNSKL takes few-shot tasks as input and penalizes the output of the nearest neighbor classifier, which possesses an impact on the relationships between query embedding and support centers. By combining SKL and NNSKL in meta-training, the model achieves even better performance and surpasses state-of-the-art results on several benchmarks.
翻訳日:2023-07-10 14:45:17 公開日:2023-07-07
# 逆攻撃による深部画像復調モデルの同時性およびロバスト性の評価

Evaluating Similitude and Robustness of Deep Image Denoising Models via Adversarial Attack ( http://arxiv.org/abs/2306.16050v2 )

ライセンス: Link先を確認
Jie Ning, Jiebao Sun, Yao Li, Zhichang Guo, Wangmeng Zuo(参考訳) ディープニューラルネットワーク(DNN)は、従来の画像復調アルゴリズムと比較して優れたパフォーマンスを示している。 しかし、DNNは敵の攻撃に直面しながら必然的に脆弱である。 本稿では,雑音分布をほぼ一定に保ちながら,現在のディープ・ディープ・ディープ・デノナイジング・モデル全てを効果的に攻撃できるデノナイジング・PGDという対向攻撃手法を提案する。 現在主流となっている非盲検モデル (DnCNN, FFDNet, ECNDNet, BRDNet), 盲検モデル (DnCNN-B, Noise2Noise, RDDCNN-B, FAN), プラグ・アンド・プレイ(DPIR, CurvPnP) および展開復調モデル (DeamNet) は,それぞれ,グレースケールとカラーイメージに設定されたほぼ同一の逆検サンプルを共有している。 共有対数サンプル集合は、これらのモデルが全ての試験サンプルの近傍の局所的挙動の観点から類似していることを示している。 そこで本研究では,ロバストネス同時性と呼ばれるモデルの局所的類似度を測定する指標を提案する。 ハイブリッド駆動のモデルは純粋なデータ駆動の非ブリンドの同期モデルと高いロバスト性を持つのに対し、非ブリンドの同期モデルは互いに高いロバスト性を持つ。 堅牢性評価によると、データ駆動型非盲検モデルは最も堅牢である。 我々は敵の攻撃に対する脆弱性を補完するために敵の訓練を使用する。 さらに、BM3Dのモデル駆動画像は、敵攻撃に対する耐性を示す。

Deep neural networks (DNNs) have shown superior performance comparing to traditional image denoising algorithms. However, DNNs are inevitably vulnerable while facing adversarial attacks. In this paper, we propose an adversarial attack method named denoising-PGD which can successfully attack all the current deep denoising models while keep the noise distribution almost unchanged. We surprisingly find that the current mainstream non-blind denoising models (DnCNN, FFDNet, ECNDNet, BRDNet), blind denoising models (DnCNN-B, Noise2Noise, RDDCNN-B, FAN), plug-and-play (DPIR, CurvPnP) and unfolding denoising models (DeamNet) almost share the same adversarial sample set on both grayscale and color images, respectively. Shared adversarial sample set indicates that all these models are similar in term of local behaviors at the neighborhood of all the test samples. Thus, we further propose an indicator to measure the local similarity of models, called robustness similitude. Non-blind denoising models are found to have high robustness similitude across each other, while hybrid-driven models are also found to have high robustness similitude with pure data-driven non-blind denoising models. According to our robustness assessment, data-driven non-blind denoising models are the most robust. We use adversarial training to complement the vulnerability to adversarial attacks. Moreover, the model-driven image denoising BM3D shows resistance on adversarial attacks.
翻訳日:2023-07-10 14:44:53 公開日:2023-07-07
# 重み付け最適化軌道による対人訓練の強化

Enhancing Adversarial Training via Reweighting Optimization Trajectory ( http://arxiv.org/abs/2306.14275v3 )

ライセンス: Link先を確認
Tianjin Huang, Shiwei Liu, Tianlong Chen, Meng Fang, Li Shen, Vlaod Menkovski, Lu Yin, Yulong Pei and Mykola Pechenizkiy(参考訳) 敵対的トレーニングがディープニューラルネットワークの堅牢性向上のデファクト手法になっているにもかかわらず、バニラ対人トレーニングが頑強なオーバーフィッティングに悩まされ、満足のいく堅牢な一般化をもたらすことはよく知られている。 これらの欠点に対処するいくつかのアプローチが提案されている。例えば、余分な正規化、敵の重みの摂動、そして過去数年間のさらなるデータによるトレーニングなどである。 しかし、強固な一般化改善はまだ十分ではない。 本稿では,この課題に新たな視点でアプローチし,歴史的最適化の軌跡を整理する。 本稿では, 時間内学習の最適化トラジェクトリを利用する「textbf{Weighted Optimization Trajectories (WOT)」という新しい手法を提案する。 我々は,様々な対人攻撃におけるWOTの有効性を実証するための広範囲な実験を行った。 以上の結果から,wotは既存の対向訓練手法とシームレスに統合され,強固なオーバーフィッティング問題を一貫して克服し,対向ロバスト性が向上した。 例えば、WOTはAA-$L_{\infty}$アタックのAT-PGDのロバスト精度を1.53\%$\sim$6.11\%向上させ、一方SVHN、CIFAR-10、CIFAR-100、Tiny-ImageNetデータセットのクリーン精度を0.55\%$\sim$5.47\%向上させる。

Despite the fact that adversarial training has become the de facto method for improving the robustness of deep neural networks, it is well-known that vanilla adversarial training suffers from daunting robust overfitting, resulting in unsatisfactory robust generalization. A number of approaches have been proposed to address these drawbacks such as extra regularization, adversarial weights perturbation, and training with more data over the last few years. However, the robust generalization improvement is yet far from satisfactory. In this paper, we approach this challenge with a brand new perspective -- refining historical optimization trajectories. We propose a new method named \textbf{Weighted Optimization Trajectories (WOT)} that leverages the optimization trajectories of adversarial training in time. We have conducted extensive experiments to demonstrate the effectiveness of WOT under various state-of-the-art adversarial attacks. Our results show that WOT integrates seamlessly with the existing adversarial training methods and consistently overcomes the robust overfitting issue, resulting in better adversarial robustness. For example, WOT boosts the robust accuracy of AT-PGD under AA-$L_{\infty}$ attack by 1.53\% $\sim$ 6.11\% and meanwhile increases the clean accuracy by 0.55\%$\sim$5.47\% across SVHN, CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets.
翻訳日:2023-07-10 14:44:20 公開日:2023-07-07
# 抑うつ状態における音声特徴の関係--抑うつ検出の速度と性能向上のための特徴相関-

The Relationship Between Speech Features Changes When You Get Depressed: Feature Correlations for Improving Speed and Performance of Depression Detection ( http://arxiv.org/abs/2307.02892v2 )

ライセンス: Link先を確認
Fuxiang Tao, Wei Ma, Xuri Ge, Anna Esposito, Alessandro Vinciarelli(参考訳) この研究は、抑うつが音声から抽出した特徴間の相関を変化させることを示す。 さらに、このような知見を用いることで、SVMとLSTMに基づく抑うつ検知器の訓練速度と性能を向上させることができることを示す。 実験は、プロの精神科医によってうつ病と診断された58人を含む112人の話者を含む公開データセットであるAndroids Corpus上で実施された。 その結果,実験で使用したモデルでは,特徴ベクトルよりも特徴相関行列が与えられ,学習速度と性能が向上した。 誤差率の相対的な減少はモデルによって23.1%から26.6%の範囲である。 特徴相関行列は, 抑えられた話者の場合, より可変である可能性が示唆された。 それに応じて、このような現象は抑うつマーカーと考えることができる。

This work shows that depression changes the correlation between features extracted from speech. Furthermore, it shows that using such an insight can improve the training speed and performance of depression detectors based on SVMs and LSTMs. The experiments were performed over the Androids Corpus, a publicly available dataset involving 112 speakers, including 58 people diagnosed with depression by professional psychiatrists. The results show that the models used in the experiments improve in terms of training speed and performance when fed with feature correlation matrices rather than with feature vectors. The relative reduction of the error rate ranges between 23.1% and 26.6% depending on the model. The probable explanation is that feature correlation matrices appear to be more variable in the case of depressed speakers. Correspondingly, such a phenomenon can be thought of as a depression marker.
翻訳日:2023-07-10 14:38:26 公開日:2023-07-07
# 高次ネットワークにおけるDegree Heterogeneity: Inference in the Hypergraph $\boldsymbol{\beta}$-Model

Degree Heterogeneity in Higher-Order Networks: Inference in the Hypergraph $\boldsymbol{\beta}$-Model ( http://arxiv.org/abs/2307.02818v2 )

ライセンス: Link先を確認
Sagnik Nandy and Bhaswar B. Bhattacharya(参考訳) ランダムグラフに対する$\boldsymbol{\beta}$-model は、次数の不均質なネットワーク内の対関係を表現するのによく用いられる。 stasi et al. (2014) は双対相互作用を超えて、高次(多方向)相互作用を持つネットワークの次数の不均一性を捉えるハイパーグラフ $\boldsymbol{\beta}$-モデルを導入した。 本稿では,複数の層を持つハイパーグラフ $\boldsymbol{\beta}$-model の厳密な研究を開始する。 まず,最大確率(ml)推定値の収束率を導出し,最小速度の最適性を確立する。 また,ML推定の限界分布を導出し,モデルパラメータに対する漸近的に有効な信頼区間を構築する。 次に、hypergraph $\boldsymbol{\beta}$-modelにおける適合性の問題を考察する。 具体的には,ヌル仮説の下での度数比(lr)検定の漸近正規性を確立し,その検出しきい値と閾値での制限パワーを導出する。 興味深いことに、LRテストの検出しきい値はこのしきい値以下で漸近的に無力である、最小限の最適値であることが判明した。 理論的結果は数値実験でさらに検証される。 ハイパーグラフ$\boldsymbol{\beta}$-モデルの推定と推論のための理論的フレームワークの開発に加えて、上記の結果は、ml推定の最小最適性やlrテストの非null性など、グラフ$\boldsymbol{\beta}$-モデル文献の多くのギャップを埋めている。

The $\boldsymbol{\beta}$-model for random graphs is commonly used for representing pairwise interactions in a network with degree heterogeneity. Going beyond pairwise interactions, Stasi et al. (2014) introduced the hypergraph $\boldsymbol{\beta}$-model for capturing degree heterogeneity in networks with higher-order (multi-way) interactions. In this paper we initiate the rigorous study of the hypergraph $\boldsymbol{\beta}$-model with multiple layers, which allows for hyperedges of different sizes across the layers. To begin with, we derive the rates of convergence of the maximum likelihood (ML) estimate and establish their minimax rate optimality. We also derive the limiting distribution of the ML estimate and construct asymptotically valid confidence intervals for the model parameters. Next, we consider the goodness-of-fit problem in the hypergraph $\boldsymbol{\beta}$-model. Specifically, we establish the asymptotic normality of the likelihood ratio (LR) test under the null hypothesis, derive its detection threshold, and also its limiting power at the threshold. Interestingly, the detection threshold of the LR test turns out to be minimax optimal, that is, all tests are asymptotically powerless below this threshold. The theoretical results are further validated in numerical experiments. In addition to developing the theoretical framework for estimation and inference for hypergraph $\boldsymbol{\beta}$-models, the above results fill a number of gaps in the graph $\boldsymbol{\beta}$-model literature, such as the minimax optimality of the ML estimates and the non-null properties of the LR test, which, to the best of our knowledge, have not been studied before.
翻訳日:2023-07-10 14:38:13 公開日:2023-07-07
# データサイエンス教育は大規模言語モデルで何をすべきか?

What Should Data Science Education Do with Large Language Models? ( http://arxiv.org/abs/2307.02792v2 )

ライセンス: Link先を確認
Xinming Tu, James Zou, Weijie J. Su, Linjun Zhang(参考訳) ChatGPTのような大規模言語モデル(LLM)の急速な進歩は、データサイエンスと統計学に革命をもたらしている。 これらの最先端ツールは複雑なプロセスを合理化する。 その結果、データサイエンティストの役割が再認識される。 LLMはデータサイエンティストの責務を転換し、手作業によるコーディング、データラングリング、標準分析から、これらの自動化AIによる分析の評価と管理へと焦点を移している、と私たちは主張する。 この役割の進化は、ソフトウェアエンジニアからプロダクトマネージャへの移行を思い起こさせる。 本稿では, LLMを用いた具体的なデータサイエンスケーススタディを用いて, この変遷を説明する。 これらの発展は、データサイエンス教育において有意義な進化を必要とする。 教育は、LLMインフォームドクリエイティビティ、批判的思考、AI誘導プログラミングなど、学生の間で多様なスキルセットの育成に重点を置く必要がある。 LLMは教室でインタラクティブな教育と学習ツールとして重要な役割を担い、パーソナライズされた教育に寄与する。 本稿では,これら各方向性に対する機会,資源,オープンな課題について論じる。 あらゆるトランスフォーメーション技術と同様に、教育にllmを統合するには慎重に検討する必要がある。 LLMは反復作業を効率的に行うことができますが、その役割は人間の知性と創造性を補うことであり、それを置き換えることではありません。 したがって、データサイエンス教育の新しい時代は、人間の専門知識とイノベーションを補完しながら、llmの利点のバランスをとるべきである。 結論として、LLMの台頭はデータサイエンスとその教育の転換期を告げている。 本稿は,このパラダイムシフトに伴う新たなトレンド,潜在的な機会,課題を浮き彫りにし,エキサイティングで未解決な領域に関するさらなる談話や調査のきっかけとなることを願っている。

The rapid advances of large language models (LLMs), such as ChatGPT, are revolutionizing data science and statistics. These state-of-the-art tools can streamline complex processes. As a result, it reshapes the role of data scientists. We argue that LLMs are transforming the responsibilities of data scientists, shifting their focus from hands-on coding, data-wrangling and conducting standard analyses to assessing and managing analyses performed by these automated AIs. This evolution of roles is reminiscent of the transition from a software engineer to a product manager. We illustrate this transition with concrete data science case studies using LLMs in this paper. These developments necessitate a meaningful evolution in data science education. Pedagogy must now place greater emphasis on cultivating diverse skillsets among students, such as LLM-informed creativity, critical thinking, AI-guided programming. LLMs can also play a significant role in the classroom as interactive teaching and learning tools, contributing to personalized education. This paper discusses the opportunities, resources and open challenges for each of these directions. As with any transformative technology, integrating LLMs into education calls for careful consideration. While LLMs can perform repetitive tasks efficiently, it's crucial to remember that their role is to supplement human intelligence and creativity, not to replace it. Therefore, the new era of data science education should balance the benefits of LLMs while fostering complementary human expertise and innovations. In conclusion, the rise of LLMs heralds a transformative period for data science and its education. This paper seeks to shed light on the emerging trends, potential opportunities, and challenges accompanying this paradigm shift, hoping to spark further discourse and investigation into this exciting, uncharted territory.
翻訳日:2023-07-10 14:37:42 公開日:2023-07-07
# Liver $T_1\rho$マッピングと分析のための不確かさ支援フレームワーク

An Uncertainty Aided Framework for Learning based Liver $T_1\rho$ Mapping and Analysis ( http://arxiv.org/abs/2307.02736v2 )

ライセンス: Link先を確認
Chaoxing Huang, Vincent Wai Sun Wong, Queenie Chan, Winnie Chiu Wing Chu, Weitian Chen(参考訳) 目的:$T_1\rho$イメージングは肝疾患の生化学的変化を評価する可能性がある。 定量的なT_1\rho$イメージングを加速するために深層学習法が用いられている。 複雑な臨床環境において人工知能を用いた定量的イメージング手法を採用するためには,推定された$t_1\rho$値の不確かさを推定し,定量化結果の信頼性レベルを提供することが重要である。 この不確実性は、ポストホックな定量的分析とモデル学習タスクを支援するためにも活用されるべきである。 アプローチ:このニーズに対処するために、学習ベースの$t_1\rho$マッピングのためのパラメトリックマップリファインメントアプローチを提案し、不確かさをモデル化するための確率的方法でモデルを訓練する。 また,改良された$t_1\rho$マッピングネットワークのトレーニングを空間的に重み付けて,マッピング性能をさらに向上させ,信頼できない$t_1\rho$値の画素を除去するための不確実性マップを提案する。 この枠組みは肝線維化段階の異なる51例のデータセットでテストされた。 主な結果: 学習に基づくマップリファインメント手法は, 相対的マッピング誤差が3%未満となり, 不確実性推定を同時に行なえることを示す。 推定された不確実性は実際のエラーレベルを反映しており、相対的に$t_1\rho$マッピングエラーを2.60%に削減し、関心領域の信頼できないピクセルを効果的に除去するために使用できる。 意義:本研究は肝のT_1\rho$マッピングに学習に基づく定量的MRIシステムを提供することの可能性を示した。

Objective: Quantitative $T_1\rho$ imaging has potential for assessment of biochemical alterations of liver pathologies. Deep learning methods have been employed to accelerate quantitative $T_1\rho$ imaging. To employ artificial intelligence-based quantitative imaging methods in complicated clinical environment, it is valuable to estimate the uncertainty of the predicated $T_1\rho$ values to provide the confidence level of the quantification results. The uncertainty should also be utilized to aid the post-hoc quantitative analysis and model learning tasks. Approach: To address this need, we propose a parametric map refinement approach for learning-based $T_1\rho$ mapping and train the model in a probabilistic way to model the uncertainty. We also propose to utilize the uncertainty map to spatially weight the training of an improved $T_1\rho$ mapping network to further improve the mapping performance and to remove pixels with unreliable $T_1\rho$ values in the region of interest. The framework was tested on a dataset of 51 patients with different liver fibrosis stages. Main results: Our results indicate that the learning-based map refinement method leads to a relative mapping error of less than 3% and provides uncertainty estimation simultaneously. The estimated uncertainty reflects the actual error level, and it can be used to further reduce relative $T_1\rho$ mapping error to 2.60% as well as removing unreliable pixels in the region of interest effectively. Significance: Our studies demonstrate the proposed approach has potential to provide a learning-based quantitative MRI system for trustworthy $T_1\rho$ mapping of the liver.
翻訳日:2023-07-10 14:37:14 公開日:2023-07-07
# 弾性決定変換器

Elastic Decision Transformer ( http://arxiv.org/abs/2307.02484v2 )

ライセンス: Link先を確認
Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya(参考訳) 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。 dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。 提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。 さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。 広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。 特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。 ビデオは、https://kristery.github.io/edt/で公開されている。

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/
翻訳日:2023-07-10 14:36:43 公開日:2023-07-07
# FOCUS:ロボット操作のためのオブジェクト中心の世界モデル

FOCUS: Object-Centric World Models for Robotics Manipulation ( http://arxiv.org/abs/2307.02427v2 )

ライセンス: Link先を確認
Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt(参考訳) オブジェクトの観点で世界を理解し、それらと相互作用する可能性を理解することは重要な認識能力であり、特にロボット操作において、多くのタスクがロボットとオブジェクトの相互作用を必要とする。 しかし、エンティティや関係を特に捉えるような構造化された世界モデルを学ぶことは、困難で未解決の課題である。 そこで我々は,オブジェクト中心の世界モデルを学ぶモデルベースエージェントであるfocusを提案する。 オブジェクト中心の表現に由来する新しい探索ボーナスのおかげで、FOCUSはロボット操作タスクにデプロイされ、オブジェクト間の相互作用をより容易に探索することができる。 異なる設定でのタスク操作に対するアプローチを評価することで、オブジェクト中心の世界モデルにより、エージェントがタスクをより効率的に解決し、ロボットとオブジェクトの相互作用を一貫した探索を可能にすることを示す。 また、Franka Emikaロボットアームを使って、FOCUSが現実世界の環境でどのように採用されるかを示す。

Understanding the world in terms of objects and the possible interplays with them is an important cognition ability, especially in robotics manipulation, where many tasks require robot-object interactions. However, learning such a structured world model, which specifically captures entities and relationships, remains a challenging and underexplored problem. To address this, we propose FOCUS, a model-based agent that learns an object-centric world model. Thanks to a novel exploration bonus that stems from the object-centric representation, FOCUS can be deployed on robotics manipulation tasks to explore object interactions more easily. Evaluating our approach on manipulation tasks across different settings, we show that object-centric world models allow the agent to solve tasks more efficiently and enable consistent exploration of robot-object interactions. Using a Franka Emika robot arm, we also showcase how FOCUS could be adopted in real-world settings.
翻訳日:2023-07-10 14:36:03 公開日:2023-07-07
# VNHSGE英語データセットにおける大規模言語モデルの性能比較:OpenAI ChatGPT, Microsoft Bing Chat, Google Bard

Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard ( http://arxiv.org/abs/2307.02288v2 )

ライセンス: Link先を確認
Xuan-Quy Dao(参考訳) 本稿では,VNHSGEの英語データセット上で,OpenAI ChatGPT,Microsoft Bing Chat,Google Bardの3つの大規模言語モデル(LLM)の性能比較を行った。 結果は、BingChatがChatGPTやBardより優れていることを示している。 したがって、BingChatとBardはChatGPTを置き換えることができるが、ChatGPTはベトナムでは公式には利用できない。 結果は、ChatGPT、Bing Chat、Bardが、英語の習熟度でベトナムの学生より優れていたことを示唆している。 本研究の成果は、英語教育におけるllmの可能性の理解に寄与している。 ChatGPT、Bing Chat、Bardの顕著なパフォーマンスは、高校レベルで英語を教え学習するための効果的なツールとしての可能性を示している。

This paper presents a performance comparison of three large language models (LLMs), namely OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard, on the VNHSGE English dataset. The results show that BingChat is better than ChatGPT and Bard. Therefore, BingChat and Bard can replace ChatGPT while ChatGPT is not yet officially available in Vietnam. The results also indicate that ChatGPT, Bing Chat, and Bard outperform Vietnamese students in English language proficiency. The findings of this study contribute to the understanding of the potential of LLMs in English language education. The remarkable performance of ChatGPT, Bing Chat, and Bard demonstrates their potential as effective tools for teaching and learning English at the high school level.
翻訳日:2023-07-10 14:35:48 公開日:2023-07-07
# ディープラーニングアーキテクチャにまたがる特徴属性の調和:解釈可能性と一貫性の強化

Harmonizing Feature Attributions Across Deep Learning Architectures: Enhancing Interpretability and Consistency ( http://arxiv.org/abs/2307.02150v2 )

ライセンス: Link先を確認
Md Abdul Kadir, Gowtham Krishna Addluri, Daniel Sonntag(参考訳) 機械学習モデルの信頼性と解釈可能性を保証することは、現実のアプリケーションへのデプロイに不可欠である。 個々の入力特徴に重きを置くことによってモデル予測の局所的な説明を提供する機能帰属法が注目されている。 本研究では,畳み込みニューラルネットワーク(cnns)や視覚トランスフォーマーなど,さまざまなディープラーニングアーキテクチャにおける特徴帰属の一般化について検討する。 本研究の目的は,特徴属性法を将来の検出器として活用することの実現可能性を評価し,これらの特徴を異なるアーキテクチャを用いた複数のモデルで調和させる方法を検討することである。 この調和を探求することで,特徴帰属に関するより一貫性と楽観的な理解を深め,多種多様なディープラーニングモデルにおける局所的説明の一貫性を高めることを目指す。 本研究は, アーキテクチャによらず, 解釈可能性の向上と機械学習アプリケーションの信頼性向上を目的とした, 調和した特徴属性手法の可能性を強調した。

Ensuring the trustworthiness and interpretability of machine learning models is critical to their deployment in real-world applications. Feature attribution methods have gained significant attention, which provide local explanations of model predictions by attributing importance to individual input features. This study examines the generalization of feature attributions across various deep learning architectures, such as convolutional neural networks (CNNs) and vision transformers. We aim to assess the feasibility of utilizing a feature attribution method as a future detector and examine how these features can be harmonized across multiple models employing distinct architectures but trained on the same data distribution. By exploring this harmonization, we aim to develop a more coherent and optimistic understanding of feature attributions, enhancing the consistency of local explanations across diverse deep-learning models. Our findings highlight the potential for harmonized feature attribution methods to improve interpretability and foster trust in machine learning applications, regardless of the underlying architecture.
翻訳日:2023-07-10 14:35:33 公開日:2023-07-07
# ワッサースタイン勾配流を有する粒子系距離GANの安定性解析フレームワーク

Stability Analysis Framework for Particle-based Distance GANs with Wasserstein Gradient Flow ( http://arxiv.org/abs/2307.01879v2 )

ライセンス: Link先を確認
Chuqi Chen, Yue Wu, Yang Xiang(参考訳) 本稿では, MMD GAN, Cram\er GAN, EIEG GAN などの目的関数として, 粒子ベース距離と呼ばれる確率密度距離を用いた生成ネットワークの学習過程について検討する。 しかし、これらのガンはしばしば不安定な訓練の問題に苦しむ。 本稿では,これらのGANの学習過程の安定性を,確率密度力学の観点から解析する。 本フレームワークでは,高次元データを特徴空間にマッピングする特徴変換写像として,識別器$D$を,ジェネレータ$G$は特徴空間の観点から実データに似たサンプルにランダム変数をマッピングする。 この観点からは,確率密度関数のwasserstein勾配流を用いてgansトレーニングの安定性解析を行うことができる。 GANの$\min_G \max_D E(G, D)$の定式化により、判別器のトレーニングプロセスは通常不安定である。 この問題に対処するため、判別器損失関数に安定化項を追加する。 安定解析と安定化法を検証する実験を行った。

In this paper, we investigate the training process of generative networks that use a type of probability density distance named particle-based distance as the objective function, e.g. MMD GAN, Cram\'er GAN, EIEG GAN. However, these GANs often suffer from the problem of unstable training. In this paper, we analyze the stability of the training process of these GANs from the perspective of probability density dynamics. In our framework, we regard the discriminator $D$ in these GANs as a feature transformation mapping that maps high dimensional data into a feature space, while the generator $G$ maps random variables to samples that resemble real data in terms of feature space. This perspective enables us to perform stability analysis for the training of GANs using the Wasserstein gradient flow of the probability density function. We find that the training process of the discriminator is usually unstable due to the formulation of $\min_G \max_D E(G, D)$ in GANs. To address this issue, we add a stabilizing term in the discriminator loss function. We conduct experiments to validate our stability analysis and stabilizing method.
翻訳日:2023-07-10 14:35:16 公開日:2023-07-07
# IPO-LDM:潜伏拡散モデルによる深度360度の室内RGBパノラマ画

IPO-LDM: Depth-aided 360-degree Indoor RGB Panorama Outpainting via Latent Diffusion Model ( http://arxiv.org/abs/2307.03177v2 )

ライセンス: Link先を確認
Tianhao Wu, Chuanxia Zheng, Tat-Jen Cham(参考訳) 狭視野画像から完全な360度パノラマを生成することは、全方位RGBデータが容易に利用できないため、現在進行中である。 既存のGANベースのアプローチは、高品質な出力を実現するための障壁に直面し、異なるマスクタイプに対する一般化性能が劣る。 本稿では,潜伏拡散モデル (LDM) を用いた360度室内RGBパノラマ露光モデルであるIPO-LDMを提案する。 トレーニング中にRGBと深度パノラマデータの両方を利用する新しいバイモーダル潜伏拡散構造を導入するが、推定時に正常な深度のないRGB画像よりも驚くほどよく機能する。 さらに,拡散分別ステップ毎にプログレッシブカメラ回転を導入する新しい手法を提案する。 その結果、当社のIPO-LDMは、RGBパノラマのパノラマ画における最先端の手法よりも優れており、さまざまな種類のマスクに対して、多様かつ多様に構造化された結果を得ることができることがわかった。

Generating complete 360-degree panoramas from narrow field of view images is ongoing research as omnidirectional RGB data is not readily available. Existing GAN-based approaches face some barriers to achieving higher quality output, and have poor generalization performance over different mask types. In this paper, we present our 360-degree indoor RGB panorama outpainting model using latent diffusion models (LDM), called IPO-LDM. We introduce a new bi-modal latent diffusion structure that utilizes both RGB and depth panoramic data during training, but works surprisingly well to outpaint normal depth-free RGB images during inference. We further propose a novel technique of introducing progressive camera rotations during each diffusion denoising step, which leads to substantial improvement in achieving panorama wraparound consistency. Results show that our IPO-LDM not only significantly outperforms state-of-the-art methods on RGB panorama outpainting, but can also produce multiple and diverse well-structured results for different types of masks.
翻訳日:2023-07-10 14:26:08 公開日:2023-07-07
# 言語モデルから多値関係を抽出する

Extracting Multi-valued Relations from Language Models ( http://arxiv.org/abs/2307.03122v2 )

ライセンス: Link先を確認
Sneha Singhania, Simon Razniewski, Gerhard Weikum(参考訳) 事前学習言語モデル(lms)による潜在言語表現の普及は、それらが構造化知識の有望な源であることを示唆している。 しかし、既存の手法では、複数のオブジェクトが正しい場合が多いにもかかわらず、対象-関係ペア当たりの1つのオブジェクトにのみフォーカスする。 この制限を克服するために、我々はこれらの表現を分析して、物質化された多目的関係知識を得る。 我々はこの問題をランク選択タスクとして定式化する。 候補オブジェクトのランク付けには,既存のプロンプト技術を評価し,ドメイン知識を取り入れた新しい手法を提案する。 選択法のうち、学習された関係性特異しきい値よりも高い確率で対象を選択すると、49.5%のF1スコアが得られる。 本研究は,多値スロット充足作業におけるlmsの活用の難しさを浮き彫りにし,潜在言語表現から関係知識を抽出するためのさらなる研究の道を開く。

The widespread usage of latent language representations via pre-trained language models (LMs) suggests that they are a promising source of structured knowledge. However, existing methods focus only on a single object per subject-relation pair, even though often multiple objects are correct. To overcome this limitation, we analyze these representations for their potential to yield materialized multi-object relational knowledge. We formulate the problem as a rank-then-select task. For ranking candidate objects, we evaluate existing prompting techniques and propose new ones incorporating domain knowledge. Among the selection methods, we find that choosing objects with a likelihood above a learned relation-specific threshold gives a 49.5% F1 score. Our results highlight the difficulty of employing LMs for the multi-valued slot-filling task and pave the way for further research on extracting relational knowledge from latent language representations.
翻訳日:2023-07-10 14:25:37 公開日:2023-07-07
# ロボットシステムの効率性向上 : 人間のエキスパートに人工的を加える

Improving the Efficiency of Human-in-the-Loop Systems: Adding Artificial to Human Experts ( http://arxiv.org/abs/2307.03003v2 )

ライセンス: Link先を確認
Johannes Jakubik, Daniel Weber, Patrick Hemmer, Michael V\"ossing, Gerhard Satzger(参考訳) 情報システムは人工知能(AI)と機械学習(ML)を活用して、膨大なデータから価値を生み出す。 しかし、MLモデルは不完全であり、誤った分類を生成することができる。 したがって、MLモデルへのHuman-in-the-loop(HITL)拡張は、分類が難しいインスタンスのヒューマンレビューを追加する。 この研究は、難しいモデルの分類を扱うために人間の専門家を継続的に頼りにすることは、限られた資源を圧迫する人間の努力を強力に増加させると主張している。 この問題に対処するために,人間専門家が以前にレビューした未知のクラスからデータインスタンスを分類することを学ぶ人工専門家を作成するハイブリッドシステムを提案する。 我々のハイブリッドシステムは、未知のクラスからインスタンスを分類するのに適した人工専門家を評価し、自動的に割り当てる。 時間が経つにつれ、人間の労力が減り、システムの効率が向上します。 提案手法は,画像分類のベンチマークにおいて,従来のHITLシステムよりも優れていることを示す。

Information systems increasingly leverage artificial intelligence (AI) and machine learning (ML) to generate value from vast amounts of data. However, ML models are imperfect and can generate incorrect classifications. Hence, human-in-the-loop (HITL) extensions to ML models add a human review for instances that are difficult to classify. This study argues that continuously relying on human experts to handle difficult model classifications leads to a strong increase in human effort, which strains limited resources. To address this issue, we propose a hybrid system that creates artificial experts that learn to classify data instances from unknown classes previously reviewed by human experts. Our hybrid system assesses which artificial expert is suitable for classifying an instance from an unknown class and automatically assigns it. Over time, this reduces human effort and increases the efficiency of the system. Our experiments demonstrate that our approach outperforms traditional HITL systems for several benchmarks on image classification.
翻訳日:2023-07-10 14:24:49 公開日:2023-07-07
# マルチモーダル時系列データを用いた自己教師付き学習による再帰的ストレスイベントの予測

Personalized Prediction of Recurrent Stress Events Using Self-Supervised Learning on Multimodal Time-Series Data ( http://arxiv.org/abs/2307.03337v1 )

ライセンス: Link先を確認
Tanvir Islam, Peter Washington(参考訳) 慢性ストレスは身体と精神の健康に大きな影響を及ぼす。 ウェアラブル技術の出現により、生理的信号の追跡が可能になり、革新的なストレス予測と介入方法につながる可能性がある。 しかし、ラベルの不足やデータの均一性といった課題は、実際にストレス予測を困難にしている。 これらの問題を解決するために,ウェアラブルバイオサインデータを用いたマルチモーダルパーソナライズストレス予測システムを開発した。 自己教師付き学習(SSL)を用いて各被験者のデータ上のモデルを事前学習し、ストレス予測タスクを微調整する前に参加者の生体信号のベースラインダイナミクスを学習する。 wesad(wearture stress and affect detection)データセットでモデルをテストすることにより、sslモデルは、アノテーションの5%未満を活用しながら、非sslモデルよりも優れています。 これらの結果は,各ユーザに対するストレス予測を最小限のアノテーションでパーソナライズできることを示唆する。 このパラダイムは、複雑なマルチモーダルデータストリームを使用して、繰り返し発生するさまざまな健康イベントのパーソナライズされた予測を可能にする可能性がある。

Chronic stress can significantly affect physical and mental health. The advent of wearable technology allows for the tracking of physiological signals, potentially leading to innovative stress prediction and intervention methods. However, challenges such as label scarcity and data heterogeneity render stress prediction difficult in practice. To counter these issues, we have developed a multimodal personalized stress prediction system using wearable biosignal data. We employ self-supervised learning (SSL) to pre-train the models on each subject's data, allowing the models to learn the baseline dynamics of the participant's biosignals prior to fine-tuning the stress prediction task. We test our model on the Wearable Stress and Affect Detection (WESAD) dataset, demonstrating that our SSL models outperform non-SSL models while utilizing less than 5% of the annotations. These results suggest that our approach can personalize stress prediction to each user with minimal annotations. This paradigm has the potential to enable personalized prediction of a variety of recurring health events using complex multimodal data streams.
翻訳日:2023-07-10 13:48:37 公開日:2023-07-07
# 符号化データ構造を用いた変分量子回帰アルゴリズム

Variational quantum regression algorithm with encoded data structure ( http://arxiv.org/abs/2307.03334v1 )

ライセンス: Link先を確認
C.-C. Joseph Wang and Ryan S. Bennink(参考訳) 変分量子アルゴリズム(vqas)は、組合せ最適化、量子化学シミュレーション、量子機械学習、ノイズ量子コンピュータ上の量子誤差補正といった実用的な問題を解決するために用いられる。 変分量子機械学習では、アルゴリズムに組み込まれたモデル解釈性を持つ変分アルゴリズムはまだ活用されていない。 本稿では、古典的データテーブルの構造を反映した量子振幅でデータを直接符号化する回路を用いて、量子回帰アルゴリズムを構築し、学習された回帰係数に対する変動パラメータの直接関係を同定する。 このアルゴリズムは、よく接続された量子ビットに特に適している。 With compressed encoding and digital-analog gate operation, the run time complexity is logarithmically more advantageous than that for digital 2-local gate native hardware with the number of data entries encoded, a decent improvement in noisy intermediate-scale quantum computers and a minor improvement for large-scale quantum computing Our suggested method of compressed binary encoding offers a remarkable reduction in the number of physical qubits needed when compared to the traditional one-hot-encoding technique with the same input data. このアルゴリズムは本質的に線形回帰を行うが、非線形特徴をトレーニングデータに組み込むことで、非線形回帰に容易に利用できる。 モデルトレーニングにおいて、良いモデルと貧弱なモデルとを区別する測定コスト関数は、コード化されたデータ構造が観測可能なレコード数よりも機能の数がはるかに少ない場合に限り有効である。 この発見とハードウェアノイズを軽減するために、正規化から重要な特徴選択を伴う量子回帰モデル学習からのアンサンブルモデルトレーニングを取り入れ、数値的に図示する。

Variational quantum algorithms (VQAs) prevail to solve practical problems such as combinatorial optimization, quantum chemistry simulation, quantum machine learning, and quantum error correction on noisy quantum computers. For variational quantum machine learning, a variational algorithm with model interpretability built into the algorithm is yet to be exploited. In this paper, we construct a quantum regression algorithm and identify the direct relation of variational parameters to learned regression coefficients, while employing a circuit that directly encodes the data in quantum amplitudes reflecting the structure of the classical data table. The algorithm is particularly suitable for well-connected qubits. With compressed encoding and digital-analog gate operation, the run time complexity is logarithmically more advantageous than that for digital 2-local gate native hardware with the number of data entries encoded, a decent improvement in noisy intermediate-scale quantum computers and a minor improvement for large-scale quantum computing Our suggested method of compressed binary encoding offers a remarkable reduction in the number of physical qubits needed when compared to the traditional one-hot-encoding technique with the same input data. The algorithm inherently performs linear regression but can also be used easily for nonlinear regression by building nonlinear features into the training data. In terms of measured cost function which distinguishes a good model from a poor one for model training, it will be effective only when the number of features is much less than the number of records for the encoded data structure to be observable. To echo this finding and mitigate hardware noise in practice, the ensemble model training from the quantum regression model learning with important feature selection from regularization is incorporated and illustrated numerically.
翻訳日:2023-07-10 13:48:18 公開日:2023-07-07
# 蒸留プルーニング: 合成データを使って宝くじを勝ち取る

Distilled Pruning: Using Synthetic Data to Win the Lottery ( http://arxiv.org/abs/2307.03364v1 )

ライセンス: Link先を確認
Luke McDermott, Daniel Cummings(参考訳) この研究は、蒸留データを用いてディープラーニングモデルを刈り取る新しいアプローチを導入する。 アーキテクチャやアルゴリズムの最適化を主眼とする従来の戦略とは異なり、我々の手法はこれらのシナリオにおけるデータの役割を再考する。 蒸留データセットは、より大きなデータセットから必須パターンをキャプチャし、この能力を活用して、計算効率の良いプルーニングプロセスを実現する方法を実証する。 我々のアプローチでは、CIFAR-10で同等の間隔でイテレーティブマグニチュード・プルーニング(Iterative Magnitude Pruning)よりも5倍高速な、スパースでトレーニング可能なサブネットワーク(Lottery Tickets)を見つけることができる。 実験結果は,資源効率のよいニューラルネットワークのプルーニング,モデル圧縮,ニューラルネットワークの探索に蒸留データを利用する可能性を強調した。

This work introduces a novel approach to pruning deep learning models by using distilled data. Unlike conventional strategies which primarily focus on architectural or algorithmic optimization, our method reconsiders the role of data in these scenarios. Distilled datasets capture essential patterns from larger datasets, and we demonstrate how to leverage this capability to enable a computationally efficient pruning process. Our approach can find sparse, trainable subnetworks (a.k.a. Lottery Tickets) up to 5x faster than Iterative Magnitude Pruning at comparable sparsity on CIFAR-10. The experimental results highlight the potential of using distilled data for resource-efficient neural network pruning, model compression, and neural architecture search.
翻訳日:2023-07-10 13:40:36 公開日:2023-07-07
# アクティブフォーミングによるフェデレーション・アンラーニング

Federated Unlearning via Active Forgetting ( http://arxiv.org/abs/2307.03363v1 )

ライセンス: Link先を確認
Yuyuan Li, Chaochao Chen, Xiaolin Zheng, Jiaming Zhang(参考訳) 機械学習モデルのプライバシに関する懸念が高まり、機械学習モデルに対するトレーニングデータの影響を除去するプロセスである機械学習の探索が触媒化されている。 この懸念は連合学習の領域でも生じており、研究者は連合未学習問題に対処するよう促している。 しかし、連帯学習は依然として困難である。 既存のアンラーニング手法は、正確にアンラーニングと近似アンラーニングの2つのアプローチに大別することができる。 まず、分散的な方法で分割集約フレームワークに依存する正確なアンラーニングを実装することは、理論的には時間効率を向上しない。 第二に、既存の連合型(ほぼ)アンラーニング手法は、不正確なデータの影響推定、かなりの計算負荷、あるいはその両方に苦しむ。 そこで本研究では,特定のモデルやフェデレーション設定に依存しない,インクリメンタル学習に基づく新しいフェデレーション学習フレームワークを提案する。 我々のフレームワークは、近似再トレーニングやデータ影響推定に依存する既存のフェデレーション学習手法とは異なる。 代わりに、我々は新しい記憶を利用して古い記憶を上書きし、神経学における‘textit{active forgetting’の過程を模倣する。 具体的には、このモデルは無作為に開始された教師モデルから継続的に学習する学生モデルとして機能する。 非ターゲットデータの破滅的な忘れを保存するために、弾性重みの固化を利用して、弾性的に重み変化を拘束する。 3つのベンチマークデータセットに対する大規模な実験により,提案手法の有効性と有効性を示した。 バックドア攻撃の結果,提案手法が完全性を満たすことを示す。

The increasing concerns regarding the privacy of machine learning models have catalyzed the exploration of machine unlearning, i.e., a process that removes the influence of training data on machine learning models. This concern also arises in the realm of federated learning, prompting researchers to address the federated unlearning problem. However, federated unlearning remains challenging. Existing unlearning methods can be broadly categorized into two approaches, i.e., exact unlearning and approximate unlearning. Firstly, implementing exact unlearning, which typically relies on the partition-aggregation framework, in a distributed manner does not improve time efficiency theoretically. Secondly, existing federated (approximate) unlearning methods suffer from imprecise data influence estimation, significant computational burden, or both. To this end, we propose a novel federated unlearning framework based on incremental learning, which is independent of specific models and federated settings. Our framework differs from existing federated unlearning methods that rely on approximate retraining or data influence estimation. Instead, we leverage new memories to overwrite old ones, imitating the process of \textit{active forgetting} in neurology. Specifically, the model, intended to unlearn, serves as a student model that continuously learns from randomly initiated teacher models. To preserve catastrophic forgetting of non-target data, we utilize elastic weight consolidation to elastically constrain weight change. Extensive experiments on three benchmark datasets demonstrate the efficiency and effectiveness of our proposed method. The result of backdoor attacks demonstrates that our proposed method achieves satisfying completeness.
翻訳日:2023-07-10 13:40:22 公開日:2023-07-07
# エージェントの計画に対する信念の相違に対処するロボットチームにおける適応とコミュニケーション

Adaptation and Communication in Human-Robot Teaming to Handle Discrepancies in Agents' Beliefs about Plans ( http://arxiv.org/abs/2307.03362v1 )

ライセンス: Link先を確認
Yuening Zhang, Brian C. Williams(参考訳) エージェントがタスクで協力する場合には、タスクルーチンの共有されたメンタルモデル -- 目標を達成するための実行可能な計画 -- を持つことが重要です。 しかし、現実には、エージェントが異なる規約に従っている場合や、一部のエージェントだけが認識している予期しない制約が発生する場合など、そのような共有されたメンタルモデルが保証できないという状況が発生することが多い。 人間のロボットチームに関するこれまでの研究は、チームが共有ルーチンのセットを持っていると仮定していた。 本研究は, 疫学的論理を利用して, エージェントが相互に実現可能な計画に関する信念の相違を理解し, その相違を解決するための行動の動的計画を可能にする。 条件付きドキサスティック論理を拡張し,知識ベースを記述し,実行可能な計画と実行状態についてエージェントのネスト化された信念を明示的に表現する形式論を提案する。 我々は,モンテカルロ木探索に基づくオンライン実行アルゴリズムを提案し,その動作を計画し,計画の実現可能性を説明し,意図を明らかにし,質問するコミュニケーション行動を含む。 最後に、アルゴリズムの成功率と拡張性を評価し、我々のエージェントが、共通のメンタルモデルの保証なしに、チームで働くことができることを示します。

When agents collaborate on a task, it is important that they have some shared mental model of the task routines -- the set of feasible plans towards achieving the goals. However, in reality, situations often arise that such a shared mental model cannot be guaranteed, such as in ad-hoc teams where agents may follow different conventions or when contingent constraints arise that only some agents are aware of. Previous work on human-robot teaming has assumed that the team has a set of shared routines, which breaks down in these situations. In this work, we leverage epistemic logic to enable agents to understand the discrepancy in each other's beliefs about feasible plans and dynamically plan their actions to adapt or communicate to resolve the discrepancy. We propose a formalism that extends conditional doxastic logic to describe knowledge bases in order to explicitly represent agents' nested beliefs on the feasible plans and state of execution. We provide an online execution algorithm based on Monte Carlo Tree Search for the agent to plan its action, including communication actions to explain the feasibility of plans, announce intent, and ask questions. Finally, we evaluate the success rate and scalability of the algorithm and show that our agent is better equipped to work in teams without the guarantee of a shared mental model.
翻訳日:2023-07-10 13:39:58 公開日:2023-07-07
# 交叉文脈における言語モデルのバイアス付き態度関係の評価

Evaluating Biased Attitude Associations of Language Models in an Intersectional Context ( http://arxiv.org/abs/2307.03360v1 )

ライセンス: Link先を確認
Shiva Omrani Sabbaghi, Robert Wolfe and Aylin Caliskan(参考訳) 言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。 社会的集団のヴァレンス・アソシエーション(不快/不快)は、社会的認知におけるグループや概念に対する偏った態度を決定する。 この確立した文献に基づいて,交叉的文脈を提供する文テンプレートを用いて,英語モデルにおける社会集団の有価価値の定量化を行う。 我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。 本稿では,言語モデルの文脈的単語埋め込みを通じてヴァレンス部分空間を捉えるための概念投影手法を提案する。 偏見を定量化する包括的関連テストにプロジェクションに基づくアプローチを適用すると、言語モデルは、言語における性同一性、社会的階級、性的指向信号に対して最も偏見のある態度を示す。 社会文化データに埋め込まれたバイアスを効果的に捉えることで、私たちが研究している最大かつ優れたパフォーマンスモデルにもバイアスがかかります。 固有値評価タスクをオーバーパフォーマンスしてバイアス評価手法を検証する。 このアプローチにより、歴史的なバイアスを持続する言語モデルのアウトプットや応用において、複雑な交叉バイアスを計測することができる。 さらに,トランスジェンダーや同性愛者といった言語で過小評価される集団の関連を研究することにより,デザイン・ジャスティスに寄与する。

Language models are trained on large-scale corpora that embed implicit biases documented in psychology. Valence associations (pleasantness/unpleasantness) of social groups determine the biased attitudes towards groups and concepts in social cognition. Building on this established literature, we quantify how social groups are valenced in English language models using a sentence template that provides an intersectional context. We study biases related to age, education, gender, height, intelligence, literacy, race, religion, sex, sexual orientation, social class, and weight. We present a concept projection approach to capture the valence subspace through contextualized word embeddings of language models. Adapting the projection-based approach to embedding association tests that quantify bias, we find that language models exhibit the most biased attitudes against gender identity, social class, and sexual orientation signals in language. We find that the largest and better-performing model that we study is also more biased as it effectively captures bias embedded in sociocultural data. We validate the bias evaluation method by overperforming on an intrinsic valence evaluation task. The approach enables us to measure complex intersectional biases as they are known to manifest in the outputs and applications of language models that perpetuate historical biases. Moreover, our approach contributes to design justice as it studies the associations of groups underrepresented in language such as transgender and homosexual individuals.
翻訳日:2023-07-10 13:39:35 公開日:2023-07-07
# csclog:コンポーネントサブシーケンス相関・アウェアログ異常検出法

CSCLog: A Component Subsequence Correlation-Aware Log Anomaly Detection Method ( http://arxiv.org/abs/2307.03359v1 )

ライセンス: Link先を確認
Ling Chen, Chaodu Song, Xu Wang, Dachao Fu, and Feifei Li(参考訳) システムログに基づく異常検出は、非常に複雑なログパターンのため、インテリジェントな操作において重要な役割を果たす。 既存の手法では、サブシーケンスの相互作用を無視するログシーケンスのシーケンシャルな依存関係をキャプチャすることで異常を検出する。 そこで本研究では,サブシーケンスの逐次依存関係をキャプチャするだけでなく,サブシーケンスの暗黙的相関をモデル化するコンポーネントサブシーケンス相関・アウェアログ異常検出手法であるcsclogを提案する。 具体的には、サブシーケンスをコンポーネントに基づいてログシーケンスから抽出し、サブシーケンスのシーケンシャル依存関係をLong Short-Term Memory Networks (LSTMs)によってキャプチャする。 サブシーケンスの暗黙相関を適応的にモデル化するために、暗黙相関エンコーダを導入する。 さらに、グラフ畳み込みネットワーク(GCN)は、サブシーケンスの情報相互作用を達成するために使用される。 最後に、全てのサブシーケンスの埋め込みを融合させるために注意メカニズムが利用される。 4つの公開ログデータセットの大規模な実験は、CSCLogの有効性を示し、Macro F1-Measureで平均7.41%のベースラインを達成している。

Anomaly detection based on system logs plays an important role in intelligent operations, which is a challenging task due to the extremely complex log patterns. Existing methods detect anomalies by capturing the sequential dependencies in log sequences, which ignore the interactions of subsequences. To this end, we propose CSCLog, a Component Subsequence Correlation-Aware Log anomaly detection method, which not only captures the sequential dependencies in subsequences, but also models the implicit correlations of subsequences. Specifically, subsequences are extracted from log sequences based on components and the sequential dependencies in subsequences are captured by Long Short-Term Memory Networks (LSTMs). An implicit correlation encoder is introduced to model the implicit correlations of subsequences adaptively. In addition, Graph Convolution Networks (GCNs) are employed to accomplish the information interactions of subsequences. Finally, attention mechanisms are exploited to fuse the embeddings of all subsequences. Extensive experiments on four publicly available log datasets demonstrate the effectiveness of CSCLog, outperforming the best baseline by an average of 7.41% in Macro F1-Measure.
翻訳日:2023-07-10 13:39:14 公開日:2023-07-07
# 確率的組成勾配降下アルゴリズムの安定性と一般化

Stability and Generalization of Stochastic Compositional Gradient Descent Algorithms ( http://arxiv.org/abs/2307.03357v1 )

ライセンス: Link先を確認
Ming Yang, Xiyuan Wei, Tianbao Yang, Yiming Ying(参考訳) 多くの機械学習タスクは、強化学習、AUC最大化、メタラーニングなどの確率的合成最適化(SCO)問題として定式化することができる。 scoアルゴリズムの収束挙動の研究に多くの研究が費やされているが、その一般化、すなわち、トレーニング例から構築されたこれらの学習アルゴリズムが将来のテスト例でどのように振る舞うかを理解する作業は少ない。 本稿では,統計的学習理論の枠組みにおけるアルゴリズム安定性のレンズを通して,確率的組成勾配降下アルゴリズムの安定性と一般化解析を行う。 まず,合成一様安定性と呼ばれる安定性概念を導入し,sco問題の一般化と定量的関係を確立する。 次に,scgd と scsc の2つの確率的組成勾配降下アルゴリズムについて,構成一様安定性結果を確立する。 最後に,SCGDとSCSCの寸法非依存過剰リスク境界を,安定性と最適化誤差をトレードオフすることによって導出する。 我々の知る限り、これらは確率的組成勾配勾配アルゴリズムの安定性と一般化解析に関する最初の既知の結果である。

Many machine learning tasks can be formulated as a stochastic compositional optimization (SCO) problem such as reinforcement learning, AUC maximization, and meta-learning, where the objective function involves a nested composition associated with an expectation. While a significant amount of studies has been devoted to studying the convergence behavior of SCO algorithms, there is little work on understanding their generalization, i.e., how these learning algorithms built from training examples would behave on future test examples. In this paper, we provide the stability and generalization analysis of stochastic compositional gradient descent algorithms through the lens of algorithmic stability in the framework of statistical learning theory. Firstly, we introduce a stability concept called compositional uniform stability and establish its quantitative relation with generalization for SCO problems. Then, we establish the compositional uniform stability results for two popular stochastic compositional gradient descent algorithms, namely SCGD and SCSC. Finally, we derive dimension-independent excess risk bounds for SCGD and SCSC by trade-offing their stability results and optimization errors. To the best of our knowledge, these are the first-ever-known results on stability and generalization analysis of stochastic compositional gradient descent algorithms.
翻訳日:2023-07-10 13:38:55 公開日:2023-07-07
# テキストアライメントを活用した共同ストリーミングASRとSTのためのトークンレベルシリアライズ出力トレーニング

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments ( http://arxiv.org/abs/2307.03354v1 )

ライセンス: Link先を確認
Sara Papi, Peidong Wan, Junkun Chen, Jian Xue, Jinyu Li, Yashesh Gaur(参考訳) 現実世界のアプリケーションでは、特にインクリメンタルな生成が必要なストリーミングシナリオにおいて、ユーザーは理解を深めるために、翻訳と音声の書き起こしの両方を必要とすることが多い。 本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。 最小レイテンシでASRとSTのコンテンツを効果的に生成するために,オフザシェルフテキストアライメント装置を活用して,ソースとターゲット語をインターリーブする共同トークンレベルのシリアライズ出力トレーニング手法を提案する。 単言語 (it-en) と多言語 (\{de,es,it\}-en) における実験は、我々のアプローチが最高の品質・相対性バランスを達成することを示している。 平均ASRレイテンシは1s,STレイテンシは1.3sであり,ASRモデルとSTモデルを比較した結果,出力品質は低下せず,多言語では平均1.1WERと0.4BLEUが向上した。

In real-world applications, users often require both translations and transcriptions of speech to enhance their comprehension, particularly in streaming scenarios where incremental generation is necessary. This paper introduces a streaming Transformer-Transducer that jointly generates automatic speech recognition (ASR) and speech translation (ST) outputs using a single decoder. To produce ASR and ST content effectively with minimal latency, we propose a joint token-level serialized output training method that interleaves source and target words by leveraging an off-the-shelf textual aligner. Experiments in monolingual (it-en) and multilingual (\{de,es,it\}-en) settings demonstrate that our approach achieves the best quality-latency balance. With an average ASR latency of 1s and ST latency of 1.3s, our model shows no degradation or even improves output quality compared to separate ASR and ST models, yielding an average improvement of 1.1 WER and 0.4 BLEU in the multilingual case.
翻訳日:2023-07-10 13:38:22 公開日:2023-07-07
# スポーツ応用における深層学習の実態調査--知覚・理解・意思決定

A Survey of Deep Learning in Sports Applications: Perception, Comprehension, and Decision ( http://arxiv.org/abs/2307.03353v1 )

ライセンス: Link先を確認
Zhonghan Zhao, Wenhao Chai, Shengyu Hao, Wenhao Hu, Guanhong Wang, Shidong Cao, Mingli Song, Jenq-Neng Hwang, Gaoang Wang(参考訳) ディープラーニングは、知覚や理解から意思決定に至るまで、スポーツのパフォーマンスに革命をもたらす可能性がある。 本稿では,スポーツパフォーマンスにおけるディープラーニングの包括的調査を行い,アルゴリズム,データセット,仮想環境,課題の3つの側面に注目した。 まず,スポーツパフォーマンスにおける深層学習アルゴリズムの階層構造について考察する。 次に、スポーツで広く使われているデータセットをリストアップし、その特徴と限界を強調する。 最後に,現在の課題を要約し,スポーツにおける深層学習の今後の動向を指摘する。 本調査は,スポーツ分野の深層学習に関心のある研究者に貴重な参考資料を提供する。

Deep learning has the potential to revolutionize sports performance, with applications ranging from perception and comprehension to decision. This paper presents a comprehensive survey of deep learning in sports performance, focusing on three main aspects: algorithms, datasets and virtual environments, and challenges. Firstly, we discuss the hierarchical structure of deep learning algorithms in sports performance which includes perception, comprehension and decision while comparing their strengths and weaknesses. Secondly, we list widely used existing datasets in sports and highlight their characteristics and limitations. Finally, we summarize current challenges and point out future trends of deep learning in sports. Our survey provides valuable reference material for researchers interested in deep learning in sports applications.
翻訳日:2023-07-10 13:37:48 公開日:2023-07-07
# 時系列データを用いたクロスドメインモデル圧縮のためのユニバーサルおよびジョイント知識の蒸留

Distilling Universal and Joint Knowledge for Cross-Domain Model Compression on Time Series Data ( http://arxiv.org/abs/2307.03347v1 )

ライセンス: Link先を確認
Qing Xu, Min Wu, Xiaoli Li, Kezhi Mao, Zhenghua Chen(参考訳) 多くの実世界の時系列タスクにおいて、一般的な深い傾きモデルの計算複雑性は、しばしばリソース制限された環境(例えばスマートフォン)への展開を妨げる。 さらに、モデルトレーニング(ソース)とデプロイ(ターゲット)ステージのドメインシフトが避けられないため、ドメイン間シナリオ下での深層モデルを圧縮することがより難しくなります。 既存の研究の中には、モデル圧縮のためのクロスドメイン知識蒸留を既に検討しているものもあるが、それらはソースデータに偏りがあるか、あるいはソースデータとターゲットデータの間に強く絡み合っている。 そこで我々は,ドメイン間モデル圧縮のためのUniversal and joint knowledge distillation (UNI-KD)と呼ばれる新しいエンドツーエンドフレームワークを設計した。 特に、ソースドメインとターゲットドメインにまたがる普遍的な特徴レベルの知識と、教師から生徒モデルに共用する共用ロジットレベルの知識の両方を、逆学習方式で移すことを提案する。 より具体的には、普遍的な知識伝達のための教師と生徒の表現を調整するために特徴領域判別器が用いられる。 データドメイン判別器を用いて、共同知識伝達のためのドメイン共有サンプルを優先する。 4つの時系列データセットの大規模な実験結果から,提案手法が最先端(SOTA)ベンチマークよりも優れていることを示す。

For many real-world time series tasks, the computational complexity of prevalent deep leaning models often hinders the deployment on resource-limited environments (e.g., smartphones). Moreover, due to the inevitable domain shift between model training (source) and deploying (target) stages, compressing those deep models under cross-domain scenarios becomes more challenging. Although some of existing works have already explored cross-domain knowledge distillation for model compression, they are either biased to source data or heavily tangled between source and target data. To this end, we design a novel end-to-end framework called Universal and joint knowledge distillation (UNI-KD) for cross-domain model compression. In particular, we propose to transfer both the universal feature-level knowledge across source and target domains and the joint logit-level knowledge shared by both domains from the teacher to the student model via an adversarial learning scheme. More specifically, a feature-domain discriminator is employed to align teacher's and student's representations for universal knowledge transfer. A data-domain discriminator is utilized to prioritize the domain-shared samples for joint knowledge transfer. Extensive experimental results on four time series datasets demonstrate the superiority of our proposed method over state-of-the-art (SOTA) benchmarks.
翻訳日:2023-07-10 13:37:27 公開日:2023-07-07
# Scene Graph Discoveryによるオープン語彙オブジェクト検出

Open-Vocabulary Object Detection via Scene Graph Discovery ( http://arxiv.org/abs/2307.03339v1 )

ライセンス: Link先を確認
Hengcan Shi, Munawar Hayat, Jianfei Cai(参考訳) 近年、オープンボキャブラリ(OV)オブジェクト検出は研究の注目を集めている。 固定カテゴリオブジェクトのみを認識する従来の検出とは異なり、OV検出はオープンカテゴリセット内のオブジェクトを検出することを目的としている。 以前の研究はしばしば、OVオブジェクトを認識するために視覚言語(VL)トレーニングデータ(例えば、接地データを参照)を利用する。 しかしながら、VLデータには名詞と個々のオブジェクトのペアしか使用せず、これらのデータは通常、OV検出にも不可欠であるシーングラフのような、はるかに多くの情報を含んでいる。 本稿では,OV検出のためのシーングラフキューを利用するSGDN(Scene-Graph-Based Discovery Network)を提案する。 まず、スパースシーングラフ誘導注意(SSGA)を含むシーングラフベースのデコーダ(SGDecoder)を示す。 シーングラフをキャプチャし、それらを利用してOVオブジェクトを発見する。 次に,シーングラフに基づくオフセット回帰(sgor)機構を構築し,シーングラフ抽出とオブジェクトローカライゼーションの相互拡張を可能にするシーングラフに基づく予測(sgpred)を提案する。 第3に,SGPredにおけるクロスモーダル学習機構を設計する。 シーングラフをブリッジとして、OVオブジェクト分類のためのクロスモーダル埋め込み間の整合性を改善する。 COCOとLVISの実験は、我々のアプローチの有効性を実証している。 さらに,従来のOVシーングラフ生成手法ではこの問題に対処できないが,OVシーングラフ検出のためのモデルの有効性を示す。

In recent years, open-vocabulary (OV) object detection has attracted increasing research attention. Unlike traditional detection, which only recognizes fixed-category objects, OV detection aims to detect objects in an open category set. Previous works often leverage vision-language (VL) training data (e.g., referring grounding data) to recognize OV objects. However, they only use pairs of nouns and individual objects in VL data, while these data usually contain much more information, such as scene graphs, which are also crucial for OV detection. In this paper, we propose a novel Scene-Graph-Based Discovery Network (SGDN) that exploits scene graph cues for OV detection. Firstly, a scene-graph-based decoder (SGDecoder) including sparse scene-graph-guided attention (SSGA) is presented. It captures scene graphs and leverages them to discover OV objects. Secondly, we propose scene-graph-based prediction (SGPred), where we build a scene-graph-based offset regression (SGOR) mechanism to enable mutual enhancement between scene graph extraction and object localization. Thirdly, we design a cross-modal learning mechanism in SGPred. It takes scene graphs as bridges to improve the consistency between cross-modal embeddings for OV object classification. Experiments on COCO and LVIS demonstrate the effectiveness of our approach. Moreover, we show the ability of our model for OV scene graph detection, while previous OV scene graph generation methods cannot tackle this task.
翻訳日:2023-07-10 13:36:53 公開日:2023-07-07
# リモートセンシングセマンティックセマンティックセグメンテーションを実現する汎用マルチモーダルトランス

General-Purpose Multimodal Transformer meets Remote Sensing Semantic Segmentation ( http://arxiv.org/abs/2307.03388v1 )

ライセンス: Link先を確認
Nhi Kieu, Kien Nguyen, Sridha Sridharan, Clinton Fookes(参考訳) 高分解能マルチスペクトル・ハイパースペクトルセンサ、lidar dsm(digital surface model)情報など多くの情報が登場し、地球観測のための前例のない豊富なデータを提供した。 マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、これらの補完的なデータソースを活用する。 特殊なアーキテクチャが開発されている一方で、モデル設計における多大な努力を通じて非常に複雑であり、新しいモダリティが生まれると、かなりの再設計が必要となる。 汎用マルチモーダルネットワークの最近のトレンドは、1つの統一アーキテクチャで複数のマルチモーダルタスクにまたがって最先端のパフォーマンスを実現する大きな可能性を示している。 本研究では,汎用マルチモーダルファミリに属するperceiverioのリモートセンシング意味セグメンテーション領域における性能について検討する。 実験の結果,この普遍ネットワークは,リモートセンシング画像におけるオブジェクトスケールの変動に苦しむとともに,トップダウンから車の存在を検知できないことが明らかとなった。 これらの問題に対処するために,極端なクラス不均衡問題であっても,空間的・ボリューム的学習要素を提案する。 具体的には、3D畳み込みを利用して重要なローカル情報をエンコードし、同時にクロスモーダルな特徴を学習するUNetを設計し、PerceiverIOのクロスアテンション機構によってネットワーク計算の負担を軽減する。 提案手法の有効性は,2次元畳み込み法や2次元局所モジュール(UNetFormerにインスパイアされたConv2D 1x1とConv2D 3x3の組み合わせ)との比較により検証した。 提案手法は, unetformer や swinunet のような特殊なアーキテクチャと競合し, ネットワークアーキテクチャ工学を最小化し, 性能の妥協を最小限に抑える可能性を示した。

The advent of high-resolution multispectral/hyperspectral sensors, LiDAR DSM (Digital Surface Model) information and many others has provided us with an unprecedented wealth of data for Earth Observation. Multimodal AI seeks to exploit those complementary data sources, particularly for complex tasks like semantic segmentation. While specialized architectures have been developed, they are highly complicated via significant effort in model design, and require considerable re-engineering whenever a new modality emerges. Recent trends in general-purpose multimodal networks have shown great potential to achieve state-of-the-art performance across multiple multimodal tasks with one unified architecture. In this work, we investigate the performance of PerceiverIO, one in the general-purpose multimodal family, in the remote sensing semantic segmentation domain. Our experiments reveal that this ostensibly universal network struggles with object scale variation in remote sensing images and fails to detect the presence of cars from a top-down view. To address these issues, even with extreme class imbalance issues, we propose a spatial and volumetric learning component. Specifically, we design a UNet-inspired module that employs 3D convolution to encode vital local information and learn cross-modal features simultaneously, while reducing network computational burden via the cross-attention mechanism of PerceiverIO. The effectiveness of the proposed component is validated through extensive experiments comparing it with other methods such as 2D convolution, and dual local module (\ie the combination of Conv2D 1x1 and Conv2D 3x3 inspired by UNetFormer). The proposed method achieves competitive results with specialized architectures like UNetFormer and SwinUNet, showing its potential to minimize network architecture engineering with a minimal compromise on the performance.
翻訳日:2023-07-10 13:29:56 公開日:2023-07-07
# ai-upv at existing 2023 --learning with disagreements regime下の大規模言語モデルを用いた性差別の特徴付け

AI-UPV at EXIST 2023 -- Sexism Characterization Using Large Language Models Under The Learning with Disagreements Regime ( http://arxiv.org/abs/2307.03385v1 )

ライセンス: Link先を確認
Angel Felipe Magnoss\~ao de Paula, Giulia Rizzi, Elisabetta Fersini, Damiano Spina(参考訳) ソーシャルメディアプラットフォームの影響が高まるにつれ、より包括的で尊敬されるオンライン環境を促進するために、性差別やその他の軽蔑や憎悪を検知できる自動システムを開発することが重要になっている。 しかしながら、これらのタスクは異なるヘイトカテゴリーや著者の意図、特に意見の相違による学習において、かなり難しい。 本稿では,CLEF 2023のEXIST (sexism Identification in Social networks) LabへのAI-UPVチームの参加について述べる。 提案手法は,不一致のあるデータから直接,ラベルの集約を使わずに訓練することで,不一致を学習するパラダイムの下での性差別の識別と特徴付けの課題を解決することを目的としている。 しかし,ソフト評価とハード評価の両方を考慮した性能が報告されている。 提案システムは、大きな言語モデル(mBERTとXLM-RoBERTa)と性差別の識別と分類のためのアンサンブル戦略を用いる。 特に,このシステムは3つの異なるパイプラインで表現されている。 アンサンブルのアプローチは、個々の大規模言語モデルよりも優れており、ソフトとハードのラベル評価の両方を採用する。 本研究は, ソフト評価を考慮し, タスク2における第4位, タスク3における第2位および第1位, 最高icmソフトが-2.32, 正規化icmソフトが0.79。 私たちのアプローチのソースコードはhttps://github.com/AngelFelipeMP/Sexism-LLM-Learning-With-Disagreement.comで公開されています。

With the increasing influence of social media platforms, it has become crucial to develop automated systems capable of detecting instances of sexism and other disrespectful and hateful behaviors to promote a more inclusive and respectful online environment. Nevertheless, these tasks are considerably challenging considering different hate categories and the author's intentions, especially under the learning with disagreements regime. This paper describes AI-UPV team's participation in the EXIST (sEXism Identification in Social neTworks) Lab at CLEF 2023. The proposed approach aims at addressing the task of sexism identification and characterization under the learning with disagreements paradigm by training directly from the data with disagreements, without using any aggregated label. Yet, performances considering both soft and hard evaluations are reported. The proposed system uses large language models (i.e., mBERT and XLM-RoBERTa) and ensemble strategies for sexism identification and classification in English and Spanish. In particular, our system is articulated in three different pipelines. The ensemble approach outperformed the individual large language models obtaining the best performances both adopting a soft and a hard label evaluation. This work describes the participation in all the three EXIST tasks, considering a soft evaluation, it obtained fourth place in Task 2 at EXIST and first place in Task 3, with the highest ICM-Soft of -2.32 and a normalized ICM-Soft of 0.79. The source code of our approaches is publicly available at https://github.com/AngelFelipeMP/Sexism-LLM-Learning-With-Disagreement.
翻訳日:2023-07-10 13:29:22 公開日:2023-07-07
# 小さなトランスフォーマーに算術を教える

Teaching Arithmetic to Small Transformers ( http://arxiv.org/abs/2307.03381v1 )

ライセンス: Link先を確認
Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos(参考訳) gpt-4のような大規模言語モデルは、教師なしの次の予測目的によって明示的にエンコードされていないにもかかわらず、広範なテキストデータでトレーニングされた場合、基本的な算術のような汎用タスクにまたがる創発的な能力を示す。 本研究では,ランダム初期化から学習した小形変圧器が,次の予測目標を用いて,加算,乗算,平方根などの初等関数などの算術演算を効率的に学習する方法について検討する。 まず,従来の学習データが算術学習に最も効果的ではないことを示すとともに,簡易な書式変更によって精度が大幅に向上することを示す。 これは訓練データスケールの関数として鋭い位相遷移をもたらし、場合によっては低ランク行列補完への接続を通して説明できる。 事前の作業に基づいて、中間ステップの結果を含むチェーンオブ思考スタイルのデータをトレーニングします。 事前学習が完全にない場合でも、このアプローチは精度、サンプルの複雑さ、収束速度を大幅に改善する。 また,訓練中の算術データとテキストデータの相互作用を調べ,数発プロンプト,事前学習,モデルスケールの効果について検討した。 さらに,長さ一般化問題についても論じる。 本研究は,高速な算術能力を引き出すために,次の単語予測対象の特徴を考慮に入れた高品質な指導的データの重要性を強調した。

Large language models like GPT-4 exhibit emergent capabilities across general-purpose tasks, such as basic arithmetic, when trained on extensive text data, even though these tasks are not explicitly encoded by the unsupervised, next-token prediction objective. This study investigates how small transformers, trained from random initialization, can efficiently learn arithmetic operations such as addition, multiplication, and elementary functions like square root, using the next-token prediction objective. We first demonstrate that conventional training data is not the most effective for arithmetic learning, and simple formatting changes can significantly improve accuracy. This leads to sharp phase transitions as a function of training data scale, which, in some cases, can be explained through connections to low-rank matrix completion. Building on prior work, we then train on chain-of-thought style data that includes intermediate step results. Even in the complete absence of pretraining, this approach significantly and simultaneously improves accuracy, sample complexity, and convergence speed. We also study the interplay between arithmetic and text data during training and examine the effects of few-shot prompting, pretraining, and model scale. Additionally, we discuss length generalization challenges. Our work highlights the importance of high-quality, instructive data that considers the particular characteristics of the next-word prediction objective for rapidly eliciting arithmetic capabilities.
翻訳日:2023-07-10 13:28:52 公開日:2023-07-07
# 形式的特徴属性とその近似について

On Formal Feature Attribution and Its Approximation ( http://arxiv.org/abs/2307.03380v1 )

ライセンス: Link先を確認
Jinqiang Yu, Alexey Ignatiev, Peter J. Stuckey(参考訳) 近年、人工知能(AI)アルゴリズムと機械学習(ML)モデルの普及が見られた。 その大きな成功にもかかわらず、MLモデルの脆さ、その公正さ、解釈可能性の欠如といった多くの重要な問題により、説明可能な人工知能(XAI)と形式的なMLモデルの検証において、アクティブな開発の必要性が保証される。 XAIにおける2つの主要な仕事は、例えばアンカーのような特徴選択法と、LIMEやSHAPといった特徴帰属技術である。 約束にもかかわらず、既存の機能選択と帰属アプローチのほとんどは、説明の不健全さや分散サンプリングなど、さまざまな重要な問題に影響を受けやすい。 XAI(FXAI)に対する最近の公式なアプローチは、上記の代替として機能し、これらの問題から解放されているが、他のいくつかの制限に悩まされている。 例えば、スケーラビリティの制限に加えて、正式なアプローチでは、機能帰属問題に取り組めません。 加えて、正式な音であるにもかかわらず正式な説明は概して非常に大きく、実際的な環境での適用性を損なう。 そこで本稿では,形式的xaiの装置を,形式的説明列挙に基づく特徴帰属に応用する方法を提案する。 形式的特徴属性(FFA)は、形式的および非形式的の両方において、既存の方法よりも有利であると主張する。 この問題の実際的な複雑さを考慮し, 正確なFFAを近似する効率的な手法を提案する。 最後に,提案する近似ffaの有効性を,特徴量だけでなく相対的順序も考慮した既存の特徴帰属アルゴリズムと比較し,実験的に証明する。

Recent years have witnessed the widespread use of artificial intelligence (AI) algorithms and machine learning (ML) models. Despite their tremendous success, a number of vital problems like ML model brittleness, their fairness, and the lack of interpretability warrant the need for the active developments in explainable artificial intelligence (XAI) and formal ML model verification. The two major lines of work in XAI include feature selection methods, e.g. Anchors, and feature attribution techniques, e.g. LIME and SHAP. Despite their promise, most of the existing feature selection and attribution approaches are susceptible to a range of critical issues, including explanation unsoundness and out-of-distribution sampling. A recent formal approach to XAI (FXAI) although serving as an alternative to the above and free of these issues suffers from a few other limitations. For instance and besides the scalability limitation, the formal approach is unable to tackle the feature attribution problem. Additionally, a formal explanation despite being formally sound is typically quite large, which hampers its applicability in practical settings. Motivated by the above, this paper proposes a way to apply the apparatus of formal XAI to the case of feature attribution based on formal explanation enumeration. Formal feature attribution (FFA) is argued to be advantageous over the existing methods, both formal and non-formal. Given the practical complexity of the problem, the paper then proposes an efficient technique for approximating exact FFA. Finally, it offers experimental evidence of the effectiveness of the proposed approximate FFA in comparison to the existing feature attribution algorithms not only in terms of feature importance and but also in terms of their relative order.
翻訳日:2023-07-10 13:28:30 公開日:2023-07-07
# ゲームAIにおける効率的な地上走行経路

Efficient Ground Vehicle Path Following in Game AI ( http://arxiv.org/abs/2307.03379v1 )

ライセンス: Link先を確認
Rodrigue de Schaetzen, Alessandro Sestini(参考訳) 本稿では,ゲームAIに適した地上車両の効率的な経路について述べる。 私たちの焦点は、効率的なベンチマークパス追従者に簡単に調整可能なパラメータでシンプルなソリューションを設計するために確立された技術を適用することです。 我々の解は、2次ベジエ曲線を用いて経路曲率を推定する目標速度の計算に特に注意を払う。 提案したパスフォロワの性能は、一対一のシューティングゲームにおける様々なテストシナリオを通じて評価され、異なる種類のパスや車両を扱う上での有効性と堅牢性を示す。 その結果,既存の経路と比較すると,立ち往生するイベントの総数が70%減少した。

This short paper presents an efficient path following solution for ground vehicles tailored to game AI. Our focus is on adapting established techniques to design simple solutions with parameters that are easily tunable for an efficient benchmark path follower. Our solution pays particular attention to computing a target speed which uses quadratic Bezier curves to estimate the path curvature. The performance of the proposed path follower is evaluated through a variety of test scenarios in a first-person shooter game, demonstrating its effectiveness and robustness in handling different types of paths and vehicles. We achieved a 70% decrease in the total number of stuck events compared to an existing path following solution.
翻訳日:2023-07-10 13:28:02 公開日:2023-07-07
# 英語暗黙的談話関係分類におけるトランスフォーマーの並べ比較

A Side-by-side Comparison of Transformers for English Implicit Discourse Relation Classification ( http://arxiv.org/abs/2307.03378v1 )

ライセンス: Link先を確認
Bruce W. Lee, BongSeok Yang, Jason Hyung-Jong Lee(参考訳) 談話構文解析は複数のNLP分野に役立つが、暗黙の談話関係の分類では広い言語モデル探索は行われていない。 これにより、研究者は談話分析において公開可能なモデルを完全に活用することを妨げる。 この研究は、7つの事前訓練された言語モデルの直感的で微調整された談話性能の比較である。 一般的な談話関係アノテートデータセットであるPDTB-3を用いる。 モデル探索により,SOTAは0.671ACCまで上昇し,新しい観測結果を得た。 文章レベルの事前学習目標(NSP, SBO, SOP)は、暗黙の言論関係分類において、最もパフォーマンスの良いモデルを作成するのに失敗する(Shi and Demberg, 2019b)。 対極的には、MLMとフルアテンションを備えた同様のサイズのPLMが性能向上につながった。

Though discourse parsing can help multiple NLP fields, there has been no wide language model search done on implicit discourse relation classification. This hinders researchers from fully utilizing public-available models in discourse analysis. This work is a straightforward, fine-tuned discourse performance comparison of seven pre-trained language models. We use PDTB-3, a popular discourse relation annotated dataset. Through our model search, we raise SOTA to 0.671 ACC and obtain novel observations. Some are contrary to what has been reported before (Shi and Demberg, 2019b), that sentence-level pre-training objectives (NSP, SBO, SOP) generally fail to produce the best performing model for implicit discourse relation classification. Counterintuitively, similar-sized PLMs with MLM and full attention led to better performance.
翻訳日:2023-07-10 13:27:51 公開日:2023-07-07
# セクシズム, ヘイトスピーチ, および有害言語検出のためのタスク認識による否定伝達の軽減

Mitigating Negative Transfer with Task Awareness for Sexism, Hate Speech, and Toxic Language Detection ( http://arxiv.org/abs/2307.03377v1 )

ライセンス: Link先を確認
Angel Felipe Magnoss\~ao de Paula, Paolo Rosso and Damiano Spina(参考訳) 本稿では, 負の伝達問題を緩和する新しい手法を提案する。 機械学習の分野では、特定のタスクを解決するために教師付きモデルをトレーニングするために、シングルタスク学習アプローチを適用することが一般的な戦略である。 堅牢なモデルをトレーニングするには、大量のデータと大量の計算リソースが必要です。 したがって、タスク間の情報共有に基づく別のソリューション、マルチタスク学習(mtl)が開発されている。 MTLに関する最近の進展にもかかわらず、負転移の問題はまだ解決されていない。 負の伝達は、ノイズの多い情報がタスク間で共有され、結果としてパフォーマンスが低下する現象である。 本稿では,タスク認識概念に基づく負の伝達問題を緩和する新しい手法を提案する。 提案手法は,従来のMTLソリューションよりも性能の向上とともに,負の転送を減少させる。 さらに,提案手法は,テキストコメント中のセクシズム,ヘイトスピーチ,トキシック言語を検出するために,二つの統一アーキテクチャで実装されている。 提案されたアーキテクチャは、EXIST-2021とHatEval-2019ベンチマークの両方で、新しい最先端技術が設定された。

This paper proposes a novelty approach to mitigate the negative transfer problem. In the field of machine learning, the common strategy is to apply the Single-Task Learning approach in order to train a supervised model to solve a specific task. Training a robust model requires a lot of data and a significant amount of computational resources, making this solution unfeasible in cases where data are unavailable or expensive to gather. Therefore another solution, based on the sharing of information between tasks, has been developed: Multi-Task Learning (MTL). Despite the recent developments regarding MTL, the problem of negative transfer has still to be solved. Negative transfer is a phenomenon that occurs when noisy information is shared between tasks, resulting in a drop in performance. This paper proposes a new approach to mitigate the negative transfer problem based on the task awareness concept. The proposed approach results in diminishing the negative transfer together with an improvement of performance over classic MTL solution. Moreover, the proposed approach has been implemented in two unified architectures to detect Sexism, Hate Speech, and Toxic Language in text comments. The proposed architectures set a new state-of-the-art both in EXIST-2021 and HatEval-2019 benchmarks.
翻訳日:2023-07-10 13:27:38 公開日:2023-07-07
# 教師なし物体発見のための弱教師付きコントラスト学習

Weakly-supervised Contrastive Learning for Unsupervised Object Discovery ( http://arxiv.org/abs/2307.03376v1 )

ライセンス: Link先を確認
Yunqiu Lv, Jing Zhang, Nick Barnes, Yuchao Dai(参考訳) Unsupervised Object Discovery (UOD)は、ラベル付きデータセットに頼ることなく、背景からオブジェクトの領域全体を識別するタスクを指し、バウンディングボックスレベルのローカライゼーションとピクセルレベルのセグメンテーションのタスクの恩恵を受ける。 このタスクは、ジェネリックな方法でオブジェクトを発見できるため、有望である。 我々は,既存の手法を,画像再生に基づく生成解と自己教師付きモデルに基づくクラスタリング法という,2つの主な方向に大別した。 前者は画像再構成の質に大きく依存しており、後者は意味相関を効果的にモデル化する上での限界を示している。 オブジェクト発見を直接ターゲットとして,後者のアプローチに着目し,wcl(weakly supervised contrastive learning)を取り入れ,意味的情報探索を強化する新しいソリューションを提案する。 WCLによる自己教師付きモデルDINOの特徴エンコーダの微調整により,画像から高レベルの意味的特徴を抽出する意味誘導型自己教師型学習モデルの設計を行う。 その後、オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。 最大固有値に対応する主射影方向は、対象領域(s)の指標として機能する。 非教師対象発見データセットのベンチマーク実験により,提案手法の有効性が示された。 ソースコードと実験結果は、https://github.com/npucvr/wscuod.gitのプロジェクトページで公開されています。

Unsupervised object discovery (UOD) refers to the task of discriminating the whole region of objects from the background within a scene without relying on labeled datasets, which benefits the task of bounding-box-level localization and pixel-level segmentation. This task is promising due to its ability to discover objects in a generic manner. We roughly categorise existing techniques into two main directions, namely the generative solutions based on image resynthesis, and the clustering methods based on self-supervised models. We have observed that the former heavily relies on the quality of image reconstruction, while the latter shows limitations in effectively modeling semantic correlations. To directly target at object discovery, we focus on the latter approach and propose a novel solution by incorporating weakly-supervised contrastive learning (WCL) to enhance semantic information exploration. We design a semantic-guided self-supervised learning model to extract high-level semantic features from images, which is achieved by fine-tuning the feature encoder of a self-supervised model, namely DINO, via WCL. Subsequently, we introduce Principal Component Analysis (PCA) to localize object regions. The principal projection direction, corresponding to the maximal eigenvalue, serves as an indicator of the object region(s). Extensive experiments on benchmark unsupervised object discovery datasets demonstrate the effectiveness of our proposed solution. The source code and experimental results are publicly available via our project page at https://github.com/npucvr/WSCUOD.git.
翻訳日:2023-07-10 13:27:17 公開日:2023-07-07
# STG-MTL:データマップを用いたマルチタスク学習のためのスケーラブルタスクグループ化

STG-MTL: Scalable Task Grouping for Multi-Task Learning Using Data Map ( http://arxiv.org/abs/2307.03374v1 )

ライセンス: Link先を確認
Ammar Sherif, Abubakar Abid, Mustafa Elattar, Mohamed ElHelw(参考訳) MTL(Multi-Task Learning)は、従来のSTL(Single-Task Learning)よりもパフォーマンスが向上し、人気を博した強力な技術である。 しかし、MTLは、可能な限り多くのタスクグルーピングが存在するため、最良のタスクを選択するのが難しくなり、あるグループ化はタスク間の負の干渉によって性能劣化を引き起こす可能性があるため、しばしば困難である。 さらに、既存のソリューションはスケーラビリティの問題に悩まされており、実用的なアプリケーションに制限があります。 本稿では,これらの課題に対処する新しいデータ駆動型手法を提案するとともに,mtl訓練中の各分類タスクのトレーニング動作をキャプチャするデータマップなど,手作りの機能に基づくタスク分類のためのスケーラブルでモジュール化されたソリューションを提案する。 我々は,前例のない数(最大100)のタスクでもその効果を示す手法を実験した。

Multi-Task Learning (MTL) is a powerful technique that has gained popularity due to its performance improvement over traditional Single-Task Learning (STL). However, MTL is often challenging because there is an exponential number of possible task groupings, which can make it difficult to choose the best one, and some groupings might produce performance degradation due to negative interference between tasks. Furthermore, existing solutions are severely suffering from scalability issues, limiting any practical application. In our paper, we propose a new data-driven method that addresses these challenges and provides a scalable and modular solution for classification task grouping based on hand-crafted features, specifically Data Maps, which capture the training behavior for each classification task during the MTL training. We experiment with the method demonstrating its effectiveness, even on an unprecedented number of tasks (up to 100).
翻訳日:2023-07-10 13:26:54 公開日:2023-07-07
# オールインワン:マルチモーダルアライメントによる統合視覚言語追跡の探索

All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment ( http://arxiv.org/abs/2307.03373v1 )

ライセンス: Link先を確認
Chunhui Zhang, and Xin Sun, and Li Liu, and Yiqian Yang, and Qiong Liu, and Xi Zhou, and Yanfeng Wang(参考訳) 現在主流の視覚言語追跡フレームワークは、3つの部分からなる: \ie a visual feature extractor, language feature extractor, and a fusion model。 性能向上のために、VLトラッキングのための自然なモードオペランは、カスタマイズされたより重い単調エンコーダとマルチモーダル融合モデルを使用している。 有効ではあるが、既存のVLトラッカーは機能抽出と機能統合を分離し、セマンティックガイダンスが欠如し、複雑なシナリオでのターゲット認識能力に制限のある機能を抽出する。 本稿では,自然言語タスクとコンピュータビジョンタスクの融合アーキテクチャを用いた基礎モデル探索の最近の成功に触発されて,統合トランスフォーマーバックボーンを採用することで,機能抽出とインタラクションを学習するオールインワンフレームワークを提案する。 具体的には、生の視覚と言語信号を混ぜて、言語にインジェクトされた視覚トークンを生成します。 このアプローチは、統合されたバックボーンにおける機能統合を実現し、慎重に設計されたフュージョンモジュールの必要性を排除し、より効率的で効率的なVLトラッキングフレームワークを実現する。 さらに学習効率を向上させるために,クロスモーダルおよびイントラモーダルコントラスト目標に基づくマルチモーダルアライメントモジュールを導入し,統一オールインワントランスフォーマーバックボーンに対して,より合理的な表現を提供する。 OTB99-L, TNL2K, LaSOT, LaSOT$_{\rm Ext}$とWebUAV-3Mの5つのベンチマークにおいて、提案されたトラッカーが既存のVL追跡技術に対して優れていることを実証した。 コードは公開される予定だ。

Current mainstream vision-language (VL) tracking framework consists of three parts, \ie a visual feature extractor, a language feature extractor, and a fusion model. To pursue better performance, a natural modus operandi for VL tracking is employing customized and heavier unimodal encoders, and multi-modal fusion models. Albeit effective, existing VL trackers separate feature extraction and feature integration, resulting in extracted features that lack semantic guidance and have limited target-aware capability in complex scenarios, \eg similar distractors and extreme illumination. In this work, inspired by the recent success of exploring foundation models with unified architecture for both natural language and computer vision tasks, we propose an All-in-One framework, which learns joint feature extraction and interaction by adopting a unified transformer backbone. Specifically, we mix raw vision and language signals to generate language-injected vision tokens, which we then concatenate before feeding into the unified backbone architecture. This approach achieves feature integration in a unified backbone, removing the need for carefully-designed fusion modules and resulting in a more effective and efficient VL tracking framework. To further improve the learning efficiency, we introduce a multi-modal alignment module based on cross-modal and intra-modal contrastive objectives, providing more reasonable representations for the unified All-in-One transformer backbone. Extensive experiments on five benchmarks, \ie OTB99-L, TNL2K, LaSOT, LaSOT$_{\rm Ext}$ and WebUAV-3M, demonstrate the superiority of the proposed tracker against existing state-of-the-arts on VL tracking. Codes will be made publicly available.
翻訳日:2023-07-10 13:26:39 公開日:2023-07-07
# 周期一貫性に基づく教師なしハイパースペクトル・マルチスペクトル画像融合

Unsupervised Hyperspectral and Multispectral Images Fusion Based on the Cycle Consistency ( http://arxiv.org/abs/2307.03413v1 )

ライセンス: Link先を確認
Shuaikai Shi, Lijun Zhang, Yoann Altmann, Jie Chen(参考訳) スペクトル情報反射特性の豊富なハイパースペクトル画像(HSI)は通常、ハードウェアの限界により空間分解能が低い。 一方、マルチスペクトル画像(MSI)、例えばRGB画像は空間分解能が高いがスペクトルシグネチャが不足している。 ハイパースペクトルとマルチスペクトル画像融合は、高空間分解能画像と高スペクトル分解能画像の両方を取得するのに費用対効果が高く、効率的である。 従来のHSIとMSIの融合アルゴリズムの多くは、既知の空間劣化パラメータ、すなわち点拡散関数、スペクトル劣化パラメータ、スペクトル応答関数、あるいはその両方に依存している。 深層学習に基づく別のモデルのクラスは、高空間分解能HSIの基底真実に依存しており、教師付き方式で作業する場合、大量のペアトレーニングイメージが必要である。 どちらのモデルも実際の融合シナリオでは限定的である。 本稿では,CycFusionと呼ばれるサイクル一貫性に基づく教師なしHSIとMSIの融合モデルを提案する。 CycFusion は低空間分解能 HSI (LrHSI) と高空間分解能 MSI (HrMSI) の間の領域変換を学習し、所望の高空間分解能 HSI (HrHSI) は変換ネットワークの中間特徴写像であると考えられる。 CycFusionは、単一変換における境界マッチングの目的関数と二重変換におけるサイクル一貫性で訓練することができる。 さらに,推定PSFとSRFを事前学習重みとしてモデル内に埋め込むことにより,提案モデルの実用性をさらに向上させる。 いくつかのデータセットで行った実験により,提案手法は非教師なし核融合法よりも優れていた。 本論文のコードは、このアドレスで利用可能である。 https: //github.com/shuaikaishi/cycfusion for reproducibility。

Hyperspectral images (HSI) with abundant spectral information reflected materials property usually perform low spatial resolution due to the hardware limits. Meanwhile, multispectral images (MSI), e.g., RGB images, have a high spatial resolution but deficient spectral signatures. Hyperspectral and multispectral image fusion can be cost-effective and efficient for acquiring both high spatial resolution and high spectral resolution images. Many of the conventional HSI and MSI fusion algorithms rely on known spatial degradation parameters, i.e., point spread function, spectral degradation parameters, spectral response function, or both of them. Another class of deep learning-based models relies on the ground truth of high spatial resolution HSI and needs large amounts of paired training images when working in a supervised manner. Both of these models are limited in practical fusion scenarios. In this paper, we propose an unsupervised HSI and MSI fusion model based on the cycle consistency, called CycFusion. The CycFusion learns the domain transformation between low spatial resolution HSI (LrHSI) and high spatial resolution MSI (HrMSI), and the desired high spatial resolution HSI (HrHSI) are considered to be intermediate feature maps in the transformation networks. The CycFusion can be trained with the objective functions of marginal matching in single transform and cycle consistency in double transforms. Moreover, the estimated PSF and SRF are embedded in the model as the pre-training weights, which further enhances the practicality of our proposed model. Experiments conducted on several datasets show that our proposed model outperforms all compared unsupervised fusion methods. The codes of this paper will be available at this address: https: //github.com/shuaikaishi/CycFusion for reproducibility.
翻訳日:2023-07-10 13:20:38 公開日:2023-07-07
# 異種性から学ぶ:ハイパーグラフのための動的学習フレームワーク

Learning from Heterogeneity: A Dynamic Learning Framework for Hypergraphs ( http://arxiv.org/abs/2307.03411v1 )

ライセンス: Link先を確認
Tiehua Zhang, Yuze Liu, Zhishu Shen, Xingjun Ma, Xin Chen, Xiaowei Huang, Jun Yin, Jiong Jin(参考訳) グラフニューラルネットワーク(GNN)は、複雑なグラフ構造データのモデリング能力と柔軟性のため、近年人気が高まっている。 すべてのグラフ学習手法の中で、ハイパーグラフ学習はグラフの埋め込み空間を訓練する際に暗黙の高次相関を探索する手法である。 本稿では,グラフの多様性属性を利用した動的ハイパーエッジ構築と注意埋め込み更新が可能な,lfhと呼ばれるハイパーグラフ学習フレームワークを提案する。 特に,本フレームワークでは,初期ノードの埋め込みを生成する際に,明示的なグラフ構造情報を利用する相互融合戦略を用いて,高品質な特徴を最初に生成する。 その後、ハイパーグラフは暗黙のハイパーエッジの動的グループ化によって構築され、タイプ固有のハイパーグラフ学習プロセスが続く。 提案手法の有効性を評価するために,ノード分類とリンク予測の2つのタスクについて11の最先端モデルを用いて,いくつかの人気データセットを包括的に実験し,均質なペアワイズグラフ学習,不均一なペアワイズグラフ学習,ハイパーグラフ学習のカテゴリに分類した。 実験結果は,最近の最先端手法と比較して,有意な性能向上(平均ノード分類12.5%,リンク予測13.3%)を示した。

Graph neural network (GNN) has gained increasing popularity in recent years owing to its capability and flexibility in modeling complex graph structure data. Among all graph learning methods, hypergraph learning is a technique for exploring the implicit higher-order correlations when training the embedding space of the graph. In this paper, we propose a hypergraph learning framework named LFH that is capable of dynamic hyperedge construction and attentive embedding update utilizing the heterogeneity attributes of the graph. Specifically, in our framework, the high-quality features are first generated by the pairwise fusion strategy that utilizes explicit graph structure information when generating initial node embedding. Afterwards, a hypergraph is constructed through the dynamic grouping of implicit hyperedges, followed by the type-specific hypergraph learning process. To evaluate the effectiveness of our proposed framework, we conduct comprehensive experiments on several popular datasets with eleven state-of-the-art models on both node classification and link prediction tasks, which fall into categories of homogeneous pairwise graph learning, heterogeneous pairwise graph learning, and hypergraph learning. The experiment results demonstrate a significant performance gain (average 12.5% in node classification and 13.3% in link prediction) compared with recent state-of-the-art methods.
翻訳日:2023-07-10 13:20:08 公開日:2023-07-07
# 特徴分散データに対するスケーラブルな高次元多変数線形回帰

Scalable High-Dimensional Multivariate Linear Regression for Feature-Distributed Data ( http://arxiv.org/abs/2307.03410v1 )

ライセンス: Link先を確認
Shuo-Chieh Huang, Ruey S. Tsay(参考訳) 特徴分散データ(Feature-distributed data)は、機能によって分割され、複数のコンピューティングノードにまたがるデータを指すもので、多数の機能を持つアプリケーションではますます一般的になっている。 本稿では,そのデータに多変量線形回帰を適用するための2段階緩和グリードアルゴリズム(TSRGA)を提案する。 TSRGAの主な利点は、通信の複雑さが特徴次元に依存しないので、非常に大きなデータセットに高いスケーラビリティをもたらすことである。 さらに、多変量応答変数に対しては、TSRGAを用いて低ランク係数推定を行うことができる。 TSRGAの高速収束はシミュレーション実験により検証された。 最後に,提案するtsrgaを10-k報告書の非構造化データを活用した金融アプリケーションに適用し,密集した大次元行列を用いたアプリケーションにおいて有用性を示す。

Feature-distributed data, referred to data partitioned by features and stored across multiple computing nodes, are increasingly common in applications with a large number of features. This paper proposes a two-stage relaxed greedy algorithm (TSRGA) for applying multivariate linear regression to such data. The main advantage of TSRGA is that its communication complexity does not depend on the feature dimension, making it highly scalable to very large data sets. In addition, for multivariate response variables, TSRGA can be used to yield low-rank coefficient estimates. The fast convergence of TSRGA is validated by simulation experiments. Finally, we apply the proposed TSRGA in a financial application that leverages unstructured data from the 10-K reports, demonstrating its usefulness in applications with many dense large-dimensional matrices.
翻訳日:2023-07-10 13:19:45 公開日:2023-07-07
# 弱スーパービジョンFew-Shot分類とセグメンテーションのための自己スーパービジョン変換器の蒸留

Distilling Self-Supervised Vision Transformers for Weakly-Supervised Few-Shot Classification & Segmentation ( http://arxiv.org/abs/2307.03407v1 )

ライセンス: Link先を確認
Dahyun Kang, Piotr Koniusz, Minsu Cho, Naila Murray(参考訳) 自己スーパービジョンで事前学習した視覚トランスフォーマ(vit)を活用して,少数ショット画像分類とセグメンテーションの課題に対処する。 提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を自己注意により利用し,個別のタスクヘッドによる分類とセグメンテーション予測を生成する。 本モデルでは,画像レベルラベルのみを用いて,トレーニング中に画素レベルラベルが存在しない場合に,分類とセグメンテーションを効果的に学習することができる。 これを行うには、自監督されたViTバックボーンによって生成されたトークンをピクセルレベルの擬似ラベルとしてアテンションマップを使用する。 また、少数のトレーニング画像が接地画素レベルラベルを含み、残りの画像が画像レベルラベルのみを持つ ``mixed" 監督による実用的なセットアップも検討した。 そこで,本研究では,既設の画素レベルラベルを用いて学習した擬似ラベルエンハンサーを用いて擬似ラベルを改善することを提案する。 Pascal-5iとCOCO-20iの実験では、様々な監視設定、特にピクセルレベルの小さいラベルが利用できる場合において、大幅なパフォーマンス向上が示されている。

We address the task of weakly-supervised few-shot image classification and segmentation, by leveraging a Vision Transformer (ViT) pretrained with self-supervision. Our proposed method takes token representations from the self-supervised ViT and leverages their correlations, via self-attention, to produce classification and segmentation predictions through separate task heads. Our model is able to effectively learn to perform classification and segmentation in the absence of pixel-level labels during training, using only image-level labels. To do this it uses attention maps, created from tokens generated by the self-supervised ViT backbone, as pixel-level pseudo-labels. We also explore a practical setup with ``mixed" supervision, where a small number of training images contains ground-truth pixel-level labels and the remaining images have only image-level labels. For this mixed setup, we propose to improve the pseudo-labels using a pseudo-label enhancer that was trained using the available ground-truth pixel-level labels. Experiments on Pascal-5i and COCO-20i demonstrate significant performance gains in a variety of supervision settings, and in particular when little-to-no pixel-level labels are available.
翻訳日:2023-07-10 13:19:32 公開日:2023-07-07
# オフライン強化学習における命令型予測符号化

Goal-Conditioned Predictive Coding as an Implicit Planner for Offline Reinforcement Learning ( http://arxiv.org/abs/2307.03406v1 )

ライセンス: Link先を確認
Zilai Zeng, Ce Zhang, Shijie Wang, Chen Sun(参考訳) 近年,オフライン学習における教師付き学習問題として意思決定を定式化することの有効性が実証されている。 しかし、軌道データ上でシーケンスモデリングを行うことの利点はまだ明らかでない。 本研究は, シーケンス・モデリングがトラジェクトリをポリシー学習に寄与する有用な表現に凝縮する能力を持っているかを検討する。 これを実現するために、まず軌道をシーケンスモデリング技術で要約した2段階のフレームワークを採用し、次にこれらの表現を用いて、望ましい目標とともにポリシーを学習する。 この設計により、既存の教師付きオフラインRLメソッドをフレームワークの特定のインスタンスとみなすことができます。 このフレームワーク内では、強力な軌道表現を持ち、パフォーマンスポリシーをもたらすアプローチである、Goal-Conditioned Predicitve Coding (GCPC)を導入します。 我々はantmaze,frankakitchenおよびlocomotion環境について広範な経験的評価を行い,シーケンスモデリングが意思決定タスクに大きな影響を与えることを観察した。 さらに,GCPCが将来について目標条件付き潜在表現を学習し,これらが「単純プランナー」として機能し,3つのベンチマークの競合性能を実現することを実証した。

Recent work has demonstrated the effectiveness of formulating decision making as a supervised learning problem on offline-collected trajectories. However, the benefits of performing sequence modeling on trajectory data is not yet clear. In this work we investigate if sequence modeling has the capability to condense trajectories into useful representations that can contribute to policy learning. To achieve this, we adopt a two-stage framework that first summarizes trajectories with sequence modeling techniques, and then employs these representations to learn a policy along with a desired goal. This design allows many existing supervised offline RL methods to be considered as specific instances of our framework. Within this framework, we introduce Goal-Conditioned Predicitve Coding (GCPC), an approach that brings powerful trajectory representations and leads to performant policies. We conduct extensive empirical evaluations on AntMaze, FrankaKitchen and Locomotion environments, and observe that sequence modeling has a significant impact on some decision making tasks. In addition, we demonstrate that GCPC learns a goal-conditioned latent representation about the future, which serves as an "implicit planner", and enables competitive performance on all three benchmarks.
翻訳日:2023-07-10 13:19:09 公開日:2023-07-07
# プレノッセル放射域におけるrgb-dマッピングと追跡

RGB-D Mapping and Tracking in a Plenoxel Radiance Field ( http://arxiv.org/abs/2307.03404v1 )

ライセンス: Link先を確認
Andreas L. Teigen, Yeonsoo Park, Annette Stahl, Rudolf Mester(参考訳) 近年,Neural Radiance Fields (NeRFs) の成功に基づいて,新しい視点合成の分野において大きな進歩を遂げている。 これらのモデルはシーンの体積放射場を捉え、単純で微分可能なレンダリング方程式を用いて高密度の高密度フォトリアリスティックモデルを生成する。 その人気にもかかわらず、これらのアルゴリズムはRGBセンサー固有の視覚データの曖昧さに悩まされており、ビュー合成によって生成された画像は、視覚的に非常に信頼できるように見えるが、基礎となる3Dモデルは、しばしば間違っている。 これにより、ロボティクスや拡張現実(XR)のような実用的応用において、正確な3D再構成が重要な意味を持つようなモデルの有用性が大幅に制限される。 本報告では,ビュー合成モデルと3次元再構成モデルとの重要な相違点について述べる。 また,新しい視点合成手法のパラダイムを用いて,外向きシーンの正確な形状のモデル化に奥行きセンサが不可欠である理由について解説する。 ニューラルネットワークを用いず,rgb-dデータに基づく放射能場を用いた高密度マッピングと追跡のための解析的微分アプローチを提示する。 提案手法は,従来のニューラルネットワーク手法よりも高速でありながら,マッピングタスクとトラッキングタスクの両方において最先端の結果が得られる。

Building on the success of Neural Radiance Fields (NeRFs), recent years have seen significant advances in the domain of novel view synthesis. These models capture the scene's volumetric radiance field, creating highly convincing dense photorealistic models through the use of simple, differentiable rendering equations. Despite their popularity, these algorithms suffer from severe ambiguities in visual data inherent to the RGB sensor, which means that although images generated with view synthesis can visually appear very believable, the underlying 3D model will often be wrong. This considerably limits the usefulness of these models in practical applications like Robotics and Extended Reality (XR), where an accurate dense 3D reconstruction otherwise would be of significant value. In this technical report, we present the vital differences between view synthesis models and 3D reconstruction models. We also comment on why a depth sensor is essential for modeling accurate geometry in general outward-facing scenes using the current paradigm of novel view synthesis methods. Focusing on the structure-from-motion task, we practically demonstrate this need by extending the Plenoxel radiance field model: Presenting an analytical differential approach for dense mapping and tracking with radiance fields based on RGB-D data without a neural network. Our method achieves state-of-the-art results in both the mapping and tracking tasks while also being faster than competing neural network-based approaches.
翻訳日:2023-07-10 13:18:48 公開日:2023-07-07
# ジオローカライズを超えて:衛星画像とのクロスビューマッチングによるストリートビュー画像の細粒度方向

Beyond Geo-localization: Fine-grained Orientation of Street-view Images by Cross-view Matching with Satellite Imagery ( http://arxiv.org/abs/2307.03398v1 )

ライセンス: Link先を確認
Wenmiao Hu, Yichen Zhang, Yuxuan Liang, Yifang Yin, Andrei Georgescu, An Tran, Hannes Kruppa, See-Kiong Ng, Roger Zimmermann(参考訳) ストリートビュー画像は、異なる場所を遠隔で探索する新しい体験を提供します。 慎重に調整されたストリートビューイメージ(例えば、Googleストリートビュー)は、ナビゲーション、マップ機能抽出など、さまざまな下流タスクに使用できる。 個人の高品質なカメラがより安価でポータブルになるにつれて、大量のクラウドソースされたストリートビュー画像がインターネットにアップロードされる。 この「使い捨て」状態の隠された宝物を作成するためには、位置情報とカメラ向きの角度が等しく重要な2つのタスクである。 近年,地理参照衛星画像のプールとのクロスビューマッチングにより,ストリートビュー画像の地理的ローカライズ性能が向上している。 しかし、既存の作品の多くは、画像の向きを推定するよりも、地理的局所化に重点を置いている。 本研究では,ストリートビュー画像の微粒な方向を求めることの重要性を再記述し,問題を正式に定義し,方向推定の品質を評価するための評価指標のセットを提供する。 CVUSAおよびCVACTデータセットの2度以下で推定角度誤差が推定された画像に対して、方向推定の粒度を82.4%と72.3%の精度で改善する2つの方法を提案する。 トレーニングにおける細粒度方向推定の統合は、地理的局所化のパフォーマンスも改善し、トップ1のリコール 95.5%/85.5% と 86.8%/80.4% を、2つのデータセットにおけるオリエンテーションの既知の/未知のテストに与える。

Street-view imagery provides us with novel experiences to explore different places remotely. Carefully calibrated street-view images (e.g. Google Street View) can be used for different downstream tasks, e.g. navigation, map features extraction. As personal high-quality cameras have become much more affordable and portable, an enormous amount of crowdsourced street-view images are uploaded to the internet, but commonly with missing or noisy sensor information. To prepare this hidden treasure for "ready-to-use" status, determining missing location information and camera orientation angles are two equally important tasks. Recent methods have achieved high performance on geo-localization of street-view images by cross-view matching with a pool of geo-referenced satellite imagery. However, most of the existing works focus more on geo-localization than estimating the image orientation. In this work, we re-state the importance of finding fine-grained orientation for street-view images, formally define the problem and provide a set of evaluation metrics to assess the quality of the orientation estimation. We propose two methods to improve the granularity of the orientation estimation, achieving 82.4% and 72.3% accuracy for images with estimated angle errors below 2 degrees for CVUSA and CVACT datasets, corresponding to 34.9% and 28.2% absolute improvement compared to previous works. Integrating fine-grained orientation estimation in training also improves the performance on geo-localization, giving top 1 recall 95.5%/85.5% and 86.8%/80.4% for orientation known/unknown tests on the two datasets.
翻訳日:2023-07-10 13:18:25 公開日:2023-07-07
# 完全量子分類器

Fully Quantum Classifier ( http://arxiv.org/abs/2307.03396v1 )

ライセンス: Link先を確認
Wojciech Roga, Baptiste Chevalier, Masahiro Takeoka(参考訳) 本稿では,教師付き機械学習量子分類器を提案する。 これは量子データ再ロード分類器とバイナリトレーニング可能なパラメータで構成されており、その最適な値は量子探索アルゴリズムによって見つかる。 古典的ブライト力探索と比較して,最適化可能なパラメータの2次高速化が可能であることを示す。

In this paper we present a supervised machine learning quantum classifier. It consists of a quantum data re-uploading classifier with binary trainable parameters, the optimal values of which are found by a quantum search algorithm. We show that we can reach the quadratic speed-up in optimization trainable parameters compared to classical brute force search.
翻訳日:2023-07-10 13:17:54 公開日:2023-07-07
# 非局所相関のための暗号モデル--enigmasの復号化

A Cryptography Inspired Model for Non-local Correlations: Decrypting the Enigmas ( http://arxiv.org/abs/2307.03395v1 )

ライセンス: Link先を確認
Govind Lal Sidhardh and Manik Banik(参考訳) 非局所相関のための暗号モデルを提案する。 有名なDe Broglie-Bohm理論に従い、非局所ボックスを隠れ変数レベルで瞬時信号を持つ現実的なシステムとしてモデル化する。 隠れ変数の分布にランダム性を導入することにより、スーパールミナル信号モデルは操作不能条件と適合する。 この設計は、有名な対称鍵暗号システム {\it One Time Pads} (OTP) を模倣しているため、非ローカルボックスのOPPモデルと呼ぶ。 非局所的ボックスの非古典性に関連するいくつかの難解な例でこのモデルの有用性を示す。 特に、非ローカルボックスを用いた通信の複雑さの崩壊は、このフレームワークでより理解することができる。 さらに,van damプロトコルを議論し,暗号における準同型暗号との関連性を示す。 また、この枠組み内で量子実現可能な非局所相関をカプセル化する可能性についても検討し、情報因果性の原理が隠れた変数レベルでさらなる制約を課すことを示した。 そこで本研究では,非局所相関の理解を深めるために,古典暗号における結果を整理し,この接続に関するさらなる研究を歓迎する。

We propose a cryptography-inspired model for nonlocal correlations. Following the celebrated De Broglie-Bohm theory, we model nonlocal boxes as realistic systems with instantaneous signalling at the hidden variable level. By introducing randomness in the distribution of the hidden variable, the superluminal signalling model is made compatible with the operational no-signalling condition. As the design mimics the famous symmetric key encryption system called {\it One Time Pads} (OTP), we call this the OTP model for nonlocal boxes. We demonstrate utility of this model in several esoteric examples related to the nonclassicality of nonlocal boxes. In particular, the breakdown of communication complexity using nonlocal boxes can be better understood in this framework. Furthermore, we discuss the Van Dam protocol and show its connection to homomorphic encryption in cryptography. We also discuss possible ways of encapsulating quantum realizable nonlocal correlations within this framework and show that the principle of Information Causality imposes further constraints at the hidden variable level. Present work thus orchestrates the results in classical cryptography to improve our understanding of nonlocal correlations and welcomes further research to this connection.
翻訳日:2023-07-10 13:17:50 公開日:2023-07-07
# グラフ学習における大規模言語モデル(LLM)の可能性を探る

Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs ( http://arxiv.org/abs/2307.03393v1 )

ライセンス: Link先を確認
Zhikai Chen, Haitao Mao, Hang Li, Wei Jin, Hongzhi Wen, Xiaochi Wei, Shuaiqiang Wang, Dawei Yin, Wenqi Fan, Hui Liu, Jiliang Tang(参考訳) Graphsでの学習は、その広い現実世界のアプリケーションのために大きな注目を集めている。 テキストノード属性を持つグラフを学習するための最も一般的なパイプラインは、主にグラフニューラルネットワーク(GNN)に依存しており、一般的な知識と深い意味理解に制限がある初期ノード表現として浅いテキスト埋め込みを利用している。 近年、LLM(Large Language Models)は、テキストデータを扱う既存のワークフローに革命をもたらした、広範な共通知識と強力な意味理解能力を持つことが証明されている。 本稿では,グラフ機械学習,特にノード分類タスクにおけるLLMの可能性を探究し,LLMs-as-EnhancersとLLMs-as-Predictorsの2つの可能なパイプラインについて検討する。 前者はLLMを活用して、膨大な知識でノードのテキスト属性を拡張し、GNNを通じて予測を生成する。 後者はLSMをスタンドアロンの予測器として直接利用する。 この2つのパイプラインについて、さまざまな設定で包括的で体系的な研究を行う。 総合的な経験的結果から,新たな可能性を開く新たな洞察と,グラフ上での学習にLLMを活用するための有望な方向性を提案する。

Learning on Graphs has attracted immense attention due to its wide real-world applications. The most popular pipeline for learning on graphs with textual node attributes primarily relies on Graph Neural Networks (GNNs), and utilizes shallow text embedding as initial node representations, which has limitations in general knowledge and profound semantic understanding. In recent years, Large Language Models (LLMs) have been proven to possess extensive common knowledge and powerful semantic comprehension abilities that have revolutionized existing workflows to handle text data. In this paper, we aim to explore the potential of LLMs in graph machine learning, especially the node classification task, and investigate two possible pipelines: LLMs-as-Enhancers and LLMs-as-Predictors. The former leverages LLMs to enhance nodes' text attributes with their massive knowledge and then generate predictions through GNNs. The latter attempts to directly employ LLMs as standalone predictors. We conduct comprehensive and systematical studies on these two pipelines under various settings. From comprehensive empirical results, we make original observations and find new insights that open new possibilities and suggest promising directions to leverage LLMs for learning on graphs.
翻訳日:2023-07-10 13:17:31 公開日:2023-07-07
# NOFA : NeRFを用いた顔面アバター再建術

NOFA: NeRF-based One-shot Facial Avatar Reconstruction ( http://arxiv.org/abs/2307.03441v1 )

ライセンス: Link先を確認
Wangbo Yu, Yanbo Fan, Yong Zhang, Xuan Wang, Fei Yin, Yunpeng Bai, Yan-Pei Cao, Ying Shan, Yang Wu, Zhongqian Sun, Baoyuan Wu(参考訳) 3D顔アバター再構成はコンピュータグラフィックスとコンピュータビジョンにおいて重要な研究テーマであり、多くの関連するアプリケーションにおいて、ポーズや表現に対する写真リアルなレンダリングと柔軟な制御が必要である。 近年,neural radiance fields (nerf) の開発により,その性能は大幅に向上している。 しかし、既存のNeRFベースの顔アバターは、訓練のために特定の対象の異なる視点を含むマルチショット画像を必要とするため、新たなアイデンティティに一般化できず、さらなる応用が制限される。 本研究では,高精細な3d顔アバターを再現するために,単一のソース画像のみを必要とするワンショット3d顔アバター再構築フレームワークを提案する。 一般化能力の欠如や多視点情報の欠如といった課題に対して,3D GANの先駆けとして,効率的なエンコーダデコーダネットワークを開発し,画像の正準ニューラルボリュームを再構築し,さらに顔の詳細を補完する補償ネットワークを提案する。 顔の力学のきめ細かい制御を可能にするために, 正準容積を駆動式に変換する変形場を提案する。 広範な実験により,いくつかの最先端手法と比較して優れた合成結果を得た。

3D facial avatar reconstruction has been a significant research topic in computer graphics and computer vision, where photo-realistic rendering and flexible controls over poses and expressions are necessary for many related applications. Recently, its performance has been greatly improved with the development of neural radiance fields (NeRF). However, most existing NeRF-based facial avatars focus on subject-specific reconstruction and reenactment, requiring multi-shot images containing different views of the specific subject for training, and the learned model cannot generalize to new identities, limiting its further applications. In this work, we propose a one-shot 3D facial avatar reconstruction framework that only requires a single source image to reconstruct a high-fidelity 3D facial avatar. For the challenges of lacking generalization ability and missing multi-view information, we leverage the generative prior of 3D GAN and develop an efficient encoder-decoder network to reconstruct the canonical neural volume of the source image, and further propose a compensation network to complement facial details. To enable fine-grained control over facial dynamics, we propose a deformation field to warp the canonical volume into driven expressions. Through extensive experimental comparisons, we achieve superior synthesis results compared to several state-of-the-art methods.
翻訳日:2023-07-10 13:10:43 公開日:2023-07-07
# zig-zag行列代数と可解準エルミート量子モデル

Zig-zag-matrix algebras and solvable quasi-Hermitian quantum models ( http://arxiv.org/abs/2307.03439v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 閉じた$m-$レベル量子システムのユニタリ進化は、実スペクトルを持つ非エルミートハミルトンの$h$によって生成できることはよく知られている。 Hermiticityは、修正された内積計量$\Theta$で復元できる。 エルミートの場合、スペクトル(すなわち境界状態エネルギー)の評価は通常、ハミルトニアンの対角化によって達成される。 非エルミート系(またはより正確には$\theta-$quasi-hermitian)の量子力学において、量子境界状態問題の対角行列解の役割はハミルトニアンの最大にスパースな「ジグ・ザグ行列」表現に移すことができると推測する。

It is well known that the unitary evolution of a closed $M-$level quantum system can be generated by a non-Hermitian Hamiltonian $H$ with real spectrum. Its Hermiticity can be restored via an amended inner-product metric $\Theta$. In Hermitian cases the evaluation of the spectrum (i.e., of the bound-state energies) is usually achieved by the diagonalization of the Hamiltonian. In the non-Hermitian (or, more precisely, in the $\Theta-$quasi-Hermitian) quantum mechanics we conjecture that the role of the diagonalized-matrix solution of the quantum bound-state problem could be transferred to a maximally sparse ``zig-zag-matrix'' representation of the Hamiltonians.
翻訳日:2023-07-10 13:10:11 公開日:2023-07-07
# 量子推定理論における量子統計多様体の自己並列性

Autoparallelity of Quantum Statistical Manifolds in The Light of Quantum Estimation Theory ( http://arxiv.org/abs/2307.03431v1 )

ライセンス: Link先を確認
Hiroshi Nagaoka and Akio Fujiwara(参考訳) 本稿では、厳密な正密度作用素の多様体上で誘導されるリーマン計量と相互に双対なe-およびm-接続からなる、SLD構造と呼ばれる情報幾何学構造の自己並列性について検討する。 古典的情報幾何とは異なり、e-接続はバニッシュなねじれを持ち、様々な数学的困難をもたらす。 e-オートパラレル部分多様体の概念は古典統計学における指数族(英語版)の量子版と見なされ、効率的な推定器を持つ統計モデル(クレイマー・ラオ不等式における等式を均一に達成する偏見推定器)として特徴付けられる。 この古典的結果の量子拡張として、e-自己パラレル部分多様体の2つの異なる推定-理論的特徴付けを示す。 また、より一般的な幾何学的状況におけるアフィン接続の自己平行性 w.r.t. に対して有効である e-自己平行性についていくつかの結果を与える。

In this paper we study the autoparallelity w.r.t. the e-connection for an information-geometric structure called the SLD structure, which consists of a Riemannian metric and mutually dual e- and m-connections, induced on the manifold of strictly positive density operators. Unlike the classical information geometry, the e-connection has non-vanishing torsion, which brings various mathematical difficulties. The notion of e-autoparallel submanifolds is regarded as a quantum version of exponential families in classical statistics, which is known to be characterized as statistical models having efficient estimators (unbiased estimators uniformly achieving the equality in the Cramer-Rao inequality). As quantum extensions of this classical result, we present two different forms of estimation-theoretical characterizations of the e-autoparallel submanifolds. We also give several results on the e-autoparallelity, some of which are valid for the autoparallelity w.r.t. an affine connection in a more general geometrical situation.
翻訳日:2023-07-10 13:09:53 公開日:2023-07-07
# 連続観測におけるクラスタリングの差分プライバシー

Differential Privacy for Clustering Under Continual Observation ( http://arxiv.org/abs/2307.03430v1 )

ライセンス: Link先を確認
Max Dupr\'e la Tour, Monika Henzinger, David Saulpic(参考訳) 我々は、点の挿入と削除の両方を行う$\mathbb{r}^d$のデータセットをプライベートにクラスタリングする問題を考える。 具体的には、連続観察下での$k$-means目的に対して、$\varepsilon$-differentially private clustering 機構を与える。 これは、更新数$t$の対数のみに依存する加法誤差を伴うこの問題に対する最初の近似アルゴリズムである。 乗算誤差は非プライベート誤差とほとんど同じである。 そこで本研究では,連続観測下で次元の縮小を図り,それを微分プライベートな近似アルゴリズムと組み合わせて$k$-meansを求める方法を示す。 結果も部分的に$k$-median問題に拡張します。

We consider the problem of clustering privately a dataset in $\mathbb{R}^d$ that undergoes both insertion and deletion of points. Specifically, we give an $\varepsilon$-differentially private clustering mechanism for the $k$-means objective under continual observation. This is the first approximation algorithm for that problem with an additive error that depends only logarithmically in the number $T$ of updates. The multiplicative error is almost the same as non privately. To do so we show how to perform dimension reduction under continual observation and combine it with a differentially private greedy approximation algorithm for $k$-means. We also partially extend our results to the $k$-median problem.
翻訳日:2023-07-10 13:09:33 公開日:2023-07-07
# 頭頸部癌生存予測のための合併拡散ハイブリッド変圧器ネットワーク

Merging-Diverging Hybrid Transformer Networks for Survival Prediction in Head and Neck Cancer ( http://arxiv.org/abs/2307.03427v1 )

ライセンス: Link先を確認
Mingyuan Meng, Lei Bi, Michael Fulham, Dagan Feng, and Jinman Kim(参考訳) 治療計画の早期予後情報を提供するため、がん患者には生存予測が不可欠である。 近年,深層学習と医用画像に基づく深層生存モデルは,生存予測に有望な性能を示した。 しかし、既存の深部生存モデルは、マルチモダリティ画像(例えばpet-ct)や、領域特異的情報(例えば、原発性腫瘍(pt)および転移性リンパ節(mln)領域の予後情報)の抽出においてうまく開発されていない。 そこで本研究では,マルチモーダル画像からの生存予測のための統合分割学習フレームワークを提案する。 このフレームワークは、マルチモーダル情報を融合するマージエンコーダと、領域固有情報を抽出する発散デコーダを備える。 並列畳み込み層とクロスアテンション変換器を用いて,マルチモーダル特徴を効果的に融合するハイブリッド並列クロスアテンション(HPCA)ブロックを提案する。 分散デコーダでは,病変領域に関連する特徴を明らかにするために,領域固有の注意ゲート(RAG)ブロックを提案する。 頭頸部癌(H&N)におけるPET-CT画像の生存予測について,X字型メルジング分岐型ハイブリッドトランスネットワーク(XSurv)を設計して検討した。 我々のXSurvはPET画像とCT画像の補完情報を組み合わせて,PT領域とMLN領域の領域固有の予後情報を抽出する。 HECKTOR 2022(Head and neCK Tumor segmentation and outcome prediction Challenge)の公開データセットに対する大規模な実験により、我々のXSurvは最先端の生存予測手法より優れていることが示された。

Survival prediction is crucial for cancer patients as it provides early prognostic information for treatment planning. Recently, deep survival models based on deep learning and medical images have shown promising performance for survival prediction. However, existing deep survival models are not well developed in utilizing multi-modality images (e.g., PET-CT) and in extracting region-specific information (e.g., the prognostic information in Primary Tumor (PT) and Metastatic Lymph Node (MLN) regions). In view of this, we propose a merging-diverging learning framework for survival prediction from multi-modality images. This framework has a merging encoder to fuse multi-modality information and a diverging decoder to extract region-specific information. In the merging encoder, we propose a Hybrid Parallel Cross-Attention (HPCA) block to effectively fuse multi-modality features via parallel convolutional layers and cross-attention transformers. In the diverging decoder, we propose a Region-specific Attention Gate (RAG) block to screen out the features related to lesion regions. Our framework is demonstrated on survival prediction from PET-CT images in Head and Neck (H&N) cancer, by designing an X-shape merging-diverging hybrid transformer network (named XSurv). Our XSurv combines the complementary information in PET and CT images and extracts the region-specific prognostic information in PT and MLN regions. Extensive experiments on the public dataset of HEad and neCK TumOR segmentation and outcome prediction challenge (HECKTOR 2022) demonstrate that our XSurv outperforms state-of-the-art survival prediction methods.
翻訳日:2023-07-10 13:09:21 公開日:2023-07-07
# ハイクオリティ核融合検出のための簡易マルチモーダルイメージングシステムを活用した登録フリーハイブリッド学習

Registration-Free Hybrid Learning Empowers Simple Multimodal Imaging System for High-quality Fusion Detection ( http://arxiv.org/abs/2307.03425v1 )

ライセンス: Link先を確認
Yinghan Guan, Haoran Dai, Zekuan Yu, Shouyu Wang and Yuanjie Gu(参考訳) マルチモーダル融合検出は常に撮像システムと画像前処理に高い要求を課し、高品質の事前登録システムまたは画像登録処理はコストがかかる。 残念ながら、既存の融合法は、登録されたソース画像のために設計されており、異なる意味情報を表す同じ空間的位置における特徴の対を表す不均一な特徴の融合は、これらの方法によって満足な性能を達成できない。 その結果、IA-VFDnetというCNN-Transformerハイブリッド学習フレームワークと、AKMとDWDAFが相乗効果を発揮し、煙や山火事の検出に応用できる高品質の赤外線可視核融合検出を行うための統合された高品質マルチモーダル特徴マッチングモジュール(AKM)と融合モジュール(WDAF)を提案する。 さらに,M3FDデータセットを用いた実験により提案手法の優位性を検証し,IA-VFDnetは従来の登録条件下での他の最先端手法よりも優れた検出性能を実現する。 さらに、最初の未登録のマルチモーダルスモークとワイルドファイア検出ベンチマークがこのレターで公開されています。

Multimodal fusion detection always places high demands on the imaging system and image pre-processing, while either a high-quality pre-registration system or image registration processing is costly. Unfortunately, the existing fusion methods are designed for registered source images, and the fusion of inhomogeneous features, which denotes a pair of features at the same spatial location that expresses different semantic information, cannot achieve satisfactory performance via these methods. As a result, we propose IA-VFDnet, a CNN-Transformer hybrid learning framework with a unified high-quality multimodal feature matching module (AKM) and a fusion module (WDAF), in which AKM and DWDAF work in synergy to perform high-quality infrared-aware visible fusion detection, which can be applied to smoke and wildfire detection. Furthermore, experiments on the M3FD dataset validate the superiority of the proposed method, with IA-VFDnet achieving the best detection performance than other state-of-the-art methods under conventional registered conditions. In addition, the first unregistered multimodal smoke and wildfire detection benchmark is openly available in this letter.
翻訳日:2023-07-10 13:08:51 公開日:2023-07-07
# 条件付き消音拡散確率モデルを用いたハイパースペクトル・マルチスペクトル画像融合

Hyperspectral and Multispectral Image Fusion Using the Conditional Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2307.03423v1 )

ライセンス: Link先を確認
Shuaikai Shi, Lijun Zhang, Jie Chen(参考訳) ハイパースペクトル画像(HSI)は、物質の特徴を反映する大量のスペクトル情報を持ち、その空間分解能は画像技術の限界により低い。 これと補完するのがマルチスペクトル画像(MSI)、例えば、空間分解能が高いがスペクトル帯域が不十分なRGB画像である。 ハイパースペクトル・マルチスペクトル画像融合(hyperspectral and multispectral image fusion)は、高い空間分解能と高いスペクトル分解能を持つ理想的な画像を取得する技術である。 多くの既存のHSIおよびMSI融合アルゴリズムは既知の画像劣化モデルに依存しているが、実際には利用できないことが多い。 本稿では,ddpm-fus と呼ばれる条件付き脱雑音拡散確率モデルに基づく深部核融合法を提案する。 具体的には、DDPM-Fusは、高空間分解能HSI(HrHSI)にガウスノイズを徐々に付加する前方拡散過程と、対応する高空間分解能MSI(HrMSI)および低空間分解能HSI(LrHSI)に基づいて、所望のHrHSIをノイズバージョン条件から予測することを学ぶ逆復調工程とを含む。 トレーニングが完了すると、提案されたDDPM-FusはテストHrMSIとLrHSIで逆プロセスを実装し、融合したHrHSIを生成する。 1つの屋内および2つのリモートセンシングデータセットで行った実験は、他の高度な深層学習に基づく融合法と比較して、提案モデルが優れていることを示す。 この作業のコードは、このアドレスでオープンソース化される。 https://github.com/shuaikaishi/ddpmfus 再現性のため。

Hyperspectral images (HSI) have a large amount of spectral information reflecting the characteristics of matter, while their spatial resolution is low due to the limitations of imaging technology. Complementary to this are multispectral images (MSI), e.g., RGB images, with high spatial resolution but insufficient spectral bands. Hyperspectral and multispectral image fusion is a technique for acquiring ideal images that have both high spatial and high spectral resolution cost-effectively. Many existing HSI and MSI fusion algorithms rely on known imaging degradation models, which are often not available in practice. In this paper, we propose a deep fusion method based on the conditional denoising diffusion probabilistic model, called DDPM-Fus. Specifically, the DDPM-Fus contains the forward diffusion process which gradually adds Gaussian noise to the high spatial resolution HSI (HrHSI) and another reverse denoising process which learns to predict the desired HrHSI from its noisy version conditioning on the corresponding high spatial resolution MSI (HrMSI) and low spatial resolution HSI (LrHSI). Once the training is completes, the proposed DDPM-Fus implements the reverse process on the test HrMSI and LrHSI to generate the fused HrHSI. Experiments conducted on one indoor and two remote sensing datasets show the superiority of the proposed model when compared with other advanced deep learningbased fusion methods. The codes of this work will be opensourced at this address: https://github.com/shuaikaishi/DDPMFus for reproducibility.
翻訳日:2023-07-10 13:08:27 公開日:2023-07-07
# ジョイントアフィンと変形可能な画像登録のための非イテレーティブ粗細トランスネットワーク

Non-iterative Coarse-to-fine Transformer Networks for Joint Affine and Deformable Image Registration ( http://arxiv.org/abs/2307.03421v1 )

ライセンス: Link先を確認
Mingyuan Meng, Lei Bi, Michael Fulham, Dagan Feng, and Jinman Kim(参考訳) 画像登録は医用画像解析の基本的な要件である。 ディープラーニングに基づくディープ・レジストレーション手法は、エンドツーエンドの高速な登録を可能にすることで広く認知されている。 多くのディープ登録手法は、粗大な登録を行い、複数の登録ステップをカスケードネットワークで繰り返して行うことによって、最先端の性能を達成した。 近年, 単一ネットワーク上で粗大な登録を行うための非Iterative Coarse-to-finE (NICE) 登録法が提案され, 登録精度と実行性の両方に利点がある。 しかし、既存のNICE登録法は主に変形可能な登録に重点を置いているが、一般的な前提条件であるアフィン登録は、従来の最適化手法や余分なアフィン登録ネットワークに依存している。 また,既存のNICE登録手法は,畳み込み操作の固有の局所性によって制限されている。 トランスフォーマーは、長距離依存性をキャプチャする能力のこの制限に対処することができるが、NICE登録にトランスフォーマーを使用することの利点は検討されていない。 本研究では,画像登録のための非Iterative Coarse-to-finE Transformer Network (NICE-Trans)を提案する。 我々のNICE-Transは、最初のディープ登録方法である i) 単一ネットワーク内で共用アフィン及び変形可能な粗大な登録を行い、 (ii)変換器をNICE登録フレームワークに組み込んで画像間の長距離関係をモデル化する。 7つの公開データセットによる大規模な実験により、我々のNICE-Transは、登録精度と実行時の両方で最先端の登録方法より優れていることが示された。

Image registration is a fundamental requirement for medical image analysis. Deep registration methods based on deep learning have been widely recognized for their capabilities to perform fast end-to-end registration. Many deep registration methods achieved state-of-the-art performance by performing coarse-to-fine registration, where multiple registration steps were iterated with cascaded networks. Recently, Non-Iterative Coarse-to-finE (NICE) registration methods have been proposed to perform coarse-to-fine registration in a single network and showed advantages in both registration accuracy and runtime. However, existing NICE registration methods mainly focus on deformable registration, while affine registration, a common prerequisite, is still reliant on time-consuming traditional optimization-based methods or extra affine registration networks. In addition, existing NICE registration methods are limited by the intrinsic locality of convolution operations. Transformers may address this limitation for their capabilities to capture long-range dependency, but the benefits of using transformers for NICE registration have not been explored. In this study, we propose a Non-Iterative Coarse-to-finE Transformer network (NICE-Trans) for image registration. Our NICE-Trans is the first deep registration method that (i) performs joint affine and deformable coarse-to-fine registration within a single network, and (ii) embeds transformers into a NICE registration framework to model long-range relevance between images. Extensive experiments with seven public datasets show that our NICE-Trans outperforms state-of-the-art registration methods on both registration accuracy and runtime.
翻訳日:2023-07-10 13:07:56 公開日:2023-07-07
# QI2 - データ品質保証のためのインタラクティブツール

QI2 -- an Interactive Tool for Data Quality Assurance ( http://arxiv.org/abs/2307.03419v1 )

ライセンス: Link先を確認
Simon Geerkens, Christian Sieberichs, Alexander Braun, Thomas Waschulzik(参考訳) MLシステムとビッグデータの影響と分散の増大に伴い、データ品質の重要性が増している。 また、欧州委員会による計画されたAI法は、特に安全関連MLシステムの市場導入において、データ品質に関する法的要件の挑戦を定義する。 本稿では,複数のデータ品質面におけるデータ品質保証プロセスを支援する新しいアプローチを提案する。 このアプローチは、定量的データ品質要件の検証を可能にする。 概念とメリットは、小さな例のデータセットで紹介され、説明されます。 手書き桁に基づくよく知られたMNISTデータセットに対して,本手法の適用方法を示す。

The importance of high data quality is increasing with the growing impact and distribution of ML systems and big data. Also the planned AI Act from the European commission defines challenging legal requirements for data quality especially for the market introduction of safety relevant ML systems. In this paper we introduce a novel approach that supports the data quality assurance process of multiple data quality aspects. This approach enables the verification of quantitative data quality requirements. The concept and benefits are introduced and explained on small example data sets. How the method is applied is demonstrated on the well known MNIST data set based an handwritten digits.
翻訳日:2023-07-10 13:07:31 公開日:2023-07-07
# オープンワールドにおけるゼロショット認識のための意味埋め込み学習

Learning Adversarial Semantic Embeddings for Zero-Shot Recognition in Open Worlds ( http://arxiv.org/abs/2307.03416v1 )

ライセンス: Link先を確認
Tianqi Li, Guansong Pang, Xiao Bai, Jin Zheng, Lei Zhou, Xin Ning(参考訳) Zero-Shot Learning (ZSL)は、トレーニング中に提示されるサイドセマンティック情報のみを用いて、目に見えないクラスのサンプルを分類することに焦点を当てている。 未知のクラスのテストサンプル(例:画像)があり、トレーニング中にサンプルやその側の意味情報が知られていない実生活のオープンワールドシナリオを扱うことはできない。 Open-Set Recognition (OSR) は未知のクラス問題に対処することを目的としているが、既存のOSRメソッドは未確認クラスのセマンティック情報をモデル化するために設計されていない。 このZSLとOSRを組み合わせた問題に対処するために、ZSL設定下でモデルが訓練される「Zero-Shot Open-Set Recognition」(ZS-OSR)の場合を考えるが、推論中に未知のクラスからのサンプルを拒否しながら、未確認クラスからのサンプルを正確に分類する必要がある。 ZSLタスクから適応した4つの広く使われているデータセットに対して、ZS-OSRタスクのための既存のZSLとOSRモデルを組み合わせるための大規模な実験を行い、ZS-OSRは、単純な組み合わせによるソリューションが、見知らぬクラスと未知のクラスを区別する上で、著しく機能することを明らかにする。 さらに,ZS-OSRに特化して設計された新しい手法を導入し,未知のクラスに対して,未知のクラスに対して逆意味的な埋め込みを生成し,未知のZS-OSR分類器を訓練する。 広範な実験結果から 我々の手法は 1)未知のクラスの分類精度を維持しつつ未知のクラスを検出する場合の組合せ解を実質的に上回る。 2) 一般化ZS-OSR設定において同様の優位性を実現する。

Zero-Shot Learning (ZSL) focuses on classifying samples of unseen classes with only their side semantic information presented during training. It cannot handle real-life, open-world scenarios where there are test samples of unknown classes for which neither samples (e.g., images) nor their side semantic information is known during training. Open-Set Recognition (OSR) is dedicated to addressing the unknown class issue, but existing OSR methods are not designed to model the semantic information of the unseen classes. To tackle this combined ZSL and OSR problem, we consider the case of "Zero-Shot Open-Set Recognition" (ZS-OSR), where a model is trained under the ZSL setting but it is required to accurately classify samples from the unseen classes while being able to reject samples from the unknown classes during inference. We perform large experiments on combining existing state-of-the-art ZSL and OSR models for the ZS-OSR task on four widely used datasets adapted from the ZSL task, and reveal that ZS-OSR is a non-trivial task as the simply combined solutions perform badly in distinguishing the unseen-class and unknown-class samples. We further introduce a novel approach specifically designed for ZS-OSR, in which our model learns to generate adversarial semantic embeddings of the unknown classes to train an unknowns-informed ZS-OSR classifier. Extensive empirical results show that our method 1) substantially outperforms the combined solutions in detecting the unknown classes while retaining the classification accuracy on the unseen classes and 2) achieves similar superiority under generalized ZS-OSR settings.
翻訳日:2023-07-10 13:07:24 公開日:2023-07-07
# ニューラルネットワークを用いた分布回帰の学習理論

Learning Theory of Distribution Regression with Neural Networks ( http://arxiv.org/abs/2307.03487v1 )

ライセンス: Link先を確認
Zhongjie Shi, Zhan Yu, Ding-Xuan Zhou(参考訳) 本稿では,完全連結ニューラルネットワーク(FNN)を用いて近似理論と分布回帰の学習理論を確立することを目的とする。 古典的な回帰法とは対照的に、分布回帰の入力変数は確率測度である。 そして、分布の実際の情報を近似するために、しばしば第2段階のサンプリングプロセスを実行する必要がある。 一方、古典的なニューラルネットワーク構造では、入力変数がベクトルとなる必要がある。 入力サンプルが確率分布である場合、従来のディープニューラルネットワーク法は直接使用できず、分布回帰の困難が生じる。 分布入力のためのよく定義されたニューラルネットワーク構造が望まれる。 分布回帰のニューラルネットワーク実現に関する数学的モデルや理論的解析は存在しない。 技術的困難を克服し,この問題に対処するために,ボレル確率測度の空間上で定義される関数の近似理論を実現するための,新たな完全連結ニューラルネットワークフレームワークを構築した。 さらに、確立された関数近似結果に基づいて、分布入力を持つ新しいFNN構造によって誘導される仮説空間において、対数項までの分布回帰モデルに対するほぼ最適な学習率を、新しい2段階誤差分解手法により導出する。

In this paper, we aim at establishing an approximation theory and a learning theory of distribution regression via a fully connected neural network (FNN). In contrast to the classical regression methods, the input variables of distribution regression are probability measures. Then we often need to perform a second-stage sampling process to approximate the actual information of the distribution. On the other hand, the classical neural network structure requires the input variable to be a vector. When the input samples are probability distributions, the traditional deep neural network method cannot be directly used and the difficulty arises for distribution regression. A well-defined neural network structure for distribution inputs is intensively desirable. There is no mathematical model and theoretical analysis on neural network realization of distribution regression. To overcome technical difficulties and address this issue, we establish a novel fully connected neural network framework to realize an approximation theory of functionals defined on the space of Borel probability measures. Furthermore, based on the established functional approximation results, in the hypothesis space induced by the novel FNN structure with distribution inputs, almost optimal learning rates for the proposed distribution regression model up to logarithmic terms are derived via a novel two-stage error decomposition technique.
翻訳日:2023-07-10 13:01:25 公開日:2023-07-07
# コントラスト学習による強化学習における階層的成果の発見

Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning ( http://arxiv.org/abs/2307.03486v1 )

ライセンス: Link先を確認
Seungyong Moon, Junyoung Yeom, Bumsoo Park, Hyun Oh Song(参考訳) 手続き的に生成された環境における階層構造による成果の発見は、大きな課題となる。 これにより、エージェントは一般化や長期的推論を含む幅広い能力を持つ必要がある。 多くの先行手法はモデルベースまたは階層的アプローチに基づいて構築されており、長期計画のための明示的なモジュールは階層的達成を学ぶのに有用であると信じられている。 しかし、これらの手法は過剰な環境相互作用や大きなモデルサイズを必要とし、実用性を制限する。 そこで本研究では,PPO(proximal policy optimization)という,シンプルで汎用的なモデルフリーなアルゴリズムが,最近の実装手法により従来の手法よりも優れていることを示す。 さらに, PPOエージェントは, 信頼度は低いものの, 次の成果をある程度の確率で予測できることがわかった。 本研究は, エージェントが次の達成を予測できる能力を高めることを目的とした, 達成蒸留と呼ばれる新しいコントラスト学習手法を提案する。 提案手法は階層的な成果を見出すための強力な能力を示し, サンプル効率の低いモデルパラメータを用いて, 挑戦的なクラフト環境における最先端性能を示す。

Discovering achievements with a hierarchical structure on procedurally generated environments poses a significant challenge. This requires agents to possess a broad range of abilities, including generalization and long-term reasoning. Many prior methods are built upon model-based or hierarchical approaches, with the belief that an explicit module for long-term planning would be beneficial for learning hierarchical achievements. However, these methods require an excessive amount of environment interactions or large model sizes, limiting their practicality. In this work, we identify that proximal policy optimization (PPO), a simple and versatile model-free algorithm, outperforms the prior methods with recent implementation practices. Moreover, we find that the PPO agent can predict the next achievement to be unlocked to some extent, though with low confidence. Based on this observation, we propose a novel contrastive learning method, called achievement distillation, that strengthens the agent's capability to predict the next achievement. Our method exhibits a strong capacity for discovering hierarchical achievements and shows state-of-the-art performance on the challenging Crafter environment using fewer model parameters in a sample-efficient regime.
翻訳日:2023-07-10 13:01:07 公開日:2023-07-07
# クロスビュー構造マッチングを用いたマルチビューグラフクラスタリング

Unpaired Multi-View Graph Clustering with Cross-View Structure Matching ( http://arxiv.org/abs/2307.03476v1 )

ライセンス: Link先を確認
Yi Wen, Siwei Wang, Qing Liao, Weixuan Liang, Ke Liang, Xinhang Wan, Xinwang Liu(参考訳) マルチビュークラスタリング(MVC)は、複数のビューからの情報を効果的に融合してパフォーマンスを向上させる。 既存のMVCメソッドの多くは、マルチビューデータが完全にペアリングされていると仮定している。 しかし、データ対応は、マルチビュー文献ではDUP(Data-Unpaired problem)と呼ばれる、データ破損やセンサ差による実世界のアプリケーションでは不完全であることが多い。 DUP問題に対処する試みはいくつかあるが、以下の欠点に悩まされている。 1)ほとんどの手法は,クラスタリング作業に不可欠なマルチビューデータの構造情報を無視しながら,特徴表現に重点を置いている。 2) 部分的非対向問題に対する既存の方法は,事前の対向的対向的アライメント情報に依存しており,その結果,完全に無対向な問題に対処できない。 3) それらのパラメータはモデルの効率性と適用性を低下させる。 これらの問題に対処するために,クロスビュー構造マッチング(UPMGC-SM)を用いたUnpaired Multi-view Graph Clustering frameworkと呼ばれる新しいパラメータフリーグラフクラスタリングフレームワークを提案する。 具体的には、既存の手法とは異なり、upmgc-smは各ビューの構造情報を効果的に活用し、クロスビュー対応を洗練する。 さらに、UPMGC-SMは完全かつ部分的に欠落したマルチビューグラフクラスタリングのための統合フレームワークです。 さらに、既存のグラフクラスタリング手法では、UPMGC-SMを採用して、未解決シナリオの能力を高めることができます。 広範な実験により,提案手法の有効性と一般化が実証された。

Multi-view clustering (MVC), which effectively fuses information from multiple views for better performance, has received increasing attention. Most existing MVC methods assume that multi-view data are fully paired, which means that the mappings of all corresponding samples between views are pre-defined or given in advance. However, the data correspondence is often incomplete in real-world applications due to data corruption or sensor differences, referred as the data-unpaired problem (DUP) in multi-view literature. Although several attempts have been made to address the DUP issue, they suffer from the following drawbacks: 1) Most methods focus on the feature representation while ignoring the structural information of multi-view data, which is essential for clustering tasks; 2) Existing methods for partially unpaired problems rely on pre-given cross-view alignment information, resulting in their inability to handle fully unpaired problems; 3) Their inevitable parameters degrade the efficiency and applicability of the models. To tackle these issues, we propose a novel parameter-free graph clustering framework termed Unpaired Multi-view Graph Clustering framework with Cross-View Structure Matching (UPMGC-SM). Specifically, unlike the existing methods, UPMGC-SM effectively utilizes the structural information from each view to refine cross-view correspondences. Besides, our UPMGC-SM is a unified framework for both the fully and partially unpaired multi-view graph clustering. Moreover, existing graph clustering methods can adopt our UPMGC-SM to enhance their ability for unpaired scenarios. Extensive experiments demonstrate the effectiveness and generalization of our proposed framework for both paired and unpaired datasets.
翻訳日:2023-07-10 13:00:50 公開日:2023-07-07
# 単純な1次元畳み込みニューラルネットワークを用いた加速度センサデータからの歩行予測の凍結 -Kaggle's Parkinson's Freezing of Gait Prediction Competitionの第8位解

Freezing of Gait Prediction From Accelerometer Data Using a Simple 1D-Convolutional Neural Network -- 8th Place Solution for Kaggle's Parkinson's Freezing of Gait Prediction Competition ( http://arxiv.org/abs/2307.03475v1 )

ライセンス: Link先を確認
Jan Brederecke(参考訳) フリーズ・オブ・ゲイト(英語版)(FOG)はパーキンソン病(PD)患者の一般的な運動症状である。 FOGのエピソードでは、患者は意図した通りに進む能力を失う。 患者の加速度計は、これらのエピソード中に患者の動きに関する情報をキャプチャし、機械学習アルゴリズムは、このデータを分類することができる。 したがって、この組み合わせはFOGをリアルタイムで検出する可能性を秘めている。 本研究では,加速度センサデータからFOGイベントを検出するための,単純な1次元畳み込みニューラルネットワークを提案する。 モデル性能はFOGのエピソードから正常な動きを識別するモデルの成功を測定して評価し,Kaggleのプライベートリーダーボードの平均精度は0.356であった。 最終的にこのモデルはパーキンソンズ・フリーズ・オブ・ゲイト予測大会で1379チーム中8位にランクインした。 その結果, FOG検出の分野での深層学習型ソリューションの可能性を明らかにするとともに, PD患者の介入と管理戦略の改善に寄与した。

Freezing of Gait (FOG) is a common motor symptom in patients with Parkinson's disease (PD). During episodes of FOG, patients suddenly lose their ability to stride as intended. Patient-worn accelerometers can capture information on the patient's movement during these episodes and machine learning algorithms can potentially classify this data. The combination therefore holds the potential to detect FOG in real-time. In this work I present a simple 1-D convolutional neural network that was trained to detect FOG events in accelerometer data. Model performance was assessed by measuring the success of the model to discriminate normal movement from FOG episodes and resulted in a mean average precision of 0.356 on the private leaderboard on Kaggle. Ultimately, the model ranked 8th out of 1379 teams in the Parkinson's Freezing of Gait Prediction competition. The results underscore the potential of Deep Learning-based solutions in advancing the field of FOG detection, contributing to improved interventions and management strategies for PD patients.
翻訳日:2023-07-10 13:00:20 公開日:2023-07-07
# TBGC:マルチタスク基礎モデル学習のためのタスクレベルバックボーン指向勾配クリップ

TBGC: Task-level Backbone-Oriented Gradient Clip for Multi-Task Foundation Model Learning ( http://arxiv.org/abs/2307.03465v1 )

ライセンス: Link先を確認
Zelun Zhang, Xue Pan(参考訳) allinoneトレーニングパラダイムは、さまざまなタスクを、マルチタスク学習形式で統一モデルに絞り込むものだ。 しかし、マルチタスク学習における最適化は、異なるタスクからの勾配ノルムが大きく異なるため、シングルタスク学習よりも難しいため、バックボーンを特定のタスクに過度に偏らせる。 この問題に対処するために,我々は,タスクレベルのバックボーン指向勾配クリップパラダイムを提案し,バニラ勾配クリップ法と比較して,次の2点を強調した。 2) 各タスクから生成されたバックボーン勾配は同じ基準スケールに再スケールされる。 実験結果から,タスクレベルのバックボーン指向の勾配クリップパラダイムは,勾配バイアス問題をある程度緩和できると主張している。 また,コンフリクト拡張を異なるブランチに配置する,新しいマルチブランチデータ拡張戦略を提案する。 我々のアプローチは効果的であることが示されており、cvpr2023 foundation model challengeのleaderboard bでleaderboard aと2位で最終的に1位を獲得した。 注意すべきなのは、リーダボードaの3つのタスク(検出、セグメンテーション、きめ細かい分類)すべてを評価するのではなく、セグメンテーションタスクがリーダボードbで評価されないことです。

The AllInOne training paradigm squeezes a wide range of tasks into a unified model in a multi-task learning manner. However, optimization in multi-task learning is more challenge than single-task learning, as the gradient norm from different tasks may vary greatly, making the backbone overly biased towards one specific task. To address this issue, we propose the task-level backbone-oriented gradient clip paradigm, compared with the vanilla gradient clip method, it has two points of emphasis:1) gradient clip is performed independently for each task. 2) backbone gradients generated from each task are rescaled to the same norm scale. Based on the experimental results, we argue that the task-level backbone-oriented gradient clip paradigm can relieve the gradient bias problem to some extent. We also propose a novel multi-branch data augmentation strategy where conflict augmentations are placed in different branches. Our approach has been shown to be effective and finally achieve 1st place in the Leaderboard A and 2nd place in the Leaderboard B of the CVPR2023 Foundation Model Challenge. It's worth noting that instead of evaluating all three tasks(detection, segmentation and fine-grained classification) in Leaderboard A, the segmentation task is not evaluated in Leaderboard B, in which our team has a huge advantage.
翻訳日:2023-07-10 13:00:02 公開日:2023-07-07
# 氷河養生前線の深部活動輪郭モデル

A Deep Active Contour Model for Delineating Glacier Calving Fronts ( http://arxiv.org/abs/2307.03461v1 )

ライセンス: Link先を確認
Konrad Heidler, Lichao Mou, Erik Loebel, Mirko Scheinert, S\'ebastien Lef\`evre, Xiao Xiang Zhu(参考訳) 機械学習タスクとして現実の問題をエンコードする方法を選択することは、機械学習における重要な設計決定である。 氷河カルビングフロントモデリングの課題はセマンティックセグメンテーションの課題としてしばしばアプローチされてきた。 近年の研究では、セグメンテーションとエッジ検出を組み合わせることで、前方検出装置の精度を向上させることが示されている。 本報告では,この課題を輪郭追跡問題として完全に表現し,中間段階として高密度な予測を含まない明示的な輪郭検出モデルを提案する。 提案手法は '`Charting Outlines by Recurrent Adaptation' (COBRA) と呼ばれ,特徴抽出のための畳み込みニューラルネットワーク (CNN) とデラインのためのアクティブな輪郭モデルを組み合わせたものである。 グリーンランドの出口氷河の大規模データセットのトレーニングと評価により、この手法は、セグメント化とエッジ検出に基づく上記の手法よりも優れていることを示す。 最後に,モデルの予測不確かさを定量化する際に,ピクセルワイズ法よりも明確な輪郭検出が有効であることを示す。 コードとアニメーションモデル予測を含むプロジェクトページは、 \url{https://khdlr.github.io/COBRA/} で見ることができる。

Choosing how to encode a real-world problem as a machine learning task is an important design decision in machine learning. The task of glacier calving front modeling has often been approached as a semantic segmentation task. Recent studies have shown that combining segmentation with edge detection can improve the accuracy of calving front detectors. Building on this observation, we completely rephrase the task as a contour tracing problem and propose a model for explicit contour detection that does not incorporate any dense predictions as intermediate steps. The proposed approach, called ``Charting Outlines by Recurrent Adaptation'' (COBRA), combines Convolutional Neural Networks (CNNs) for feature extraction and active contour models for the delineation. By training and evaluating on several large-scale datasets of Greenland's outlet glaciers, we show that this approach indeed outperforms the aforementioned methods based on segmentation and edge-detection. Finally, we demonstrate that explicit contour detection has benefits over pixel-wise methods when quantifying the models' prediction uncertainties. The project page containing the code and animated model predictions can be found at \url{https://khdlr.github.io/COBRA/}.
翻訳日:2023-07-10 12:59:41 公開日:2023-07-07
# ハミルトニアン・モンテカルロとNo U-Turn Samplersの動的実装の収束について

On the convergence of dynamic implementations of Hamiltonian Monte Carlo and No U-Turn Samplers ( http://arxiv.org/abs/2307.03460v1 )

ライセンス: Link先を確認
Alain Durmus, Samuel Gruffaz, Miika Kailas, Eero Saksman and Matti Vihola(参考訳) No U-Turn Sampler (NUTS) のようなハミルトン・モンテカルロ(HMC)の動的実装の成功に関する実証的な証拠は、多くの困難な推論問題において存在するが、それらの振る舞いに関する理論的結果は乏しい。 本論文の目的は,このギャップを埋めることである。 より正確には、動的HMCと呼ぶMCMCアルゴリズムの一般クラスを考える。 この一般的なフレームワークは、NUTSを特定のケースとして包含しており、対象分布の不変性を副産物として示している。 第2に, NUTSが不可避かつ非周期的であり, 副次的エルゴディックである条件を確立する。 HMCに類似した条件下では、NUTSは幾何学的にエルゴード的であることも示している。 最後に,本手法がガウス分布の摂動である場合,ステップ化と跳躍ステップ数において有界性条件を伴わないエルゴードであることを示すhmcの既存の収束結果を改善する。

There is substantial empirical evidence about the success of dynamic implementations of Hamiltonian Monte Carlo (HMC), such as the No U-Turn Sampler (NUTS), in many challenging inference problems but theoretical results about their behavior are scarce. The aim of this paper is to fill this gap. More precisely, we consider a general class of MCMC algorithms we call dynamic HMC. We show that this general framework encompasses NUTS as a particular case, implying the invariance of the target distribution as a by-product. Second, we establish conditions under which NUTS is irreducible and aperiodic and as a corrolary ergodic. Under conditions similar to the ones existing for HMC, we also show that NUTS is geometrically ergodic. Finally, we improve existing convergence results for HMC showing that this method is ergodic without any boundedness condition on the stepsize and the number of leapfrog steps, in the case where the target is a perturbation of a Gaussian distribution.
翻訳日:2023-07-10 12:59:19 公開日:2023-07-07
# CMOSスピン量子ビットにおける交換相互作用の経路積分シミュレーション

Path integral simulation of exchange interactions in CMOS spin qubits ( http://arxiv.org/abs/2307.03455v1 )

ライセンス: Link先を確認
Jes\'us D. Cifuentes, Philip Y. Mai, Fr\'ed\'eric Schlattner, H. Ekmel Ercan, MengKe Feng, Christopher C. Escott, Andrew S. Dzurak, Andre Saraiva(参考訳) 半導体量子コンピューティングプラットフォームのブームは、量子デバイスのコンピュータ支援設計と製造の需要を生み出した。 パス積分モンテカルロ(PIMC)は、これらの多電子系にしばしば現れる強い量子相関を本質的に統合するため、この取り組みにおいて重要な役割を果たす。 本稿では,3次元電気的に定義された量子ドットの交換相互作用を推定するPIMCアルゴリズムを提案する。 このモデルをシリコン金属-酸化物-半導体(MOS)デバイスに適用し,FCIシミュレーションとの比較を行った。 アプリケーションとして、単一電荷トラップが2つの交換点に与える影響について検討し、CMOSデバイスの障害に対する耐性をテストするためにこのコードを使用する可能性を明らかにする。 このアルゴリズムはこのシステムの正確な記述を提供し、PIMCアルゴリズムを半導体量子コンピュータの開発に組み込むための最初のステップを設定する。

The boom of semiconductor quantum computing platforms created a demand for computer-aided design and fabrication of quantum devices. Path integral Monte Carlo (PIMC) can have an important role in this effort because it intrinsically integrates strong quantum correlations that often appear in these multi-electron systems. In this paper we present a PIMC algorithm that estimates exchange interactions of three-dimensional electrically defined quantum dots. We apply this model to silicon metal-oxide-semiconductor (MOS) devices and we benchmark our method against well-tested full configuration interaction (FCI) simulations. As an application, we study the impact of a single charge trap on two exchanging dots, opening the possibility of using this code to test the tolerance to disorder of CMOS devices. This algorithm provides an accurate description of this system, setting up an initial step to integrate PIMC algorithms into development of semiconductor quantum computers.
翻訳日:2023-07-10 12:58:59 公開日:2023-07-07
# 協調一貫性学習によるユニバーサル半教師付きモデル適応

Universal Semi-supervised Model Adaptation via Collaborative Consistency Training ( http://arxiv.org/abs/2307.03449v1 )

ライセンス: Link先を確認
Zizheng Yan, Yushuang Wu, Yipeng Qin, Xiaoguang Han, Shuguang Cui, Guanbin Li(参考訳) 本稿では,universal semi-supervised model adaptation (usma) という,現実的で挑戦的な領域適応問題を提案する。 i) 事前訓練されたソースモデルのみを必要とする。 二 ソース及びターゲットドメインが異なるラベルセットを持つこと、すなわち、共通のラベルセットを共有して、独自のプライベートラベルセットを保持することができること。 iii) ターゲットドメインの各クラスにラベル付きサンプルをわずかに必要とします。 USMAに対処するため、我々は2つのモデル間の予測整合性、すなわち、事前学習されたソースモデルと、ターゲットデータのみで事前学習された派生モデルとの予測整合性を規則化し、それらの相補的な強みを組み合わせてより強力なモデルを学ぶための協調的整合性トレーニングフレームワークを提案する。 このフレームワークの理論的根拠は、ソースモデルがターゲットのみのモデルよりも共通のカテゴリでより良い性能を発揮するのに対し、ターゲットのみのモデルでは、ターゲットのみのモデルの方が優れた性能を発揮することに由来する。 また,トレーニングを改善するために,サンプル単位とクラス単位の2つのパースペクティブな一貫性規則化を提案する。 実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。

In this paper, we introduce a realistic and challenging domain adaptation problem called Universal Semi-supervised Model Adaptation (USMA), which i) requires only a pre-trained source model, ii) allows the source and target domain to have different label sets, i.e., they share a common label set and hold their own private label set, and iii) requires only a few labeled samples in each class of the target domain. To address USMA, we propose a collaborative consistency training framework that regularizes the prediction consistency between two models, i.e., a pre-trained source model and its variant pre-trained with target data only, and combines their complementary strengths to learn a more powerful model. The rationale of our framework stems from the observation that the source model performs better on common categories than the target-only model, while on target-private categories, the target-only model performs better. We also propose a two-perspective, i.e., sample-wise and class-wise, consistency regularization to improve the training. Experimental results demonstrate the effectiveness of our method on several benchmark datasets.
翻訳日:2023-07-10 12:58:43 公開日:2023-07-07
# ディープネットワークステガノグラフィーに向けて:ネットワークからネットワークへ

Towards Deep Network Steganography: From Networks to Networks ( http://arxiv.org/abs/2307.03444v1 )

ライセンス: Link先を確認
Guobiao Li, Sheng Li, Meiling Li, Zhenxing Qian, Xinpeng Zhang(参考訳) ディープニューラルネットワーク(DNN)の広範な応用により、公開チャネルでDNNモデルを隠蔽的に送信する方法は、特にシークレットラーニングタスクでトレーニングされた人たちに注目を集める。 本稿では,DNNモデルの秘密通信のためのディープネットワークステガノグラフィを提案する。 シークレットDNNモデル(シークレット学習タスク)の学習タスクをステゴDNNモデル(ステゴ学習タスク)で行う他の通常の学習タスクに偽装して、シークレットDNNモデル(シークレット学習タスク)の微妙な修正に焦点をあてた既存のステガノグラフィー手法とは異なり、本手法は学習指向の学習課題である。 そこで本研究では,秘密DNNモデルの重要位置に干渉フィルタを挿入し,ステゴDNNモデルを形成するための勾配型フィルタ挿入方式を提案する。 これらの位置は、キーバイサイド情報隠蔽を使用してステゴDNNモデルに埋め込まれる。 最後に、生成されたstego dnnモデルがstego学習タスクで動作するように、部分最適化戦略により干渉フィルタを活性化する。 本研究では,タスク内ステガノグラフィとタスク間ステガノグラフィ(秘密タスクとステゴ学習タスクは同一および異なるカテゴリに属する)の両方について実験を行い,dnnモデルの隠密通信における提案手法の有効性を実証した。

With the widespread applications of the deep neural network (DNN), how to covertly transmit the DNN models in public channels brings us the attention, especially for those trained for secret-learning tasks. In this paper, we propose deep network steganography for the covert communication of DNN models. Unlike the existing steganography schemes which focus on the subtle modification of the cover data to accommodate the secrets, our scheme is learning task oriented, where the learning task of the secret DNN model (termed as secret-learning task) is disguised into another ordinary learning task conducted in a stego DNN model (termed as stego-learning task). To this end, we propose a gradient-based filter insertion scheme to insert interference filters into the important positions in the secret DNN model to form a stego DNN model. These positions are then embedded into the stego DNN model using a key by side information hiding. Finally, we activate the interference filters by a partial optimization strategy, such that the generated stego DNN model works on the stego-learning task. We conduct the experiments on both the intra-task steganography and inter-task steganography (i.e., the secret and stego-learning tasks belong to the same and different categories), both of which demonstrate the effectiveness of our proposed method for covert communication of DNN models.
翻訳日:2023-07-10 12:58:24 公開日:2023-07-07
# 固体量子メモリにおけるフォトニック量子ビットの高効率キャビティ支援ストレージ

Efficient cavity-assisted storage of photonic qubits in a solid-state quantum memory ( http://arxiv.org/abs/2307.03509v1 )

ライセンス: Link先を確認
Stefano Duranti, S\"oren Wengerowsky, Leo Feldmann, Alessandro Seri, Bernardo Casabone, Hugues de Riedmatten(参考訳) キャビティ強化固体量子メモリにおける弱コヒーレント光パルスとフォトニック量子ビットの高効率保存と検索について報告する。 原子周波数コム(afc)メモリを$pr^{3+}:y_2 so_5$の結晶を低精細のインピーダンス整合キャビティに埋め込むことで、弱いコヒーレントパルスを単一光子レベルで最大62%の効率で保存し、予め決められた2$\mu$sの保存時間とした。 また, インピーダンス整合キャビティにより, 長期保存の効率が70$\mu$sに向上することが確認された。 afc方式の時間的マルチモーダリティを生かして, (51+-2)%効率の弱いコヒーレントな時間ビン量子ビットと, 取得した量子ビットに対する測定デバイス限定忠実度 (94.8+-1.4)% を格納する。 これらの結果は、単一光子レベルのAFCメモリにおける最も効率的なストレージと、固体量子メモリにおける最も効率的な量子ビットストレージである。

We report on the high-efficiency storage and retrieval of weak coherent optical pulses and photonic qubits in a cavity-enhanced solid-state quantum memory. By using an atomic frequency comb (AFC) memory in a $Pr^{3+}:Y_2 SO_5$ crystal embedded in a low-finesse impedance-matched cavity, we stored weak coherent pulses at the single photon level with up to 62% efficiency for a pre-determined storage time of 2 $\mu$s. We also confirmed that the impedance-matched cavity enhances the efficiency for longer storage times up to 70 $\mu$s. Taking advantage of the temporal multimodality of the AFC scheme, we then store weak coherent time-bin qubits with (51+-2)% efficiency and a measurement-device limited fidelity over (94.8+-1.4)% for the retrieved qubits. These results represent the most efficient storage in a single photon level AFC memory and the most efficient qubit storage in a solid-state quantum memory up-to-date.
翻訳日:2023-07-10 12:50:33 公開日:2023-07-07
# 分極化学におけるパウリ原理

Pauli principle in polaritonic chemistry ( http://arxiv.org/abs/2307.03508v1 )

ライセンス: Link先を確認
Tam\'as Szidarovszky(参考訳) キャビティの量子化された放射モードと相互作用する分子アンサンブルの状態空間における、パウリ原理(スピン統計定理)によって要求される置換対称性の強制について論じる。 パウリが許容する集合状態は、群論、すなわち、状態空間を区別不能な分子の置換群の適切な既約表現に射影することによって得られる。 分子数の増加に伴い,パウリが許容する集団状態の比は急速に減少することが示された。 ボゾン状態はフェルミオン状態よりも豊富であり、パウリが許容する集合状態(光子励起状態からの寄与)の明るさは、物質基底(励起)状態多様体のエネルギー準位において微細な構造を増すにつれて増大(減少)する。 数値的な結果は、赤外線キャビティモードと相互作用するH$_2$O分子を緩和する現実的な例を示す。

Consequences of enforcing permutational symmetry, as required by the Pauli principle (spin-statistical theorem), on the state space of molecular ensembles interacting with the quantized radiation mode of a cavity are discussed. The Pauli-allowed collective states are obtained by means of group theory, i.e., by projecting the state space onto the appropriate irreducible representations of the permutation group of the indistinguishable molecules. It is shown that with increasing number of molecules the ratio of Pauli-allowed collective states decreases very rapidly. Bosonic states are more abundant than fermionic states, and the brightness of Pauli-allowed collective states (contribution from photon excited states) increases(decreases) with increasing fine structure in the energy levels of the material ground(excited) state manifold. Numerical results are shown for the realistic example of rovibrating H$_2$O molecules interacting with an infrared (IR) cavity mode.
翻訳日:2023-07-10 12:50:09 公開日:2023-07-07
# 導電性自由ウェイト空間の組立

Derivative Free Weight-space Ensembling ( http://arxiv.org/abs/2307.03506v1 )

ライセンス: Link先を確認
Dean Ninalga(参考訳) 最近の研究は、2つの専門言語モデルの重み間の補間によって、マルチタスク学習ができない方法でタスク間で知識を伝達できることを示唆している。 しかし、2つ以上のモデル間の補間を探索する事例はほとんどなく、それぞれに異なる知識基盤がある。 本稿では,オープンドメイン対話のための新しいタスク転送手法であるdfwe(dederative free weight-space ensembling)を提案する。 我々のフレームワークは、事前定義されたソースタスクセットを使用して訓練された多様な専門家言語モデルを作成する。 次に,対象タスクにおける各専門家モデルの精細化を行い,複数の異なる知識ベースから対象タスクに接近する。 最後に、勾配最適化アルゴリズムを用いてモデル重み間の線形補間を行い、補間重み付けを効率的に行う。 本手法は,feta-friendsの標準的なプリトレイン・フィニチューンアプローチに匹敵する効果を示す。

Recent work suggests that interpolating between the weights of two specialized language models can transfer knowledge between tasks in a way that multi-task learning cannot. However, very few have explored interpolation between more than two models, where each has a distinct knowledge base. In this paper, we introduce Derivative Free Weight-space Ensembling (DFWE), a new few-sample task transfer approach for open-domain dialogue. Our framework creates a set of diverse expert language models trained using a predefined set of source tasks. Next, we finetune each of the expert models on the target task, approaching the target task from several distinct knowledge bases. Finally, we linearly interpolate between the model weights using a gradient-free-optimization algorithm, to efficiently find a good interpolation weighting. We demonstrate the effectiveness of the method on FETA-Friends outperforming the standard pretrain-finetune approach.
翻訳日:2023-07-10 12:49:52 公開日:2023-07-07
# RCDN --アドバンストCNNモデルに基づくロバストX-Corner検出アルゴリズム

RCDN -- Robust X-Corner Detection Algorithm based on Advanced CNN Model ( http://arxiv.org/abs/2307.03505v1 )

ライセンス: Link先を確認
Ben Chen, Caihua Xiong, Quanlin Li, Zhonghua Wan(参考訳) 平面パターンと非平面パターンの両方におけるx-cornerの正確な検出と局在は、ロボティクスとマシンビジョンのコアステップである。 しかし、従来の研究は精度と頑健さのバランスが取れず、どちらも検出器の性能を評価するための重要な基準であった。 そこで本研究では,レンズ歪み,極端なポーズ,ノイズなどの複数干渉による入力に対して,高いサブピクセル精度を維持できる新しい検出アルゴリズムを提案する。 粗細戦略を採用するアルゴリズム全体は、x-corner検出ネットワークと、正しいコーナー候補を識別するための3つの後処理技術と、混合サブピクセルリファインメント技術と、チェッカーボードパターンを部分的に可視または遮蔽するように改良された領域成長戦略を含む。 実画像および合成画像の評価は,提案アルゴリズムが他の一般的な手法よりも検出率,サブピクセル精度,ロバスト性が高いことを示す。 最後に、カメラのキャリブレーションとポーズ推定の実験により、最先端と定量的比較において、より小さな再投影誤差を検証できる。

Accurate detection and localization of X-corner on both planar and non-planar patterns is a core step in robotics and machine vision. However, previous works could not make a good balance between accuracy and robustness, which are both crucial criteria to evaluate the detectors performance. To address this problem, in this paper we present a novel detection algorithm which can maintain high sub-pixel precision on inputs under multiple interference, such as lens distortion, extreme poses and noise. The whole algorithm, adopting a coarse-to-fine strategy, contains a X-corner detection network and three post-processing techniques to distinguish the correct corner candidates, as well as a mixed sub-pixel refinement technique and an improved region growth strategy to recover the checkerboard pattern partially visible or occluded automatically. Evaluations on real and synthetic images indicate that the presented algorithm has the higher detection rate, sub-pixel accuracy and robustness than other commonly used methods. Finally, experiments of camera calibration and pose estimation verify it can also get smaller re-projection error in quantitative comparisons to the state-of-the-art.
翻訳日:2023-07-10 12:49:38 公開日:2023-07-07
# DEFT: スケーラブルなGradient Sparsificationのためのモデル層間のグラディエントノルムの爆発的違い

DEFT: Exploiting Gradient Norm Difference between Model Layers for Scalable Gradient Sparsification ( http://arxiv.org/abs/2307.03500v1 )

ライセンス: Link先を確認
Daegun Yoon, Sangyoon Oh(参考訳) 分散深層学習における過剰な通信トラフィックを減らすため、勾配スペーシフィケーションが広く採用されている。 しかしながら、既存の勾配分離器の多くは、勾配選択のかなりの計算コストと勾配構築による通信トラフィックの増加のため、スケーラビリティが比較的低い。 これらの課題に対処するため,我々は,勾配選択タスクをサブタスクに分割し,それらをワーカーに分散する,新しい勾配スパーシフィケーションスキームdeftを提案する。 DEFTは既存のスパシファイアと異なり、すべてのワーカーがすべての勾配の中から勾配を選択する。 これにより、作業者数の増加に伴って計算コストを低減できる。 さらに、DEFTでは、非交差(ワーカー間)のパーティションの勾配を選択することができるため、グラデーションのビルドを排除できる。 したがって、労働者数が増えても、通信トラフィックをユーザ要求に応じて維持することができる。 勾配選択の重要さの喪失を避けるため、DEFTは他の層よりも大きな勾配ノルムを持つ層の勾配を選択する。 すべての層が異なる計算負荷を持つため、DEFTは、労働者間の勾配選択のバランスの取れた負荷を維持するために、bin-packingアルゴリズムを使用して、労働者にレイヤを割り当てる。 我々の経験的評価では、DFTは、既存のスパリファイアよりも勾配選択の速度において、高い収束性能を達成しつつ、トレーニング性能が大幅に向上したことを示す。

Gradient sparsification is a widely adopted solution for reducing the excessive communication traffic in distributed deep learning. However, most existing gradient sparsifiers have relatively poor scalability because of considerable computational cost of gradient selection and/or increased communication traffic owing to gradient build-up. To address these challenges, we propose a novel gradient sparsification scheme, DEFT, that partitions the gradient selection task into sub tasks and distributes them to workers. DEFT differs from existing sparsifiers, wherein every worker selects gradients among all gradients. Consequently, the computational cost can be reduced as the number of workers increases. Moreover, gradient build-up can be eliminated because DEFT allows workers to select gradients in partitions that are non-intersecting (between workers). Therefore, even if the number of workers increases, the communication traffic can be maintained as per user requirement. To avoid the loss of significance of gradient selection, DEFT selects more gradients in the layers that have a larger gradient norm than the other layers. Because every layer has a different computational load, DEFT allocates layers to workers using a bin-packing algorithm to maintain a balanced load of gradient selection between workers. In our empirical evaluation, DEFT shows a significant improvement in training performance in terms of speed in gradient selection over existing sparsifiers while achieving high convergence performance.
翻訳日:2023-07-10 12:49:19 公開日:2023-07-07
# ガッピングおよびドープグラフェンの原子またはナノ粒子に対するカシミール-ポルダー力: 大きな分離における漸近挙動

Casimir-Polder Force on Atoms or Nanoparticles from the Gapped and Doped Graphene: Asymptotic Behavior at Large Separations ( http://arxiv.org/abs/2307.03497v1 )

ライセンス: Link先を確認
Galina L. Klimchitskaya and Vladimir M. Mostepanenko(参考訳) エネルギーギャップと化学ポテンシャルを有する実グラフェンシートから大きく分離した原子とナノ粒子に作用するカシミール・ポルダー力は、リフシッツ理論の枠組みで研究されている。 熱量子場理論の第一原理に基づくグラフェンの偏光テンソルによって表される反射係数が用いられる。 グラフェンの場合、リフシッツの公式の0周波数項が全カシミール・ポルダー力の99\%以上を占める分離距離は標準熱長より小さいことが示されている。 しかし, この結果によれば, グラフェンの古典的限界は, プランク定数に依存しない力となるが, エネルギーギャップと化学ポテンシャルの値によって, リフシッツ公式のゼロ周波数項によって決定される大きな分離の限界よりも, はるかに大きな分離に達する可能性がある。 大規模な分離におけるリフシッツ公式のゼロ周波数項に対する解析的漸近式が導出される。 これらの漸近表現は、エネルギーギャップの増大と化学ポテンシャルの増大により増大する分離距離から始まる数値計算の結果と最大1\%の値に一致する。 得られた結果の応用可能性について論じる。

The Casimir-Polder force acting on atoms and nanoparticles spaced at large separations from real graphene sheet possessing some energy gap and chemical potential is investigated in the framework of the Lifshitz theory. The reflection coefficients expressed via the polarization tensor of graphene found based on the first principles of thermal quantum field theory are used. It is shown that for graphene the separation distances starting from which the zero-frequency term of the Lifshitz formula contributes more than 99\% of the total Casimir-Polder force are less than the standard thermal length. According to our results, however, the classical limit for graphene, where the force becomes independent on the Planck constant, may be reached at much larger separations than the limit of large separations determined by the zero-frequency term of the Lifshitz formula depending on the values of the energy gap and chemical potential. The analytic asymptotic expressions for the zero-frequency term of the Lifshitz formula at large separations are derived. These asymptotic expressions agree up to 1\% with the results of numerical computations starting from some separation distance which increases with increasing energy gap and decreases with increasing chemical potential. Possible applications of the obtained results are discussed.
翻訳日:2023-07-10 12:48:56 公開日:2023-07-07
# HoughLaneNet: ディープハフ変換と動的畳み込みによるレーン検出

HoughLaneNet: Lane Detection with Deep Hough Transform and Dynamic Convolution ( http://arxiv.org/abs/2307.03494v1 )

ライセンス: Link先を確認
Jia-Qi Zhang, Hao-Bin Duan, Jun-Long Chen, Ariel Shamir and Miao Wang(参考訳) レーン検出のタスクは、その複雑さのために自動運転の分野でかなりの注目を集めている。 レーンは狭く、断片化され、しばしば交通量が多いために、検出の困難を生じさせる。 しかし, 車線は直線に類似した幾何学的構造を有しており, この特性を利用する場合の車線検出結果の改善が期待できる。 この課題に対処するために,画像中のすべてのレーン特徴をハフパラメータ空間に結合する階層的ディープハフ変換(dht)手法を提案する。 さらに,点選択法を洗練し,動的畳み込みモジュールを組み込んで,原画像のレーン間を効果的に区別する。 我々のネットワークアーキテクチャは、バックボーンネットワーク(ResNetまたはMaraamid Vision Transformer)と、マルチスケールの特徴を抽出する特徴ピラミッドネットワーク(Feature Pyramid Network)と、各レーンを正確に区切る階層的なDHTベースの特徴集約ヘッド(Feature aggregate head)から構成される。 Houghパラメータ空間のレーン特徴を利用することで、ネットワークは各レーンに対応する動的畳み込みカーネルパラメータを学習し、動的畳み込みモジュールが効果的にレーン特徴を区別できるようにする。 その後、レーン機能は機能デコーダに供給され、レーンの最終位置を予測する。 提案するネットワーク構造は,本手法が最先端技術と同等あるいは同等であることを示す大規模な実験結果によって実証されたように,重閉塞あるいは摩耗された車線画像の検出性能の向上を示す。

The task of lane detection has garnered considerable attention in the field of autonomous driving due to its complexity. Lanes can present difficulties for detection, as they can be narrow, fragmented, and often obscured by heavy traffic. However, it has been observed that the lanes have a geometrical structure that resembles a straight line, leading to improved lane detection results when utilizing this characteristic. To address this challenge, we propose a hierarchical Deep Hough Transform (DHT) approach that combines all lane features in an image into the Hough parameter space. Additionally, we refine the point selection method and incorporate a Dynamic Convolution Module to effectively differentiate between lanes in the original image. Our network architecture comprises a backbone network, either a ResNet or Pyramid Vision Transformer, a Feature Pyramid Network as the neck to extract multi-scale features, and a hierarchical DHT-based feature aggregation head to accurately segment each lane. By utilizing the lane features in the Hough parameter space, the network learns dynamic convolution kernel parameters corresponding to each lane, allowing the Dynamic Convolution Module to effectively differentiate between lane features. Subsequently, the lane features are fed into the feature decoder, which predicts the final position of the lane. Our proposed network structure demonstrates improved performance in detecting heavily occluded or worn lane images, as evidenced by our extensive experimental results, which show that our method outperforms or is on par with state-of-the-art techniques.
翻訳日:2023-07-10 12:48:36 公開日:2023-07-07
# ITA:量子変換器のエネルギー効率向上とソフトマックス加速器

ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized Transformers ( http://arxiv.org/abs/2307.03493v1 )

ライセンス: Link先を確認
Gamze \.Islamo\u{g}lu (1), Moritz Scherer (1), Gianna Paulin (1), Tim Fischer (1), Victor J.B. Jung (1), Angelo Garofalo (1 and 2), Luca Benini (1 and 2) ((1) ETH Z\"urich, (2) University of Bologna)(参考訳) トランスフォーマーネットワークは自然言語処理タスクの最先端のアプローチとして登場し、コンピュータビジョンやオーディオ処理など他の領域でも人気がある。 しかしながら、トランスフォーマーモデルの効率的なハードウェアアクセラレーションは、高い算術インテンシティ、大きなメモリ要件、複雑なデータフロー依存性により、新たな課題をもたらす。 本研究では、8ビット量子化と整数値のみで動作する革新的なソフトマックス実装を利用して、組込みシステムにおける効率的な推論を目標とするトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャであるITAを提案する。 ストリーミングモードでのオンザフライ計算により,データ移動とエネルギー消費を最小限に抑える。 ITAは16.9TOPS/Wの最先端の変圧器加速器に対して競争エネルギー効率を達成し、面積効率は5.93TOPS/mm$^2$ in 22 nmの完全分解シリコンオン絶縁体技術で0.8Vで上回っている。

Transformer networks have emerged as the state-of-the-art approach for natural language processing tasks and are gaining popularity in other domains such as computer vision and audio processing. However, the efficient hardware acceleration of transformer models poses new challenges due to their high arithmetic intensities, large memory requirements, and complex dataflow dependencies. In this work, we propose ITA, a novel accelerator architecture for transformers and related models that targets efficient inference on embedded systems by exploiting 8-bit quantization and an innovative softmax implementation that operates exclusively on integer values. By computing on-the-fly in streaming mode, our softmax implementation minimizes data movement and energy consumption. ITA achieves competitive energy efficiency with respect to state-of-the-art transformer accelerators with 16.9 TOPS/W, while outperforming them in area efficiency with 5.93 TOPS/mm$^2$ in 22 nm fully-depleted silicon-on-insulator technology at 0.8 V.
翻訳日:2023-07-10 12:48:07 公開日:2023-07-07
# 大規模AIモデルに基づく意味コミュニケーション

Large AI Model-Based Semantic Communications ( http://arxiv.org/abs/2307.03492v1 )

ライセンス: Link先を確認
Feibo Jiang, Yubo Peng, Li Dong, Kezhi Wang, Kun Yang, Cunhua Pan, Xiaohu You(参考訳) セマンティックコミュニケーション(sc)は新たなインテリジェントパラダイムであり、メタバース、混合現実性、モノのインターネットといった、さまざまな将来のアプリケーションのためのソリューションを提供する。 しかし、現在のSCシステムでは知識ベース(KB)の構築は、限られた知識表現、頻繁な知識更新、安全でない知識共有など、いくつかの問題に直面している。 幸いなことに、大きなAIモデルの開発は、上記の問題を克服するための新しいソリューションを提供する。 本稿では,画像データ用に特別に設計された大規模aiモデルに基づくscフレームワーク (lam-sc) を提案する。そこで最初にsegment anything model (sam) ベースのkb (skb) を設計した。 次に,人間の参加なしにskbが生成する意味セグメントを計測し,意味認識画像として統合するための注意に基づく意味統合(asi)を提案する。 さらに,アダプティブセマンティック圧縮(ASC)符号化により,意味的特徴の冗長な情報を除去し,通信オーバーヘッドを低減する。 最後に、シミュレーションにより、LAM-SCフレームワークの有効性と、将来のSCパラダイムにおける大規模AIモデルベースのKB開発の重要性を示す。

Semantic communication (SC) is an emerging intelligent paradigm, offering solutions for various future applications like metaverse, mixed-reality, and the Internet of everything. However, in current SC systems, the construction of the knowledge base (KB) faces several issues, including limited knowledge representation, frequent knowledge updates, and insecure knowledge sharing. Fortunately, the development of the large AI model provides new solutions to overcome above issues. Here, we propose a large AI model-based SC framework (LAM-SC) specifically designed for image data, where we first design the segment anything model (SAM)-based KB (SKB) that can split the original image into different semantic segments by universal semantic knowledge. Then, we present an attention-based semantic integration (ASI) to weigh the semantic segments generated by SKB without human participation and integrate them as the semantic-aware image. Additionally, we propose an adaptive semantic compression (ASC) encoding to remove redundant information in semantic features, thereby reducing communication overhead. Finally, through simulations, we demonstrate the effectiveness of the LAM-SC framework and the significance of the large AI model-based KB development in future SC paradigms.
翻訳日:2023-07-10 12:47:46 公開日:2023-07-07
# すべての非署名チャネルは共通の原因で実現可能である

Every non-signalling channel is common-cause realizable ( http://arxiv.org/abs/2307.03489v1 )

ライセンス: Link先を確認
Paulo J. Cavalcanti, John H. Selby, Ana Bel\'en Sainz(参考訳) 本研究は、局所的トモグラフィ一般化確率論(GPT)の非符号的資源の集合、例えば量子理論や古典理論は、関連するGPTから共通の原因が生じるGPTの集合と一致することを示す。 因果的な観点から、この結果は、共通原因過程の資源理論の研究において、非シグナリングチャネルを包み込み理論の資源とする理由を与える。 これはRefで重要なオープンな疑問に答える。 通称「2020postquantum」。 我々の結果の直結は、すべての非シグナリング集合が GPT で実現可能であり、Ref で提起された肯定的な疑問に答えることである。 ~\cite{cavalcanti2022post}。

In this work we show that the set of non-signalling resources of a locally-tomographic generalised probabilistic theory (GPT), such as quantum and classical theory, coincides with its set of GPT-common-cause realizable resources, where the common causes come from an associated GPT. From a causal perspective, this result provides a reason for, in the study of resource theories of common-cause processes, taking the non-signalling channels as the resources of the enveloping theory. This answers a critical open question in Ref.~\cite{schmid2020postquantum}. An immediate corollary of our result is that every non-signalling assemblage is realizable in a GPT, answering in the affirmative the question posed in Ref.~\cite{cavalcanti2022post}.
翻訳日:2023-07-10 12:47:25 公開日:2023-07-07
# VariGrad: 未登録データの幾何学的深層学習のための新しい特徴ベクトルアーキテクチャ

VariGrad: A Novel Feature Vector Architecture for Geometric Deep Learning on Unregistered Data ( http://arxiv.org/abs/2307.03553v1 )

ライセンス: Link先を確認
Emmanuel Hartman, Emery Pierson(参考訳) 本稿では,3次元幾何データの特徴ベクトル表現を計算するために,可変勾配(varigrad)を利用した新しい幾何学的ディープラーニング層を提案する。 これらの特徴ベクトルは、分類、登録、形状再構成といった様々な下流学習タスクで使用できる。 幾何データのパラメータ化を独立に表現することで,与えられたサンプリングやパラメータ化とは無関係に,データ上でのトレーニングとテストが可能となる。 提案したVariGrad層で示される再サンプリングの効率性,一般化性,堅牢性を示す。

We present a novel geometric deep learning layer that leverages the varifold gradient (VariGrad) to compute feature vector representations of 3D geometric data. These feature vectors can be used in a variety of downstream learning tasks such as classification, registration, and shape reconstruction. Our model's use of parameterization independent varifold representations of geometric data allows our model to be both trained and tested on data independent of the given sampling or parameterization. We demonstrate the efficiency, generalizability, and robustness to resampling demonstrated by the proposed VariGrad layer.
翻訳日:2023-07-10 12:41:26 公開日:2023-07-07
# DWReCO at CheckThat! 2023:スタイルベースデータサンプリングによる主観性検出の強化

DWReCO at CheckThat! 2023: Enhancing Subjectivity Detection through Style-based Data Sampling ( http://arxiv.org/abs/2307.03550v1 )

ライセンス: Link先を確認
Ipek Baris Schlicht and Lynn Khellaf and Defne Altiok(参考訳) 本稿では,checkthatにおける主観性検出タスクの提案について述べる。 ラボ 課題におけるクラス不均衡に取り組むために,主観チェックリストから異なるスタイルのプロンプトを用いて,gpt-3モデルを用いた追加の学習教材を作成した。 拡張トレーニングセットを言語固有のトランスフォーマーモデルに適用した。 我々の英語、ドイツ語、トルコ語の実験は、異なる主観的スタイルがすべての言語で有効であることを示した。 さらに,スタイルに基づくオーバーサンプリングは,トルコ語や英語のパラフレーズよりも優れていることを観察する。 最後に、gpt-3モデルは、非英語の言語でスタイルベースのテキストを生成する際に、しばしば不十分な結果を生み出す。

This paper describes our submission for the subjectivity detection task at the CheckThat! Lab. To tackle class imbalances in the task, we have generated additional training materials with GPT-3 models using prompts of different styles from a subjectivity checklist based on journalistic perspective. We used the extended training set to fine-tune language-specific transformer models. Our experiments in English, German and Turkish demonstrate that different subjective styles are effective across all languages. In addition, we observe that the style-based oversampling is better than paraphrasing in Turkish and English. Lastly, the GPT-3 models sometimes produce lacklustre results when generating style-based texts in non-English languages.
翻訳日:2023-07-10 12:41:17 公開日:2023-07-07
# グラフニューラルネットワークを用いたローマ数字解析:音符特徴からのオンセット予測

Roman Numeral Analysis with Graph Neural Networks: Onset-wise Predictions from Note-wise Features ( http://arxiv.org/abs/2307.03544v1 )

ライセンス: Link先を確認
Emmanouil Karystinaios and Gerhard Widmer(参考訳) ローマ数字解析は、和音とその機能的文脈を声調音楽で識別する重要なタスクである。 本稿では,シンボリック音楽におけるローマ数字の自動解析手法を提案する。 既存の手法ではスコアの中間的損失表現に依存しているが,各音符の直接記述と処理を可能にするグラフニューラルネットワーク(gnns)に基づく新しい手法を提案する。 提案アーキテクチャでは,新たなエッジ縮合アルゴリズムを用いて,音符間の相互依存性と特徴量を利用することができる。 以上の結果から,ChordGNNは既存の最先端モデルよりも優れており,参照データセット上でのローマ数解析において高い精度を実現していることがわかった。 さらに,NADEなどの提案手法とコード予測の処理後処理を用いて,本モデルの変種について検討する。 この作業の完全なソースコードはhttps://github.com/manoskary/chordgnnで入手できる。

Roman Numeral analysis is the important task of identifying chords and their functional context in pieces of tonal music. This paper presents a new approach to automatic Roman Numeral analysis in symbolic music. While existing techniques rely on an intermediate lossy representation of the score, we propose a new method based on Graph Neural Networks (GNNs) that enable the direct description and processing of each individual note in the score. The proposed architecture can leverage notewise features and interdependencies between notes but yield onset-wise representation by virtue of our novel edge contraction algorithm. Our results demonstrate that ChordGNN outperforms existing state-of-the-art models, achieving higher accuracy in Roman Numeral analysis on the reference datasets. In addition, we investigate variants of our model using proposed techniques such as NADE, and post-processing of the chord predictions. The full source code for this work is available at https://github.com/manoskary/chordgnn
翻訳日:2023-07-10 12:41:05 公開日:2023-07-07
# 電池内蔵ゼロショットESCOスキルマッチとしての大規模言語モデル

Large Language Models as Batteries-Included Zero-Shot ESCO Skills Matchers ( http://arxiv.org/abs/2307.03539v1 )

ライセンス: Link先を確認
Benjamin Clavi\'e and Guillaume Souli\'e(参考訳) 労働市場のダイナミクスを理解するには、労働力に必要なスキルを正確に特定する必要がある。 この取り組みをサポートするために、自動化技術がますます開発されている。 しかし,既存のスキルが多すぎるため,求職者からのスキルの自動抽出は困難である。 ESCO(European Skills, Competences, Qualifications and Occupations)フレームワークは、13,000以上の個別スキルをリストアップする有用なリファレンスを提供する。 しかしながら、スキル抽出は依然として困難であり、ESCO分類学の職位と正確に一致することは未解決の問題である。 本研究では,大規模言語モデル(LLM)に基づくジョブ記述からスキルを抽出するエンドツーエンドのゼロショットシステムを提案する。 ESCOのスキル全体に関する総合的なトレーニングデータを生成し,求職者からのスキル言及を抽出するために分類器を訓練する。 また、類似性検索を用いてスキル候補を生成し、第2のLCMを用いて再ランク付けする。 合成データを使用することで、RP@10スコアは従来の遠隔監視手法よりも10ポイント高い。 GPT-4の再ランク付けは、RP@10を以前のメソッドよりも22ポイント以上改善する。 また、LLMのプロンプト時にタスクをモックプログラミングとしてフレイミングすることで、自然言語のプロンプトよりもパフォーマンスが向上することを示す。 スキルマッチングパイプラインの両端に,大規模言語モデルを統合する可能性を示す。 提案手法は人間のアノテーションを必要とせず,ESCOに対するスキル抽出において極めて有望な結果が得られる。

Understanding labour market dynamics requires accurately identifying the skills required for and possessed by the workforce. Automation techniques are increasingly being developed to support this effort. However, automatically extracting skills from job postings is challenging due to the vast number of existing skills. The ESCO (European Skills, Competences, Qualifications and Occupations) framework provides a useful reference, listing over 13,000 individual skills. However, skills extraction remains difficult and accurately matching job posts to the ESCO taxonomy is an open problem. In this work, we propose an end-to-end zero-shot system for skills extraction from job descriptions based on large language models (LLMs). We generate synthetic training data for the entirety of ESCO skills and train a classifier to extract skill mentions from job posts. We also employ a similarity retriever to generate skill candidates which are then re-ranked using a second LLM. Using synthetic data achieves an RP@10 score 10 points higher than previous distant supervision approaches. Adding GPT-4 re-ranking improves RP@10 by over 22 points over previous methods. We also show that Framing the task as mock programming when prompting the LLM can lead to better performance than natural language prompts, especially with weaker LLMs. We demonstrate the potential of integrating large language models at both ends of skills matching pipelines. Our approach requires no human annotations and achieve extremely promising results on skills extraction against ESCO.
翻訳日:2023-07-10 12:40:50 公開日:2023-07-07
# デカップリングによる言語フリー合成行動生成

Language-free Compositional Action Generation via Decoupling Refinement ( http://arxiv.org/abs/2307.03538v1 )

ライセンス: Link先を確認
Xiao Liu, Guangyi Chen, Yansong Tang, Guangrun Wang, Ser-Nam Lim(参考訳) 単純な要素を複雑な概念に組み込むことは、特に3Dアクション生成において非常に難しい。 既存の手法は主に、構成可能な潜在意味論を識別するための広範囲なニューラルネットワークアノテーションに依存している。 本研究では,言語助詞に頼らずに合成動作を生成する新しい枠組みを提案する。 このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントの3つの主要コンポーネントから構成される。 アクションカップリングは、各サブアクションのアテンションマスクを抽出するためにエネルギーモデルを使用し、これらのアテンションを使用して2つのアクションを統合して擬似トレーニング例を生成する。 次に,条件付き生成モデルであるcvaeを用いて潜在空間を学習し,多様な世代を促進する。 最後に,自己教師付き事前学習モデルMAEを利用して,サブアクションと構成動作のセマンティック一貫性を確保するデカップリングリファインメントを提案する。 この改良プロセスでは、生成された3dアクションを2d空間にレンダリングし、これらのイメージを2つのサブセグメントに分離し、maeモデルを使用してサブセグメントから完全なイメージを復元する。 サブアクションとコンポジションアクションの両方を含む既存のデータセットがないため、HumanAct-CとUESTC-Cという2つの新しいデータセットを作成し、対応する評価指標を提示した。 質的・定量的評価はともに有効性を示すために行われる。

Composing simple elements into complex concepts is crucial yet challenging, especially for 3D action generation. Existing methods largely rely on extensive neural language annotations to discern composable latent semantics, a process that is often costly and labor-intensive. In this study, we introduce a novel framework to generate compositional actions without reliance on language auxiliaries. Our approach consists of three main components: Action Coupling, Conditional Action Generation, and Decoupling Refinement. Action Coupling utilizes an energy model to extract the attention masks of each sub-action, subsequently integrating two actions using these attentions to generate pseudo-training examples. Then, we employ a conditional generative model, CVAE, to learn a latent space, facilitating the diverse generation. Finally, we propose Decoupling Refinement, which leverages a self-supervised pre-trained model MAE to ensure semantic consistency between the sub-actions and compositional actions. This refinement process involves rendering generated 3D actions into 2D space, decoupling these images into two sub-segments, using the MAE model to restore the complete image from sub-segments, and constraining the recovered images to match images rendered from raw sub-actions. Due to the lack of existing datasets containing both sub-actions and compositional actions, we created two new datasets, named HumanAct-C and UESTC-C, and present a corresponding evaluation metric. Both qualitative and quantitative assessments are conducted to show our efficacy.
翻訳日:2023-07-10 12:40:25 公開日:2023-07-07
# 水中シナリオの強化と物体検出のための共同知覚学習

Joint Perceptual Learning for Enhancement and Object Detection in Underwater Scenarios ( http://arxiv.org/abs/2307.03536v1 )

ライセンス: Link先を確認
Chenping Fu, Wanqi Yuan, Jiewen Xiao, Risheng Liu, and Xin Fan(参考訳) 水中で劣化した画像は、既存のアルゴリズムに非常に挑戦し、興味のある物体を検出する。 近年,検出器の特徴表現を改善するため,注意機構や複合接続の採用が試みられている。 しかし、このソリューションは、色やテクスチャなどの画像コンテンツに対する劣化の影響をなくし、最小限の改善を達成している。 水中物体検出のもう一つの実現可能な解決策は、画質や機能を向上させるために高度な深層アーキテクチャを開発することである。 それでも、これらの拡張モジュールの視覚的に魅力的な出力は、ディープ検出器に対して高い精度で生成する。 最近のマルチタスク学習手法では、水中検出と画像強調を共同で学習し、有望な改善にアクセスしている。 通常、これらのメソッドは巨大なアーキテクチャと高価な計算を起動し、非効率な推論をレンダリングする。 明らかに、水中物体検出と画像強調は2つの相互関連タスクである。 2つのタスクから得られる情報を活用することは、各タスクに利益をもたらす。 これらの事実に基づいて,水中物体の検出と画像強調を共同で学習する二段階最適化法を提案し,その2つの課題に対して2次元認識ネットワーク(DPNet)に展開する。 1つの共有モジュールと2つのタスクサブネットを持つDPNetは、2つの異なるタスクから学習し、共有表現を求める。 共有表現は、画像強調のための構造の詳細とオブジェクト検出のためのリッチコンテンツ情報を提供する。 最後に,dpnetのパラメータを最適化するための協調学習戦略を導出する。 実世界および合成水中データセットに関する広範囲な実験により,視覚的に好適な画像と高い検出精度が得られた。

Underwater degraded images greatly challenge existing algorithms to detect objects of interest. Recently, researchers attempt to adopt attention mechanisms or composite connections for improving the feature representation of detectors. However, this solution does \textit{not} eliminate the impact of degradation on image content such as color and texture, achieving minimal improvements. Another feasible solution for underwater object detection is to develop sophisticated deep architectures in order to enhance image quality or features. Nevertheless, the visually appealing output of these enhancement modules do \textit{not} necessarily generate high accuracy for deep detectors. More recently, some multi-task learning methods jointly learn underwater detection and image enhancement, accessing promising improvements. Typically, these methods invoke huge architecture and expensive computations, rendering inefficient inference. Definitely, underwater object detection and image enhancement are two interrelated tasks. Leveraging information coming from the two tasks can benefit each task. Based on these factual opinions, we propose a bilevel optimization formulation for jointly learning underwater object detection and image enhancement, and then unroll to a dual perception network (DPNet) for the two tasks. DPNet with one shared module and two task subnets learns from the two different tasks, seeking a shared representation. The shared representation provides more structural details for image enhancement and rich content information for object detection. Finally, we derive a cooperative training strategy to optimize parameters for DPNet. Extensive experiments on real-world and synthetic underwater datasets demonstrate that our method outputs visually favoring images and higher detection accuracy.
翻訳日:2023-07-10 12:39:57 公開日:2023-07-07
# 野生でのマッチング:マルチモーダル画像のための解剖学的埋め込み学習

Matching in the Wild: Learning Anatomical Embeddings for Multi-Modality Images ( http://arxiv.org/abs/2307.03535v1 )

ライセンス: Link先を確認
Xiaoyu Bai, Fan Bai, Xiaofei Huo, Jia Ge, Tony C. W. Mok, Zi Li, Minfeng Xu, Jingren Zhou, Le Lu, Dakai Jin, Xianghua Ye, Jingjing Lu, Ke Yan(参考訳) ラジオセラピストは両方のモダリティからの情報を効果的に利用するため、mr/ct画像の正確な登録を必要とする。 典型的な登録パイプラインでは、変形ステップに進む前に固定画像と動画像とを大まかに整列させるために剛体またはアフィン変換が適用される。 最近の学習に基づく手法は、剛性/ファインステップにおいて有望な結果を示しているが、これらの手法は、しばしば、アライメントを成功させるために、同様の視野(FOV)を持つ画像を必要とする。 その結果、異なるFOVと画像の整合性は依然として難しい課題である。 自己監督型解剖学的eMbedding(SAM)のような自己監督型ランドマーク検出法は、画像と類似のFOVとのマッピングとトリミングに有用なツールとして登場した。 しかし、これらの方法は現在、モダリティ内の使用のみに限られている。 この制限に対処し、モダリティ間マッチングを可能にするために、Cross-SAMと呼ばれる新しいアプローチを提案する。 提案手法は,埋め込み学習とCT-MRIの登録を交互に行う新しい反復プロセスを利用する。 まずCT画像とMRI画像にアグレッシブコントラストを付加してSAMモデルを訓練することから始める。 次に、このSAMを用いて、ロバストなグリッドポイントマッチングを用いて、対応する領域を識別し、その後、ポイントセットベースのアフィン/リグッド登録と、変形可能な微調整ステップを用いて、登録されたペア画像を生成する。 登録されたペアを用いてSAMのマッチング能力を高め、反復的に処理する。 クロスモダリティマッチングタスクには最終モデルを使用します。 我々は,2つのCT-MRIアフィン登録データセットに対するアプローチを評価し,Cross-SAMは両データセットに対してロバストなアフィン登録を実現し,他の手法よりも優れ,最先端の性能を達成した。

Radiotherapists require accurate registration of MR/CT images to effectively use information from both modalities. In a typical registration pipeline, rigid or affine transformations are applied to roughly align the fixed and moving images before proceeding with the deformation step. While recent learning-based methods have shown promising results in the rigid/affine step, these methods often require images with similar field-of-view (FOV) for successful alignment. As a result, aligning images with different FOVs remains a challenging task. Self-supervised landmark detection methods like self-supervised Anatomical eMbedding (SAM) have emerged as a useful tool for mapping and cropping images to similar FOVs. However, these methods are currently limited to intra-modality use only. To address this limitation and enable cross-modality matching, we propose a new approach called Cross-SAM. Our approach utilizes a novel iterative process that alternates between embedding learning and CT-MRI registration. We start by applying aggressive contrast augmentation on both CT and MRI images to train a SAM model. We then use this SAM to identify corresponding regions on paired images using robust grid-points matching, followed by a point-set based affine/rigid registration, and a deformable fine-tuning step to produce registered paired images. We use these registered pairs to enhance the matching ability of SAM, which is then processed iteratively. We use the final model for cross-modality matching tasks. We evaluated our approach on two CT-MRI affine registration datasets and found that Cross-SAM achieved robust affine registration on both datasets, significantly outperforming other methods and achieving state-of-the-art performance.
翻訳日:2023-07-10 12:39:33 公開日:2023-07-07
# 音声における語彙と非語彙の知覚値の定量化

Quantifying the perceptual value of lexical and non-lexical channels in speech ( http://arxiv.org/abs/2307.03534v1 )

ライセンス: Link先を確認
Sarenne Wallbridge, Peter Bell, Catherine Lai(参考訳) 音声はコミュニケーションの基本的な手段であり、情報伝達のための2つのチャンネル、すなわち、単語が話される語彙チャネルと、それらがどのように話されるかの非語彙チャネルを提供する。 どちらのチャネルもリスナーの今後のコミュニケーションへの期待を形作るが、期待に対する相対的な影響を直接定量化することは困難である。 従来の試みでは、語彙的に等価な対話や顕著な音響操作の音声変化が必要であった。 本稿では,非制約語彙コンテンツ間の対話における非語彙情報の価値を研究するための一般化パラダイムを提案する。 非語彙経路の知覚的価値を精度とエントロピー低減の両方で定量化することにより、非語彙情報は今後の対話の期待に対して一貫した効果をもたらすことが示される。

Speech is a fundamental means of communication that can be seen to provide two channels for transmitting information: the lexical channel of which words are said, and the non-lexical channel of how they are spoken. Both channels shape listener expectations of upcoming communication; however, directly quantifying their relative effect on expectations is challenging. Previous attempts require spoken variations of lexically-equivalent dialogue turns or conspicuous acoustic manipulations. This paper introduces a generalised paradigm to study the value of non-lexical information in dialogue across unconstrained lexical content. By quantifying the perceptual value of the non-lexical channel with both accuracy and entropy reduction, we show that non-lexical information produces a consistent effect on expectations of upcoming dialogue: even when it leads to poorer discriminative turn judgements than lexical content alone, it yields higher consensus among participants.
翻訳日:2023-07-10 12:39:03 公開日:2023-07-07
# 破産問題に基づく垂直フェデレート学習におけるインセンティブ割当

Incentive Allocation in Vertical Federated Learning Based on Bankruptcy Problem ( http://arxiv.org/abs/2307.03515v1 )

ライセンス: Link先を確認
Afsana Khan, Marijn ten Thij, Frank Thuijsman and Anna Wilbik(参考訳) 垂直連合学習(VFL)は、異なるパーティ間で垂直に分割されたプライベートデータを使用して、機械学習モデルを協調的にトレーニングするための有望なアプローチである。 理想的には、アクティブパーティ(ラベル付きサンプルの特徴を持つパーティー)は、プライバシー保護の方法で一部の受動的パーティ(ラベルなしサンプルの付加的な特徴を持つパーティー)とのコラボレーションを通じて、機械学習モデルを改善することで、利益を得る。 しかし、受動的政党をVFLに参加させることは困難である。 本稿では,VFLプロセスへの貢献に基づいて,活動政党による受動的政党へのインセンティブ付与の問題に焦点を当てる。 我々は、この問題を、倒産問題として知られるヌクレロスゲーム理論の変種として定式化し、タルムードの除算則を用いて解決する。 提案手法を総合的および実世界のデータセットで評価し,フェデレーションモデルにデータを寄与する受動的当事者間での公平性とインセンティブ配分の安定性を確認した。 さらに,本手法を既存のshapley値計算法と比較し,より少ない計算量でより効率的な解が得られることを示す。

Vertical federated learning (VFL) is a promising approach for collaboratively training machine learning models using private data partitioned vertically across different parties. Ideally in a VFL setting, the active party (party possessing features of samples with labels) benefits by improving its machine learning model through collaboration with some passive parties (parties possessing additional features of the same samples without labels) in a privacy preserving manner. However, motivating passive parties to participate in VFL can be challenging. In this paper, we focus on the problem of allocating incentives to the passive parties by the active party based on their contributions to the VFL process. We formulate this problem as a variant of the Nucleolus game theory concept, known as the Bankruptcy Problem, and solve it using the Talmud's division rule. We evaluate our proposed method on synthetic and real-world datasets and show that it ensures fairness and stability in incentive allocation among passive parties who contribute their data to the federated model. Additionally, we compare our method to the existing solution of calculating Shapley values and show that our approach provides a more efficient solution with fewer computations.
翻訳日:2023-07-10 12:38:48 公開日:2023-07-07
# LiDARデータを用いた埋設考古学構造物のセマンティックセグメンテーション手法のトランファー学習

Tranfer Learning of Semantic Segmentation Methods for Identifying Buried Archaeological Structures on LiDAR Data ( http://arxiv.org/abs/2307.03512v1 )

ライセンス: Link先を確認
Paolo Soleni, Wouter B. Verschoof-van der Vaart, \v{Z}iga Kokalj, Arianna Traviglia, Marco Fiorucci(参考訳) 考古学的な研究において、深層学習をリモートセンシングデータに適用する際には、トレーニングモデルに適したデータセットが限られている。 転送学習の応用は、この欠点を軽減するために頻繁に用いられる。 しかし、異なる考古学的データセットに適用する場合、その有効性を調べる必要がある。 本稿では,2つのlidarデータセット上の2つの意味セグメンテーション深層ニューラルネットワークを用いた,転送学習構成の性能比較を行う。 実験結果から, 考古学における伝達学習に基づくアプローチは, 体系的な拡張がまだ観察されていないものの, 性能改善につながる可能性が示唆された。 我々は,今後の研究のベースラインとして機能する技術の有効性について,具体的な知見を提供する。

When applying deep learning to remote sensing data in archaeological research, a notable obstacle is the limited availability of suitable datasets for training models. The application of transfer learning is frequently employed to mitigate this drawback. However, there is still a need to explore its effectiveness when applied across different archaeological datasets. This paper compares the performance of various transfer learning configurations using two semantic segmentation deep neural networks on two LiDAR datasets. The experimental results indicate that transfer learning-based approaches in archaeology can lead to performance improvements, although a systematic enhancement has not yet been observed. We provide specific insights about the validity of such techniques that can serve as a baseline for future works.
翻訳日:2023-07-10 12:38:28 公開日:2023-07-07
# フラックス誘起対称性破壊に対する長期剛性:量子クエンチ力学における津波効果

Long time rigidity to flux-induced symmetry breaking: A Tsunami effect in quantum quench dynamics ( http://arxiv.org/abs/2307.03580v1 )

ライセンス: Link先を確認
Lorenzo Rossi, Luca Barbiero, Jan Carl Budich, and Fabrizio Dolcini(参考訳) 電荷共役対称性$\mathcal{C}$の破れが、大域的クエンチ後の半充填フェルミオン格子系の力学に与える影響について検討する。 初期状態が絶縁され、$\mathcal{C}$-対称性が一定磁束によって非局所的に破られるとき、局所的な可観測性と相関は、システムサイズ$L$に比例する時間間隔で対称性が解けていないかのように振る舞う。 特に、焼成二量化絶縁体の局所的な粒子密度は、各格子の部位で広範囲にわたって1/2$にピン留めされるが、その後に顕著に変動し始める。 この現象を「ツナミ効果」と呼ぶ。 特に、キラル対称性はクエンチの直後に動的に破壊されているにもかかわらず発生する。 さらに、量子状態における対称性の破れの量を定量化する方法を特定し、磁束で摂動した絶縁体は指数関数的に系の大きさの関数として抑制されるが、局所的に破断された$\mathcal{c}$-対称性を持つ金属や絶縁体では代数的に抑制される。 津波効果の弱い障害や相互作用に対する堅牢性を実証し, 実験的実現の可能性を示した。

We investigate how the breaking of charge conjugation symmetry $\mathcal{C}$ impacts on the dynamics of a half-filled fermionic lattice system after global quenches. We show that, when the initial state is insulating and the $\mathcal{C}$-symmetry is broken non-locally by a constant magnetic flux, local observables and correlations behave as if the symmetry were unbroken for a time interval proportional to the system size $L$. In particular, the local particle density of a quenched dimerized insulator remains pinned to $1/2$ in each lattice site for an extensively long time, while it starts to significantly fluctuate only afterwards. We dub this phenomenon the ``Tsunami effect". Notably, it occurs even though the chiral symmetry is dynamically broken right after the quench. Furthermore, we identify a way to quantify the amount of symmetry breaking in the quantum state, showing that in insulators perturbed by a flux it is exponentially suppressed as a function of the system size, while it is only algebraically suppressed in metals and in insulators with locally broken $\mathcal{C}$-symmetry. The robustness of the Tsunami effect to weak disorder and interactions is demonstrated, and possible experimental realizations are proposed.
翻訳日:2023-07-10 12:31:21 公開日:2023-07-07
# Deep Learning Cascaded Registration を用いた胎児脳MRIの教師なしセグメンテーション

Unsupervised Segmentation of Fetal Brain MRI using Deep Learning Cascaded Registration ( http://arxiv.org/abs/2307.03579v1 )

ライセンス: Link先を確認
Valentin Comte, Mireia Alenya, Andrea Urru, Judith Recober, Ayako Nakaki, Francesca Crovetto, Oscar Camara, Eduard Gratac\'os, Elisenda Eixarch, F\`atima Crispi, Gemma Piella, Mario Ceresa, Miguel A. Gonz\'alez Ballester(参考訳) 胎児脳磁気共鳴画像の正確なセグメンテーションは、胎児脳の発生を分析し、潜在的な神経発達異常を検出するために重要である。 従来の深層学習に基づく自動セグメンテーションは、効果はあるが、時間を要するアノテーションプロセスを通じて、典型的には臨床医が作成する地道ラベルによる広範なトレーニングデータを必要とする。 この課題を克服するために,ラベル付きデータに頼らずに複数の組織を正確にセグメンテーションするマルチアトラスセグメンテーションに基づく非教師なしセグメンテーション手法を提案する。 本手法では,3次元画像登録のためのカスケード深層学習ネットワークを用いて,移動画像への小さなインクリメンタルな変形を計算し,固定画像と正確に一致させる。 このカスケードネットワークは、複数のアノテートされたイメージとセグメンテーションされたイメージを登録し、プロパゲーションされたラベルを組み合わせて洗練されたセグメンテーションを形成する。 提案するカスケードアーキテクチャが,テストされた最先端の登録手法を上回っていることを示す。 さらに、派生セグメント化法は、マルチアトラスセグメンテーションタスクのアノテートデータの小さなサブセットのみを使用し、ネットワークのトレーニングに使用せず、nnU-Netに類似した性能と推論時間を実現する。 登録とマルチアトラスセグメンテーションのためのパイプラインはhttps://github.com/ValBcn/CasRegで公開されています。

Accurate segmentation of fetal brain magnetic resonance images is crucial for analyzing fetal brain development and detecting potential neurodevelopmental abnormalities. Traditional deep learning-based automatic segmentation, although effective, requires extensive training data with ground-truth labels, typically produced by clinicians through a time-consuming annotation process. To overcome this challenge, we propose a novel unsupervised segmentation method based on multi-atlas segmentation, that accurately segments multiple tissues without relying on labeled data for training. Our method employs a cascaded deep learning network for 3D image registration, which computes small, incremental deformations to the moving image to align it precisely with the fixed image. This cascaded network can then be used to register multiple annotated images with the image to be segmented, and combine the propagated labels to form a refined segmentation. Our experiments demonstrate that the proposed cascaded architecture outperforms the state-of-the-art registration methods that were tested. Furthermore, the derived segmentation method achieves similar performance and inference time to nnU-Net while only using a small subset of annotated data for the multi-atlas segmentation task and none for training the network. Our pipeline for registration and multi-atlas segmentation is publicly available at https://github.com/ValBcn/CasReg.
翻訳日:2023-07-10 12:30:57 公開日:2023-07-07
# プログラム可能な合成表データ生成

Programmable Synthetic Tabular Data Generation ( http://arxiv.org/abs/2307.03577v1 )

ライセンス: Link先を確認
Mark Vero, Mislav Balunovi\'c, Martin Vechev(参考訳) 大量の表データは、プライバシ、データ品質、データ共有の制限のため、未使用のままである。 元の分布に類似した合成データを生成する生成モデルを訓練する際、ほとんどのアプリケーションは生成されたデータから追加の制約を必要とする。 既存の合成データアプローチは、通常、差分プライバシ(DP)や公平性の増大といった特定の制約にのみ対処するので制限されている。 本稿では,生成したデータに対して包括的なカスタマイズが可能な,最初のプログラム可能な合成表データ生成アルゴリズムであるProgSynを紹介する。 カスタム仕様に準拠したまま高いデータ品質を確保するため、ProgSynはオリジナルのデータセットで生成モデルを事前トレーニングし、提供された仕様から自動的に派生した差別化可能な損失を微調整する。 これらは統計的および論理的表現を用いてプログラム的に宣言され、幅広い要件(例えば、DPや公正性など)をサポートする。 我々は,ProgSynを様々な制約で広範囲に実験的に評価し,一部では新たな最先端の達成を図っている。 例えば、同じ公平度レベルでは、アダルトデータセット上の公正な合成データ生成の最先端よりも、下流の精度が2.3%高い。 全体として、ProgSynは制約付き合成表データを生成するための汎用的でアクセスしやすいフレームワークを提供する。

Large amounts of tabular data remain underutilized due to privacy, data quality, and data sharing limitations. While training a generative model producing synthetic data resembling the original distribution addresses some of these issues, most applications require additional constraints from the generated data. Existing synthetic data approaches are limited as they typically only handle specific constraints, e.g., differential privacy (DP) or increased fairness, and lack an accessible interface for declaring general specifications. In this work, we introduce ProgSyn, the first programmable synthetic tabular data generation algorithm that allows for comprehensive customization over the generated data. To ensure high data quality while adhering to custom specifications, ProgSyn pre-trains a generative model on the original dataset and fine-tunes it on a differentiable loss automatically derived from the provided specifications. These can be programmatically declared using statistical and logical expressions, supporting a wide range of requirements (e.g., DP or fairness, among others). We conduct an extensive experimental evaluation of ProgSyn on a number of constraints, achieving a new state-of-the-art on some, while remaining general. For instance, at the same fairness level we achieve 2.3% higher downstream accuracy than the state-of-the-art in fair synthetic data generation on the Adult dataset. Overall, ProgSyn provides a versatile and accessible framework for generating constrained synthetic tabular data, allowing for specifications that generalize beyond the capabilities of prior work.
翻訳日:2023-07-10 12:30:29 公開日:2023-07-07
# 線形自己認識の1層を有する最適インテクスト学習者のグラディエント・ディフレッシュの一ステップ

One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention ( http://arxiv.org/abs/2307.03576v1 )

ライセンス: Link先を確認
Arvind Mahankali, Tatsunori B. Hashimoto, Tengyu Ma(参考訳) 近年の研究では、合成線形回帰タスクで訓練されたトランスフォーマーが、十分な容量を与えられたベイズ最適予測器であるリッジ回帰(Aky\"urek et al., 2023]を実装することができる一方で、線形自己アテンションを持つ1層トランスフォーマーは、最小二乗線形回帰目標(von Oswald et al., 2022)上で勾配勾配勾配(GD)の1ステップを実装することが実証されている。 しかし、これらの観測の背後にある理論は未だよく分かっていない。 合成雑音線形回帰データに基づいて, 線形自己アテンションの単一層を有する変圧器を理論的に検討した。 まず,コヴァリエートが標準ガウス分布から引き出されるとき,事前学習損失を最小化する一層トランスフォーマーが最小二乗線形回帰目標に対してgdの1つのステップを実行することを数学的に示す。 そして、共変量と重みベクトルの分布を非等方ガウス分布に変更することは、学習アルゴリズムに強い影響を与え、事前学習損失のグローバル最小化は、現在、$\textit{pre-conditioned}$GDの1ステップを実装している。 しかし、応答の分布だけを変えると、これは学習アルゴリズムに大きな影響を与えない:$\textit{nonlinear}$関数のより一般的な族から応答がもたらされたとしても、事前学習損失のグローバルな最小化は、最小二乗線形回帰目標に対してGDの単一ステップを実装している。

Recent works have empirically analyzed in-context learning and shown that transformers trained on synthetic linear regression tasks can learn to implement ridge regression, which is the Bayes-optimal predictor, given sufficient capacity [Aky\"urek et al., 2023], while one-layer transformers with linear self-attention and no MLP layer will learn to implement one step of gradient descent (GD) on a least-squares linear regression objective [von Oswald et al., 2022]. However, the theory behind these observations remains poorly understood. We theoretically study transformers with a single layer of linear self-attention, trained on synthetic noisy linear regression data. First, we mathematically show that when the covariates are drawn from a standard Gaussian distribution, the one-layer transformer which minimizes the pre-training loss will implement a single step of GD on the least-squares linear regression objective. Then, we find that changing the distribution of the covariates and weight vector to a non-isotropic Gaussian distribution has a strong impact on the learned algorithm: the global minimizer of the pre-training loss now implements a single step of $\textit{pre-conditioned}$ GD. However, if only the distribution of the responses is changed, then this does not have a large effect on the learned algorithm: even when the response comes from a more general family of $\textit{nonlinear}$ functions, the global minimizer of the pre-training loss still implements a single step of GD on a least-squares linear regression objective.
翻訳日:2023-07-10 12:30:05 公開日:2023-07-07
# 腎細胞癌予後診断のためのマルチモーダルディープラーニング : CT画像と臨床データの統合

Multimodal Deep Learning for Personalized Renal Cell Carcinoma Prognosis: Integrating CT Imaging and Clinical Data ( http://arxiv.org/abs/2307.03575v1 )

ライセンス: Link先を確認
Maryamalsadat Mahootiha, Hemin Ali Qadir, Jacob Bergsland and Ilangko Balasingham(参考訳) 腎細胞癌は生存率の低い重要な世界的な健康上の課題である。 本研究の目的は,ct画像と臨床データを統合し,先行研究で観察された限界に対処し,腎細胞癌患者の生存確率を予測できる総合的ディープラーニングモデルを開発することである。 緊急治療を要した患者の特定を容易にすることを目的としている。 提案フレームワークは,3次元画像特徴抽出器,臨床変数選択,サバイバル予測の3つのモジュールからなる。 3d cnnアーキテクチャに基づく特徴抽出モジュールは、ct画像から死亡率と関連した腎細胞癌腫瘍のisupグレードを予測する。 臨床変数の選択はSpearmanスコアとランダム森林重要度スコアを基準として体系的に選択される。 個別のgistichazardベースの損失をトレーニングしたディープラーニングベースのネットワークは、サバイバル予測を実行する。 9つの異なる実験が行われ、スピアマンの閾値と重要度によって様々な臨床変数が決定される。 以上の結果から, 腎癌予後に関する現在の文献を, ctスキャンおよび臨床因子に基づいて上回る戦略が得られた。 最高性能実験では、強い予測力を示す試験コホートにおいて、0.84の一致指数と0.8の曲線値以下の領域が得られた。 本研究で開発されたマルチモーダル深層学習手法は,ct画像と臨床データを用いて腎細胞癌患者の生存確率を推定する有望な結果を示している。 これは緊急治療を必要とする患者を同定し、患者の結果を改善させる可能性がある。 このプロジェクトのために作成されたコードは、次のように一般に公開されている。

Renal cell carcinoma represents a significant global health challenge with a low survival rate. This research aimed to devise a comprehensive deep-learning model capable of predicting survival probabilities in patients with renal cell carcinoma by integrating CT imaging and clinical data and addressing the limitations observed in prior studies. The aim is to facilitate the identification of patients requiring urgent treatment. The proposed framework comprises three modules: a 3D image feature extractor, clinical variable selection, and survival prediction. The feature extractor module, based on the 3D CNN architecture, predicts the ISUP grade of renal cell carcinoma tumors linked to mortality rates from CT images. A selection of clinical variables is systematically chosen using the Spearman score and random forest importance score as criteria. A deep learning-based network, trained with discrete LogisticHazard-based loss, performs the survival prediction. Nine distinct experiments are performed, with varying numbers of clinical variables determined by different thresholds of the Spearman and importance scores. Our findings demonstrate that the proposed strategy surpasses the current literature on renal cancer prognosis based on CT scans and clinical factors. The best-performing experiment yielded a concordance index of 0.84 and an area under the curve value of 0.8 on the test cohort, which suggests strong predictive power. The multimodal deep-learning approach developed in this study shows promising results in estimating survival probabilities for renal cell carcinoma patients using CT imaging and clinical data. This may have potential implications in identifying patients who require urgent treatment, potentially improving patient outcomes. The code created for this project is available for the public on: \href{https://github.com/Balasingham-AI-Group/Survival_CTplusClinical}{GitHub}
翻訳日:2023-07-10 12:29:30 公開日:2023-07-07
# エッジの平滑化: Hadamard overparametrization を用いたスパース正規化におけるスムース最適化のための汎用フレームワーク

Smoothing the Edges: A General Framework for Smooth Optimization in Sparse Regularization using Hadamard Overparametrization ( http://arxiv.org/abs/2307.03571v1 )

ライセンス: Link先を確認
Chris Kolb and Christian L. M\"uller and Bernd Bischl and David R\"ugamer(参考訳) 本稿では,$\ell_q$および$\ell_{p,q}$正規化最適化問題における(構造)スパーシティの滑らかな方法を提案する。 これらの非スムースおよび非凸問題の最適化は、典型的には特殊手順に依存する。 対照的に、我々の一般的なフレームワークは、Stochastic Gradient Descent やAccelered variant のような一般的な一階最適化手法と互換性がある。 これは、アダマール積を用いた選択されたモデルパラメータの過度なパラメータ化と罰則の変化を含むスムーズな最適化転送によって達成される。 過度パラメータ化問題において、滑らかで凸な$\ell_2$ サロゲートパラメータの正規化は、元のパラメトリゼーションにおいて非滑らかで非凸な$\ell_q$または$\ell_{p,q}$正規化を誘導する。 私たちのアプローチは、グローバルミニマだけでなく、同等のローカルミニマにもマッチすることを示している。 これは非凸スパース正規化において特に有用であり、大域的ミニマはNPハードであり、局所的ミニマはよく一般化することが知られている。 我々は,スパーシティ誘導パラメトリゼーションに関する様々な文献ストランドを総合的に整理し,既存のアプローチに対する有意義な拡張を提案する。 提案手法の有効性は数値実験により評価され,その性能が凸正則化法や非凸正則化法と同等あるいは同等であることを示す。

This paper introduces a smooth method for (structured) sparsity in $\ell_q$ and $\ell_{p,q}$ regularized optimization problems. Optimization of these non-smooth and possibly non-convex problems typically relies on specialized procedures. In contrast, our general framework is compatible with prevalent first-order optimization methods like Stochastic Gradient Descent and accelerated variants without any required modifications. This is accomplished through a smooth optimization transfer, comprising an overparametrization of selected model parameters using Hadamard products and a change of penalties. In the overparametrized problem, smooth and convex $\ell_2$ regularization of the surrogate parameters induces non-smooth and non-convex $\ell_q$ or $\ell_{p,q}$ regularization in the original parametrization. We show that our approach yields not only matching global minima but also equivalent local minima. This is particularly useful in non-convex sparse regularization, where finding global minima is NP-hard and local minima are known to generalize well. We provide a comprehensive overview consolidating various literature strands on sparsity-inducing parametrizations and propose meaningful extensions to existing approaches. The feasibility of our approach is evaluated through numerical experiments, which demonstrate that its performance is on par with or surpasses commonly used implementations of convex and non-convex regularization methods.
翻訳日:2023-07-10 12:29:03 公開日:2023-07-07
# 非熟練者を対象とした科学文章の簡易化

Text Simplification of Scientific Texts for Non-Expert Readers ( http://arxiv.org/abs/2307.03569v1 )

ライセンス: Link先を確認
Bj\"orn Engelmann, Fabian Haak, Christin Katharina Kreutz, Narjes Nikzad Khasmakhi, Philipp Schaer(参考訳) 読み上げレベルは非常に個人的であり、テキスト言語、人の認知能力、トピックに関する知識に依存します。 text simplificationは、特定のターゲットリーダーグループの能力に合うように、テキストを再構成するタスクである。 科学的な抽象概念の単純化は、非専門家がドメインや専門家の知識を必要とする定式化をバイパスすることで、コア情報にアクセスするのに役立つ。 これは、例えば、新しい治療法について読んでいるがん患者に特に関係している。 simpletext labは、非専門家のための科学的な抽象概念(タスク3)を単純化し、この分野を前進させる。 ボックス外要約モデル(2つはT5、もう1つはPEGASUS)と1つは複雑なフレーズ識別を伴うChatGPTを用いて実行している。

Reading levels are highly individual and can depend on a text's language, a person's cognitive abilities, or knowledge on a topic. Text simplification is the task of rephrasing a text to better cater to the abilities of a specific target reader group. Simplification of scientific abstracts helps non-experts to access the core information by bypassing formulations that require domain or expert knowledge. This is especially relevant for, e.g., cancer patients reading about novel treatment options. The SimpleText lab hosts the simplification of scientific abstracts for non-experts (Task 3) to advance this field. We contribute three runs employing out-of-the-box summarization models (two based on T5, one based on PEGASUS) and one run using ChatGPT with complex phrase identification.
翻訳日:2023-07-10 12:28:34 公開日:2023-07-07
# SpawnNet: トレーニング済みネットワークから汎用的なVisuomotorスキルを学ぶ

SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks ( http://arxiv.org/abs/2307.03567v1 )

ライセンス: Link先を確認
Xingyu Lin, John So, Sashwat Mahalingam, Fangchen Liu, Pieter Abbeel(参考訳) 既存のインターネット規模の画像とビデオデータセットは、日々のさまざまなオブジェクトやタスクをカバーしており、幅広い一般化を持つ学習ポリシーの可能性をもたらしている。 先行研究は、異なる自己監督目的による視覚的事前学習を探求してきたが、学習方針の一般化能力は比較的未知のままである。 この作業では、事前訓練された表現が学習したポリシーの一般化にどのように役立つかに焦点を当て、この課題に向けて第一歩を踏み出します。 まず、フリーズされた視覚的バックボーンをポリシー学習に使用する際のボトルネックを特定する。 次に、トレーニング済みのマルチレイヤ表現を独立したネットワークに融合して堅牢なポリシーを学習する、新しい2ストリームアーキテクチャSpawnNetを提案する。 シミュレーションおよび実演実験により, 模倣学習環境における先行手法と比較して, カテゴリー一般化が有意に良好であることを示す。

The existing internet-scale image and video datasets cover a wide range of everyday objects and tasks, bringing the potential of learning policies that have broad generalization. Prior works have explored visual pre-training with different self-supervised objectives, but the generalization capabilities of the learned policies remain relatively unknown. In this work, we take the first step towards this challenge, focusing on how pre-trained representations can help the generalization of the learned policies. We first identify the key bottleneck in using a frozen pre-trained visual backbone for policy learning. We then propose SpawnNet, a novel two-stream architecture that learns to fuse pre-trained multi-layer representations into a separate network to learn a robust policy. Through extensive simulated and real experiments, we demonstrate significantly better categorical generalization compared to prior approaches in imitation learning settings.
翻訳日:2023-07-10 12:28:19 公開日:2023-07-07
# MALIBO: 自由ベイズ最適化のためのメタラーニング

MALIBO: Meta-learning for Likelihood-free Bayesian Optimization ( http://arxiv.org/abs/2307.03565v1 )

ライセンス: Link先を確認
Jiarong Pan, Stefan Falkner, Felix Berkenkamp, Joaquin Vanschoren(参考訳) ベイズ最適化(BO)はコストのかかるブラックボックス関数を最適化する一般的な方法である。 従来のboは、新しいターゲットタスクをスクラッチから最適化するが、メタラーニングは、関連するタスクからの知識を活用し、新しいタスクを高速に最適化する方法として登場した。 しかし、既存のメタ学習boメソッドはスケーラビリティの問題に苦しむ代理モデルに依存しており、タスク間で異なるスケールとノイズタイプを持つ観察に敏感である。 さらに、彼らはしばしばタスクの類似性に関連する不確実性を見落とします。 これは、限られた観察しか得られなかったり、新しいタスクが関連するタスクと大きく異なる場合、信頼性の低いタスク適応につながる。 これらの制約に対処するために,サブロゲートモデルをバイパスし,タスク間のクエリの有用性を直接学習する,新しいメタラーニングboアプローチを提案する。 本手法はタスクの不確実性を明示的にモデル化し,新しいタスクへのロバスト適応を可能にする補助モデルを含む。 広範な実験により,本手法は任意の時間性能を示し,様々なベンチマークで最先端のメタ学習bo法を上回っていることが示された。

Bayesian optimization (BO) is a popular method to optimize costly black-box functions. While traditional BO optimizes each new target task from scratch, meta-learning has emerged as a way to leverage knowledge from related tasks to optimize new tasks faster. However, existing meta-learning BO methods rely on surrogate models that suffer from scalability issues and are sensitive to observations with different scales and noise types across tasks. Moreover, they often overlook the uncertainty associated with task similarity. This leads to unreliable task adaptation when only limited observations are obtained or when the new tasks differ significantly from the related tasks. To address these limitations, we propose a novel meta-learning BO approach that bypasses the surrogate model and directly learns the utility of queries across tasks. Our method explicitly models task uncertainty and includes an auxiliary model to enable robust adaptation to new tasks. Extensive experiments show that our method demonstrates strong anytime performance and outperforms state-of-the-art meta-learning BO methods in various benchmarks.
翻訳日:2023-07-10 12:28:04 公開日:2023-07-07
# 普遍的、体系的に即効性があり、サイズに一貫性のある量子コンピュータ上の物理に制約されたハードウェア効率のansatz

Physics-Constrained Hardware-Efficient Ansatz on Quantum Computers that is Universal, Systematically Improvable, and Size-consistent ( http://arxiv.org/abs/2307.03563v1 )

ライセンス: Link先を確認
Xiaoxiao Xiao, Hewang Zhao, Jiajun Ren, Wei-hai Fang, Zhendong Li(参考訳) 変分波動関数 ans\"{a}tze は、物理学や化学における量子多体問題の核心である。 本稿では,数個の基本的制約を満たすことによって,厳密な理論的保証を持つハードウェア効率アンサッツ(HEA)を設計するための物理制約付きアプローチを提案する。 具体的には、ターゲットHEAは普遍的で、体系的に実装可能で、かつ、拡張性のための量子多体理論において重要な概念であるが、ヒューリスティックスによる以前のHEAの設計では概ね見過ごされている。 我々はサイズ一貫性の概念をHEAに拡張し、これらの基本的な制約をすべて満たし、線形量子ビット接続のみを必要とするHEAの具体的実現を示す。 物理学に制約されたHEAは、ハイゼンベルクモデルやいくつかの典型的な分子で数値的に示されるように、精度とスケーラビリティの両方の観点から他のヒューリスティックに設計されたHEAよりも優れている。 特に, 復元サイズ整合性により, 一定の精度に達するために必要な層数を大幅に削減できることがわかった。 対照的に、これらの制約を満たす他のHEAの失敗は、スケーラビリティを10キュービットを超える大規模システムに著しく制限します。 量子コンピュータにおける多体問題を効率的に解くため,heaの設計に物理的制約を組み込むことの重要性を強調した。

Variational wavefunction ans\"{a}tze are at the heart of solving quantum many-body problems in physics and chemistry. Here, we propose a physics-constrained approach for designing hardware-efficient ansatz (HEA) with rigorous theoretical guarantees on quantum computers by satisfying a few fundamental constraints, which is inspired by the remarkably successful way to design exchange-correlation functionals in density functional theories by satisfying exact constraints. Specifically, we require that the target HEA to be universal, systematically improvable, and size-consistent, which is an important concept in quantum many-body theories for scalability, but has been largely overlooked in previous designs of HEA by heuristics. We extend the notion of size-consistency to HEA, and present a concrete realization of HEA that satisfies all these fundamental constraints and only requires linear qubit connectivity. The developed physics-constrained HEA is superior to other heuristically designed HEA in terms of both accuracy and scalability, as demonstrated numerically for the Heisenberg model and some typical molecules. In particular, we find that restoring size-consistency can significantly reduce the number of layers needed to reach certain accuracy. In contrast, the failure of other HEA to satisfy these constraints severely limits their scalability to larger systems with more than ten qubits. Our work highlights the importance of incorporating physical constraints into the design of HEA for efficiently solving many-body problems on quantum computers.
翻訳日:2023-07-10 12:27:45 公開日:2023-07-07
# 歪み除去を伴う直交型魚眼カメラの深さ推定解析

Depth Estimation Analysis of Orthogonally Divergent Fisheye Cameras with Distortion Removal ( http://arxiv.org/abs/2307.03602v1 )

ライセンス: Link先を確認
Matvei Panteleev, Houari Bettahar(参考訳) ステレオビジョンシステムは、3次元再構成、オブジェクト追跡、自律ナビゲーションなどのコンピュータビジョンアプリケーションで広く使われている。 しかし、レチリニアレンズを用いた従来の立体視システムは、視野が限られているため、特定のシナリオには適さない可能性がある。 これにより、1つまたは複数の魚眼カメラで異なる方向を向いている視界システムの人気が高まり、180度以上の視野を提供できるようになった。 しかし、魚眼カメラは、ステレオマッチングと深さ推定の精度に影響を与えるエッジに大きな歪みをもたらす。 そこで本研究では,直交発散魚眼カメラ(ODFC)を用いた立体視システムにおける歪み除去・深さ推定法を提案する。 提案手法は2つの仮想ピンホールカメラ(vpc)を用いており,各vpcはオリジナルビューのごく一部をキャプチャし,ピンホールカメラの挙動を模倣するレンズ歪みを伴わずに提示する。 捕捉された領域を慎重に選択することで、2つのVPCを用いてステレオペアを作成することができる。 本手法の性能は,仮想環境を用いたシミュレーションと実カメラを用いた実験の両方で評価し,並列光学軸を持つステレオカメラと比較した。 その結果, 歪み除去と深さ推定精度の観点から, 提案手法の有効性が示された。

Stereo vision systems have become popular in computer vision applications, such as 3D reconstruction, object tracking, and autonomous navigation. However, traditional stereo vision systems that use rectilinear lenses may not be suitable for certain scenarios due to their limited field of view. This has led to the popularity of vision systems based on one or multiple fisheye cameras in different orientations, which can provide a field of view of 180x180 degrees or more. However, fisheye cameras introduce significant distortion at the edges that affects the accuracy of stereo matching and depth estimation. To overcome these limitations, this paper proposes a method for distortion-removal and depth estimation analysis for stereovision system using orthogonally divergent fisheye cameras (ODFC). The proposed method uses two virtual pinhole cameras (VPC), each VPC captures a small portion of the original view and presents it without any lens distortions, emulating the behavior of a pinhole camera. By carefully selecting the captured regions, it is possible to create a stereo pair using two VPCs. The performance of the proposed method is evaluated in both simulation using virtual environment and experiments using real cameras and their results compared to stereo cameras with parallel optical axes. The results demonstrate the effectiveness of the proposed method in terms of distortion removal and depth estimation accuracy.
翻訳日:2023-07-10 12:23:12 公開日:2023-07-07
# GPT4RoI: 関心領域に基づく大規模言語モデルの学習

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest ( http://arxiv.org/abs/2307.03601v1 )

ライセンス: Link先を確認
Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo(参考訳) 画像テキストペアによる大言語モデル(llm)のインストラクションチューニングは、前例のない視覚言語マルチモーダル能力を達成している。 しかし、視覚言語アライメントは画像レベルでのみ構築されており、領域レベルのアライメントの欠如は、その進歩を微細なマルチモーダル理解に制限する。 本稿では,関心領域の指導チューニングを提案する。 鍵となる設計は、空間的指示の形式として境界ボックスを再構成することである。 空間的命令と言語埋め込みによって抽出された視覚特徴のインターリーブシーケンスをLSMに入力し、命令チューニング形式で変換された領域テキストデータに基づいて訓練する。 我々の地域レベルの視覚言語モデルは、GPT4RoIと呼ばれ、画像レベルの理解を超えた、対話的でインタラクティブな体験をもたらす。 1) 可制御性: ユーザーは言語と空間的指示の両方でモデルと対話し、質問の細部レベルを柔軟に調整することができる。 2)キャパシティ: 単一領域空間命令だけでなく, 複数領域もサポートする。 これにより、詳細な領域キャプションや複雑な領域推論といった、より領域レベルのマルチモーダルキャパシティが解放される。 3) 構成: 市販の物体検出器は、色、形状、材料、動作、その他の物体との関係など、我々のモデルから情報的な物体属性をマイニングするために、空間的指示プロバイダとなることができる。 コード、データ、デモはhttps://github.com/jshilong/GPT4RoIで見ることができる。

Instruction tuning large language model (LLM) on image-text pairs has achieved unprecedented vision-language multimodal abilities. However, their vision-language alignments are only built on image-level, the lack of region-level alignment limits their advancements to fine-grained multimodal understanding. In this paper, we propose instruction tuning on region-of-interest. The key design is to reformulate the bounding box as the format of spatial instruction. The interleaved sequences of visual features extracted by the spatial instruction and the language embedding are input to LLM, and trained on the transformed region-text data in instruction tuning format. Our region-level vision-language model, termed as GPT4RoI, brings brand new conversational and interactive experience beyond image-level understanding. (1) Controllability: Users can interact with our model by both language and spatial instructions to flexibly adjust the detail level of the question. (2) Capacities: Our model supports not only single-region spatial instruction but also multi-region. This unlocks more region-level multimodal capacities such as detailed region caption and complex region reasoning. (3) Composition: Any off-the-shelf object detector can be a spatial instruction provider so as to mine informative object attributes from our model, like color, shape, material, action, relation to other objects, etc. The code, data, and demo can be found at https://github.com/jshilong/GPT4RoI.
翻訳日:2023-07-10 12:22:52 公開日:2023-07-07
# GEANN: マルチ水平時系列予測のためのスケーラブルグラフ拡張

GEANN: Scalable Graph Augmentations for Multi-Horizon Time Series Forecasting ( http://arxiv.org/abs/2307.03595v1 )

ライセンス: Link先を確認
Sitan Yang, Malcolm Wolff, Shankar Ramasubramanian, Vincent Quenneville-Belair, Ronak Metha, Michael W. Mahoney(参考訳) エンコーダデコーダディープニューラルネットワークは、特に実世界のアプリケーションにおいて、マルチホライゾン時系列予測のためにますます研究されている。 しかし、正確に予測するには、これらの洗練されたモデルは通常、かなりの歴史を持つ多くの時系列の例に依存している。 関心が急速に高まっているトピックは、十分な履歴データがない時系列を予測することです。 本稿では、グラフニューラルネットワーク(GNN)をデータ拡張として活用し、予測器が使用するエンコーダを強化することにより、この問題に対処する新しい方法を提案する。 これらのgnnベースの機能は複雑なシリーズ間関係をキャプチャし、その生成プロセスを予測タスクでエンドツーエンドに最適化することができる。 我々のアーキテクチャは、数百万のノードを持つ複数の非常に大きなグラフから情報を取り込むために、データ駆動またはドメイン知識定義グラフのいずれかを使用することができる。 大手eコマース小売店の需要予測を対象とするアプリケーションでは,100万商品の小さなデータセットと200万製品以上の大規模データセットの両方を実演し,競争ベースラインモデルよりも全体的なパフォーマンスを向上させる。 さらに重要なことは、新しくローンチされた製品や最近在庫切れになった製品のような ``cold start'' 製品に、かなり多くの利益をもたらすことを示しています。

Encoder-decoder deep neural networks have been increasingly studied for multi-horizon time series forecasting, especially in real-world applications. However, to forecast accurately, these sophisticated models typically rely on a large number of time series examples with substantial history. A rapidly growing topic of interest is forecasting time series which lack sufficient historical data -- often referred to as the ``cold start'' problem. In this paper, we introduce a novel yet simple method to address this problem by leveraging graph neural networks (GNNs) as a data augmentation for enhancing the encoder used by such forecasters. These GNN-based features can capture complex inter-series relationships, and their generation process can be optimized end-to-end with the forecasting task. We show that our architecture can use either data-driven or domain knowledge-defined graphs, scaling to incorporate information from multiple very large graphs with millions of nodes. In our target application of demand forecasting for a large e-commerce retailer, we demonstrate on both a small dataset of 100K products and a large dataset with over 2 million products that our method improves overall performance over competitive baseline models. More importantly, we show that it brings substantially more gains to ``cold start'' products such as those newly launched or recently out-of-stock.
翻訳日:2023-07-10 12:22:26 公開日:2023-07-07
# 位相シフト量子鍵分布における単一光子検出器の解析

Analysis of Single Photon Detectors in Differential Phase Shift Quantum Key Distribution ( http://arxiv.org/abs/2307.03593v1 )

ライセンス: Link先を確認
Vishal Sharma(参考訳) InGaAs/InPおよびSilicon-APD(avalanche photodiode)を単一光子検出器として用いた差動位相シフト量子鍵分布の解析を行った。 キーレートのシフト,キーレートの確保,通信距離の確保など,様々な性能パラメータについて検討した。 この光ファイバーベースの差動位相シフト量子鍵分布において、光通信窓における周波数変換法でSi-APDがInGaAs/InP APDより優れていることが観察された。

In the current research work, an analysis of differential phase shift quantum key distribution using InGaAs/InP and Silicon-APD (avalanche photodiode) as single photon detectors is performed. Various performance parameters of interest such as shifted key rate, secure key rate, and secure communication distance obtained are investigated. In this optical fiber-based differential phase shift quantum key distribution, it is observed that Si-APD under frequency conversion method at telecommunication window outperforms the InGaAs/InP APD.
翻訳日:2023-07-10 12:21:46 公開日:2023-07-07
# VesselVAE:3次元血管合成のための再帰的変分オートエンコーダ

VesselVAE: Recursive Variational Autoencoders for 3D Blood Vessel Synthesis ( http://arxiv.org/abs/2307.03592v1 )

ライセンス: Link先を確認
Paula Feldman, Miguel Fainstein, Viviana Siless, Claudio Delrieux, Emmanuel Iarussi(参考訳) 血管の3次元形状を合成するためのデータ駆動型生成フレームワークを提案する。 これは、形状、大きさ、構造に非常にばらつきがある血管系の複雑さのため、難しい課題である。 既存のモデルに基づく手法は、生成された構造のある程度の制御と変動を提供するが、実際の解剖学的データの多様性を捉えられなかった。 本研究では,血管の階層構造を完全に活用した再帰的変分ニューラルネットワークであるVesselVAEを開発し,ターゲット表面を記述する幾何学的特徴とともに分岐接続を符号化する低次元多様体を学習した。 訓練後、VesselVAE潜水空間を採取して新しい容器ジオメトリーを生成することができる。 私たちの知る限りでは、この研究は血管の合成にこの技術を利用する最初の試みです。 合成データと実データとの類似性は, 半径 (.97), 長さ (.95), ねじれ (.96) である。 深層ニューラルネットワークのパワーを活用することで、正確で多様な血管の3Dモデルを生成します。

We present a data-driven generative framework for synthesizing blood vessel 3D geometry. This is a challenging task due to the complexity of vascular systems, which are highly variating in shape, size, and structure. Existing model-based methods provide some degree of control and variation in the structures produced, but fail to capture the diversity of actual anatomical data. We developed VesselVAE, a recursive variational Neural Network that fully exploits the hierarchical organization of the vessel and learns a low-dimensional manifold encoding branch connectivity along with geometry features describing the target surface. After training, the VesselVAE latent space can be sampled to generate new vessel geometries. To the best of our knowledge, this work is the first to utilize this technique for synthesizing blood vessels. We achieve similarities of synthetic and real data for radius (.97), length (.95), and tortuosity (.96). By leveraging the power of deep neural networks, we generate 3D models of blood vessels that are both accurate and diverse, which is crucial for medical and surgical training, hemodynamic simulations, and many other purposes.
翻訳日:2023-07-10 12:21:29 公開日:2023-07-07
# リニア量子レギュレータの高速化最適化景観

Accelerated Optimization Landscape of Linear-Quadratic Regulator ( http://arxiv.org/abs/2307.03590v1 )

ライセンス: Link先を確認
Lechen Feng and Yuan-Hua Ni(参考訳) 線形量子レギュレータ(lqr)は最適制御の分野における画期的な問題であり,本稿の関心事である。 一般に、LQRは、全状態が得られるかどうかに基づいて、状態フィードバックLQR(SLQR)と出力フィードバックLQR(OLQR)に分類される。 既存の文献では、SLQR と OLQR の両方を \textit{constrained nonconvex matrix optimization} 問題と見なすことができ、最適化すべき変数はフィードバックゲイン行列のみである。 本稿では,lqr問題に対処するための一階加速最適化フレームワークを提案し,slqrとolqrのそれぞれについてその収束解析を行う。 具体的には、LQR性能基準のリプシッツ・ヘッセン性を示し、現代の最適化手法の適用において重要な性質であることが判明した。 slqr問題では、解の軌跡がネステロフ-オプティカルオーダー 1-\frac{1}{\sqrt{\kappa}}$ (\kappa$ the condition number) で最適フィードバックゲインに指数関数的に収束することが示される連続時間ハイブリッド力学系が導入された。 次に、シンプレクティックなオイラースキームを用いてハイブリッド力学系を離散化し、連続時間収束率、すなわち、離散化されたアルゴリズムはネステロフ-最適収束順序を許容する再起動規則を持つネステロフ型手法を提案する。 OLQR問題に対して,半凸関数最適化と負曲率利用からなる2元法であるヘッセンフリー加速フレームワークを提案する。 a time $\mathcal{O}(\epsilon^{-7/4}\log(1/\epsilon))$, the method can find a $\epsilon$-stationary point of the performance criterion; これは、このメソッドがバニラ勾配勾配の複雑さを$\mathcal{O}(\epsilon^{-2})$で改善することを意味する。 さらに,本手法は静止点の2次保証を提供する。

Linear-quadratic regulator (LQR) is a landmark problem in the field of optimal control, which is the concern of this paper. Generally, LQR is classified into state-feedback LQR (SLQR) and output-feedback LQR (OLQR) based on whether the full state is obtained. It has been suggested in existing literature that both the SLQR and the OLQR could be viewed as \textit{constrained nonconvex matrix optimization} problems in which the only variable to be optimized is the feedback gain matrix. In this paper, we introduce a first-order accelerated optimization framework of handling the LQR problem, and give its convergence analysis for the cases of SLQR and OLQR, respectively. Specifically, a Lipschiz Hessian property of LQR performance criterion is presented, which turns out to be a crucial property for the application of modern optimization techniques. For the SLQR problem, a continuous-time hybrid dynamic system is introduced, whose solution trajectory is shown to converge exponentially to the optimal feedback gain with Nesterov-optimal order $1-\frac{1}{\sqrt{\kappa}}$ ($\kappa$ the condition number). Then, the symplectic Euler scheme is utilized to discretize the hybrid dynamic system, and a Nesterov-type method with a restarting rule is proposed that preserves the continuous-time convergence rate, i.e., the discretized algorithm admits the Nesterov-optimal convergence order. For the OLQR problem, a Hessian-free accelerated framework is proposed, which is a two-procedure method consisting of semiconvex function optimization and negative curvature exploitation. In a time $\mathcal{O}(\epsilon^{-7/4}\log(1/\epsilon))$, the method can find an $\epsilon$-stationary point of the performance criterion; this entails that the method improves upon the $\mathcal{O}(\epsilon^{-2})$ complexity of vanilla gradient descent. Moreover, our method provides the second-order guarantee of stationary point.
翻訳日:2023-07-10 12:20:12 公開日:2023-07-07
# BOF-UCB:非定常文脈帯域に対するベイズ最適化周波数アルゴリズム

BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary Contextual Bandits ( http://arxiv.org/abs/2307.03587v1 )

ライセンス: Link先を確認
Nicklas Werge, Abdullah Akg\"ul, Melih Kandemir(参考訳) 非定常環境における確率的文脈線形帯域化のための新しいベイズ・最適周波数境界(BOF-UCB)アルゴリズムを提案する。 このベイジアンと頻繁な原理のユニークな組み合わせは、動的設定における適応性と性能を高める。 bof-ucbアルゴリズムは、未知回帰パラメータの後方分布を推定するためにシーケンシャルベイズ更新を利用し、その後、後方分布に対する期待報酬を最大化することにより、上位信頼境界(ucb)を計算するために頻繁なアプローチを用いる。 我々はBOF-UCBの性能の理論的保証を提供し、強化学習環境における合成データセットや古典的制御タスクの探索と活用のバランスをとる上での有効性を示す。 以上の結果から,BOF-UCBは既存の手法よりも優れており,非定常環境における逐次意思決定に有望なソリューションであることがわかった。

We propose a novel Bayesian-Optimistic Frequentist Upper Confidence Bound (BOF-UCB) algorithm for stochastic contextual linear bandits in non-stationary environments. This unique combination of Bayesian and frequentist principles enhances adaptability and performance in dynamic settings. The BOF-UCB algorithm utilizes sequential Bayesian updates to infer the posterior distribution of the unknown regression parameter, and subsequently employs a frequentist approach to compute the Upper Confidence Bound (UCB) by maximizing the expected reward over the posterior distribution. We provide theoretical guarantees of BOF-UCB's performance and demonstrate its effectiveness in balancing exploration and exploitation on synthetic datasets and classical control tasks in a reinforcement learning setting. Our results show that BOF-UCB outperforms existing methods, making it a promising solution for sequential decision-making in non-stationary environments.
翻訳日:2023-07-10 12:19:28 公開日:2023-07-07
# ContextLabeler Dataset:スマートフォンの使用状況から収集した物理的および仮想センサーデータ

ContextLabeler Dataset: physical and virtual sensors data collected from smartphone usage in-the-wild ( http://arxiv.org/abs/2307.03586v1 )

ライセンス: Link先を確認
Mattia Giovanni Campana, Franca Delmastro(参考訳) 本稿では,3人のボランティアの日常生活活動を2週間で特徴付けるスマートフォンセンサから得られたデータ収集キャンペーンとデータセットについて述べる。 データセットは45K以上のデータサンプルを含むCSVファイルのコレクションとしてリリースされ、各サンプルは、モーションセンサー、実行アプリケーション、近接デバイス、気象条件を含む、異質な物理および仮想センサーセットに関連する1332の機能によって構成される。 さらに、各データサンプルは、センシング実験(例えば、職場、レストラン、スポーツ活動など)中に彼女が関与したユーザ活動と状況を記述する地上の真実ラベルに関連付けられている。 データ収集中にバイアスが生じるのを避けるため、ボランティアのデバイスを使用して、ユーザの振る舞いに関する制約を定義することなく、wild内でセンシング実験を行いました。 このため、収集したデータセットは、モバイル環境におけるユーザの状況の変化に応じて行動に適応することを目的とした、新しいコンテキスト対応ソリューション(アルゴリズムとプロトコルの両方)を幅広く定義し、評価するために、実際のデータの有用なソースである。

This paper describes a data collection campaign and the resulting dataset derived from smartphone sensors characterizing the daily life activities of 3 volunteers in a period of two weeks. The dataset is released as a collection of CSV files containing more than 45K data samples, where each sample is composed by 1332 features related to a heterogeneous set of physical and virtual sensors, including motion sensors, running applications, devices in proximity, and weather conditions. Moreover, each data sample is associated with a ground truth label that describes the user activity and the situation in which she was involved during the sensing experiment (e.g., working, at restaurant, and doing sport activity). To avoid introducing any bias during the data collection, we performed the sensing experiment in-the-wild, that is, by using the volunteers' devices, and without defining any constraint related to the user's behavior. For this reason, the collected dataset represents a useful source of real data to both define and evaluate a broad set of novel context-aware solutions (both algorithms and protocols) that aim to adapt their behavior according to the changes in the user's situation in a mobile environment.
翻訳日:2023-07-10 12:19:13 公開日:2023-07-07
# 量子振動子を例外的に駆動するパラメトリック

Parametrically driving a quantum oscillator into exceptionality ( http://arxiv.org/abs/2307.03585v1 )

ライセンス: Link先を確認
C. A. Downing and A. Vidiella-Barranco(参考訳) 物理理論で用いられる数学的対象は常にうまく振る舞うとは限らない。 アインシュタインの空間と時間の理論は、時空特異点とファンホーブ特異点が凝縮物物理学で生じ、一方強度、位相、分極特異点が波動物理学に浸透する。 行列によって支配される散逸系の中で、特異点はパラメータ空間の例外点において、いくつかの固有値と固有ベクトルが同時に結合する。 しかし、オープン量子システムアプローチで記述された量子系で生じる例外点の性質は、あまり研究されていない。 ここでは、パラメトリック駆動で損失を受ける量子振動子を考える。 このスクイーズド系は、その第一モーメントと第二モーメントを記述する力学方程式において例外的な点を示しており、これは特異な物理的結果を持つ2つの相の間の境界として作用する。 特に, 個体群, 相関, スクイズド四次数, および光学スペクトルが, 例外点の上か下かに大きく依存するかについて議論する。 また、臨界点における散逸相転移の存在は、リウヴィリアンギャップの閉包と関係している。 以上の結果から,2光子駆動下での量子共振器の探索実験や,散逸量子系における例外的・臨界点の再評価が期待できる。

The mathematical objects employed in physical theories do not always behave well. Einstein's theory of space and time allows for spacetime singularities and Van Hove singularities arise in condensed matter physics, while intensity, phase and polarization singularities pervade wave physics. Within dissipative systems governed by matrices, singularities occur at the exceptional points in parameter space whereby some eigenvalues and eigenvectors coalesce simultaneously. However, the nature of exceptional points arising in quantum systems described within an open quantum systems approach has been much less studied. Here we consider a quantum oscillator driven parametrically and subject to loss. This squeezed system exhibits an exceptional point in the dynamical equations describing its first and second moments, which acts as a borderland between two phases with distinctive physical consequences. In particular, we discuss how the populations, correlations, squeezed quadratures and optical spectra crucially depend on being above or below the exceptional point. We also remark upon the presence of a dissipative phase transition at a critical point, which is associated with the closing of the Liouvillian gap. Our results invite the experimental probing of quantum resonators under two-photon driving, and perhaps a reappraisal of exceptional and critical points within dissipative quantum systems more generally.
翻訳日:2023-07-10 12:18:53 公開日:2023-07-07
# 視覚ロボット操作のための模倣学習における一般化ギャップの分解

Decomposing the Generalization Gap in Imitation Learning for Visual Robotic Manipulation ( http://arxiv.org/abs/2307.03659v1 )

ライセンス: Link先を確認
Annie Xie, Lisa Lee, Ted Xiao, Chelsea Finn(参考訳) 視覚ロボット操作における模倣学習における一般化の難しさ この質問は、顔の値でアプローチすることは難しいが、ロボットの観点からの環境は、しばしば、照明条件やカメラの配置など、変化の数え切れない要因に分解される。 経験的に、これらの因子の一般化は、他の因子よりも大きな障害を示してきたが、既存の研究は、各因子が一般化ギャップにどの程度貢献するかを正確に示していない。 そこで本研究では,シミュレーションにおける模倣学習ポリシーと実ロボット言語による操作課題について検討し,各因子への一般化の難しさを定量化する。 また,一般化のより制御された評価を容易にするために,11因子の変動を伴う19タスクのシミュレートベンチマークを設計した。 本研究は,シミュレーションと実際のロボットのセットアップにおいて一貫した一般化難易度に基づく因子の順序を決定する。

What makes generalization hard for imitation learning in visual robotic manipulation? This question is difficult to approach at face value, but the environment from the perspective of a robot can often be decomposed into enumerable factors of variation, such as the lighting conditions or the placement of the camera. Empirically, generalization to some of these factors have presented a greater obstacle than others, but existing work sheds little light on precisely how much each factor contributes to the generalization gap. Towards an answer to this question, we study imitation learning policies in simulation and on a real robot language-conditioned manipulation task to quantify the difficulty of generalization to different (sets of) factors. We also design a new simulated benchmark of 19 tasks with 11 factors of variation to facilitate more controlled evaluations of generalization. From our study, we determine an ordering of factors based on generalization difficulty, that is consistent across simulation and our real robot setup.
翻訳日:2023-07-10 12:10:51 公開日:2023-07-07
# 2フォノン駆動による量子系間の指数関数的重力誘起絡み合い

Exponentially enhanced gravitationally induced entanglement between quantum systems with a two-phonon drive ( http://arxiv.org/abs/2307.03657v1 )

ライセンス: Link先を確認
Dianzhen Cui, X. X. Yi(参考訳) 重力の量子性を調べるための実現可能なプロトコルを見つけることは、注目を集めている。 本稿では,2フォノン駆動をハイブリッド量子装置で利用することにより,重力誘起絡みの検出を向上させるプロトコルを提案する。 我々は、二重ウェルポテンシャルを持つテスト粒子、量子ビット、量子メディエータからなるセットアップを考える。 テスト粒子とメディエーターの間には重力相互作用があり、メディエーターとキュービットの間にはスピンフォノン結合がある。 2フォノン駆動を導入することにより、tpとqubitとの絡み合いが著しく向上し、2フォノン駆動のない場合に比べて絡み合い発生率が著しく増加する。 さらに,提案手法により, TPとqubitの絡み合いを部分的に保存することができる。 この研究は、重力の量子の性質を実験的に検出するための異なる道を開き、量子情報科学に応用できるかもしれない。

Finding a feasible protocol for probing the quantum nature of gravity has been attracting an increasing amount of attention. In this manuscript, we propose a protocol to enhance the detection of gravitationally induced entanglement by exploiting the two-phonon drive in a hybrid quantum setup. We consider the setup consisting of a test particle in a double-well potential, a qubit and a quantum mediator. There is gravitational interaction between the test particle and the mediator, and a spin-phonon coupling between the mediator and the qubit. By introducing a two-phonon drive, the entanglement between the TP and the qubit are significantly enhanced and the entanglement generation rate is remarkably increased compared with the case without the two-phonon drive. Moreover, the entanglement between the TP and the qubit can be partially preserved in the presence of dephasing by the proposed strategy. This work would open a different avenue for experimental detection of the quantum nature of gravity, which could find applications in quantum information science.
翻訳日:2023-07-10 12:10:36 公開日:2023-07-07
# 自発会話における交替間の談話関係の分布

The distribution of discourse relations within and across turns in spontaneous conversation ( http://arxiv.org/abs/2307.03645v1 )

ライセンス: Link先を確認
S. Magal\'i L\'opez Cortez, Cassandra L. Jacobs(参考訳) 時間的プレッシャーと話題交渉は、人々が自発的な会話の文脈で会話関係(DR)をどのように活用するかに制約を課すことがある。 本研究では,初心者の注釈者からのクラウドソースアノテーションを用いて,自然対話に書き言葉のdrsのシステムを適用する。 次に、複数種類のマルチ発話文脈において、談話関係が異なる形で使用されるかどうかをテストする。 我々は,話者内および話者内におけるdrアノテーションのパターンを交互に比較した。 最終的に、異なる談話文脈が異なる談話関係の分布を生じさせ、単ターンアノテーションがアノテータにとって最も不確実性を生み出す。 また, 談話関係アノテーションは, 談話単位の埋め込みから予測できる品質であることがわかった。

Time pressure and topic negotiation may impose constraints on how people leverage discourse relations (DRs) in spontaneous conversational contexts. In this work, we adapt a system of DRs for written language to spontaneous dialogue using crowdsourced annotations from novice annotators. We then test whether discourse relations are used differently across several types of multi-utterance contexts. We compare the patterns of DR annotation within and across speakers and within and across turns. Ultimately, we find that different discourse contexts produce distinct distributions of discourse relations, with single-turn annotations creating the most uncertainty for annotators. Additionally, we find that the discourse relation annotations are of sufficient quality to predict from embeddings of discourse units.
翻訳日:2023-07-10 12:10:20 公開日:2023-07-07
# Graph-Kernel MABを用いたオンラインネットワークソース最適化

Online Network Source Optimization with Graph-Kernel MAB ( http://arxiv.org/abs/2307.03641v1 )

ライセンス: Link先を確認
Laura Toni, Pascal Frossard(参考訳) 本稿では,先行する未知のネットワークプロセスから得られる報酬を最大化するために,大規模ネットワークにおける最適ソース配置をオンライン上で学習するグラフカーネルマルチアームバンディットアルゴリズムであるgrab-ucbを提案する。 この不確実性は、しかしながら次元性の呪いに苦しむオンライン学習を呼び起こす。 サンプル効率を達成するために,適応グラフ辞書モデルを用いてネットワークプロセスを記述する。 これにより、ネットワークの1つではなくスペクトル表現モデルの次元で学習率がスケールするデータ効率の学習フレームワークが可能になる。 次に,行動戦略を最適化しながらスペクトル表現のパラメータを学習するオンライン逐次決定戦略であるGrab-UCBを提案する。 本稿では,ネットワークパラメータに依存する性能保証を導出し,逐次決定戦略の学習曲線にさらに影響を与え,目的関数を表すポリトープのエッジに沿って歩くアルゴリズムであるgrab-arm-lightを提案する。 シミュレーションの結果、提案したオンライン学習アルゴリズムは、通常、学習フェーズとテストフェーズを分離するベースラインオフラインメソッドよりも優れていた。 その結果,理論的な知見を確認し,累積的後悔,サンプル効率,計算複雑性の観点から,オンライン学習戦略の高まりを浮き彫りにした。

We propose Grab-UCB, a graph-kernel multi-arms bandit algorithm to learn online the optimal source placement in large scale networks, such that the reward obtained from a priori unknown network processes is maximized. The uncertainty calls for online learning, which suffers however from the curse of dimensionality. To achieve sample efficiency, we describe the network processes with an adaptive graph dictionary model, which typically leads to sparse spectral representations. This enables a data-efficient learning framework, whose learning rate scales with the dimension of the spectral representation model instead of the one of the network. We then propose Grab-UCB, an online sequential decision strategy that learns the parameters of the spectral representation while optimizing the action strategy. We derive the performance guarantees that depend on network parameters, which further influence the learning curve of the sequential decision strategy We introduce a computationally simplified solving method, Grab-arm-Light, an algorithm that walks along the edges of the polytope representing the objective function. Simulations results show that the proposed online learning algorithm outperforms baseline offline methods that typically separate the learning phase from the testing one. The results confirm the theoretical findings, and further highlight the gain of the proposed online learning strategy in terms of cumulative regret, sample efficiency and computational complexity.
翻訳日:2023-07-10 12:10:06 公開日:2023-07-07
# デシデラタを用いた可変結合回路の発見

Discovering Variable Binding Circuitry with Desiderata ( http://arxiv.org/abs/2307.03637v1 )

ライセンス: Link先を確認
Xander Davies, Max Nadeau, Nikhil Prakash, Tamar Rott Shaham, David Bau(参考訳) 近年の研究では、言語モデルの計算は人間に理解可能であり、シングルユニット機能と入出力回路の両方にローカライズし、介入することに成功した。 本稿では,そのサブタスクを実行するモデルコンポーネントの因果属性を単に指定することで,特定のサブタスクを実行するモデルコンポーネントを自動的に識別する因果仲介実験を拡張するアプローチを提案する。 概念実証として,LLaMA-13Bにおける共有 \textit{variable binding circuitry} を自動検出し,複数の演算タスクの変数値を検索する手法を提案する。 本手法は,9つのアテンションヘッド (1.6k) と1つのMLPへの可変結合を最終トークン残差ストリームに局在させる。

Recent work has shown that computation in language models may be human-understandable, with successful efforts to localize and intervene on both single-unit features and input-output circuits. Here, we introduce an approach which extends causal mediation experiments to automatically identify model components responsible for performing a specific subtask by solely specifying a set of \textit{desiderata}, or causal attributes of the model components executing that subtask. As a proof of concept, we apply our method to automatically discover shared \textit{variable binding circuitry} in LLaMA-13B, which retrieves variable values for multiple arithmetic tasks. Our method successfully localizes variable binding to only 9 attention heads (of the 1.6k) and one MLP in the final token's residual stream.
翻訳日:2023-07-10 12:09:44 公開日:2023-07-07
# プログラマブル集積干渉計の高速再構成

Fast reconstruction of programmable integrated interferometers ( http://arxiv.org/abs/2307.03635v1 )

ライセンス: Link先を確認
B. I. Bantysh, K. G. Katamadze, A. Yu. Chernyavskiy, Yu. I. Bogdanov(参考訳) プログラム可能な線形光干渉計は、古典的および量子情報技術、およびハードウェアアクセラレーションされた人工ニューラルネットワークの構築において重要である。 最近の結果は、高い製造誤差であっても入力フィールドの任意の変換を実装できる光学干渉計を構築する可能性を示した。 このような装置の詳細なモデルの構築は、その実用化の効率を劇的に向上させる。 干渉計の積分設計は、内部要素の対処が難しいため、その再構成を複雑にする。 この問題は最適化アルゴリズム(Opt. Express 29 38429 (2021))を用いて解決することができる。 本稿では,計算コストの高い最適化手法を用いない線形代数学のみに基づく新しい効率的なアルゴリズムを提案する。 この手法により,高次元プログラマブル集積干渉計の高速かつ高精度なキャラクタリゼーションが可能となる。 さらに、この方法は個々の干渉計層の物理的特性へのアクセスを提供する。

Programmable linear optical interferometers are important for classical and quantum information technologies, as well as for building hardware-accelerated artificial neural networks. Recent results showed the possibility of constructing optical interferometers that could implement arbitrary transformations of input fields even in the case of high manufacturing errors. The building of detailed models of such devices drastically increases the efficiency of their practical use. The integral design of interferometers complicates its reconstruction since the internal elements are hard to address. This problem can be approached by using optimization algorithms [Opt. Express 29, 38429 (2021)]. In this paper, we present a novel efficient algorithm based on linear algebra only, which does not use computationally expensive optimization procedures. We show that this approach makes it possible to perform fast and accurate characterization of high-dimensional programmable integrated interferometers. Moreover, the method provides access to the physical characteristics of individual interferometer layers.
翻訳日:2023-07-10 12:09:29 公開日:2023-07-07
# ニューラルネットワークに関連する連続線形パラメータ変動系のpac境界

PAC bounds of continuous Linear Parameter-Varying systems related to neural ODEs ( http://arxiv.org/abs/2307.03630v1 )

ライセンス: Link先を確認
D\'aniel R\'acz and Mih\'aly Petreczky and B\'alint Dar\'oczy(参考訳) 本稿では,線形パラメータ変動システム(lpv)の文脈における神経常微分方程式(neural odes)の連続学習の問題について考察する。 LPV系は非線形系に対する普遍近似として知られている双線型系を含む。 さらに、大きなクラスのニューラルネットワークodeをlpvシステムに組み込むこともできる。 我々の主な貢献として、ニューラルODEに関連するLPV系の安定性の下で、確率的近似(PAC)境界を提供する。 結果として得られる境界は、積分区間に依存しないという利点を持つ。

We consider the problem of learning Neural Ordinary Differential Equations (neural ODEs) within the context of Linear Parameter-Varying (LPV) systems in continuous-time. LPV systems contain bilinear systems which are known to be universal approximators for non-linear systems. Moreover, a large class of neural ODEs can be embedded into LPV systems. As our main contribution we provide Probably Approximately Correct (PAC) bounds under stability for LPV systems related to neural ODEs. The resulting bounds have the advantage that they do not depend on the integration interval.
翻訳日:2023-07-10 12:09:18 公開日:2023-07-07
# 熱・ミリ波レーダ融合による視覚劣化下でのロバストな人体検出

Robust Human Detection under Visual Degradation via Thermal and mmWave Radar Fusion ( http://arxiv.org/abs/2307.03623v1 )

ライセンス: Link先を確認
Kaiwen Cai, Qiyue Xia, Peize Li, John Stankovic and Chris Xiaoxuan Lu(参考訳) 人間の検出法の大半は、可視光(例えばRGBカメラ)を用いたセンサーに依存しているが、そのようなセンサーは劣化した視覚条件のシナリオに限られている。 本稿では,携帯型熱カメラと単一チップmmWaveレーダを組み合わせたマルチモーダルヒューマン検知システムを提案する。 サーマルカメラのコントラストの低さとレーダポイント雲のマルチパスノイズに起因するノイズ検出特性を緩和するために,単一モードとマルチモーダルの,様々な競合手法を超えるベイズ特徴抽出器と新しい不確実性誘導核融合法を提案する。 提案手法を実世界のデータ収集において評価し,提案手法が最先端の手法よりも大きなマージンで優れていることを示す。

The majority of human detection methods rely on the sensor using visible lights (e.g., RGB cameras) but such sensors are limited in scenarios with degraded vision conditions. In this paper, we present a multimodal human detection system that combines portable thermal cameras and single-chip mmWave radars. To mitigate the noisy detection features caused by the low contrast of thermal cameras and the multi-path noise of radar point clouds, we propose a Bayesian feature extractor and a novel uncertainty-guided fusion method that surpasses a variety of competing methods, either single-modal or multi-modal. We evaluate the proposed method on real-world data collection and demonstrate that our approach outperforms the state-of-the-art methods by a large margin.
翻訳日:2023-07-10 12:09:08 公開日:2023-07-07
# 単一光子源の準ユニティ$\beta$因子と集光効率:放射モードへの放射を抑制するために誘電体環を用いる

Towards near-unity $\beta$ factor and collection efficiency in single-photon sources: employing dielectric rings to suppress the emission into radiation modes ( http://arxiv.org/abs/2307.03619v1 )

ライセンス: Link先を確認
Martin Arentoft Jacobsen, Luca Vannucci, Julien Claudon, Jean-Michel G\'erard, and Niels Gregersen(参考訳) 本稿では, 無限ナノワイヤの周りの数周期の円ブラッグ反射器が, フォトニックバンドギャップ効果による放射モードへの放出のさらなる抑制により, 基本モードの$\beta$係数を0.999まで向上させることができることを示した。 次に, テープ状ナノワイヤを用いた有限サイズのSPSにおいて, この戦略を適用し, 収集効率をさらに高めることができることを示す。 さらに,マイクロピラーsps周辺に最適化されたハイインデックスリングを追加する効果も示す。

In this paper, we demonstrate that a few-period circular Bragg reflector around an infinite nanowire can increase the $\beta$ factor of the fundamental mode up to 0.999 due to further suppression of the emission into radiation modes caused by a photonic band gap effect. We then apply this strategy in the practically relevant case of the finite-sized SPS based on tapered nanowires and demonstrate that the collection efficiency can be further increased. Additionally, we also show the beneficial effects of adding optimized high-index rings around the micropillar SPS.
翻訳日:2023-07-10 12:08:52 公開日:2023-07-07
# 10^\mathrm{-22}$$$\mathrm{w/\sqrt{hz}}$感度を持つ実用的な単一マイクロ波光子カウンタ

Practical Single Microwave Photon Counter with $10^\mathrm{-22}$ $\mathrm{W/\sqrt{Hz}}$ sensitivity ( http://arxiv.org/abs/2307.03614v1 )

ライセンス: Link先を確認
L\'eo Balembois, Jaime Travesedo, Louis Pallegoix, Alexandre May, Eric Billaud, Marius Villiers, Daniel Est\`eve, Denis Vion, Patrice Bertet, Emmanuel Flurin(参考訳) 単一光子検出は量子光学の発展に重要な役割を果たした。 マイクロ波領域におけるその実装は、光子エネルギーが5桁小さいため困難である。 近年、超伝導量子ビットまたはボロメーターに基づく単一マイクロ波光子検出器(SMPD)の開発において大きな進展が見られた。 本稿では, 4波混合プロセスによるトランモン量子ビットの励起状態への入射光子の可逆移動に基づく新しい実用SMPDを提案する。 この装置は検出効率$\eta = 0.43$ と演算ダークカウントレート $\alpha = 85$$ $\mathrm{s^{-1}}$ を達成する。 対応する電力感度は$\mathcal{s} = 10^{-22}$ $\mathrm{w/\sqrt{hz}}$であり、これは芸術の状況よりも1桁低い。 この検出器は、義務サイクル$\eta_\mathrm{D}=0.84$で時間スケールで連続的に動作し、周波数チューナビリティは7GHzあたり$\sim 400$MHzである。

Single photon detection played an important role in the development of quantum optics. Its implementation in the microwave domain is challenging because the photon energy is 5 orders of magnitude smaller. In recent years, significant progress has been made in developing single microwave photon detectors (SMPDs) based on superconducting quantum bits or bolometers. In this paper we present a new practical SMPD based on the irreversible transfer of an incoming photon to the excited state of a transmon qubit by a four-wave mixing process. This device achieves a detection efficiency $\eta = 0.43$ and an operational dark count rate $\alpha = 85$ $\mathrm{s^{-1}}$, mainly due to the out-of-equilibrium microwave photons in the input line. The corresponding power sensitivity is $\mathcal{S} = 10^{-22}$ $\mathrm{W/\sqrt{Hz}}$, one order of magnitude lower than the state of the art. The detector operates continuously over hour timescales with a duty cycle $\eta_\mathrm{D}=0.84$, and offers frequency tunability of $\sim 400$ MHz around 7 GHz.
翻訳日:2023-07-10 12:08:40 公開日:2023-07-07
# 微分可能な乱流

Differentiable Turbulence ( http://arxiv.org/abs/2307.03683v1 )

ライセンス: Link先を確認
Varun Shankar, Romit Maulik, Venkatasubramanian Viswanathan(参考訳) 深層学習は大規模渦シミュレーション(les)のためのサブグリッドスケール(sgs)乱流閉鎖モデルの精度を向上させるための有望な経路になりつつある。 微分可能乱流の概念を活用し, エンドツーエンドの微分可能ソルバを, 物理に触発された深層学習アーキテクチャの選択と組み合わせて, 二次元乱流に対する高効率で多用途なsgsモデルを学ぶ。 我々は,選択したアーキテクチャにおける帰納バイアスの詳細な分析を行い,小規模の非局所的特徴の包含が有効なSGSモデリングに最も重要であること,大規模特徴がA-posteriori解場のポイントワイズ精度を向上させることを見出した。 フィルタされた速度勾配テンソルは入力と出力の分解によって直接SGS応力にマッピングされ、等方性、偏光性、反対称成分となる。 このモデルは、高レイノルズ数や低レイノルズ数、異なる強制条件など、様々なフロー構成に一般化できる。 微分可能な物理パラダイムは、オフラインのアプリオリ学習よりも成功しており、深層学習へのハイブリッド・ソルバ・イン・ザ・ループアプローチは、計算効率、精度、一般化の理想的なバランスを提供する。 我々の実験は、乱流の一般化可能な閉鎖モデルのための深層学習に基づくSGSモデリングのための物理ベースの勧告を提供する。

Deep learning is increasingly becoming a promising pathway to improving the accuracy of sub-grid scale (SGS) turbulence closure models for large eddy simulations (LES). We leverage the concept of differentiable turbulence, whereby an end-to-end differentiable solver is used in combination with physics-inspired choices of deep learning architectures to learn highly effective and versatile SGS models for two-dimensional turbulent flow. We perform an in-depth analysis of the inductive biases in the chosen architectures, finding that the inclusion of small-scale non-local features is most critical to effective SGS modeling, while large-scale features can improve pointwise accuracy of the a-posteriori solution field. The filtered velocity gradient tensor can be mapped directly to the SGS stress via decomposition of the inputs and outputs into isotropic, deviatoric, and anti-symmetric components. We see that the model can generalize to a variety of flow configurations, including higher and lower Reynolds numbers and different forcing conditions. We show that the differentiable physics paradigm is more successful than offline, a-priori learning, and that hybrid solver-in-the-loop approaches to deep learning offer an ideal balance between computational efficiency, accuracy, and generalization. Our experiments provide physics-based recommendations for deep-learning based SGS modeling for generalizable closure modeling of turbulence.
翻訳日:2023-07-10 12:02:08 公開日:2023-07-07
# GeoPhy: 樹木地形の幾何学的勾配による系統解析

GeoPhy: Differentiable Phylogenetic Inference via Geometric Gradients of Tree Topologies ( http://arxiv.org/abs/2307.03675v1 )

ライセンス: Link先を確認
Takahiro Mimori, Michiaki Hamada(参考訳) 分子進化モデルに基づく系統推定は、生物学的データの進化的関係を理解するのに不可欠である。 樹木のトポロジーや枝の進化距離を含む系統樹変数の不確実性を考慮することは, 分子データから種との関係を正確に推定するために重要である。 変分ベイズ法は、スケーラブルで実践的なモデルを開発する上で鍵となるが、相補的かつ膨大なツリートポロジーを制限することなく系統的推論を行うことは依然として困難である。 本研究では,連続幾何空間における位相分布の一意な表現を利用する系統推論の新規かつ完全微分可能な定式化を提案する。 勾配推定のための設計空間と制御変数の実践的考察を通じて,我々のアプローチであるGeoPhyは,トポロジ的候補を制限することなく,変分推論を可能にする。 実際のベンチマークデータセットを用いた実験では、GeoPhyは全トポロジーを考慮した他の近似ベイズ法よりも著しく優れていた。

Phylogenetic inference, grounded in molecular evolution models, is essential for understanding the evolutionary relationships in biological data. Accounting for the uncertainty of phylogenetic tree variables, which include tree topologies and evolutionary distances on branches, is crucial for accurately inferring species relationships from molecular data and tasks requiring variable marginalization. Variational Bayesian methods are key to developing scalable, practical models; however, it remains challenging to conduct phylogenetic inference without restricting the combinatorially vast number of possible tree topologies. In this work, we introduce a novel, fully differentiable formulation of phylogenetic inference that leverages a unique representation of topological distributions in continuous geometric spaces. Through practical considerations on design spaces and control variates for gradient estimations, our approach, GeoPhy, enables variational inference without limiting the topological candidates. In experiments using real benchmark datasets, GeoPhy significantly outperformed other approximate Bayesian methods that considered whole topologies.
翻訳日:2023-07-10 12:01:01 公開日:2023-07-07
# 2つの非局所$\delta'$相互作用からなる特異な二重井戸を持つ1次元ハミルトニアンの解析

Analysis of a one-dimensional Hamiltonian with a singular double well consisting of two nonlocal $\delta'$ interactions ( http://arxiv.org/abs/2307.03674v1 )

ライセンス: Link先を確認
Silvestro Fassari, Manuel Gadella, Luis-Miguel Nieto and Fabio Rinaldi(参考訳) 本論文の目的は、その原点に対して対称に位置する等強度と非局所的な$\delta'$相互作用の和によってポテンシャルが与えられる1次元ハミルトニアンの研究である。 このハミルトニアンに対する自己随伴決定を厳密に達成するために、結合定数の {\it renormalisation of the coupling constant} と呼ばれる手順を用いる。 このモデルは相互作用の強さと各相互作用の中心と原点の間の距離という2つのパラメータに依存する。 自己随伴決定が得られれば、エネルギー準位を表す2つの負の固有値からなることを示す離散スペクトルを得る。 これらのエネルギー準位が上記のパラメータに依存することを解析する。 モデルの共鳴の可能性について検討する。 さらに、2つの$\delta'$相互作用のサポート間の距離がなくなると、我々のモデルの限界を詳細に分析する。

The objective of the present paper is the study of a one-dimensional Hamiltonian inside which the potential is given by the sum of two nonlocal attractive $\delta'$ interactions of equal strength and symmetrically located with respect to the origin. We use the procedure known as {\it renormalisation of the coupling constant} in order to rigorously achieve a self-adjoint determination for this Hamiltonian. This model depends on two parameters, the interaction strength and the distance between the centre of each interaction and the origin. Once we have the self-adjoint determination, we obtain its discrete spectrum showing that it consists of two negative eigenvalues representing the energy levels. We analyse the dependence of these energy levels on the above-mentioned parameters. We investigate the possible resonances of the model. Furthermore, we analyse in detail the limit of our model as the distance between the supports of the two $\delta'$ interactions vanishes.
翻訳日:2023-07-10 12:00:46 公開日:2023-07-07
# スコアとフローマッチングによるシュリンガーブリッジのシミュレーションフリー化

Simulation-free Schr\"odinger bridges via score and flow matching ( http://arxiv.org/abs/2307.03672v1 )

ライセンス: Link先を確認
Alexander Tong, Nikolay Malkin, Kilian Fatras, Lazar Atanackovic, Yanlei Zhang, Guillaume Huguet, Guy Wolf, Yoshua Bengio(参考訳) 任意の分布から抽出した非対流源と対象試料から確率力学を推定するシミュレーションフリーの目標である,シュミレーションフリースコアとフローマッチング([sf]$^2$m)を提案する。 本手法は,拡散モデルのトレーニングに使用するスコアマッチング損失と,連続正規化フローのトレーニングに使用されるフローマッチング損失の両方を一般化する。 [SF]$^2$Mは、連続時間確率的生成モデリングをSchr\"odinger Bridge (SB)問題として解釈する。 学習確率過程をシミュレートすることなくSBを効率的に学習するために、静的エントロピー規則化された最適輸送(ミニバッチ近似)に依存する。 我々は, [SF]$^2$Mの方が効率が高く, 従来のシミュレーション手法よりもSB問題に対するより正確な解が得られることを示した。 最後に,スナップショットデータからセルダイナミクスを学習する問題に対して [SF]$^2$M を適用する。 特に、[SF]$^2$Mは、高次元の細胞動態を正確にモデル化し、シミュレーションデータから既知の遺伝子制御ネットワークを復元する最初の方法である。

We present simulation-free score and flow matching ([SF]$^2$M), a simulation-free objective for inferring stochastic dynamics given unpaired source and target samples drawn from arbitrary distributions. Our method generalizes both the score-matching loss used in the training of diffusion models and the recently proposed flow matching loss used in the training of continuous normalizing flows. [SF]$^2$M interprets continuous-time stochastic generative modeling as a Schr\"odinger bridge (SB) problem. It relies on static entropy-regularized optimal transport, or a minibatch approximation, to efficiently learn the SB without simulating the learned stochastic process. We find that [SF]$^2$M is more efficient and gives more accurate solutions to the SB problem than simulation-based methods from prior work. Finally, we apply [SF]$^2$M to the problem of learning cell dynamics from snapshot data. Notably, [SF]$^2$M is the first method to accurately model cell dynamics in high dimensions and can recover known gene regulatory networks from simulated data.
翻訳日:2023-07-10 12:00:30 公開日:2023-07-07
# 11言語における予備理論の予測の検証

Testing the Predictions of Surprisal Theory in 11 Languages ( http://arxiv.org/abs/2307.03667v1 )

ライセンス: Link先を確認
Ethan Gotlieb Wilcox, Tiago Pimentel, Clara Meister, Ryan Cotterell, Roger P. Levy(参考訳) 精神言語学の基本的な結果は、予測可能な単語の少ない処理に時間がかかることである。 この発見の理論的説明の1つは、ある単語の予測可能性、すなわちその文脈が与えられた負の対数確率を定量化する仮定理論(Hale, 2001; Levy, 2008)である。 代理理論の予測を裏付ける証拠は広く複製されているが、ほとんどは英語の話者が英語のテキストを読むという非常に狭いデータに焦点が当てられている。 実際、包括的多言語分析は存在しない。 5つの言語族にまたがって分布する11の異なる言語における超越時間と読み時間の関係を調べることにより,現在の文献におけるこのギャップに対処した。 単言語および多言語コーパスで学習した言語モデルから推定を導出し,超越理論に関連する3つの予測を検証した。 (i)supprisalが読み時間を予測するか否か (二 予想外、すなわち文脈エントロピーが読解時間の予測であるか否か。) (iii) 副次的時間と読解時間の連結関数が線形であるか否か。 3つの予測はすべて言語横断的に展開されている。 より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。

A fundamental result in psycholinguistics is that less predictable words take a longer time to process. One theoretical explanation for this finding is Surprisal Theory (Hale, 2001; Levy, 2008), which quantifies a word's predictability as its surprisal, i.e. its negative log-probability given a context. While evidence supporting the predictions of Surprisal Theory have been replicated widely, most have focused on a very narrow slice of data: native English speakers reading English texts. Indeed, no comprehensive multilingual analysis exists. We address this gap in the current literature by investigating the relationship between surprisal and reading times in eleven different languages, distributed across five language families. Deriving estimates from language models trained on monolingual and multilingual corpora, we test three predictions associated with surprisal theory: (i) whether surprisal is predictive of reading times; (ii) whether expected surprisal, i.e. contextual entropy, is predictive of reading times; (iii) and whether the linking function between surprisal and reading times is linear. We find that all three predictions are borne out crosslinguistically. By focusing on a more diverse set of languages, we argue that these results offer the most robust link to-date between information theory and incremental language processing across languages.
翻訳日:2023-07-10 12:00:12 公開日:2023-07-07
# 低侵襲癌手術における腹腔鏡下プローブのセンシング領域の検出

Detecting the Sensing Area of A Laparoscopic Probe in Minimally Invasive Cancer Surgery ( http://arxiv.org/abs/2307.03662v1 )

ライセンス: Link先を確認
Baoru Huang, Yicheng Hu, Anh Nguyen, Stamatia Giannarou, Daniel S. Elson(参考訳) 外科腫瘍学では,術中診断ツールが欠如していることから,PETやCTなどの術前画像診断システムにおいても,リンパ節の同定やがんの完全切除が困難である。 内視鏡的放射線ガイド癌検出・切除は, 術前注入ラジオトレーサを局在化するために新しいテザリング型腹腔鏡ガンマ検出器を用いた近年評価されている。 これにより、内視鏡的画像化と術前核画像データの補完を両立できる。 しかしながら、ガンマ活動の可視化は、プローブが非イメージングであり、組織表面の活性の起源を視覚的に示さないため、オペレーターに提示することが困難である。 最初の失敗はセグメンテーションや幾何学的手法を用いたが、高次元画像の特徴とプローブ位置情報を利用することで解決できることが判明した。 本手法の有効性を示すため,この問題に対処するシンプルな回帰ネットワークを設計,実装した。 提案手法をさらに検証するため,カスタム設計のポータブルステレオ腹腔鏡システムを用いて収集した2つのデータセットを取得し,公開した。 集中的な実験を通じて,本手法が検知領域を効果的かつ効果的に検出できることを示し,新しい性能ベンチマークを構築した。 コードとデータはhttps://github.com/br020202/sensing_area_detection.gitで入手できる。

In surgical oncology, it is challenging for surgeons to identify lymph nodes and completely resect cancer even with pre-operative imaging systems like PET and CT, because of the lack of reliable intraoperative visualization tools. Endoscopic radio-guided cancer detection and resection has recently been evaluated whereby a novel tethered laparoscopic gamma detector is used to localize a preoperatively injected radiotracer. This can both enhance the endoscopic imaging and complement preoperative nuclear imaging data. However, gamma activity visualization is challenging to present to the operator because the probe is non-imaging and it does not visibly indicate the activity origination on the tissue surface. Initial failed attempts used segmentation or geometric methods, but led to the discovery that it could be resolved by leveraging high-dimensional image features and probe position information. To demonstrate the effectiveness of this solution, we designed and implemented a simple regression network that successfully addressed the problem. To further validate the proposed solution, we acquired and publicly released two datasets captured using a custom-designed, portable stereo laparoscope system. Through intensive experimentation, we demonstrated that our method can successfully and effectively detect the sensing area, establishing a new performance benchmark. Code and data are available at https://github.com/br0202/Sensing_area_detection.git
翻訳日:2023-07-10 11:59:50 公開日:2023-07-07
# SAR: 相乗的行動表現による生理的アジリティとデクスタリティの一般化

SAR: Generalization of Physiological Agility and Dexterity via Synergistic Action Representation ( http://arxiv.org/abs/2307.03716v1 )

ライセンス: Link先を確認
Cameron Berg, Vittorio Caggiano, Vikash Kumar(参考訳) 筋骨格剤を含む高次元システムにおける効果的な連続制御政策の学習は依然として重要な課題である。 生物進化の過程で、生物はこの複雑さを克服し、高度に洗練された運動制御戦略を学ぶためのロバストなメカニズムを開発してきた。 この堅牢な行動の柔軟性の原因は何でしょう? 筋シナジー、すなわち協調筋のココントラクションによる調節は、生物がシンプルで一般化可能な行動空間で筋肉の制御を学習することを可能にする1つの機構であると考えられている。 この進化した運動制御戦略からインスピレーションを得て、より単純なタスクから獲得したSAR(Synergistic Action Represent