このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230710となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# REST: マイクロサービスシステムのための適応型レジリエンステストフレームワーク REST: An Adaptive Resilience Testing Framework for Microservice Systems ( http://arxiv.org/abs/2212.12850v2 ) ライセンス: Link先を確認 | Tianyi Yang, Cheryl Lee, Jiacheng Shen, Yuxin Su, Yongqiang Yang, and Michael R. Lyu | (参考訳) 予期せぬ障害によるサービス劣化を最小限に抑える能力を測定するレジリエンステストは、マイクロサービスシステムにとって極めて重要です。
現在のレジリエンステストのプラクティスは、さまざまなマイクロサービスシステムのルールを手動で定義することに依存している。
マイクロサービスのビジネスロジックが多様であるため、すべてのマイクロサービスレジリエンステストルールに適合するものはありません。
マイクロサービスと障害の量とダイナミクスが大きく増加するにつれて、手動構成はスケーラビリティと適応性の問題を示す。
この2つの問題を克服するために、ベンチマークマイクロサービスシステムのレジリエントで非レジリエントなデプロイメントにおける一般的な障害の影響を実証的に比較します。
本研究では,レジリエントなデプロイメントによって,システムパフォーマンス指標(メモリ使用量など)からビジネスメトリクス(応答レイテンシなど)への分解の伝播を阻害できることを実証する。
本稿では,マイクロサービスシステムのための最初のAdaptiVEレジリエンステストフレームワークであるAVERTを提案する。
AVERTはまず、マイクロサービスに障害を注入し、利用可能な監視メトリクスを収集します。
次に、AVERTは、注入された障害によるサービス全体の劣化に対する貢献に応じて、すべての監視メトリクスをランク付けします。
最後に、avertは、システムパフォーマンスメトリクスの劣化がビジネスメトリクスの低下にどの程度伝播するかによって、レジリエンスインデックスを生成します。
分解伝播が高ければ高いほど、マイクロサービスシステムのレジリエンスは低下する。
AVERTを2つのオープンソースのベンチマークマイクロサービスシステムで評価する。
実験の結果,avertはマイクロサービスシステムのレジリエンスを正確かつ効率的にテストできることがわかった。 Resilience testing, which measures the ability to minimize service degradation caused by unexpected failures, is crucial for microservice systems. The current practice for resilience testing relies on manually defining rules for different microservice systems. Due to the diverse business logic of microservices, there are no one-size-fits-all microservice resilience testing rules. As the quantity and dynamic of microservices and failures largely increase, manual configuration exhibits its scalability and adaptivity issues. To overcome the two issues, we empirically compare the impacts of common failures in the resilient and unresilient deployments of a benchmark microservice system. Our study demonstrates that the resilient deployment can block the propagation of degradation from system performance metrics (e.g., memory usage) to business metrics (e.g., response latency). In this paper, we propose AVERT, the first AdaptiVE Resilience Testing framework for microservice systems. AVERT first injects failures into microservices and collects available monitoring metrics. Then AVERT ranks all the monitoring metrics according to their contributions to the overall service degradation caused by the injected failures. Lastly, AVERT produces a resilience index by how much the degradation in system performance metrics propagates to the degradation in business metrics. The higher the degradation propagation, the lower the resilience of the microservice system. We evaluate AVERT on two open-source benchmark microservice systems. The experimental results show that AVERT can accurately and efficiently test the resilience of microservice systems. | 翻訳日:2023-10-24 13:46:53 公開日:2023-07-10 |
# 結果安定性試験における数値変数法とニューロイメージングへの応用 A numerical variability approach to results stability tests and its application to neuroimaging ( http://arxiv.org/abs/2307.01373v2 ) ライセンス: Link先を確認 | Yohan Chatelain, Lo\"ic Tetrel, Christopher J. Markiewicz, Mathias Goncalves, Gregory Kiar, Oscar Esteban, Pierre Bellec, Tristan Glatard | (参考訳) データ分析の長期的な再現性を保証するためには、必然的なソフトウェアアップデートとハードウェアの進化にもかかわらず、分析結果が許容できる変動範囲内に留まることを検証する結果安定性テストが必要である。
本稿では,浮動小数点計算のランダム丸め法を用いて許容変動境界を決定する,結果安定テストのための数値変動可能性手法を提案する。
広範に使用されているニューロイメージングツールである \fmriprep に安定性テストを適用することで、画像処理手法の微妙な更新を検出するのに十分な感度を持つとともに、アプリケーションの参照バージョンにおける数値的変動を受け入れるのに十分な特異性を保っていることを示す。
この結果は、安定テストのための堅牢で柔軟な方法を提供することにより、データ解析の信頼性と再現性の向上に寄与する。 Ensuring the long-term reproducibility of data analyses requires results stability tests to verify that analysis results remain within acceptable variation bounds despite inevitable software updates and hardware evolutions. This paper introduces a numerical variability approach for results stability tests, which determines acceptable variation bounds using random rounding of floating-point calculations. By applying the resulting stability test to \fmriprep, a widely-used neuroimaging tool, we show that the test is sensitive enough to detect subtle updates in image processing methods while remaining specific enough to accept numerical variations within a reference version of the application. This result contributes to enhancing the reliability and reproducibility of data analyses by providing a robust and flexible method for stability testing. | 翻訳日:2023-10-23 18:26:45 公開日:2023-07-10 |
# あのコードは以前ここにありましたか。
古いソフトウェア文書の検出 Wait, wasn't that code here before? Detecting Outdated Software Documentation ( http://arxiv.org/abs/2307.04291v1 ) ライセンス: Link先を確認 | Wen Siang Tan, Markus Wagner, Christoph Treude | (参考訳) 古いドキュメントの公開は、ソフトウェア開発コミュニティの開発者やユーザにとって珍しいことではない。
ソフトウェアドキュメンテーションが最新であることを保証するために、開発者はソースコードに変更が加えられるたびにドキュメントを更新する必要があるかどうかを手動でチェックする必要がある。
前回の研究で、ソフトウェアリポジトリの古いコード要素参照を自動的に検出するアプローチを提案し、GitHub上で最も人気のある1000のプロジェクトの4分の1以上が、少なくとも1つの古い参照を含んでいることがわかった。
本稿では、GitHub開発者がプルリクエストが提出されるたびに、GitHubプロジェクトのドキュメントにある古いコード要素参照を自動的にスキャンするように設定できる、以前の作業のアプローチに基づくGitHub Actionsツールを紹介します。 Encountering outdated documentation is not a rare occurrence for developers and users in the software engineering community. To ensure that software documentation is up-to-date, developers often have to manually check whether the documentation needs to be updated whenever changes are made to the source code. In our previous work, we proposed an approach to automatically detect outdated code element references in software repositories and found that more than a quarter of the 1000 most popular projects on GitHub contained at least one outdated reference. In this paper, we present a GitHub Actions tool that builds on our previous work's approach that GitHub developers can configure to automatically scan for outdated code element references in their GitHub project's documentation whenever a pull request is submitted. | 翻訳日:2023-10-23 18:06:13 公開日:2023-07-10 |
# LLM支援ソースコードの計算原性 Calculating Originality of LLM Assisted Source Code ( http://arxiv.org/abs/2307.04492v1 ) ライセンス: Link先を確認 | Shipra Sharma and Balwinder Sodhi | (参考訳) LLM(Large Language Model)を使用することで、さまざまなクエリに応答し、高い可用性を実現することで、LLMをさまざまなアプリケーションに統合することが可能になる。
llmベースのレコメンダは現在、コード生成とテストのために学生やプロのソフトウェアプログラマが日常的に使用している。
LLMベースの技術は有用であることが証明されているが、学生や専門家による非倫理的で無貢献な利用が懸念されている。
そのため、教師や他の評価者がソースコードの一部がllm生成されているかどうかを特定するのを助けるツールや技術が必要となる。
本稿では,学生がソースコードを書く際に行う取り組み(およびllmの貢献)を決定するために,インストラクタが使用できるニューラルネットワークベースのツールを提案する。
ツールの動機は,コルモゴロフ複雑性のような最小記述長尺度である。
中規模(最大500行のコード)での最初の実験は、この論文で報告した有望な結果を示している。 The ease of using a Large Language Model (LLM) to answer a wide variety of queries and their high availability has resulted in LLMs getting integrated into various applications. LLM-based recommenders are now routinely used by students as well as professional software programmers for code generation and testing. Though LLM-based technology has proven useful, its unethical and unattributed use by students and professionals is a growing cause of concern. As such, there is a need for tools and technologies which may assist teachers and other evaluators in identifying whether any portion of a source code is LLM generated. In this paper, we propose a neural network-based tool that instructors can use to determine the original effort (and LLM's contribution) put by students in writing source codes. Our tool is motivated by minimum description length measures like Kolmogorov complexity. Our initial experiments with moderate sized (up to 500 lines of code) have shown promising results that we report in this paper. | 翻訳日:2023-10-23 17:53:39 公開日:2023-07-10 |
# オペレーティングシステムにおけるパッケージ間依存関係の進化を分析する:Ubuntuのケーススタディ Analyzing the Evolution of Inter-package Dependencies in Operating Systems: A Case Study of Ubuntu ( http://arxiv.org/abs/2307.04458v1 ) ライセンス: Link先を確認 | Victor Prokhorenko, Chadni Islam and Muhammad Ali Babar | (参考訳) オペレーティングシステム(OS)は複数の相互依存ソフトウェアパッケージを結合し、通常は独自に開発されたアーキテクチャを持つ。
OS内に多数の独立したパッケージをまとめると、暗黙のパッケージ間アーキテクチャが形成される。
進化的な努力のために、OSのデザイナや開発者は、個々のファイル、特に実行可能なファイル、動的にロード可能なライブラリに焦点を当てたシステム全体の依存関係を完全に理解することで、大きな恩恵を受けることができる。
本稿では,個々のバイナリファイルのレベルでの詳細なパッケージ関係と関連する進化的変化の発見を目的としたフレームワークであるDepExを提案する。
我々は、大規模なオープンソースOSUbuntuの進化を体系的に研究することで、DepExの実用性を実証する。
DepExによって、2005年(5.04)から2023年(23.04)の間にリリースされたUbuntuのさまざまなバージョンにおける依存関係の体系的な取得と分析が可能になりました。
分析の結果,パッケージ管理における様々な進化傾向と,ダウンロード可能な84の連続バージョン(ベータ版を含む)の分析に基づく影響が明らかになった。
この研究により、DepExは、ソフトウェアの安定性、パフォーマンス、機能を改善するために、暗黙のソフトウェア依存関係をよりよく理解し、メンテナンスや更新、マイグレーション時に発生する問題のリスクを軽減するために、研究者や実践者がDepExを利用できると断言できるようになりました。 An Operating System (OS) combines multiple interdependent software packages, which usually have their own independently developed architectures. When a multitude of independent packages are placed together in an OS, an implicit inter-package architecture is formed. For an evolutionary effort, designers/developers of OS can greatly benefit from fully understanding the system-wide dependency focused on individual files, specifically executable files, and dynamically loadable libraries. We propose a framework, DepEx, aimed at discovering the detailed package relations at the level of individual binary files and their associated evolutionary changes. We demonstrate the utility of DepEx by systematically investigating the evolution of a large-scale Open Source OS, Ubuntu. DepEx enabled us to systematically acquire and analyze the dependencies in different versions of Ubuntu released between 2005 (5.04) to 2023 (23.04). Our analysis revealed various evolutionary trends in package management and their implications based on the analysis of the 84 consecutive versions available for download (these include beta versions). This study has enabled us to assert that DepEx can provide researchers and practitioners with a better understanding of the implicit software dependencies in order to improve the stability, performance, and functionality of their software as well as to reduce the risk of issues arising during maintenance, updating, or migration. | 翻訳日:2023-10-23 17:53:26 公開日:2023-07-10 |
# 都市環境におけるラストマイル配送用自動運転車の走行安全保証 Runtime Safety Assurance of Autonomous Vehicles used for Last-mile Delivery in Urban Environments ( http://arxiv.org/abs/2307.04454v1 ) ライセンス: Link先を確認 | Iqra Aslam, Adina Aniculaesei, Abhishek Buragohain, Daniel Bamal, Prof. Dr. Andreas Rausch | (参考訳) 新型コロナウイルス(covid-19)のパンデミックで商品のラストマイル配送が注目を集めている。
しかし、現在の荷物配送プロセスは第2レーンに駐車することが多いため、輸送が行われる都市環境、すなわち交通渋滞や他の道路利用者の安全問題に悪影響を及ぼす。
これらの課題に取り組むためには、効率的で柔軟で安全な商品の配送を保証する効果的な自律配送システムが必要である。
EIT Urban Mobilityが共同出資したプロジェクトLogiSmileは、Autonomous Hub Vehicle(AHV)と呼ばれる自動運転車を操縦し、Autonomous Delivery Device(ADD)と呼ばれる小さな自律ロボットと連携する。
この2つの協力するロボットにより、LogiSmileプロジェクトは、混雑した地域での都市商品流通の課題に対する解決策を見つけ、都市移動の未来を実証することを目指している。
Nieders\"achsische Forschungszentrum f\"ur Fahrzeugtechnik (NFF) のメンバーとして、ISSE(Institute for Software and Systems Engineering)は、AHVのランタイム監視のための統合されたソフトウェア安全アーキテクチャを開発し、(1)AHVのオンボード監視に使用される信頼性ケージ(DC)と(2)AHVのリモートオフボード監視を可能にするリモートコマンドコントロールセンタ(CCC)を開発した。
dcは車両を継続的に監視し、安全に違反した場合、名目上の駆動モードを劣化運転モードまたはフェールセーフモードに切り替える。
さらに、CCCはAHVとADDとの通信を管理し、複雑な状況を自律的に処理できない場合に、AHVのフェイルオペレーショナルソリューションを提供する。
AHVのために開発されたランタイム監視の概念は、2022年にハンブルクで実証された。
得られた結果と学んだ教訓について報告する。 Last-mile delivery of goods has gained a lot of attraction during the COVID-19 pandemic. However, current package delivery processes often lead to parking in the second lane, which in turn has negative effects on the urban environment in which the deliveries take place, i.e., traffic congestion and safety issues for other road users. To tackle these challenges, an effective autonomous delivery system is required that guarantees efficient, flexible and safe delivery of goods. The project LogiSmile, co-funded by EIT Urban Mobility, pilots an autonomous delivery vehicle dubbed the Autonomous Hub Vehicle (AHV) that works in cooperation with a small autonomous robot called the Autonomous Delivery Device (ADD). With the two cooperating robots, the project LogiSmile aims to find a possible solution to the challenges of urban goods distribution in congested areas and to demonstrate the future of urban mobility. As a member of Nieders\"achsische Forschungszentrum f\"ur Fahrzeugtechnik (NFF), the Institute for Software and Systems Engineering (ISSE) developed an integrated software safety architecture for runtime monitoring of the AHV, with (1) a dependability cage (DC) used for the on-board monitoring of the AHV, and (2) a remote command control center (CCC) which enables the remote off-board supervision of a fleet of AHVs. The DC supervises the vehicle continuously and in case of any safety violation, it switches the nominal driving mode to degraded driving mode or fail-safe mode. Additionally, the CCC also manages the communication of the AHV with the ADD and provides fail-operational solutions for the AHV when it cannot handle complex situations autonomously. The runtime monitoring concept developed for the AHV has been demonstrated in 2022 in Hamburg. We report on the obtained results and on the lessons learned. | 翻訳日:2023-10-23 17:53:00 公開日:2023-07-10 |
# アプリレビューにおける説明の必要性:分類と自動検出 Explanation Needs in App Reviews: Taxonomy and Automated Detection ( http://arxiv.org/abs/2307.04367v1 ) ライセンス: Link先を確認 | Max Unterbusch, Mersedeh Sadeghi, Jannik Fischbach, Martin Obaidi, Andreas Vogelsang | (参考訳) システムの振る舞いをユーザに説明できる機能である説明可能性(Explainability)は、ソフトウェア集約システムの重要な品質となっている。
最近の研究は、様々なアルゴリズムパラダイム(機械学習、自己適応システムなど)の説明を生成する手法に焦点を当てている。
どのような状況や振る舞いを説明すべきかについては,比較的少ない作業です。
また、説明可能性要件を引き出すためのサポートがない。
本稿では,アプリレビューにおけるユーザによる説明の必要性について検討する。
8つのアプリから1,730のアプリレビューを手作業でコーディングし、説明要求の分類を導きました。
また、アプリレビューで説明のニーズを自動的に識別するいくつかのアプローチも検討しています。
当社のベスト分類器は、重み付きf-scoreが86%の4つの異なるアプリの486の未確認レビューにおける説明ニーズを特定します。
私たちの仕事は、ユーザの説明ニーズをよりよく理解するのに役立ちます。
自動化ツールは、エンジニアがこれらのニーズに集中し、最終的に有効な説明ニーズを導き出すのに役立つ。 Explainability, i.e. the ability of a system to explain its behavior to users, has become an important quality of software-intensive systems. Recent work has focused on methods for generating explanations for various algorithmic paradigms (e.g., machine learning, self-adaptive systems). There is relatively little work on what situations and types of behavior should be explained. There is also a lack of support for eliciting explainability requirements. In this work, we explore the need for explanation expressed by users in app reviews. We manually coded a set of 1,730 app reviews from 8 apps and derived a taxonomy of Explanation Needs. We also explore several approaches to automatically identify Explanation Needs in app reviews. Our best classifier identifies Explanation Needs in 486 unseen reviews of 4 different apps with a weighted F-score of 86%. Our work contributes to a better understanding of users' Explanation Needs. Automated tools can help engineers focus on these needs and ultimately elicit valid Explanation Needs. | 翻訳日:2023-10-23 17:52:23 公開日:2023-07-10 |
# 大規模言語モデルは優れたプロパティベースのテストを書けるか? Can Large Language Models Write Good Property-Based Tests? ( http://arxiv.org/abs/2307.04346v1 ) ライセンス: Link先を確認 | Vasudev Vikram, Caroline Lemieux, Rohan Padhye | (参考訳) PBT(Property-based Testing)は、ソフトウェアテスト研究コミュニティで確立された技術であるが、現実世界のソフトウェアでは依然として比較的使われていない。
プロパティベースのテストを書く際の問題点は、さまざまなランダム入力ジェネレータの実装と、テストする意味のあるプロパティの考え方である。
多数のライブラリAPIドキュメンテーションが利用可能であり、プロパティベースのテストの自然言語仕様として使用することができる。
大規模言語モデル(LLM)は、最近様々なコーディングタスクにおいて有望であることが示されているため、プロパティベースのテストの合成にLLMを使うことの可能性を探る。
提案手法は PBT-GPT であり,PLT に対して LLM を推進するための3つの戦略を提案する。
pbt-gptの各種故障モードを特徴付け, 自動合成特性評価手法を詳述した。
PBT-GPTは、サンプルPythonライブラリAPIに関する予備研究で、$\texttt{numpy}$, $\texttt{networkx}$, $\texttt{datetime}$で有望な結果を達成した。 Property-based testing (PBT), while an established technique in the software testing research community, is still relatively underused in real-world software. Pain points in writing property-based tests include implementing diverse random input generators and thinking of meaningful properties to test. Developers, however, are more amenable to writing documentation; plenty of library API documentation is available and can be used as natural language specifications for property-based tests. As large language models (LLMs) have recently shown promise in a variety of coding tasks, we explore the potential of using LLMs to synthesize property-based tests. We call our approach PBT-GPT, and propose three different strategies of prompting the LLM for PBT. We characterize various failure modes of PBT-GPT and detail an evaluation methodology for automatically synthesized property-based tests. PBT-GPT achieves promising results in our preliminary studies on sample Python library APIs in $\texttt{numpy}$, $\texttt{networkx}$, and $\texttt{datetime}$. | 翻訳日:2023-10-23 17:52:07 公開日:2023-07-10 |
# ソースコード中のセキュリティ制御を識別する新しいアプローチ A Novel Approach to Identify Security Controls in Source Code ( http://arxiv.org/abs/2307.05605v1 ) ライセンス: Link先を確認 | Ahmet Okutan, Ali Shokri, Viktoria Koscinski, Mohamad Fazelinia, Mehdi Mirakhorli | (参考訳) セキュリティ・バイ・デザイン(Secure by Design)は、ソフトウェアシステムがサイバー攻撃に弱いことを保証する主要な開発手法となっている。
設計上の重大な欠陥を避けるためには,アーキテクチャ上のセキュリティコントロールを,ソフトウェア開発ライフサイクル上で注意深く監視する必要がある。
残念なことに、機能要件は通常セキュリティ機能の邪魔をし、開発チームは重要なセキュリティ要件に正しく対処できない可能性がある。
ソフトウェアプロジェクトで戦術関連コードを識別することで、セキュリティコントロールの実装の効率的なレビューとレジリエントなソフトウェアアーキテクチャが可能になる。
本稿では,StackOverflowのQ&AプラットフォームのオープンAPIから,関連するコードスニペットと無関係のコードスニペットを抽出して,一般的に使用されているセキュリティコントロールの包括的なリストを列挙する。
最新のNLP技術であるBERT(Bidirectional Encoder Representations from Transformers)とTactic Detectorを使って、セキュリティコントロールを実装するコード片を高い信頼性で識別できることを示しています。
その結果、stackoverflowから派生した戦術関連コードスニペットと非関連コードスニペットをトレーニングしたモデルでは、f-measure値が0.9以上の戦術関連コードピースを識別できることがわかった。 Secure by Design has become the mainstream development approach ensuring that software systems are not vulnerable to cyberattacks. Architectural security controls need to be carefully monitored over the software development life cycle to avoid critical design flaws. Unfortunately, functional requirements usually get in the way of the security features, and the development team may not correctly address critical security requirements. Identifying tactic-related code pieces in a software project enables an efficient review of the security controls' implementation as well as a resilient software architecture. This paper enumerates a comprehensive list of commonly used security controls and creates a dataset for each one of them by pulling related and unrelated code snippets from the open API of the StackOverflow question and answer platform. It uses the state-of-the-art NLP technique Bidirectional Encoder Representations from Transformers (BERT) and the Tactic Detector from our prior work to show that code pieces that implement security controls could be identified with high confidence. The results show that our model trained on tactic-related and unrelated code snippets derived from StackOverflow is able to identify tactic-related code pieces with F-Measure values above 0.9. | 翻訳日:2023-10-23 17:43:44 公開日:2023-07-10 |
# お互いから学ぶ: アーキテクチャ上のミスは業界でどのように起こるのか? Learning From Each Other: How Are Architectural Mistakes Communicated in Industry? ( http://arxiv.org/abs/2307.05575v1 ) ライセンス: Link先を確認 | Marion Wiese, Axel-Frederik Brand, Andr\'e van Hoorn | (参考訳) コンテキスト。
自身の経験と誤った決定は、ソフトウェアアーキテクトにとって重要な情報源となり得る。
他のアーキテクトの経験やミスも貴重な情報ソースになり得る。
ゴール。
ソフトウェアアーキテクチャに関する誤った決定、すなわち誤りに関する知識が実際に適切に共有されていないという仮定の下では、この作業はソフトウェアアーキテクトによるこれらのミスの処理と特にコミュニケーションを定性的に調査する。
方法。
そこで、さまざまなドメインの10人のドイツのソフトウェアアーキテクトにインタビューを行った。
結果だ
ソフトウェアアーキテクトのアーキテクチャ上のミスの定義、これらのミスの処理、そしてこれらのミスに関するコミュニケーション戦略を特定しました。
アーキテクトは、主にプロジェクトチーム内でミスを伝え、企業内や組織間ではほとんどコミュニケーションをとらないことが分かりました。
結論だ
学習とミスの防止をより効果的にするための戦略を考案した。
アーキテクトのピアグループを超えて経験や知識を共有するためには、企業は間違いをより意識的に議論し、ミスをオープンに議論できる環境を構築するために、より多くの努力を払う必要がある。 Context. Own experiences and faulty decisions can be an important source of information for software architects. The experiences and mistakes of other architects can also be valuable information sources. Goal. Under the assumption that the knowledge about faulty decisions, i.e., mistakes, regarding software architecture is not shared adequately in practice, this work qualitatively investigates the handling and particularly communication of those mistakes by software architects. Method. We conducted a grounded-theory study in which we interviewed ten German software architects from various domains. Results. We identified software architects' definitions of architectural mistakes, their handling of these mistakes, and their preferred communication strategies regarding these mistakes. We found that architects communicate mistakes mainly within their project teams and seldom within or across companies. Conclusions. We derived strategies to make learning and prevention of mistakes more effective. To share experiences and knowledge beyond architects' peer groups, companies should invest more effort in discussing mistakes more consciously and create an environment where mistakes can be discussed openly. | 翻訳日:2023-10-23 17:43:23 公開日:2023-07-10 |
# NLPとオントロジーに基づく知識グラフを用いたクラウドレンダーファームサービスディスカバリ Cloud Render Farm Services Discovery Using NLP And Ontology Based Knowledge Graph ( http://arxiv.org/abs/2307.13604v1 ) ライセンス: Link先を確認 | Ruby Annette, Aisha Banu, Sharon Priya, Subash Chandran | (参考訳) cloud render farm servicesはアニメーションドメイン固有のクラウドサービスであるplatform-as-a-service(paas)タイプのクラウドサービスで、アニメーションファイルをレンダリングするための完全なプラットフォームを提供する。
しかし、コスト効率が高く、アニメーションソフトウェアやプラグインなど、ほぼすべてのプロジェクトで変更される機能要件に適合するレンダリングファームサービスを識別することは難しい。
本研究は,クラウドレンダリングファームサービスのためのオントロジーベースのサービスディスカバリエンジンRenderSelectを提案する。
クラウドレンダリングファームオントロジーは、クラウドレンダリングファームサービス間の関係を意味的に定義する。
知識に基づく推論アルゴリズム、すなわち概念類似性推論、等価推論および数値類似性推論を適用し、クラウドサービス間の類似性を決定する。
サービスディスカバリエンジンは、3つの異なるシナリオでサービスを見つけるために評価されました。
a) オントロジーの助けを借りて
b) オントロジーの助けなしに,かつ
c) 共通の検索エンジンをインターネット上で使用すること。
その結果,クラウド用に特別に設計されたサービスディスカバリエンジンでは,オントロジーを用いた農業サービスが他の2つよりも大幅に性能が向上していることがわかった。 Cloud render farm services are the animation domain specific cloud services Platform-as-a-Service (PaaS) type of cloud services that provides a complete platform to render the animation files. However, identifying the render farm services that is cost effective and also matches the functional requirements that changes for almost every project like the animation software, plug-ins required etc., is a challenge. This research work proposes an ontology-based service discovery engine named RenderSelect for the cloud render farm services. The cloud render farm ontology semantically defines the relationship among the cloud render farm services. The knowledge-based reasoning algorithms namely, the Concept similarity reasoning, Equivalent reasoning and the Numerical similarity reasoning have been applied to determine the similarity among the cloud services. The service discovery engine was evaluated for finding the services under three different scenarios namely a) with help of the ontology, b) without the help of the ontology and c) using a common search engine on the internet. The results show that the proposed service discovery engine which is specifically designed for the cloud render farm services using the ontology performs significantly better than the other two. | 翻訳日:2023-07-30 04:06:59 公開日:2023-07-10 |
# 第1回社会ロボットパーソナライゼーションワークショップの開催にあたって Proceeding of the 1st Workshop on Social Robots Personalisation At the crossroads between engineering and humanities (CONCATENATE) ( http://arxiv.org/abs/2307.12777v1 ) ライセンス: Link先を確認 | Imene Tarakli, Georgios Angelopoulos, Mehdi Hellou, Camille Vindolet, Boris Abramovic, Rocco Limongelli, Dimitri Lacroix, Andrea Bertolini, Silvia Rossi, Alessandro Di Nuovo, Angelo Cangelosi, Gordon Cheng | (参考訳) 現在、ロボットはより物理的、認知的、社会的に人と対話することが期待されている。
彼らは様々な行動を持つ個人と一緒に予測不能な状況に適応すべきである。
そのため、個人化は、特定のユーザのニーズや好みに応じて行動し、人間にとって自然で透明なロボット行動を達成することができるため、社会ロボットにとって貴重な属性である。
正しく実装されれば、パーソナライズがソーシャルロボティクスの大規模採用の鍵となるかもしれない。
しかし、様々な分野の専門知識を活用してロボット工学の境界を広げる必要があるため、パーソナライゼーションの達成は困難である。
実際、パーソナライズされたロボットは、適応プロセスへの関与を考慮してユーザーインタラクションを分析し、モデル化する必要がある。
また、個人化されたHRIの倫理的・社会的側面に対処し、包括的かつ多様な相互作用を達成し、ユーザとの対話において詐欺や誤った信頼を避ける必要がある。
同時に、政策立案者は短期的かつ長期的適応的HRIの観点から規制を確保する必要がある。
本ワークショップは,ロボットのパーソナライゼーションに関する学際的な議論を提起することを目的とする。
異なる分野の研究者をまとめてパーソナライズのためのガイドラインを提案し、どのように定義するか、どのように達成するか、法的および倫理的要件に合うようにガイドするかという問題に対処することを目的としている。 Nowadays, robots are expected to interact more physically, cognitively, and socially with people. They should adapt to unpredictable contexts alongside individuals with various behaviours. For this reason, personalisation is a valuable attribute for social robots as it allows them to act according to a specific user's needs and preferences and achieve natural and transparent robot behaviours for humans. If correctly implemented, personalisation could also be the key to the large-scale adoption of social robotics. However, achieving personalisation is arduous as it requires us to expand the boundaries of robotics by taking advantage of the expertise of various domains. Indeed, personalised robots need to analyse and model user interactions while considering their involvement in the adaptative process. It also requires us to address ethical and socio-cultural aspects of personalised HRI to achieve inclusive and diverse interaction and avoid deception and misplaced trust when interacting with the users. At the same time, policymakers need to ensure regulations in view of possible short-term and long-term adaptive HRI. This workshop aims to raise an interdisciplinary discussion on personalisation in robotics. It aims at bringing researchers from different fields together to propose guidelines for personalisation while addressing the following questions: how to define it - how to achieve it - and how it should be guided to fit legal and ethical requirements. | 翻訳日:2023-07-30 04:06:19 公開日:2023-07-10 |
# コンピュータ教育におけるLLMテキストの検出:ChatGPT症例の比較検討 Detecting LLM-Generated Text in Computing Education: A Comparative Study for ChatGPT Cases ( http://arxiv.org/abs/2307.07411v1 ) ライセンス: Link先を確認 | Michael Sheinman Orenstrakh, Oscar Karnalim, Carlos Anibal Suarez, Michael Liut | (参考訳) 近年のLarge Language Models (LLMs) の改良と広範囲な利用により、教育における学術的完全性への深刻な脅威となっている。
現代の LLM 生成テキスト検出器は、あるテキストが LLM 生成であるかどうかを評価するサービスを備えた教育者を提供することで、この問題に対処しようとする。
本研究では,ChatGPT作成前に,コンピュータサイエンスの学生から124件の応募を収集した。
そして40のChatGPTを作成した。
このデータを用いて, 精度, 偽陽性, レジリエンスの尺度を用いて, 8種類のllm生成テキスト検出器を評価した。
本研究の目的は、LCMが生成したテキスト検出装置の動作と機能しない機能についてコミュニティに通知することであり、また、教育者がコースにおける学術的整合性をよりよく維持するための洞察を提供することである。
以上の結果から, CopyLeaks は LLM 生成テキスト検出器であり, GPTKit は偽陽性の低減に最適な LLM 生成テキスト検出器であり, GLTR は LLM 生成テキスト検出器であることがわかった。
また, GPTZero が生成した52件の偽陽性 (114件) についても懸念を表明する。
最後に、全てのLLM生成テキスト検出器は、コード、他の言語(英語以外)、およびパラフレーズツール(QuillBotなど)の使用後の精度が低いことに留意する。
現代の検出器は、学術的完全性を維持するための完全なソリューションを提供するために、まだ改善が必要である。
さらに、スムーズなapi統合を促進し、機能の明確なドキュメントとモデルの理解力を提供し、より一般的な言語をサポートすることで、ユーザビリティを向上させることができる。 Due to the recent improvements and wide availability of Large Language Models (LLMs), they have posed a serious threat to academic integrity in education. Modern LLM-generated text detectors attempt to combat the problem by offering educators with services to assess whether some text is LLM-generated. In this work, we have collected 124 submissions from computer science students before the creation of ChatGPT. We then generated 40 ChatGPT submissions. We used this data to evaluate eight publicly-available LLM-generated text detectors through the measures of accuracy, false positives, and resilience. The purpose of this work is to inform the community of what LLM-generated text detectors work and which do not, but also to provide insights for educators to better maintain academic integrity in their courses. Our results find that CopyLeaks is the most accurate LLM-generated text detector, GPTKit is the best LLM-generated text detector to reduce false positives, and GLTR is the most resilient LLM-generated text detector. We also express concerns over 52 false positives (of 114 human written submissions) generated by GPTZero. Finally, we note that all LLM-generated text detectors are less accurate with code, other languages (aside from English), and after the use of paraphrasing tools (like QuillBot). Modern detectors are still in need of improvements so that they can offer a full-proof solution to help maintain academic integrity. Further, their usability can be improved by facilitating a smooth API integration, providing clear documentation of their features and the understandability of their model(s), and supporting more commonly used languages. | 翻訳日:2023-07-23 12:38:50 公開日:2023-07-10 |
# RadSum23におけるKU-DMIS-MSRA:放射線学レポート要約のための事前訓練型ビジョンランゲージモデル KU-DMIS-MSRA at RadSum23: Pre-trained Vision-Language Model for Radiology Report Summarization ( http://arxiv.org/abs/2307.07409v1 ) ライセンス: Link先を確認 | Gangwoo Kim, Hajung Kim, Lei Ji, Seongsu Bae, Chanhwi Kim, Mujeen Sung, Hyunjae Kim, Kun Yan, Eric Chang, Jaewoo Kang | (参考訳) 本稿では,胸部X線領域に対する新しい訓練済み視覚言語モデル(VLM)であるCheXOFAを紹介する。
我々のモデルは、まず、胸部X線領域に移る前に、一般領域内の様々なマルチモーダルデータセットで事前訓練される。
顕著なVLMに続いて、ドメイン固有のタスクを単純なシーケンス・ツー・シーケンススキーマに統合する。
これにより、ドメイン内の限られたリソースから必要な知識とスキルを効果的に学習することができる。
BioNLP共有タスクが提供するベンチマークデータセットの優れたパフォーマンスを示すため、モデルは複数のタスクやドメインにわたるトレーニングの恩恵を受けています。
アンサンブルやファクトキャリブレーションなどの微妙な手法により,本システムは隠れテストセットのRadSum23リーダーボードで1位を獲得している。 In this paper, we introduce CheXOFA, a new pre-trained vision-language model (VLM) for the chest X-ray domain. Our model is initially pre-trained on various multimodal datasets within the general domain before being transferred to the chest X-ray domain. Following a prominent VLM, we unify various domain-specific tasks into a simple sequence-to-sequence schema. It enables the model to effectively learn the required knowledge and skills from limited resources in the domain. Demonstrating superior performance on the benchmark datasets provided by the BioNLP shared task, our model benefits from its training across multiple tasks and domains. With subtle techniques including ensemble and factual calibration, our system achieves first place on the RadSum23 leaderboard for the hidden test set. | 翻訳日:2023-07-23 12:38:21 公開日:2023-07-10 |
# 音素リトライバル;音声認識;母音認識 Phoneme-retrieval; voice recognition; vowels recognition ( http://arxiv.org/abs/2307.07407v1 ) ライセンス: Link先を確認 | Brunello Tirozzi, Orchidea Maria Lecian | (参考訳) ネットワーク構築の特定の方法による音素リトライバル手法が提案されている。
ニューロンの初期セットが与えられる。
これらのニューロンの数は、データの典型的な構造の数とほぼ等しい。
例えば、ネットワークが音声検索のために構築されている場合、ニューロンの数は、特定の人物が属する社会集団によって話される言語のアルファベットの特徴音素の数に等しい必要がある。
通常、このタスクは非常に複雑で、ネットワークは学習に使用されるサンプルに批判的に依存する。
ネットワークが画像検索のために構築されている場合、取得されるデータが特定の画像の集合に属する場合にのみ機能する。
ネットワークが音声認識のために構築されている場合、特定の単語セットでのみ動作する。
典型的な例は飛行機の飛行に使用される言葉である。
例えば、「航空機は東へ120度回転すべき」というようなコマンドは、適切な学習手順が使われる場合、ネットワークによって容易に認識できる。 A phoneme-retrieval technique is proposed, which is due to the particular way of the construction of the network. An initial set of neurons is given. The number of these neurons is approximately equal to the number of typical structures of the data. For example if the network is built for voice retrieval then the number of neurons must be equal to the number of characteristic phonemes of the alphabet of the language spoken by the social group to which the particular person belongs. Usually this task is very complicated and the network can depend critically on the samples used for the learning. If the network is built for image retrieval then it works only if the data to be retrieved belong to a particular set of images. If the network is built for voice recognition it works only for some particular set of words. A typical example is the words used for the flight of airplanes. For example a command like the "airplane should make a turn of 120 degrees towards the east" can be easily recognized by the network if a suitable learning procedure is used. | 翻訳日:2023-07-23 12:38:09 公開日:2023-07-10 |
# 世界気候協力のためのai2023コンペティション AI For Global Climate Cooperation 2023 Competition Proceedings ( http://arxiv.org/abs/2307.06951v1 ) ライセンス: Link先を確認 | Yoshua Bengio, Prateek Gupta, Lu Li, Soham Phade, Sunil Srinivasa, Andrew Williams, Tianyu Zhang, Yang Zhang, Stephan Zheng | (参考訳) 国際社会は気候変動を緩和し、経済成長を維持するために協力しなくてはならない。
しかし、国際気候協定の遵守を保証する世界的な権威がないため、協力は困難である。
aiと気候経済シミュレーションを組み合わせることは、協力を促進しインセンティブを与える交渉プロトコルや気候協定など、国際的なフレームワークを設計するための有望なソリューションを提供する。
さらに、これらの枠組みは、気候経済のダイナミクスと戦略行動を考慮して、政策目標の達成と継続的なコミットメントも行なわなければならない。
これらの課題は、機械学習、経済学、気候科学、法律、政策、倫理、その他の分野にわたる学際的なアプローチを必要とする。
この目的に向けて、我々は、AI駆動統合アセスメントモデル(IAM)であるRICE-Nに基づいて、国際フレームワークの提案と分析を行うミラコンペティションであるGlobal Climate CooperationのためのAIを組織した。
特に、RICE-NはAIエージェントを使用した地域意思決定のモデリングをサポートする。
さらに、IAMはこれらの決定の気候・経済的な影響を未来にモデル化する。
第1トラックはパフォーマンス指標のみに焦点を当てていたが、第2トラックに提出された提案は定量的にも質的にも評価された。
組み合わせに焦点を当てた定量的評価
(i)世界的な気温上昇の緩和の程度
(ii)経済生産性の上昇。
一方,法学,政策学,社会学,経済学,環境科学における人間専門家の学際的パネルでは,その解を定性的に評価した。
特に、パネルは、プロトコルの有効性、単純さ、実現可能性、倫理、および気候の正義の概念を検討した。
第3トラックでは、参加者はRICE-Nの批判と改善を依頼された。 The international community must collaborate to mitigate climate change and sustain economic growth. However, collaboration is hard to achieve, partly because no global authority can ensure compliance with international climate agreements. Combining AI with climate-economic simulations offers a promising solution to design international frameworks, including negotiation protocols and climate agreements, that promote and incentivize collaboration. In addition, these frameworks should also have policy goals fulfillment, and sustained commitment, taking into account climate-economic dynamics and strategic behaviors. These challenges require an interdisciplinary approach across machine learning, economics, climate science, law, policy, ethics, and other fields. Towards this objective, we organized AI for Global Climate Cooperation, a Mila competition in which teams submitted proposals and analyses of international frameworks, based on (modifications of) RICE-N, an AI-driven integrated assessment model (IAM). In particular, RICE-N supports modeling regional decision-making using AI agents. Furthermore, the IAM then models the climate-economic impact of those decisions into the future. Whereas the first track focused only on performance metrics, the proposals submitted to the second track were evaluated both quantitatively and qualitatively. The quantitative evaluation focused on a combination of (i) the degree of mitigation of global temperature rise and (ii) the increase in economic productivity. On the other hand, an interdisciplinary panel of human experts in law, policy, sociology, economics and environmental science, evaluated the solutions qualitatively. In particular, the panel considered the effectiveness, simplicity, feasibility, ethics, and notions of climate justice of the protocols. In the third track, the participants were asked to critique and improve RICE-N. | 翻訳日:2023-07-23 12:37:54 公開日:2023-07-10 |
# 工学における知識統合機械学習への道 Pathway toward prior knowledge-integrated machine learning in engineering ( http://arxiv.org/abs/2307.06950v1 ) ライセンス: Link先を確認 | Xia Chen, Philipp Geyer | (参考訳) デジタル化のトレンドとデータボリュームの急増にもかかわらず、第一原理モデル(論理駆動、物理ベース、ルールベース、知識ベースモデルとも呼ばれる)とデータ駆動アプローチは並列に存在し、シンボルとコネクショナリズムに関するAI論争を反映している。
データ駆動プロセスにおけるドメイン知識の伝達と利用を両面に統合するプロセス開発の研究は稀である。
本研究は、知識表現における情報不確実性源の検討と3層知識統合機械学習パラダイムによる知識分解の探求という2つの組織における、多分野の分野専門職を機械認識可能なデータ駆動プロセスに統合する取り組みと普及の傾向を強調する。
このアプローチは、エンジニアリング領域におけるホリストと還元主義の視点のバランスをとる。 Despite the digitalization trend and data volume surge, first-principles models (also known as logic-driven, physics-based, rule-based, or knowledge-based models) and data-driven approaches have existed in parallel, mirroring the ongoing AI debate on symbolism versus connectionism. Research for process development to integrate both sides to transfer and utilize domain knowledge in the data-driven process is rare. This study emphasizes efforts and prevailing trends to integrate multidisciplinary domain professions into machine acknowledgeable, data-driven processes in a two-fold organization: examining information uncertainty sources in knowledge representation and exploring knowledge decomposition with a three-tier knowledge-integrated machine learning paradigm. This approach balances holist and reductionist perspectives in the engineering domain. | 翻訳日:2023-07-23 12:37:10 公開日:2023-07-10 |
# PapagAI:リフレクティブ・エッセイのための自動フィードバック PapagAI:Automated Feedback for Reflective Essays ( http://arxiv.org/abs/2307.07523v1 ) ライセンス: Link先を確認 | Veronika Solopova, Adrian Gruszczynski, Eiad Rostom, Fritz Cremer, Sascha Witte, Chengming Zhang, Fernando Ramos L\'opez Lea Pl\"o{\ss}l, Florian Hofmann, Ralf Romeike, Michaela Gl\"aser-Zikuda, Christoph Benzm\"uller and Tim Landgraf | (参考訳) リフレクティブ・プラクティス(英: Reflective Practice)は、高等教育における教員の定期的な演習である。
通常、講師は個別のフィードバックを提供することが期待されており、定期的に行うのが困難な作業となる。
本稿では,ドクトクティック理論に基づく初のオープンソース自動フィードバックツールを提案し,ハイブリッドAIシステムとして実装する。
本稿では, 現状の大規模言語モデルと比較して, システムの利点と欠点について述べる。
本研究の主な目的は,学生の学習成果の向上と,講師の指導活動を補完することである。 Written reflective practice is a regular exercise pre-service teachers perform during their higher education. Usually, their lecturers are expected to provide individual feedback, which can be a challenging task to perform on a regular basis. In this paper, we present the first open-source automated feedback tool based on didactic theory and implemented as a hybrid AI system. We describe the components and discuss the advantages and disadvantages of our system compared to the state-of-art generative large language models. The main objective of our work is to enable better learning outcomes for students and to complement the teaching activities of lecturers. | 翻訳日:2023-07-23 12:15:37 公開日:2023-07-10 |
# 機械学習のための高忠実性プラズマシミュレーションにおける磁場トポロジーのグラフ表現 Graph Representation of the Magnetic Field Topology in High-Fidelity Plasma Simulations for Machine Learning Applications ( http://arxiv.org/abs/2307.09469v1 ) ライセンス: Link先を確認 | Ioanna Bouri, Fanni Franssila, Markku Alho, Giulia Cozzani, Ivan Zaitsev, Minna Palmroth, Teemu Roos | (参考訳) シミュレーションプラズマ中の磁場のトポロジカル解析は、様々な物理現象を幅広い設定で研究することができる。
そのような応用の1つは、磁場トポロジーのダイナミクスに関連する現象である磁気リコネクションであり、3次元で検出および特徴づけが難しい。
三次元磁気ベクトル場のトポロジカルデータ解析と時空間グラフ表現のためのスケーラブルパイプラインを提案する。
我々は,地球近傍空間に対する超コンピュータスケールvlasov理論に基づくシミュレーションであるvlasiatorによって生成された地球磁気圏のシミュレーションについて,本手法を実証する。
この研究の目的は、機械学習コミュニティに対して、グラフベースの機械学習アプローチを探求し、広範囲にわたる潜在的な影響に対処することである。 Topological analysis of the magnetic field in simulated plasmas allows the study of various physical phenomena in a wide range of settings. One such application is magnetic reconnection, a phenomenon related to the dynamics of the magnetic field topology, which is difficult to detect and characterize in three dimensions. We propose a scalable pipeline for topological data analysis and spatiotemporal graph representation of three-dimensional magnetic vector fields. We demonstrate our methods on simulations of the Earth's magnetosphere produced by Vlasiator, a supercomputer-scale Vlasov theory-based simulation for near-Earth space. The purpose of this work is to challenge the machine learning community to explore graph-based machine learning approaches to address a largely open scientific problem with wide-ranging potential impact. | 翻訳日:2023-07-23 12:07:09 公開日:2023-07-10 |
# 視覚の創発を促進する重要な手がかり:3つの心理実験 Important Clues that Facilitate Visual Emergence: Three Psychological Experiments ( http://arxiv.org/abs/2307.10194v1 ) ライセンス: Link先を確認 | Jingmeng Li, Hui Wei | (参考訳) 視覚の出現は、局所的な信号をグループ化し再編成した後、視覚システムが全体的知覚を得る現象である。
ダルメシア犬の写真は、視覚の出現を説明するのに使われていることで知られている。
このタイプの画像は、離散的な黒いスペックル(スペックル)のセットで構成されており、新興のイメージと呼ばれる。
ダルマチア犬の中で犬を見つけることはできないし、できる限りの時間も様々だ。
ゲシュタルト理論は知覚的組織をいくつかの原則にまとめているが、これらの原則が新興画像の知覚にどのように影響するかは明らかになっていない。
そこで本研究では、新興画像の知覚に影響を与える要因を探索する3つの心理的実験を設計した。
第一に,局所領域におけるスペックルの密度といくつかのキースペックルの配置が,新興事例の知覚において重要な役割を担っていることを見出した。
この2つの因子を特徴付けるためにアルゴリズムのパラメータを設定した。
次に,アルゴリズムを通して多角化創発テスト画像(etis)を自動的に生成し,その効果を2つの実験で検証した。 Visual emergence is the phenomenon in which the visual system obtains a holistic perception after grouping and reorganizing local signals. The picture Dalmatian dog is known for its use in explaining visual emergence. This type of image, which consists of a set of discrete black speckles (speckles), is called an emerging image. Not everyone can find the dog in Dalmatian dog, and among those who can, the time spent varies greatly. Although Gestalt theory summarizes perceptual organization into several principles, it remains ambiguous how these principles affect the perception of emerging images. This study, therefore, designed three psychological experiments to explore the factors that influence the perception of emerging images. In the first, we found that the density of speckles in the local area and the arrangements of some key speckles played a key role in the perception of an emerging case. We set parameters in the algorithm to characterize these two factors. We then automatically generated diversified emerging-test images (ETIs) through the algorithm and verified their effectiveness in two subsequent experiments. | 翻訳日:2023-07-23 11:38:31 公開日:2023-07-10 |
# StyleGAN2を用いた医用画像のアウト・オブ・ディストリビューション検出 StyleGAN2-based Out-of-Distribution Detection for Medical Imaging ( http://arxiv.org/abs/2307.10193v1 ) ライセンス: Link先を確認 | McKell Woodland, John Wood, Caleb O'Connor, Ankit B. Patel, Kristy K. Brock | (参考訳) ディープラーニングベースのモデルの臨床展開における障壁の1つは、与えられたモデルのトレーニング分布のはるかに外にある実行時イメージの存在である。
我々は,gan(generative adversarial network)を用いて,これらのod(out-of-distribution)画像を検出することを目的とした。
トレーニングデータセットは,456例から3,234例の肝内ct(ct)スキャンから得られた。
OOD検査では,脳,頭頸部,肺,頸部,異常肝のCT像が得られた。
トレーニング分布をモデル化するためにstylegan2-adaアーキテクチャが採用された。
画像はバックプロパゲーションを用いて再構成された。
また, 平均二乗誤差, 構造類似度指標を用いて再現性を評価した。
OOD検出は受信機動作特性曲線(AUROC)に基づいて評価した。
AUROCの90%以上で肝と非肝CTの鑑別を行った。
また、針や腹水などの肝臓の遺物を完全に再建することはできなかった。 One barrier to the clinical deployment of deep learning-based models is the presence of images at runtime that lie far outside the training distribution of a given model. We aim to detect these out-of-distribution (OOD) images with a generative adversarial network (GAN). Our training dataset was comprised of 3,234 liver-containing computed tomography (CT) scans from 456 patients. Our OOD test data consisted of CT images of the brain, head and neck, lung, cervix, and abnormal livers. A StyleGAN2-ADA architecture was employed to model the training distribution. Images were reconstructed using backpropagation. Reconstructions were evaluated using the Wasserstein distance, mean squared error, and the structural similarity index measure. OOD detection was evaluated with the area under the receiver operating characteristic curve (AUROC). Our paradigm distinguished between liver and non-liver CT with greater than 90% AUROC. It was also completely unable to reconstruct liver artifacts, such as needles and ascites. | 翻訳日:2023-07-23 11:38:14 公開日:2023-07-10 |
# デジタル鑑識のためのChatGPT:善、悪、そして未知 ChatGPT for Digital Forensic Investigation: The Good, The Bad, and The Unknown ( http://arxiv.org/abs/2307.10195v1 ) ライセンス: Link先を確認 | Mark Scanlon, Frank Breitinger, Christopher Hargreaves, Jan-Niclas Hilgert, John Sheppard | (参考訳) 様々な分野へのChatGPT(GPT-3.5, GPT-4)の破壊的応用は、科学界や社会全体において多くの議論の的となっている。
LLM(Large Language Models)、例えばBERT、Bard、Generative Pre-trained Transformer(GPT)、LLaMA(LLaMA)などは、ユーザから命令を受け、あるいはプロンプトを受け取り、非常に大量のテキストベースのトレーニングデータに基づいて回答とソリューションを生成することができる。
本稿では,ChatGPTがデジタル法医学の分野に与える影響,特に最新の事前学習LDMであるGPT-4について検討する。
アーティファクト理解,エビデンス検索,コード生成,異常検出,インシデント応答,教育など,いくつかのデジタル法医学的ユースケースにおいて,その能力を評価するための一連の実験を行った。
これらのトピック全体で、その強みとリスクの概要が述べられ、多くの一般的な結論が導かれる。
本論文の結論は、デジタル法医学においてchatgptの低リスクな応用がいくつかあるが、証拠をサービスにアップロードする必要があるか、不正確な仮定、不正確性、間違いを識別するためにツールから求められているトピックに関する十分な知識を必要とするため、現時点では不適当である。
しかし、適切な知識を持つユーザには、いくつかの状況において有用な支援ツールとして機能することがある。 The disruptive application of ChatGPT (GPT-3.5, GPT-4) to a variety of domains has become a topic of much discussion in the scientific community and society at large. Large Language Models (LLMs), e.g., BERT, Bard, Generative Pre-trained Transformers (GPTs), LLaMA, etc., have the ability to take instructions, or prompts, from users and generate answers and solutions based on very large volumes of text-based training data. This paper assesses the impact and potential impact of ChatGPT on the field of digital forensics, specifically looking at its latest pre-trained LLM, GPT-4. A series of experiments are conducted to assess its capability across several digital forensic use cases including artefact understanding, evidence searching, code generation, anomaly detection, incident response, and education. Across these topics, its strengths and risks are outlined and a number of general conclusions are drawn. Overall this paper concludes that while there are some potential low-risk applications of ChatGPT within digital forensics, many are either unsuitable at present, since the evidence would need to be uploaded to the service, or they require sufficient knowledge of the topic being asked of the tool to identify incorrect assumptions, inaccuracies, and mistakes. However, to an appropriately knowledgeable user, it could act as a useful supporting tool in some circumstances. | 翻訳日:2023-07-23 11:26:24 公開日:2023-07-10 |
# 双方向積分近似による完全拡散反転 Exact Diffusion Inversion via Bi-directional Integration Approximation ( http://arxiv.org/abs/2307.10829v1 ) ライセンス: Link先を確認 | Guoqiang Zhang and J. P. Lewis and W. Bastiaan Kleijn | (参考訳) 近年, EDICT [36] や Null-text inversion [22] などの画像編集を可能にするために, DDIM の矛盾問題に対処する様々な手法が提案されている。
しかし、上記の手法は計算オーバーヘッドがかなり大きい。
本稿では,二方向積分近似 (bi-directional integration approximation, bdia) という新しい手法を提案する。
次の拡散状態 $\boldsymbol{z}_{i-1}$ at timestep $t_i$ と履歴情報 $(i,\boldsymbol{z}_i)$ と $(i+1,\boldsymbol{z}_{i+1})$ を推定する。
まず、推定されたガウスノイズ $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$ を取得し、次に次回の時間スロット$[t_i, t_{i-1}]$ と前回の時間スロット$[t_i, t_{t+1}]$ を後方方向に近似するためにDDIM更新手順を2回適用する。
以前の時間スロットのDDIMステップは、$\boldsymbol{z}_i$を計算する際に以前になされた積分近似を洗練するために使用される。
bdia-ddim の素晴らしい性質の一つは、$\boldsymbol{z}_{i-1}$ の更新式が $(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$ の線形結合であるということである。
これにより、$\boldsymbol{z}_{i+1}$が与えられた$(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$の正確な逆計算が可能になり、正確な拡散反転をもたらす。
画像再構成と画像編集の両方の実験を行い,確認した。
BDIAはDDIMに加えて他のODEソルバの性能向上にも応用できる。
本研究では,EDMサンプリング法にBDIAを適用することにより,CIFAR10よりも若干優れたFIDスコアが得られた。 Recently, different methods have been proposed to address the inconsistency issue of DDIM inversion to enable image editing, such as EDICT [36] and Null-text inversion [22]. However, the above methods introduce considerable computational overhead. In this paper, we propose a new technique, named bi-directional integration approximation (BDIA), to perform exact diffusion inversion with neglible computational overhead. Suppose we would like to estimate the next diffusion state $\boldsymbol{z}_{i-1}$ at timestep $t_i$ with the historical information $(i,\boldsymbol{z}_i)$ and $(i+1,\boldsymbol{z}_{i+1})$. We first obtain the estimated Gaussian noise $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$, and then apply the DDIM update procedure twice for approximating the ODE integration over the next time-slot $[t_i, t_{i-1}]$ in the forward manner and the previous time-slot $[t_i, t_{t+1}]$ in the backward manner. The DDIM step for the previous time-slot is used to refine the integration approximation made earlier when computing $\boldsymbol{z}_i$. One nice property with BDIA-DDIM is that the update expression for $\boldsymbol{z}_{i-1}$ is a linear combination of $(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$. This allows for exact backward computation of $\boldsymbol{z}_{i+1}$ given $(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$, thus leading to exact diffusion inversion. Experiments on both image reconstruction and image editing were conducted, confirming our statement. BDIA can also be applied to improve the performance of other ODE solvers in addition to DDIM. In our work, it is found that applying BDIA to the EDM sampling procedure produces slightly better FID score over CIFAR10. | 翻訳日:2023-07-23 11:09:01 公開日:2023-07-10 |
# 階層的変分オートエンコーダを用いたデータ駆動非線形パラメトリックモデルオーダー削減フレームワーク Data-driven Nonlinear Parametric Model Order Reduction Framework using Deep Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2307.06816v1 ) ライセンス: Link先を確認 | SiHun Lee, Sangmin Lee, Kijoo Jang, Haeseong Cho, and SangJoon Shin | (参考訳) 深層ニューラルネットワークを用いたデータ駆動パラメトリックモデルオーダー削減(MOR)手法を提案する。
本ネットワークは、最小二乗階層型変分オートエンコーダ(lsh-vae)であり、多数の自由度を有する非線形力学系のパラメトリック補間に対して非線形モーメントを行うことができる。
LSH-VAEは、階層的な深い構造とハイブリッドな重み付き確率損失関数という、既存のネットワークに対する2つの大きな変更を利用する。
その結果、従来の非線形MOR法、オートエンコーダ、変分オートエンコーダと比較して精度と安定性が大幅に向上した。
LSH-VAE のとき、ラテント多様体の球状線形補間に基づいてパラメトリック MOR フレームワークが提示される。
本フレームワークは3つの非線形および多物理力学系に対して検証および評価を行う。
まず, 流体-構造相互作用ベンチマーク問題を用いて, その効率と精度を評価する。
そして、非常に非線形なエアロ弾性現象であるリミットサイクル振動を解析する。
最後に, この枠組みを三次元流体流に適用し, かなりの数の自由度を効率的に解析する能力を示す。
LSH-VAEの性能は、広く使われている非線形MOR法、畳み込みオートエンコーダ、および$\beta$-VAEと比較することによって強調される。
本フレームワークは,従来手法に比べて精度が大幅に向上し,高速化率も高い。 A data-driven parametric model order reduction (MOR) method using a deep artificial neural network is proposed. The present network, which is the least-squares hierarchical variational autoencoder (LSH-VAE), is capable of performing nonlinear MOR for the parametric interpolation of a nonlinear dynamic system with a significant number of degrees of freedom. LSH-VAE exploits two major changes to the existing networks: a hierarchical deep structure and a hybrid weighted, probabilistic loss function. The enhancements result in a significantly improved accuracy and stability compared against the conventional nonlinear MOR methods, autoencoder, and variational autoencoder. Upon LSH-VAE, a parametric MOR framework is presented based on the spherically linear interpolation of the latent manifold. The present framework is validated and evaluated on three nonlinear and multiphysics dynamic systems. First, the present framework is evaluated on the fluid-structure interaction benchmark problem to assess its efficiency and accuracy. Then, a highly nonlinear aeroelastic phenomenon, limit cycle oscillation, is analyzed. Finally, the present framework is applied to a three-dimensional fluid flow to demonstrate its capability of efficiently analyzing a significantly large number of degrees of freedom. The performance of LSH-VAE is emphasized by comparing its results against that of the widely used nonlinear MOR methods, convolutional autoencoder, and $\beta$-VAE. The present framework exhibits a significantly enhanced accuracy to the conventional methods while still exhibiting a large speed-up factor. | 翻訳日:2023-07-14 14:19:34 公開日:2023-07-10 |
# UNIQORN: RDF知識グラフと自然言語テキストに関する統一質問 UNIQORN: Unified Question Answering over RDF Knowledge Graphs and Natural Language Text ( http://arxiv.org/abs/2108.08614v7 ) ライセンス: Link先を確認 | Soumajit Pramanik, Jesujoba Oluwadara Alabi, Rishiraj Saha Roy, Gerhard Weikum | (参考訳) 知識グラフやその他のRDFデータに対する質問応答は大幅に進歩しており、自然言語の質問やテレグラフのクエリに対する簡潔な回答を提供する多くの優れた技術が提供されている。
これらのシステムの一部には、回答プロセスのさらなる証拠としてテキストソースが組み込まれているが、テキストのみに存在する回答は計算できない。
逆に、IRおよびNLPコミュニティの手法はテキストによるQAに対処してきたが、そのようなシステムは意味データや知識をほとんど利用していない。
本稿では,RDFデータセットとテキストコーパス,あるいは個々のソースを併用した複雑な質問を統一的なフレームワークでシームレスに操作する手法を提案する。
我々の手法はUNIQORNと呼ばれ、細調整されたBERTモデルを用いてRDFデータおよび/またはテキストコーパスから質問関連エビデンスを検索し、コンテキストグラフをオンザフライで構築する。
結果として得られたグラフは、通常、全ての質問関連証拠を含むが、多くのノイズも含む。
UNIQORNは、この入力をグループステイナツリーのグラフアルゴリズムによって処理し、コンテキストグラフの最良の解候補を特定する。
複数の実体と関係を持つ複雑な問題に対するいくつかのベンチマーク実験の結果、UNIQORNは異種QAに対する最先端の手法を著しく上回ることを示した。
グラフベースの方法論は、完全な応答プロセスに対するユーザ解釈可能な証拠を提供する。 Question answering over knowledge graphs and other RDF data has been greatly advanced, with a number of good techniques providing crisp answers for natural language questions or telegraphic queries. Some of these systems incorporate textual sources as additional evidence for the answering process, but cannot compute answers that are present in text alone. Conversely, techniques from the IR and NLP communities have addressed QA over text, but such systems barely utilize semantic data and knowledge. This paper presents a method for complex questions that can seamlessly operate over a mixture of RDF datasets and text corpora, or individual sources, in a unified framework. Our method, called UNIQORN, builds a context graph on-the-fly, by retrieving question-relevant evidences from the RDF data and/or a text corpus, using fine-tuned BERT models. The resulting graph typically contains all question-relevant evidences but also a lot of noise. UNIQORN copes with this input by a graph algorithm for Group Steiner Trees, that identifies the best answer candidates in the context graph. Experimental results on several benchmarks of complex questions with multiple entities and relations, show that UNIQORN significantly outperforms state-of-the-art methods for heterogeneous QA. The graph-based methodology provides user-interpretable evidence for the complete answering process. | 翻訳日:2023-07-13 20:57:59 公開日:2023-07-10 |
# 頑健な主グラフ学習のための混合モデルの規則化 Regularization of Mixture Models for Robust Principal Graph Learning ( http://arxiv.org/abs/2106.09035v2 ) ライセンス: Link先を確認 | Tony Bonnaire, Aur\'elien Decelle, Nabila Aghanim | (参考訳) 混合モデルの正規化バージョンは、D$次元のデータ点の分布から主グラフを学習するために提案される。
リッジ検出のための多様体学習の特別な場合、基礎となる多様体はガウス群に先立って位相的に作用するグラフ構造としてモデル化でき、問題を最大後方推定にすることができると仮定する。
モデルのパラメータは期待最大化手順によって反復的に推定され、多項式時間に先立つ任意のグラフの収束を保証して計算効率のよい構造を学習する。
また,形式化を自然な方法で組み込むことで,グラフ構造に連動してサンプリングする多様体のパターンの外れ値とヘテロシドスティック性にアルゴリズムを頑健にする。
この手法では,空間分布で観測可能な周期を考慮したデータセットのランダムなサブサンプリングを用いて拡張する最小スパンニングツリーによって与えられるグラフを事前に用いた。 A regularized version of Mixture Models is proposed to learn a principal graph from a distribution of $D$-dimensional data points. In the particular case of manifold learning for ridge detection, we assume that the underlying manifold can be modeled as a graph structure acting like a topological prior for the Gaussian clusters turning the problem into a maximum a posteriori estimation. Parameters of the model are iteratively estimated through an Expectation-Maximization procedure making the learning of the structure computationally efficient with guaranteed convergence for any graph prior in a polynomial time. We also embed in the formalism a natural way to make the algorithm robust to outliers of the pattern and heteroscedasticity of the manifold sampling coherently with the graph structure. The method uses a graph prior given by the minimum spanning tree that we extend using random sub-samplings of the dataset to take into account cycles that can be observed in the spatial distribution. | 翻訳日:2023-07-13 20:56:38 公開日:2023-07-10 |
# 量子機械学習のためのサンプリングベースサブ線形低ランク行列演算フレームワーク Sampling-based sublinear low-rank matrix arithmetic framework for dequantizing quantum machine learning ( http://arxiv.org/abs/1910.06151v4 ) ライセンス: Link先を確認 | Nai-Hui Chia, Andr\'as Gily\'en, Tongyang Li, Han-Hsuan Lin, Ewin Tang, Chunhao Wang | (参考訳) 本稿では,Tang's Breaking quantum-inspired algorithm for recommendation system[STOC'19]から始まる一連の結果を一般化した,近接-低階行列上の量子インスパイア古典アルゴリズムのアルゴリズムフレームワークを提案する。
量子線形代数アルゴリズムとgily\'en,su,low,wiebe [stoc'19]の量子特異値変換(svt)フレームワークに動機付けられ,入力次元に依存しない時間内で動作するsvtの古典的なアルゴリズムを開発した。
この結果から,対応するQRAMデータ構造入力モデルでは,量子SVTが指数的な量子スピードアップを生じないことを示す。
量子svtフレームワークは、本質的にすべての既知の量子線形代数のテクニックを一般化しているため、これまでの研究から抽出された補題を組み合わせることで、量子機械学習アルゴリズムの非量子化に関する最近の結果をすべて一般化することができる。
特に,従来のSVTフレームワークでは,リコメンデーションシステム,主成分分析,クラスタリング,サポートベクタマシン,低ランク回帰,半定値プログラム問題解決などにおいて,復号化結果を回復し,しばしば改善する。
また,低位ハミルトンシミュレーションと判別分析において,さらに定量化結果を与える。
我々の改良は、以前の全ての量子インスパイアされた結果の中核である量子インスパイアされた入力モデルの鍵となる特徴を同定することによる:$\ell^2$-norm サンプリングは、その次元に依存しない時間で行列積を近似することができる。
私たちはこの事実に対する主要な結果をすべて削減し、展示を簡潔で、自己完結的で、直感的にします。 We present an algorithmic framework for quantum-inspired classical algorithms on close-to-low-rank matrices, generalizing the series of results started by Tang's breakthrough quantum-inspired algorithm for recommendation systems [STOC'19]. Motivated by quantum linear algebra algorithms and the quantum singular value transformation (SVT) framework of Gily\'en, Su, Low, and Wiebe [STOC'19], we develop classical algorithms for SVT that run in time independent of input dimension, under suitable quantum-inspired sampling assumptions. Our results give compelling evidence that in the corresponding QRAM data structure input model, quantum SVT does not yield exponential quantum speedups. Since the quantum SVT framework generalizes essentially all known techniques for quantum linear algebra, our results, combined with sampling lemmas from previous work, suffice to generalize all recent results about dequantizing quantum machine learning algorithms. In particular, our classical SVT framework recovers and often improves the dequantization results on recommendation systems, principal component analysis, supervised clustering, support vector machines, low-rank regression, and semidefinite program solving. We also give additional dequantization results on low-rank Hamiltonian simulation and discriminant analysis. Our improvements come from identifying the key feature of the quantum-inspired input model that is at the core of all prior quantum-inspired results: $\ell^2$-norm sampling can approximate matrix products in time independent of their dimension. We reduce all our main results to this fact, making our exposition concise, self-contained, and intuitive. | 翻訳日:2023-07-13 20:55:15 公開日:2023-07-10 |
# 分布適応型メタ強化学習 Distributionally Adaptive Meta Reinforcement Learning ( http://arxiv.org/abs/2210.03104v2 ) ライセンス: Link先を確認 | Anurag Ajay, Abhishek Gupta, Dibya Ghosh, Sergey Levine, Pulkit Agrawal | (参考訳) メタ強化学習アルゴリズムは、様々な報酬やダイナミクス機能を備えた多くのタスクに迅速に適応するポリシーを取得するためのデータ駆動の方法を提供する。
しかし、学習されたメタポリケーションは、トレーニングされたタスクの正確な分布にのみ有効であり、テストタイム報酬の分散シフトや移行ダイナミクスの存在に苦慮することが多い。
本研究では,タスク空間におけるテスト時間分布シフトの下で適切に動作可能なメタRLアルゴリズムのフレームワークを開発する。
我々の枠組みは分布のロバスト性への適応的アプローチに焦点をあて、様々なレベルの分布シフトにロバストなメタポリティシーの集団を訓練する。
タスクの潜在的にシフトしたテスト時間分布で評価すると、最も適切なレベルのロバスト性を持つメタポリシーを選択し、それを高速適応に使用できます。
我々は,分散シフト下での後悔を改善するための枠組みを正式に示し,幅広い分散シフト下でのシミュレーションロボット問題に対するその効果を実証的に示す。 Meta-reinforcement learning algorithms provide a data-driven way to acquire policies that quickly adapt to many tasks with varying rewards or dynamics functions. However, learned meta-policies are often effective only on the exact task distribution on which they were trained and struggle in the presence of distribution shift of test-time rewards or transition dynamics. In this work, we develop a framework for meta-RL algorithms that are able to behave appropriately under test-time distribution shifts in the space of tasks. Our framework centers on an adaptive approach to distributional robustness that trains a population of meta-policies to be robust to varying levels of distribution shift. When evaluated on a potentially shifted test-time distribution of tasks, this allows us to choose the meta-policy with the most appropriate level of robustness, and use it to perform fast adaptation. We formally show how our framework allows for improved regret under distribution shift, and empirically show its efficacy on simulated robotics problems under a wide range of distribution shifts. | 翻訳日:2023-07-13 20:25:59 公開日:2023-07-10 |
# ImmFusion:全ての気象条件下での3次元人体再構築のためのロバストmmWave-RGB核融合 ImmFusion: Robust mmWave-RGB Fusion for 3D Human Body Reconstruction in All Weather Conditions ( http://arxiv.org/abs/2210.01346v2 ) ライセンス: Link先を確認 | Anjun Chen, Xiangyu Wang, Kun Shi, Shaohao Zhu, Bin Fang, Yingfeng Chen, Jiming Chen, Yuchi Huo, Qi Ye | (参考訳) RGB画像から3Dの人体を復元すると、天気は良いが、悪天候では劇的に劣化する。
補足式のmmWaveレーダーは、荒天で3Dの関節とメッシュを再構築するために使われてきた。
しかし、RGB と mmWave の信号を組み合わせることで、RGB 画像の脆弱さや、RGB 画像の脆弱性を考えると、3D の再現性は依然として未解決の課題である。
本稿では,全ての気象条件下で3次元人体を堅牢に再構成する最初のmmWave-RGB核融合法であるImmFusionを提案する。
具体的には,トークン特徴抽出のためのイメージバックボーンとポイントバックボーン,トークン融合のためのトランスフォーマーモジュールから構成される。
画像と点バックボーンはオリジナルデータからグローバルとローカルの特徴を洗練し、fusion transformerモジュールはインフォメーショントークンを動的に選択することで、2つのモダリティの効果的な情報融合を目指している。
大規模データセットmmBodyの広範囲な実験により、ImmFusionは2つのモードの情報を効率的に利用し、全ての気象条件下で堅牢な3次元人体再構築を実現することができることが示された。
さらに,本手法の精度は,最先端のトランスフォーマーベースLiDAR-camera融合法よりも優れている。 3D human reconstruction from RGB images achieves decent results in good weather conditions but degrades dramatically in rough weather. Complementary, mmWave radars have been employed to reconstruct 3D human joints and meshes in rough weather. However, combining RGB and mmWave signals for robust all-weather 3D human reconstruction is still an open challenge, given the sparse nature of mmWave and the vulnerability of RGB images. In this paper, we present ImmFusion, the first mmWave-RGB fusion solution to reconstruct 3D human bodies in all weather conditions robustly. Specifically, our ImmFusion consists of image and point backbones for token feature extraction and a Transformer module for token fusion. The image and point backbones refine global and local features from original data, and the Fusion Transformer Module aims for effective information fusion of two modalities by dynamically selecting informative tokens. Extensive experiments on a large-scale dataset, mmBody, captured in various environments demonstrate that ImmFusion can efficiently utilize the information of two modalities to achieve a robust 3D human body reconstruction in all weather conditions. In addition, our method's accuracy is significantly superior to that of state-of-the-art Transformer-based LiDAR-camera fusion methods. | 翻訳日:2023-07-13 20:25:28 公開日:2023-07-10 |
# 機械学習時代のMRIデータ調和の有効性
36データセットを対象としたマルチセンター研究 Efficacy of MRI data harmonization in the age of machine learning. A multicenter study across 36 datasets ( http://arxiv.org/abs/2211.04125v3 ) ライセンス: Link先を確認 | Chiara Marzi, Marco Giannelli, Andrea Barucci, Carlo Tessa, Mario Mascalchi, Stefano Diciotti | (参考訳) 複数のサイトから公開されているmriデータをプールすることで、広範囲の被験者グループを組み立て、統計力を高め、機械学習技術によるデータの再利用を促進することができる。
マルチセンターデータの調和化は、データの非生物学的変動源に付随する相反効果を低減するために必要である。
しかし、機械学習の前にデータセット全体に適用すると、トレーニングセット外の情報がモデル構築に影響し、潜在的に過大評価されたパフォーマンスに影響を及ぼすため、ハーモニゼーションはデータ漏洩につながる。
1)データ調和の有効性の測定について提案する。
2) 調和器トランスフォーマー、すなわち、機械学習パイプラインの前処理ステップ間でカプセル化を可能にする戦闘調和の実装、データ漏洩を回避する。
健常者1740名を対象に,脳T1強調MRIデータを36箇所で取得した。
調和後, サイト効果を除去または低減し, mriデータから個々の年齢を予測する際のデータ漏洩効果を示し, 機械学習パイプラインにハーモナイザトランスフォーマーを導入することでデータ漏洩を回避できることを示した。 Pooling publicly-available MRI data from multiple sites allows to assemble extensive groups of subjects, increase statistical power, and promote data reuse with machine learning techniques. The harmonization of multicenter data is necessary to reduce the confounding effect associated with non-biological sources of variability in the data. However, when applied to the entire dataset before machine learning, the harmonization leads to data leakage, because information outside the training set may affect model building, and potentially falsely overestimate performance. We propose a 1) measurement of the efficacy of data harmonization; 2) harmonizer transformer, i.e., an implementation of the ComBat harmonization allowing its encapsulation among the preprocessing steps of a machine learning pipeline, avoiding data leakage. We tested these tools using brain T1-weighted MRI data from 1740 healthy subjects acquired at 36 sites. After harmonization, the site effect was removed or reduced, and we showed the data leakage effect in predicting individual age from MRI data, highlighting that introducing the harmonizer transformer into a machine learning pipeline allows for avoiding data leakage. | 翻訳日:2023-07-13 20:16:58 公開日:2023-07-10 |
# ボーソンサンプリングにおけるスプーフィングクロスエントロピー測度 Spoofing cross entropy measure in boson sampling ( http://arxiv.org/abs/2210.15021v3 ) ライセンス: Link先を確認 | Changhun Oh, Liang Jiang, Bill Fefferman | (参考訳) クロスエントロピー(xe)測度は、超伝導量子ビットを用いたランダム回路サンプリングやボーソンサンプリング(bs)のようなサンプリング問題から量子計算の利点を示すために広く使われているベンチマークである。
我々は、検証可能な状態における現在のBS実験よりも優れたXEを得ることができ、妥当な実行時間において、近未来のBS実験よりも優れたXEスコアを得ることのできるヒューリスティックな古典的アルゴリズムを提案する。
アルゴリズムの背後にある重要な考え方は、理想的な bs 確率分布と相関し、効率的に計算できる分布が存在することである。
分布の相関と計算可能性により、理想確率を計算せずに理想確率分布の重い結果がポストセレクトされ、これは本質的に大きなXEをもたらす。
本手法は,中間検証システムサイズで実装した場合のガウス的BS実験よりも優れたXE値を示す。
現在の最先端の実験と同様に、我々のスプーファーが量子アドバンテージサイズシステムで動作していることを検証することはできない。
しかし,本手法はフェミオンサンプリングにおいてより大規模なシステムサイズに対して有効であり,効率よく出力確率を計算できることを示す。
最後に,従来のアルゴリズムがノイズbsを効率的に拡散する可能性が示唆された。 Cross entropy (XE) measure is a widely used benchmarking to demonstrate quantum computational advantage from sampling problems, such as random circuit sampling using superconducting qubits and boson sampling (BS). We present a heuristic classical algorithm that attains a better XE than the current BS experiments in a verifiable regime and is likely to attain a better XE score than the near-future BS experiments in a reasonable running time. The key idea behind the algorithm is that there exist distributions that correlate with the ideal BS probability distribution and that can be efficiently computed. The correlation and the computability of the distribution enable us to post-select heavy outcomes of the ideal probability distribution without computing the ideal probability, which essentially leads to a large XE. Our method scores a better XE than the recent Gaussian BS experiments when implemented at intermediate, verifiable system sizes. Much like current state-of-the-art experiments, we cannot verify that our spoofer works for quantum advantage size systems. However, we demonstrate that our approach works for much larger system sizes in fermion sampling, where we can efficiently compute output probabilities. Finally, we provide analytic evidence that the classical algorithm is likely to spoof noisy BS efficiently. | 翻訳日:2023-07-13 20:15:00 公開日:2023-07-10 |
# 点源ローカライズのための近法 Proximal methods for point source localisation ( http://arxiv.org/abs/2212.02991v3 ) ライセンス: Link先を確認 | Tuomo Valkonen | (参考訳) 点源ローカライゼーションは一般に測度上のラッソ型問題としてモデル化される。
しかしながら、ラドン測度の空間のような非ヒルベルト空間における最適化方法は、ヒルベルト空間よりもはるかに少ない。
点源ローカライズのためのほとんどの数値アルゴリズムは、アドホック収束理論を開発するFrank-Wolfe条件勾配法に基づいている。
我々は,測度空間への近型手法の拡張を開発する。
これには前方後方分割、慣性バージョン、原始二重近位分割が含まれる。
それらの収束証明は標準パターンに従う。
数値的有効性を示す。 Point source localisation is generally modelled as a Lasso-type problem on measures. However, optimisation methods in non-Hilbert spaces, such as the space of Radon measures, are much less developed than in Hilbert spaces. Most numerical algorithms for point source localisation are based on the Frank-Wolfe conditional gradient method, for which ad hoc convergence theory is developed. We develop extensions of proximal-type methods to spaces of measures. This includes forward-backward splitting, its inertial version, and primal-dual proximal splitting. Their convergence proofs follow standard patterns. We demonstrate their numerical efficacy. | 翻訳日:2023-07-13 20:06:31 公開日:2023-07-10 |
# スケルトンベース行動認識のための階層的一貫性コントラスト学習 Hierarchical Consistent Contrastive Learning for Skeleton-Based Action Recognition with Growing Augmentations ( http://arxiv.org/abs/2211.13466v3 ) ライセンス: Link先を確認 | Jiahang Zhang, Lilang Lin, Jiaying Liu | (参考訳) 対比学習は自己教師付き骨格に基づく行動認識に有用であることが証明されている。
ほとんどの対照的な学習法は、同じ意味論のために異なる骨格の動きパターンを生成するために注意深く設計された拡張を用いる。
しかし、画像や骨格の構造を歪め、その不安定なトレーニングによって意味的損失を引き起こす強力な拡張を適用することは、まだ検討中の課題である。
本稿では,強増強の可能性を検証し,スケルトンベース行動認識のための階層的一貫性コントラスト学習フレームワーク(hiclr)を提案する。
具体的には,様々な視点から学習表現の一貫性を達成するための複数の順序付き正のペアを生成するために,段階的に増大する拡張ポリシーをまず設計する。
そして、特徴空間における方向クラスタリング操作を通じて階層的一貫性を強制するために、非対称な損失を提案し、より優れた一般化可能性のために、弱い拡張ビューから強い拡張ビューから表現を引き出す。
一方,本手法の有効性を示すために,三次元骨格の3種類の強増強法を提案し,評価した。
大規模な実験により、HiCLRは特に3つの大規模データセット(NTU60、NTU120、PKUMMD)で最先端の手法よりも優れていた。 Contrastive learning has been proven beneficial for self-supervised skeleton-based action recognition. Most contrastive learning methods utilize carefully designed augmentations to generate different movement patterns of skeletons for the same semantics. However, it is still a pending issue to apply strong augmentations, which distort the images/skeletons' structures and cause semantic loss, due to their resulting unstable training. In this paper, we investigate the potential of adopting strong augmentations and propose a general hierarchical consistent contrastive learning framework (HiCLR) for skeleton-based action recognition. Specifically, we first design a gradual growing augmentation policy to generate multiple ordered positive pairs, which guide to achieve the consistency of the learned representation from different views. Then, an asymmetric loss is proposed to enforce the hierarchical consistency via a directional clustering operation in the feature space, pulling the representations from strongly augmented views closer to those from weakly augmented views for better generalizability. Meanwhile, we propose and evaluate three kinds of strong augmentations for 3D skeletons to demonstrate the effectiveness of our method. Extensive experiments show that HiCLR outperforms the state-of-the-art methods notably on three large-scale datasets, i.e., NTU60, NTU120, and PKUMMD. | 翻訳日:2023-07-13 20:05:46 公開日:2023-07-10 |
# 量子位相認識のための完全量子アルゴリズム:再正規化群と誤差補正 Exact Quantum Algorithms for Quantum Phase Recognition: Renormalization Group and Error Correction ( http://arxiv.org/abs/2211.09803v3 ) ライセンス: Link先を確認 | Ethan Lake, Shankar Balasubramanian, and Soonwon Choi | (参考訳) 有限内部アベリア対称性によって保護される1次元対称性保護位相(SPT)位相を正確に認識する量子アルゴリズムを構築することにより,再正規化群(RG)フローと誤差補正の関係を検討する。
SPT の各位相に対して,このアルゴリズムは RG フローをエミュレートする量子回路を動作させ,任意の入力基底状態波動関数を一意の最小絡み合った参照状態にマッピングすることにより,効率的な位相同定を可能にする。
この構成は、位相の一般的な入力状態を基準状態に適用されたコヒーレントな「エラー」の集合として捉え、量子回路を設計、効率的にエラーを検出し修正することで実現される。
重要なことに、誤差補正閾値は位相境界と正確に一致することが証明される。
本稿では, 凝縮物質物理学, 機械学習, 短期量子アルゴリズムの文脈における結果の意味について論じる。 We explore the relationship between renormalization group (RG) flow and error correction by constructing quantum algorithms that exactly recognize 1D symmetry-protected topological (SPT) phases protected by finite internal Abelian symmetries. For each SPT phase, our algorithm runs a quantum circuit which emulates RG flow: an arbitrary input ground state wavefunction in the phase is mapped to a unique minimally-entangled reference state, thereby allowing for efficient phase identification. This construction is enabled by viewing a generic input state in the phase as a collection of coherent `errors' applied to the reference state, and engineering a quantum circuit to efficiently detect and correct such errors. Importantly, the error correction threshold is proven to coincide exactly with the phase boundary. We discuss the implications of our results in the context of condensed matter physics, machine learning, and near-term quantum algorithms. | 翻訳日:2023-07-13 20:04:41 公開日:2023-07-10 |
# ベイズ最適化における線形ラプラスの約束と落とし穴 Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization ( http://arxiv.org/abs/2304.08309v2 ) ライセンス: Link先を確認 | Agustinus Kristiadi, Alexander Immer, Runa Eschenhagen, Vincent Fortuin | (参考訳) 線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
理論上は、ニューラルネットワークの最大ポストリリリ予測関数と経験的神経接核によって引き起こされる共分散関数によって与えられる平均関数と後続のガウス過程と見なすことができるので、説得力がある。
しかしながら、画像分類などの大規模タスクにおいてその有効性は研究されているが、ガウス過程 -- 単純な平均関数とラジアル基底関数のようなカーネル -- がデファクトサロゲートモデルであるベイズ最適化のような逐次決定問題では研究されていない。
本研究では,ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
しかし, 探索空間が非有界である場合にも, LLAに潜在的な問題が発生する可能性がある。 The linearized-Laplace approximation (LLA) has been shown to be effective and efficient in constructing Bayesian neural networks. It is theoretically compelling since it can be seen as a Gaussian process posterior with the mean function given by the neural network's maximum-a-posteriori predictive function and the covariance function induced by the empirical neural tangent kernel. However, while its efficacy has been studied in large-scale tasks like image classification, it has not been studied in sequential decision-making problems like Bayesian optimization where Gaussian processes -- with simple mean functions and kernels such as the radial basis function -- are the de-facto surrogate models. In this work, we study the usefulness of the LLA in Bayesian optimization and highlight its strong performance and flexibility. However, we also present some pitfalls that might arise and a potential problem with the LLA when the search space is unbounded. | 翻訳日:2023-07-13 19:28:31 公開日:2023-07-10 |
# オンラインテンソル学習:計算と統計のトレードオフ、適応性と最適後悔 Online Tensor Learning: Computational and Statistical Trade-offs, Adaptivity and Optimal Regret ( http://arxiv.org/abs/2306.03372v2 ) ライセンス: Link先を確認 | Jian-Feng Cai, Jingyang Li and Dong Xia | (参考訳) オンライン環境での潜在低ランクテンソル推定のための一般化フレームワークについて検討し,線形モデルと一般化線形モデルの両方を包含する。
このフレームワークは、連続変数や分類変数を扱うための柔軟なアプローチを提供する。
さらに、オンラインテンソル補完とオンラインバイナリテンソル学習の2つの応用について検討する。
これらの課題に対処するために、線形収束と低ランク成分を全てのアプリケーションで適切な条件下で回復する能力を示すオンラインリーマン勾配降下アルゴリズムを提案する。
さらに,オンラインテンソル完備化のための正確なエントリワイド誤差を確立する。
特に、我々の研究は、オンライン低ランクテンソルリカバリタスクにノイズを組み込む最初の試みである。
興味深いことに、ノイズの存在における計算的側面と統計的側面の間の驚くべきトレードオフを観察する。
ステップサイズの増加は収束を加速するが、より小さなステップサイズでは収束が遅くなり、統計的に最適な推定器となる。
さらに,オンラインテンソル回帰に対する後悔分析を行った。
固定ステップサイズでは,収束率,統計誤差率,後悔に関する興味深いトリレンマが観察された。
ステップサイズを最適に選択することで、$O(\sqrt{T})$を最適に後悔する。
さらに、この解析を水平線Tが未知な適応的な設定にまで拡張する。
この場合、異なるステップサイズを使用することで、統計的に最適のエラー率を達成でき、後悔は$o(\log t)$であることが示される。
理論的な主張を検証するために、我々の発見を裏付ける数値結果を提供し、我々の主張を支持する。 We investigate a generalized framework for estimating latent low-rank tensors in an online setting, encompassing both linear and generalized linear models. This framework offers a flexible approach for handling continuous or categorical variables. Additionally, we investigate two specific applications: online tensor completion and online binary tensor learning. To address these challenges, we propose the online Riemannian gradient descent algorithm, which demonstrates linear convergence and the ability to recover the low-rank component under appropriate conditions in all applications. Furthermore, we establish a precise entry-wise error bound for online tensor completion. Notably, our work represents the first attempt to incorporate noise in the online low-rank tensor recovery task. Intriguingly, we observe a surprising trade-off between computational and statistical aspects in the presence of noise. Increasing the step size accelerates convergence but leads to higher statistical error, whereas a smaller step size yields a statistically optimal estimator at the expense of slower convergence. Moreover, we conduct regret analysis for online tensor regression. Under the fixed step size regime, a fascinating trilemma concerning the convergence rate, statistical error rate, and regret is observed. With an optimal choice of step size we achieve an optimal regret of $O(\sqrt{T})$. Furthermore, we extend our analysis to the adaptive setting where the horizon T is unknown. In this case, we demonstrate that by employing different step sizes, we can attain a statistically optimal error rate along with a regret of $O(\log T)$. To validate our theoretical claims, we provide numerical results that corroborate our findings and support our assertions. | 翻訳日:2023-07-13 19:09:15 公開日:2023-07-10 |
# 変圧器による物体検出 : レビュー Object Detection with Transformers: A Review ( http://arxiv.org/abs/2306.04670v3 ) ライセンス: Link先を確認 | Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker and Muhammad Zeshan Afzal | (参考訳) 自然言語処理(nlp)におけるトランスフォーマーの驚くべき性能は、研究者がコンピュータビジョンタスクにおける応用を探求する動機となった。
検出TRansformer(Detection TRansformer、DETR)は、オブジェクト検出タスクに対して、設定された予測問題として検出をフレーミングすることによってトランスフォーマーを導入する。
これにより、提案生成および後処理ステップの不要化が図られる。
当初、競合性能にもかかわらず、DETRは遅い訓練収束と小さな物体の非効率な検出に苦しんだ。
しかし、これらの問題に対処するために多くの改良が提案され、DETRが大幅に改善され、最先端の性能を示すことが可能になった。
我々の知る限り、本論文は、新たに提案された21のDETRモデルに関する総合的なレビューを提供する最初の論文である。
我々は、DETRの基本モジュールと、バックボーン構造の変更、クエリ設計戦略、注意機構の改良など、最近の拡張の両方について検討する。
さらに,様々な検出変圧器の比較分析を行い,その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
検出トランスフォーマーの現在進行中の開発に興味のある読者は、https://github.com/mindgarage-shan/trans_object_detection_survey.comのwebサイトを参照してほしい。 The astounding performance of transformers in natural language processing (NLP) has motivated researchers to explore their applications in computer vision tasks. DEtection TRansformer (DETR) introduces transformers to object detection tasks by reframing detection as a set prediction problem. Consequently, eliminating the need for proposal generation and post-processing steps. Initially, despite competitive performance, DETR suffered from slow training convergence and ineffective detection of smaller objects. However, numerous improvements are proposed to address these issues, leading to substantial improvements in DETR and enabling it to exhibit state-of-the-art performance. To our knowledge, this is the first paper to provide a comprehensive review of 21 recently proposed advancements in the original DETR model. We dive into both the foundational modules of DETR and its recent enhancements, such as modifications to the backbone structure, query design strategies, and refinements to attention mechanisms. Moreover, we conduct a comparative analysis across various detection transformers, evaluating their performance and network architectures. We hope that this study will ignite further interest among researchers in addressing the existing challenges and exploring the application of transformers in the object detection domain. Readers interested in the ongoing developments in detection transformers can refer to our website at: https://github.com/mindgarage-shan/trans_object_detection_survey | 翻訳日:2023-07-13 18:57:11 公開日:2023-07-10 |
# 神経ポリトープ Neural Polytopes ( http://arxiv.org/abs/2307.00721v2 ) ライセンス: Link先を確認 | Koji Hashimoto, Tomoya Naito, Hisashi Naito | (参考訳) reluアクティベーションを持つ単純なニューラルネットワークは、様々な次元の単位球面の近似としてポリトープを生成する。
ポリトープの種類は、ユニット数や層数などのネットワークアーキテクチャによって規制されている。
様々な活性化関数に対して、ニューラルポリトープと呼ばれるポリトープの一般化が得られる。
ポリトープの滑らかな類似体であり、幾何学的双対性を示す。
この発見は、機械学習による近似曲面に対する生成的離散幾何の研究を開始する。 We find that simple neural networks with ReLU activation generate polytopes as an approximation of a unit sphere in various dimensions. The species of polytopes are regulated by the network architecture, such as the number of units and layers. For a variety of activation functions, generalization of polytopes is obtained, which we call neural polytopes. They are a smooth analogue of polytopes, exhibiting geometric duality. This finding initiates research of generative discrete geometry to approximate surfaces by machine learning. | 翻訳日:2023-07-13 18:49:08 公開日:2023-07-10 |
# 境界条件の異なる円点における磁場の影響の量子情報理論 Quantum-information theory of magnetic field influence on circular dots with different boundary conditions ( http://arxiv.org/abs/2306.16114v2 ) ライセンス: Link先を確認 | H. Shafeekali, O. Olendski | (参考訳) 横一様磁場 $\bf b$ の位置 (subscript $\rho$) と運動量 (\gamma$) に対するシャノン量子情報エントロピー $s_{\rho,\gamma}$, fisher informations $i_{\rho,\gamma}$, informational energies $o_{\rho,\gamma}$ および情報エネルギー $o_{\rho,\gamma}$ の影響は、円周がジリクレとノイマン境界条件 (bc) のいずれかをサポートする2次元円形量子ドット (qds) に対して理論的に研究されている。
解析により、磁場と表面相互作用の構造特性に対する類似性と影響の相違が明らかになった。
スペクトル間の顕著な区別は、同じ放射量子数$n$と隣接する非正角指数$m$でノイマンエネルギーの誘導が増加するときの交差である。
b$が増加すると、どちらのシステムも、その特性が一様場となるとランダウ凝縮を行う。
例えば、ディリクレ和 $s_{\rho_{00}}+s_{\gamma_{00}} は、上から基本限界 2(1+\ln\pi)$ へのアプローチにおいて、対応するノイマン量よりも少なくとも $b$ である。
広く受け入れられている不平衡不確かさ関係 $o_\rho o_\gamma\leq(2\pi)^{-\mathtt{d}}$ と$\mathtt{d}$ が系の次元であることは、磁場中のノイマン qd によって破られることを指摘した。
静電高調波閉じ込めとの比較を行う。
物理的解釈は2つのbcの異なる役割とフィールドとの相互作用に基づいている: ディリクレ(ノイマン)曲面は反発的(引き込み的)なインターフェースである。 Influence of the transverse uniform magnetic field $\bf B$ on position (subscript $\rho$) and momentum ($\gamma$) Shannon quantum-information entropies $S_{\rho,\gamma}$, Fisher informations $I_{\rho,\gamma}$ and informational energies $O_{\rho,\gamma}$ is studied theoretically for the 2D circular quantum dots (QDs) whose circumference supports homogeneous either Dirichlet or Neumann boundary condition (BC). Analysis reveals similarities and differences of the influence on the properties of the structure of the surface interaction with the magnetic field. Conspicuous distinction between the spectra are crossings at the increasing induction of the Neumann energies with the same radial quantum number $n$ and adjacent non-positive angular indices $m$. At the growing $B$, either system undergoes Landau condensation when its characteristics turn into their uniform field counterparts. For the Dirichlet system this transformation takes place at the smaller magnetic intensities; e.g., the Dirichlet sum $S_{\rho_{00}}+S_{\gamma_{00}}$ on its approach from above to a fundamental limit $2(1+\ln\pi)$ is at any $B$ smaller than the corresponding Neumann quantity what physically means that the former geometry provides more total information about the position and motion of the particle. It is pointed out that the widely accepted disequilibrium uncertainty relation $O_\rho O_\gamma\leq(2\pi)^{-\mathtt{d}}$, with $\mathtt{d}$ being a dimensionality of the system, is violated by the Neumann QD in the magnetic field. Comparison with electrostatic harmonic confinement is performed. Physical interpretation is based on the different roles of the two BCs and their interplay with the field: Dirichlet (Neumann) surface is a repulsive (attractive) interface. | 翻訳日:2023-07-13 18:49:04 公開日:2023-07-10 |
# コントラストデコーディング:最適化としてのオープンエンドテキスト生成 Contrastive Decoding: Open-ended Text Generation as Optimization ( http://arxiv.org/abs/2210.15097v2 ) ライセンス: Link先を確認 | Xiang Lisa Li, Ari Holtzman, Daniel Fried, Percy Liang, Jason Eisner, Tatsunori Hashimoto, Luke Zettlemoyer, Mike Lewis | (参考訳) 言語モデル(lm)が与えられた場合、最大確率は、短い反復的なテキストを生成するため、オープンエンド世代のための貧弱な復号目的である。
一方、サンプリングは、しばしば元のトピックから漂う一貫性のないテキストを生成する。
本稿では,可視性制約対象のコントラスト目的を最適化する信頼性復号法であるコントラスト復号法(CD)を提案する。
対照的な目的は、大きなLM(例えば、OPT-13B)と小さなLM(例えば、OPT-125M)における可能性の差を返し、制約は出力が可算であることを保証する。
CDは、より大きなLM(例えば反復、不整合)の失敗がより小さいLMでさらに多いことや、どのテキストが好まれるかの差信号に着想を得ている。
cdは追加のトレーニングを一切必要とせず、より大きなlmからデコードするよりも高品質なテキストを生成する。
また、モデルスケール(OPT-13BとGPT2-1.5B)で動作し、4つの強力な復号アルゴリズム(例えば、核、トップk)をwikipedia、ニュース、ストーリードメインで自動的に評価する。 Given a language model (LM), maximum probability is a poor decoding objective for open-ended generation, because it produces short and repetitive text. On the other hand, sampling can often produce incoherent text that drifts from the original topics. We propose contrastive decoding (CD), a reliable decoding approach that optimizes a contrastive objective subject to a plausibility constraint. The contrastive objective returns the difference between the likelihood under a large LM (called the expert, e.g. OPT-13B) and a small LM (called the amateur, e.g. OPT-125M), and the constraint ensures that the outputs are plausible. CD is inspired by the fact that the failures of larger LMs (e.g., repetition, incoherence) are even more prevalent in smaller LMs, and that this difference signals which texts should be preferred. CD requires zero additional training, and produces higher quality text than decoding from the larger LM alone. It also works across model scales (OPT-13B and GPT2-1.5B) and significantly outperforms four strong decoding algorithms (e.g., nucleus, top-k) in automatic and human evaluations across wikipedia, news and story domains. | 翻訳日:2023-07-13 16:54:55 公開日:2023-07-10 |
# GPT検出器はイギリス生まれでない作家に偏っている GPT detectors are biased against non-native English writers ( http://arxiv.org/abs/2304.02819v3 ) ライセンス: Link先を確認 | Weixin Liang, Mert Yuksekgonul, Yining Mao, Eric Wu, James Zou | (参考訳) 生成言語モデルが急速に普及したことで、デジタルコミュニケーションが大幅に進歩し、同時にAI生成コンテンツの誤用に関する懸念も高まっている。
AIと人為的なコンテンツとを区別する多くの検出方法が提案されているが、これらの検出器の公正性と堅牢性は未発見のままである。
本研究では、ネイティブおよび非ネイティブな英語作家の筆記サンプルを用いて、広く使われているGPT検出器の性能を評価する。
これらの検出器は、非ネイティブな英語の筆記サンプルをAI生成と誤分類しているのに対し、ネイティブな筆記サンプルは正確に識別されている。
さらに, 単純なプロンプト戦略は, このバイアスを軽減するだけでなく, GPT検出器を効果的に回避できることを示す。
以上の結果から,chatgptコンテンツ検出器を配備することの倫理的意義について,特に非ネイティブ英語話者を不注意にペナルティを課したり,世界的談話から除外したりする場合に,より広範な議論が求められている。
この研究の公開されたバージョンは以下の通りである。 www.cell.com/patterns/fulltext/S2666-3899(23)00130-7 The rapid adoption of generative language models has brought about substantial advancements in digital communication, while simultaneously raising concerns regarding the potential misuse of AI-generated content. Although numerous detection methods have been proposed to differentiate between AI and human-generated content, the fairness and robustness of these detectors remain underexplored. In this study, we evaluate the performance of several widely-used GPT detectors using writing samples from native and non-native English writers. Our findings reveal that these detectors consistently misclassify non-native English writing samples as AI-generated, whereas native writing samples are accurately identified. Furthermore, we demonstrate that simple prompting strategies can not only mitigate this bias but also effectively bypass GPT detectors, suggesting that GPT detectors may unintentionally penalize writers with constrained linguistic expressions. Our results call for a broader conversation about the ethical implications of deploying ChatGPT content detectors and caution against their use in evaluative or educational settings, particularly when they may inadvertently penalize or exclude non-native English speakers from the global discourse. The published version of this study can be accessed at: www.cell.com/patterns/fulltext/S2666-3899(23)00130-7 | 翻訳日:2023-07-13 16:45:43 公開日:2023-07-10 |
# デュアルコントラスト学習によるヘイトスピーチ検出 Hate Speech Detection via Dual Contrastive Learning ( http://arxiv.org/abs/2307.05578v1 ) ライセンス: Link先を確認 | Junyu Lu, Hongfei Lin, Xiaokun Zhang, Zhaoqing Li, Tongyue Zhang, Linlin Zong, Fenglong Ma, and Bo Xu | (参考訳) ソーシャルメディアにおけるヘイトスピーチの急速な普及は、偏見を高め、人々を傷つけることによって、インターネット環境と社会に影響を与えます。
ヘイトスピーチの検出は、自然言語処理の分野で広く注目を集めている。
ヘイトスピーチ検出は近年研究されているが、この課題は2つの固有の未解決課題に直面している。
最初の課題は、ヘイトスピーチで伝達される複雑な意味情報、特にヘイトスピーチ検出における侮辱的な言葉の干渉にある。
第2の課題はヘイトスピーチと非ヘイトスピーチの不均衡分布であり、モデルの性能を著しく低下させる可能性がある。
そこで本研究では,ヘイトスピーチ検出のためのdcl(dual contrastive learning)フレームワークを提案する。
本フレームワークは,既存のモデルで使用されているトークンレベルの感情的意味論を超えて,特に虐待的・侮辱的な単語を含む音声を検出するために,自己指導と教師付きコントラスト学習損失を共同で最適化する。
さらに,2つのコントラスト学習フレームワークに焦点損失を組み込むことにより,データ不均衡の問題を緩和する。
2つの公開英語データセットの実験を行い、提案モデルが最先端のモデルより優れ、ヘイトスピーチを正確に検出することを示す。 The fast spread of hate speech on social media impacts the Internet environment and our society by increasing prejudice and hurting people. Detecting hate speech has aroused broad attention in the field of natural language processing. Although hate speech detection has been addressed in recent work, this task still faces two inherent unsolved challenges. The first challenge lies in the complex semantic information conveyed in hate speech, particularly the interference of insulting words in hate speech detection. The second challenge is the imbalanced distribution of hate speech and non-hate speech, which may significantly deteriorate the performance of models. To tackle these challenges, we propose a novel dual contrastive learning (DCL) framework for hate speech detection. Our framework jointly optimizes the self-supervised and the supervised contrastive learning loss for capturing span-level information beyond the token-level emotional semantics used in existing models, particularly detecting speech containing abusive and insulting words. Moreover, we integrate the focal loss into the dual contrastive learning framework to alleviate the problem of data imbalance. We conduct experiments on two publicly available English datasets, and experimental results show that the proposed model outperforms the state-of-the-art models and precisely detects hate speeches. | 翻訳日:2023-07-13 16:18:14 公開日:2023-07-10 |
# メタバース論理へのいくつかの予備ステップ Some Preliminary Steps Towards Metaverse Logic ( http://arxiv.org/abs/2307.05574v1 ) ライセンス: Link先を確認 | Antonio L. Furtado, Marco A. Casanova, Edirlei Soares de Lima | (参考訳) メタバース」という言葉がコンピュータによるマルチバースアプリケーションの実装として理解できると仮定すると、我々は、現実と架空の基盤となるアプリケーションドメインの両方で生じる状況に対処できるほど強力なロジックについて、現在の研究を考察し始めた。
一階述語論理が最も単純な情報システムドメインであっても不安定な振る舞いを考慮できないことに気付き、我々は最小限の複合論理戦略をスケッチするために、従来の拡張に頼った。
この議論は比較的非公式なレベルで維持され、自然言語用語の理論的概念の背後にある直感を常に伝え、アルゴリズム的および常識的アプローチが有用に組み合わせられることを期待して、AIエージェントであるChatGPTに訴えた。 Assuming that the term 'metaverse' could be understood as a computer-based implementation of multiverse applications, we started to look in the present work for a logic that would be powerful enough to handle the situations arising both in the real and in the fictional underlying application domains. Realizing that first-order logic fails to account for the unstable behavior of even the most simpleminded information system domains, we resorted to non-conventional extensions, in an attempt to sketch a minimal composite logic strategy. The discussion was kept at a rather informal level, always trying to convey the intuition behind the theoretical notions in natural language terms, and appealing to an AI agent, namely ChatGPT, in the hope that algorithmic and common-sense approaches can be usefully combined. | 翻訳日:2023-07-13 16:17:51 公開日:2023-07-10 |
# 質問生成と回答としてのイベント抽出 Event Extraction as Question Generation and Answering ( http://arxiv.org/abs/2307.05567v1 ) ライセンス: Link先を確認 | Di Lu, Shihao Ran, Joel Tetreault, Alejandro Jaimes | (参考訳) イベント抽出に関する最近の研究は、タスクを質問回答(QA)として再編成し、有望な結果を得た。
このアプローチの利点は、最初に候補を抽出することなくイベント引数を直接予測することで、従来のトークンベースの分類アプローチで見られるエラー伝搬問題に対処することである。
しかし、質問は通常固定テンプレートに基づいており、関連する議論のような文脈情報を活用することは滅多にない。
さらに、以前のQAベースのアプローチでは、同じ役割に対して複数の議論がある場合の処理が困難である。
本稿では,QGA-EEを提案する。QGモデルにより,定型テンプレートを使わずに,リッチな文脈情報を含む質問を生成することができる。
また,QGモデルのトレーニングを支援する動的テンプレートを提案する。
実験の結果、QGA-EEはACE05英語データセットで以前のシングルタスクベースのモデルよりも優れていた。 Recent work on Event Extraction has reframed the task as Question Answering (QA), with promising results. The advantage of this approach is that it addresses the error propagation issue found in traditional token-based classification approaches by directly predicting event arguments without extracting candidates first. However, the questions are typically based on fixed templates and they rarely leverage contextual information such as relevant arguments. In addition, prior QA-based approaches have difficulty handling cases where there are multiple arguments for the same role. In this paper, we propose QGA-EE, which enables a Question Generation (QG) model to generate questions that incorporate rich contextual information instead of using fixed templates. We also propose dynamic templates to assist the training of QG model. Experiments show that QGA-EE outperforms all prior single-task-based models on the ACE05 English dataset. | 翻訳日:2023-07-13 16:17:36 公開日:2023-07-10 |
# ユニバーサル量子ゲートにおけるZZクロストーク緩和のためのスケーラブルプロトコル Scalable Protocol for ZZ-Crosstalk Mitigation in Universal Quantum Gates ( http://arxiv.org/abs/2307.05566v1 ) ライセンス: Link先を確認 | Yan Liang, Ming-Jie Liang, Sai Li, Z. D. Wang, and Zheng-Yuan Xue | (参考訳) 高忠実性ユニバーサル量子ゲートはスケーラブルな量子計算に必須であると広く認識されている。
しかし、量子計算の物理実装プラットフォームとして約束される固体量子系では、量子ビット間相互作用による$ZZ$-クロストークは量子演算性能を著しく損なう。
本稿では、ユニバーサル量子ゲートにおけるZZ$-クロストーク緩和を実現するスケーラブルなプロトコルを提案する。
この方法は、ノイズの多いハミルトニアンを$zz$-crosstalkに変換し、$zz$-crosstalk効果をすべて効果的に抑制し、理想的なターゲット量子演算へと導く。
具体的には,まず,ZZ$-クロストーク緩和条件を解析的に導出し,対象量子ゲートの性能を向上させる。
さらに,複数キュービットゲートの同時動作時のZZ$クロストーク緩和の有効性を数値シミュレーションにより検証した。
その結果,本プロトコルは大規模量子計算シナリオにおいて,実用的な並列量子ゲートを実現するための有望なアプローチを示す。 High-fidelity universal quantum gates are widely acknowledged as essential for scalable quantum computation. However, in solid-state quantum systems, which hold promise as physical implementation platforms for quantum computation, the inevitable $ZZ$-crosstalk resulting from inter-qubit interactions significantly impairs quantum operation performance. Here we propose a scalable protocol to achieve $ZZ$-crosstalk mitigation in universal quantum gates. This method converts the noisy Hamiltonian with $ZZ$-crosstalk into a framework that efficiently suppresses all $ZZ$-crosstalk effects, leading to ideal target quantum operations. Specifically, we first analytically derive the $ZZ$-crosstalk mitigation conditions and then apply them to enhance the performance of target universal quantum gates. Moreover, numerical simulations validate the effectiveness of $ZZ$-crosstalk mitigation when multiple qubit gates operate concurrently. As a result, our protocol presents a promising approach for implementing practical parallel quantum gates in large-scale quantum computation scenarios. | 翻訳日:2023-07-13 16:17:25 公開日:2023-07-10 |
# 物質かスタイルか: あなたのイメージは何を知っているのか? Substance or Style: What Does Your Image Embedding Know? ( http://arxiv.org/abs/2307.05610v1 ) ライセンス: Link先を確認 | Cyrus Rashtchian and Charles Herrmann and Chun-Sung Ferng and Ayan Chakrabarti and Dilip Krishnan and Deqing Sun and Da-Cheng Juan and Andrew Tomkins | (参考訳) プローブは、埋め込みから基礎となるデータの性質を予測する小さなネットワークであり、埋め込みに含まれる情報を照らし出すターゲットとして効果的な方法を提供する。
プローブを用いた解析はNLPでは標準となっているが、視界での探索はずっと少ない。
イメージ基盤モデルは、主にセマンティックコンテンツとして評価されている。
一般的な埋め込み(例えば、MAE、SimCLR、CLIP)における非意味的な情報を理解することで、トレーニングアルゴリズムとこれらの基盤モデルの使用の両方に新たな光が当てられる。
システム変換予測タスクをデザインし,画像スタイルや品質,自然および人工的変換など,多数の軸に沿った埋め込みの視覚内容を測定する。
驚いたことに、6つの埋め込み(simclrを含む)は、数十の変換を識別するために十分な非意味情報をエンコードする。
また、同様の変換をグループ化し、テストのためにいくつかを保持する一般化タスクも検討しています。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新たな例を認識するのが得意である。
全体として,事前学習アルゴリズムの選択は組込み情報の種類に影響を与え,非意味的下流タスクにおいては,特定のモデルの方が優れていることが示唆された。 Probes are small networks that predict properties of underlying data from embeddings, and they provide a targeted, effective way to illuminate the information contained in embeddings. While analysis through the use of probes has become standard in NLP, there has been much less exploration in vision. Image foundation models have primarily been evaluated for semantic content. Better understanding the non-semantic information in popular embeddings (e.g., MAE, SimCLR, or CLIP) will shed new light both on the training algorithms and on the uses for these foundation models. We design a systematic transformation prediction task and measure the visual content of embeddings along many axes, including image style, quality, and a range of natural and artificial transformations. Surprisingly, six embeddings (including SimCLR) encode enough non-semantic information to identify dozens of transformations. We also consider a generalization task, where we group similar transformations and hold out several for testing. We find that image-text models (CLIP and ALIGN) are better at recognizing new examples of style transfer than masking-based models (CAN and MAE). Overall, our results suggest that the choice of pre-training algorithm impacts the types of information in the embedding, and certain models are better than others for non-semantic downstream tasks. | 翻訳日:2023-07-13 16:09:00 公開日:2023-07-10 |
# 私のコードを改善することができるか?
局所探索によるプログラム最適化 Can You Improve My Code? Optimizing Programs with Local Search ( http://arxiv.org/abs/2307.05603v1 ) ライセンス: Link先を確認 | Fatemeh Abdollahi, Saqib Ameen, Matthew E. Taylor and Levi H. S. Lelis | (参考訳) 本稿では,既存のプログラムを計測可能な目的に対して改善するための局所探索手法を提案する。
局所改善検索(POLIS)によるプログラム最適化は、その行によって定義されたプログラムの構造を利用する。
POLISは、既存のブルートフォース合成アルゴリズムを使用して、残りの行を固定しながらプログラムの単一行を改善し、プログラムのパフォーマンスを改善できなくなるまで繰り返し続ける。
POLISは27人のユーザーを対象に評価され、参加者はLunar LanderとHighwayという2つのシングルエージェントゲームのスコアを最大化しようとするプログラムを書いた。
POLISはゲームスコアに関して参加者のプログラムを大幅に改善することができた。
既存のスタックオーバーフローコードの概念実証デモは、現実世界の問題に適用性を測定する。
これらの結果はpolisを計測可能な目的を持つプログラミング問題に対する有用なプログラミングアシスタントとして使用できることを示唆している。 This paper introduces a local search method for improving an existing program with respect to a measurable objective. Program Optimization with Locally Improving Search (POLIS) exploits the structure of a program, defined by its lines. POLIS improves a single line of the program while keeping the remaining lines fixed, using existing brute-force synthesis algorithms, and continues iterating until it is unable to improve the program's performance. POLIS was evaluated with a 27-person user study, where participants wrote programs attempting to maximize the score of two single-agent games: Lunar Lander and Highway. POLIS was able to substantially improve the participants' programs with respect to the game scores. A proof-of-concept demonstration on existing Stack Overflow code measures applicability in real-world problems. These results suggest that POLIS could be used as a helpful programming assistant for programming problems with measurable objectives. | 翻訳日:2023-07-13 16:08:37 公開日:2023-07-10 |
# ディープニューラルネットワークを用いた教師なし領域適応 Unsupervised Domain Adaptation with Deep Neural-Network ( http://arxiv.org/abs/2307.05601v1 ) ライセンス: Link先を確認 | Artem Bituitskii | (参考訳) 本報告は、既存の手法の分析、新しいアプローチの導入、異なるドメイン間の視覚認識タスクの改善の可能性を示すことにより、教師なしドメイン適応の分野に寄与する。
本研究の結果は、ドメイン適応の分野における先進的手法のさらなる研究と発展の機会を開くものである。 This report contributes to the field of unsupervised domain adaptation by providing an analysis of existing methods, introducing a new approach, and demonstrating the potential for improving visual recognition tasks across different domains. The results of this study open up opportunities for further study and development of advanced methods in the field of domain adaptation. | 翻訳日:2023-07-13 16:08:23 公開日:2023-07-10 |
# 第一原理からの合成一般化 Compositional Generalization from First Principles ( http://arxiv.org/abs/2307.05596v1 ) ライセンス: Link先を確認 | Thadd\"aus Wiedemer, Prasanna Mayilvahanan, Matthias Bethge, Wieland Brendel | (参考訳) 世界の構成性を活用して学習を迅速化し、一般化を促進することは、人間の知覚の目印である。
一方、機械学習では、明示的な構成優先を持つモデルでさえも、合成一般化の達成は難解な目標であることが証明されている。
識別可能な表現学習に着想を得て、データ自身ではなくデータ生成プロセスの特性としての構成性を調査します。
この再構成により、構成一般化に十分なトレーニング分布とモデルアーキテクチャの支持のみに関する穏やかな条件を導出することができる。
さらに,実世界のシナリオに適用する理論的な枠組みを実証し,実験的に検証する。
本研究は合成一般化の原理的理論的研究の舞台となった。 Leveraging the compositional nature of our world to expedite learning and facilitate generalization is a hallmark of human perception. In machine learning, on the other hand, achieving compositional generalization has proven to be an elusive goal, even for models with explicit compositional priors. To get a better handle on compositional generalization, we here approach it from the bottom up: Inspired by identifiable representation learning, we investigate compositionality as a property of the data-generating process rather than the data itself. This reformulation enables us to derive mild conditions on only the support of the training distribution and the model architecture, which are sufficient for compositional generalization. We further demonstrate how our theoretical framework applies to real-world scenarios and validate our findings empirically. Our results set the stage for a principled theoretical study of compositional generalization. | 翻訳日:2023-07-13 16:08:17 公開日:2023-07-10 |
# 改良ハミルトンを用いた格子QCDの量子シミュレーション Quantum Simulation of Lattice QCD with Improved Hamiltonians ( http://arxiv.org/abs/2307.05593v1 ) ライセンス: Link先を確認 | Anthony N. Ciavarella | (参考訳) 格子ゲージ理論の量子シミュレーションはQCDのリアルタイムダイナミクスを直接探究すると予想されるが、ゲージ場の必要な切り離しと好ましくはスケールしない。
改良されたハミルトニアンは、SU(3)コグト・ススキンド・ハミルトニアンに対するゲージ場切断の影響を正すために導かれる。
1+1d$ で示されるように、これは低彩色電場切断により、様々なカップリングとクォーク質量にわたって、断続的理論の特徴を定量的に再現することができる。
3+1d$ では、改良されたハミルトニアンが、スタッガー付き質量を持たないフェルミオンを持つ格子 qcd に対して導出される。
強い結合限界において、スペクトルは2つのフレーバーqcdの側面を定性的に再現し、小さなシステムのシミュレーションはibmの量子プロセッサで行われることが示されている。 Quantum simulations of lattice gauge theories are anticipated to directly probe the real time dynamics of QCD, but scale unfavorably with the required truncation of the gauge fields. Improved Hamiltonians are derived to correct for the effects of gauge field truncations on the SU(3) Kogut-Susskind Hamiltonian. It is shown in $1+1D$ that this enables low chromo-electric field truncations to quantitatively reproduce features of the untruncated theory over a range of couplings and quark masses. In $3+1D$, an improved Hamiltonian is derived for lattice QCD with staggered massless fermions. It is shown in the strong coupling limit that the spectrum qualitatively reproduces aspects of two flavor QCD and simulations of a small system are performed on IBM's {\tt Perth} quantum processor. | 翻訳日:2023-07-13 16:08:04 公開日:2023-07-10 |
# 過渡実験データを用いた機能的PCAとディープニューラルネットワークに基づくベイズ逆不確かさの定量化 Functional PCA and Deep Neural Networks-based Bayesian Inverse Uncertainty Quantification with Transient Experimental Data ( http://arxiv.org/abs/2307.05592v1 ) ライセンス: Link先を確認 | Ziyu Xie, Mahmoud Yaseen, Xu Wu | (参考訳) 逆UQは実験データに基づいてモデルの入力不確実性を逆定量化するプロセスである。
本研究は,機能主成分分析(PCA)とディープニューラルネットワーク(DNN)に基づく代理モデルを用いた,時間依存応答のための逆UQプロセスの開発に焦点を当てる。
この実験は、FEBA過渡実験データを用いたTRACE物理モデルパラメータの逆UQに基づいている。
測定データは、時間依存ピーククラディング温度(PCT)である。
興味の量(QoI)は無限次元応答に対応する時間依存であるため、PCAはPCTの過渡プロファイルを保持しながらQoI次元を減少させ、逆UQプロセスをより効率的にする。
しかし,PCTの時系列プロファイルに直接適用される従来のPCAでは,焼成時の急激な温度低下のため,正確にはデータの表現ができない。
その結果, 関数アライメント法を用いて過渡的pctプロファイルの位相情報と振幅情報を次元減少前に分離する。
DNNは、Markov Chain Monte Carloサンプリングの計算コストを削減するために、機能的PCAのPCスコアを使用してTRACEのサロゲートモデルを構築する。
ベイズニューラルネットワークは、DNN代理モデル予測の不確かさを推定するために用いられる。
本研究では,異なる次元還元法と代理モデルを用いた4種類の逆UQプロセスを比較した。
提案手法は, TRACE 過渡シミュレーションの次元を削減し, 逆UQ 結果の前方伝播が実験データとよりよく一致することを示す。 Inverse UQ is the process to inversely quantify the model input uncertainties based on experimental data. This work focuses on developing an inverse UQ process for time-dependent responses, using dimensionality reduction by functional principal component analysis (PCA) and deep neural network (DNN)-based surrogate models. The demonstration is based on the inverse UQ of TRACE physical model parameters using the FEBA transient experimental data. The measurement data is time-dependent peak cladding temperature (PCT). Since the quantity-of-interest (QoI) is time-dependent that corresponds to infinite-dimensional responses, PCA is used to reduce the QoI dimension while preserving the transient profile of the PCT, in order to make the inverse UQ process more efficient. However, conventional PCA applied directly to the PCT time series profiles can hardly represent the data precisely due to the sudden temperature drop at the time of quenching. As a result, a functional alignment method is used to separate the phase and amplitude information of the transient PCT profiles before dimensionality reduction. DNNs are then trained using PC scores from functional PCA to build surrogate models of TRACE in order to reduce the computational cost in Markov Chain Monte Carlo sampling. Bayesian neural networks are used to estimate the uncertainties of DNN surrogate model predictions. In this study, we compared four different inverse UQ processes with different dimensionality reduction methods and surrogate models. The proposed approach shows an improvement in reducing the dimension of the TRACE transient simulations, and the forward propagation of inverse UQ results has a better agreement with the experimental data. | 翻訳日:2023-07-13 16:07:50 公開日:2023-07-10 |
# SITTA:画像キャプションのための意味的画像テキストアライメント SITTA: A Semantic Image-Text Alignment for Image Captioning ( http://arxiv.org/abs/2307.05591v1 ) ライセンス: Link先を確認 | Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter | (参考訳) 適切なキャプションを生成するには,画像のテキスト的・意味的理解が不可欠である。
理解には、オブジェクトの検出、それら間の関係のモデリング、シーンのセマンティクスの評価、そして最後に、抽出された知識を言語空間で表現する必要がある。
優れた画像言語マッピングを確保しつつ、リッチな言語機能を実現するために、画像入力が可能な事前訓練されたマルチモーダル(画像テキスト)モデルに事前訓練された言語モデル(LM)を条件付けした。
これは、マルチモーダルモデルのイメージ表現と、生成的LMの言語表現とのアライメントを必要とする。
しかし、マルチモーダルモデルの視覚エンコーダによって検出されたセマンティクスをLMに転送する方法は明らかになっていない。
本稿では,2つの事前学習モデルの埋め込み空間間で意味を伝達する線形写像を構築する2つの新しい方法を紹介する。
1つ目は、マルチモーダル言語エンコーダの埋め込み空間と、トークン対応を介して予め訓練されたLMの埋め込み空間とを一致させる。
後者は、視覚から言語空間へのマッピングを直接構築するために、画像とテキストのペアからなる追加データを活用する。
セマンティックマッピングを用いて、勾配情報にアクセスせずにLMのイメージキャプションをアンロックする。
異なるデータソースを使用することで,MS-COCOとFlickr30kデータセットのキャプション性能が向上する。
限られたデータに直面しても、この手法は他のゼロショットや微調整された競合よりも性能が高い。
我々のアブレーション研究は、たった2億5000万のパラメータのスケールのLMでさえ、意味マッピングを用いたまともなキャプションを生成できることを示している。
本手法は, 計算資源が制限された施設において, 画像キャプションをより使いやすくする。 Textual and semantic comprehension of images is essential for generating proper captions. The comprehension requires detection of objects, modeling of relations between them, an assessment of the semantics of the scene and, finally, representing the extracted knowledge in a language space. To achieve rich language capabilities while ensuring good image-language mappings, pretrained language models (LMs) were conditioned on pretrained multi-modal (image-text) models that allow for image inputs. This requires an alignment of the image representation of the multi-modal model with the language representations of a generative LM. However, it is not clear how to best transfer semantics detected by the vision encoder of the multi-modal model to the LM. We introduce two novel ways of constructing a linear mapping that successfully transfers semantics between the embedding spaces of the two pretrained models. The first aligns the embedding space of the multi-modal language encoder with the embedding space of the pretrained LM via token correspondences. The latter leverages additional data that consists of image-text pairs to construct the mapping directly from vision to language space. Using our semantic mappings, we unlock image captioning for LMs without access to gradient information. By using different sources of data we achieve strong captioning performance on MS-COCO and Flickr30k datasets. Even in the face of limited data, our method partly exceeds the performance of other zero-shot and even finetuned competitors. Our ablation studies show that even LMs at a scale of merely 250M parameters can generate decent captions employing our semantic mappings. Our approach makes image captioning more accessible for institutions with restricted computational resources. | 翻訳日:2023-07-13 16:07:22 公開日:2023-07-10 |
# フレームレベルクエリを用いたビデオ分類のためのアクティブラーニング Active Learning for Video Classification with Frame Level Queries ( http://arxiv.org/abs/2307.05587v1 ) ライセンス: Link先を確認 | Debanjan Goswami, Shayok Chakraborty | (参考訳) ディープラーニングアルゴリズムは、コンピュータビジョン研究の境界を押し進め、様々なアプリケーションで賞賛できるパフォーマンスを描いている。
しかし、堅牢なディープニューラルネットワークのトレーニングには、大量のラベル付きトレーニングデータが必要である。
この問題は、ビデオ分類のようなアプリケーションにとってさらに深刻な問題であり、人間のアノテータは、ラベルを付けるためにビデオ全体を見る必要がある。
アクティブラーニングアルゴリズムは、大量のラベルのないデータから最も有益なサンプルを自動的に識別する。これは、アルゴリズムによって識別される少数のサンプルのみを手動でラベル付けする必要があるため、機械学習モデルを誘導する人間のアノテーション労力を大幅に削減する。
本稿では,ビデオ分類のための新しい能動的学習フレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と情報フレームを識別するので,人間のアノテータは単にフレームをレビューし,各ビデオにラベルを付けるだけでよい。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業が少ない。
我々は,不確実性と多様性に基づく基準を定式化し,情報化映像を識別し,代表的サンプリング手法を利用して各ビデオから一組の模範フレームを抽出する。
我々の知る限りでは、これはビデオ分類のためのアクティブな学習フレームワークを開発するための最初の研究であり、アノテータは、エンド・ツー・エンドのビデオを見るのではなく、ラベルを生成するために数フレームのみを検査する必要がある。 Deep learning algorithms have pushed the boundaries of computer vision research and have depicted commendable performance in a variety of applications. However, training a robust deep neural network necessitates a large amount of labeled training data, acquiring which involves significant time and human effort. This problem is even more serious for an application like video classification, where a human annotator has to watch an entire video end-to-end to furnish a label. Active learning algorithms automatically identify the most informative samples from large amounts of unlabeled data; this tremendously reduces the human annotation effort in inducing a machine learning model, as only the few samples that are identified by the algorithm, need to be labeled manually. In this paper, we propose a novel active learning framework for video classification, with the goal of further reducing the labeling onus on the human annotators. Our framework identifies a batch of exemplar videos, together with a set of informative frames for each video; the human annotator needs to merely review the frames and provide a label for each video. This involves much less manual work than watching the complete video to come up with a label. We formulate a criterion based on uncertainty and diversity to identify the informative videos and exploit representative sampling techniques to extract a set of exemplar frames from each video. To the best of our knowledge, this is the first research effort to develop an active learning framework for video classification, where the annotators need to inspect only a few frames to produce a label, rather than watching the end-to-end video. | 翻訳日:2023-07-13 16:06:57 公開日:2023-07-10 |
# モデル駆動工学とSysMLを用いた機械学習のためのコード生成 Code Generation for Machine Learning using Model-Driven Engineering and SysML ( http://arxiv.org/abs/2307.05584v1 ) ライセンス: Link先を確認 | Simon Raedler, Matthias Rupp, Eugen Rigger, Stefanie Rinderle-Ma | (参考訳) データ駆動エンジニアリング(Data-driven engineering)とは、機械学習を用いてエンジニアリングシステムを改善する体系的なデータ収集と処理を指す。
現在、データ駆動エンジニアリングの実装は、基本的なデータサイエンスとソフトウェア工学のスキルに依存している。
同時に、モデルベースのエンジニアリングは、複雑なシステムのエンジニアリングに関係している。
本稿では,汎用モデリング言語SysMLを用いた機械学習タスクの形式化を統合するモデルベースエンジニアリング手法を提案する。
しかし、形式化された機械学習タスクは、Pythonのような特殊なプログラミング言語の実装を必要とする。
そこで本研究は,モデル変換を統合して実行可能コードを生成することによって,機械学習タスクを形式化する従来の作業を拡張することで,データ駆動型エンジニアリングの実現を促進することを目的とする。
この方法はモデル変換の修正可能性と保守性に焦点を当てており、コード生成への拡張と変更をコードジェネレータの変更を必要とせずに統合することができる。
気象予報のためのケーススタディにおいて,本手法の有効性を評価する。
そこで,モデル変換の品質特性を評価し検討した。
結果は、実装の労力を減らす方法の柔軟性と単純さを示します。
さらに、この研究はデータ駆動工学の実装を実際に標準化するための理論的基礎を構築している。 Data-driven engineering refers to systematic data collection and processing using machine learning to improve engineering systems. Currently, the implementation of data-driven engineering relies on fundamental data science and software engineering skills. At the same time, model-based engineering is gaining relevance for the engineering of complex systems. In previous work, a model-based engineering approach integrating the formalization of machine learning tasks using the general-purpose modeling language SysML is presented. However, formalized machine learning tasks still require the implementation in a specialized programming languages like Python. Therefore, this work aims to facilitate the implementation of data-driven engineering in practice by extending the previous work of formalizing machine learning tasks by integrating model transformation to generate executable code. The method focuses on the modifiability and maintainability of the model transformation so that extensions and changes to the code generation can be integrated without requiring modifications to the code generator. The presented method is evaluated for feasibility in a case study to predict weather forecasts. Based thereon, quality attributes of model transformations are assessed and discussed. Results demonstrate the flexibility and the simplicity of the method reducing efforts for implementation. Further, the work builds a theoretical basis for standardizing data-driven engineering implementation in practice. | 翻訳日:2023-07-13 16:06:30 公開日:2023-07-10 |
# dbfed: ドメインに依存しないデバイアスフェデレーション学習フレームワーク DBFed: Debiasing Federated Learning Framework based on Domain-Independent ( http://arxiv.org/abs/2307.05582v1 ) ライセンス: Link先を確認 | Jiale Li, Zhixin Li, Yibo Wang, Yao Li, Lei Wang | (参考訳) デジタルトランスフォーメーションが進むにつれて、企業は大量のデータを生成、管理、保存し、人工知能技術は急速に進歩している。
しかし、これは情報セキュリティとデータセキュリティに課題をもたらす。
データセキュリティは、そのライフサイクル全体を通して、不正アクセス、損害、盗難などからのデジタル情報の保護を指す。
データセキュリティ法の公布と実装、組織とユーザによるデータセキュリティとデータプライバシの重視により、連合学習で代表されるプライバシ保護技術は、幅広いアプリケーションシナリオを持つ。
Federated Learningは分散機械学習コンピューティングフレームワークで、複数の被験者がデータを共有せずにジョイントモデルをトレーニングし、データのプライバシを保護し、データアイランドの問題を解決する。
しかし、複数の被験者間のデータは互いに独立しており、品質の差は、複数の被験者間でのデータバイアスのような連合学習モデルにおいて公平性の問題を引き起こす可能性がある。
そこで我々は,dbfed を提案する。dbfed は,クライアント側のトレーニング中に機密属性を明示的にエンコードすることにより,モデルバイアスを軽減し,ドメインに依存しない分散学習フレームワークである。
本稿では,3つの実データセットについて実験を行い,モデルの効果を定量化するために5つの評価指標を用いた。
DBFedの指標のほとんどは、他の3つの比較手法の指標を超え、DBFedのデバイアス効果を完全に証明している。 As digital transformation continues, enterprises are generating, managing, and storing vast amounts of data, while artificial intelligence technology is rapidly advancing. However, it brings challenges in information security and data security. Data security refers to the protection of digital information from unauthorized access, damage, theft, etc. throughout its entire life cycle. With the promulgation and implementation of data security laws and the emphasis on data security and data privacy by organizations and users, Privacy-preserving technology represented by federated learning has a wide range of application scenarios. Federated learning is a distributed machine learning computing framework that allows multiple subjects to train joint models without sharing data to protect data privacy and solve the problem of data islands. However, the data among multiple subjects are independent of each other, and the data differences in quality may cause fairness issues in federated learning modeling, such as data bias among multiple subjects, resulting in biased and discriminatory models. Therefore, we propose DBFed, a debiasing federated learning framework based on domain-independent, which mitigates model bias by explicitly encoding sensitive attributes during client-side training. This paper conducts experiments on three real datasets and uses five evaluation metrics of accuracy and fairness to quantify the effect of the model. Most metrics of DBFed exceed those of the other three comparative methods, fully demonstrating the debiasing effect of DBFed. | 翻訳日:2023-07-13 16:06:15 公開日:2023-07-10 |
# 特徴エンコーディングがマルウェア分類説明性に及ぼす影響 Impact of Feature Encoding on Malware Classification Explainability ( http://arxiv.org/abs/2307.05614v1 ) ライセンス: Link先を確認 | Elyes Manai, Mohamed Mejri and Jaouhar Fattahi | (参考訳) 本稿では,特徴符号化技術がXAI(Explainable Artificial Intelligence)アルゴリズムの説明可能性に与える影響について検討する。
マルウェア分類データセットを用いてXGBoostモデルを訓練し、ラベルエンコーディング(LE)とOne Hot Encoding(OHE)の2つの特徴符号化手法の性能を比較した。
LEの代わりにOHEを用いた場合, 限界性能低下が認められた。
しかし、OHEが提供するより詳細な説明はこの損失を補った。
oheは、グローバルとローカルの両方のコンテキストで詳細を深く探究し、より包括的な回答を促進する。
また,OHEの使用により説明ファイルが小さくなり,分析時間が短縮されることがわかった。
これらの知見は,XAI研究における特徴符号化技術を検討することの重要性を強調し,新たな符号化手法と革新的な可視化手法を取り入れることで,さらなる探索の可能性を提案する。 This paper investigates the impact of feature encoding techniques on the explainability of XAI (Explainable Artificial Intelligence) algorithms. Using a malware classification dataset, we trained an XGBoost model and compared the performance of two feature encoding methods: Label Encoding (LE) and One Hot Encoding (OHE). Our findings reveal a marginal performance loss when using OHE instead of LE. However, the more detailed explanations provided by OHE compensated for this loss. We observed that OHE enables deeper exploration of details in both global and local contexts, facilitating more comprehensive answers. Additionally, we observed that using OHE resulted in smaller explanation files and reduced analysis time for human analysts. These findings emphasize the significance of considering feature encoding techniques in XAI research and suggest potential for further exploration by incorporating additional encoding methods and innovative visualization approaches. | 翻訳日:2023-07-13 15:55:30 公開日:2023-07-10 |
# 機械的に決定された宇宙の夜空」に逆らう:なぜボームはボヘミア人ではなかったのか Against the "nightmare of a mechanically determined universe": Why Bohm was never a Bohmian ( http://arxiv.org/abs/2307.05611v1 ) ライセンス: Link先を確認 | Flavio Del Santo and Gerd Christian Krizek | (参考訳) デビッド・ボーム(David Bohm)は量子物理学の最初の決定論的解釈を提唱し、このために彼は物理学者(同時代人や彼の解釈の支持者であるボヘミア人)や物理学史家によって決定論のチャンピオンと見なされている。
標準的な物語は、彼はボーアの支持者から、アインシュタインとの交流とマルクス主義へのコミットメントから、頑固な決定論者への「転換」を受けたというものである。
ここでは、ボームがキャリアを通して、機械的決定論の強い拒絶を含む哲学的信条を実際に支持していることを示します。
したがって、ボームは決してボヘミア人ではなく、彼の哲学的見解はほとんど誤解されていると結論づける。 David Bohm has put forward the first deterministic interpretation of quantum physics, and for this he seems to be regarded as a champion of determinism by physicists (both his contemporaries and the supporters of his interpretation, the so-called "Bohmians") as well as by historians of physics. The standard narrative is that he underwent a "conversion" from being a supporter of Bohr to being a staunch determinist, due to his interaction with Einstein and his commitment to Marxism. Here we show that Bohm actually upheld with continuity throughout his career some philosophical tenets that included a strong rejection of mechanistic determinism. As such, we conclude that Bohm was never a Bohmian and that his philosophical views have been largely misinterpreted. | 翻訳日:2023-07-13 15:55:16 公開日:2023-07-10 |
# 非定常自動入札システムにおけるオンライン広告調達 Online Ad Procurement in Non-stationary Autobidding Worlds ( http://arxiv.org/abs/2307.05698v1 ) ライセンス: Link先を確認 | Jason Cheuk Nam Liang, Haihao Lu, Baoyu Zhou | (参考訳) 今日のオンライン広告主は、自動入札プラットフォームと対話することでデジタル広告のインプレッションを得られる。広告主は予算、目標投資、クリック当たりの最大コストなどのレバーを設定することで、高いレベルの調達目標を伝達する。
その後、広告プラットフォームは広告主に代わってインプレッションを取得し、最終的な調達コンバージョン(例えばクリック)を広告主に報告する。
実際には、広告主はプラットフォームの調達の詳細について最小限の情報を受け取ることができ、調達結果は季節的なパターン、時々のシステム腐敗、そして広告主がレバー決定を効果的に最適化することを困難にする市場動向のような非定常的な要因に該当する。
そこで本研究では,非定常調達結果を伴う現実的なバンディットフィードバック環境において,広告主が広告プラットフォームのレバー決定を動的に最適化するのを支援するオンライン学習フレームワークを提案する。
特に,複数次元決定変数,帯域幅フィードバック,長期不確実な制約を用いたオンライン意思決定のための原始双対アルゴリズムを提案する。
本手法は, 確率的, 敵対的, 敵対的腐敗, 周期的, エルゴード的な手続きによって調達結果が生成される場合, どの手続きが基礎的真理であるかを知ることなく, 少ない後悔が得られることを示す。
最後に,提案するアルゴリズムと理論的結果が,オンライン広告の応用を超えたものであることを強調する。 Today's online advertisers procure digital ad impressions through interacting with autobidding platforms: advertisers convey high level procurement goals via setting levers such as budget, target return-on-investment, max cost per click, etc.. Then ads platforms subsequently procure impressions on advertisers' behalf, and report final procurement conversions (e.g. click) to advertisers. In practice, advertisers may receive minimal information on platforms' procurement details, and procurement outcomes are subject to non-stationary factors like seasonal patterns, occasional system corruptions, and market trends which make it difficult for advertisers to optimize lever decisions effectively. Motivated by this, we present an online learning framework that helps advertisers dynamically optimize ad platform lever decisions while subject to general long-term constraints in a realistic bandit feedback environment with non-stationary procurement outcomes. In particular, we introduce a primal-dual algorithm for online decision making with multi-dimension decision variables, bandit feedback and long-term uncertain constraints. We show that our algorithm achieves low regret in many worlds when procurement outcomes are generated through procedures that are stochastic, adversarial, adversarially corrupted, periodic, and ergodic, respectively, without having to know which procedure is the ground truth. Finally, we emphasize that our proposed algorithm and theoretical results extend beyond the applications of online advertising. | 翻訳日:2023-07-13 15:27:49 公開日:2023-07-10 |
# 正確に可溶な散逸性スピン液体 An exactly solvable dissipative spin liquid ( http://arxiv.org/abs/2307.05743v1 ) ライセンス: Link先を確認 | Henry Shackleton and Mathias S. Scheurer | (参考訳) スピン液体基底状態を持つ厳密に解けるハミルトニアンは、相互作用するスピンの系でこれらの相が生じることを明白に示すだけでなく、概念の教育的な図示として、さらに理論解析のための制御された出発点として、非常に有用であることが証明されている。
しかし、環境に散逸結合を加えることは、これらのフェーズを実現する上で重要な側面である。
そこで我々は,環境への散逸結合を持つ正方格子スピン液体を記述するリンドブラジアンについて,静的な$\mathbb{z}_2$ゲージ場に結合したマヨラナフェルミオンについて,厳密な解を求める。
この解により、リンドブラディアンスペクトル内の「準粒子」励起と同様に定常解を特徴づけることができる。
このリンドブラディアンの異なるタイプの準粒子励起の出現は、観測可能な異なるクラスの期待値の平衡時間を管理する時間スケールの分離につながる。
この正確に可解なリンドブラジアンは、散逸時間発展の下での分数化されたシステムの挙動をよりよく理解するための出発点となることが期待されている。 Exactly solvable Hamiltonians with spin liquid ground states have proven to be extremely useful, not only because they unambiguously demonstrate that these phases can arise in systems of interacting spins but also as a pedagogical illustration of the concept and as a controlled starting point for further theoretical analysis. However, adding dissipative couplings to the environment - an important aspect for the realization of these phases - generically spoils the exact solvability. We here present and study a Lindbladian, describing a square-lattice spin-liquid with dissipative coupling to the environment, that admits an exact solution in terms of Majorana fermions coupled to static $\mathbb{Z}_2$ gauge fields. This solution allows us to characterize the steady-state solutions as well as ``quasiparticle'' excitations within the Lindbladian spectrum. This emergence of distinct types of quasiparticle excitations of the Lindbladian leads to a separation of timescales that govern the equilibration time of the expectation values of different classes of observables, some of which we identify as fractionalized string-like operators. This exactly solvable Lindbladian is expected to provide a starting point for a better understanding of the behavior of fractionalized systems under dissipative time evolution. | 翻訳日:2023-07-13 15:18:19 公開日:2023-07-10 |
# オンライン求人勧告におけるグラフデータ理解のための大規模言語モデルの検討 Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations ( http://arxiv.org/abs/2307.05722v1 ) ライセンス: Link先を確認 | Likang Wu, Zhaopeng Qiu, Zhi Zheng, Hengshu Zhu, and Enhong Chen | (参考訳) 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらし、様々な領域でその例外的な能力を実証している。
しかし、仕事の推薦における行動グラフ理解の可能性はほとんど未解明のままである。
本稿では、行動グラフの理解における大規模言語モデルの能力を明らかにすることに焦点を当て、この理解を活用してオンライン採用における推薦を強化することを目的とした。
本稿では,大規模言語モデルが提供する豊かな文脈情報と意味表現を活用し,行動グラフを分析し,基礎となるパターンと関係を明らかにする新しい枠組みを提案する。
具体的には,llmレコメンデータを利用して行動グラフを初めて理解し,対応する経路拡張モジュールを設計し,経路に基づくシーケンス入力によって引き起こされるプロンプトバイアスを軽減するメタパスプロンプトコンストラクタを提案する。
この機能を活用すれば、個々のユーザに対してパーソナライズされ、正確なジョブレコメンデーションが可能になります。
提案手法の有効性を包括的データセットで評価し、推奨品質の妥当性と品質を向上させる能力を示す。
この研究は、大規模言語モデルの未完成の可能性だけでなく、採用市場における高度なレコメンデーションシステムの開発にも有用な洞察を提供する。
本研究は, 自然言語処理の分野の拡大に寄与し, 求職経験の向上に実際的な意味合いを与える。 Large Language Models (LLMs) have revolutionized natural language processing tasks, demonstrating their exceptional capabilities in various domains. However, their potential for behavior graph understanding in job recommendations remains largely unexplored. This paper focuses on unveiling the capability of large language models in understanding behavior graphs and leveraging this understanding to enhance recommendations in online recruitment, including the promotion of out-of-distribution (OOD) application. We present a novel framework that harnesses the rich contextual information and semantic representations provided by large language models to analyze behavior graphs and uncover underlying patterns and relationships. Specifically, we propose a meta-path prompt constructor that leverages LLM recommender to understand behavior graphs for the first time and design a corresponding path augmentation module to alleviate the prompt bias introduced by path-based sequence input. By leveraging this capability, our framework enables personalized and accurate job recommendations for individual users. We evaluate the effectiveness of our approach on a comprehensive dataset and demonstrate its ability to improve the relevance and quality of recommended quality. This research not only sheds light on the untapped potential of large language models but also provides valuable insights for developing advanced recommendation systems in the recruitment market. The findings contribute to the growing field of natural language processing and offer practical implications for enhancing job search experiences. | 翻訳日:2023-07-13 15:16:12 公開日:2023-07-10 |
# 一般化線形バンディットにおけるランダム化探索 Randomized Exploration in Generalized Linear Bandits ( http://arxiv.org/abs/1906.08947v3 ) ライセンス: Link先を確認 | Branislav Kveton, Manzil Zaheer, Csaba Szepesvari, Lihong Li, Mohammad Ghavamzadeh, and Craig Boutilier | (参考訳) 一般化線形帯域に対する2つのランダム化アルゴリズムについて検討する。
最初のGLM-TSLは、ラプラス近似から後方分布への一般化線形モデル(GLM)をサンプリングする。
第2のGLM-FPLは、過去の報酬のランダムな摂動履歴にGLMを適合させる。
どちらのアルゴリズムも解析し、$n$ラウンドの後悔に対して$\tilde{o}(d \sqrt{n \log k})$上限を導出します。
前者は先行作業を改善し、後者は非線形モデルにおけるガウス雑音摂動の最初の例である。
我々は,GLM-TSLとGLM-FPLの両方をロジスティックブレイトで実験的に評価し,GLM-FPLをニューラルネットワークブレイトに適用した。
我々の研究は、探索における後部サンプリング以上のランダム化の役割を示す。 We study two randomized algorithms for generalized linear bandits. The first, GLM-TSL, samples a generalized linear model (GLM) from the Laplace approximation to the posterior distribution. The second, GLM-FPL, fits a GLM to a randomly perturbed history of past rewards. We analyze both algorithms and derive $\tilde{O}(d \sqrt{n \log K})$ upper bounds on their $n$-round regret, where $d$ is the number of features and $K$ is the number of arms. The former improves on prior work while the latter is the first for Gaussian noise perturbations in non-linear models. We empirically evaluate both GLM-TSL and GLM-FPL in logistic bandits, and apply GLM-FPL to neural network bandits. Our work showcases the role of randomization, beyond posterior sampling, in exploration. | 翻訳日:2023-07-12 19:42:48 公開日:2023-07-10 |
# 確率線形帯域における摂動履歴探査 Perturbed-History Exploration in Stochastic Linear Bandits ( http://arxiv.org/abs/1903.09132v2 ) ライセンス: Link先を確認 | Branislav Kveton, Csaba Szepesvari, Mohammad Ghavamzadeh, and Craig Boutilier | (参考訳) 確率線形帯域における累積後悔最小化のための新しいオンラインアルゴリズムを提案する。
アルゴリズムは、摂動履歴に基づいて訓練された線形モデルにおいて、最も高い推定報酬でアームを引っ張る。
そのため,リニア・バンディット (linphe) における摂動・歴史探査と呼ぶ。
摂動歴史は観察された報酬とランダムに生成された擬似逆転の混合である。
我々は、LinPHE の $n$-round regret 上の $\tilde{O}(d \sqrt{n})$ gap-free bound を導出する。
我々の分析における重要なステップは、ベルヌーイ確率変数の重み付け和上の新しい濃度と反濃度境界である。
設計の一般性を示すため、LinPHEをロジスティックモデルに一般化する。
アルゴリズムを実証的に評価し,実用的であることを示す。 We propose a new online algorithm for cumulative regret minimization in a stochastic linear bandit. The algorithm pulls the arm with the highest estimated reward in a linear model trained on its perturbed history. Therefore, we call it perturbed-history exploration in a linear bandit (LinPHE). The perturbed history is a mixture of observed rewards and randomly generated i.i.d. pseudo-rewards. We derive a $\tilde{O}(d \sqrt{n})$ gap-free bound on the $n$-round regret of LinPHE, where $d$ is the number of features. The key steps in our analysis are new concentration and anti-concentration bounds on the weighted sum of Bernoulli random variables. To show the generality of our design, we generalize LinPHE to a logistic model. We evaluate our algorithms empirically and show that they are practical. | 翻訳日:2023-07-12 19:42:32 公開日:2023-07-10 |
# 話者・言語・チャンネル情報についてエンド・ツー・エンド音声モデルは何を学ぶか
層状及びニューロンレベルの解析 What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis ( http://arxiv.org/abs/2107.00439v3 ) ライセンス: Link先を確認 | Shammur Absar Chowdhury, Nadir Durrani, Ahmed Ali | (参考訳) ディープニューラルネットワークは本質的に不透明で解釈が難しい。
手作りの機能ベースのモデルとは異なり、私たちは学習した概念とそれらのモデルがどのように相互作用するかを理解するのに苦労しています。
この理解は、デバッグ目的だけでなく、倫理的意思決定における公平性の確保にも不可欠である。
本研究では,probing framework [1] を用いた事前学習音声モデルのポストホック機能解釈解析を行った。
具体的には、話者認識や方言識別などの様々なタスクのために訓練された音声モデルの発話レベル表現を分析する。
層およびニューロンごとに分析を行い,話者,言語,チャネル特性の探索を行う。
我々の研究は以下の質問に答えることを目的としている。
i) 表現の中でどのような情報が取得されているか。
ii)どのように表現され、配布されているか。
そして
iii)この情報を持つネットワークの最小部分集合を特定できるか。
以上の結果から,いくつかの新たな知見が得られた。
一 チャネル及び性別情報がネットワーク全体に分布していること。
二 情報は、課題に関するニューロンにおいて冗長に利用できること。
三 弁証情報等の複雑な性質は、タスク指向事前訓練ネットワークにおいてのみ符号化される。
四 上層に局在する。
v) 予め定義された特性をコードするニューロンの最小サブセットを抽出できる。
六 有能ニューロンは、しばしば特性間で共有される。
vii)我々の分析は、ネットワークにおけるバイアス(例えば性別)の存在を強調します。
私たちのクロスアーキテクチャ比較は、次のように示しています。
一 事前訓練されたモデルは、話者不変情報を捕捉し、
ii) cnnモデルは、様々な未熟な特性を符号化するトランスフォーマーモデルと競合している。 Deep neural networks are inherently opaque and challenging to interpret. Unlike hand-crafted feature-based models, we struggle to comprehend the concepts learned and how they interact within these models. This understanding is crucial not only for debugging purposes but also for ensuring fairness in ethical decision-making. In our study, we conduct a post-hoc functional interpretability analysis of pretrained speech models using the probing framework [1]. Specifically, we analyze utterance-level representations of speech models trained for various tasks such as speaker recognition and dialect identification. We conduct layer and neuron-wise analyses, probing for speaker, language, and channel properties. Our study aims to answer the following questions: i) what information is captured within the representations? ii) how is it represented and distributed? and iii) can we identify a minimal subset of the network that possesses this information? Our results reveal several novel findings, including: i) channel and gender information are distributed across the network, ii) the information is redundantly available in neurons with respect to a task, iii) complex properties such as dialectal information are encoded only in the task-oriented pretrained network, iv) and is localised in the upper layers, v) we can extract a minimal subset of neurons encoding the pre-defined property, vi) salient neurons are sometimes shared between properties, vii) our analysis highlights the presence of biases (for example gender) in the network. Our cross-architectural comparison indicates that: i) the pretrained models capture speaker-invariant information, and ii) CNN models are competitive with Transformer models in encoding various understudied properties. | 翻訳日:2023-07-12 19:39:00 公開日:2023-07-10 |
# 昇給するか否か: 自律的な学習率の問題 To Raise or Not To Raise: The Autonomous Learning Rate Question ( http://arxiv.org/abs/2106.08767v3 ) ライセンス: Link先を確認 | Xiaomeng Dong, Tao Tan, Michael Potter, Yun-Chan Tsai, Gaurav Kumar, V. Ratna Saripalli, Theodore Trafalis | (参考訳) ディープラーニングの世界に共通するパラメータは、学習率である。
同様に、ユビキタスな疑問があります。その学習率は何なのか?
この質問に対する真の答えは、しばしば退屈で時間を要するものであり、最適なトレーニング性能を達成するために学習率を選び、修正する方法に関して、近年、多くの難解な知識が蓄積されている。
さらに、完璧な学習率を慎重に作り出すのに費やす時間は、ネットワークアーキテクチャ、オプティマイザ、データセット、初期条件がこれほど微妙に変わる瞬間に何ら変わりません。
しかし、そうする必要はない。
本稿では,自律学習率コントローラという,学習率に関する質問に対する新しい回答を提案する。
https://github.com/fastestimator/arc/tree/v2.0を参照。 There is a parameter ubiquitous throughout the deep learning world: learning rate. There is likewise a ubiquitous question: what should that learning rate be? The true answer to this question is often tedious and time consuming to obtain, and a great deal of arcane knowledge has accumulated in recent years over how to pick and modify learning rates to achieve optimal training performance. Moreover, the long hours spent carefully crafting the perfect learning rate can come to nothing the moment your network architecture, optimizer, dataset, or initial conditions change ever so slightly. But it need not be this way. We propose a new answer to the great learning rate question: the Autonomous Learning Rate Controller. Find it at https://github.com/fastestimator/ARC/tree/v2.0 | 翻訳日:2023-07-12 19:38:45 公開日:2023-07-10 |
# ランダム一次元探索による拡張の自動化 Automating Augmentation Through Random Unidimensional Search ( http://arxiv.org/abs/2106.08756v3 ) ライセンス: Link先を確認 | Xiaomeng Dong, Michael Potter, Gaurav Kumar, Yun-Chan Tsai, V. Ratna Saripalli, Theodore Trafalis | (参考訳) ディープラーニングの研究者の間では、トレーニング中に最適なデータ拡張戦略を見つけることは、最先端のパフォーマンスと実行結果の違いを意味することは秘密ではない。
そのために、コミュニティは、手元にあるタスクに対して完璧な拡張手順を見つけるプロセスを自動化する多くの努力を目の当たりにしてきた。
残念なことに、最新の最先端の手法でさえ計算オーバーヘッドが大きくなり、理想的な設定をするためには100のフルモデルトレーニングが必要になる。
ランダム一次元拡張を用いた6つのトレーニングで同等のパフォーマンスを実現する方法を示す。
ソースコードはhttps://github.com/fastestimator/RUA/tree/v1.0で入手できる。 It is no secret amongst deep learning researchers that finding the optimal data augmentation strategy during training can mean the difference between state-of-the-art performance and a run-of-the-mill result. To that end, the community has seen many efforts to automate the process of finding the perfect augmentation procedure for any task at hand. Unfortunately, even recent cutting-edge methods bring massive computational overhead, requiring as many as 100 full model trainings to settle on an ideal configuration. We show how to achieve equivalent performance using just 6 trainings with Random Unidimensional Augmentation. Source code is available at https://github.com/fastestimator/RUA/tree/v1.0 | 翻訳日:2023-07-12 19:38:33 公開日:2023-07-10 |
# 単一センサ加速度計を用いたデュシェンヌ筋ジストロフィー(DMD)の歩行特性:古典的機械学習とディープラーニングアプローチ Gait Characterization in Duchenne Muscular Dystrophy (DMD) Using a Single-Sensor Accelerometer: Classical Machine Learning and Deep Learning Approaches ( http://arxiv.org/abs/2105.06295v3 ) ライセンス: Link先を確認 | Albara Ah Ramli, Xin Liu, Kelly Berndt, Erica Goude, Jiahui Hou, Lynea B. Kaethler, Rex Liu, Amanda Lopez, Alina Nicorici, Corey Owens, David Rodriguez, Jane Wang, Huanle Zhang, Daniel Aranki, Craig M. McDonald, Erik K. Henricson | (参考訳) デュシェンヌ型筋ジストロフィー (DMD) と典型的発達障害 (TD) の小児の歩行パターンの相違は目に見えるが, 歩行実験室外におけるこれらの相違の定量化が示唆されている。
そこで本研究では, 縦方向, 縦方向, 横方向の加速度を, ウエストウォーン式iphone加速度計を用いて測定した。
6分間の歩行試験(6mwt)、100mの高速歩行/ジョギング/ランニング(100mw)、フリーウォーク(fw)の計5回の歩行/ランニング速度調整試験(sc-l1からsc-l5)を含む、年齢3~16歳の15人のtdと15人のdmd児童が8回の歩行/ランニング活動を行った。
臨床アンカーのために、参加者はNorthstar Ambulatory Assessment (NSAA)を完了した。
DMDとTD児を区別するために, 抽出した時間空間歩行 CF と生データを用いて, 時間空間歩行 臨床特徴 (CF) を抽出し, 複数の機械学習 (ML) アプローチを適用した。
抽出した時間空間歩行CFは, 歩幅が減少し, 総力(TP)の縦横方向成分が短く, トレンテレンバーグ様歩行はDMDでよく見られる。
時間空間歩行CFと生データを用いたML手法は,DMD制御とTD制御の異なる速度での判別において,最大100%の精度で有効性を示した。
幼児から10代までのDMD関連歩行特性を,スマートフォンの加速度計データを用いたMLを用いて把握できることを実証した。 Differences in gait patterns of children with Duchenne muscular dystrophy (DMD) and typically-developing (TD) peers are visible to the eye, but quantifications of those differences outside of the gait laboratory have been elusive. In this work, we measured vertical, mediolateral, and anteroposterior acceleration using a waist-worn iPhone accelerometer during ambulation across a typical range of velocities. Fifteen TD and fifteen DMD children from 3-16 years of age underwent eight walking/running activities, including five 25 meters walk/run speed-calibration tests at a slow walk to running speeds (SC-L1 to SC-L5), a 6-minute walk test (6MWT), a 100 meters fast-walk/jog/run (100MRW), and a free walk (FW). For clinical anchoring purposes, participants completed a Northstar Ambulatory Assessment (NSAA). We extracted temporospatial gait clinical features (CFs) and applied multiple machine learning (ML) approaches to differentiate between DMD and TD children using extracted temporospatial gait CFs and raw data. Extracted temporospatial gait CFs showed reduced step length and a greater mediolateral component of total power (TP) consistent with shorter strides and Trendelenberg-like gait commonly observed in DMD. ML approaches using temporospatial gait CFs and raw data varied in effectiveness at differentiating between DMD and TD controls at different speeds, with an accuracy of up to 100%. We demonstrate that by using ML with accelerometer data from a consumer-grade smartphone, we can capture DMD-associated gait characteristics in toddlers to teens. | 翻訳日:2023-07-12 19:38:22 公開日:2023-07-10 |
# 要素の知性が低くなればなるほど、全体として知性が高まる。
それとも、そうじゃないの? The Less Intelligent the Elements, the More Intelligent the Whole. Or, Possibly Not? ( http://arxiv.org/abs/2012.12689v2 ) ライセンス: Link先を確認 | Guido Fioretti, Andrea Policarpi | (参考訳) 我々は、脳内のニューロンと社会内の人間の間のレヴィアサンの類推を探求し、集団知能が出現するために個人の知能が不可欠かどうか、そして最も重要なことは、個々の知能がより大きな集団知能のどんなものなのかを自問する。
まず,コネクショニスト認知科学,エージェントベースモデリング,グループ心理学,経済学,物理のさまざまな知見を概観する。
その後、これらの知見を、ロトカ・ボルテラモデルにおける捕食者と獲物の共存または世界的絶滅につながる知性の種類と程度に適用する。
その結果、複数の行動(特に捕食者の行動)が共存に結び付き、最終的には平衡付近の振動を伴うことが判明した。
しかし、獲物と捕食者の両方が、お互いの行動を外挿するのに十分な知性を持っている場合、共存は両集団の不確定な成長とともに生じる。
Lotka-Volterraモデルもまた、ビジネスサイクルを表すものとして解釈されているため、この発見は発振に関する経済成長の条件として理解されている。
特に, 先進社会は, 人口の少なくとも一部において, 貯蓄と投資に基づく資本主義的未来志向の思考が, 無限に成長したとは考えていない。 We explore a Leviathan analogy between neurons in a brain and human beings in society, asking ourselves whether individual intelligence is necessary for collective intelligence to emerge and, most importantly, what sort of individual intelligence is conducive of greater collective intelligence. We first review disparate insights from connectionist cognitive science, agent-based modeling, group psychology, economics and physics. Subsequently, we apply these insights to the sort and degrees of intelligence that in the Lotka-Volterra model lead to either co-existence or global extinction of predators and preys. We find several individual behaviors -- particularly of predators -- that are conducive to co-existence, eventually with oscillations around an equilibrium. However, we also find that if both preys and predators are sufficiently intelligent to extrapolate one other's behavior, co-existence comes along with indefinite growth of both populations. Since the Lotka-Volterra model is also interpreted to represent the business cycle, we understand this finding as a condition for economic growth around oscillations. Specifically, we hypothesize that pre-modern societies may not have exhibited limitless growth also because capitalistic future-oriented thinking based on saving and investing concerned at most a fraction of the population. | 翻訳日:2023-07-12 19:37:07 公開日:2023-07-10 |
# ツリーフォーマーによる木の形成 Forming Trees with Treeformers ( http://arxiv.org/abs/2207.06960v2 ) ライセンス: Link先を確認 | Nilay Patel and Jeffrey Flanigan | (参考訳) 人間の言語はネストした階層構造で知られており、より小さな部分から複雑な文を作ることができます。
しかし、Transformersのような最先端のニューラルネットワークモデルの多くは、アーキテクチャに明確な階層構造を持たず、階層構造に対する帰納的バイアスを持たない。
さらに、トランスフォーマーはそのような構造を必要とする構成的一般化タスクでは不十分に機能することが知られている。
本稿では,CKYアルゴリズムにインスパイアされた汎用エンコーダモジュールであるTreeformerを紹介し,合成演算子とプール関数を学習し,句や文の階層的エンコーダを構築する。
本研究では,トランスフォーマーに階層構造を組み込むことの利点を実証し,機械翻訳,抽象要約,各種自然言語理解タスクなどの下流タスクと同様に,構成一般化の大幅な改善を示す。 Human language is known to exhibit a nested, hierarchical structure, allowing us to form complex sentences out of smaller pieces. However, many state-of-the-art neural networks models such as Transformers have no explicit hierarchical structure in its architecture -- that is, they don't have an inductive bias toward hierarchical structure. Additionally, Transformers are known to perform poorly on compositional generalization tasks which require such structures. In this paper, we introduce Treeformer, a general-purpose encoder module inspired by the CKY algorithm which learns a composition operator and pooling function to construct hierarchical encodings for phrases and sentences. Our extensive experiments demonstrate the benefits of incorporating hierarchical structure into the Transformer and show significant improvements in compositional generalization as well as in downstream tasks such as machine translation, abstractive summarization, and various natural language understanding tasks. | 翻訳日:2023-07-12 19:29:41 公開日:2023-07-10 |
# kmax-deeplab:k-meansマスクトランスフォーマー kMaX-DeepLab: k-means Mask Transformer ( http://arxiv.org/abs/2207.04044v5 ) ライセンス: Link先を確認 | Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen | (参考訳) ビジョンタスクにおけるトランスフォーマーの台頭は、ネットワークバックボーンの設計を進歩させるだけでなく、エンドツーエンドの画像認識(オブジェクト検出やパノプティックセグメンテーションなど)を実現するための新しいページも開始する。
自然言語処理(NLP)から派生したトランスフォーマーアーキテクチャは、配列内の要素間の長距離相互作用を効果的に学習する。
しかし、既存のトランスフォーマーベースの視覚モデルは、言語と画像、特に空間的に平坦なピクセル特徴の非常に大きなシーケンス長の違いを無視して、単にnlpからアイデアを借用しているだけである。
これはその後、ピクセル機能とオブジェクトクエリの相互接続における学習を妨げる。
本稿では,画素とオブジェクトクエリの関係を再考し,クラスタリングプロセスとしてのクロスアテンション学習の再構築を提案する。
従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformer(kMaX-DeepLab)を開発した。
その結果、当社のkMaX-DeepLabは、58.0% PQのCOCO val、68.4% PQ、44.0% AP、83.5% mIoUのCityscapes val、50.9% PQ、55.2% mIoUのADE20K val、テスト時間拡張または外部データセットなしで、新しい最先端のパフォーマンスを実現した。
私たちは、視覚タスクに適したトランスフォーマーの設計に光を当てられることを願っています。
TensorFlowコードとモデルはhttps://github.com/google-research/deeplab2で利用可能 PyTorchの再実装もhttps://github.com/bytedance/kmax-deeplabで利用可能である。 The rise of transformers in vision tasks not only advances network backbone designs, but also starts a brand-new page to achieve end-to-end image recognition (e.g., object detection and panoptic segmentation). Originated from Natural Language Processing (NLP), transformer architectures, consisting of self-attention and cross-attention, effectively learn long-range interactions between elements in a sequence. However, we observe that most existing transformer-based vision models simply borrow the idea from NLP, neglecting the crucial difference between languages and images, particularly the extremely large sequence length of spatially flattened pixel features. This subsequently impedes the learning in cross-attention between pixel features and object queries. In this paper, we rethink the relationship between pixels and object queries and propose to reformulate the cross-attention learning as a clustering process. Inspired by the traditional k-means clustering algorithm, we develop a k-means Mask Xformer (kMaX-DeepLab) for segmentation tasks, which not only improves the state-of-the-art, but also enjoys a simple and elegant design. As a result, our kMaX-DeepLab achieves a new state-of-the-art performance on COCO val set with 58.0% PQ, Cityscapes val set with 68.4% PQ, 44.0% AP, and 83.5% mIoU, and ADE20K val set with 50.9% PQ and 55.2% mIoU without test-time augmentation or external dataset. We hope our work can shed some light on designing transformers tailored for vision tasks. TensorFlow code and models are available at https://github.com/google-research/deeplab2 A PyTorch re-implementation is also available at https://github.com/bytedance/kmax-deeplab | 翻訳日:2023-07-12 19:29:27 公開日:2023-07-10 |
# 集団プライバシ回復:分散型人工知能によるデータ共有コーディネーション Collective Privacy Recovery: Data-sharing Coordination via Decentralized Artificial Intelligence ( http://arxiv.org/abs/2301.05995v2 ) ライセンス: Link先を確認 | Evangelos Pournaras, Mark Christopher Ballandies, Stefano Bennati, Chien-fei Chen | (参考訳) 集団的プライバシー喪失は、個人的な自由と民主主義の緊急問題となる。
しかし、私たちは個人情報を希少なリソースとして扱い、原則の下でデータをまとめて共有する準備ができていますか?
データ集合である個人集団が、必要な品質でオンラインサービスを実行するための最小限のデータを共有するために調整した場合、プライバシの回復が著しいと仮定する。
ここでは、分散人工知能を用いたプライバシー回復のための複雑な集合的アレンジメントの自動化とスケールアップ方法を紹介する。
そこで我々は,27,000以上の実データ開示を伴う高現実主義の厳密なリビングラボ実験において,初回,内在的,報酬的,協調的なデータ共有を比較した。
因果推論とクラスタ分析を用いて,プライバシの予測基準と5つの重要なデータ共有行動とを区別する。
興味深いことに、データ共有のコーディネーションは、すべての人にとって勝利であることが証明されている。 Collective privacy loss becomes a colossal problem, an emergency for personal freedoms and democracy. But, are we prepared to handle personal data as scarce resource and collectively share data under the doctrine: as little as possible, as much as necessary? We hypothesize a significant privacy recovery if a population of individuals, the data collective, coordinates to share minimum data for running online services with the required quality. Here we show how to automate and scale-up complex collective arrangements for privacy recovery using decentralized artificial intelligence. For this, we compare for first time attitudinal, intrinsic, rewarded and coordinated data sharing in a rigorous living-lab experiment of high realism involving >27,000 real data disclosures. Using causal inference and cluster analysis, we differentiate criteria predicting privacy and five key data-sharing behaviors. Strikingly, data-sharing coordination proves to be a win-win for all: remarkable privacy recovery for people with evident costs reduction for service providers. | 翻訳日:2023-07-12 19:09:03 公開日:2023-07-10 |
# 低リソース言語のための言語横断検索プロンプト Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages ( http://arxiv.org/abs/2212.09651v4 ) ライセンス: Link先を確認 | Ercong Nie, Sheng Liang, Helmut Schmid, Hinrich Sch\"utze | (参考訳) 多言語前訓練言語モデル(mplms)は、最近の経験的言語間移行研究において、その強い多言語性を示している。
本稿では,低リソース言語 (LRL) におけるゼロショット性能を向上させるために,高リソース言語 (HRL) から取得した意味的に類似した文をプロンプトとして拡張することにより,Pmpts Augmented by Retrieval Crosslingually (PARC) パイプラインを提案する。
PARCは3つの下流タスク(バイナリ感情分類、トピック分類、自然言語推論)におけるゼロショットのパフォーマンスを改善し、ラベルなし設定(+5.1%)とラベル付き設定(+16.3%)の6つの言語ファミリーをカバーする10のLRLにわたる多言語並列テストセットを提供する。
PARC-labeledは微調整ベースラインを3.7%上回っている。
その結果,一方の言語間伝達性能と高・低リソース言語間の類似性,他方の低リソースプリトレーニングデータの量との間に有意な相関が認められた。
堅牢性分析は、PARCがより強力なMPLMでさらに強力な性能を達成する可能性を示唆している。 Multilingual Pretrained Language Models (MPLMs) have shown their strong multilinguality in recent empirical cross-lingual transfer studies. In this paper, we propose the Prompts Augmented by Retrieval Crosslingually (PARC) pipeline to improve the zero-shot performance on low-resource languages (LRLs) by augmenting the context with semantically similar sentences retrieved from a high-resource language (HRL) as prompts. PARC improves the zero-shot performance on three downstream tasks (binary sentiment classification, topic categorization and natural language inference) with multilingual parallel test sets across 10 LRLs covering 6 language families in both unlabeled settings (+5.1%) and labeled settings (+16.3%). PARC-labeled also outperforms the finetuning baseline by 3.7%. We find a significant positive correlation between cross-lingual transfer performance on one side, and the similarity between the high- and low-resource languages as well as the amount of low-resource pretraining data on the other side. A robustness analysis suggests that PARC has the potential to achieve even stronger performance with more powerful MPLMs. | 翻訳日:2023-07-12 19:08:04 公開日:2023-07-10 |
# 胸部X線を用いたシームズ表現学習のための画像強化の検討 Exploring Image Augmentations for Siamese Representation Learning with Chest X-Rays ( http://arxiv.org/abs/2301.12636v2 ) ライセンス: Link先を確認 | Rogier van der Sluijs, Nandita Bhaskhar, Daniel Rubin, Curtis Langlotz, Akshay Chaudhari | (参考訳) 画像強化は、自己教師付き学習技術における効果的な視覚的表現学習に不可欠である。
自然画像の増強戦略は広く研究されているが、医療画像は自然画像とは大きく異なる。
このようにして、シャム語表現学習で用いられる共通の強化戦略が、医学的イメージにどの程度一般化するかは不明である。
この課題に対処するために,本研究では,学習した表現の質と堅牢性に対する様々な拡張の効果を体系的に評価する。
3つの大データセット(MIMIC-CXR, CheXpert, VinDR-CXR)にまたがる胸部X線異常検出のためのシームズネットワークの訓練と評価を行った。
線形探索,微調整,ゼロショット転送,データ効率などの実験により,学習表現の有効性を検討した。
最後に,ゼロショットトランスファーと線形プローブを用いた教師ありベースラインを最大20%上回りながら,分散データと疾患の両方によく適合するロバスト表現を導出する拡張集合を同定した。
私たちのコードはhttps://github.com/stanfordmimi/siaugで入手できます。 Image augmentations are quintessential for effective visual representation learning across self-supervised learning techniques. While augmentation strategies for natural imaging have been studied extensively, medical images are vastly different from their natural counterparts. Thus, it is unknown whether common augmentation strategies employed in Siamese representation learning generalize to medical images and to what extent. To address this challenge, in this study, we systematically assess the effect of various augmentations on the quality and robustness of the learned representations. We train and evaluate Siamese Networks for abnormality detection on chest X-Rays across three large datasets (MIMIC-CXR, CheXpert and VinDR-CXR). We investigate the efficacy of the learned representations through experiments involving linear probing, fine-tuning, zero-shot transfer, and data efficiency. Finally, we identify a set of augmentations that yield robust representations that generalize well to both out-of-distribution data and diseases, while outperforming supervised baselines using just zero-shot transfer and linear probes by up to 20%. Our code is available at https://github.com/StanfordMIMI/siaug. | 翻訳日:2023-07-12 19:00:00 公開日:2023-07-10 |
# climax: 気象と気候の基礎モデル ClimaX: A foundation model for weather and climate ( http://arxiv.org/abs/2301.10343v3 ) ライセンス: Link先を確認 | Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K. Gupta, Aditya Grover | (参考訳) 天気と気候のモデリングに対する最先端のアプローチのほとんどは、物理に則った大気の数値モデルに基づいている。
これらのアプローチは、近似が難しい複数の変数間の非線形ダイナミクスと複雑な相互作用をモデル化することを目的としている。
さらに、このような数値モデルの多くは、特に大気現象を微粒な空間分解能と時間分解能でモデル化する場合、計算集約的である。
機械学習に基づく最近のデータ駆動アプローチは、ディープニューラルネットワークを使用してデータ駆動機能マッピングを学習することで、下流の予測や投影タスクを直接解決することを目指している。
しかしながら、これらのネットワークは、特定の時空間的タスクのために、キュレートされた均質な気候データセットを使用して訓練されるため、数値モデルの一般化が欠如している。
さまざまな変数、時空間カバレッジ、物理的接地にまたがる不均質なデータセットを使用してトレーニング可能な、気象と気候科学のための柔軟で汎用的なディープラーニングモデルであるclimaxを開発し、実証する。
ClimaXはTransformerアーキテクチャを拡張し、汎用性を維持しながら利用可能な計算を効果的に利用できる新しいエンコーディングと集約ブロックを提供する。
ClimaXはCMIP6から派生した気候データセットの自己教師型学習目標で事前訓練されている。
事前訓練されたクライマックスは、予訓練中に大気変数や時空間スケールを含む、様々な気候や気象タスクに対処するために微調整することができる。
既存のデータ駆動ベースラインと比較して,ClimaXのこの一般化は,低解像度や計算予算で事前訓練した場合でも,天気予報や気象予報のベンチマークにおいて優れた性能を示すことを示す。
ソースコードはhttps://github.com/microsoft/ClimaXで入手できる。 Most state-of-the-art approaches for weather and climate modeling are based on physics-informed numerical models of the atmosphere. These approaches aim to model the non-linear dynamics and complex interactions between multiple variables, which are challenging to approximate. Additionally, many such numerical models are computationally intensive, especially when modeling the atmospheric phenomenon at a fine-grained spatial and temporal resolution. Recent data-driven approaches based on machine learning instead aim to directly solve a downstream forecasting or projection task by learning a data-driven functional mapping using deep neural networks. However, these networks are trained using curated and homogeneous climate datasets for specific spatiotemporal tasks, and thus lack the generality of numerical models. We develop and demonstrate ClimaX, a flexible and generalizable deep learning model for weather and climate science that can be trained using heterogeneous datasets spanning different variables, spatio-temporal coverage, and physical groundings. ClimaX extends the Transformer architecture with novel encoding and aggregation blocks that allow effective use of available compute while maintaining general utility. ClimaX is pre-trained with a self-supervised learning objective on climate datasets derived from CMIP6. The pre-trained ClimaX can then be fine-tuned to address a breadth of climate and weather tasks, including those that involve atmospheric variables and spatio-temporal scales unseen during pretraining. Compared to existing data-driven baselines, we show that this generality in ClimaX results in superior performance on benchmarks for weather forecasting and climate projections, even when pretrained at lower resolutions and compute budgets. The source code is available at https://github.com/microsoft/ClimaX. | 翻訳日:2023-07-12 18:59:03 公開日:2023-07-10 |
# 配電シフト時のモデル性能診断 Diagnosing Model Performance Under Distribution Shift ( http://arxiv.org/abs/2303.02011v4 ) ライセンス: Link先を確認 | Tiffany Tianhui Cai, Hongseok Namkoong, Steve Yadlowsky | (参考訳) 予測モデルは、トレーニングディストリビューションとは異なるターゲットディストリビューションにデプロイされた場合、パフォーマンスが良くない。
このような運用上の障害モードを理解するために,分散シフト分解 (disde) と呼ばれる手法を開発した。
我々の手法は性能低下を用語に分解する
1) 訓練の難易度が高まるが, 頻繁な実例の増加。
2)特徴と成果の関係の変化,及び
3) 訓練中の実例での成績不良や不注意。
これらの用語は、トレーニングとターゲットの間でy \mid x$の条件分布を変化させながら、y \mid x$の条件分布を固定し、y \mid x$の条件分布をx$で変更することで定義される。
これを実現するために、トレーニングとターゲットの両方で共通する値からなる$X$の仮説分布を定義し、$Y \mid X$と予測性能を比較するのが簡単である。
我々はこの仮説分布について再重み付け手法を用いて評価する。
実証的に、我々の方法がどのようにできるかを示す。
1)表型国勢調査データに基づく雇用予測のための配当シフトにおける潜在的なモデリング改善
2) 特定の領域適応手法が衛星画像分類のモデル性能を向上できない理由を説明する。 Prediction models can perform poorly when deployed to target distributions different from the training distribution. To understand these operational failure modes, we develop a method, called DIstribution Shift DEcomposition (DISDE), to attribute a drop in performance to different types of distribution shifts. Our approach decomposes the performance drop into terms for 1) an increase in harder but frequently seen examples from training, 2) changes in the relationship between features and outcomes, and 3) poor performance on examples infrequent or unseen during training. These terms are defined by fixing a distribution on $X$ while varying the conditional distribution of $Y \mid X$ between training and target, or by fixing the conditional distribution of $Y \mid X$ while varying the distribution on $X$. In order to do this, we define a hypothetical distribution on $X$ consisting of values common in both training and target, over which it is easy to compare $Y \mid X$ and thus predictive performance. We estimate performance on this hypothetical distribution via reweighting methods. Empirically, we show how our method can 1) inform potential modeling improvements across distribution shifts for employment prediction on tabular census data, and 2) help to explain why certain domain adaptation methods fail to improve model performance for satellite image classification. | 翻訳日:2023-07-12 18:50:01 公開日:2023-07-10 |
# I2I: 知識の向上によるアダプタの初期化 I2I: Initializing Adapters with Improvised Knowledge ( http://arxiv.org/abs/2304.02168v2 ) ライセンス: Link先を確認 | Tejas Srinivasan, Furong Jia, Mohammad Rostami, Jesse Thomason | (参考訳) アダプタは、継続的学習における破滅的な忘れ方問題の有望な解決策を提供する。
しかし、新しいタスク毎に独立したアダプタモジュールをトレーニングすることは、クロスタスクの知識転送の機会を逃す。
我々は,先行学習したタスクのアダプタから知識を抽出し,入力タスクのアダプタを初期化する連続学習アルゴリズム「I2I」を提案する。
我々は、視覚的質問応答タスクのシーケンスに関する実験を行うことにより、多モード連続学習ベンチマークであるCLiMB上のI2Iを評価する。
i2iでトレーニングされたアダプタは、独立にトレーニングされたアダプタよりもタスクの正確性が向上し、このアルゴリズムがタスクアダプタ間の知識転送を容易にすることを実証します。
I2Iは、関連するパラメトリックコストを発生させることなく、最先端のAdapterFusionよりも、クロスタスクの知識伝達を改善する。 Adapters present a promising solution to the catastrophic forgetting problem in continual learning. However, training independent Adapter modules for every new task misses an opportunity for cross-task knowledge transfer. We propose Improvise to Initialize (I2I), a continual learning algorithm that initializes Adapters for incoming tasks by distilling knowledge from previously-learned tasks' Adapters. We evaluate I2I on CLiMB, a multimodal continual learning benchmark, by conducting experiments on sequences of visual question answering tasks. Adapters trained with I2I consistently achieve better task accuracy than independently-trained Adapters, demonstrating that our algorithm facilitates knowledge transfer between task Adapters. I2I also results in better cross-task knowledge transfer than the state-of-the-art AdapterFusion without incurring the associated parametric cost. | 翻訳日:2023-07-12 18:40:44 公開日:2023-07-10 |
# BERT と Query-Aware LSH を用いたインフォームドキュメンテーションにおけるコード例推薦の改善 : 比較検討 Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study ( http://arxiv.org/abs/2305.03017v2 ) ライセンス: Link先を確認 | Sajjad Rahmani, AmirHossein Naghshzan, Latifa Guerrouj | (参考訳) 本研究は,コードスニペットの用意により,開発者がかなりの時間を節約できるソフトウェア開発者の支援を目的としたコード例の推薦について検討する。
私たちの研究の焦点はStack Overflowで、特にJavaプログラミング言語のコンテキストにおいて、議論やソリューションをコーディングするのによく使われるリソースです。
我々は,LLM(Large Language Model)であるBERTを適用し,コード例を意味情報を抽出して数値ベクトルに変換する。
これらの数値表現が準備されたら、Locality-Sensitive Hashing (LSH) を用いて近似近傍隣人(ANN)を同定する。
LSHにはランダム・ハイパープレーン・ベースLSHとクエリ・アウェアLSHの2つのバリエーションがある。
これらの2つのアプローチを,hitrate, mean reciprocal rank (mrr), average execution time, associatedの4つのパラメータで厳密に比較した。
本研究では,Random Hyperplane-based (RH) 法よりもQuery-Aware (QA) 法の方が優れた性能を示した。
具体的には、RHアプローチと比較して、クエリペアに対してHitRateが20%から35%向上した。
さらに、ハッシュテーブルの作成とデータサンプルのバケットへの割り当てを少なくとも4倍高速にすることで、QAアプローチは大幅に時間効率が向上した。
コード例をミリ秒以内に返すことができるが、RHアプローチは通常、コード例を推奨するのに数秒を要する。
QAアプローチの優れたパフォーマンスのため、最先端のベースラインであるPostFinderとFaCoYに対してテストしました。
提案手法は,有効なコード推薦の可能性を証明した。 Our research investigates the recommendation of code examples to aid software developers, a practice that saves developers significant time by providing ready-to-use code snippets. The focus of our study is Stack Overflow, a commonly used resource for coding discussions and solutions, particularly in the context of the Java programming language. We applied BERT, a powerful Large Language Model (LLM) that enables us to transform code examples into numerical vectors by extracting their semantic information. Once these numerical representations are prepared, we identify Approximate Nearest Neighbors (ANN) using Locality-Sensitive Hashing (LSH). Our research employed two variants of LSH: Random Hyperplane-based LSH and Query-Aware LSH. We rigorously compared these two approaches across four parameters: HitRate, Mean Reciprocal Rank (MRR), Average Execution Time, and Relevance. Our study revealed that the Query-Aware (QA) approach showed superior performance over the Random Hyperplane-based (RH) method. Specifically, it exhibited a notable improvement of 20% to 35% in HitRate for query pairs compared to the RH approach. Furthermore, the QA approach proved significantly more time-efficient, with its speed in creating hashing tables and assigning data samples to buckets being at least four times faster. It can return code examples within milliseconds, whereas the RH approach typically requires several seconds to recommend code examples. Due to the superior performance of the QA approach, we tested it against PostFinder and FaCoY, the state-of-the-art baselines. Our QA method showed comparable efficiency proving its potential for effective code recommendation. | 翻訳日:2023-07-12 18:29:46 公開日:2023-07-10 |
# 離散二次モデルQUBOソリューションランドスケープ Discrete quadratic model QUBO solution landscapes ( http://arxiv.org/abs/2305.00568v2 ) ライセンス: Link先を確認 | Tristan Zaborniak, Ulrike Stege | (参考訳) 多くの計算問題は二次相互作用を持つ離散変数の最適化を伴う。
離散二次モデル(DQMs)として知られるこれらの問題は一般にNPハードである。
したがって、dqmsを二次的非拘束型バイナリ最適化(qubo)モデルとしてエンコードすることへの関心が高まっている。
しかし、DQMをQUBOモデルに変換することは、しばしばQUBOモデルの解空間に対する無効な解をもたらす。
これらの解は、チューナブルペナルティパラメータによって重み付けされたquboの目的関数に適切な制約を導入し、大域的最適性が有効であることを保証することによってペナルティ化されなければならない。
しかし, このパラメータの強度の選択は, 溶液景観構造への影響を考えると, 簡単ではない。
本稿では,qubo dqmソリューションのランドスケープ構造に対するエンコーディングとペナルティ強度の選択の影響と,その最適化について検討する。 Many computational problems involve optimization over discrete variables with quadratic interactions. Known as discrete quadratic models (DQMs), these problems in general are NP-hard. Accordingly, there is increasing interest in encoding DQMs as quadratic unconstrained binary optimization (QUBO) models to allow their solution by quantum and quantum-inspired hardware with architectures and solution methods designed specifically for such problem types. However, converting DQMs to QUBO models often introduces invalid solutions to the solution space of the QUBO models. These solutions must be penalized by introducing appropriate constraints to the QUBO objective function that are weighted by a tunable penalty parameter to ensure that the global optimum is valid. However, selecting the strength of this parameter is non-trivial, given its influence on solution landscape structure. Here, we investigate the effects of choice of encoding and penalty strength on the structure of QUBO DQM solution landscapes and their optimization, focusing specifically on one-hot and domain-wall encodings. | 翻訳日:2023-07-12 18:29:01 公開日:2023-07-10 |
# 協調的知識共有による点制御シングルセルセグメンテーション Point-supervised Single-cell Segmentation via Collaborative Knowledge Sharing ( http://arxiv.org/abs/2304.10671v2 ) ライセンス: Link先を確認 | Ji Yu | (参考訳) その優れた性能にもかかわらず、ディープラーニングの手法は、大規模に注釈付きトレーニングデータを必要とするという不利をしばしば抱えている。
これに対し、最近の文献ではアノテーションの負担軽減を目的とした取り組みが急増している。
本稿では,単一セルセグメンテーションモデルにおいて,単一セルセグメンテーションモデルの弱い教師付きトレーニング設定に着目した。
特定の問題は、細胞の位置をプログラム的に導出できる生体医学文献において広く入手可能な核対ステインデータのため、実際的に興味深い。
より一般的な関心事は、コラボレーティブ・ナレッジ・シェアリング(collaborative knowledge sharing)と呼ばれる、よりよく知られた一貫性学習方法とは別物である自己学習手法である。
この戦略は、主モデルと非常に軽量な協調モデルの間で知識を共有することで自己学習を実現する。
重要なことは、これらの2つのモデルはアーキテクチャ、能力、およびモデル出力において完全に異なることである: この場合、主モデルは、オブジェクト-検出の観点からセグメント化問題にアプローチするが、コラボレータモデルはセマンティックセマンティックセマンティックなセマンティックなセマンティック・パースペクティブ・パースペクティブにアプローチする。
本研究では,ブライトフィールド画像の大規模単一セルセグメンテーションデータセットであるlivecellと,核カウンタステインデータから位置ラベルを自動的に生成する蛍光画像データセットであるa431を用いて,この戦略の有効性を評価した。
コードはhttps://github.com/jiyuuchc/lacssで実装できる。 Despite their superior performance, deep-learning methods often suffer from the disadvantage of needing large-scale well-annotated training data. In response, recent literature has seen a proliferation of efforts aimed at reducing the annotation burden. This paper focuses on a weakly-supervised training setting for single-cell segmentation models, where the only available training label is the rough locations of individual cells. The specific problem is of practical interest due to the widely available nuclei counter-stain data in biomedical literature, from which the cell locations can be derived programmatically. Of more general interest is a proposed self-learning method called collaborative knowledge sharing, which is related to but distinct from the more well-known consistency learning methods. This strategy achieves self-learning by sharing knowledge between a principal model and a very light-weight collaborator model. Importantly, the two models are entirely different in their architectures, capacities, and model outputs: In our case, the principal model approaches the segmentation problem from an object-detection perspective, whereas the collaborator model a sematic segmentation perspective. We assessed the effectiveness of this strategy by conducting experiments on LIVECell, a large single-cell segmentation dataset of bright-field images, and on A431 dataset, a fluorescence image dataset in which the location labels are generated automatically from nuclei counter-stain data. Implementing code is available at https://github.com/jiyuuchc/lacss | 翻訳日:2023-07-12 18:28:26 公開日:2023-07-10 |
# グラフ準同型ゲームの普遍性と量子彩色問題 Universality of graph homomorphism games and the quantum coloring problem ( http://arxiv.org/abs/2305.18116v2 ) ライセンス: Link先を確認 | Samuel J. Harris | (参考訳) 有限、単純、無向グラフに対する量子グラフパラメータは、すべての同期非局所ゲームに対する勝利戦略を符号化する。
同期ゲーム $\mathcal{G}=(I,O,\lambda)$ with $|I|=n$ and $|O|=k$ が与えられたとき、Z. Ji (arXiv:1310.3794) による同期型非局所ゲームに対する量子戦略の勝利のために、Z. Ji (arXiv:1310.3794) が入力した作業を強化し単純化し、最大で3+n+9n(k-2)+6|\lambda^{-1}(\{0\})| のグラフ上の3ドルカラーゲームと$*$-equivalence と呼ぶものを実証する。
応用として、L. Lov\'{a}sz's reduction の量子バージョン (Comb. on 4th SE Conf. on Graph Theory & Computing, 1973) のグラフの$k$彩色問題である$G$と$n$頂点を持つ$m$エッジを、3+n+9n(k-2)+6mk$頂点を持つグラフの$3$彩色問題に適用する。
さらに、同期ゲーム $\mathcal{G}$ の勝利戦略は、関連するグラフカラーゲームに対する勝利戦略に変換できる。
a. atserias et al (j. comb. theory series b, vol. 136, 2019) ``graph of the game" $x(\mathcal{g})$ associated to $\mathcal{g}$ from a. atserias et al (j. comb. theory series b, vol. 136, 2019) 独立数ゲーム $\text{hom}(k_{|i|},\overline{x(\mathcal{g})})$ はここでは$*$-equivalent to $\mathcal{g}$ であるので、ゲーム代数を除く全てのゲームで勝利戦略の可能性は同じである。
したがって、色数、独立数、クランク数の量子バージョンは、すべての量子モデルにおける全ての同期ゲームに対する勝利戦略をエンコードする。 We show that quantum graph parameters for finite, simple, undirected graphs encode winning strategies for all possible synchronous non-local games. Given a synchronous game $\mathcal{G}=(I,O,\lambda)$ with $|I|=n$ and $|O|=k$, we demonstrate what we call a weak $*$-equivalence between $\mathcal{G}$ and a $3$-coloring game on a graph with at most $3+n+9n(k-2)+6|\lambda^{-1}(\{0\})|$ vertices, strengthening and simplifying work implied by Z. Ji (arXiv:1310.3794) for winning quantum strategies for synchronous non-local games. As an application, we obtain a quantum version of L. Lov\'{a}sz's reduction (Proc. 4th SE Conf. on Comb., Graph Theory & Computing, 1973) of the $k$-coloring problem for a graph $G$ with $n$ vertices and $m$ edges to the $3$-coloring problem for a graph with $3+n+9n(k-2)+6mk$ vertices. Moreover, winning strategies for a synchronous game $\mathcal{G}$ can be transformed into winning strategies for an associated graph coloring game, where the strategies exhibit perfect zero knowledge for an honest verifier. We also show that, for ``graph of the game" $X(\mathcal{G})$ associated to $\mathcal{G}$ from A. Atserias et al (J. Comb. Theory Series B, Vol. 136, 2019), the independence number game $\text{Hom}(K_{|I|},\overline{X(\mathcal{G})})$ is hereditarily $*$-equivalent to $\mathcal{G}$, so that the possibility of winning strategies is the same in both games for all models, except the game algebra. Thus, the quantum versions of the chromatic number, independence number and clique number encode winning strategies for all synchronous games in all quantum models. | 翻訳日:2023-07-12 18:22:08 公開日:2023-07-10 |
# コヒーレント状態分解による量子光学のシミュレーション Simulation of quantum optics by coherent state decomposition ( http://arxiv.org/abs/2305.17099v2 ) ライセンス: Link先を確認 | Jeffrey Marshall, Namit Anand | (参考訳) 我々は、系をコヒーレント状態の有限ランク(項数)重ね合わせに分解することで量子光学をシミュレートする枠組みを導入する。
これにより、線型光学演算が「自由」であり(すなわち、ランクを増加させない)、$m$モードシステムのシミュレーション複雑性は、ヒルベルト空間次元とは全く対照的に、2乗的に$m$でスケールできる資源理論を定義することができる。
特にボソンサンプリング(boson sampling)では、出力振幅を計算するためのシミュレーション時間(スペース)の複雑さが、任意の精度で、$m$モードに分散した$n$光子に対して$o(m^2 2^n)$(o(m2^n)$)とスケールされる。
さらに、最初に同じモードの$n$光子を用いた線形光学シミュレーションは、$O(m^2 n)$のように効率よくスケールすることを示した。
このパラダイムは「古典的でない」という実践的な概念、すなわちシミュレーションに必要な古典的な資源を提供する。
さらに、星階定式化と結びつくことにより、これは2つの独立した寄与、単光子加算数、およびスクイージング量から生じるものであることを示す。 We introduce a framework for simulating quantum optics by decomposing the system into a finite rank (number of terms) superposition of coherent states. This allows us to define a resource theory, where linear optical operations are 'free' (i.e., do not increase the rank), and the simulation complexity for an $m$-mode system scales quadratically in $m$, in stark contrast to the Hilbert space dimension. We outline this approach explicitly in the Fock basis, relevant in particular for Boson sampling, where the simulation time (space) complexity for computing output amplitudes, to arbitrary accuracy, scales as $O(m^2 2^n)$ ($O(m2^n)$), for $n$ photons distributed amongst $m$ modes. We additionally demonstrate that linear optical simulations with the $n$ photons initially in the same mode scales efficiently, as $O(m^2 n)$. This paradigm provides a practical notion of 'non-classicality', i.e., the classical resources required for simulation. Moreover, by making connections to the stellar rank formalism, we show this comes from two independent contributions, the number of single-photon additions, and the amount of squeezing. | 翻訳日:2023-07-12 18:20:43 公開日:2023-07-10 |
# bayesflow:ニューラルネットワークによるベイズワークフローの償却 BayesFlow: Amortized Bayesian Workflows With Neural Networks ( http://arxiv.org/abs/2306.16015v2 ) ライセンス: Link先を確認 | Stefan T Radev and Marvin Schmitt and Lukas Schumacher and Lasse Elsem\"uller and Valentin Pratz and Yannik Sch\"alte and Ullrich K\"othe and Paul-Christian B\"urkner | (参考訳) 現代のベイズ推論は、データ分析の原則的ワークフローの一部として確率的モデルからの結論を推定、検証、描画するための計算技法の混合を含む。
ベイズワークフローの典型的な問題は、様々なモデルタイプに対する難解な後続分布の近似と、その複雑さと予測性能の観点から同じプロセスの競合モデルの比較である。
この原稿はPythonライブラリのBayesFlowを紹介し、アモートされたデータ圧縮と推論のための確立したニューラルネットワークアーキテクチャのシミュレーションベースのトレーニングを行う。
Amortized Bayesian推論は、BayesFlowで実装されているもので、モデルシミュレーションでカスタムニューラルネットワークをトレーニングし、その後のモデル適用のためにこれらのネットワークを再使用することができる。
トレーニングされたネットワークは、ほぼ瞬時に推論を行うことができるため、事前のニューラルネットワークトレーニングは、迅速に償却される。 Modern Bayesian inference involves a mixture of computational techniques for estimating, validating, and drawing conclusions from probabilistic models as part of principled workflows for data analysis. Typical problems in Bayesian workflows are the approximation of intractable posterior distributions for diverse model types and the comparison of competing models of the same process in terms of their complexity and predictive performance. This manuscript introduces the Python library BayesFlow for simulation-based training of established neural network architectures for amortized data compression and inference. Amortized Bayesian inference, as implemented in BayesFlow, enables users to train custom neural networks on model simulations and re-use these networks for any subsequent application of the models. Since the trained networks can perform inference almost instantaneously, the upfront neural network training is quickly amortized. | 翻訳日:2023-07-12 18:00:39 公開日:2023-07-10 |
# 一般化フィボナッチドライブの量子ダイナミクスにおける完全ヒルベルト空間エルゴディディティ Complete Hilbert-Space Ergodicity in Quantum Dynamics of Generalized Fibonacci Drives ( http://arxiv.org/abs/2306.11792v2 ) ライセンス: Link先を確認 | Sa\'ul Pilatowsky-Cameo, Ceren B. Dag, Wen Wei Ho, and Soonwon Choi | (参考訳) 量子力学のエルゴディディティはしばしばエネルギー固有状態の統計的性質によって定義され、ベリーの単一粒子量子カオスにおける予想と多体設定における固有状態熱化仮説によって実証される。
本研究では、量子系がより強固なエルゴード性を示すことができるかどうかを検証し、時間発展状態が時間とともにヒルベルト空間全体を一様に訪問する。
そのような現象を完全ヒルベルト空間エルゴディディティ(CHSE)と呼び、これは本質的に動的概念としてのエルゴディディティという直感的な概念に似ている。
chse は、完全なヒルベルト空間の探索を妨げる(quasi)エネルギー固有状態が存在するため、時間非依存あるいは時間-周期的なハミルトニアンダイナミクスを保持できない。
しかし、フィボナッチワードとその一般化によって生成される最小の記号的複雑性を持つ非周期的だが決定論的ドライブの族が存在し、CHSEが発生することが証明できる。
本研究は,一般時間依存量子システムにおける熱化の理解の基礎を提供する。 Ergodicity of quantum dynamics is often defined through statistical properties of energy eigenstates, as exemplified by Berry's conjecture in single-particle quantum chaos and the eigenstate thermalization hypothesis in many-body settings. In this work, we investigate whether quantum systems can exhibit a stronger form of ergodicity, wherein any time-evolved state uniformly visits the entire Hilbert space over time. We call such a phenomenon complete Hilbert-space ergodicity (CHSE), which is more akin to the intuitive notion of ergodicity as an inherently dynamical concept. CHSE cannot hold for time-independent or even time-periodic Hamiltonian dynamics, owing to the existence of (quasi)energy eigenstates which precludes exploration of the full Hilbert space. However, we find that there exists a family of aperiodic, yet deterministic drives with minimal symbolic complexity -- generated by the Fibonacci word and its generalizations -- for which CHSE can be proven to occur. Our results provide a basis for understanding thermalization in general time-dependent quantum systems. | 翻訳日:2023-07-12 17:59:27 公開日:2023-07-10 |
# ADASSM:画像からの統計的形状モデルにおける逆データ拡張 ADASSM: Adversarial Data Augmentation in Statistical Shape Models From Images ( http://arxiv.org/abs/2307.03273v2 ) ライセンス: Link先を確認 | Mokshagna Sai Teja Karanam, Tushar Kataria and Shireen Elhabian | (参考訳) 統計的形状モデル (SSM) は, 個体群全体の解剖学的変化を識別するための優れたツールとして確立されている。
形状モデルは、与えられたコホート内のすべてのサンプルに対して一貫した形状表現を使用し、形状を比較し、病理を検出できるバリエーションを特定し、治療計画を定式化するのに役立ちます。
医用画像では、これらの形状表現をCT/MRIスキャンから計算するには、解剖学的セグメンテーションアノテーション、登録、テクスチャデノイングを含む時間集約的な前処理操作が必要となる。
深層学習モデルは、容積画像から直接形状表現を学習する際、例外的な能力を示し、高効率で効率的な画像からSSMへと導く。
それでもこれらのモデルはデータ不足であり、医療データの入手が限られているため、ディープラーニングモデルは過度に適合する傾向にある。
形状拡張されたサンプルを生成するためにカーネル密度推定(KDE)法を用いるオフラインデータ拡張技術は、従来のSSM法と同等の精度で画像からSSMネットワークを支援することに成功した。
しかし,これらの拡張手法は形状向上に重点を置いているのに対し,深層学習モデルは画像に基づくテクスチャバイアスの結果を準最適モデルで示している。
本稿では,データ依存型ノイズ生成やテクスチャ拡張を利用して,画像間SSMフレームワークのオンザフライデータ拡張のための新しい戦略を提案する。
提案するフレームワークは,画像対ssmネットワークの敵として訓練され,多様で難解なサンプルを補完する。
提案手法は,画素値のみに頼らず,基礎となる幾何学に焦点をあてることにより,精度の向上を実現する。 Statistical shape models (SSM) have been well-established as an excellent tool for identifying variations in the morphology of anatomy across the underlying population. Shape models use consistent shape representation across all the samples in a given cohort, which helps to compare shapes and identify the variations that can detect pathologies and help in formulating treatment plans. In medical imaging, computing these shape representations from CT/MRI scans requires time-intensive preprocessing operations, including but not limited to anatomy segmentation annotations, registration, and texture denoising. Deep learning models have demonstrated exceptional capabilities in learning shape representations directly from volumetric images, giving rise to highly effective and efficient Image-to-SSM. Nevertheless, these models are data-hungry and due to the limited availability of medical data, deep learning models tend to overfit. Offline data augmentation techniques, that use kernel density estimation based (KDE) methods for generating shape-augmented samples, have successfully aided Image-to-SSM networks in achieving comparable accuracy to traditional SSM methods. However, these augmentation methods focus on shape augmentation, whereas deep learning models exhibit image-based texture bias results in sub-optimal models. This paper introduces a novel strategy for on-the-fly data augmentation for the Image-to-SSM framework by leveraging data-dependent noise generation or texture augmentation. The proposed framework is trained as an adversary to the Image-to-SSM network, augmenting diverse and challenging noisy samples. Our approach achieves improved accuracy by encouraging the model to focus on the underlying geometry rather than relying solely on pixel values. | 翻訳日:2023-07-12 17:51:15 公開日:2023-07-10 |
# RecallM: 時間的コンテキスト理解と質問応答のためのアーキテクチャ RecallM: An Architecture for Temporal Context Understanding and Question Answering ( http://arxiv.org/abs/2307.02738v2 ) ライセンス: Link先を確認 | Brandon Kynoch, Hugo Latapie | (参考訳) 大規模言語モデル(llm)ベースのチャットボットのための理想的な長期記憶メカニズムは、継続的な学習、複雑な推論、シーケンシャルおよびテンポラリな依存関係の学習の基盤となる。
このタイプのメモリメカニズムを作成することは、非常に難しい問題です。
本稿では、長期記憶の効果を達成するための様々な方法を検討する。
本稿では,AGIシステムのための適応型・アップグレード可能な長期メモリの構築を目的とした新しいアーキテクチャを提案する。
様々な実験を通じて,リコールアーキテクチャの利点,特に知識の時間的理解の改善を実証する。 The ideal long-term memory mechanism for Large Language Model (LLM) based chatbots, would lay the foundation for continual learning, complex reasoning and allow sequential and temporal dependencies to be learnt. Creating this type of memory mechanism is an extremely challenging problem. In this paper we explore different methods of achieving the effect of long-term memory. We propose a new architecture focused on creating adaptable and updatable long-term memory for AGI systems. We demonstrate through various experiments the benefits of the RecallM architecture, particularly the improved temporal understanding of knowledge it provides. | 翻訳日:2023-07-12 17:49:51 公開日:2023-07-10 |
# FLuID:不変ドロップアウトを用いたフェデレーション学習におけるストラグラーの緩和 FLuID: Mitigating Stragglers in Federated Learning using Invariant Dropout ( http://arxiv.org/abs/2307.02623v2 ) ライセンス: Link先を確認 | Irene Wang, Prashant J. Nair, Divya Mahajan | (参考訳) federated learning(fl)は、機械学習モデルを個々のモバイルデバイス上でローカルにトレーニングし、モデル更新を共有サーバ経由で同期可能にする。
このアプローチはユーザのプライバシを保護するが、デバイス間のパフォーマンス能力が異なるため、異種なトレーニング環境も生成する。
その結果、パフォーマンスの低いストラグラーデバイスは、flの全体的なトレーニング時間を決定することが多い。
本研究では,システム全体のトレーニング負荷を動的にバランスさせることにより,トラグラーによるパフォーマンスボトルネックを軽減することを目的とする。
Invariant Dropoutは,重み更新閾値に基づいてサブモデルを抽出し,精度への影響を最小限に抑える手法である。
このドロップアウト技術に基づいて,適応型学習フレームワークであるFederated Learning using Invariant Dropout (FLuID)を開発した。
FLuIDは計算強度を制御し、モデル品質に影響を与えることなくストラグラーデバイスへの負荷を低減する軽量なサブモデル抽出を提供する。
提案手法は,非ストラグラーデバイスからのニューロン更新を利用して,クライアントの性能プロファイルに基づいて,各ストラグラーに適したサブモデルを構築する。
さらに、FLuIDは実行条件が変化するにつれてストラグラーの変化に動的に対応できる。
5つの実世界のモバイルクライアントを用いてFLuIDを評価する。
評価によると、Invariant Dropoutは、動的で実行時のアプローチを通じてストラグラーのパフォーマンスボトルネックを緩和しながら、ベースラインモデルの効率を維持する。 Federated Learning (FL) allows machine learning models to train locally on individual mobile devices, synchronizing model updates via a shared server. This approach safeguards user privacy; however, it also generates a heterogeneous training environment due to the varying performance capabilities across devices. As a result, straggler devices with lower performance often dictate the overall training time in FL. In this work, we aim to alleviate this performance bottleneck due to stragglers by dynamically balancing the training load across the system. We introduce Invariant Dropout, a method that extracts a sub-model based on the weight update threshold, thereby minimizing potential impacts on accuracy. Building on this dropout technique, we develop an adaptive training framework, Federated Learning using Invariant Dropout (FLuID). FLuID offers a lightweight sub-model extraction to regulate computational intensity, thereby reducing the load on straggler devices without affecting model quality. Our method leverages neuron updates from non-straggler devices to construct a tailored sub-model for each straggler based on client performance profiling. Furthermore, FLuID can dynamically adapt to changes in stragglers as runtime conditions shift. We evaluate FLuID using five real-world mobile clients. The evaluations show that Invariant Dropout maintains baseline model efficiency while alleviating the performance bottleneck of stragglers through a dynamic, runtime approach. | 翻訳日:2023-07-12 17:49:41 公開日:2023-07-10 |
# フロッケ絶縁体と格子フェルミオン Floquet insulators and lattice fermions ( http://arxiv.org/abs/2306.16463v2 ) ライセンス: Link先を確認 | Thomas Iadecola, Srimoyee Sen, Lars Sivertsen | (参考訳) フロッケ絶縁体は周期的に駆動される量子システムであり、ドライブパラメータの関数として新しい位相位相をホストすることができる。
これらの新しい相は離散時間格子フェルミオン理論のフェルミオン二重化を思わせる特徴を持っている。
この提案は、ある駆動パラメータに対する非相互作用(1+1)D Floquet 絶縁体のスペクトルを時間非依存ハミルトニアンによる離散時間格子フェルミオン理論のスペクトルにマッピングすることで具体化する。
結果として得られるハミルトニアンは、ストロボスコープダイナミクスを生成するフロケットハミルトニアンとは異なる。
離散時間Su-Schrieffer-Heegerモデルと原モデルの空間的位置の半数、あるいは空間的位置の4分の1の(1+1)D Wilson-Dirac理論の形式をとることができる。 Floquet insulators are periodically driven quantum systems that can host novel topological phases as a function of the drive parameters. These new phases exhibit features reminiscent of fermion doubling in discrete-time lattice fermion theories. We make this suggestion concrete by mapping the spectrum of a noninteracting (1+1)D Floquet insulator for certain drive parameters onto that of a discrete-time lattice fermion theory with a time-independent Hamiltonian. The resulting Hamiltonian is distinct from the Floquet Hamiltonian that generates stroboscopic dynamics. It can take the form of a discrete-time Su-Schrieffer-Heeger model with half the number of spatial sites of the original model, or of a (1+1)D Wilson-Dirac theory with one quarter of the spatial sites. | 翻訳日:2023-07-12 17:48:39 公開日:2023-07-10 |
# 自己吸収スペクトル形成因子はユニタリティ破壊を示唆する A self-averaging spectral form factor implies unitarity breaking ( http://arxiv.org/abs/2307.04791v1 ) ライセンス: Link先を確認 | Apollonas S. Matsoukas-Roubeas, Mathieu Beau, Lea F. Santos, Adolfo del Campo | (参考訳) 量子系のエネルギースペクトルの2点相関子の複素フーリエ変換はスペクトル形成因子(SFF)として知られている。
これは物質相と量子カオスにとって不可欠な診断ツールである。
ブラックホール物理学では、ユニタリ時間発展の下での熱場二重状態の生存確率(忠実性)を記述する。
しかし、ジェネリックスペクトルを持つ孤立量子系のSFFの詳細な性質は、乱れや時間平均を最小化する大きな時間変動によって明らかになる。
この要件は、任意のシステムサイズ、すなわち、SFFは平均値ではない。
この量の忠実性に基づく解釈を活用し、sffのフィルタ、乱れ、時間平均を用いると、量子ノイズを抑制する量子チャネルによって記述されるオープン量子ダイナミクスがユニタリティの破れを伴うことが証明される。
具体的には、ハミルトンアンサンブルの平均値、平均時間、周波数フィルタを、情報損失を回復できる混合単位量子チャネルのクラスで記述することができる。
周波数フィルタはエネルギーデフォーカスを一般化する時間連続マスター方程式と関連付けられる。
また固有値フィルタの利用についても論じる。
これらは量子ジャンプのない非エルミートハミルトン進化と関連しており、その長期的挙動はハミルトニアン変形によって記述される。
周波数とエネルギーのフィルタがSFFを長時間自己劣化させることを示す。 The complex Fourier transform of the two-point correlator of the energy spectrum of a quantum system is known as the spectral form factor (SFF). It constitutes an essential diagnostic tool for phases of matter and quantum chaos. In black hole physics, it describes the survival probability (fidelity) of a thermofield double state under unitary time evolution. However, detailed properties of the SFF of isolated quantum systems with generic spectra are smeared out by large temporal fluctuations, whose minimization requires disorder or time averages. This requirement holds for any system size, that is, the SFF is non-self averaging. Exploiting the fidelity-based interpretation of this quantity, we prove that using filters, disorder and time averages of the SFF involve unitarity breaking, i.e., open quantum dynamics described by a quantum channel that suppresses quantum noise. Specifically, averaging over Hamiltonian ensembles, time averaging, and frequency filters can be described by the class of mixed-unitary quantum channels in which information loss can be recovered. Frequency filters are associated with a time-continuous master equation generalizing energy dephasing. We also discuss the use of eigenvalue filters. They are linked to non-Hermitian Hamiltonian evolution without quantum jumps, whose long-time behavior is described by a Hamiltonian deformation. We show that frequency and energy filters make the SFF self-averaging at long times. | 翻訳日:2023-07-12 17:31:26 公開日:2023-07-10 |
# 文脈性と因果性を組み合わせたゲーム意味論アプローチ Combining contextuality and causality: a game semantics approach ( http://arxiv.org/abs/2307.04786v1 ) ライセンス: Link先を確認 | Samson Abramsky, Rui Soares Barbosa, Amy Searle | (参考訳) 因果関係と因果関係を結合する手法を開発し,因果関係の背景構造,適応的測定に基づく量子計算,因果ネットワークなどをカバーする。
主要な考え方は、文脈性は実験者と自然の間のゲームから生じるものであり、実験者(測定結果の選択)と自然(結果の選択)の両方の行動に因果的依存を可能にすることである。 We develop an approach to combining contextuality with causality, which is general enough to cover causal background structure, adaptive measurement-based quantum computation, and causal networks. The key idea is to view contextuality as arising from a game played between Experimenter and Nature, allowing for causal dependencies in the actions of both the Experimenter (choice of measurements) and Nature (choice of outcomes). | 翻訳日:2023-07-12 17:31:08 公開日:2023-07-10 |
# aiベースの政治問題ポーリングの可能性の実証 Demonstrations of the Potential of AI-based Political Issue Polling ( http://arxiv.org/abs/2307.04781v1 ) ライセンス: Link先を確認 | Nathan E. Sanders, Alex Ulinich, Bruce Schneier | (参考訳) 政治投票は数十億ドルの産業であり、米国や世界中の国々の社会的な軌道に大きな影響を与えている。
しかし、コスト、可用性、正確さを強調する要因によって、問題となっている。
同時に、人工知能(AI)チャットボットは、より洗練された大規模言語モデル(LLM)によって、人間の行動に魅力的なスタンドインとなっている。
aiチャットボットは、議論を呼ぶ問題に対する世論を、キャンペーンや利害団体、世論調査会社によって使われる程度に予測する効果的なツールになるのだろうか?
そこで我々は,チャットgptから人的調査回答を抽出し,人口統計学的要因によって記述された人物の政策質問に対する反応をシミュレートし,順序的数値応答スコアとテキスト的正当化の両方を生成するための迅速な工学的手法を開発した。
大規模な実験を行い、人間の調査よりもはるかに低いコストで、何千というシミュレーション応答をクエリします。
本研究では,シミュレーションデータと協調選挙研究(CES)の人事投票データとの比較を行った。
また,ChatGPTは,中絶禁止や米国最高裁判所の承認などの政策問題,特にそのイデオロギー的ブレークダウン(典型的には85%)において,世論の平均レベルと分布の両方を予想する上で有効であることがわかった。
しかし、人口レベルでの違いを予想することは成功していない。
さらに、ChatGPTは、ウクライナでの戦争への米国の関与支援など、訓練データ収集後に生じた新しい政策問題に過度に一般化する傾向にある。
私たちの研究は、現在の世代のAIチャットボットの強みと限界を仮想公開やオンラインリスニングプラットフォームとして理解すること、LLM開発における今後の方向性、そして政治領域へのAIツールの応用について、私たちの理解に影響を与えています。
(橋渡し) Political polling is a multi-billion dollar industry with outsized influence on the societal trajectory of the United States and nations around the world. However, it has been challenged by factors that stress its cost, availability, and accuracy. At the same time, artificial intelligence (AI) chatbots have become compelling stand-ins for human behavior, powered by increasingly sophisticated large language models (LLMs). Could AI chatbots be an effective tool for anticipating public opinion on controversial issues to the extent that they could be used by campaigns, interest groups, and polling firms? We have developed a prompt engineering methodology for eliciting human-like survey responses from ChatGPT, which simulate the response to a policy question of a person described by a set of demographic factors, and produce both an ordinal numeric response score and a textual justification. We execute large scale experiments, querying for thousands of simulated responses at a cost far lower than human surveys. We compare simulated data to human issue polling data from the Cooperative Election Study (CES). We find that ChatGPT is effective at anticipating both the mean level and distribution of public opinion on a variety of policy issues such as abortion bans and approval of the US Supreme Court, particularly in their ideological breakdown (correlation typically >85%). However, it is less successful at anticipating demographic-level differences. Moreover, ChatGPT tends to overgeneralize to new policy issues that arose after its training data was collected, such as US support for involvement in the war in Ukraine. Our work has implications for our understanding of the strengths and limitations of the current generation of AI chatbots as virtual publics or online listening platforms, future directions for LLM development, and applications of AI tools to the political domain. (Abridged) | 翻訳日:2023-07-12 17:30:58 公開日:2023-07-10 |
# 熱量計高速シミュレーションのためのポイントクラウドとイメージベースモデルの比較 Comparison of Point Cloud and Image-based Models for Calorimeter Fast Simulation ( http://arxiv.org/abs/2307.04780v1 ) ライセンス: Link先を確認 | Fernando Torales Acosta, Vinicius Mikuni, Benjamin Nachman, Miguel Arratia, Kenneth Barish, Bishnu Karki, Ryan Milton, Piyush Karande, and Aaron Angerami | (参考訳) スコアベース生成モデル(英: score based generative models)は、高次元のカロリメータデータセットを正確に生成する新しい生成モデルである。
最近の生成モデルでは、複雑なカロリメータシャワーの表現とモデル化に3dボクセルを用いた画像が使われている。
しかし、ポイント雲は、特に粒度の高いカロリメータにおいて、カロリメータシャワーのより自然な表現である可能性が高い。
ポイントクラウドは、元のシミュレーションの全ての情報を保存し、スパースデータセットをより自然に扱い、よりコンパクトなモデルとデータファイルで実装できる。
本研究では,同一のカロリメータシミュレーションに基づいて2つの最先端スコアベースモデルを訓練し,直接比較する。 Score based generative models are a new class of generative models that have been shown to accurately generate high dimensional calorimeter datasets. Recent advances in generative models have used images with 3D voxels to represent and model complex calorimeter showers. Point clouds, however, are likely a more natural representation of calorimeter showers, particularly in calorimeters with high granularity. Point clouds preserve all of the information of the original simulation, more naturally deal with sparse datasets, and can be implemented with more compact models and data files. In this work, two state-of-the-art score based models are trained on the same set of calorimeter simulation and directly compared. | 翻訳日:2023-07-12 17:30:27 公開日:2023-07-10 |
# 変分推論により学習したベイズ二層ニューラルネットワークに対する大数の法則 Law of Large Numbers for Bayesian two-layer Neural Network trained with Variational Inference ( http://arxiv.org/abs/2307.04779v1 ) ライセンス: Link先を確認 | Arnaud Descours (LMBP), Tom Huix (X), Arnaud Guillin (LMBP), Manon Michel (LMBP), \'Eric Moulines (X), Boris Nectoux (LMBP) | (参考訳) 2層および無限幅の場合におけるベイズニューラルネットワークの変分推論(vi)によるトレーニングの厳密な解析を行う。
正規化エビデンスローバウンド(ELBO)を用いた回帰問題について検討し,データから期待されるログに分解し,プリオリ分布と変分後部とのKL(Kulback-Leibler)のばらつきについて考察する。
KLの適切な重み付けにより、3つの異なるトレーニングスキームに対して多数の法則が証明される。
(i)再パラメータ化トリックから複数ガウス積分を正確に推定する理想化された場合
(ii)モンテカルロサンプリングを用いたミニバッチ方式、通称ベイズ・バイ・バックプロップ、及び
(iii)Minimal VIとして導入した新しい,計算コストの低いアルゴリズム。
重要な結果は、すべてのメソッドが同じ平均場極限に収束することである。
最後に,本研究の結果を数値的に示し,中心極限定理の導出の必要性について考察する。 We provide a rigorous analysis of training by variational inference (VI) of Bayesian neural networks in the two-layer and infinite-width case. We consider a regression problem with a regularized evidence lower bound (ELBO) which is decomposed into the expected log-likelihood of the data and the Kullback-Leibler (KL) divergence between the a priori distribution and the variational posterior. With an appropriate weighting of the KL, we prove a law of large numbers for three different training schemes: (i) the idealized case with exact estimation of a multiple Gaussian integral from the reparametrization trick, (ii) a minibatch scheme using Monte Carlo sampling, commonly known as Bayes by Backprop, and (iii) a new and computationally cheaper algorithm which we introduce as Minimal VI. An important result is that all methods converge to the same mean-field limit. Finally, we illustrate our results numerically and discuss the need for the derivation of a central limit theorem. | 翻訳日:2023-07-12 17:30:14 公開日:2023-07-10 |
# 実世界利用事例による金融企業の統計分析と応用に基づく戦略計画の策定 Formulating A Strategic Plan Based On Statistical Analyses And Applications For Financial Companies Through A Real-World Use Case ( http://arxiv.org/abs/2307.04778v1 ) ライセンス: Link先を確認 | Saman Sarraf | (参考訳) ビジネス統計は、企業レベルでデータ主導型戦略計画を実施する上で重要な役割を担い、そのような計画の結果を企業が意思決定プロセスを強化したり、組織へのリスクを軽減できる様々な分析手法を採用する。
そこで本研究では,高度な特徴選択能力とともにビッグデータプラットフォームの導入の可能性を探ることを目的とした,レンディングクラブという金融企業に対して,統計的分析により得られた戦略計画を提案する。
このような計画の主な目的は、融資を返済できない借り手への融資のリスクを低減しつつ、会社の収益を増大させることである。
本研究では,企業の関心事に対応するために定式化された異なる仮説について検討し,ローンの額が借入者数に大きく影響することを明らかにした。
また、提案された戦略計画には、機械学習などの高度な分析技術が組み込まれており、同社はより一般的なデータ駆動予測モデルを構築することができる。 Business statistics play a crucial role in implementing a data-driven strategic plan at the enterprise level to employ various analytics where the outcomes of such a plan enable an enterprise to enhance the decision-making process or to mitigate risks to the organization. In this work, a strategic plan informed by the statistical analysis is introduced for a financial company called LendingClub, where the plan is comprised of exploring the possibility of onboarding a big data platform along with advanced feature selection capacities. The main objectives of such a plan are to increase the company's revenue while reducing the risks of granting loans to borrowers who cannot return their loans. In this study, different hypotheses formulated to address the company's concerns are studied, where the results reveal that the amount of loans profoundly impacts the number of borrowers charging off their loans. Also, the proposed strategic plan includes onboarding advanced analytics such as machine learning technologies that allow the company to build better generalized data-driven predictive models. | 翻訳日:2023-07-12 17:29:59 公開日:2023-07-10 |
# SHAP@k:Top-k特徴の精度とほぼ正当性(PAC)同定 SHAP@k:Efficient and Probably Approximately Correct (PAC) Identification of Top-k Features ( http://arxiv.org/abs/2307.04850v1 ) ライセンス: Link先を確認 | Sanjay Kariyappa, Leonidas Tsepenekas, Freddy L\'ecu\'e, Daniele Magazzeni | (参考訳) SHAPフレームワークは、特徴量の計算によってモデルの予測を説明するための原則的手法を提供する。
ファイナンスにおけるアプリケーションによって動機づけられたTop-k Identification Problem (TkIP)を導入し、最も高いSHAP値を持つk特徴を特定することを目的とする。
不確実性推定を伴うSHAP値を計算する方法(KernelSHAP や SmplingSHAP など)は、TkIP を解くために自明に適応できるが、サンプリング非効率である。
我々の研究の目的は、TkIP解決の文脈において、既存の手法のサンプル効率を改善することである。
我々の重要な洞察は、TkIPは、マルチアームバンディット(MAB)に関するよく研究された問題であるExplore-m問題としてフレーム化できるということである。
この接続により,(1)PAC保証が満たされた場合に識別するより良い停止条件(サンプリングを停止させる)と(2)異なる特徴間のサンプルを任意に割り当てる欲求的なサンプリングスキームの2つの手法を活用することで,サンプル効率を向上させることができる。
これらのメソッドを採用することで、KernelSHAP@kとSmplingSHAP@kを開発し、TkIPを効率的に解決し、一般的なクレジット関連データセットのサンプル効率と実行時の平均5ドル以上の改善を提供します。 The SHAP framework provides a principled method to explain the predictions of a model by computing feature importance. Motivated by applications in finance, we introduce the Top-k Identification Problem (TkIP), where the objective is to identify the k features with the highest SHAP values. While any method to compute SHAP values with uncertainty estimates (such as KernelSHAP and SamplingSHAP) can be trivially adapted to solve TkIP, doing so is highly sample inefficient. The goal of our work is to improve the sample efficiency of existing methods in the context of solving TkIP. Our key insight is that TkIP can be framed as an Explore-m problem--a well-studied problem related to multi-armed bandits (MAB). This connection enables us to improve sample efficiency by leveraging two techniques from the MAB literature: (1) a better stopping-condition (to stop sampling) that identifies when PAC (Probably Approximately Correct) guarantees have been met and (2) a greedy sampling scheme that judiciously allocates samples between different features. By adopting these methods we develop KernelSHAP@k and SamplingSHAP@k to efficiently solve TkIP, offering an average improvement of $5\times$ in sample-efficiency and runtime across most common credit related datasets. | 翻訳日:2023-07-12 17:24:01 公開日:2023-07-10 |
# SigOpt Mulch: 勾配ブーストツリーの自動MLのためのインテリジェントシステム SigOpt Mulch: An Intelligent System for AutoML of Gradient Boosted Trees ( http://arxiv.org/abs/2307.04849v1 ) ライセンス: Link先を確認 | Aleksei Sorokin, Xinran Zhu, Eric Hans Lee, Bolong Cheng | (参考訳) gradient boosted trees(gbts)は、研究者、機械学習(ml)実践者、データサイエンティストが使用するユビキタスなモデルである。
GBTのトレーニングにおける重要な課題の1つは、ハイパーパラメータのチューニングである。
実際には、これらのハイパーパラメータの選択はしばしば手動で行われる。
近年、MLコミュニティはブラックボックス最適化によるハイパーパラメータのチューニングを提唱し、最先端システムを開発した。
しかし、gbtをチューニングするためのシステムの適用には2つの欠点がある。
まず、これらのシステムは \textit{model-aware} ではなく、 \textit{generic} モデルに適用するように設計されている。
第二に、これらのシステムを使用するには、ブラックボックス最適化が提供しようとしている自動実験のアンチテーゼであるハイパーパラメータ検索空間の選択のような「textit{ domain knowledge」が必要である。
本稿では,GBTの自動チューニングに特化して設計されたモデル対応ハイパーパラメータチューニングシステムであるSigOpt Mulchについて述べる。
まず、mulchはメタラーニングとマルチフィデリティ最適化の強力な技術を活用して、モデル認識ハイパーパラメータの最適化を行う。
第2に,最適化探索空間に関するインテリジェントな決定を行うことで,高性能ハイパーパラメータの学習プロセスを自動化し,ユーザのドメイン知識の必要性を低減する。
これらの革新により、mulchは既存のブラックボックスハイパーパラメータチューニングシステムよりもはるかに効率的に、よりシームレスでユーザーフレンドリーな方法で、優れたgbtハイパーパラメータを識別できる。 Gradient boosted trees (GBTs) are ubiquitous models used by researchers, machine learning (ML) practitioners, and data scientists because of their robust performance, interpretable behavior, and ease-of-use. One critical challenge in training GBTs is the tuning of their hyperparameters. In practice, selecting these hyperparameters is often done manually. Recently, the ML community has advocated for tuning hyperparameters through black-box optimization and developed state-of-the-art systems to do so. However, applying such systems to tune GBTs suffers from two drawbacks. First, these systems are not \textit{model-aware}, rather they are designed to apply to a \textit{generic} model; this leaves significant optimization performance on the table. Second, using these systems requires \textit{domain knowledge} such as the choice of hyperparameter search space, which is an antithesis to the automatic experimentation that black-box optimization aims to provide. In this paper, we present SigOpt Mulch, a model-aware hyperparameter tuning system specifically designed for automated tuning of GBTs that provides two improvements over existing systems. First, Mulch leverages powerful techniques in metalearning and multifidelity optimization to perform model-aware hyperparameter optimization. Second, it automates the process of learning performant hyperparameters by making intelligent decisions about the optimization search space, thus reducing the need for user domain knowledge. These innovations allow Mulch to identify good GBT hyperparameters far more efficiently -- and in a more seamless and user-friendly way -- than existing black-box hyperparameter tuning systems. | 翻訳日:2023-07-12 17:23:33 公開日:2023-07-10 |
# 時間差強化学習のダイナミクス Dynamics of Temporal Difference Reinforcement Learning ( http://arxiv.org/abs/2307.04841v1 ) ライセンス: Link先を確認 | Blake Bordelon, Paul Masset, Henry Kuo, Cengiz Pehlevan | (参考訳) 強化学習は、エージェントがスパースフィードバックで環境で行動することを学ばなければならないいくつかのアプリケーションで成功している。
しかし、この経験的な成功にもかかわらず、強化学習モデルのパラメータと状態を表すのに使われる特徴が学習のダイナミクスを制御するためにどのように相互作用するかの理論的な理解が不足している。
本研究では,統計物理学の概念を用いて,線形関数近似子を用いた値関数の時間差学習のための典型的な事例学習曲線を考察する。
我々の理論は、ランダム軌道上の平均を時間的に相関したガウス特徴平均に置き換えるガウス同値仮説に基づいて導出され、小規模マルコフ決定過程における仮定を検証する。
従来の勾配降下力学とは異なり,考えられるエピソードの空間のサブサンプリングによる確率的半勾配雑音は,値誤差の顕著な高次化をもたらすことがわかった。
学習のダイナミクスと高原は,特徴構造,学習率,割引率,報酬関数にどのように依存するかを検討した。
次に学習率アニーリングや報酬シェーピングといった戦略が学習のダイナミクスや高原をどのように変えるかを分析する。
本研究は,強化学習における学習動力学の理論の展開に向けた新たな方向性を開くための新しいツールを提案する。 Reinforcement learning has been successful across several applications in which agents have to learn to act in environments with sparse feedback. However, despite this empirical success there is still a lack of theoretical understanding of how the parameters of reinforcement learning models and the features used to represent states interact to control the dynamics of learning. In this work, we use concepts from statistical physics, to study the typical case learning curves for temporal difference learning of a value function with linear function approximators. Our theory is derived under a Gaussian equivalence hypothesis where averages over the random trajectories are replaced with temporally correlated Gaussian feature averages and we validate our assumptions on small scale Markov Decision Processes. We find that the stochastic semi-gradient noise due to subsampling the space of possible episodes leads to significant plateaus in the value error, unlike in traditional gradient descent dynamics. We study how learning dynamics and plateaus depend on feature structure, learning rate, discount factor, and reward function. We then analyze how strategies like learning rate annealing and reward shaping can favorably alter learning dynamics and plateaus. To conclude, our work introduces new tools to open a new direction towards developing a theory of learning dynamics in reinforcement learning. | 翻訳日:2023-07-12 17:23:06 公開日:2023-07-10 |
# CREPE: CLIPによる学習可能なプロンプトは、視覚的関係予測を改善する CREPE: Learnable Prompting With CLIP Improves Visual Relationship Prediction ( http://arxiv.org/abs/2307.04838v1 ) ライセンス: Link先を確認 | Rakshith Subramanyam, T. S. Jayram, Rushil Anirudh and Jayaraman J. Thiagarajan | (参考訳) 本稿では,視覚的特徴を視覚的特徴から言語的関係に解釈する,視覚的オブジェクト関係の予測における視覚言語モデル(VLM)の可能性について検討する。
現在の最先端の手法では、この課題に対処するために言語キューと視覚的特徴を利用する複雑なグラフィカルモデルを使用している。
CLIP埋め込みの強い言語は、より単純なアプローチのためにこれらのグラフィカルモデル舗装を単純化できると仮定する。
我々はUVTransE関係予測フレームワークを採用し、シーンから主題、オブジェクト、ユニオンボックスへの翻訳埋め込みとして関係を学習する。
本稿では,UVTransEフレームワーク内でのCLIPに基づく主題,オブジェクト,およびユニオンボックス表現の設計を体系的に検討し,CREPE (CLIP Representation Enhanced Predicate Estimation) を提案する。
CREPEは3つのバウンディングボックスすべてにテキストベースの表現を使用し、ユニオンボックスのテキストプロンプトを自動的に推論する新しい対照的なトレーニング戦略を導入する。
本手法は,前述語推定法であるmr@5 27.79,mr@20 31.95を視覚ゲノムベンチマークで達成し,最新のmr@20での性能向上を15.3 %達成した。
この研究は、オブジェクト関係予測におけるCLIPの有効性を実証し、この挑戦領域におけるVLMのさらなる研究を奨励する。 In this paper, we explore the potential of Vision-Language Models (VLMs), specifically CLIP, in predicting visual object relationships, which involves interpreting visual features from images into language-based relations. Current state-of-the-art methods use complex graphical models that utilize language cues and visual features to address this challenge. We hypothesize that the strong language priors in CLIP embeddings can simplify these graphical models paving for a simpler approach. We adopt the UVTransE relation prediction framework, which learns the relation as a translational embedding with subject, object, and union box embeddings from a scene. We systematically explore the design of CLIP-based subject, object, and union-box representations within the UVTransE framework and propose CREPE (CLIP Representation Enhanced Predicate Estimation). CREPE utilizes text-based representations for all three bounding boxes and introduces a novel contrastive training strategy to automatically infer the text prompt for union-box. Our approach achieves state-of-the-art performance in predicate estimation, mR@5 27.79, and mR@20 31.95 on the Visual Genome benchmark, achieving a 15.3\% gain in performance over recent state-of-the-art at mR@20. This work demonstrates CLIP's effectiveness in object relation prediction and encourages further research on VLMs in this challenging domain. | 翻訳日:2023-07-12 17:22:43 公開日:2023-07-10 |
# 300mmスピンキュービットウエハにおける単一電子の探索 Probing single electrons across 300 mm spin qubit wafers ( http://arxiv.org/abs/2307.04812v1 ) ライセンス: Link先を確認 | Samuel Neyens, Otto Zietz, Thomas Watson, Florian Luthi, Aditi Nethwewala, Hubert George, Eric Henry, Andrew Wagner, Mohammad Islam, Ravi Pillarisetty, Roza Kotlyar, Kent Millard, Stefano Pellerano, Nathan Bishop, Stephanie Bojarski, Jeanette Roberts, James S. Clarke | (参考訳) フォールトトレラントな量子コンピュータを構築するには、大量の物理キュービットが必要になる。
固体電子デバイスに基づく量子ビット技術では、1つのプロセッサに数百万の量子ビットを統合するには、現代のCMOS産業に匹敵する規模のデバイス製造が必要である。
同様に、低温デバイステストのスケールは、効率的なデバイススクリーニングを可能にするためにペースを保ち、キュービット収量やプロセスの変動といった統計指標を改善する必要がある。
スピン量子ビットは印象的な制御性を示してきたが、歴史的には収量やプロセスの変化によって挑戦されてきた。
本研究では、低温300mmウエハプローブを用いて、産業用スピンキュービットデバイスの性能に関する高ボリュームデータを1.6Kで収集し、CMOS互換製造プロセスの最適化を可能にする高速なフィードバックを提供する。
本システムを用いて,スピン量子ビットの動作点の測定を自動化し,単一電子のフルウェーハへの遷移を探索する。
単一電子動作電圧の無作為変動を分析し,300mmスケールでこの製造プロセスが低レベルの障害を引き起こすことを見出した。
これらの結果は、スピン量子ビットの製造と測定にCMOS産業技術を適用することで達成できる進歩を実証するものである。 Building a fault-tolerant quantum computer will require vast numbers of physical qubits. For qubit technologies based on solid state electronic devices, integrating millions of qubits in a single processor will require device fabrication to reach a scale comparable to that of the modern CMOS industry. Equally importantly, the scale of cryogenic device testing must keep pace to enable efficient device screening and to improve statistical metrics like qubit yield and process variation. Spin qubits have shown impressive control fidelities but have historically been challenged by yield and process variation. In this work, we present a testing process using a cryogenic 300 mm wafer prober to collect high-volume data on the performance of industry-manufactured spin qubit devices at 1.6 K. This testing method provides fast feedback to enable optimization of the CMOS-compatible fabrication process, leading to high yield and low process variation. Using this system, we automate measurements of the operating point of spin qubits and probe the transitions of single electrons across full wafers. We analyze the random variation in single-electron operating voltages and find that this fabrication process leads to low levels of disorder at the 300 mm scale. Together these results demonstrate the advances that can be achieved through the application of CMOS industry techniques to the fabrication and measurement of spin qubits. | 翻訳日:2023-07-12 17:21:26 公開日:2023-07-10 |
# キャビティ結合スピン発振器の自律フィードバック安定化 Autonomous feedback stabilization of a cavity-coupled spin oscillator ( http://arxiv.org/abs/2307.04808v1 ) ライセンス: Link先を確認 | Julian Wolf, Olive H. Eilbott, Josh A. Isaacs, Kevin P. Mours, Dan M. Stamper-Kurn | (参考訳) 光キャビティによる自律的なフィードバックにより原子アンサンブルの集合スピンの平衡安定化を報告した。
キャビティ軸に対する角度で印加された磁場に対して、キャビティへの分散結合は、縦方向と横方向のスピンの組み合わせに対して感度を与える。
この測定からのコヒーレントなバックアクションは、光学キャビティ感受性によって条件付けられ、任意のエネルギーで集団スピン状態を安定化する。
フィードバックシステムの設定点追跡と閉ループ利得スペクトルは解析的予測と密接に一致していることがわかった。 We report out-of-equilibrium stabilization of the collective spin of an atomic ensemble through autonomous feedback by an optical cavity. For a magnetic field applied at an angle to the cavity axis, dispersive coupling to the cavity provides sensitivity to a combination of the longitudinal and transverse spin. Coherent backaction from this measurement, conditioned by the optical cavity susceptibility, stabilizes the collective spin state at an arbitrary energy. The set point tracking and closed-loop gain spectrum of the feedback system are characterized and found to agree closely with analytic predictions. | 翻訳日:2023-07-12 17:21:04 公開日:2023-07-10 |
# 長距離相互作用を持つ量子多体系の平衡外ダイナミクス Out-of-equilibrium dynamics of quantum many-body systems with long-range interactions ( http://arxiv.org/abs/2307.04802v1 ) ライセンス: Link先を確認 | Nicol\`o Defenu, Alessio Lerose, Silvia Pappalardi | (参考訳) 過去10年間の原子、分子、光学プラットフォームの実験的な進歩は、多くの長距離相互作用粒子の量子コヒーレントダイナミクスに強く幅広い関心を喚起した。
これらの系の顕著な集合的特徴は、局所的な相互作用を持つ従来の量子系にはない新しい非平衡現象を可能にする。
この領域で研究されている理論の多くは、局所相互作用の物理学に対する可変範囲相互作用のテールの影響に焦点を当てたものか、あるいはすべての無限領域相互作用の反対の極限に基づく平均場のような記述に依存している。
本報告では, この分野における最近の進歩の体系的, 有機的考察について述べる。
乱れのない量子スピン格子の原型的相互作用を扱うため,本発表では,小体平均場物理学と準局所相互作用の多体物理学とを補間する多元論的形式論に着目する。
このような形式主義はこれら2つの体制を結び付けることができ、形式的な量的道具と基本的な物理的直観の両方を提供する。
量子相関の特異な非ボール的拡散,エンタングルメントダイナミクスの逆直観的スローダウン,熱分解と平衡の抑制,臨界点通過時の欠陥の異常拡大,動的相転移,周期駆動による真の非平衡相など,過去10年間のいくつかの知見をレビューするためにこの統一フレームワークを利用する。
このレポートのスタイルは教育的な側面にあり、以前の経験のない読者でも利用することができる。 Experimental progress in atomic, molecular, and optical platforms in the last decade has stimulated strong and broad interest in the quantum coherent dynamics of many long-range interacting particles. The prominent collective character of these systems enables novel non-equilibrium phenomena with no counterpart in conventional quantum systems with local interactions. Much of the theory work in this area either focussed on the impact of variable-range interaction tails on the physics of local interactions or relied on mean-field-like descriptions based on the opposite limit of all-to-all infinite-range interactions. In this Report, we present a systematic and organic review of recent advances in the field. Working with prototypical interacting quantum spin lattices without disorder, our presentation hinges upon a versatile theoretical formalism that interpolates between the few-body mean-field physics and the many-body physics of quasi-local interactions. Such a formalism allows us to connect these two regimes, providing both a formal quantitative tool and basic physical intuition. We leverage this unifying framework to review several findings of the last decade, including the peculiar non-ballistic spreading of quantum correlations, counter-intuitive slowdown of entanglement dynamics, suppression of thermalization and equilibration, anomalous scaling of defects upon traversing criticality, dynamical phase transitions, and genuinely non-equilibrium phases stabilized by periodic driving. The style of this Report is on the pedagogical side, which makes it accessible to readers without previous experience in the subject matter. | 翻訳日:2023-07-12 17:20:48 公開日:2023-07-10 |
# ド・ジッター空間の量子熱力学 Quantum thermodynamics of de Sitter space ( http://arxiv.org/abs/2307.04800v1 ) ライセンス: Link先を確認 | Robert Alicki, Gabriela Barenboim and Alejandro Jenkins | (参考訳) 我々は、拡大する三次元空間 $\mathbf{x}$ に埋め込まれた開量子系の局所物理学を考える。
系の非ユニタリ進化に対する対応するマルコフのマスター方程式を導出し、ハッブルパラメータ $h = $ const を持つド・ジッター(dS)空間に対して証明する。
背景フィールドは、温度$t_{\rm ds} = h / 2 \pi$ の物理的な熱浴として機能する。
この浴のエネルギー密度は、ステファン=ボルツマン法$\rho_{\rm dS} \propto h^4$に従う。
これらの結果が dS 空間の熱力学をどのように明らかにするかを論じるとともに,その不安定性に関する以前の議論を支持する。
宇宙論的な意味合いは、付随する手紙で考慮される We consider the local physics of an open quantum system embedded in an expanding three-dimensional space $\mathbf{x}$, evolving in cosmological time $t$, weakly coupled to massless quantum fields. We derive the corresponding Markovian master equation for the system's non-unitary evolution and show that, for a de Sitter (dS) space with Hubble parameter $h = $ const., the background fields act as a physical heat bath with temperature $T_{\rm dS} = h / 2 \pi$. The energy density of this bath obeys the Stefan-Boltzmann law $\rho_{\rm dS} \propto h^4$. We comment on how these results clarify the thermodynamics of dS space and support previous arguments for its instability in the infrarred. The cosmological implications are considered in a accompanying letter | 翻訳日:2023-07-12 17:20:19 公開日:2023-07-10 |
# マイクロステートモデルによるブラックホールの相補性:ブラックホール内部における情報複製とエンコーディングに関する研究 Black hole complementarity from microstate models: A study of information replication and the encoding in the black hole interior ( http://arxiv.org/abs/2307.04799v1 ) ライセンス: Link先を確認 | Tanay Kibe, Sukrut Mondkar, Ayan Mukhopadhyay, Hareram Swain | (参考訳) ブラックホールの相補性原理が、局所半古典近似における量子重力力学からどのように生まれるかを研究する。
さらに, ほぼ極端ブラックホールの破断不安定性に基づくマイクロステートモデルの開発と単純化により, 入射情報の複製(クローン化はしないが)の鍵は, 様々な自由度の解離であることがわかった。
落下する物質は、非等尺的に物質の初期状態をエンコードする毛髪に残留時間依存の量子状態を保持する内部から分離する。
エネルギー吸収とデカップリングの後の内部の非線形なリングダウンも初期状態を符号化し、情報をホーキング放射に転送する。
ホーキング蒸発過程の間、断片化された喉は互いに切り離され、髪は喉から切り離される。
毛髪は,分断した喉当たりの平均質量(温度の指標)が固定された場合,エントロピーの対数(入射時)にスケールする脱カップリング時間後に潜伏する情報を鏡に映し出す。
ミラー化された情報の復号化プロトコルは内部の知識を必要とせず、ホーキング放射からの限られた情報しか必要としない。
ブラックホールにおける情報処理の様々な側面を照らすためのモデルの範囲について論じる。 We study how the black hole complementarity principle can emerge from quantum gravitational dynamics within a local semiclassical approximation. Further developing and then simplifying a microstate model based on the fragmentation instability of a near-extremal black hole, we find that the key to the replication (but not cloning) of infalling information is the decoupling of various degrees of freedom. The infalling matter decouples from the interior retaining a residual time-dependent quantum state in the hair which encodes the initial state of the matter non-isometrically. The non-linear ringdown of the interior after energy absorption and decoupling also encodes the initial state, and transfers the information to Hawking radiation. During the Hawking evaporation process, the fragmented throats decouple from each other and the hair decouples from the throats. We find that the hair mirrors infalling information after the decoupling time which scales with the logarithm of the entropy (at the time of infall) when the average mass per fragmented throat (a proxy for the temperature) is held fixed. The decoding protocol for the mirrored information does not require knowledge of the interior, and only limited information from the Hawking radiation, as can be argued to be necessitated by the complementarity principle. We discuss the scope of the model to illuminate various aspects of information processing in a black hole. | 翻訳日:2023-07-12 17:20:06 公開日:2023-07-10 |
# 非線形誘導余剰次元による連続体の工学的境界状態 Engineering bound states in continuum via nonlinearity induced extra dimension ( http://arxiv.org/abs/2307.04877v1 ) ライセンス: Link先を確認 | Qingtian Miao, Jayakrishnan M. P. Nair, Girish S. Agarwal | (参考訳) 連続体(BICs)における境界状態は、様々な科学分野にまたがって、非常に大きな寿命を持つ系の局所状態である。
本研究では,システムにKerr非線形性を用いることで,BICを設計するための効率的なプロトコルを提案する。
BICの生成は、システムの次元における非線形性と関連する拡張の直接的なアーティファクトである。
特に,シングルモードと2モードのアンハーモニックシステムについて検討し,BICの生成に有効なソリューションを多数提供する。
bicの近傍では、系の定常応答は系の自然周波数の摂動に非常に敏感であり、光と磁気の非線形性の両方で実験的に実現可能な設定の文脈でその伝播型感知ポテンシャルを示す。 Bound states in continuum (BICs) are localized states of a system possessing significantly large life times with applications across various branches of science. In this work, we propose an expedient protocol to engineer BICs which involves the use of Kerr nonlinearities in the system. The generation of BICs is a direct artifact of the nonlinearity and the associated expansion in the dimensionality of the system. In particular, we consider single and two mode anharmonic systems and provide a number of solutions apposite for the creation of BICs. In close vicinity to the BIC, the steady state response of the system is immensely sensitive to perturbations in natural frequencies of the system and we illustrate its propitious sensing potential in the context of experimentally realizable setups for both optical and magnetic nonlinearities. | 翻訳日:2023-07-12 17:12:21 公開日:2023-07-10 |
# the synthesis lab: 知識合成による高等教育における協調学習の促進 The Synthesis Lab: Empowering Collaborative Learning in Higher Education through Knowledge Synthesis ( http://arxiv.org/abs/2307.04872v1 ) ライセンス: Link先を確認 | Xinran Zhu, Hong Shui, Bodong Chen | (参考訳) 情報を合成する能力は、様々な分野で成功するための重要なスキルとして現れてきた。
しかし、教育の分野では、協調学習環境における知識合成のメカニズムとプロセスに対処する体系的な理解と明確な設計基盤が欠如している。
本ポスターでは,高校生の授業におけるオンラインディスカッションからアイデアを合成する学生を支援するためのデザインイノベーション-ザ・シンセサイザー・ラボを紹介する。
このツールは、学生が合成過程を中間合成生成物に分解するための構造化されたワークスペースを提供し、協調的な設定において知識合成の2つの重要な反復的なプロセスを特徴付ける。
設計の今後の実施と評価は、研究と実践の両方に多大な貢献をする。 The ability to synthesize information has emerged as a critical skill for success across various fields. However, within the field of education, there is a lack of systematic understanding and well-defined design infrastructures that address the mechanisms and processes of knowledge synthesis in collaborative learning settings. In this poster, we introduce a design innovation - The Synthesis Lab, which aims to support students in synthesizing ideas from their online discussions in higher education classrooms. The tool offers structured work-spaces for students to decompose the synthesis process into intermediate synthesis products and features two key iterative processes of knowledge synthesis in collaborative settings: categorizing peers' ideas into conceptual building blocks and developing a synthesis of the discussions. Future implementation and evaluation of the design will make significant contributions to both research and practice. | 翻訳日:2023-07-12 17:12:06 公開日:2023-07-10 |
# オニオン宇宙アルゴリズム:弱い教師付き学習への応用 Onion Universe Algorithm: Applications in Weakly Supervised Learning ( http://arxiv.org/abs/2307.04870v1 ) ライセンス: Link先を確認 | Woojoo Na | (参考訳) アンサンブル学習の新しい分類法であるオニオンユニバースアルゴリズム(OUA)を紹介する。
特に,弱教師付き学習のためのラベルモデルとして適用可能性を示す。
ouaは実装の単純さ、計算効率を提供し、データや弱い信号に関する仮定に依存しない。
このモデルは、完全なラベル付きデータが利用できないシナリオに適している。
本手法は弱信号にまたがる空間の幾何学的解釈に基づいている。
実験結果は,弱信号の一般集合の基礎となる隠れた幾何構造の解析を支援し,ouaが実際にうまく機能することを示す。
従来のラベルモデルと比較して,OUAが一般的なベンチマークデータセットで良好に機能することを示す実証的証拠を示す。 We introduce Onion Universe Algorithm (OUA), a novel classification method in ensemble learning. In particular, we show its applicability as a label model for weakly supervised learning. OUA offers simplicity in implementation, computational efficiency, and does not rely on any assumptions regarding the data or weak signals. The model is well suited for scenarios where fully labeled data is not available. Our method is built upon geometrical interpretation of the space spanned by weak signals. Empirical results support our analysis of the hidden geometric structure underlying general set of weak signals and also illustrates that OUA works well in practice. We show empirical evidence that OUA performs favorably on common benchmark datasets compared to existing label models for weakly supervised learning. | 翻訳日:2023-07-12 17:11:53 公開日:2023-07-10 |
# fed-cprompt:リハーサルフリー連続学習のためのコントラストプロンプト Fed-CPrompt: Contrastive Prompt for Rehearsal-Free Federated Continual Learning ( http://arxiv.org/abs/2307.04869v1 ) ライセンス: Link先を確認 | Gaurav Bagwe and Xiaoyong Yuan and Miao Pan and Lan Zhang | (参考訳) フェデレーション連続学習(FCL)は、クライアントに分散した機密データセットから、時間とともに漸進的なタスクを学習する。
本稿では,過去のタスクデータにアクセスできないため,新しいタスクを学習する際の忘れを厳しくするリハーサルのないFCLに焦点を当てる。
そこで本研究では,コミュニケーション効率のよいタスク固有プロンプトを得るために,プロンプト学習技術に基づくfeed-cpromptを提案する。
Fed-CPromptは非同期プロンプト学習とコントラスト連続損失という2つの重要なコンポーネントを導入し、それぞれFCLの非同期タスク到着と異種データ分散を処理する。
大規模な実験は、SOTAリハーサルフリーFCL性能を達成するためのFed-CPromptの有効性を示した。 Federated continual learning (FCL) learns incremental tasks over time from confidential datasets distributed across clients. This paper focuses on rehearsal-free FCL, which has severe forgetting issues when learning new tasks due to the lack of access to historical task data. To address this issue, we propose Fed-CPrompt based on prompt learning techniques to obtain task-specific prompts in a communication-efficient way. Fed-CPrompt introduces two key components, asynchronous prompt learning, and contrastive continual loss, to handle asynchronous task arrival and heterogeneous data distributions in FCL, respectively. Extensive experiments demonstrate the effectiveness of Fed-CPrompt in achieving SOTA rehearsal-free FCL performance. | 翻訳日:2023-07-12 17:11:43 公開日:2023-07-10 |
# インスタンス依存ラベル雑音に対するアライメントセットの活用 Leveraging an Alignment Set in Tackling Instance-Dependent Label Noise ( http://arxiv.org/abs/2307.04868v1 ) ライセンス: Link先を確認 | Donna Tjandra and Jenna Wiens | (参考訳) ノイズの多いトレーニングラベルは、モデルパフォーマンスを傷つけます。
ラベルノイズに対処するほとんどのアプローチでは、ラベルノイズは入力特徴とは独立である。
しかし実際には、ラベルノイズはしばしばフィーチャーまたは \textit{instance-dependent} であり、偏りがある(例えば、いくつかのインスタンスは他のインスタンスよりも誤ラベルが多い)。
例えば、臨床医療では、女性患者は男性患者に比べて心血管疾患の診断下にあることが多い。
この依存を無視するアプローチは、識別性能の低いモデルを生み出す可能性があり、多くの医療環境では、健康格差に関する問題を悪化させる可能性がある。
これらの制約を踏まえ、インスタンス依存のラベルノイズを学習するための2段階のアプローチを提案する。
提案手法では,観測された真理ラベルと地上の真理ラベルを識別するデータの小さなサブセットである「textit{\anchor Point」を利用する。
いくつかの課題において,本手法は偏差(等化奇数曲線,AUEOC)を緩和しながら,最先端の識別性能(AUROC)に対して一貫した改善をもたらす。
例えば,MIMIC-IIIデータセットで急性呼吸不全の発症を予測した場合,次の最良基準値である0.81(SD 0.01)に対して,AUROCとAUEOCの0.84(SD[標準偏差]0.01)の調和平均値が得られる。
全体として,本手法は,既存手法と比較して,潜在的なバイアスを緩和しながら精度を向上する。 Noisy training labels can hurt model performance. Most approaches that aim to address label noise assume label noise is independent from the input features. In practice, however, label noise is often feature or \textit{instance-dependent}, and therefore biased (i.e., some instances are more likely to be mislabeled than others). E.g., in clinical care, female patients are more likely to be under-diagnosed for cardiovascular disease compared to male patients. Approaches that ignore this dependence can produce models with poor discriminative performance, and in many healthcare settings, can exacerbate issues around health disparities. In light of these limitations, we propose a two-stage approach to learn in the presence instance-dependent label noise. Our approach utilizes \textit{\anchor points}, a small subset of data for which we know the observed and ground truth labels. On several tasks, our approach leads to consistent improvements over the state-of-the-art in discriminative performance (AUROC) while mitigating bias (area under the equalized odds curve, AUEOC). For example, when predicting acute respiratory failure onset on the MIMIC-III dataset, our approach achieves a harmonic mean (AUROC and AUEOC) of 0.84 (SD [standard deviation] 0.01) while that of the next best baseline is 0.81 (SD 0.01). Overall, our approach improves accuracy while mitigating potential bias compared to existing approaches in the presence of instance-dependent label noise. | 翻訳日:2023-07-12 17:11:29 公開日:2023-07-10 |
# 画像インテンシティフィルタを用いた量子コンピュータにおける測定ノイズ緩和 Measurement Noise Mitigation in a Quantum Computer Using Image Intensity Filters ( http://arxiv.org/abs/2307.04867v1 ) ライセンス: Link先を確認 | Wladimir Silva | (参考訳) 画像コントラストフィルタを用いた量子コンピュータの分布数における測定誤差を軽減する手法を提案する。
この研究は、ガンベッタと同僚が[1]で記述した手法に似ているが、この手法は線形方程式系ではなく、画像コントラストフィルタを用いて測定ノイズを緩和するものである。
さらに, この手法は, [1] を基礎とする Qiskit の行列フリー測定緩和 (M3) ライブラリに記述された実験の集合に対して実証される。
以上の結果から,全ての実験においてm3を高いマージンで上回った。
最後に、さらなる調査のために結果、ドキュメント、詳細なテストおよびソースコードを提供します。 We propose a method to mitigate measurement errors in the distribution counts of a Quantum computer using image contrast filters. This work is similar to the method described by Gambetta and colleagues in [1]; however our technique does not use a linear system of equations, but an image contrast filter to mitigate the measurement noise. Furthermore this method is demonstrated against the same set of experiments described in the matrix-free measurement mitigation (M3) library from Qiskit from which [1] is based upon. Our results show our method outperforming M3 by a wide margin in all experiments. Finally, we provide results, documentation and detailed test and source code for further investigation. | 翻訳日:2023-07-12 17:10:57 公開日:2023-07-10 |
# 歩行速度と走行速度の典型的な範囲にわたるウェイトウーン加速度計による歩行事象と走行距離の自動検出 Automated Detection of Gait Events and Travel Distance Using Waist-worn Accelerometers Across a Typical Range of Walking and Running Speeds ( http://arxiv.org/abs/2307.04866v1 ) ライセンス: Link先を確認 | Albara Ah Ramli, Xin Liu, Kelly Berndt, Chen-Nee Chuah, Erica Goude, Lynea B. Kaethler, Amanda Lopez, Alina Nicorici, Corey Owens, David Rodriguez, Jane Wang, Daniel Aranki, Craig M. McDonald, Erik K. Henricson | (参考訳) 背景: 歩数, 歩数, 歩数, 歩数, 歩数, 歩数, 移動距離などの歩行の時間空間的臨床的特徴の推定は, ウェアラブル加速度計を用いた地域住民の移動評価の重要な要素である。
しかし、デバイスの複雑さと可用性、コスト、分析方法論から生じる課題は、そのようなツールの幅広い応用に限られている。
Research Question: Can accelerometer data from commercially-available smartphones be used to extract gait CFs across a broad range of attainable gait velocities in children with Duchenne muscular dystrophy (DMD) and typically developing controls (TDs) using machine learning (ML)-based methods Methods: Fifteen children with DMD and 15 TDs underwent supervised clinical testing across a range of gait speeds using 10 or 25m run/walk (10MRW, 25MRW), 100m run/walk (100MRW), 6-minute walk (6MWT) and free-walk (FW) evaluations while wearing a mobile phone-based accelerometer at the waist near the body's center of mass.
多段階の機械学習プロセスを用いて加速度計データから歩行CFを抽出し,地中観測データと比較した。
結果: 歩数, 走行距離, 歩数に対するモデル予測は強い相関関係を示した(ピアソンのr=-0.9929から0.9986, p<0.0001)。
推定では、平均(sd)パーセンテージエラーは、ステップ数で1.49%(7.04%)、距離移動で1.18%(9.91%)、ステップ長で0.37%(7.52%)、合計6mwt、100mw、fwのタスクで比較した。
意義:この研究は、身体の質量中心付近に配置された単一の加速度計が、tdおよびdmdピアの異なる歩行速度でcfsを正確に測定できることを示しており、消費者レベルのスマートフォンでコミュニティ内でcfsを正確に測定できる可能性が示唆されている。 Background: Estimation of temporospatial clinical features of gait (CFs), such as step count and length, step duration, step frequency, gait speed and distance traveled is an important component of community-based mobility evaluation using wearable accelerometers. However, challenges arising from device complexity and availability, cost and analytical methodology have limited widespread application of such tools. Research Question: Can accelerometer data from commercially-available smartphones be used to extract gait CFs across a broad range of attainable gait velocities in children with Duchenne muscular dystrophy (DMD) and typically developing controls (TDs) using machine learning (ML)-based methods Methods: Fifteen children with DMD and 15 TDs underwent supervised clinical testing across a range of gait speeds using 10 or 25m run/walk (10MRW, 25MRW), 100m run/walk (100MRW), 6-minute walk (6MWT) and free-walk (FW) evaluations while wearing a mobile phone-based accelerometer at the waist near the body's center of mass. Gait CFs were extracted from the accelerometer data using a multi-step machine learning-based process and results were compared to ground-truth observation data. Results: Model predictions vs. observed values for step counts, distance traveled, and step length showed a strong correlation (Pearson's r = -0.9929 to 0.9986, p<0.0001). The estimates demonstrated a mean (SD) percentage error of 1.49% (7.04%) for step counts, 1.18% (9.91%) for distance traveled, and 0.37% (7.52%) for step length compared to ground truth observations for the combined 6MWT, 100MRW, and FW tasks. Significance: The study findings indicate that a single accelerometer placed near the body's center of mass can accurately measure CFs across different gait speeds in both TD and DMD peers, suggesting that there is potential for accurately measuring CFs in the community with consumer-level smartphones. | 翻訳日:2023-07-12 17:10:48 公開日:2023-07-10 |
# テキスト・画像拡散モデルを用いたArticulated 3D Head Avatar生成 Articulated 3D Head Avatar Generation using Text-to-Image Diffusion Models ( http://arxiv.org/abs/2307.04859v1 ) ライセンス: Link先を確認 | Alexander W. Bergman, Wang Yifan, Gordon Wetzstein | (参考訳) 多様な3d関節のアバターを生成する能力は、拡張現実、シネマトグラフィー、教育など多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
これらの手法は、事前訓練された2次元テキストから画像への拡散モデルを直接活用し、ジェネリックオブジェクトの3dマルチビュー整合放射場を生成する。
しかし、幾何学やテクスチャの先行性が欠如しているため、これらの手法は生成された3Dオブジェクトを限定的に制御できるため、例えば人間の頭部のような特定の領域内での操作が困難になる。
本研究では,テキスト誘導3d頭部アバター生成に対する新しいアプローチを開発し,この制限に対処した。
本フレームワークは,頭部の3次元形状モデル(3DMM)の形状とテクスチャを直接操作し,2次元と3次元の顔の特徴を整列させながら形状とテクスチャを更新する新しい最適化手法を提案する。
その結果、テキスト記述と整合し、3dmmの変形モデルを用いて容易に調音できる3d頭部アバターが得られる。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
後者は典型的にはクリップに基づいており、3dオブジェクト生成の多様性と精度が限られていることが知られている。 The ability to generate diverse 3D articulated head avatars is vital to a plethora of applications, including augmented reality, cinematography, and education. Recent work on text-guided 3D object generation has shown great promise in addressing these needs. These methods directly leverage pre-trained 2D text-to-image diffusion models to generate 3D-multi-view-consistent radiance fields of generic objects. However, due to the lack of geometry and texture priors, these methods have limited control over the generated 3D objects, making it difficult to operate inside a specific domain, e.g., human heads. In this work, we develop a new approach to text-guided 3D head avatar generation to address this limitation. Our framework directly operates on the geometry and texture of an articulable 3D morphable model (3DMM) of a head, and introduces novel optimization procedures to update the geometry and texture while keeping the 2D and 3D facial features aligned. The result is a 3D head avatar that is consistent with the text description and can be readily articulated using the deformation model of the 3DMM. We show that our diffusion-based articulated head avatars outperform state-of-the-art approaches for this task. The latter are typically based on CLIP, which is known to provide limited diversity of generation and accuracy for 3D object generation. | 翻訳日:2023-07-12 17:10:10 公開日:2023-07-10 |
# amadeusgpt:インタラクティブな動物行動分析のための自然言語インタフェース AmadeusGPT: a natural language interface for interactive animal behavioral analysis ( http://arxiv.org/abs/2307.04858v1 ) ライセンス: Link先を確認 | Shaokai Ye, Jessy Lauer, Mu Zhou, Alexander Mathis, Mackenzie W. Mathis | (参考訳) 動物の行動の定量化と分析のプロセスは、自然に発生する記述言語を機械可読コードに翻訳する。
しかし、動物行動や技術機械学習の知識を深く理解しなければ、行動分析の体系化は難しいことが多い。
このギャップを制限するために、動作の自然言語記述をマシン実行可能なコードに変換する自然言語インターフェースであるAmadeusGPTを紹介します。
GPT3.5やGPT4のような大規模言語モデル(LLM)は、対話的な振る舞い分析に適した対話型言語ベースのクエリを可能にする。
しかし、これらのLLMの理解能力はコンテキストウィンドウサイズによって制限されており、遠隔会話を記憶できない。
コンテクストウィンドウの制限を克服するため,シンボルをコンテキストポインタとして,短期記憶と長期記憶の通信を可能にする新しいデュアルメモリ機構を実装した。
具体的には、ユーザは言語に基づく行動定義を直接使用し、拡張GPTは、機械学習、コンピュータビジョン、時空間推論、可視化モジュールを含むコアAmadeusGPT APIに基づくコードを開発する。
ユーザは対話的に結果を洗練し、必要に応じて新しい行動モジュールをシームレスに追加できる。
我々は, AmadeusGPT をベンチマークし, MABE 2022 の動作課題タスクで最先端のパフォーマンスを実現できることを示す。
注: エンドユーザは、これを達成するためにコードを書かなくてもよい。
したがって、アマデウスgptは、深い生物学的知識、大言語モデル、コアコンピュータビジョンモジュールをより自然なシステムに統合する新しい方法を提案する。
コードとデモは、https://github.com/AdaptiveMotorControlLab/AmadeusGPTで見ることができる。 The process of quantifying and analyzing animal behavior involves translating the naturally occurring descriptive language of their actions into machine-readable code. Yet, codifying behavior analysis is often challenging without deep understanding of animal behavior and technical machine learning knowledge. To limit this gap, we introduce AmadeusGPT: a natural language interface that turns natural language descriptions of behaviors into machine-executable code. Large-language models (LLMs) such as GPT3.5 and GPT4 allow for interactive language-based queries that are potentially well suited for making interactive behavior analysis. However, the comprehension capability of these LLMs is limited by the context window size, which prevents it from remembering distant conversations. To overcome the context window limitation, we implement a novel dual-memory mechanism to allow communication between short-term and long-term memory using symbols as context pointers for retrieval and saving. Concretely, users directly use language-based definitions of behavior and our augmented GPT develops code based on the core AmadeusGPT API, which contains machine learning, computer vision, spatio-temporal reasoning, and visualization modules. Users then can interactively refine results, and seamlessly add new behavioral modules as needed. We benchmark AmadeusGPT and show we can produce state-of-the-art performance on the MABE 2022 behavior challenge tasks. Note, an end-user would not need to write any code to achieve this. Thus, collectively AmadeusGPT presents a novel way to merge deep biological knowledge, large-language models, and core computer vision modules into a more naturally intelligent system. Code and demos can be found at: https://github.com/AdaptiveMotorControlLab/AmadeusGPT. | 翻訳日:2023-07-12 17:09:47 公開日:2023-07-10 |
# 超小型光源からの光子対の時間分解精製 Time-resolved purification of photon pairs from ultrasmall sources ( http://arxiv.org/abs/2307.04855v1 ) ライセンス: Link先を確認 | Vitaliy Sultanov, Maria Chekhova | (参考訳) 薄膜、メタサーフェス、ナノアンテナなどの超小型光源からの自発的パラメトリックダウンコンバージョン(spdc)による絡み合った光子の生成は、量子状態工学において前例のない自由を与える。
しかし、SPDCの光源が小さくなるにつれて、発光の役割が増し、熱背景を持つ2光子状態が汚染される。
本稿では, パルスSPDC法と時間蒸留法を用いて光子対の純度と発散効率を向上する手法を提案する。
実験では,ニオブ酸リチウムの7$\mu$m膜中に生成する2光子の純度を0.002から0.99に引き上げた。
高い純度で、緩和相整合により同時に生成される光子対の異なる偏光状態を観察し、特徴付けることができた。
特に, 直交偏光子の存在を示し, 偏光絡みの発生に有効である可能性が示唆された。 Generation of entangled photons through spontaneous parametric down-conversion (SPDC) from ultrasmall sources like thin films, metasurfaces, or nanoantennas, offers unprecedented freedom in quantum state engineering. However, as the source of SPDC gets smaller, the role of photoluminescence increases, which leads to the contamination of two-photon states with thermal background. Here we propose and implement a solution to this problem: by using pulsed SPDC and time distillation, we increase the purity and the heralding efficiency of the photon pairs. In the experiment, we increase the purity of two-photon states generated in a 7 $\mu$m film of lithium niobate from 0.002 to 0.99. With the higher purity, we were able to observe and characterize different polarization states of photon pairs generated simultaneously due to relaxed phase matching. In particular, we showed the presence of orthogonally polarized photons, potentially usable for the generation of polarization entanglement. | 翻訳日:2023-07-12 17:09:20 公開日:2023-07-10 |
# fedyolo: トレーニング済みトランスフォーマーによるフェデレーション学習の強化 FedYolo: Augmenting Federated Learning with Pretrained Transformers ( http://arxiv.org/abs/2307.04905v1 ) ライセンス: Link先を確認 | Xuechen Zhang, Mingchen Li, Xiangyu Chang, Jiasi Chen, Amit K. Roy-Chowdhury, Ananda Theertha Suresh, Samet Oymak | (参考訳) 機械学習アプリケーションの成長と多様性は、モバイルとエッジデバイスで学習を再考する動機となっている。
多様な顧客目標に対処し、少ない異種データで学ぶには、どうすればよいのか?
連合学習はこれらの問題に対処することを目的としているが、統一ソリューションを妨げる課題がある。
大規模なトランスモデルは様々なタスクにまたがって機能し、目覚ましい数発の適応を実現している。
クライアントは、デバイスとネットワークの制約に従って、各タスクのカスタムモデルではなく、単一の汎用モデルを使用することができますか?
本研究では,これらのデバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討し,モデルサイズとモジュール性の役割を徹底的に探求する。
1) 大規模化は, 代替手法間の精度ギャップを縮小し, 異質性頑健性を改善する。
スケールにより、クライアントはよりローカルなSGDエポックを実行でき、通信ラウンドの数を著しく削減できる。
極端に、クライアントは、完全にローカルな学習の可能性を強調して、局所的に、信頼できる精度を達成できます。
2) Modularityは設計上、$>100$\times$ ビットでの通信を減らすことができる。
驚くべきことに、局所適応法の一般化能力とより小さなPTFの堅牢性も向上する。
最後に、クライアントは単一のPTFを使用して複数の非関連タスクを同時に解決できるが、完全な更新は破滅的な忘れがちである。
クライアントは完全なPTFモデルを一度にロードし、将来のすべての更新は、各タスクが独自のモジュールに割り当てられる、破滅的なフォゲッティングの限られた通信効率の良いモジュールによって達成されます。 The growth and diversity of machine learning applications motivate a rethinking of learning with mobile and edge devices. How can we address diverse client goals and learn with scarce heterogeneous data? While federated learning aims to address these issues, it has challenges hindering a unified solution. Large transformer models have been shown to work across a variety of tasks achieving remarkable few-shot adaptation. This raises the question: Can clients use a single general-purpose model, rather than custom models for each task, while obeying device and network constraints? In this work, we investigate pretrained transformers (PTF) to achieve these on-device learning goals and thoroughly explore the roles of model size and modularity, where the latter refers to adaptation through modules such as prompts or adapters. Focusing on federated learning, we demonstrate that: (1) Larger scale shrinks the accuracy gaps between alternative approaches and improves heterogeneity robustness. Scale allows clients to run more local SGD epochs which can significantly reduce the number of communication rounds. At the extreme, clients can achieve respectable accuracy locally highlighting the potential of fully-local learning. (2) Modularity, by design, enables $>$100$\times$ less communication in bits. Surprisingly, it also boosts the generalization capability of local adaptation methods and the robustness of smaller PTFs. Finally, it enables clients to solve multiple unrelated tasks simultaneously using a single PTF, whereas full updates are prone to catastrophic forgetting. These insights on scale and modularity motivate a new federated learning approach we call "You Only Load Once" (FedYolo): The clients load a full PTF model once and all future updates are accomplished through communication-efficient modules with limited catastrophic-forgetting, where each task is assigned to its own module. | 翻訳日:2023-07-12 17:03:01 公開日:2023-07-10 |
# c++の高速動的時間ワーピングとクラスタリング Fast dynamic time warping and clustering in C++ ( http://arxiv.org/abs/2307.04904v1 ) ライセンス: Link先を確認 | Volkan Kumtepeli and Rebecca Perriment and David A. Howey | (参考訳) 本稿では,計算効率のよい動的時間ワープ(DTW)と時系列データのクラスタリングについて述べる。
本手法は、動的プログラミングを用いて解く最適化問題として時系列データセットの動的ワープを行い、混合整数プログラミング(MIP)を用いて第2の最適化問題を解くことにより時系列データをクラスタ化する。
k-medoidsクラスタリングは,グローバルな最適性の証明書が必須ではない場合に,速度向上のために使用するオプションもある。
提案手法の効率改善はDTWとともにクラスタリングのタスクレベル並列化が原因である。
われわれのアプローチはUCR Time Series Archiveを用いてテストされ、同じクラスタリング方法を使用する場合、平均して33%高速であることが判明した。
より大きなデータセット(1000以上の時系列を持つ)のみを考えると、これは64%速くなります。
MIPクラスタリングはDTW計算が他の手法よりも高速であるため、より長い時系列の少数の時間に対して最も効果的であるが、クラスタリング問題はクラスタリングされる時系列の数が増加するにつれて計算コストが増大する。 We present an approach for computationally efficient dynamic time warping (DTW) and clustering of time-series data. The method frames the dynamic warping of time series datasets as an optimisation problem solved using dynamic programming, and then clusters time series data by solving a second optimisation problem using mixed-integer programming (MIP). There is also an option to use k-medoids clustering for increased speed, when a certificate for global optimality is not essential. The improved efficiency of our approach is due to task-level parallelisation of the clustering alongside DTW. Our approach was tested using the UCR Time Series Archive, and was found to be, on average, 33% faster than the next fastest option when using the same clustering method. This increases to 64% faster when considering only larger datasets (with more than 1000 time series). The MIP clustering is most effective on small numbers of longer time series, because the DTW computation is faster than other approaches, but the clustering problem becomes increasingly computationally expensive as the number of time series to be clustered increases. | 翻訳日:2023-07-12 17:02:30 公開日:2023-07-10 |
# 超伝導体間の負の静水圧 Negative electrohydrostatic pressure between superconducting bodies ( http://arxiv.org/abs/2307.04903v1 ) ライセンス: Link先を確認 | Thomas J. Maldonado, Dung N. Pham, Alessio Amaolo, Alejandro W. Rodriguez, Hakan E. T\"ureci | (参考訳) バルデーン=クーパー=シュリーファー理論やギンズバーグ=ランダウ理論は、バルデーン=クーパー=シュリーファー理論のようなバルク現象に大きく制限されているが、超伝導量子デバイスの開発において重要な役割を担っている。
本稿では,任意の形状の超伝導材料を含む系を記述可能な流体力学的非相対論的スカラー電磁力学理論を示し,平面超伝導体間の負の(引力的な)圧力の存在を予測する。
ロンドン浸透深度 $\lambda_\text{L} \approx 100 \text{ nm}$ の従来の超伝導体の場合、圧力はアングストローム分離時に $\text{N/mm}^2$ に達する。 Despite being largely limited to bulk phenomena, well-known theoretical models of superconductivity like the Bardeen-Cooper-Schrieffer and Ginzburg-Landau theories have played a key role in the development of superconducting quantum devices. In this letter, we present a hydrodynamic non-relativistic scalar electrodynamic theory capable of describing systems comprising superconducting materials of arbitrary shape and apply it to predict the existence of a negative (attractive) pressure between planar superconducting bodies. For conventional superconductors with London penetration depth $\lambda_\text{L} \approx 100 \text{ nm}$, the pressure reaches tens of $\text{N/mm}^2$ at angstrom separations. | 翻訳日:2023-07-12 17:02:10 公開日:2023-07-10 |
# Si/SiGeにおけるコンベアモード単一電子遮断によるスピン-EPR対分離 Spin-EPR-pair separation by conveyor-mode single electron shuttling in Si/SiGe ( http://arxiv.org/abs/2307.04897v1 ) ライセンス: Link先を確認 | Tom Struck, Mats Volmer, Lino Visser, Tobias Offermann, Ran Xue, Jhih-Sian Tu, Stefan Trellenkamp, {\L}ukasz Cywi\'nski, Hendrik Bluhm, Lars R. Schreiber | (参考訳) 長距離コヒーレント量子ビットカップリングはスピン量子ビットベースの量子コンピューティングソリューションをスケールアップするための機能ブロックの欠如である。
スピンコヒーレントコンベヤモード電子シャットリングは、スケーラブルでスパースな量子ビット構造を持つスピン量子チップを可能にする。
その主な特徴は、簡単に調整できる入力端末がほとんどなく、産業用ゲートファブリケーションとの互換性があることである。
420nmの量子バスのコンベアモードにおける単一電子遮断は、以前にも実証されている。
ここでは,コンベアモードシャットリング中のスピンコヒーレンスを分離し,アインシュタイン-ポドルスキー-ローゼン(EPR)スピンペアに再結合する。
以前の作業と比較して、シャトルの速度は10000倍向上しました。
我々は,動きの狭さによるシャトル距離の上昇に伴うスピン量子ビット遅延時間を観察し,総シャトル距離560nmに対して0.7 %の遅延によるスピンシャットル不確かさを推定する。
集積距離3.36$\mu$mまで複数のループをシャットダウンすると、EPRペアのスピン絡みは依然として検出可能であり、シリコンにおけるシャトルベースのスケーラブルな量子コンピューティングアーキテクチャのアプローチに良い視点を与える。 Long-ranged coherent qubit coupling is a missing function block for scaling up spin qubit based quantum computing solutions. Spin-coherent conveyor-mode electron-shuttling could enable spin quantum-chips with scalable and sparse qubit-architecture. Its key feature is the operation by only few easily tuneable input terminals and compatibility with industrial gate-fabrication. Single electron shuttling in conveyor-mode in a 420 nm long quantum bus has been demonstrated previously. Here we investigate the spin coherence during conveyor-mode shuttling by separation and rejoining an Einstein-Podolsky-Rosen (EPR) spin-pair. Compared to previous work we boost the shuttle velocity by a factor of 10000. We observe a rising spin-qubit dephasing time with the longer shuttle distances due to motional narrowing and estimate the spin-shuttle infidelity due to dephasing to be 0.7 % for a total shuttle distance of nominal 560 nm. Shuttling several loops up to an accumulated distance of 3.36 $\mu$m, spin-entanglement of the EPR pair is still detectable, giving good perspective for our approach of a shuttle-based scalable quantum computing architecture in silicon. | 翻訳日:2023-07-12 17:01:54 公開日:2023-07-10 |
# リカレントトランスを用いた制約充足問題の解法 Learning to Solve Constraint Satisfaction Problems with Recurrent Transformer ( http://arxiv.org/abs/2307.04895v1 ) ライセンス: Link先を確認 | Zhun Yang, Adam Ishay, Joohyung Lee | (参考訳) 制約満足度問題(CSP)とは、与えられた制約を満たす変数の値を見つけることである。
本稿では, ニューラルネットワーク, SATNet, およびいくつかのニューラルシンボリックモデルなどの最先端手法に対して, CSP を終末的に解くための学習手法として, 繰り返し拡張した Transformer が有効であることを示す。
視覚入力を処理するトランスフォーマの能力により、提案するリカレントトランスは、シンボルの接地問題にうまく対処しながら、視覚的制約推論問題に容易に適用することができる。
また,トランスフォーマーの帰納学習における離散的制約の帰納的知識を活用して,サンプル効率のよい学習と半教師付き学習を実現する方法を示す。 Constraint satisfaction problems (CSPs) are about finding values of variables that satisfy the given constraints. We show that Transformer extended with recurrence is a viable approach to learning to solve CSPs in an end-to-end manner, having clear advantages over state-of-the-art methods such as Graph Neural Networks, SATNet, and some neuro-symbolic models. With the ability of Transformer to handle visual input, the proposed Recurrent Transformer can straightforwardly be applied to visual constraint reasoning problems while successfully addressing the symbol grounding problem. We also show how to leverage deductive knowledge of discrete constraints in the Transformer's inductive learning to achieve sample-efficient learning and semi-supervised learning for CSPs. | 翻訳日:2023-07-12 17:01:33 公開日:2023-07-10 |
# 回答者をうまく選択する:プログラム戦略の合成をいかにガイドするか Choosing Well Your Opponents: How to Guide the Synthesis of Programmatic Strategies ( http://arxiv.org/abs/2307.04893v1 ) ライセンス: Link先を確認 | Rubens O. Moraes, David S. Aleixo, Lucas N. Ferreira, Levi H. S. Lelis | (参考訳) 本稿では,2プレイヤーゼロサムゲームにおけるプログラム戦略の探索を誘導する参照戦略のセットを提供するアルゴリズムであるLocal Learner (2L)を紹介する。
Iterated Best Response (IBR)、Fictitious Play (FP)、Double-Oracle (DO)といった従来の学習アルゴリズムは、計算コストがかかるか、検索アルゴリズムを導く上で重要な情報を見逃す可能性がある。
2Lは、探索信号を改善するための一連の参照戦略を積極的に選択する。
実戦戦略ゲームであるMicroRTSを含む3つのゲームにおいて,局所探索アルゴリズムを用いて戦略を合成する際のアプローチの利点を実証的に示す。
その結果、2l は ibr, fp, do よりも強力な探索信号を提供する参照戦略を学習できることがわかった。
また,2Lを用いたシンセサイザーが,プログラムによるプログラム戦略である2つのMicroRTSコンペティションの勝者よりも優れていたMicroRTSのトーナメントをシミュレートした。 This paper introduces Local Learner (2L), an algorithm for providing a set of reference strategies to guide the search for programmatic strategies in two-player zero-sum games. Previous learning algorithms, such as Iterated Best Response (IBR), Fictitious Play (FP), and Double-Oracle (DO), can be computationally expensive or miss important information for guiding search algorithms. 2L actively selects a set of reference strategies to improve the search signal. We empirically demonstrate the advantages of our approach while guiding a local search algorithm for synthesizing strategies in three games, including MicroRTS, a challenging real-time strategy game. Results show that 2L learns reference strategies that provide a stronger search signal than IBR, FP, and DO. We also simulate a tournament of MicroRTS, where a synthesizer using 2L outperformed the winners of the two latest MicroRTS competitions, which were programmatic strategies written by human programmers. | 翻訳日:2023-07-12 17:01:17 公開日:2023-07-10 |
# Entity Identifier: エンティティ関係抽出のための自然言語解析ベースのフレームワーク Entity Identifier: A Natural Text Parsing-based Framework For Entity Relation Extraction ( http://arxiv.org/abs/2307.04892v1 ) ライセンス: Link先を確認 | El Mehdi Chouham, Jessica L\'opez Espejel, Mahaman Sanoussi Yahaya Alassan, Walid Dahhane, El Hassane Ettifouri | (参考訳) プログラミングの分野には、作業フレームワークに従って使用されるパラダイムの多様性があります。
現在のニューラルコード生成手法は、テキストから直接コードを学び、生成することができるが、このアプローチは特定のコードタスク、特にオブジェクト指向プロジェクトにおけるクラスの生成に最適ではないと考えている。
具体的には、自然言語処理技術を用いて要求記述から構造化情報を抽出し、CRUD(Create, Read, Update, Delete)クラスコードの生成を自動化する。
このプロセスを容易にするために、エンティティと関係情報を抽出するパイプラインと、この情報をモデル化するための"エンティティツリー"と呼ばれる表現を導入する。
また、我々のアプローチの有効性を評価するデータセットも作成します。 The field of programming has a diversity of paradigms that are used according to the working framework. While current neural code generation methods are able to learn and generate code directly from text, we believe that this approach is not optimal for certain code tasks, particularly the generation of classes in an object-oriented project. Specifically, we use natural language processing techniques to extract structured information from requirements descriptions, in order to automate the generation of CRUD (Create, Read, Update, Delete) class code. To facilitate this process, we introduce a pipeline for extracting entity and relation information, as well as a representation called an "Entity Tree" to model this information. We also create a dataset to evaluate the effectiveness of our approach. | 翻訳日:2023-07-12 17:01:00 公開日:2023-07-10 |
# 機械学習対称性の加速発見:例外リー群G2,F4,E6の導出 Accelerated Discovery of Machine-Learned Symmetries: Deriving the Exceptional Lie Groups G2, F4 and E6 ( http://arxiv.org/abs/2307.04891v1 ) ライセンス: Link先を確認 | Roy T. Forestano, Konstantin T. Matchev, Katia Matcheva, Alexander Roman, Eyup B. Unlu, Sarunas Verner | (参考訳) 最近の研究は、教師付きディープラーニングを適用して、データラベルを保存する連続対称性変換を導出し、対称性生成子の対応する代数を得る。
このレターは、これらの対称性変換の発見を著しくスピードアップする2つの改良されたアルゴリズムを導入している。
新しい手法はユニタリ群 u(n) と例外リー群 $g_2$, $f_4$, $e_6$ に対する生成子の完全集合を導出することによって証明される。
第3のポストプロセッシングアルゴリズムは、見つかったジェネレータをスパース形式でレンダリングする。
標準手法と比較して,新しいアルゴリズムの性能改善をベンチマークする。
例外的リー群の相当な複雑性を考えると,この対称性を探索する機械学習手法は完全に汎用的であり,様々なラベル付きデータセットに適用可能であることを示す。 Recent work has applied supervised deep learning to derive continuous symmetry transformations that preserve the data labels and to obtain the corresponding algebras of symmetry generators. This letter introduces two improved algorithms that significantly speed up the discovery of these symmetry transformations. The new methods are demonstrated by deriving the complete set of generators for the unitary groups U(n) and the exceptional Lie groups $G_2$, $F_4$, and $E_6$. A third post-processing algorithm renders the found generators in sparse form. We benchmark the performance improvement of the new algorithms relative to the standard approach. Given the significant complexity of the exceptional Lie groups, our results demonstrate that this machine-learning method for discovering symmetries is completely general and can be applied to a wide variety of labeled datasets. | 翻訳日:2023-07-12 17:00:48 公開日:2023-07-10 |
# ネットワークハッシュによる時間的ネットワーク圧縮 Temporal network compression via network hashing ( http://arxiv.org/abs/2307.04890v1 ) ライセンス: Link先を確認 | R\'emi Vaudaine, Pierre Borgnat, Paulo Goncalves, R\'emi Gribonval and M\'arton Karsai | (参考訳) エンティティ間の時間的相互作用は時間的ネットワークとして表現することができ、このネットワークは拡散や情報カスケードといったプロセスの伝播をコードし、その上で進化する。
これらのプロセスの最大の結果は、基盤となるネットワークの構造に直接リンクされる。
実際、ある時点のネットワークのノードは、時間経過経路を介して到達できるため、将来より多くのノードに影響を与えることはない。
ソースから到達可能なこのノードセットは、識別にコストがかかる外部コンポーネントを定義する。
本稿では,この問題に対処する効率的な行列アルゴリズムを提案し,他の最先端手法よりも優れていることを示す。
第二に,大規模な時間的ネットワークをより小さなプロキシに集約し,外部成分を推定しやすくし,初期成分を得るために再結合するハッシュフレームワークを提案する。
我々のグラフハッシュソリューションは、時間ネットワークの表現を尊重するプライバシーに影響を及ぼす。 Pairwise temporal interactions between entities can be represented as temporal networks, which code the propagation of processes such as epidemic spreading or information cascades, evolving on top of them. The largest outcome of these processes is directly linked to the structure of the underlying network. Indeed, a node of a network at given time cannot affect more nodes in the future than it can reach via time-respecting paths. This set of nodes reachable from a source defines an out-component, which identification is costly. In this paper, we propose an efficient matrix algorithm to tackle this issue and show that it outperforms other state-of-the-art methods. Secondly, we propose a hashing framework to coarsen large temporal networks into smaller proxies on which out-components are easier to estimate, and then recombined to obtain the initial components. Our graph hashing solution has implications in privacy respecting representation of temporal networks. | 翻訳日:2023-07-12 17:00:33 公開日:2023-07-10 |
# 強化学習における干渉の測定と緩和 Measuring and Mitigating Interference in Reinforcement Learning ( http://arxiv.org/abs/2307.04887v1 ) ライセンス: Link先を確認 | Vincent Liu, Han Wang, Ruo Yu Tao, Khurram Javed, Adam White, Martha White | (参考訳) 多くのネットワークベースの学習システムでは破滅的干渉が一般的であり、それを緩和するための提案が多数存在する。
干渉を克服する前には、もっと理解しなければならない。
本研究は,Fitted Q-Iteration や DQN などの値に基づく強化学習手法に対する干渉の定義と新しい尺度を提供する。
干渉の計測を系統的に評価し,制御性能の不安定性と相関し,ネットワークアーキテクチャの多種多様さを示す。
新たな干渉測定によって、一般的に使用されるディープラーニングアーキテクチャに関する新たな科学的質問や、干渉を緩和する学習アルゴリズムの研究が可能になります。
最後に、干渉を緩和するオンラインアウェアと呼ばれるアルゴリズムのクラスを概説し、我々の測定値に従って干渉を低減し、いくつかの古典的な制御環境での安定性と性能を向上させることを示す。 Catastrophic interference is common in many network-based learning systems, and many proposals exist for mitigating it. Before overcoming interference we must understand it better. In this work, we provide a definition and novel measure of interference for value-based reinforcement learning methods such as Fitted Q-Iteration and DQN. We systematically evaluate our measure of interference, showing that it correlates with instability in control performance, across a variety of network architectures. Our new interference measure allows us to ask novel scientific questions about commonly used deep learning architectures and study learning algorithms which mitigate interference. Lastly, we outline a class of algorithms which we call online-aware that are designed to mitigate interference, and show they do reduce interference according to our measure and that they improve stability and performance in several classic control environments. | 翻訳日:2023-07-12 17:00:17 公開日:2023-07-10 |
# グラフニューラルネットワークの公正性向上:グラフ対実的視点 Improving Fairness of Graph Neural Networks: A Graph Counterfactual Perspective ( http://arxiv.org/abs/2307.04937v1 ) ライセンス: Link先を確認 | Zhimeng Guo, Jialiang Li, Teng Xiao, Yao Ma, Suhang Wang | (参考訳) グラフニューラルネットワークは、グラフ上での表現(GNN)学習の優れた能力を示し、さまざまなタスクを容易にしている。
グラフのモデリングにおける優れたパフォーマンスにもかかわらず、最近の研究は、GNNがトレーニングデータからバイアスを継承し、増幅する傾向があることを示している。
したがって、公正を意識したGNNには多くの取り組みがなされている。
しかし、既存の多くの公正なGNNは、統計的公正の概念を採用して公正なノード表現を学習し、統計的異常が存在する場合のバイアスを軽減することができない。
因果理論によって動機づけられたグラフ反事実公正を利用して不公平の根本原因を緩和する試みはいくつかある。
しかし、これらの手法は摂動や生成によって得られる非現実的な反事実に苦しむ。
本稿では,公平なグラフ学習問題の因果的考察を行う。
そこで本研究では,非現実的偽物を避けるために訓練データから偽物を選択し,選択した偽物を用いてノード分類タスクの公平なノード表現を学ぶ新しいフレームワークcafを提案する。
合成および実世界のデータセットに関する広範な実験は、cafの有効性を示している。 Graph neural networks have shown great ability in representation (GNNs) learning on graphs, facilitating various tasks. Despite their great performance in modeling graphs, recent works show that GNNs tend to inherit and amplify the bias from training data, causing concerns of the adoption of GNNs in high-stake scenarios. Hence, many efforts have been taken for fairness-aware GNNs. However, most existing fair GNNs learn fair node representations by adopting statistical fairness notions, which may fail to alleviate bias in the presence of statistical anomalies. Motivated by causal theory, there are several attempts utilizing graph counterfactual fairness to mitigate root causes of unfairness. However, these methods suffer from non-realistic counterfactuals obtained by perturbation or generation. In this paper, we take a causal view on fair graph learning problem. Guided by the casual analysis, we propose a novel framework CAF, which can select counterfactuals from training data to avoid non-realistic counterfactuals and adopt selected counterfactuals to learn fair node representations for node classification task. Extensive experiments on synthetic and real-world datasets show the effectiveness of CAF. | 翻訳日:2023-07-12 16:52:55 公開日:2023-07-10 |
# 安全強化学習のための確率的対外ガイダンス Probabilistic Counterexample Guidance for Safer Reinforcement Learning ( http://arxiv.org/abs/2307.04927v1 ) ライセンス: Link先を確認 | Xiaotong Ji and Antonio Filieri | (参考訳) セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、安全でない状態の探索を制限するために近位センサーデータを使用する方法がいくつか存在する。
しかし、エージェントが探索中に安全の脅威を発見する必要がある未知の環境での探索のリスクを減らすことは依然として困難である。
本稿では,安全要件の反例で訓練を指導することにより,安全探索の課題を対象とする。
本手法は,連続状態空間系と離散状態空間系の両方を,探索中にエージェントが取得した安全関連知識を表すコンパクトな抽象モデルに抽象化する。
次に、確率的逆例生成を利用して、安全要件違反を誘発する最小限のシミュレーションサブモデルを構築し、エージェントはオフライントレーニングを効率よく行え、その後のオンライン探索における安全性違反のリスクを最小限に抑えるためのポリシーを洗練することができる。
予備実験におけるオンライン探索における安全性侵害の低減効果を,qlおよびdqn標準アルゴリズムと比較して平均40.3%,従来と比べ29.1%で実証し,非制限探索と代替アプローチに関して同等の累積報酬を得た。 Safe exploration aims at addressing the limitations of Reinforcement Learning (RL) in safety-critical scenarios, where failures during trial-and-error learning may incur high costs. Several methods exist to incorporate external knowledge or to use proximal sensor data to limit the exploration of unsafe states. However, reducing exploration risks in unknown environments, where an agent must discover safety threats during exploration, remains challenging. In this paper, we target the problem of safe exploration by guiding the training with counterexamples of the safety requirement. Our method abstracts both continuous and discrete state-space systems into compact abstract models representing the safety-relevant knowledge acquired by the agent during exploration. We then exploit probabilistic counterexample generation to construct minimal simulation submodels eliciting safety requirement violations, where the agent can efficiently train offline to refine its policy towards minimising the risk of safety violations during the subsequent online exploration. We demonstrate our method's effectiveness in reducing safety violations during online exploration in preliminary experiments by an average of 40.3% compared with QL and DQN standard algorithms and 29.1% compared with previous related work, while achieving comparable cumulative rewards with respect to unrestricted exploration and alternative approaches. | 翻訳日:2023-07-12 16:52:34 公開日:2023-07-10 |
# レース論理を用いたカウントフリー単光子3次元イメージング Count-Free Single-Photon 3D Imaging with Race Logic ( http://arxiv.org/abs/2307.04924v1 ) ライセンス: Link先を確認 | Atul Ingle and David Maier | (参考訳) 単光子カメラ(SPC)は高解像度3Dイメージングの有望な技術として登場している。
単光子3Dカメラは、各カメラ画素に個々の光子の到着を捉え、レーザパルスの往復時間を決定する。
光子タイムスタンプヒストグラムの構築は、単光子3Dカメラの基本的な操作である。
しかし、ピクセル内ヒストグラム処理は計算コストが高く、1ピクセルあたりのメモリ量も大きい。
光子タイムスタンプをオフセンサーヒストグラムモジュールにデジタル化し転送することは、帯域幅と電力消費である。
ここでは、光子数を明示的に記憶せずに距離推定を行うオンライン手法を提案する。
我々のアプローチの2つの重要な要素は
(a)時間遅延領域でフォトンデータを保持するレース論理を用いてフォトンストリームを処理し、
(b)無数等深度ヒストグラムの構築
Equi-depth histograms は、表面から反射されるレーザーパルスからSPCピクセルによって得られるような `peaky'' 分布の簡潔な表現である。
我々のアプローチでは、分布の中央値(あるいはより一般的には別の量子)に収束する双対元を用いる。
マルチビンヒストグラムを生成する等深度ヒストグラムを形成するために,複数のビンナーをカスケードする。
提案手法は,従来の処理方法と類似した距離再構成精度を維持しつつ,帯域幅と消費電力の大幅な削減を実現することができることを示す。 Single-photon cameras (SPCs) have emerged as a promising technology for high-resolution 3D imaging. A single-photon 3D camera determines the round-trip time of a laser pulse by capturing the arrival of individual photons at each camera pixel. Constructing photon-timestamp histograms is a fundamental operation for a single-photon 3D camera. However, in-pixel histogram processing is computationally expensive and requires large amount of memory per pixel. Digitizing and transferring photon timestamps to an off-sensor histogramming module is bandwidth and power hungry. Here we present an online approach for distance estimation without explicitly storing photon counts. The two key ingredients of our approach are (a) processing photon streams using race logic, which maintains photon data in the time-delay domain, and (b) constructing count-free equi-depth histograms. Equi-depth histograms are a succinct representation for ``peaky'' distributions, such as those obtained by an SPC pixel from a laser pulse reflected by a surface. Our approach uses a binner element that converges on the median (or, more generally, to another quantile) of a distribution. We cascade multiple binners to form an equi-depth histogrammer that produces multi-bin histograms. Our evaluation shows that this method can provide an order of magnitude reduction in bandwidth and power consumption while maintaining similar distance reconstruction accuracy as conventional processing methods. | 翻訳日:2023-07-12 16:52:12 公開日:2023-07-10 |
# 同じイオン運動モードにおける平行スピン依存力によるプログラム可能なXY型カップリング Programmable XY-type couplings through parallel spin-dependent forces on the same trapped ion motional modes ( http://arxiv.org/abs/2307.04922v1 ) ライセンス: Link先を確認 | Nikhil Kotibhaskar, Chung-You Shih, Sainath Motlakunta, Anthony Vogliano, Lewis Hahn, Yu-Ting Chen, and Rajibul Islam | (参考訳) 我々は、XY型(J_{ij}^x \sigma_x^i \sigma_x^j \;$ + $J_{ij}^y \sigma_y^i \sigma_y^j \;$)ハミルトニアンが、$J_{ij}^x$と$J_{ij}^y$を独立に制御する捕捉イオンスピン上の類似スキームを提案し、実験的に示す。
イジング型相互作用 $\sigma_x^i \sigma_x^j \;$ と $\sigma_y^i \sigma_y^j \;$ は、同じ正規モードの集合上で平行に動く2つのスピン依存力を用いて同時に生成される。
このスキームの有効性領域を解析的に計算し,$^{171}\rm{yb}^+;$ ionsで数値的および実験的検証を行う。
このスキームは、多くの量子シミュレーション実験で研究されているトラップイオンとイジング型相互作用のプログラム可能性とスケーラビリティを継承する。
我々のアプローチは、超流動性やスピン液体のようなエキゾチックな量子相の探索に関連するスピンハミルトニアンの大きなクラスにアクセスするために、既存の閉じ込められたイオン量子シミュレータの機能を拡張する。 We propose and experimentally demonstrate an analog scheme for generating XY-type ($J_{ij}^x \sigma_x^i \sigma_x^j \;$ + $J_{ij}^y \sigma_y^i \sigma_y^j \;$) Hamiltonians on trapped ion spins with independent control over the $J_{ij}^x$ and $J_{ij}^y$ terms. The Ising-type interactions $\sigma_x^i \sigma_x^j \;$ and $\sigma_y^i \sigma_y^j \;$ are simultaneously generated by employing two spin-dependent forces operating in parallel on the same set of normal modes. We analytically calculate the region of validity of this scheme, and provide numerical and experimental validation with $^{171}\rm{Yb}^+\;$ ions. This scheme inherits the programmability and scalability of the Ising-type interactions with trapped ions that have been explored in numerous quantum simulation experiments. Our approach extends the capabilities of existing trapped ion quantum simulators to access a large class of spin Hamiltonians relevant for exploring exotic quantum phases such as superfluidity and spin liquids. | 翻訳日:2023-07-12 16:51:50 公開日:2023-07-10 |
# 擬似マニピュレータを用いた高速物体サーボ・グラッピングのための運動分解インピーダンス制御 Kinematically-Decoupled Impedance Control for Fast Object Visual Servoing and Grasping on Quadruped Manipulators ( http://arxiv.org/abs/2307.04918v1 ) ライセンス: Link先を確認 | Riccardo Parosi, Mattia Risiglione, Darwin G. Caldwell, Claudio Semini, Victor Barasuol | (参考訳) 本稿では、画像ベースビジュアルサーボ(IBVS)を統合したアームキネマティックチェーンとインピーダンス制御に基づいて、オブジェクトのSAG(Searching, Approaching, Grasping)の制御パイプラインを提案する。
キネマティックデカップリングは、高速なエンドエフェクター運動と回復を可能にし、堅牢な視覚サーボに繋がる。
アプローチとパイプライン全体は、任意の移動プラットフォーム(車輪またはトラック車両)に一般化できるが、外乱に対する反応性のため、動的に動く四足マニピュレータに最も適している。
インピーダンス制御装置の遵守により、ロボットは人間と環境との相互作用がより安全になる。
7-DoFマニピュレータアームを搭載した140kgのHyQReal四足歩行ロボットにおいて,提案手法の性能とロバスト性を実証した。
実験では、動的運動、外乱下での追跡、対象物体の高速運動について検討した。 We propose a control pipeline for SAG (Searching, Approaching, and Grasping) of objects, based on a decoupled arm kinematic chain and impedance control, which integrates image-based visual servoing (IBVS). The kinematic decoupling allows for fast end-effector motions and recovery that leads to robust visual servoing. The whole approach and pipeline can be generalized for any mobile platform (wheeled or tracked vehicles), but is most suitable for dynamically moving quadruped manipulators thanks to their reactivity against disturbances. The compliance of the impedance controller makes the robot safer for interactions with humans and the environment. We demonstrate the performance and robustness of the proposed approach with various experiments on our 140 kg HyQReal quadruped robot equipped with a 7-DoF manipulator arm. The experiments consider dynamic locomotion, tracking under external disturbances, and fast motions of the target object. | 翻訳日:2023-07-12 16:51:15 公開日:2023-07-10 |
# 衛星画像を用いた深層マルチモーダル学習による森林破壊と焼成地域検出 Rapid Deforestation and Burned Area Detection using Deep Multimodal Learning on Satellite Imagery ( http://arxiv.org/abs/2307.04916v1 ) ライセンス: Link先を確認 | Gabor Fodor, Marcos V. Conde | (参考訳) アマゾン森林における森林破壊の推定と火災検出は、広大な面積と限られたアクセス性のために大きな課題となる。
しかし、これらは気候変動、地球温暖化、生物多様性の喪失など、環境に深刻な影響をもたらす重要な問題である。
この問題を解決するために、マルチモーダル衛星画像とリモートセンシングは、アマゾン地域の森林破壊や森林火災の検出に有望なソリューションを提供する。
本稿では,畳み込みニューラルネットワーク(cnns)と包括的データ処理技術を用いて,新たなキュレーションデータセットと深層学習に基づく手法を提案する。
我々のデータセットには、Sentinel、Landsat、VIIRS、MODIS衛星のキュレートされた画像と多様なチャネルバンドが含まれています。
空間的および時間的解像度の異なる要求を考慮したデータセットを設計する。
本手法は,未発見画像の高精度森林破壊推定と燃え尽き領域検出に成功している。
私たちのコード、モデル、データセットはオープンソースです。 https://github.com/h2oai/cvpr-multiearth-deforestation-segmentation Deforestation estimation and fire detection in the Amazon forest poses a significant challenge due to the vast size of the area and the limited accessibility. However, these are crucial problems that lead to severe environmental consequences, including climate change, global warming, and biodiversity loss. To effectively address this problem, multimodal satellite imagery and remote sensing offer a promising solution for estimating deforestation and detecting wildfire in the Amazonia region. This research paper introduces a new curated dataset and a deep learning-based approach to solve these problems using convolutional neural networks (CNNs) and comprehensive data processing techniques. Our dataset includes curated images and diverse channel bands from Sentinel, Landsat, VIIRS, and MODIS satellites. We design the dataset considering different spatial and temporal resolution requirements. Our method successfully achieves high-precision deforestation estimation and burned area detection on unseen images from the region. Our code, models and dataset are open source: https://github.com/h2oai/cvpr-multiearth-deforestation-segmentation | 翻訳日:2023-07-12 16:51:00 公開日:2023-07-10 |
# シュレーディンガー・ニュートン方程式の嫌悪 Disfavoring the Schroedinger-Newton equation ( http://arxiv.org/abs/2307.04914v1 ) ライセンス: Link先を確認 | Joao V. B. da Silva, Gabriel H. S. Aguiar, and George E. A. Matsas | (参考訳) この短い報告書の主目的は、シュレーディンガー・ニュートン方程式がいかに古典性の出現を説明するかという新しい知見を提供することである。
ニュートンポテンシャルとクーロンポテンシャルの類似性に基づき、水素原子に対するシュレーディンガー・ニュートン方程式に電気的自己相互作用項を加える。
その結果,単一電子が電磁場を介して自己相互作用する可能性が否定された。
次に、水素原子を用いてシュレーディンガー・ニュートン方程式自体をテストする本質的な困難さを把握し、音の制約が成立する前にプランクスケールに接近する必要があると結論付ける。
我々の結果は、シュレーディンガー・ニュートン方程式を全く排除できないが、低エネルギーでの重力と電磁相互作用の類似性を裏付けるならば、それは嫌悪であると見なされるかもしれない。 The main goal of this brief report is to provide some new insight into how promising the Schroedinger-Newton equation would be to explain the emergence of classicality. Based on the similarity of the Newton and Coulomb potentials, we add an electric self-interacting term to the Schroedinger-Newton equation for the hydrogen atom. Our results rule out the possibility that single electrons self-interact through their electromagnetic field. Next, we use the hydrogen atom to get insight into the intrinsic difficulty of testing the Schroedinger-Newton equation itself and conclude that the Planck scale must be approached before sound constraints are established. Although our results cannot be used to rule out the Schroedinger-Newton equation at all, they might be seen as disfavoring it if we underpin on the resemblance between the gravitational and electromagnetic interactions at low energies. | 翻訳日:2023-07-12 16:50:44 公開日:2023-07-10 |
# 自己診断と大規模言語モデル:医療ミス情報の新たな前線 Self-Diagnosis and Large Language Models: A New Front for Medical Misinformation ( http://arxiv.org/abs/2307.04910v1 ) ライセンス: Link先を確認 | Francois Barnard, Marlize Van Sittert, Sirisha Rambhatla | (参考訳) 医療の質とアクセスの改善は、世界中の国々にとって重要な関心事である。
その結果、大規模言語モデル(llm)の台頭は、研究者や消費者の間で医療アプリケーションに関する豊富な議論を引き起こした。
これらのモデルが医学試験に合格する能力は、医学訓練や診断に利用することを好んで論じるために使われてきたが、自己診断ツールとしての使用が避けられないことや、医療情報の拡散における役割は評価されていない。
本研究では,一般ユーザによる自己診断のレンズからLLMの能力を評価するとともに,LLMが医療的誤報の拡散に有効であることを示す。
そこで本研究では,実世界の事例を模倣したオープンエンド質問に対する応答を評価するテスト手法を開発した。
そうすることで、私たちはそれを明らかにします。
a) これらのモデルは,既知よりも性能が悪く,かつ
b) 医療上の誤報を広めるリスクを増大させる不適切な勧告を述べる際の過信を含む特異な行動を示すこと。 Improving healthcare quality and access remains a critical concern for countries worldwide. Consequently, the rise of large language models (LLMs) has erupted a wealth of discussion around healthcare applications among researchers and consumers alike. While the ability of these models to pass medical exams has been used to argue in favour of their use in medical training and diagnosis, the impact of their inevitable use as a self-diagnostic tool and their role in spreading healthcare misinformation has not been evaluated. In this work, we critically evaluate LLMs' capabilities from the lens of a general user self-diagnosing, as well as the means through which LLMs may aid in the spread of medical misinformation. To accomplish this, we develop a testing methodology which can be used to evaluate responses to open-ended questions mimicking real-world use cases. In doing so, we reveal that a) these models perform worse than previously known, and b) they exhibit peculiar behaviours, including overconfidence when stating incorrect recommendations, which increases the risk of spreading medical misinformation. | 翻訳日:2023-07-12 16:50:30 公開日:2023-07-10 |
# ベイズインバージョンを用いた平面曲線の登録 Planar Curve Registration using Bayesian Inversion ( http://arxiv.org/abs/2307.04909v1 ) ライセンス: Link先を確認 | Andreas Bock and Colin J. Cotter and Robert C. Kirby | (参考訳) パラメータ化に依存しない閉平面曲線マッチングをベイズ逆問題として検討する。
曲線の運動は、周囲空間に作用する微分同相群上の曲線を通してモデル化され、変形の運動エネルギーを解析する大きな変形微分同相距離写像(LDDMM)が機能する。
wu-xu 要素 [s] を用いて、曲線マッチング問題に対するハミルトンの方程式を解く。
Wu, J. Xu, Nonconforming finite element space for $2m^\text{th}$ order partial differential equations on $\mathbb{R}^n$ simplicial grids when $m=n+1$, Mathematics of Computation 88 (316) (2019) 531-551] は曲線の前方運動に対してメッシュ非依存のリプシッツ定数を提供し、ベイズ反転を用いて運動量に対する逆問題を解く。
この要素はアフィン同値ではないので、フォワードマップの実装と効率を早める引き戻し理論を提供する。
我々は、ターゲットとアンサンブル平均形状の差を測定するために、負のソボレフノルムミスマッチペナルティを用いたアンサンブルカルマンインバージョンを採用する。
このアプローチを検証するための数値例をいくつか提示する。 We study parameterisation-independent closed planar curve matching as a Bayesian inverse problem. The motion of the curve is modelled via a curve on the diffeomorphism group acting on the ambient space, leading to a large deformation diffeomorphic metric mapping (LDDMM) functional penalising the kinetic energy of the deformation. We solve Hamilton's equations for the curve matching problem using the Wu-Xu element [S. Wu, J. Xu, Nonconforming finite element spaces for $2m^\text{th}$ order partial differential equations on $\mathbb{R}^n$ simplicial grids when $m=n+1$, Mathematics of Computation 88 (316) (2019) 531-551] which provides mesh-independent Lipschitz constants for the forward motion of the curve, and solve the inverse problem for the momentum using Bayesian inversion. Since this element is not affine-equivalent we provide a pullback theory which expedites the implementation and efficiency of the forward map. We adopt ensemble Kalman inversion using a negative Sobolev norm mismatch penalty to measure the discrepancy between the target and the ensemble mean shape. We provide several numerical examples to validate the approach. | 翻訳日:2023-07-12 16:50:13 公開日:2023-07-10 |
# SimpleMTOD:シンボリックシーン表現を用いたマルチモーダルタスク指向対話のための簡易言語モデル SimpleMTOD: A Simple Language Model for Multimodal Task-Oriented Dialogue with Symbolic Scene Representation ( http://arxiv.org/abs/2307.04907v1 ) ライセンス: Link先を確認 | Bhathiya Hemanthage, Christian Dondrup, Phil Bartie, Oliver Lemon | (参考訳) simplemtodは単純な言語モデルであり、複数のタスク指向対話をシーケンス予測タスクとして再キャストする。
SimpleMTODは、一様タスク指向の対話ですでに成功している大規模なトランスフォーマーベースの自動回帰アーキテクチャ上に構築されており、事前訓練されたGPT-2からの転送学習を効果的に活用している。
視覚シーンのセマンティクスを捉えるために,シーン内のオブジェクトに対して局所トークンと非局所トークンを導入する。
非ローカライズされたトークンは、特定のオブジェクト自身ではなく、オブジェクトの型を表し、データセット全体で一貫した意味を持つ。
SimpleMTODはSIMMC 2.0テストストッドデータセットのレスポンス生成サブタスクで最先端のBLEUスコア(0.327)を達成し、他のマルチモーダルサブタスク(曖昧さ、参照解決、ダイアログ状態追跡)と同等に実行する。
これは視覚的(および非視覚的)情報を抽出するための最小主義的アプローチである。
さらに、モデルは分類ヘッドのようなタスク固有のアーキテクチャ変更に依存しない。 SimpleMTOD is a simple language model which recasts several sub-tasks in multimodal task-oriented dialogues as sequence prediction tasks. SimpleMTOD is built on a large-scale transformer-based auto-regressive architecture, which has already proven to be successful in uni-modal task-oriented dialogues, and effectively leverages transfer learning from pre-trained GPT-2. In-order to capture the semantics of visual scenes, we introduce both local and de-localized tokens for objects within a scene. De-localized tokens represent the type of an object rather than the specific object itself and so possess a consistent meaning across the dataset. SimpleMTOD achieves a state-of-the-art BLEU score (0.327) in the Response Generation sub-task of the SIMMC 2.0 test-std dataset while performing on par in other multimodal sub-tasks: Disambiguation, Coreference Resolution, and Dialog State Tracking. This is despite taking a minimalist approach for extracting visual (and non-visual) information. In addition the model does not rely on task-specific architectural changes such as classification heads. | 翻訳日:2023-07-12 16:49:45 公開日:2023-07-10 |
# 安定量子計算の信頼性 Reliable Devices Yield Stable Quantum Computations ( http://arxiv.org/abs/2307.05381v1 ) ライセンス: Link先を確認 | Samudra Dasgupta, and Travis S. Humble | (参考訳) 安定な量子計算はノイズ変動の存在下でもノイズの少ない結果を必要とする。
しかし、非定常ノイズ過程は、回路結果に大きな影響を与える量子デバイスの様々な特性を漂流させる。
本稿では,デバイスの信頼性と量子コンピューティングの安定性との関係について述べる。
まず,Helinger 距離を用いて異なる時刻と位置で収集した特徴量の統計分布の差異を定量化する。
次に、この距離を計算された期待値の安定性に直接関連づける解析的境界を検証する。
本実験では、ワシントンと呼ばれるibmのtransmonデバイスから情報を得たモデルを用いて数値シミュレーションを行う。
安定度メトリクスは、許容レベルとしてキャストできる対応するヘリンガー距離によって、上から一貫して境界づけられていることが判明した。
これらの結果は、信頼性の高い量子コンピューティングデバイスの重要性と、安定した量子計算への影響を強調する。 Stable quantum computation requires noisy results to remain bounded even in the presence of noise fluctuations. Yet non-stationary noise processes lead to drift in the varying characteristics of a quantum device that can greatly influence the circuit outcomes. Here we address how temporal and spatial variations in noise relate device reliability to quantum computing stability. First, our approach quantifies the differences in statistical distributions of characterization metrics collected at different times and locations using Hellinger distance. We then validate an analytical bound that relates this distance directly to the stability of a computed expectation value. Our demonstration uses numerical simulations with models informed by the transmon device from IBM called washington. We find that the stability metric is consistently bounded from above by the corresponding Hellinger distance, which can be cast as a specified tolerance level. These results underscore the significance of reliable quantum computing devices and the impact for stable quantum computation. | 翻訳日:2023-07-12 14:15:58 公開日:2023-07-10 |
# 巨人を解き放つ:コーディングアルゴリズムとデータ構造におけるChatGPTの習熟度に関する包括的評価 Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures ( http://arxiv.org/abs/2307.05360v1 ) ライセンス: Link先を確認 | Sayed Erfan Arefin, Tasnia Ashrafi Heya, Hasan Al-Qudah, Ynes Ineza, Abdul Serwadda | (参考訳) 大規模言語モデル(LLM)の変革的影響は、人工知能(AI)技術領域を根本的に変えている。
特にChatGPTは、これらのモデル内で自分自身を区別し、マルチターン会話において顕著なパフォーマンスを示し、さまざまな言語でコード習熟度を示す。
本稿では,過去最大のコーディング課題のカタログに基づいて,chatgptのコーディング能力の包括的評価を行う。
我々の焦点はピソンプログラミング言語とデータ構造とアルゴリズムを中心とした問題であり、コンピュータ科学の根底にある2つのトピックである。
chatgptは、その問題に対する正しい解決策を生成する能力、コード品質、コードによって投げられるランタイムエラーの性質を評価します。
ChatGPTコードが正常に実行されるが、その問題の解決に失敗した場合、我々は、ChatGPTコードがこの種の状況でどのように間違っているかを知るために、通過したテストケースのパターンを調べる。
ChatGPTがトレーニングに使われたデータのいくつかを直接記憶したかどうかを推測するため、我々はこの現象を調査するための実験を体系的に設計した。
人間のパフォーマンスを常に比較し、基礎となる学習モデル(gpt-3.5とgpt-4)の文脈、メイントピック内の膨大な配列のサブトピック、難易度が異なる問題などから、上記の全ての質問を考察する。 The transformative influence of Large Language Models (LLMs) is profoundly reshaping the Artificial Intelligence (AI) technology domain. Notably, ChatGPT distinguishes itself within these models, demonstrating remarkable performance in multi-turn conversations and exhibiting code proficiency across an array of languages. In this paper, we carry out a comprehensive evaluation of ChatGPT's coding capabilities based on what is to date the largest catalog of coding challenges. Our focus is on the python programming language and problems centered on data structures and algorithms, two topics at the very foundations of Computer Science. We evaluate ChatGPT for its ability to generate correct solutions to the problems fed to it, its code quality, and nature of run-time errors thrown by its code. Where ChatGPT code successfully executes, but fails to solve the problem at hand, we look into patterns in the test cases passed in order to gain some insights into how wrong ChatGPT code is in these kinds of situations. To infer whether ChatGPT might have directly memorized some of the data that was used to train it, we methodically design an experiment to investigate this phenomena. Making comparisons with human performance whenever feasible, we investigate all the above questions from the context of both its underlying learning models (GPT-3.5 and GPT-4), on a vast array sub-topics within the main topics, and on problems having varying degrees of difficulty. | 翻訳日:2023-07-12 14:14:41 公開日:2023-07-10 |
# GOTHICによる二重核銀河の自動検出とDual AGNの大規模サンプル発見 Automated Detection of Double Nuclei Galaxies using GOTHIC and the Discovery of a Large Sample of Dual AGN ( http://arxiv.org/abs/2011.12177v3 ) ライセンス: Link先を確認 | Anwesh Bhattacharya, Nehal C. P., Mousumi Das, Abhishek Paswan, Snehanshu Saha, Francoise Combes | (参考訳) 本稿では,2つ以上の近接した核を持つ銀河の像を検出する,GOTHIC(Graph BOosted Iterated HIll Climbing)と呼ばれる2つの核銀河(DNG)を検出するアルゴリズムを提案する。
我々の目標は、銀河の二重または多重活動銀河核(agn)のサンプルを検出することである。
銀河の融合は一般的であるが、二重AGNの検出は稀である。
これらの検出は、複数の核系における超大質量ブラックホール(SMBH)双対の形成、SMBH成長、AGNフィードバック効果を理解する上で非常に重要である。
したがって、DNGと2重AGNの発見のために既存の画像データの体系的な調査を行うアルゴリズムが必要である。
我々は、既知のDNGのサンプルでGOTHICを試験し、約0から0.75の赤方偏移範囲にある100万個のSDSS DR16銀河のサンプルに適用した。
このサンプルから159個のAGNを検出し,そのうち2つは3重AGN系である。
以上の結果から,2重 AGN は一般的ではなく,3重 AGN はさらに稀であることがわかった。
DNGsの色(u-r)のプロットは、原子核が近づき、AGNが増加するにつれて星形成が焼成されることを示している。
クエンチングは、赤系列の極端に位置する2重三重AGN銀河に特に顕著である。 We present a novel algorithm to detect double nuclei galaxies (DNG) called GOTHIC (Graph BOosted iterated HIll Climbing) - that detects whether a given image of a galaxy has two or more closely separated nuclei. Our aim is to detect samples of dual or multiple active galactic nuclei (AGN) in galaxies. Although galaxy mergers are common, the detection of dual AGN is rare. Their detection is very important as they help us understand the formation of supermassive black hole (SMBH) binaries, SMBH growth and AGN feedback effects in multiple nuclei systems. There is thus a need for an algorithm to do a systematic survey of existing imaging data for the discovery of DNGs and dual AGN. We have tested GOTHIC on a known sample of DNGs and subsequently applied it to a sample of a million SDSS DR16 galaxies lying in the redshift range of 0 to 0.75 approximately, and have available spectroscopic data. We have detected 159 dual AGN in this sample, of which 2 are triple AGN systems. Our results show that dual AGN are not common, and triple AGN even rarer. The color (u-r) magnitude plots of the DNGs indicate that star formation is quenched as the nuclei come closer and as the AGN fraction increases. The quenching is especially prominent for dual/triple AGN galaxies that lie in the extreme end of the red sequence. | 翻訳日:2023-07-11 23:09:15 公開日:2023-07-10 |
# グロバーサーチによる量子ユニタリのクエリと深さ上限 Query and Depth Upper Bounds for Quantum Unitaries via Grover Search ( http://arxiv.org/abs/2111.07992v4 ) ライセンス: Link先を確認 | Gregory Rosenthal | (参考訳) 任意の$n$-qubitユニタリ変換が実装可能であることを証明します。
(i) 時間的におよそ$\tilde O\big(2^{n/2}\big)$ で、適切な古典的なオラクルへのクエリアクセス、そして、
(ii) 深さ$\tilde o\big(2^{n/2}\big)$ 1 および 2 量子ビットゲートと 2^{o(n)$ ancillae の回路によって正確に与えられる。
証明はグローバー探索と同様の縮小を含む。
証拠として
(ii) 1 と 2 つの量子ビットゲートを用いた任意の量子状態の線形奥行き構成も含んでいる(実際、ファンアウトと一般化されたトッフォリゲートの追加により、これは定数深さに改善できる)。
また、一致する$\Omega\big(2^{n/2}\big)$ lower bound for を証明します。
(i)および
(ii) 特定の種類の実装について。 We prove that any $n$-qubit unitary transformation can be implemented (i) approximately in time $\tilde O\big(2^{n/2}\big)$ with query access to an appropriate classical oracle, and also (ii) exactly by a circuit of depth $\tilde O\big(2^{n/2}\big)$ with one- and two-qubit gates and $2^{O(n)}$ ancillae. The proofs involve similar reductions to Grover search. The proof of (ii) also involves a linear-depth construction of arbitrary quantum states using one- and two-qubit gates (in fact, this can be improved to constant depth with the addition of fanout and generalized Toffoli gates) which may be of independent interest. We also prove a matching $\Omega\big(2^{n/2}\big)$ lower bound for (i) and (ii) for a certain class of implementations. | 翻訳日:2023-07-11 23:06:19 公開日:2023-07-10 |
# オンライン機械学習のための軽量分散ガウスプロセス回帰 Lightweight Distributed Gaussian Process Regression for Online Machine Learning ( http://arxiv.org/abs/2105.04738v5 ) ライセンス: Link先を確認 | Zhenyuan Yuan, Minghui Zhu | (参考訳) 本稿では,あるエージェント群が,ストリーミングデータを通じて共通の静的潜在関数を協調的に学習する問題について検討する。
本稿では,通信,計算,メモリにおけるエージェントの限られた能力を認識する軽量分散ガウスプロセス回帰(GPR)アルゴリズムを提案する。
各エージェントは、ローカルストリーミングデータを用いてエージェントベースのGPRを独立に実行し、その後、エージェントが協調して分散GPRを実行し、共通のスパースなテストポイントのセットでグローバルな予測を得る。
予測的分散と誤りにおける過渡的および定常的な性能を定量化することにより、エージェント間通信の制限がParetoの学習性能を向上させることを示す。
モンテカルロシミュレーションにより,開発アルゴリズムの評価を行った。 In this paper, we study the problem where a group of agents aim to collaboratively learn a common static latent function through streaming data. We propose a lightweight distributed Gaussian process regression (GPR) algorithm that is cognizant of agents' limited capabilities in communication, computation and memory. Each agent independently runs agent-based GPR using local streaming data to predict test points of interest; then the agents collaboratively execute distributed GPR to obtain global predictions over a common sparse set of test points; finally, each agent fuses results from distributed GPR with agent-based GPR to refine its predictions. By quantifying the transient and steady-state performances in predictive variance and error, we show that limited inter-agent communication improves learning performances in the sense of Pareto. Monte Carlo simulation is conducted to evaluate the developed algorithm. | 翻訳日:2023-07-11 23:05:03 公開日:2023-07-10 |
# インフォームドクラスタリングとモデリングによるシーケンスデータの新規性検出 Novelty Detection in Sequential Data by Informed Clustering and Modeling ( http://arxiv.org/abs/2103.03943v2 ) ライセンス: Link先を確認 | Linara Adilova, Siming Chen, Michael Kamp | (参考訳) 離散シーケンスにおける新規性検出は、通常データを生成するプロセスからの偏差が小さく、故意に隠されていることが多いため、難しい作業である。
正常なシーケンスをモデル化し、モデル予測から新しいシーケンスのずれを測定することで、新規性を検出することができる。
しかし、多くのアプリケーションでは、データは複数の異なるプロセスによって生成されるため、すべてのデータで訓練されたモデルは過度に一般化され、新規性は検出されない傾向にある。
データをクラスタリングすることで問題を分解し、より正確にモデル化可能な各クラスタのよりシンプルなモデリングタスクを得る。
しかし、クラスタ当たりのトレーニングデータの量が削減されるため、これはトレードオフになる。
これは、最先端のモデルがデータ格納型である離散シーケンスでは特に問題である。
このアプローチの成功はクラスタリングの品質、すなわち個々の学習問題が共同問題よりも十分単純であるかどうかに依存する。
離散シーケンスの自動クラスタリングは困難でドメイン固有のタスクだが、適切なツールを考えると、多くの場合、人間のドメインエキスパートにとって容易である。
本稿では、離散シーケンスクラスタリングのための最先端のビジュアル分析ツールを適用し、ドメインエキスパートから情報クラスタを取得し、LSTMを用いて各クラスタを個別にモデル化する。
また,本手法は,実世界の3つのシナリオにおいて,離散シーケンスに対する最先端のノベルティ検出手法よりも優れていることを示す。
特に、各クラスタのトレーニングデータが少ないにもかかわらず、分解はグローバルモデルを上回る。 Novelty detection in discrete sequences is a challenging task, since deviations from the process generating the normal data are often small or intentionally hidden. Novelties can be detected by modeling normal sequences and measuring the deviations of a new sequence from the model predictions. However, in many applications data is generated by several distinct processes so that models trained on all the data tend to over-generalize and novelties remain undetected. We propose to approach this challenge through decomposition: by clustering the data we break down the problem, obtaining simpler modeling task in each cluster which can be modeled more accurately. However, this comes at a trade-off, since the amount of training data per cluster is reduced. This is a particular problem for discrete sequences where state-of-the-art models are data-hungry. The success of this approach thus depends on the quality of the clustering, i.e., whether the individual learning problems are sufficiently simpler than the joint problem. While clustering discrete sequences automatically is a challenging and domain-specific task, it is often easy for human domain experts, given the right tools. In this paper, we adapt a state-of-the-art visual analytics tool for discrete sequence clustering to obtain informed clusters from domain experts and use LSTMs to model each cluster individually. Our extensive empirical evaluation indicates that this informed clustering outperforms automatic ones and that our approach outperforms state-of-the-art novelty detection methods for discrete sequences in three real-world application scenarios. In particular, decomposition outperforms a global model despite less training data on each individual cluster. | 翻訳日:2023-07-11 23:04:47 公開日:2023-07-10 |
# ノイズデータによる効率的なデータ駆動最適化 Efficient Data-Driven Optimization with Noisy Data ( http://arxiv.org/abs/2102.04363v3 ) ライセンス: Link先を確認 | Bart P.G. Van Parys | (参考訳) 古典的なクルバック・リーバー(英語版)あるいはエントロピー距離は、ノイズのないデータを用いた意思決定の文脈において、ある望ましい統計的特性を享受することが知られている。
しかし、ほとんどの現実的な状況では、意思決定者が利用できるデータは一定量の計測ノイズを受ける。
そこで本研究では,既知のノイズ源によってデータが破損するデータ駆動型処方問題について検討する。
我々は,この雑音下での効率的なデータ駆動型定式化を導出し,エントロピックな最適輸送解釈を享受していることを示す。
最後に、これらの効率的なロバストな定式化は、ストラッセンの古典的表現を生かして、いくつかの興味深い設定で抽出可能であることを示す。 Classical Kullback-Leibler or entropic distances are known to enjoy certain desirable statistical properties in the context of decision-making with noiseless data. However, in most practical situations the data available to a decision maker is subject to a certain amount of measurement noise. We hence study here data-driven prescription problems in which the data is corrupted by a known noise source. We derive efficient data-driven formulations in this noisy regime and indicate that they enjoy an entropic optimal transport interpretation. Finally, we show that these efficient robust formulations are tractable in several interesting settings by exploiting a classical representation result by Strassen. | 翻訳日:2023-07-11 23:04:22 公開日:2023-07-10 |
# 非マルコフ開量子システムの最適制御のためのハミルトンパラメータ空間の効率的な探索 Efficient exploration of Hamiltonian parameter space for optimal control of non-Markovian open quantum systems ( http://arxiv.org/abs/2101.03071v2 ) ライセンス: Link先を確認 | Gerald E. Fux, Eoin P. Butler, Paul R. Eastham, Brendon W. Lovett, Jonathan Keeling | (参考訳) 本研究では,非マルコフ開量子系に対する最適制御シーケンスを効率的に設計し,レーザーパルスの形状を最適化して特定の状態に量子ドットを作成できる方法を提案する。
時間的局所的な記述が失敗する構造化環境への強い結合を持つ量子系の制御手順の最適化は、計算的に難しい課題である。
計算コストが極めて低い制御パラメータの集合に対して,削減された系密度行列の時間発展を繰り返し計算できるように,数値的に正確な時間発展行列積演算子 (TEMPO) 法を変更する。
この方法は、振動モードとの結合が典型的には強い固体量子デバイスにおいて、多くの最適制御問題を研究するのに有用である。 We present a general method to efficiently design optimal control sequences for non-Markovian open quantum systems, and illustrate it by optimizing the shape of a laser pulse to prepare a quantum dot in a specific state. The optimization of control procedures for quantum systems with strong coupling to structured environments -- where time-local descriptions fail -- is a computationally challenging task. We modify the numerically exact time evolving matrix product operator (TEMPO) method, such that it allows the repeated computation of the time evolution of the reduced system density matrix for various sets of control parameters at very low computational cost. This method is potentially useful for studying numerous optimal control problems, in particular in solid state quantum devices where the coupling to vibrational modes is typically strong. | 翻訳日:2023-07-11 23:03:50 公開日:2023-07-10 |
# オープンソースプラットフォームを用いた光検出磁気共鳴 Optically detected magnetic resonance with an open source platform ( http://arxiv.org/abs/2205.00005v3 ) ライセンス: Link先を確認 | Hossein Babashah, Hoda Shirzad, Elena Losero, Valentin Goblot, Christophe Galland, Mayeul Chipaux | (参考訳) 固体環境における局在電子スピンは、量子センシング、気象学、量子情報処理のための汎用的で堅牢なプラットフォームを形成する。
光によって検出された磁気共鳴(ODMR)により、高コヒーレントなスピン系を最大室温まで準備および読み出しが可能となり、誘導法に比べて感度と空間分解能が大幅に向上し、単一のスピン操作が可能となった。
ODMRは初めて有機分子で観測されたが、その後多くの他の系が同定された。
そのうちの1つは、ダイヤモンド中の窒素空孔(NV)中心であり、外部磁場のナノスケール量子センサーやスピン量子ビットとして使われている。
odmrを許容する他のシステムは、量子記憶として使われる希土類イオンや、バルクまたは2次元ホスト材料に閉じ込められた多くの色中心である。
研究者や技術者のコミュニティが、新しいODMRベースの材料や応用を研究・開発できるようにするため、商用ハードウェアを用いたODMR実験のセットアップについて概説する。
「また、qudiという専用のオープンソースインターフェースを詳述し、データ取得のスピードアップ、機器要件の緩和、アンサンブル測定への適用性の拡張のために追加した機能について説明する。
本稿では、ハードウェアとソフトウェア開発の両方をカバーし、様々な科学的背景からODMRの初心者の学習曲線を絞り込み、実験開発時間を最適化し、共通の計測落とし穴を回避し、革新的な実験を実施するための効率的でポータブルで協調的なインターフェースを提供することを目的とする。 Localized electronic spins in solid-state environments form versatile and robust platforms for quantum sensing, metrology and quantum information processing. With optically detected magnetic resonance (ODMR), it is possible to prepare and readout highly coherent spin systems, up to room temperature, with orders of magnitude enhanced sensitivities and spatial resolutions compared to induction-based techniques, allowing for single spin manipulations. While ODMR was first observed in organic molecules, many other systems have since then been identified. Among them is the nitrogen-vacancy (NV) center in diamond, which is used both as a nanoscale quantum sensor for external fields and as a spin qubit. Other systems permitting ODMR are rare earth ions used as quantum memories and many other color centers trapped in bulk or 2-dimensional host materials. In order to allow the broadest possible community of researchers and engineers to investigate and develop novel ODMR-based materials and applications, we review here the setting up of ODMR experiments using commercially available hardware. "We also present in detail the dedicated collaborative open-source interface named Qudi and describe the features we added to speed-up data acquisition, relax instrument requirements and extend its applicability to ensemble measurements. Covering both hardware and software development, this article aims to steepen the learning curve of newcomers in ODMR from a variety of scientific backgrounds, optimize the experimental development time, preempt the common measurement pitfalls, and provide an efficient, portable and collaborative interface to implement innovative experiments. | 翻訳日:2023-07-11 22:55:44 公開日:2023-07-10 |
# Qermitによる誤り除去のボリュームベンチマーク Volumetric Benchmarking of Error Mitigation with Qermit ( http://arxiv.org/abs/2204.09725v3 ) ライセンス: Link先を確認 | Cristina Cirstoiu, Silas Dilkes, Daniel Mills, Seyon Sivarajah, Ross Duncan | (参考訳) 量子コンピュータのサイズが大きくなるにつれて、ノイズの有害効果が蓄積する。
デバイスが小さすぎてエラー訂正ができない場合、エラー軽減が用いられることがある。
誤差緩和は量子状態の忠実度を増大させるのではなく、観測値の期待値などの関心事量の近似誤差を減らすことを目的としている。
しかしながら、どの回路タイプ、どの特性を持つデバイスがエラー軽減の恩恵を受けるかは、まだ不明である。
本稿では,量子誤差緩和手法の性能を評価する手法を開発した。
私たちのベンチマークはボリューム的に設計され、異なる超伝導ハードウェアデバイスで実行されます。
大規模な古典シミュレーションも比較に用いられる。
これらのベンチマークは、エラー軽減プロトコルの予測と実際の性能の切り離しを識別し、それらが有用である状況を特定するために使用される。
これらの実験を行い、より広いコミュニティの利益を得るために、量子エラー軽減のためのQermitanオープンソースpythonパッケージを紹介します。
qermitは幅広いエラー緩和法をサポートし、拡張が容易であり、エラー緩和プロトコルとサブルーチンの構成を容易にするモジュラーグラフベースのソフトウェア設計を備えている。 The detrimental effect of noise accumulates as quantum computers grow in size. In the case where devices are too small or noisy to perform error correction, error mitigation may be used. Error mitigation does not increase the fidelity of quantum states, but instead aims to reduce the approximation error in quantities of concern, such as expectation values of observables. However, it is as yet unclear which circuit types, and devices of which characteristics, benefit most from the use of error mitigation. Here we develop a methodology to assess the performance of quantum error mitigation techniques. Our benchmarks are volumetric in design, and are performed on different superconducting hardware devices. Extensive classical simulations are also used for comparison. We use these benchmarks to identify disconnects between the predicted and practical performance of error mitigation protocols, and to identify the situations in which their use is beneficial. To perform these experiments, and for the benefit of the wider community, we introduce Qermit - an open source python package for quantum error mitigation. Qermit supports a wide range of error mitigation methods, is easily extensible and has a modular graph-based software design that facilitates composition of error mitigation protocols and subroutines. | 翻訳日:2023-07-11 22:55:17 公開日:2023-07-10 |
# 非マルコフ開量子系の鎖のテンソルネットワークシミュレーション Tensor network simulation of chains of non-Markovian open quantum systems ( http://arxiv.org/abs/2201.05529v3 ) ライセンス: Link先を確認 | Gerald E. Fux, Dainius Kilda, Brendon W. Lovett, Jonathan Keeling | (参考訳) 本稿では,量子システムの連鎖のダイナミクスとマルチタイム相関を計算するための一般的な数値解法を提案する。
この方法は、一般(おそらく非マルコフ的)開量子系に対するプロセステンソル形式と、1D鎖に対する時間発展ブロックデシミテーション(TEBD)を組み合わせる。
システム環境相関から生じる数値的複雑性を体系的に低減し、それを完全な多体問題に統合し、幅広い応用を数値的に実現可能にする。
この手法のパワーを2つの例から示す。
まず,XYZハイゼンベルク鎖と強結合熱鉛の個々のスピンの熱化について検討した。
以上の結果より, 単一浴に結合した鎖の完全熱化が確認され, 加熱浴と冷浴の間にチェーンを配置した場合, 低温, 中, 高周波状態において顕著な有効温度が明らかとなった。
第2に,各部位がそれぞれの浴槽に結合するより長いxy鎖における拡散のダイナミクスについて検討する。 We introduce a general numerical method to compute dynamics and multi-time correlations of chains of quantum systems, where each system may couple strongly to a structured environment. The method combines the process tensor formalism for general (possibly non-Markovian) open quantum systems with time evolving block decimation (TEBD) for 1D chains. It systematically reduces the numerical complexity originating from system-environment correlations before integrating them into the full many-body problem, making a wide range of applications numerically feasible. We illustrate the power of this method by studying two examples. First, we study the thermalization of individual spins of a short XYZ Heisenberg chain with strongly coupled thermal leads. Our results confirm the complete thermalization of the chain when coupled to a single bath, and reveal distinct effective temperatures in low, mid, and high frequency regimes when the chain is placed between a hot and a cold bath. Second, we study the dynamics of diffusion in an longer XY chain, when each site couples to its own bath. | 翻訳日:2023-07-11 22:54:19 公開日:2023-07-10 |
# 社会認識ロボットのためのフェデレーション型連続学習 Federated Continual Learning for Socially Aware Robotics ( http://arxiv.org/abs/2201.05527v2 ) ライセンス: Link先を確認 | Luke Guerdan, Hatice Gunes | (参考訳) 学習支援から協力まで、社会ロボットは日常生活の多くの側面を強化することを約束する。
しかし、社会ロボットは、(1)新しいユーザーに対して自分の行動に適応せず、(2)十分なプライバシー保護を提供していないという理由から、広く普及していない。
集中学習は、ロボットがサーバー上でデータを収集することでスキルを発達させることで、新しい体験のオンライン学習を防ぎ、プライバシに敏感なデータの保存を必要とすることによって、これらの制限に寄与する。
本研究では,ソーシャルロボットのプライバシとパーソナライゼーションを改善する分散型学習手法を提案する。
協調学習と連続学習という2つの機械学習のアプローチを組み合わせることで、ロボットに物理的に分散したインタラクションダイナミクスを捉える。
分散ロボット学習シナリオにおいてバランスをとるべき基準を定義した。
また,ロボット間の関連パラメータと複数の人間とのインタラクションを保存するために,重要度に基づく正規化を利用した新しいアルゴリズムであるelastic transferを開発した。
本稿では,分散学習が,概念実証型社会認識ナビゲーションドメインにおける集中学習の代替となることを示すとともに,Elastic Transferが提案したいくつかの基準をどのように改善するかを実証する。 From learning assistance to companionship, social robots promise to enhance many aspects of daily life. However, social robots have not seen widespread adoption, in part because (1) they do not adapt their behavior to new users, and (2) they do not provide sufficient privacy protections. Centralized learning, whereby robots develop skills by gathering data on a server, contributes to these limitations by preventing online learning of new experiences and requiring storage of privacy-sensitive data. In this work, we propose a decentralized learning alternative that improves the privacy and personalization of social robots. We combine two machine learning approaches, Federated Learning and Continual Learning, to capture interaction dynamics distributed physically across robots and temporally across repeated robot encounters. We define a set of criteria that should be balanced in decentralized robot learning scenarios. We also develop a new algorithm -- Elastic Transfer -- that leverages importance-based regularization to preserve relevant parameters across robots and interactions with multiple humans. We show that decentralized learning is a viable alternative to centralized learning in a proof-of-concept Socially-Aware Navigation domain, and demonstrate how Elastic Transfer improves several of the proposed criteria. | 翻訳日:2023-07-11 22:54:01 公開日:2023-07-10 |
# SCORE:自己一致正則化による曲率情報の近似 SCORE: Approximating Curvature Information under Self-Concordant Regularization ( http://arxiv.org/abs/2112.07344v3 ) ライセンス: Link先を確認 | Adeyemi D. Adeoye, Alberto Bemporad | (参考訳) 目的の正規化関数を含む最適化問題は、多くのアプリケーションで定期的に解決される。
そのような問題に対して二階法を求めるとき、解ステップにおける曲率情報を考慮して収束を早める際に、これらの正規化関数の特定の性質を利用するのが望ましい。
本稿では,newton-decrement framework for convex optimizationに2次情報を組み込んだ,制約のない最小化問題に対するスコア(自己一致正規化)フレームワークを提案する。
本稿では,新たな入力バッチを受信するたびに最小化変数を更新する自己一致正規化(GGN-SCORE)アルゴリズムを提案する。
提案手法は,ヒューシアン行列における2次情報の構造を利用して計算オーバーヘッドを削減する。
GGN-SCOREは、提案したSCOREフレームワークの下での正規化最小化を含む問題に対するモデル一般化を改善しながら収束を高速化する方法を示す。
数値実験により, ベースラインの1次法と準ニュートン法に比較して, 提案手法の効率と高速収束性を示す。
非凸(過パラメータ化)ニューラルネットワークトレーニング問題を含む追加実験は、提案手法が非凸最適化に有効であることを示す。 Optimization problems that include regularization functions in their objectives are regularly solved in many applications. When one seeks second-order methods for such problems, it may be desirable to exploit specific properties of some of these regularization functions when accounting for curvature information in the solution steps to speed up convergence. In this paper, we propose the SCORE (self-concordant regularization) framework for unconstrained minimization problems which incorporates second-order information in the Newton-decrement framework for convex optimization. We propose the generalized Gauss-Newton with Self-Concordant Regularization (GGN-SCORE) algorithm that updates the minimization variables each time it receives a new input batch. The proposed algorithm exploits the structure of the second-order information in the Hessian matrix, thereby reducing computational overhead. GGN-SCORE demonstrates how to speed up convergence while also improving model generalization for problems that involve regularized minimization under the proposed SCORE framework. Numerical experiments show the efficiency of our method and its fast convergence, which compare favorably against baseline first-order and quasi-Newton methods. Additional experiments involving non-convex (overparameterized) neural network training problems show that the proposed method is promising for non-convex optimization. | 翻訳日:2023-07-11 22:53:41 公開日:2023-07-10 |
# 脳波データに対する領域適応に対するデータ正規化の効果について On The Effects Of Data Normalisation For Domain Adaptation On EEG Data ( http://arxiv.org/abs/2210.01081v3 ) ライセンス: Link先を確認 | Andrea Apicella, Francesco Isgr\`o, Andrea Pollastro, Roberto Prevete | (参考訳) 機械学習(ML)の文献では、よく知られた問題はデータセットシフトの問題であり、ML標準仮説とは違って、トレーニングとテストセットのデータは異なる確率分布に従うことができ、MLシステムの一般化性能が低くなる。
この問題は脳-コンピュータインタフェース(BCI)の文脈で強く感じられ、脳波(EEG)のような生体信号が頻繁に用いられる。
実際、脳波信号は時間とともに異なる被験者の間で非常に非定常である。
この問題を解決するために提案されたいくつかのソリューションは、ドメイン適応(da)のような最近のトランスファー学習アプローチに基づいている。
しかし、いくつかのケースでは、改善の実際の原因はあいまいである。
本稿では,データ正規化の影響,あるいはDA手法と併用した標準化戦略について述べる。
特に, \textit{seed}, \textit{deap}, \textit{bci competition iv 2a} eegデータセットを用いて,いくつかのよく知られたda法を使わずに適用した異なる正規化戦略の影響を実験的に評価し,得られた性能を比較した。
その結果、DAシナリオにおいて正規化戦略の選択は分類器のパフォーマンスにおいて重要な役割を担い、興味深いことに、いくつかのケースでは、適切な正規化スキーマのみを使用することでDAテクニックを上回ります。 In the Machine Learning (ML) literature, a well-known problem is the Dataset Shift problem where, differently from the ML standard hypothesis, the data in the training and test sets can follow different probability distributions, leading ML systems toward poor generalisation performances. This problem is intensely felt in the Brain-Computer Interface (BCI) context, where bio-signals as Electroencephalographic (EEG) are often used. In fact, EEG signals are highly non-stationary both over time and between different subjects. To overcome this problem, several proposed solutions are based on recent transfer learning approaches such as Domain Adaption (DA). In several cases, however, the actual causes of the improvements remain ambiguous. This paper focuses on the impact of data normalisation, or standardisation strategies applied together with DA methods. In particular, using \textit{SEED}, \textit{DEAP}, and \textit{BCI Competition IV 2a} EEG datasets, we experimentally evaluated the impact of different normalization strategies applied with and without several well-known DA methods, comparing the obtained performances. It results that the choice of the normalisation strategy plays a key role on the classifier performances in DA scenarios, and interestingly, in several cases, the use of only an appropriate normalisation schema outperforms the DA technique. | 翻訳日:2023-07-11 22:47:38 公開日:2023-07-10 |
# 両側帯域フィードバックを用いたダブルオークション Double Auctions with Two-sided Bandit Feedback ( http://arxiv.org/abs/2208.06536v2 ) ライセンス: Link先を確認 | Soumya Basu and Abishek Sankararaman | (参考訳) 二重オークションは、複数の買い手と売り手の間の商品の分散移動を可能にし、多くのオンラインマーケットプレイスの機能を支える。
買い手と売り手は入札を通じてこれらの市場で競い合っているが、しばしば自身のバリュエーションa-prioriを知らない。
入札を通じて割り当てと価格設定が行われるため、参加者の収益性、すなわちそのような市場の持続性は、反復的な相互作用を通じてそれぞれの評価を習得することに大きく依存する。
我々は、買い手側と売り手の双方からの盗聴フィードバックの下で、ダブルオークション市場の研究を開始する。
参加者の間では,'平均価格'が効率的な価格発見の機会があることを確信して示します。
特に、買い手と売り手(つまり社会的な後悔)の合併に対する後悔は、$O(\log(T)/\Delta)$ in $T$のラウンドであり、$\Delta$は最小の価格差である。
さらに、商品を交換する買い手や売り手は、個別に$o(\sqrt{t})$ regretを得る。
交換の恩恵を受けない買い手や売り手は、個別に$T$ラウンドで後悔する$O(\log{T}/ \Delta)しか経験しない。
我々は、$\omega(\sqrt{T})$個人的後悔、$\omega(\log{T})$社会的後悔は、ある種のダブルオークション市場では達成不可能であることを示すことによって、上限を拡大する。
本稿は,両側が不確定な選好を持つ双方向市場において,学習が必要な分散学習アルゴリズムを初めて提供する。 Double Auction enables decentralized transfer of goods between multiple buyers and sellers, thus underpinning functioning of many online marketplaces. Buyers and sellers compete in these markets through bidding, but do not often know their own valuation a-priori. As the allocation and pricing happens through bids, the profitability of participants, hence sustainability of such markets, depends crucially on learning respective valuations through repeated interactions. We initiate the study of Double Auction markets under bandit feedback on both buyers' and sellers' side. We show with confidence bound based bidding, and `Average Pricing' there is an efficient price discovery among the participants. In particular, the regret on combined valuation of the buyers and the sellers -- a.k.a. the social regret -- is $O(\log(T)/\Delta)$ in $T$ rounds, where $\Delta$ is the minimum price gap. Moreover, the buyers and sellers exchanging goods attain $O(\sqrt{T})$ regret, individually. The buyers and sellers who do not benefit from exchange in turn only experience $O(\log{T}/ \Delta)$ regret individually in $T$ rounds. We augment our upper bound by showing that $\omega(\sqrt{T})$ individual regret, and $\omega(\log{T})$ social regret is unattainable in certain Double Auction markets. Our paper is the first to provide decentralized learning algorithms in a two-sided market where \emph{both sides have uncertain preference} that need to be learned. | 翻訳日:2023-07-11 22:46:36 公開日:2023-07-10 |
# 非局所チャーンマーカーによる不透明性と位相相転移によるチャーン数の検出 Probing Chern number by opacity and topological phase transition by a nonlocal Chern marker ( http://arxiv.org/abs/2207.00016v4 ) ライセンス: Link先を確認 | Paolo Molignini, Bastien Lapierre, R. Chitra, and Wei Chen | (参考訳) 2d半導体や絶縁体では、原子価バンドブロッホ状態のチャーン数は、位相次数のような様々な材料特性に関連付けられた重要な量である。
本研究では, 微小構造定数の単位で測定した幅広い周波数の円偏光に対する2次元材料の不透明性を用いて, チャーン数に周波数積分するスペクトル関数を抽出し, 簡易な光学実験を行うことを詳述した。
この方法は後に有限温度に一般化され、線形反応理論によりすべての格子サイト上で局所的に一般化され、チャーン数と格子サイトをマッピングするチャーンマーカーを抽出するのに役立つ。
我々の理論における長距離応答はチャーンマーカーの内部揺らぎのように振る舞うチャーン相関子に対応しており、位相的に非自明な位相で拡張されることが分かる。
最後に、価バンドベリー曲率のフーリエ変換から、非局所チャーンマーカーがさらに導入され、その崩壊長は位相相転移において分岐し、したがって遷移の忠実な指標となり、さらにワニエ状態相関関数として解釈できる。
この研究で論じられた概念は、トポロジーの多面的側面を探求し、システム不均一性の影響に対処するのに役立つ。 In 2D semiconductors and insulators, the Chern number of the valence band Bloch state is an important quantity that has been linked to various material properties, such as the topological order. We elaborate that the opacity of 2D materials to circularly polarized light over a wide range of frequencies, measured in units of the fine structure constant, can be used to extract a spectral function that frequency-integrates to the Chern number, offering a simple optical experiment to measure it. This method is subsequently generalized to finite temperature and locally on every lattice site by a linear response theory, which helps to extract the Chern marker that maps the Chern number to lattice sites. The long range response in our theory corresponds to a Chern correlator that acts like the internal fluctuation of the Chern marker, and is found to be enhanced in the topologically nontrivial phase. Finally, from the Fourier transform of the valence band Berry curvature, a nonlocal Chern marker is further introduced, whose decay length diverges at topological phase transitions and therefore serves as a faithful indicator of the transitions, and moreover can be interpreted as a Wannier state correlation function. The concepts discussed in this work explore multi-faceted aspects of topology and should help address the impact of system inhomogeneities. | 翻訳日:2023-07-11 22:45:46 公開日:2023-07-10 |
# 量子状態拡散法による量子速度限界 Quantum speed limit from a quantum-state-diffusion method ( http://arxiv.org/abs/2206.00321v2 ) ライセンス: Link先を確認 | Wei Wu, Jun-Hong An | (参考訳) 最も効率的な進化を特徴づける量子速度制限(QSL)は量子技術において重要な役割を果たす。
クローズドシステムからオープンシステムへの確立されたQSLの一般化は注目されている。
オープンシステムの縮小ダイナミクスからqslを導出する従来のスキームとは対照的に,オープンシステムとその環境からなる全システムの観点から量子状態拡散法を用いたqslを提案する。
2レベルシステムへの我々のスキームの適用は、ボルン・マルコフ近似の下で環境によって破壊されるノイズレスケースにおいて、システムが無限のスピードアップ能力を持つことを明らかにする。
非マルコフ力学では、全体系のエネルギースペクトルにおいて境界状態が形成される限り、ノイズレスケースの容量が回復されることは興味深い。
qslのキャラクタリゼーションスキームを豊かにすることで,オープンシステムのqslを制御する効率的な方法を提供する。 Characterizing the most efficient evolution, the quantum speed limit (QSL) plays a significant role in quantum technology. How to generalize the well-established QSL from closed systems to open systems has attracted much attention. In contrast to the previous schemes to derive the QSL from the reduced dynamics of open system, we propose a QSL bound from the point of view of the total system consisting of the open system and its environment using a quantum-state-diffusion method. The application of our scheme to a two-level system reveals that the system possesses an infinite speedup capacity in the noiseless case, which is destroyed by the environment under the Born-Markovian approximation. It is interesting to find that the capacity in the noiseless case is recovered in the non-Markovian dynamics as long as a bound state is formed in the energy spectrum of the total system. Enriching the characterization schemes of the QSL, our result provides an efficient way to control the QSL of open systems. | 翻訳日:2023-07-11 22:44:19 公開日:2023-07-10 |
# 潜在木イジングモデルの効率的な学習とテスト Learning and Testing Latent-Tree Ising Models Efficiently ( http://arxiv.org/abs/2211.13291v2 ) ライセンス: Link先を確認 | Davin Choo, Yuval Dagan, Constantinos Daskalakis, Anthimos Vardis Kandiros | (参考訳) 我々は,葉ノードでのみ観測可能な潜在木イジングモデル,すなわちイジングモデルを学習およびテストするための時間およびサンプル効率のよいアルゴリズムを提供する。
学習側では,葉ノード分布が全変動距離に近い木構造イジングモデルを学習するための効率的なアルゴリズムが得られ,先行研究の結果が改善された。
テスト側では,2つの潜木イジングモデルが全変動距離の近い葉ノード分布を持つかどうかをテストするために,より少ないサンプルを持つ効率的なアルゴリズムを提供する。
木構造イジングモデルの葉ノード分布間の全変動距離について,葉の辺縁関係から新たな局所化結果を示すことにより,本アルゴリズムの有効性を検証した。 We provide time- and sample-efficient algorithms for learning and testing latent-tree Ising models, i.e. Ising models that may only be observed at their leaf nodes. On the learning side, we obtain efficient algorithms for learning a tree-structured Ising model whose leaf node distribution is close in Total Variation Distance, improving on the results of prior work. On the testing side, we provide an efficient algorithm with fewer samples for testing whether two latent-tree Ising models have leaf-node distributions that are close or far in Total Variation distance. We obtain our algorithms by showing novel localization results for the total variation distance between the leaf-node distributions of tree-structured Ising models, in terms of their marginals on pairs of leaves. | 翻訳日:2023-07-11 22:36:14 公開日:2023-07-10 |
# 強化学習におけるモデルベース一般化の利点 The Benefits of Model-Based Generalization in Reinforcement Learning ( http://arxiv.org/abs/2211.02222v3 ) ライセンス: Link先を確認 | Kenny Young, Aditya Ramesh, Louis Kirsch, J\"urgen Schmidhuber | (参考訳) モデルベース強化学習(RL)は、エージェントが大量の想像上の経験を合成できるようにすることで、サンプル効率を向上させる可能性があると広く信じられている。
経験リプレイ(ER)は, 深部RLの安定性と効率向上に有効であることが証明された, 単純なモデルであると考えられる。
原則として、学習されたパラメトリックモデルは、実体験から一般化し、付加可能な経験でデータセットを増強することで、ERを改善することができる。
しかし、学習値関数も一般化できるので、なぜモデル一般化が良いのかはすぐには明らかではない。
ここでは,学習モデルが生成したデータの有用性について,理論的かつ実証的な知見を提供する。
まず、中間ステップとしてモデルを学ぶことは、ベルマン方程式を用いてデータから直接値関数を学習するよりも、可能な値関数の集合を狭めることができるという単純な定理を提供する。
第2に、ニューラルネットワーク関数近似を用いたより具体的な環境で、同様の効果がどのように起こるかを実証的に示す。
最後に,コンビネート複雑環境におけるオンラインrlにおけるモデルベース学習のメリットを示すとともに,学習モデルの一般化を可能にするファクタード構造を提案する。
これらの実験では,ERに対して学習モデルが生成した経験を可能な限り分離するために,他の要因の制御に注意する。 Model-Based Reinforcement Learning (RL) is widely believed to have the potential to improve sample efficiency by allowing an agent to synthesize large amounts of imagined experience. Experience Replay (ER) can be considered a simple kind of model, which has proved effective at improving the stability and efficiency of deep RL. In principle, a learned parametric model could improve on ER by generalizing from real experience to augment the dataset with additional plausible experience. However, given that learned value functions can also generalize, it is not immediately obvious why model generalization should be better. Here, we provide theoretical and empirical insight into when, and how, we can expect data generated by a learned model to be useful. First, we provide a simple theorem motivating how learning a model as an intermediate step can narrow down the set of possible value functions more than learning a value function directly from data using the Bellman equation. Second, we provide an illustrative example showing empirically how a similar effect occurs in a more concrete setting with neural network function approximation. Finally, we provide extensive experiments showing the benefit of model-based learning for online RL in environments with combinatorial complexity, but factored structure that allows a learned model to generalize. In these experiments, we take care to control for other factors in order to isolate, insofar as possible, the benefit of using experience generated by a learned model relative to ER alone. | 翻訳日:2023-07-11 22:35:41 公開日:2023-07-10 |
# 高周波誘導による高分解能パッチフリー3次元画像セグメンテーション Super-Resolution Based Patch-Free 3D Image Segmentation with High-Frequency Guidance ( http://arxiv.org/abs/2210.14645v2 ) ライセンス: Link先を確認 | Hongyi Wang, Lanfen Lin, Hongjie Hu, Qingqing Chen, Yinhao Li, Yutaro Iwamoto, Xian-Hua Han, Yen-Wei Chen, Ruofeng Tong | (参考訳) 高分解能(HR)3D画像は、MRI(MRI)やCT(CT)などの医療画像など、近年広く使われている。
しかし、これらの3D画像のセグメント化は、現在限られたGPUメモリとは対照的に、空間解像度と次元性が高いため、依然として課題である。
したがって、既存の3次元画像分割法では、推論効率の低いパッチベースモデルを使用し、グローバルな文脈情報を無視する。
これらの問題に対処するために,グローバルワイド低解像度(LR)入力からHRセグメンテーションを実現できるパッチフリー3次元画像セグメンテーションフレームワークを提案する。
このフレームワークは2つのサブタスクを含み、セマンティックセグメンテーションがメインタスクであり、スーパー解像度はLR入力から高周波情報を再構築する補助タスクである。
さらに、LR入力と情報損失のバランスをとるために、HGM(High-Frequency Guidance Module)を提案し、元の画像からHRパッチを収穫するための効率的な選択的収穫アルゴリズムを設計する。
さらに,セグメンテーションとSRタスクの相互接続を利用するタスクフュージョンモジュール(TFM)を提案し,この2つのタスクの協調最適化を実現する。
予測にはメインセグメンテーションタスクのみが必要であるが、他のモジュールはアクセラレーションのために削除できる。
2つの異なるデータセットの実験結果から、我々のフレームワークは従来のパッチベース手法に比べて4倍の推論速度を示し、その性能は他のパッチベースモデルやパッチフリーモデルを上回っている。 High resolution (HR) 3D images are widely used nowadays, such as medical images like Magnetic Resonance Imaging (MRI) and Computed Tomography (CT). However, segmentation of these 3D images remains a challenge due to their high spatial resolution and dimensionality in contrast to currently limited GPU memory. Therefore, most existing 3D image segmentation methods use patch-based models, which have low inference efficiency and ignore global contextual information. To address these problems, we propose a super-resolution (SR) based patch-free 3D image segmentation framework that can realize HR segmentation from a global-wise low-resolution (LR) input. The framework contains two sub-tasks, of which semantic segmentation is the main task and super resolution is an auxiliary task aiding in rebuilding the high frequency information from the LR input. To furthermore balance the information loss with the LR input, we propose a High-Frequency Guidance Module (HGM), and design an efficient selective cropping algorithm to crop an HR patch from the original image as restoration guidance for it. In addition, we also propose a Task-Fusion Module (TFM) to exploit the inter connections between segmentation and SR task, realizing joint optimization of the two tasks. When predicting, only the main segmentation task is needed, while other modules can be removed for acceleration. The experimental results on two different datasets show that our framework has a four times higher inference speed compared to traditional patch-based methods, while its performance also surpasses other patch-based and patch-free models. | 翻訳日:2023-07-11 22:34:56 公開日:2023-07-10 |
# 過パラメータ学習におけるバギング:リスク特性とリスク単調化 Bagging in overparameterized learning: Risk characterization and risk monotonization ( http://arxiv.org/abs/2210.11445v2 ) ライセンス: Link先を確認 | Pratik Patil, Jin-Hong Du, Arun Kumar Kuchibhotla | (参考訳) バギング(英: Bagging)は、統計学と機械学習において、予測手順の性能を改善するために一般的に用いられるアンサンブル技法である。
本稿では,比例漸近法の下での袋詰め予測器の変種について,特徴数と観測数との比率が一定に収束する確率について検討する。
具体的には,単純なランダムサンプリングによる古典的結果を用いて,袋詰め予測器の2乗誤差損失下での予測リスクを分析する一般的な手法を提案する。
戦略を特化することで,任意の特徴共分散行列と信号ベクトルを持つ定型線形モデルの下で,任意の数のバッグを持つ袋付リッジおよびリッジレス予測器の正確な漸近的リスクを導出する。
さらに,バッグングの最適サブサンプルサイズを選択するための一般的なクロスバリデーション手順を規定し,サンプルサイズ(二重あるいは多重の降下)の制限リスクの非単調な挙動を排除するために,その実用性について議論する。
袋詰めリッジとリッジレス予測器に対する提案手法の実証において, 最適なサブサンプルサイズのオラクル特性を徹底的に検討し, 異なる袋詰めタイプ間の詳細な比較を行った。 Bagging is a commonly used ensemble technique in statistics and machine learning to improve the performance of prediction procedures. In this paper, we study the prediction risk of variants of bagged predictors under the proportional asymptotics regime, in which the ratio of the number of features to the number of observations converges to a constant. Specifically, we propose a general strategy to analyze the prediction risk under squared error loss of bagged predictors using classical results on simple random sampling. Specializing the strategy, we derive the exact asymptotic risk of the bagged ridge and ridgeless predictors with an arbitrary number of bags under a well-specified linear model with arbitrary feature covariance matrices and signal vectors. Furthermore, we prescribe a generic cross-validation procedure to select the optimal subsample size for bagging and discuss its utility to eliminate the non-monotonic behavior of the limiting risk in the sample size (i.e., double or multiple descents). In demonstrating the proposed procedure for bagged ridge and ridgeless predictors, we thoroughly investigate the oracle properties of the optimal subsample size and provide an in-depth comparison between different bagging variants. | 翻訳日:2023-07-11 22:34:31 公開日:2023-07-10 |
# ニューラルタンジェントカーネルを用いたグラフニューラルネットワークの畳み込み・非線形・深さの解析 Analysis of Convolutions, Non-linearity and Depth in Graph Neural Networks using Neural Tangent Kernel ( http://arxiv.org/abs/2210.09809v2 ) ライセンス: Link先を確認 | Mahalakshmi Sabanayagam, Pascal Esser, Debarghya Ghoshdastidar | (参考訳) グラフニューラルネットワーク(gnns)の基本原理は、深度やアクティベーション関数などのネットワークアーキテクチャに適した選択と合わせて、隣接ノードを「グラフ畳み込み」を用いて集約することで、データの構造情報を活用することである。
したがって,ネットワーク性能に対する設計選択の影響を理解することが重要である。
グラフラプラシアンに基づく畳み込みは、最も広く採用されている隣接行列の対称正規化によって支配的な選択として現れる。
しかし、いくつかの実験研究では、隣接行列の行正規化がノード分類でそれを上回ることが示されている。
GNNの普及にもかかわらず、これらの畳み込みの表現力に関する厳密な理論的研究は行われていない。
同様に、非線形relu gnnsと同等の線形gnns性能の実証的観察は厳密な理論を欠いている。
本研究では,GNNアーキテクチャの異なる側面の影響を,半教師付きノード分類設定におけるグラフニューラルタンジェントカーネルを用いて理論的に解析する。
人口次数補正された確率的ブロックモデルの下では
(i)線形ネットワークは、ReLUネットワークと同様に、クラス情報をキャプチャする。
(ii) 行の正規化は,下位のクラス構造を他の畳み込みよりもよく保存する。
(iii)過剰なスムーシングによりネットワークの深さで性能が低下するが、クラス情報の損失は行の正規化において最も遅い。
(iv)スキップ接続は無限の深さでもクラス情報を保持し、過度なスムーシングを除去する。
理論的な結果がCoraやCiteseerのような実際のデータセット上で数値的に検証された。 The fundamental principle of Graph Neural Networks (GNNs) is to exploit the structural information of the data by aggregating the neighboring nodes using a `graph convolution' in conjunction with a suitable choice for the network architecture, such as depth and activation functions. Therefore, understanding the influence of each of the design choice on the network performance is crucial. Convolutions based on graph Laplacian have emerged as the dominant choice with the symmetric normalization of the adjacency matrix as the most widely adopted one. However, some empirical studies show that row normalization of the adjacency matrix outperforms it in node classification. Despite the widespread use of GNNs, there is no rigorous theoretical study on the representation power of these convolutions, that could explain this behavior. Similarly, the empirical observation of the linear GNNs performance being on par with non-linear ReLU GNNs lacks rigorous theory. In this work, we theoretically analyze the influence of different aspects of the GNN architecture using the Graph Neural Tangent Kernel in a semi-supervised node classification setting. Under the population Degree Corrected Stochastic Block Model, we prove that: (i) linear networks capture the class information as good as ReLU networks; (ii) row normalization preserves the underlying class structure better than other convolutions; (iii) performance degrades with network depth due to over-smoothing, but the loss in class information is the slowest in row normalization; (iv) skip connections retain the class information even at infinite depth, thereby eliminating over-smoothing. We finally validate our theoretical findings numerically and on real datasets such as Cora and Citeseer. | 翻訳日:2023-07-11 22:34:08 公開日:2023-07-10 |
# 超ハイゼンベルク精度による弱場センシングの資源としてのスターク局在化 Stark localization as a resource for weak-field sensing with super-Heisenberg precision ( http://arxiv.org/abs/2301.10512v3 ) ライセンス: Link先を確認 | Xingjian He, Rozhin Yousefjani, and Abolfazl Bayat | (参考訳) 勾配場は格子内の粒子トンネルを効果的に抑制し、全てのエネルギースケールで波動関数を局在化することができる。
本稿では,多くのセンサが最適に動作しない弱磁場領域において,勾配場を正確に測定するためのプローブとしてスターク系が使用できることを示す。
拡張段階では、スタークプローブは既知の量子センシングスキームのほとんどをはるかに超える超ハイゼンベルク精度を達成する。
局所的な位相では、精度は熱力学限界への高速収束を示す普遍的な方法で低下する。
単一粒子プローブの場合、超ハイゼンベルク精度の量子増強感度は、スペクトル全体にわたるすべての固有状態の単純な位置測定によって達成できることを示す。
このようなプローブについて,我々はスターク局在遷移の臨界指数を同定し,それらの関係を確立した。
普遍的な振る舞いが特定される熱揺らぎは、スーパーハイゼンベルクからハイゼンベルクまでの精度を減少させ、古典的センサーよりも優れています。
多粒子相互作用プローブは、拡張相において超ハイゼンベルクスケーリングも達成し、遷移点付近のさらなる拡張を示す。
資源分析に状態準備時間を含む場合でも、量子増強感度が達成可能である。 Gradient fields can effectively suppress particle tunneling in a lattice and localize the wave function at all energy scales, a phenomenon known as Stark localization. Here, we show that Stark systems can be used as a probe for the precise measurement of gradient fields, particularly in the weak-field regime where most sensors do not operate optimally. In the extended phase, Stark probes achieve super-Heisenberg precision, which is well beyond most of the known quantum sensing schemes. In the localized phase, the precision drops in a universal way showing fast convergence to the thermodynamic limit. For single-particle probes, we show that quantum-enhanced sensitivity, with super-Heisenberg precision, can be achieved through a simple position measurement for all the eigenstates across the entire spectrum. For such probes, we have identified several critical exponents of the Stark localization transition and established their relationship. Thermal fluctuations, whose universal behavior is identified, reduce the precision from super-Heisenberg to Heisenberg, still outperforming classical sensors. Multiparticle interacting probes also achieve super-Heisenberg scaling in their extended phase, which shows even further enhancement near the transition point. Quantum-enhanced sensitivity is still achievable even when state preparation time is included in resource analysis. | 翻訳日:2023-07-11 22:27:40 公開日:2023-07-10 |
# クラスタ状態におけるリモート量子誤り訂正符号作成プロトコル A Remote Quantum Error-correcting Code Preparation Protocol on Cluster State ( http://arxiv.org/abs/2301.02246v3 ) ライセンス: Link先を確認 | Qiang Zhao, Haokun Mao, Yucheng Qiao, Ahmed A. Abd El-Latif, Qiong Li | (参考訳) ブラインド量子計算(BQC)プロトコルは、プライバシー保護のための遠隔量子計算を可能にする。
本稿では,クラスタ状態を用いたbqcのためのリモート量子誤り訂正符号作成プロトコルを提案し,測定に基づく量子計算モデルにおいてその盲目を分析する。
我々のプロトコルは、従来の方法よりも少ない量子リソースを必要とし、弱いコヒーレントパルスしか必要とせず、量子メモリと限られた量子コンピューティングの必要性をなくす。
理論解析とシミュレーションの結果,同じ量子ビット誤り率の非符号化法と比較して,量子リソースの削減が期待できることがわかった。 The blind quantum computation (BQC) protocol allows for privacy-preserving remote quantum computations. In this paper, we introduce a remote quantum error correction code preparation protocol for BQC using a cluster state and analyze its blindness in the measurement-based quantum computation model. Our protocol requires fewer quantum resources than previous methods, as it only needs weak coherent pulses, eliminating the need for quantum memory and limited quantum computing. The results of our theoretical analysis and simulations show that our protocol requires fewer quantum resources compared to non-coding methods with the same qubit error rate. | 翻訳日:2023-07-11 22:26:24 公開日:2023-07-10 |
# ねじれ導波路を有するオンチップ偏波符号化単量子ゲート On-chip polarization-encoded single-qubit gates with twisted waveguides ( http://arxiv.org/abs/2212.13530v2 ) ライセンス: Link先を確認 | Fyodor Morozko, Andrey Novitsky, Alexander Mikhalychev, and Alina Karabchevsky | (参考訳) integrated photonicsは、スケーラブルな古典および量子光ベースの情報処理のための驚くべきプラットフォームである。
しかし、情報処理における基本的な重要性にもかかわらず、チップ上の偏光操作はいまだ解明されていない。
偏光操作はフェムト秒レーザーによるツイスト導波路で最近実証されているが、このアーキテクチャでは偏光操作の体系的な理論的な記述が確立されていない。
本研究では,その固有モードと透過行列を閉じた形で露呈するねじれ導波路の厳密な理論を考案する。
開発した理論を用いて、ねじれた導波路は合理的な設計制約を満たしながら、事実上任意の偏光変換を実現できることを実証する。
この事実と、レーザーインクリメンタルなフォトニック集積回路の低コストとプロトタイピングが組み合わさることで、オンチップの偏光エンコードされた情報処理のための強固なビルディングブロックとしてツイスト導波路を提案できる。 Integrated photonics is a remarkable platform for scalable classical and quantum light-based information processing. However, polarization manipulation on a chip despite of its fundamental significance in information processing remains elusive. Polarization manipulation capabilities have been recently demonstrated in femtosecond laser-inscribed twisted waveguides, although the systematic theoretical description of polarization manipulation has not been established for this architecture. In this work we develop a rigorous theory of a twisted waveguide unveiling its eigenmodes and transmission matrix in the closed form. Utilizing the developed theory, we demonstrate that twisted waveguides can realize virtually arbitrary polarization transformations while satisfying reasonable design constraints. This fact combined with low cost and ease of prototyping of laser inscribed photonic integrated circuits allows us to suggest twisted waveguide as a robust building block for on-chip polarization-encoded information processing. | 翻訳日:2023-07-11 22:26:14 公開日:2023-07-10 |
# 宇宙論的摂動のユニタリパラドックス Unitary paradox of cosmological perturbations ( http://arxiv.org/abs/2212.12865v3 ) ライセンス: Link先を確認 | Ngo Phuc Duc Loc | (参考訳) ハッブル地平線のベッケンシュタイン-ホーキングエントロピーを熱力学的エントロピーと解釈すると、準水平モードに絡み合った曲率摂動の超水平モードのエントロピーは、ある点でベーケンシュタイン-ホーキング境界を超える。
微調整問題を避けるために、このパラドックスは臨界時間である$t_c=\ln(3\sqrt{\pi}/\sqrt{2}\epsilon_hh_{inf})/2h_{inf}$(プランク単位)のインフレーション時代に起こり、ここでは$\epsilon_h= -\dot{h}/h^2$は最初のハッブルスローロールパラメータであり、$h_{inf}$はインフレーション中のハッブルレートである。
代わりに微調整された問題を受理すれば、臨界時間 $t_c'=\ln(3\sqrt{\pi}H_{inf}/\sqrt{2}fe^{2N}H_\Lambda^2)/2H_\Lambda$, ここで$H_\Lambda$はダークエネルギーに支配されるハッブルレートであり、$N$はインフレーションのeフォールドの総数であり、$f$は$0<f<3\sqrt{\pi}H_{inf}/\sqrt{2}e^{2N}H_\Lambda^2$である。 If we interpret the Bekenstein-Hawking entropy of the Hubble horizon as thermodynamic entropy, then the entanglement entropy of the superhorizon modes of curvature perturbation entangled with the subhorizon modes will exceed the Bekenstein-Hawking bound at some point; we call this the unitary paradox of cosmological perturbations by analogy with black hole. In order to avoid a fine-tuned problem, the paradox must occur during the inflationary era at the critical time $t_c=\ln(3\sqrt{\pi}/\sqrt{2}\epsilon_HH_{inf})/2H_{inf}$ (in Planck units), where $\epsilon_H= -\dot{H}/H^2$ is the first Hubble slow-roll parameter and $H_{inf}$ is the Hubble rate during inflation. If we instead accept the fine-tuned problem, then the paradox will occur during the dark energy era at the critical time $t_c'=\ln(3\sqrt{\pi}H_{inf}/\sqrt{2}fe^{2N}H_\Lambda^2)/2H_\Lambda$, where $H_\Lambda$ is the Hubble rate dominated by dark energy, $N$ is the total number of e-folds of inflation, and $f$ is a purification factor that takes the range $0<f<3\sqrt{\pi}H_{inf}/\sqrt{2}e^{2N}H_\Lambda^2$. | 翻訳日:2023-07-11 22:25:58 公開日:2023-07-10 |
# 臨界不安定二層系の量子コヒーレンス Quantum Coherence of Critical Unstable Two-Level Systems ( http://arxiv.org/abs/2212.06031v2 ) ライセンス: Link先を確認 | Dimitrios Karamitros, Thomas McKelvey, Apostolos Pilaftsis | (参考訳) 量子ビットのブロッホ球形式を用いて不安定な2レベル量子系の力学を詳細に研究する。
このような不安定な量子ビット系のブロッホベクトル表現を用いることで、いわゆるエネルギーレベルベクトルと減衰幅ベクトルである ${\bf e}$ と ${\bf\gamma}$ が互いに直交し、パラメータ $r = |{\bf \gamma}|/(2|{\bf e}|)$ が 1 未満となるような、新しい臨界シナリオのクラスを特定する。
最も驚くべきことに、臨界不安定な量子ビット系は、システムの適切に定義された共沈系で解析された場合、コヒーレンス・デコヒーレンス振動のような非定型的な振る舞いを示す。
同じフレームで、純粋な臨界量子ビットを記述する単位ブロッホベクトル ${\bf b}$ は、同じ時間間隔で不等な領域を掃き、一方、ベクトル ${\bf e}$ の周りで回転する。
これらの現象は、2レベル量子系のエネルギーレベル差によって通常の振動パターンを越えて現れる。
興味深いことに、これらの新機能は準クリティカルなシナリオでも継続するので、ベクトル ${\bf e}$ と ${\bf\gamma}$ は互いに完全に直交するものではない。
量子情報および不安定な中間子-アタイムソンおよび他のシステムへの適用について論じる。 We study in detail the dynamics of unstable two-level quantum systems by adopting the Bloch-sphere formalism of qubits. By employing the Bloch-vector representation for such unstable qubit systems, we identify a novel class of critical scenarios in which the so-called energy-level and decay-width vectors, ${\bf E}$ and ${\bf\Gamma}$, are orthogonal to one another, and the parameter $r = |{\bf \Gamma}|/(2|{\bf E}|)$ is less than 1. Most remarkably, we find that critical unstable qubit systems exhibit atypical behaviours like coherence--decoherence oscillations when analysed in an appropriately defined co-decaying frame of the system. In the same frame, a unit Bloch vector ${\bf b}$ describing a pure critical qubit will sweep out unequal areas during equal intervals of time, while rotating about the vector ${\bf E}$. These phenomena emerge beyond the usual oscillatory pattern due to the energy-level difference of the two-level quantum system. Interestingly enough, we observe that these new features will persist even for quasi-critical scenarios, in which the vectors ${\bf E}$ and ${\bf\Gamma}$ are not perfectly orthogonal to each other. Applications of our results to quantum information and to unstable meson--antimeson and other systems are discussed. | 翻訳日:2023-07-11 22:25:10 公開日:2023-07-10 |
# テンソルコア上のSGEMMエミュレーションによる量子回路シミュレーションと自動精密選択 Quantum Circuit Simulation by SGEMM Emulation on Tensor Cores and Automatic Precision Selection ( http://arxiv.org/abs/2303.08989v2 ) ライセンス: Link先を確認 | Hiroyuki Ootomo, Hidetaka Manabe, Kenji Harada, Rio Yokota | (参考訳) 量子回路シミュレーションは、量子アルゴリズムの開発と量子超越性の検証の基礎を提供する。
量子回路シミュレーションの様々な方法のうち、テンソルネットワークの縮小は、より多くの量子ビットをシミュレートする能力により、人気が高まっている。
テンソル収縮中、入力テンソルは行列に変換され、GEMM演算によって計算される。
GEMMスループットはTensor Coresのような混合精度のハードウェアを利用することで向上できるが、実装が簡単で、深い量子回路や大規模な量子回路では不十分である。
TF32 や FP16 Tensor Core を用いても、ラウンドモードを特別に扱った補償和が、SGEMM の FP32 精度を完全に回復できることを示した。
このような手法を量子回路シミュレーションに適用する場合、指数範囲は重要な問題である。
TF32はFP32とほぼ同じ指数域をサポートしているが、FP16はより小さい指数域をサポートしている。
本研究では、入力テンソル要素の指数範囲統計を用いて、GEMMに使用するテンソルコアを選択する。
我々は,Sycamoreの量子回路を含むランダム回路サンプリング(RCS)において,スループットが精度を維持しながら最大1.86倍であることを示す。 Quantum circuit simulation provides the foundation for the development of quantum algorithms and the verification of quantum supremacy. Among the various methods for quantum circuit simulation, tensor network contraction has been increasing in popularity due to its ability to simulate a larger number of qubits. During tensor contraction, the input tensors are reshaped to matrices and computed by a GEMM operation, where these GEMM operations could reach up to 90\% of the total calculation time. GEMM throughput can be improved by utilizing mixed-precision hardware such as Tensor Cores, but straightforward implementation results in insufficient fidelity for deep and large quantum circuits. Prior work has demonstrated that compensated summation with special care of the rounding mode can fully recover the FP32 precision of SGEMM even when using TF32 or FP16 Tensor Cores. The exponent range is a critical issue when applying such techniques to quantum circuit simulation. While TF32 supports almost the same exponent range as FP32, FP16 supports a much smaller exponent range. In this work, we use the exponent range statistics of input tensor elements to select which Tensor Cores we use for the GEMM. We evaluate our method on Random Circuit Sampling (RCS), including Sycamore's quantum circuit, and show that the throughput is 1.86 times higher at maximum while maintaining accuracy. | 翻訳日:2023-07-11 22:17:17 公開日:2023-07-10 |
# インプラント自動生成のための点雲拡散モデル Point Cloud Diffusion Models for Automatic Implant Generation ( http://arxiv.org/abs/2303.08061v2 ) ライセンス: Link先を確認 | Paul Friedrich, Julia Wolleb, Florentin Bieder, Florian M. Thieringer and Philippe C. Cattin | (参考訳) 生体適合性材料の3Dプリンティングの進歩は、患者固有のインプラントを普及させる。
しかし、これらのインプラントの設計はいまだに面倒で手作業のプロセスである。
インプラント生成を自動化する既存のアプローチは、主にダウンサンプルデータやパッチワイズデータの3d u-netアーキテクチャに基づいており、詳細情報や文脈情報を失う可能性がある。
近年の拡散確率モデルの成功に続いて,3次元点流拡散モデルとボキセル化ネットワークを組み合わせたインプラント生成手法を提案する。
拡散モデルにおける確率的サンプリング法により, 欠陥ごとに異なるインプラントのアンサンブルが提案され, 医師が最適なものを選択することができる。
SkullBreak と SkullFix のデータセット上で評価を行い,高品質なインプラントを作製し,競争性評価スコアを得る。 Advances in 3D printing of biocompatible materials make patient-specific implants increasingly popular. The design of these implants is, however, still a tedious and largely manual process. Existing approaches to automate implant generation are mainly based on 3D U-Net architectures on downsampled or patch-wise data, which can result in a loss of detail or contextual information. Following the recent success of Diffusion Probabilistic Models, we propose a novel approach for implant generation based on a combination of 3D point cloud diffusion models and voxelization networks. Due to the stochastic sampling process in our diffusion model, we can propose an ensemble of different implants per defect, from which the physicians can choose the most suitable one. We evaluate our method on the SkullBreak and SkullFix datasets, generating high-quality implants and achieving competitive evaluation scores. | 翻訳日:2023-07-11 22:16:56 公開日:2023-07-10 |
# 一般日射予測のための局所グローバル法 Local-Global Methods for Generalised Solar Irradiance Forecasting ( http://arxiv.org/abs/2303.06010v2 ) ライセンス: Link先を確認 | Timothy Cargan, Dario Landa-Silva, Isaac Triguero | (参考訳) 太陽エネルギーの利用が増加するにつれて、スムーズなグリッドオペレーターには正確でタイムリーな予測が不可欠である。
太陽光/太陽光発電の予測には多くの方法が提案されている。
しかし、これらの手法の多くは時系列として問題を定式化し、興味のある場所の観測にほぼリアルタイムでアクセスして予測を生成する。
これには、リアルタイムデータストリームへのアクセスと、これらのメソッドをデプロイするための十分な履歴観察が必要である。
本稿では,我々のモデルを一般化した方法で学習するためにグローバル手法を用いることを提案する。
このアプローチを古典的MLと最先端技術の両方に適用する。
イギリス全土に分布する20か所のデータと広く利用可能な気象データを用いて、このデータにアクセスする必要のないシステムを構築することができることを示す。
我々は気象データの衛星観測と地上観測(温度、圧力など)の両方を利用して比較する。
気象観測と他の場所からの観測を活用すれば、新しい場所での太陽放射を正確に予測できるモデルを作成することができる。
これにより、新たに設置された太陽光発電所と国内施設の両方の計画と最適化が、オンライン化の瞬間から容易になる。
さらに,複数のロケーションに対して単一のグローバルモデルをトレーニングすることで,より一貫性があり正確な結果が得られることを示す。 As the use of solar power increases, having accurate and timely forecasts will be essential for smooth grid operators. There are many proposed methods for forecasting solar irradiance / solar power production. However, many of these methods formulate the problem as a time-series, relying on near real-time access to observations at the location of interest to generate forecasts. This requires both access to a real-time stream of data and enough historical observations for these methods to be deployed. In this paper, we propose the use of Global methods to train our models in a generalised way, enabling them to generate forecasts for unseen locations. We apply this approach to both classical ML and state of the art methods. Using data from 20 locations distributed throughout the UK and widely available weather data, we show that it is possible to build systems that do not require access to this data. We utilise and compare both satellite and ground observations (e.g. temperature, pressure) of weather data. Leveraging weather observations and measurements from other locations we show it is possible to create models capable of accurately forecasting solar irradiance at new locations. This could facilitate use planning and optimisation for both newly deployed solar farms and domestic installations from the moment they come online. Additionally, we show that training a single global model for multiple locations can produce a more robust model with more consistent and accurate results across locations. | 翻訳日:2023-07-11 22:16:44 公開日:2023-07-10 |
# 読み上げと自発性ttにおける自己教師あり音声表現の比較研究 A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS ( http://arxiv.org/abs/2303.02719v2 ) ライセンス: Link先を確認 | Siyang Wang, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely | (参考訳) 近年,標準2段階TSの表現媒体としてwav2vec2.0などの自己教師付き学習(SSL)音声表現を,従来から使用されているメルスペクトルの代わりに利用することが検討されている。
しかし、どの音声sslがttsに適しているか、そしてその性能が読み取りと自発的ttsとで異なるかどうかは明らかではない。
本研究の目的は,同じSSLの異なるレイヤを含む複数の音声SSLを,読み取りおよび自発コーパスの2段階のTSでテストし,一定のTSモデルアーキテクチャとトレーニング設定を維持しながら,これらの問題に対処することである。
リスニングテストの結果、12層wav2vec2.0の第9層(asr微調整)は他のsslおよびmel-spectrogramをリードおよび自発ttで上回った。
我々の研究は、音声SSLが現在のTSシステムを簡単に改善できる方法と、TLSの困難な生成タスクにおけるSSLの比較の両方に光を当てています。
オーディオの例はhttps://www.speech.kth.se/tts-demos/ssr_ttsにある。 Recent work has explored using self-supervised learning (SSL) speech representations such as wav2vec2.0 as the representation medium in standard two-stage TTS, in place of conventionally used mel-spectrograms. It is however unclear which speech SSL is the better fit for TTS, and whether or not the performance differs between read and spontaneous TTS, the later of which is arguably more challenging. This study aims at addressing these questions by testing several speech SSLs, including different layers of the same SSL, in two-stage TTS on both read and spontaneous corpora, while maintaining constant TTS model architecture and training settings. Results from listening tests show that the 9th layer of 12-layer wav2vec2.0 (ASR finetuned) outperforms other tested SSLs and mel-spectrogram, in both read and spontaneous TTS. Our work sheds light on both how speech SSL can readily improve current TTS systems, and how SSLs compare in the challenging generative task of TTS. Audio examples can be found at https://www.speech.kth.se/tts-demos/ssr_tts | 翻訳日:2023-07-11 22:15:32 公開日:2023-07-10 |
# 量子同期における幾何位相 Geometric Phase in Quantum Synchronization ( http://arxiv.org/abs/2302.08866v2 ) ライセンス: Link先を確認 | Aaron Daniel, Christoph Bruder and Martin Koppenh\"ofer | (参考訳) 量子化軸がゆっくりと回転するスピン系に実装された量子極限サイクル発振器を考える。
非単体進化における幾何位相を定義する運動論的手法を用いて、量子極限サイクル発振器が回転が十分に遅いときに幾何位相に達することを示す。
外部信号の存在下では、信号強度の関数としての幾何学的位相と、信号と発振の自然な周波数の間の微調整は、同期のアーノルド舌と著しく類似した構造を示す。
驚くべきことに、この構造は、システムが同期ブロックのパラメータレジーム内にあるとき、アーノルド舌と共に消滅する。
量子化軸の遅い回転と弱い外部信号強度の限界において有効であるこの系の幾何学的位相の解析式を導出し、この驚くべき効果に対する直感的な解釈を提供する。 We consider a quantum limit-cycle oscillator implemented in a spin system whose quantization axis is slowly rotated. Using a kinematic approach to define geometric phases in nonunitary evolution, we show that the quantum limit-cycle oscillator attains a geometric phase when the rotation is sufficiently slow. In the presence of an external signal, the geometric phase as a function of the signal strength and the detuning between the signal and the natural frequency of oscillation shows a structure that is strikingly similar to the Arnold tongue of synchronization. Surprisingly, this structure vanishes together with the Arnold tongue when the system is in a parameter regime of synchronization blockade. We derive an analytic expression for the geometric phase of this system, valid in the limit of slow rotation of the quantization axis and weak external signal strength, and we provide an intuitive interpretation for this surprising effect. | 翻訳日:2023-07-11 22:14:47 公開日:2023-07-10 |
# Knapsack制約下での非単調部分モジュラ最大化に対する線形クエリ近似アルゴリズム Linear Query Approximation Algorithms for Non-monotone Submodular Maximization under Knapsack Constraint ( http://arxiv.org/abs/2305.10292v2 ) ライセンス: Link先を確認 | Canh V. Pham, Tan D. Tran, Dung T.K. Ha, My T. Thai | (参考訳) この研究は、初めて2つの定数因子近似アルゴリズムを導入し、非単調部分モジュラー最大化に対する線形クエリの複雑さを、クナップサック制約に従えば$n$、$\mathsf{dla}$および$\mathsf{rla}$という基底集合に対して導入した。
$\mathsf{DLA}$は6+\epsilon$の近似係数を提供する決定論的アルゴリズムであり、$\mathsf{RLA}$は4+\epsilon$の近似係数を持つランダム化アルゴリズムである。
どちらも$O(n \log(1/\epsilon)/\epsilon)$クエリの複雑さで実行される。
1) 基底集合を2つの適切な部分集合に分割することで、これらの部分集合上の最適に近い解を線形なクエリで見つけること、(2) しきい値のグリーディと2つの不一致集合の性質を組み合わせること、または解の品質を改善するためにランダムな選択プロセスである。
理論的解析に加えて,提案手法を収益最大化,画像要約,最大重み付きカットの3つのアプリケーションを用いて評価し,我々のアルゴリズムが比較結果を最先端のアルゴリズムに返却するだけでなく,クエリを著しく少なくすることを示した。 This work, for the first time, introduces two constant factor approximation algorithms with linear query complexity for non-monotone submodular maximization over a ground set of size $n$ subject to a knapsack constraint, $\mathsf{DLA}$ and $\mathsf{RLA}$. $\mathsf{DLA}$ is a deterministic algorithm that provides an approximation factor of $6+\epsilon$ while $\mathsf{RLA}$ is a randomized algorithm with an approximation factor of $4+\epsilon$. Both run in $O(n \log(1/\epsilon)/\epsilon)$ query complexity. The key idea to obtain a constant approximation ratio with linear query lies in: (1) dividing the ground set into two appropriate subsets to find the near-optimal solution over these subsets with linear queries, and (2) combining a threshold greedy with properties of two disjoint sets or a random selection process to improve solution quality. In addition to the theoretical analysis, we have evaluated our proposed solutions with three applications: Revenue Maximization, Image Summarization, and Maximum Weighted Cut, showing that our algorithms not only return comparative results to state-of-the-art algorithms but also require significantly fewer queries. | 翻訳日:2023-07-11 22:08:23 公開日:2023-07-10 |
# ハイブリッド畳み込みに基づくデュアルドメインネットワークによるハイパースペクトル画像超解像 Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution ( http://arxiv.org/abs/2304.04589v8 ) ライセンス: Link先を確認 | Tingting Liu, Yuan Liu, Chuncheng Zhang, Yuan Liyin, Xiubao Sui, Qian Chen | (参考訳) 入射エネルギーは限られているため,空間分解能の高いハイパースペクトル画像(HSI)を直接取得することは困難である。
HSIの高次元性と相関性を考えると、HSIの超解像(SR)は補助高分解能画像がない場合の課題である。
さらに,空間的特徴を効果的に抽出し,スペクトル情報を十分に活用することが重要である。
本稿では,ハイブリッド畳み込み(srdnet)に基づくデュアルドメインネットワークと呼ばれる,新しいhsiスーパーレゾリューションアルゴリズムを提案する。
具体的には、双対領域ネットワークは、超スペクトルデータの空間スペクトルと周波数情報をフル活用するように設計されている。
スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。
一方、ピラミッド構造は注意の受容領域を高めるために適用され、ネットワークの特徴表現能力をさらに強化する。
さらに、HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入する。
動的重み付け機構は、空間損失に起因する発生周波数と過度な平滑化を徐々に改善するネットワークを駆動する。
最後に, 高分解能空間と低分解能空間のマッピング関係をよりよく把握するために, 漸進的なアップサンプリング戦略を持つ2dおよび3dユニットのハイブリッドモジュールを用いた。
ベンチマークデータセットを用いた実験では,提案手法がhsiのテクスチャ情報を強化し,最先端の手法よりも優れていることを示す。 Since the number of incident energies is limited, it is difficult to directly acquire hyperspectral images (HSI) with high spatial resolution. Considering the high dimensionality and correlation of HSI, super-resolution (SR) of HSI remains a challenge in the absence of auxiliary high-resolution images. Furthermore, it is very important to extract the spatial features effectively and make full use of the spectral information. This paper proposes a novel HSI super-resolution algorithm, termed dual-domain network based on hybrid convolution (SRDNet). Specifically, a dual-domain network is designed to fully exploit the spatial-spectral and frequency information among the hyper-spectral data. To capture inter-spectral self-similarity, a self-attention learning mechanism (HSL) is devised in the spatial domain. Meanwhile the pyramid structure is applied to increase the acceptance field of attention, which further reinforces the feature representation ability of the network. Moreover, to further improve the perceptual quality of HSI, a frequency loss(HFL) is introduced to optimize the model in the frequency domain. The dynamic weighting mechanism drives the network to gradually refine the generated frequency and excessive smoothing caused by spatial loss. Finally, In order to better fully obtain the mapping relationship between high-resolution space and low-resolution space, a hybrid module of 2D and 3D units with progressive upsampling strategy is utilized in our method. Experiments on a widely used benchmark dataset illustrate that the proposed SRDNet method enhances the texture information of HSI and is superior to state-of-the-art methods. | 翻訳日:2023-07-11 22:06:08 公開日:2023-07-10 |
# 階層型変分オートエンコーダを用いた感情条件メロディ調和 Emotion-Conditioned Melody Harmonization with Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2306.03718v3 ) ライセンス: Link先を確認 | Shulei Ji and Xinyu Yang | (参考訳) 既存のメロディ調和モデルでは、生成したハーモニーの品質向上に大きな進歩を遂げているが、その多くは音楽の下の感情を無視している。
一方、以前の手法で生成された調和の変動性は不十分である。
これらの問題を解決するために,LSTMを用いた階層的変分自動エンコーダ(LHVAE)を提案する。
特に、LHVAEは、グローバルおよびローカルな音楽特性をモデル化するために、様々なレベル(ピースレベルとバーレベル)の潜伏変数と感情条件を組み込んでいる。
さらに,各ステップに注意に基づくメロディコンテキストベクトルを導入し,メロディとハーモニーの対応をよりよく学習する。
目的実験の結果,提案モデルは他のLSTMモデルよりも優れていた。
主観的評価により、和音の種類を変えるだけでは音楽の全体的な感情は変わらないと結論づけた。
定性的解析は、我々のモデルが可変調和を生成する能力を示す。 Existing melody harmonization models have made great progress in improving the quality of generated harmonies, but most of them ignored the emotions beneath the music. Meanwhile, the variability of harmonies generated by previous methods is insufficient. To solve these problems, we propose a novel LSTM-based Hierarchical Variational Auto-Encoder (LHVAE) to investigate the influence of emotional conditions on melody harmonization, while improving the quality of generated harmonies and capturing the abundant variability of chord progressions. Specifically, LHVAE incorporates latent variables and emotional conditions at different levels (piece- and bar-level) to model the global and local music properties. Additionally, we introduce an attention-based melody context vector at each step to better learn the correspondence between melodies and harmonies. Objective experimental results show that our proposed model outperforms other LSTM-based models. Through subjective evaluation, we conclude that only altering the type of chord hardly changes the overall emotion of the music. The qualitative analysis demonstrates the ability of our model to generate variable harmonies. | 翻訳日:2023-07-11 21:56:47 公開日:2023-07-10 |
# 1次元ボース気体中の分散量子衝撃波における「真空点」と灰色のソリトンの運命 The fate of the "vacuum point'' and of grey solitons in dispersive quantum shock waves in a one-dimensional Bose gas ( http://arxiv.org/abs/2305.17647v2 ) ライセンス: Link先を確認 | S. A. Simmons, J. C. Pillay, and K. V. Kheruntsyan | (参考訳) 平均場近似を超えた1次元ボース気体中の分散量子衝撃波の研究を継続する。
Simmonsらによる最近の作品。
[Phys. Let. 125, 180401 (2020)], この系で発生した発振衝撃波列は, 量子力学的自己干渉の結果, 物質-波位相コヒーレンスの損失によって干渉コントラストが減少すると考えられる。
このようなコヒーレンスの喪失は、平均体Gross-Pitaevskiiの記述と比較して、量子的または熱的ゆらぎと強く相互作用する状態によって起こる。
本研究では、この文脈における分散量子衝撃波の解析を他の動的シナリオにまで拡張する。
より具体的には、研究されたシナリオには、平均場記述でいわゆる「真空点」へと導くのに十分な密度のバンプの進化と、同じ平均場近似で灰色のソリトン列を降ろすことで知られる初期密度ディップの進化が含まれる。
量子的および熱的ゆらぎの存在,および中間的および強い相互作用におけるこれらの非線形波動構造の運命について検討し,真空点と灰色のソリトンの両方が平均場的アプローチを超えないことを示す。
一方, 真空点は, 局所ジムプルポテンシャルの基底状態から進化する理想的(非相互作用的)ボースガス中で発生する。
自然界における分散衝撃波のユビキタス性から,非線形波動現象を表示できる他の物理系に対して有用な知見と展望を提供する必要がある。 We continue the study of dispersive quantum shock waves in a one-dimensional Bose gas beyond the mean-field approximation. In a recent work by Simmons et al. [Phys. Rev. Let. 125, 180401 (2020)], the oscillatory shock wave train developing in this system from an initial localized density bump on a uniform background was interpreted as a result of quantum mechanical self-interference, wherein the interference contrast would diminish with the loss of matter-wave phase coherence. Such loss of coherence, relative to the mean-field Gross-Pitaevskii description, occurs due to either quantum or thermal fluctuations, as well as in the strongly interacting regime. In this work, we extend the analysis of dispersive quantum shock waves in this context to other dynamical scenarios. More specifically, the scenarios studied include evolution of a sufficiently high density bump, known to lead to the so-called ``vacuum point'' in the mean-field description, and evolution of an initial density dip, known to shed a train of grey solitons in the same mean-field approximation. We study the fate of these nonlinear wave structures in the presence of quantum and thermal fluctuations, as well as at intermediate and strong interactions, and show that both the vacuum point and grey solitons cease to manifest themselves beyond the mean-field approach. On the other hand, we find that a vacuum point can occur in an ideal (noninteracting) Bose gas evolving from a ground state of a localized dimple potential. Due to the ubiquity of dispersive shock waves in nature, our results should provide useful insights and perspectives for a variety of other physical systems known to display nonlinear wave phenomena. | 翻訳日:2023-07-11 21:56:00 公開日:2023-07-10 |
# 異なる測定文脈間の定量的関係 Quantitative Relations Between Different Measurement Contexts ( http://arxiv.org/abs/2305.14873v2 ) ライセンス: Link先を確認 | Ming Ji and Holger F. Hofmann | (参考訳) 量子論において、測定コンテキストはヒルベルト空間内の直交基底によって定義され、各基底ベクトルは特定の測定結果を表す。
したがって、2つの異なる測定コンテキスト間の正確な定量的関係は、ヒルベルト空間における非直交状態の内積によって特徴づけられる。
ここでは、異なる文脈で共有される測定結果を用いて、異なる文脈を表すヒルベルト空間ベクトルの内部積の間の特定の量的関係を導出する。
量子文脈性(quantum contextity)のパラドックスを記述する確率は、非常に少数の内積から導出され、量子文脈性は異なる測定コンテキストを表すヒルベルト空間ベクトル間の量的関係の必要な結果であることが示されている。
2つの系の積空間への解析の適用により、量子エンタングルメントの非局所性は、1つの系における測定コンテキスト間の関係を表す局所内積に遡ることができることが明らかとなった。
したがって、量子力学の本質的な非古典的特徴は、ヒルベルト空間形式論によって記述された異なる測定コンテキスト間の定量的関係から体系的に導出することができる。 In quantum theory, a measurement context is defined by an orthogonal basis in a Hilbert space, where each basis vector represents a specific measurement outcome. The precise quantitative relation between two different measurement contexts can thus be characterized by the inner products of nonorthogonal states in that Hilbert space. Here, we use measurement outcomes that are shared by different contexts to derive specific quantitative relations between the inner products of the Hilbert space vectors that represent the different contexts. It is shown that the probabilities that describe the paradoxes of quantum contextuality can be derived from a very small number of inner products, demonstrating that quantum contextuality is a necessary consequence of the quantitative relations between Hilbert space vectors representing different measurement contexts. The application of our analysis to a product space of two systems reveals that the non-locality of quantum entanglement can be traced back to a local inner product representing the relation between measurement contexts in only one system. Our results thus indicate that the essential non-classical features of quantum mechanics can all be derived systematically from the quantitative relations between different measurement contexts described by the Hilbert space formalism. | 翻訳日:2023-07-11 21:55:16 公開日:2023-07-10 |
# 不均一なモジュラー量子コンピューティングネットワークアーキテクチャ上の分散回路 Distributing circuits over heterogeneous, modular quantum computing network architectures ( http://arxiv.org/abs/2305.14148v3 ) ライセンス: Link先を確認 | Pablo Andres-Martinez, Tim Forrer, Daniel Mills, Jun-Yi Wu, Luciana Henaut, Kentaro Yamamoto, Mio Murao, Ross Duncan | (参考訳) 我々は,ベル状態を介して疎結合な量子コンピューティングモジュールのヘテロジニアスネットワークを考える。
これらの接続間の操作は計算のボトルネックとなり、モジュール内で実行される操作よりも計算にノイズを加える可能性が高い。
本稿では,上述のタイプのネットワーク上で,与えられた量子回路を1つの実装可能なものに変換する手法をいくつか導入し,そのために必要なベル状態の数を最小化する。
我々は,完全接続ネットワーク上での回路分布に関する先行研究を,異種ネットワークの場合にも拡張する。
一方、[Andres-Martinez & Heunen. 2019] のハイパーグラフアプローチを任意のネットワークトポロジに拡張しています。
また,ネットワーク内での絡み合いの効率的な共有を実現するために,Steiner木を用いて,既存のコネクションを可能な限り頻繁に再利用する。
一方で,[wu, et al. 2022] の埋め込み技術を2つ以上のモジュールを持つネットワークにまで拡張した。
さらに、これら2つの非互換なアプローチをどのように連携させるかについて議論する。
我々の提案は実装され、ベンチマークされ、その結果、2つのアプローチが互いに弱みを補うことが確認された。 We consider a heterogeneous network of quantum computing modules, sparsely connected via Bell states. Operations across these connections constitute a computational bottleneck and they are likely to add more noise to the computation than operations performed within a module. We introduce several techniques for transforming a given quantum circuit into one implementable on a network of the aforementioned type, minimising the number of Bell states required to do so. We extend previous works on circuit distribution over fully connected networks to the case of heterogeneous networks. On the one hand, we extend the hypergraph approach of [Andres-Martinez & Heunen. 2019] to arbitrary network topologies. We additionally make use of Steiner trees to find efficient realisations of the entanglement sharing within the network, reusing already established connections as often as possible. On the other hand, we extend the embedding techniques of [Wu, et al. 2022] to networks with more than two modules. Furthermore, we discuss how these two seemingly incompatible approaches can be made to cooperate. Our proposal is implemented and benchmarked; the results confirming that, when orchestrated, the two approaches complement each other's weaknesses. | 翻訳日:2023-07-11 21:55:00 公開日:2023-07-10 |
# 横電場を有する2本鎖ヘリックスにおける多重リエントラント局在現象 Phenomenon of multiple reentrant localization in a double-stranded helix with transverse electric field ( http://arxiv.org/abs/2306.14452v2 ) ライセンス: Link先を確認 | Sudin Ganguly, Suparna Sarkar, Kallol Mondal, and Santanu K. Maiti | (参考訳) 本研究は, 従来の近接ホッピング相互作用を超越した, 二重鎖ヘリカル (DSH) 系における複数再帰的局所化挙動の観測の可能性を探るものである。
DSH系は各ストランドでホッピング二量体化され、また、横電場にも適用されると考えられている。
電場を含むことは、準周期性障害とストランドワイドサイトエネルギーを誘導する二重目的に役立つ。
熱力学的限界における真の拡張挙動を示す領域と、ヘリックス内部に部分的な広がりを伴う準拡張特性を示す領域である。
DSH系では3つの異なる単一粒子移動エッジが系内に存在する局在化遷移と関連している。
本研究では, 単粒子エネルギースペクトル, 逆参加率, 局所確率振幅など, 様々なパラメータを検討した。
本提案は, 達成可能なホッピング二量体化と相関性障害を併せ持つことで, 再帰的局所化現象を研究するユニークな機会を与え, 重要な研究関心を生んでいる。 The present work explores the potential for observing multiple reentrant localization behavior in a double-stranded helical (DSH) system, extending beyond the conventional nearest-neighbor hopping interaction. The DSH system is considered to have hopping dimerization in each strand, while also being subjected to a transverse electric field. The inclusion of an electric field serves the dual purpose of inducing quasiperiodic disorder and strand-wise staggered site energies. Two reentrant localization regions are identified: one exhibiting true extended behavior in the thermodynamic limit, while the second region shows quasi-extended characteristics with partial spreading within the helix. The DSH system exhibits three distinct single-particle mobility edges linked to localization transitions present in the system. The analysis in this study involves examining various parameters such as the single-particle energy spectrum, inverse participation ratio, local probability amplitude, and more. Our proposal, combining achievable hopping dimerization and induced correlated disorder, presents a unique opportunity to study phenomenon of reentrant localization, generating significant research interest. | 翻訳日:2023-07-11 21:47:28 公開日:2023-07-10 |
# エナンチオ感受性例外点 Enantiosensitive exceptional points ( http://arxiv.org/abs/2306.12293v2 ) ライセンス: Link先を確認 | Nicola Mayer, Nimrod Moiseyev and Olga Smirnova | (参考訳) 3色場による光電離連続体に結合したキラル分子のパラメータ空間における例外点(eps)の位置は、エナンチオ感受性であることを示す。
3色場によって駆動される3レベル系の最小モデルを用いて環状ループ遷移を形成することにより、システムパラメータに対するepsのエナンチオ感受性を検証し、エナンチオ選択性のあるパラメータ空間におけるepの包囲に伴う非対称スイッチ機構を利用する。
我々の研究は、キラル系におけるエナンチオセンシティブEPの将来の応用の道を開く。 We show that the position of the exceptional points (EPs) in the parameter space of a chiral molecule coupled to the photoionization continuum by a three-color field is enantiosensitive. Using a minimal model of a three-level system driven by a three-color field to form a cyclic loop transition, we investigate the enantiosensitivity of the EPs with respect to the system parameters and exploit the asymmetric switch mechanism associated with the encirclement of an EP in parameter space in an enantio-selective way. Our work paves the way for future applications of enantiosensitive EPs in chiral systems. | 翻訳日:2023-07-11 21:47:07 公開日:2023-07-10 |
# ChatGPTはベトナム国立高校卒業試験に合格できるのか? Can ChatGPT pass the Vietnamese National High School Graduation Examination? ( http://arxiv.org/abs/2306.09170v3 ) ライセンス: Link先を確認 | Xuan-Quy Dao and Ngoc-Bich Le and Xuan-Dung Phan and Bac-Bien Ngo | (参考訳) 本稿では,教育におけるAIを活用したチャットボットの可能性を強調し,ベトナム国立高校卒業試験(VNHSGE)を修了するために,大規模言語モデルChatGPTを用いた結果を示す。
研究データセットには、文献テストケースの30のエッセイと、他の被験者向けに設計された1,700のマルチチョイス質問が含まれていた。
その結果、chatgptは平均スコア6-7で試験に合格し、教育環境に革命をもたらす技術の可能性を示した。
ChatGPTのパフォーマンスの分析は、数学、英語、物理学、化学、生物学、歴史、地理、市民教育、文学など、様々な分野においてその習熟度を明らかにしており、学習者に効果的な支援を提供する可能性を示唆している。
しかし,より複雑な受験質問に対するchatgptの性能評価や,異なる文脈の学習者を支援する可能性について,さらなる研究が必要である。
テクノロジーが進化し、改善していくにつれ、ChatGPTのようなAIツールが教育現場でますます普及し、最終的には学生と教育者の教育体験が向上することを期待している。 This research article highlights the potential of AI-powered chatbots in education and presents the results of using ChatGPT, a large language model, to complete the Vietnamese National High School Graduation Examination (VNHSGE). The study dataset included 30 essays in the literature test case and 1,700 multiple-choice questions designed for other subjects. The results showed that ChatGPT was able to pass the examination with an average score of 6-7, demonstrating the technology's potential to revolutionize the educational landscape. The analysis of ChatGPT performance revealed its proficiency in a range of subjects, including mathematics, English, physics, chemistry, biology, history, geography, civic education, and literature, which suggests its potential to provide effective support for learners. However, further research is needed to assess ChatGPT performance on more complex exam questions and its potential to support learners in different contexts. As technology continues to evolve and improve, we can expect to see the use of AI tools like ChatGPT become increasingly common in educational settings, ultimately enhancing the educational experience for both students and educators. | 翻訳日:2023-07-11 21:46:09 公開日:2023-07-10 |
# データ駆動型5g予測遅延:ネットワーク計測を用いた理論的および実験的解析 Data-driven Predictive Latency for 5G: A Theoretical and Experimental Analysis Using Network Measurements ( http://arxiv.org/abs/2307.02329v2 ) ライセンス: Link先を確認 | Marco Skocaj, Francesca Conserva, Nicol Sarcone Grande, Andrea Orsi, Davide Micheli, Giorgio Ghinamo, Simone Bizzarri and Roberto Verdone | (参考訳) バインディングレイテンシ要件と保証されたQuality of Service(QoS)を備えた,新たな5Gサービスとアプリケーションの出現により,ネットワーク管理手順に自律的かつ積極的な意思決定を組み込む必要性が高まった。
本研究の目的は,モバイルネットワークオペレータ(MNO)にアクセス可能な実世界のネットワークデータを利用することで,5Gネットワーク内の予測遅延を徹底的に解析することである。
特に
(i)低指数分布としてのユーザ・プレーン・レイテンシの解析的定式化について,経験的測定との比較分析により検証する。
(II)ベイズ学習(BL)や機械学習・オン・グラフ(GML)といった機械学習(ML)の新興領域を利用した確率的回帰、異常検出、予測予測の実験結果を実行する。
我々は,車両移動,密集した都市交通,社会集団イベントのシナリオから収集したデータを用いて予測フレームワークをテストする。
本研究は,予測アルゴリズムの実用的有用性に関する貴重な知見を提供する。 The advent of novel 5G services and applications with binding latency requirements and guaranteed Quality of Service (QoS) hastened the need to incorporate autonomous and proactive decision-making in network management procedures. The objective of our study is to provide a thorough analysis of predictive latency within 5G networks by utilizing real-world network data that is accessible to mobile network operators (MNOs). In particular, (i) we present an analytical formulation of the user-plane latency as a Hypoexponential distribution, which is validated by means of a comparative analysis with empirical measurements, and (ii) we conduct experimental results of probabilistic regression, anomaly detection, and predictive forecasting leveraging on emerging domains in Machine Learning (ML), such as Bayesian Learning (BL) and Machine Learning on Graphs (GML). We test our predictive framework using data gathered from scenarios of vehicular mobility, dense-urban traffic, and social gathering events. Our results provide valuable insights into the efficacy of predictive algorithms in practical applications. | 翻訳日:2023-07-11 21:38:44 公開日:2023-07-10 |
# ChiENN: グラフニューラルネットワークによる分子キラリティの実現 ChiENN: Embracing Molecular Chirality with Graph Neural Networks ( http://arxiv.org/abs/2307.02198v2 ) ライセンス: Link先を確認 | Piotr Gai\'nski, Micha{\l} Koziarski, Jacek Tabor, Marek \'Smieja | (参考訳) グラフニューラルネットワーク(GNN)は多くのディープラーニング問題、特に化学情報学において基本的な役割を果たす。
しかし、典型的なgnnはキラリティーの概念を捉えられないため、化学化合物の3dグラフとその鏡像(エナンチオマー)を区別できない。
エナンチオマーを区別する能力は、エナンチオマーが非常に異なる生化学的性質を持つ可能性があるため、創薬において特に重要である。
本稿では,GNNをノード近傍の順序に敏感にする,理論的に正当化されたメッセージパス方式を提案する。
分子キラリティの文脈において、この一般的な概念を適用し、任意のGNNモデルに付加してキラリティ認識を可能にするキラリティエッジニューラルネットワーク(ChiENN)層を構築する。
GNNにChiENN層を追加することで、キラル感受性分子特性予測タスクにおける最先端の手法よりも優れた性能を示すことを示す。 Graph Neural Networks (GNNs) play a fundamental role in many deep learning problems, in particular in cheminformatics. However, typical GNNs cannot capture the concept of chirality, which means they do not distinguish between the 3D graph of a chemical compound and its mirror image (enantiomer). The ability to distinguish between enantiomers is important especially in drug discovery because enantiomers can have very distinct biochemical properties. In this paper, we propose a theoretically justified message-passing scheme, which makes GNNs sensitive to the order of node neighbors. We apply that general concept in the context of molecular chirality to construct Chiral Edge Neural Network (ChiENN) layer which can be appended to any GNN model to enable chirality-awareness. Our experiments show that adding ChiENN layers to a GNN outperforms current state-of-the-art methods in chiral-sensitive molecular property prediction tasks. | 翻訳日:2023-07-11 21:38:08 公開日:2023-07-10 |
# 空間構造ベクトル光場におけるトラップ原子 Trapped atoms in spatially-structured vector light fields ( http://arxiv.org/abs/2306.17571v2 ) ライセンス: Link先を確認 | Maurizio Verde, Christian T. Schmiegelow, Ulrich Poschinger and Ferdinand Schmidt-Kaler | (参考訳) 最終的に軌道角運動量を持つ空間構造レーザービームは、複雑な方法で原子とその運動状態の電子遷移に影響を与える。
本稿では,任意の空間モードと偏光構造の光場に対する原子遷移行列要素を計算するために,相互作用ハミルトニアンの球面テンソル分解に基づく一般的な枠組みを提案する。
本研究では, 原子中心運動に結合しない遷移に対応する素電子行列要素と, 分解した側バンド状態における量子化原子運動との結合を記述する行列要素について検討した。
強集束Hermite-Gaussian,Laguerre-Gaussianおよび放射・方位偏光ビームに対する電子および運動行列要素の空間依存性を計算した。
回折限界付近では、これらのビームは長手方向の磁場と磁場勾配を示し、選択規則に強く影響を与え、光間相互作用を調整できることを示した。
このフレームワークは、空間構造を持つ光場における閉じ込められた原子やイオンを記述するのに有用であり、量子光学、-センシング、-情報処理における新しいプロトコルや設定を設計するのに有用である。 Spatially-structured laser beams, eventually carrying orbital angular momentum, affect electronic transitions of atoms and their motional states in a complex way. We present a general framework, based on the spherical tensor decomposition of the interaction Hamiltonian, for computing atomic transition matrix elements for light fields of arbitrary spatial mode and polarization structures. We study both the bare electronic matrix elements, corresponding to transitions with no coupling to the atomic center-of-mass motion, as well as the matrix elements describing the coupling to the quantized atomic motion in the resolved side-band regime. We calculate the spatial dependence of electronic and motional matrix elements for tightly focused Hermite-Gaussian, Laguerre-Gaussian and for radially and azimuthally polarized beams. We show that near the diffraction limit, all these beams exhibit longitudinal fields and field gradients, which strongly affect the selection rules and could be used to tailor the light-matter interaction. The presented framework is useful for describing trapped atoms or ions in spatially-structured light fields and therefore for designing new protocols and setups in quantum optics, -sensing and -information processing. | 翻訳日:2023-07-11 21:36:37 公開日:2023-07-10 |
# 連続イベントデータに対するニューラル時間点過程モデルの予測精度について On the Predictive Accuracy of Neural Temporal Point Process Models for Continuous-time Event Data ( http://arxiv.org/abs/2306.17066v2 ) ライセンス: Link先を確認 | Tanguy Bosser and Souhaib Ben Taieb | (参考訳) time point process (tpps) は、非同期イベントシーケンスを連続時間にモデリングするための標準的な数学的フレームワークである。
しかし、古典的なTPPモデルは、しばしば強い仮定によって制約され、複雑な現実世界のイベントダイナミクスを捉える能力を制限する。
この制限を克服するために、研究者はニューラルネットワークパラメトリゼーションを利用してより柔軟で効率的なモデリングを提供するニューラルtppを提案した。
最近の研究は、Neural TPPの有効性を実証しているが、異なるベースライン、データセット、実験的な構成に依存して、統合されたセットアップを欠いていることが多い。
これにより、予測精度の改善を促す重要な要因を特定し、研究の進歩を妨げることが困難になる。
このギャップを埋めるために,最先端ニューラルtppモデルの予測精度を体系的に評価する大規模実験を行った。
本研究は,複数の実世界および合成イベントシーケンスデータセットを包含する。
イベントエンコーディング,履歴エンコーダ,デコーダパラメータ化といった主要なアーキテクチャコンポーネントが時間およびマーク予測タスクに与える影響を徹底的に検討する。
さらに,神経tppモデルの確率的キャリブレーションの難解な領域について検討した。
この結果から,歴史の規模と建築要素が予測精度に与える影響について,洞察に富んだ結論を導いた。
さらに,ニューラルTPPモデルにおけるマーク分布の誤校正にも光を当てた。
本研究の目的は,ニューラルTPPモデルの性能と特性に関する貴重な知見を提供することであり,その強みと限界をよりよく理解することにある。 Temporal Point Processes (TPPs) serve as the standard mathematical framework for modeling asynchronous event sequences in continuous time. However, classical TPP models are often constrained by strong assumptions, limiting their ability to capture complex real-world event dynamics. To overcome this limitation, researchers have proposed Neural TPPs, which leverage neural network parametrizations to offer more flexible and efficient modeling. While recent studies demonstrate the effectiveness of Neural TPPs, they often lack a unified setup, relying on different baselines, datasets, and experimental configurations. This makes it challenging to identify the key factors driving improvements in predictive accuracy, hindering research progress. To bridge this gap, we present a comprehensive large-scale experimental study that systematically evaluates the predictive accuracy of state-of-the-art neural TPP models. Our study encompasses multiple real-world and synthetic event sequence datasets, following a carefully designed unified setup. We thoroughly investigate the influence of major architectural components such as event encoding, history encoder, and decoder parametrization on both time and mark prediction tasks. Additionally, we delve into the less explored area of probabilistic calibration for neural TPP models. By analyzing our results, we draw insightful conclusions regarding the significance of history size and the impact of architectural components on predictive accuracy. Furthermore, we shed light on the miscalibration of mark distributions in neural TPP models. Our study aims to provide valuable insights into the performance and characteristics of neural TPP models, contributing to a better understanding of their strengths and limitations. | 翻訳日:2023-07-11 21:36:04 公開日:2023-07-10 |
# 視覚変換器に関する調査 A Survey on Visual Transformer ( http://arxiv.org/abs/2012.12556v6 ) ライセンス: Link先を確認 | Kai Han, Yunhe Wang, Hanting Chen, Xinghao Chen, Jianyuan Guo, Zhenhua Liu, Yehui Tang, An Xiao, Chunjing Xu, Yixing Xu, Zhaohui Yang, Yiman Zhang, Dacheng Tao | (参考訳) Transformerは、自然言語処理の分野に最初に適用され、主に自己認識機構に基づくディープニューラルネットワークの一種である。
強力な表現能力のおかげで、研究者はコンピュータビジョンタスクにトランスフォーマーを適用する方法を模索している。
様々な視覚的ベンチマークでは、トランスフォーマーベースのモデルは畳み込みニューラルネットワークやリカレントニューラルネットワークのような他のタイプのネットワークと同等かそれ以上の性能を発揮する。
高い性能と、視覚特有の帰納バイアスの必要性から、トランスフォーマーはコンピュータビジョンコミュニティからますます注目を集めている。
本稿では,これらの視覚トランスフォーマーモデルを異なるタスクに分類し,その利点と欠点を分析して検討する。
私たちが調査する主なカテゴリは、バックボーンネットワーク、高/中レベルのビジョン、低レベルのビジョン、ビデオ処理です。
また、トランスフォーマーを実際のデバイスベースアプリケーションへプッシュする効率的なトランスフォーマー手法も含んでいる。
さらに,トランスフォーマのベースコンポーネントであるため,コンピュータビジョンにおける自己着脱機構についても簡単に検討する。
本稿では,この課題について論じ,視覚変換器のさらなる研究の方向性について述べる。 Transformer, first applied to the field of natural language processing, is a type of deep neural network mainly based on the self-attention mechanism. Thanks to its strong representation capabilities, researchers are looking at ways to apply transformer to computer vision tasks. In a variety of visual benchmarks, transformer-based models perform similar to or better than other types of networks such as convolutional and recurrent neural networks. Given its high performance and less need for vision-specific inductive bias, transformer is receiving more and more attention from the computer vision community. In this paper, we review these vision transformer models by categorizing them in different tasks and analyzing their advantages and disadvantages. The main categories we explore include the backbone network, high/mid-level vision, low-level vision, and video processing. We also include efficient transformer methods for pushing transformer into real device-based applications. Furthermore, we also take a brief look at the self-attention mechanism in computer vision, as it is the base component in transformer. Toward the end of this paper, we discuss the challenges and provide several further research directions for vision transformers. | 翻訳日:2023-07-11 19:53:49 公開日:2023-07-10 |
# 深層学習を用いたセルオートマトン解釈へのアプローチ Approach to the cellular automaton interpretation with deep learning ( http://arxiv.org/abs/2012.06441v6 ) ライセンス: Link先を確認 | Hyunju Go | (参考訳) 本稿では,細胞オートマトン解釈(CAI)に基づいて基礎物理理論を学習する深層学習システムについて考察する。
まず、量子状態をセルオートマトン(CA)にマッピングし、与えられたシステムの時間進化則を知り、任意の初期CAの時間進化CAを計算することができると仮定すると、時間反転CAのために計算されたデータセットのみを用いて、このシステムの時間進化法則を学習できる畳み込みニューラルネットワーク(CNN)アーキテクチャが存在することを示す。
数学的には、ca規則を学習できるcnnアーキテクチャを見つけることは、時間発展作用素が時間に依存しない線型関数とrelu型非線形関数の有限合成として近似できることを示すことと等価である。
さらに、量子システムと深層学習アーキテクチャの対応について論じ、相互作用を考慮したリーマン面のモジュライ空間の概念と深層学習パラメータとの関連性について論じる。
最後に、量子重力の次元減少が最初に示されたCAモデルについて、ラベルなしでホログラフィック方向の非自明な進化法則を導出できるCNNアーキテクチャについて論じる。
この取り組みの限界はAdS/CFT対応によって改善できることが示唆された。 In this paper, we will consider the deep learning systems that can learn fundamental physics theory based on cellular automaton interpretation (CAI). First, assuming that we can map quantum states to cellular automaton (CA) and calculate the time-evolved CA for any initial CA by knowing the time-evolution law of the given system, we will show that there exists a convolutional neural network (CNN) architecture that can learn the time-evolution law of this system with only the calculated data set for a time-reversible CA. Mathematically, finding a CNN architecture that can learn CA rule is equivalent to showing that a time-evolution operator can be approximated as a finite composition of time-independent linear functions and ReLU type non-linear functions, as the possible associated generator of approximation may absorbs the information about the dynamics. Going one step further, we will discuss the correspondence between the quantum system and deep learning architecture and relate the concept of moduli space of Riemann surfaces to deep learning parameters when considering interactions. Finally, for the CA model in which the dimensional reduction in quantum gravity was first presented, we will discuss the CNN architecture that can find the non-trivial evolution law for holographic direction in a deductive way without the label. It is suggested that the limits to this effort can be improved through AdS/CFT correspondance. | 翻訳日:2023-07-11 19:53:32 公開日:2023-07-10 |
# 連続分率による外挿の学習:超伝導材料の臨界温度予測 Learning to extrapolate using continued fractions: Predicting the critical temperature of superconductor materials ( http://arxiv.org/abs/2012.03774v3 ) ライセンス: Link先を確認 | Pablo Moscato, Mohammad Nazmul Haque, Kevin Huang, Julia Sloan, Jon C. de Oliveira | (参考訳) 人工知能(ai)と機械学習(ml)の分野において、未知のターゲット関数の近似は、限定インスタンス $s={(\mathbf{x^{}) を用いて $y=f(\mathbf{x})$ である。
(i)}},y^{
ここで$\mathbf{x^{} である。
(i)}} \in D$ および $D$ は関心領域を表し、共通の目的である。
私たちは$s$をトレーニングセットと呼び、新しいインスタンスのターゲット関数である$\mathbf{x}$を効果的に近似できる低複素数モデルを特定することを目的としています。
従って、モデルの一般化能力は、別の集合 $T=\{\mathbf{x^{ で評価される。
(j)}}\} \subset d$, ここで $t \neq s$ はしばしば $t \cap s = \emptyset$ でトレーニングセット以上のパフォーマンスを評価する。
しかし、特定のアプリケーションは、元のドメイン $d$ 内だけでなく、$d$ を含む拡張ドメイン $d'$ 内でも正確な近似を必要とする。
これは、近似における誤差の最小化が重要となる新しい構造の設計を含むシナリオにおいて特に重要となる。
例えば、データ駆動アプローチを通じて新しい材料を開発する場合、AI/MLシステムは、サロゲート機能として機能することによって設計プロセスのガイドに有用な洞察を提供することができる。
その結果、新しい実験実験の設計を容易にするために学習モデルを用いることができる。
本稿では,連続分数の反復フィッティングに基づく多変量回帰法を提案し,加法的スプラインモデルを適用した。
AdaBoost, Kernel Ridge, Linear Regression, Lasso Lars, Linear Support Vector Regression, Multi-Layer Perceptrons, Random Forests, Stochastic Gradient Descent, XGBoost など,既存の手法と比較した。
これらの方法を評価するために, 超伝導体の物理化学的特性に基づく臨界温度の予測という分野における重要な問題に着目する。 In the field of Artificial Intelligence (AI) and Machine Learning (ML), the approximation of unknown target functions $y=f(\mathbf{x})$ using limited instances $S={(\mathbf{x^{(i)}},y^{(i)})}$, where $\mathbf{x^{(i)}} \in D$ and $D$ represents the domain of interest, is a common objective. We refer to $S$ as the training set and aim to identify a low-complexity mathematical model that can effectively approximate this target function for new instances $\mathbf{x}$. Consequently, the model's generalization ability is evaluated on a separate set $T=\{\mathbf{x^{(j)}}\} \subset D$, where $T \neq S$, frequently with $T \cap S = \emptyset$, to assess its performance beyond the training set. However, certain applications require accurate approximation not only within the original domain $D$ but also in an extended domain $D'$ that encompasses $D$. This becomes particularly relevant in scenarios involving the design of new structures, where minimizing errors in approximations is crucial. For example, when developing new materials through data-driven approaches, the AI/ML system can provide valuable insights to guide the design process by serving as a surrogate function. Consequently, the learned model can be employed to facilitate the design of new laboratory experiments. In this paper, we propose a method for multivariate regression based on iterative fitting of a continued fraction, incorporating additive spline models. We compare the performance of our method with established techniques, including AdaBoost, Kernel Ridge, Linear Regression, Lasso Lars, Linear Support Vector Regression, Multi-Layer Perceptrons, Random Forests, Stochastic Gradient Descent, and XGBoost. To evaluate these methods, we focus on an important problem in the field: predicting the critical temperature of superconductors based on physical-chemical characteristics. | 翻訳日:2023-07-11 19:53:05 公開日:2023-07-10 |
# 構造化バンディットの最適学習 Optimal Learning for Structured Bandits ( http://arxiv.org/abs/2007.07302v3 ) ライセンス: Link先を確認 | Bart P.G. Van Parys, Negin Golrezaei | (参考訳) 本研究では,構造情報の存在下での不確実性下におけるオンライン意思決定の問題である構造化マルチアームバンディットについて検討する。
この問題では、意思決定者は、不確定な報酬だけを観察しながらも、最善の行動経路を見つける必要がある。
意思決定者は、報酬分布に関する特定の凸構造情報、すなわち、意思決定者は、腕の報酬分布が凸コンパクト集合に属することを知ることができる。
このような構造的な情報が存在する場合、彼らはこの情報を利用して後悔を最小限に抑えることを望み、後悔は、事前の最良のアクションを知っているベンチマークポリシーに対するパフォーマンスの差である。
構造情報がない場合、古典的な上層信頼境界(UCB)とトムソンサンプリングアルゴリズムは、最小限の後悔に苦しむことが知られている。
しかし、最近指摘されたように、どちらのアルゴリズムも実際には一般に利用可能な構造情報を利用することができない。
本稿では,情報理論的後悔を一定要素に抑えながら幅広い構造情報を扱える「DUSA」という新しい学習アルゴリズムを提案する。
我々のアルゴリズムであるdusaは,経験的報酬分布における後悔の下限の二重対を解き,その遊びを追従する。
この概念は,線形,リプシッツ,凸バンディットなどのよく知られた構造化バンディットや,統一的で柔軟な枠組みの欠如により文献で研究されていない新しい構造化バンディットなど,様々な構造情報に対して漸近的に最小限の後悔を伴って,初めて計算可能な学習方針をもたらすことを示す。 We study structured multi-armed bandits, which is the problem of online decision-making under uncertainty in the presence of structural information. In this problem, the decision-maker needs to discover the best course of action despite observing only uncertain rewards over time. The decision-maker is aware of certain convex structural information regarding the reward distributions; that is, the decision-maker knows the reward distributions of the arms belong to a convex compact set. In the presence such structural information, they then would like to minimize their regret by exploiting this information, where the regret is its performance difference against a benchmark policy that knows the best action ahead of time. In the absence of structural information, the classical upper confidence bound (UCB) and Thomson sampling algorithms are well known to suffer minimal regret. As recently pointed out, neither algorithms are, however, capable of exploiting structural information that is commonly available in practice. We propose a novel learning algorithm that we call "DUSA" whose regret matches the information-theoretic regret lower bound up to a constant factor and can handle a wide range of structural information. Our algorithm DUSA solves a dual counterpart of the regret lower bound at the empirical reward distribution and follows its suggested play. We show that this idea leads to the first computationally viable learning policy with asymptotic minimal regret for various structural information, including well-known structured bandits such as linear, Lipschitz, and convex bandits, and novel structured bandits that have not been studied in the literature due to the lack of a unified and flexible framework. | 翻訳日:2023-07-11 19:52:23 公開日:2023-07-10 |
# 質的なソフトウェア工学の研究-リフレクションとガイドライン Qualitative software engineering research -- reflections and guidelines ( http://arxiv.org/abs/1712.08341v3 ) ライセンス: Link先を確認 | Per Lenberg, Robert Feldt, Lucas Gren, Lars G\"oran Wallgren Tengberg, Inga Tidefors, Daniel Graziotin | (参考訳) 研究者は、ソフトウェア開発における人間的側面の重要性をますます認識している。
定性的手法は人間の行動の詳細な探索に使用されるため、そのような手法を用いた研究がより一般的になると考えている。
既存の定性的なソフトウェアエンジニアリングガイドラインは、定性的な手法と社会科学のような使い方に関する知識を網羅していない。
本研究の目的は、利用可能な質的手法とその品質保証フレームワークに関するソフトウェア工学コミュニティの現在の知識体系を拡張し、その使用のための勧告とガイドラインを提供することである。
認識論的議論と文献調査の支援により,(1)より広範な研究方法の活用,(2)反射性を強く強調すること,(3)質的ガイドラインと品質基準の活用により,今後の研究が有益であることが示唆された。
本稿では,社会科学において一般的に用いられる3つの質的手法,すなわち解釈的現象分析,物語分析,談話分析について概説する。
さらに,ソフトウェア工学の文脈における反射性の意味について考察し,その育成方法を提案する。
我々の論文は、ソフトウェア工学研究者がより幅広い定性的な研究手法の応用を選定し、ガイドするのに役立つだろう。 Researchers are increasingly recognizing the importance of human aspects in software development. Since qualitative methods are used to explore human behavior in-depth, we believe that studies using such methods will become more common. Existing qualitative software engineering guidelines do not cover the full breadth of qualitative methods and the knowledge on how to use them like in social sciences. The purpose of this study was to extend the software engineering community's current body of knowledge regarding available qualitative methods and their quality assurance frameworks, and to provide recommendations and guidelines for their use. With the support of an epistemological argument and a survey of the literature, we suggest that future research would benefit from (1) utilizing a broader set of research methods, (2) more strongly emphasizing reflexivity, and (3) employing qualitative guidelines and quality criteria. We present an overview of three qualitative methods commonly used in social sciences but rarely seen in software engineering research, namely interpretative phenomenological analysis, narrative analysis, and discourse analysis. Furthermore, we discuss the meaning of reflexivity in relation to the software engineering context and suggest means of fostering it. Our paper will help software engineering researchers better select and then guide the application of a broader set of qualitative research methods. | 翻訳日:2023-07-11 19:51:22 公開日:2023-07-10 |
# グループ制約付きコンテキスト組合せ多出力GP帯域 Contextual Combinatorial Multi-output GP Bandits with Group Constraints ( http://arxiv.org/abs/2111.14778v2 ) ライセンス: Link先を確認 | Sepehr Elahi, Baran Atalar, Sevda \"O\u{g}\"ut, Cem Tekin | (参考訳) フェデレーテッド・マルチアームド・バンディット問題では、クライアントを保護するために最小限のプライバシー要件を満たしながら、グローバルな報酬を最大化することが主な目標である。
このような問題を定式化するために、グループとアクションセットの変更による組合せ的文脈的バンディットの設定を考える。そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、ベースアームが選択されたグループの報酬の制約を満たすとともに、スーパーアーム報酬を最大化する。
柔軟性を高めるために、各ベースアームは2出力ガウス過程(GP)の出力としてモデル化され、1つの結果がスーパーアーム報酬の計算に使われ、もう1つの結果がグループ報酬の計算に使用される。
次に、累積スーパーアーム報酬の最大化とグループ報酬制約の充足のバランスを保ち、他方よりも優先するように調整できる、Thresholded Combinatorial Gaussian Process Upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
TCGP-UCB が $\tilde{O}(\sqrt{\lambda^*(K)KT\overline{\gamma}_{T}} )$ regret with high probability, ここで $\overline{\gamma}_{T}$ は、最初の$T$ラウンドで出現したベースアームコンテキストの集合に関連する最大情報ゲインであり、$K$ は全ラウンドにおける最大スーパーアーム定数であることを示す。
最後に,合成および実世界のデータを用いた実験を行い,グループ制約を満たしながら,現在の非gp型コンビネータ型バンディットアルゴリズムよりも優れた結果が得られるような,コンテント・レコンメンデーション設定に基づく。 In federated multi-armed bandit problems, maximizing global reward while satisfying minimum privacy requirements to protect clients is the main goal. To formulate such problems, we consider a combinatorial contextual bandit setting with groups and changing action sets, where similar base arms arrive in groups and a set of base arms, called a super arm, must be chosen in each round to maximize super arm reward while satisfying the constraints of the rewards of groups from which base arms were chosen. To allow for greater flexibility, we let each base arm have two outcomes, modeled as the output of a two-output Gaussian process (GP), where one outcome is used to compute super arm reward and the other for group reward. We then propose a novel double-UCB GP-bandit algorithm, called Thresholded Combinatorial Gaussian Process Upper Confidence Bounds (TCGP-UCB), which balances between maximizing cumulative super arm reward and satisfying group reward constraints and can be tuned to prefer one over the other. We also define a new notion of regret that combines super arm regret with group reward constraint satisfaction and prove that TCGP-UCB incurs $\tilde{O}(\sqrt{\lambda^*(K)KT\overline{\gamma}_{T}} )$ regret with high probability, where $\overline{\gamma}_{T}$ is the maximum information gain associated with the set of base arm contexts that appeared in the first $T$ rounds and $K$ is the maximum super arm cardinality over all rounds. We lastly show in experiments using synthetic and real-world data and based on a federated learning setup as well as a content-recommendation one that our algorithm performs better then the current non-GP state-of-the-art combinatorial bandit algorithm, while satisfying group constraints. | 翻訳日:2023-07-11 19:44:40 公開日:2023-07-10 |
# GFlowNetの基礎 GFlowNet Foundations ( http://arxiv.org/abs/2111.09266v4 ) ライセンス: Link先を確認 | Yoshua Bengio, Salem Lahlou, Tristan Deleu, Edward J. Hu, Mo Tiwari and Emmanuel Bengio | (参考訳) Generative Flow Networks (GFlowNets) は、与えられた報酬関数に比例したおよそサンプルをトレーニング目的として、アクティブな学習コンテキストにおける多様な候補セットをサンプリングする手法として導入された。
本稿では,gflownets のさらなる理論的性質について述べる。
これらは、ある変数が不特定であり、特に興味があるのは、集合やグラフのような複合オブジェクト上の分布を表現することができる、合同確率分布と対応する辺分布の推定に使うことができる。
GFlowNetsは、計算コストのかかるMCMCメソッドによって、単一のが訓練された生成パスで実行される作業を記憶している。
また、分割関数や自由エネルギー、部分集合(サブグラフ)が与えられたスーパー集合(スーパーグラフ)の条件付き確率、与えられた集合(グラフ)のすべてのスーパー集合(スーパーグラフ)上の限界分布の推定にも使うことができる。
本稿では,エントロピーと相互情報の推定を可能にするバリエーション,パレートフロンティアからのサンプリング,報酬最大化政策への接続,確率環境への拡張,連続作用,モジュラーエネルギー関数などを紹介する。 Generative Flow Networks (GFlowNets) have been introduced as a method to sample a diverse set of candidates in an active learning context, with a training objective that makes them approximately sample in proportion to a given reward function. In this paper, we show a number of additional theoretical properties of GFlowNets. They can be used to estimate joint probability distributions and the corresponding marginal distributions where some variables are unspecified and, of particular interest, can represent distributions over composite objects like sets and graphs. GFlowNets amortize the work typically done by computationally expensive MCMC methods in a single but trained generative pass. They could also be used to estimate partition functions and free energies, conditional probabilities of supersets (supergraphs) given a subset (subgraph), as well as marginal distributions over all supersets (supergraphs) of a given set (graph). We introduce variations enabling the estimation of entropy and mutual information, sampling from a Pareto frontier, connections to reward-maximizing policies, and extensions to stochastic environments, continuous actions and modular energy functions. | 翻訳日:2023-07-11 19:43:33 公開日:2023-07-10 |
# 表面コードのためのスケーラブルで高速な人工ニューラルネットワーク症候群デコーダ A scalable and fast artificial neural network syndrome decoder for surface codes ( http://arxiv.org/abs/2110.05854v5 ) ライセンス: Link先を確認 | Spiro Gicev, Lloyd C. L. Hollenberg, Muhammad Usman | (参考訳) surface code error correctionは、スケーラブルなフォールトトレラント量子コンピューティングを実現する、非常に有望な経路を提供する。
安定化器符号として動作する場合、表面符号計算は、物理量子ビットにおける誤差の適切な修正を決定するために測定された安定化器演算子を使用するシンドローム復号ステップからなる。
復号アルゴリズムは、機械学習(ML)技術を取り入れた最近の研究によって、かなり発展してきた。
MLベースのシンドロームデコーダは、有望な初期結果にもかかわらず、低レイテンシで小さなデモに制限されており、境界条件や格子の手術や編曲に必要な様々な形状で表面コードを扱うことができない。
本稿では,任意の形状と大きさの表面符号をデポーラライズ誤差モデルに苦しむデータキュービットでデコードできる,スケーラブルで高速なニューラルネットワーク(ann)ベースのデコーダの開発について報告する。
ANNデコーダは、5000万以上のランダムな量子エラーインスタンスの厳格なトレーニングに基づいて、これまでで最大のMLベースのデコーダデモである1000以上のコード距離(400万以上の物理量子ビット)で動作することを示した。
確立されたANNデコーダは、基本的にコード距離に依存しない実行時間を示しており、専用ハードウェアに実装することでO($\mu$sec)の表面コードデコードが可能であり、実験的に実現可能なキュービットコヒーレンス時間と相容れないことを示唆している。
今後10年以内に量子プロセッサのスケールアップが期待される中、本研究で開発された高速でスケーラブルなシンドロームデコーダによる拡張は、フォールトトレラント量子情報処理の実験的実装に決定的な役割を果たすことが期待される。 Surface code error correction offers a highly promising pathway to achieve scalable fault-tolerant quantum computing. When operated as stabilizer codes, surface code computations consist of a syndrome decoding step where measured stabilizer operators are used to determine appropriate corrections for errors in physical qubits. Decoding algorithms have undergone substantial development, with recent work incorporating machine learning (ML) techniques. Despite promising initial results, the ML-based syndrome decoders are still limited to small scale demonstrations with low latency and are incapable of handling surface codes with boundary conditions and various shapes needed for lattice surgery and braiding. Here, we report the development of an artificial neural network (ANN) based scalable and fast syndrome decoder capable of decoding surface codes of arbitrary shape and size with data qubits suffering from the depolarizing error model. Based on rigorous training over 50 million random quantum error instances, our ANN decoder is shown to work with code distances exceeding 1000 (more than 4 million physical qubits), which is the largest ML-based decoder demonstration to-date. The established ANN decoder demonstrates an execution time in principle independent of code distance, implying that its implementation on dedicated hardware could potentially offer surface code decoding times of O($\mu$sec), commensurate with the experimentally realisable qubit coherence times. With the anticipated scale-up of quantum processors within the next decade, their augmentation with a fast and scalable syndrome decoder such as developed in our work is expected to play a decisive role towards experimental implementation of fault-tolerant quantum information processing. | 翻訳日:2023-07-11 19:42:55 公開日:2023-07-10 |
# DORA: ディープニューラルネットワークにおける外部表現の探索 DORA: Exploring Outlier Representations in Deep Neural Networks ( http://arxiv.org/abs/2206.04530v4 ) ライセンス: Link先を確認 | Kirill Bykov, Mayukh Deb, Dennis Grinwald, Klaus-Robert M\"uller, Marina M.-C. H\"ohne | (参考訳) ディープニューラルネットワーク(DNN)は、内部表現における複雑な抽象化の学習に優れています。
しかし、それらが学習する概念はいまだ不透明であり、モデルが意図せずに急激な相関を学習すると特に問題となる。
本研究では、DNNの表現空間を解析する最初のデータ認識フレームワークであるDORA(Data-agnOstic Representation Analysis)を提案する。
フレームワークの中心に提案されている Extreme-Activation (EA) 距離測定は、最も高いアクティベーションレベルを引き起こすデータポイント上のアクティベーションパターンを分析して、表現間の類似性を評価するものである。
ウォーターマークやアーティファクトなどの所望のタスクに異常なデータの特徴に散発的な相関がしばしば現れるため、このようなアーティファクト概念を検出可能な内部表現は、神経表現内の関係を解析することによって発見できることを実証する。
EAのメトリクスを定量的に検証し、制御されたシナリオと実世界のアプリケーションの両方でその効果を実証する。
最後に、一般的なコンピュータビジョンモデルから実例を示し、EAメトリックを用いた表現がしばしば望ましくない、刺激的な概念に対応することを示す。 Deep Neural Networks (DNNs) excel at learning complex abstractions within their internal representations. However, the concepts they learn remain opaque, a problem that becomes particularly acute when models unintentionally learn spurious correlations. In this work, we present DORA (Data-agnOstic Representation Analysis), the first data-agnostic framework for analyzing the representational space of DNNs. Central to our framework is the proposed Extreme-Activation (EA) distance measure, which assesses similarities between representations by analyzing their activation patterns on data points that cause the highest level of activation. As spurious correlations often manifest in features of data that are anomalous to the desired task, such as watermarks or artifacts, we demonstrate that internal representations capable of detecting such artifactual concepts can be found by analyzing relationships within neural representations. We validate the EA metric quantitatively, demonstrating its effectiveness both in controlled scenarios and real-world applications. Finally, we provide practical examples from popular Computer Vision models to illustrate that representations identified as outliers using the EA metric often correspond to undesired and spurious concepts. | 翻訳日:2023-07-11 19:36:33 公開日:2023-07-10 |
# PDEに基づくシンメトリ2アームベルヌーイ帯域の解析 A PDE-Based Analysis of the Symmetric Two-Armed Bernoulli Bandit ( http://arxiv.org/abs/2202.05767v4 ) ライセンス: Link先を確認 | Vladimir A. Kobzar, Robert V. Kohn | (参考訳) この研究は、腕の平均の和が 1 である二本腕ベルヌーイ・バンディット問題(対称二本腕ベルヌーイ・バンディット)のバージョンに対処する。
これらの手段間のギャップがゼロに近づき、予測周期の数が無限大に近づき、線形熱方程式の解とそれらのそれぞれを関連付けることにより、この問題に対する最小最適後悔と擬似回帰の先頭の項を得る。
これまでに知られていた結果の改善、具体的には、このギャップの3つの異なるスケーリング体制において、これらの先行順序項を明示的に計算する。
さらに、任意の時間軸に対して新しい非漸近境界を得る。 This work addresses a version of the two-armed Bernoulli bandit problem where the sum of the means of the arms is one (the symmetric two-armed Bernoulli bandit). In a regime where the gap between these means goes to zero and the number of prediction periods approaches infinity, we obtain the leading order terms of the minmax optimal regret and pseudoregret for this problem by associating each of them with a solution of a linear heat equation. Our results improve upon the previously known results; specifically, we explicitly compute these leading order terms in three different scaling regimes for the gap. Additionally, we obtain new non-asymptotic bounds for any given time horizon. | 翻訳日:2023-07-11 19:33:41 公開日:2023-07-10 |
# テンソル分解による一貫した協調フィルタリング Consistent Collaborative Filtering via Tensor Decomposition ( http://arxiv.org/abs/2201.11936v3 ) ライセンス: Link先を確認 | Shiwen Zhao, Charles Crissman, Guillermo R Sapiro | (参考訳) コラボレーティブフィルタリングは、ユーザのアクティビティを分析し、アイテムのレコメンデーションシステムを構築するためのデファクトスタンダードである。
本研究では,暗黙的フィードバックに基づく協調フィルタリングの新しいモデルであるsliced anti-symmetric decomposition (sad)を開発した。
ユーザ(ユーザベクター)とアイテム(テムベクター)の潜伏表現を推定する従来の手法とは対照的に、SADはユーザ-テムインタラクションの3方向テンソルビューを使用して、各項目に1つの潜伏ベクトルを導入する。
この新たなベクターは、標準ドット製品によって計算されたユーザ-項目の嗜好を一般的な内部製品に拡張し、相対的な嗜好を評価する際にアイテム間の相互作用を生成する。
sadはベクトルが1に崩壊したときの最先端(sota)協調フィルタリングモデルに還元するが、本論文ではその値をデータから推定する。
新しいアイテムベクトルの値が 1 と異なることを許すことは、重大な意味を持つ。
これは、アイテムを評価する際、ユーザは非線形なメンタルモデルを持つ可能性を示し、ペアで比較するサイクルの存在を可能にする。
我々は,100万以上のユーザ・イテムインタラクションを含むシミュレーションおよび実世界のデータセットにおいて,SADの効率を実証する。
7つのsotaコラボレーティブフィルタリングモデルと暗黙的なフィードバックを比較して、sadは最も一貫したパーソナライズされた好みを生成し、一方でパーソナライズドレコメンデーションにおける最高レベルの精度を維持する。
モデルと推論アルゴリズムをPythonライブラリ https://github.com/apple/ml-sad でリリースしています。 Collaborative filtering is the de facto standard for analyzing users' activities and building recommendation systems for items. In this work we develop Sliced Anti-symmetric Decomposition (SAD), a new model for collaborative filtering based on implicit feedback. In contrast to traditional techniques where a latent representation of users (user vectors) and items (item vectors) are estimated, SAD introduces one additional latent vector to each item, using a novel three-way tensor view of user-item interactions. This new vector extends user-item preferences calculated by standard dot products to general inner products, producing interactions between items when evaluating their relative preferences. SAD reduces to state-of-the-art (SOTA) collaborative filtering models when the vector collapses to 1, while in this paper we allow its value to be estimated from data. Allowing the values of the new item vector to be different from 1 has profound implications. It suggests users may have nonlinear mental models when evaluating items, allowing the existence of cycles in pairwise comparisons. We demonstrate the efficiency of SAD in both simulated and real world datasets containing over 1M user-item interactions. By comparing with seven SOTA collaborative filtering models with implicit feedbacks, SAD produces the most consistent personalized preferences, in the meanwhile maintaining top-level of accuracy in personalized recommendations. We release the model and inference algorithms in a Python library https://github.com/apple/ml-sad. | 翻訳日:2023-07-11 19:33:09 公開日:2023-07-10 |
# タスク計画のためのマルチメディア生成スクリプト学習 Multimedia Generative Script Learning for Task Planning ( http://arxiv.org/abs/2208.12306v3 ) ライセンス: Link先を確認 | Qingyun Wang, Manling Li, Hou Pong Chan, Lifu Huang, Julia Hockenmaier, Girish Chowdhary, Heng Ji | (参考訳) 目標指向生成型スクリプト学習(goal-oriented generative script learning)は、特定の目標を達成するための次のステップを生成することを目的としている。
このプロセスの重要な側面は、歴史的状態を視覚的に捉え、テキストでカバーされていない詳細な情報を提供し、その後のステップを案内する能力である。
そこで本研究では,テキストと視覚の両方の歴史的状態の追跡と,5,652のタスクと79,089のマルチメディアステップを含む第1のベンチマークを提示することにより,次のステップを生成するマルチメディア生成型スクリプト学習を提案する。
この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。
本稿では,マルチメディアの課題に対処するため,選択的マルチメディアエンコーダを用いて視覚状態変化を符号化し,検索拡張デコーダを用いて従来観察されていた課題から知識を伝達して誘導課題を克服し,多様性指向のコントラスト学習目標を最適化することにより,各ステップで異なる情報を示すことを提案する。
生成と帰納的品質の両方を評価するためのメトリクスを定義します。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。 Goal-oriented generative script learning aims to generate subsequent steps to reach a particular goal, which is an essential task to assist robots or humans in performing stereotypical activities. An important aspect of this process is the ability to capture historical states visually, which provides detailed information that is not covered by text and will guide subsequent steps. Therefore, we propose a new task, Multimedia Generative Script Learning, to generate subsequent steps by tracking historical states in both text and vision modalities, as well as presenting the first benchmark containing 5,652 tasks and 79,089 multimedia steps. This task is challenging in three aspects: the multimedia challenge of capturing the visual states in images, the induction challenge of performing unseen tasks, and the diversity challenge of covering different information in individual steps. We propose to encode visual state changes through a selective multimedia encoder to address the multimedia challenge, transfer knowledge from previously observed tasks using a retrieval-augmented decoder to overcome the induction challenge, and further present distinct information at each step by optimizing a diversity-oriented contrastive learning objective. We define metrics to evaluate both generation and inductive quality. Experiment results demonstrate that our approach significantly outperforms strong baselines. | 翻訳日:2023-07-11 19:25:22 公開日:2023-07-10 |
# アウト・オブ・ディストリビューションデータの価値 The Value of Out-of-Distribution Data ( http://arxiv.org/abs/2208.10967v4 ) ライセンス: Link先を確認 | Ashwin De Silva, Rahul Ramesh, Carey E. Priebe, Pratik Chaudhari, Joshua T. Vogelstein | (参考訳) 一般化誤差は、類似したタスクからより多くのサンプルで改善され、アウト・オブ・ディストリビューション(OOD)タスクからより多くのサンプルで悪化することが期待される。
本研究では,タスクの一般化誤差をoodサンプル数の非単調関数とする逆直観的現象を示す。
OODサンプルの数が増加するにつれて、目標タスクの一般化誤差は閾値を超えて劣化する前に改善される。
言い換えれば、少量のOODデータに対するトレーニングには価値があります。
mnist, cifar-10, cinic-10, pacs, domainnetなどのコンピュータビジョンベンチマークにおいて,合成データセットとディープネットワークに対するfisherの線形判別法を用いて,この現象の実証と解析を行う。
サンプルがOODであるかを知る理想主義的な環境では、対象の適切な重み付けとOOD経験的リスクを用いて、これらの非単調な傾向を活用できることが示される。
実用性は限られていますが,OODサンプルを検出できれば,そのメリットを享受する方法があるかも知れません。
どのサンプルがOODであるかわからない場合、データセット内のOODサンプル数でターゲットの一般化誤差が悪化しないように、データ拡張、ハイパーパラメータ最適化、事前トレーニングといった多くのゴート戦略が不十分であることを示す。 We expect the generalization error to improve with more samples from a similar task, and to deteriorate with more samples from an out-of-distribution (OOD) task. In this work, we show a counter-intuitive phenomenon: the generalization error of a task can be a non-monotonic function of the number of OOD samples. As the number of OOD samples increases, the generalization error on the target task improves before deteriorating beyond a threshold. In other words, there is value in training on small amounts of OOD data. We use Fisher's Linear Discriminant on synthetic datasets and deep networks on computer vision benchmarks such as MNIST, CIFAR-10, CINIC-10, PACS and DomainNet to demonstrate and analyze this phenomenon. In the idealistic setting where we know which samples are OOD, we show that these non-monotonic trends can be exploited using an appropriately weighted objective of the target and OOD empirical risk. While its practical utility is limited, this does suggest that if we can detect OOD samples, then there may be ways to benefit from them. When we do not know which samples are OOD, we show how a number of go-to strategies such as data-augmentation, hyper-parameter optimization, and pre-training are not enough to ensure that the target generalization error does not deteriorate with the number of OOD samples in the dataset. | 翻訳日:2023-07-11 19:25:00 公開日:2023-07-10 |
# 対向攻撃に対するベイズニューラルネットワークのロバスト性について On the Robustness of Bayesian Neural Networks to Adversarial Attacks ( http://arxiv.org/abs/2207.06154v2 ) ライセンス: Link先を確認 | Luca Bortolussi, Ginevra Carbone, Luca Laurenti, Andrea Patane, Guido Sanguinetti, Matthew Wicker | (参考訳) 敵攻撃に対する脆弱性は、安全クリティカルなアプリケーションでディープラーニングを採用する上で、大きなハードルのひとつです。
実践的かつ理論的な大きな努力にもかかわらず、敵対的攻撃に頑健なディープラーニングモデルをトレーニングすることは、いまだに未解決の問題である。
本稿では,ベイズニューラルネットワーク(BNN)の大規模・過パラメータ化限界における敵攻撃の幾何学的構造を解析する。
この限界において、データ分布の縮退(つまり、データが周囲空間の低次元部分多様体上にある場合)の結果、勾配に基づく攻撃に対する脆弱性が生じることを示す。
直接的な結果として,この制限下では,BNN後部は勾配に基づく攻撃に対して堅牢であることを示す。
また,bnn後方分布に対する損失の予測勾配は,後方からサンプリングされたニューラルネットワークが勾配に基づく攻撃に対して脆弱である場合においても消失することを示した。
MNIST、Fashion MNIST、および半衛星データセットに関する実験結果は、ハミルトン・モンテカルロと変分推論で訓練されたBNNによって、この一連の議論をサポートし、BNNは、勾配に基づく攻撃と勾配のない攻撃の両方に対して高い精度と堅牢性の両方を表示できることを示した。 Vulnerability to adversarial attacks is one of the principal hurdles to the adoption of deep learning in safety-critical applications. Despite significant efforts, both practical and theoretical, training deep learning models robust to adversarial attacks is still an open problem. In this paper, we analyse the geometry of adversarial attacks in the large-data, overparameterized limit for Bayesian Neural Networks (BNNs). We show that, in the limit, vulnerability to gradient-based attacks arises as a result of degeneracy in the data distribution, i.e., when the data lies on a lower-dimensional submanifold of the ambient space. As a direct consequence, we demonstrate that in this limit BNN posteriors are robust to gradient-based adversarial attacks. Crucially, we prove that the expected gradient of the loss with respect to the BNN posterior distribution is vanishing, even when each neural network sampled from the posterior is vulnerable to gradient-based attacks. Experimental results on the MNIST, Fashion MNIST, and half moons datasets, representing the finite data regime, with BNNs trained with Hamiltonian Monte Carlo and Variational Inference, support this line of arguments, showing that BNNs can display both high accuracy on clean data and robustness to both gradient-based and gradient-free based adversarial attacks. | 翻訳日:2023-07-11 19:23:29 公開日:2023-07-10 |
# Mars: タスク指向対話におけるコントラスト学習によるコンテキストと状態表現のモデル化 Mars: Modeling Context & State Representations with Contrastive Learning for End-to-End Task-Oriented Dialog ( http://arxiv.org/abs/2210.08917v2 ) ライセンス: Link先を確認 | Haipeng Sun, Junwei Bao, Youzheng Wu, Xiaodong He | (参考訳) 従来のエンドツーエンドのタスク指向ダイアログシステムは、ダイアログコンテキストをシステム応答を生成する前に、まず信念状態と行動状態に変換する。
システム応答性能は、信念状態と行動状態の品質に大きく影響される。
まず,対話コンテキスト表現が信念状態と行動状態の品質向上にどのような効果があるか検討し,それによって生成された応答品質がさらに向上することを示す。
我々は,対話コンテキストと信念/行動状態表現の関係をモデル化する2つの対比学習戦略を備えた,エンドツーエンドのタスク指向対話システムであるmarsを提案する。
経験的な結果から、意味的状態表現とより異なるダイアログのコンテキスト表現は、マルチターンタスク指向のダイアログよりも導出性が高い。
さらに,提案する火星は,MultiWOZ 2.0,CamRest676,CrossWOZの最先端性能を実現している。 Traditional end-to-end task-oriented dialog systems first convert dialog context into belief state and action state before generating the system response. The system response performance is significantly affected by the quality of the belief state and action state. We first explore what dialog context representation is beneficial to improving the quality of the belief state and action state, which further enhances the generated response quality. To tackle our exploration, we propose Mars, an end-to-end task-oriented dialog system with two contrastive learning strategies to model the relationship between dialog context and belief/action state representations. Empirical results show dialog context representations, which are more different from semantic state representations, are more conducive to multi-turn task-oriented dialog. Moreover, our proposed Mars achieves state-of-the-art performance on the MultiWOZ 2.0, CamRest676, and CrossWOZ. | 翻訳日:2023-07-11 19:14:36 公開日:2023-07-10 |
# 2次元画像のセグメンテーションを改善するための3d機能の軽量統合 Lightweight integration of 3D features to improve 2D image segmentation ( http://arxiv.org/abs/2212.08334v2 ) ライセンス: Link先を確認 | Olivier Pradelle and Raphaelle Chaine and David Wendland and Julie Digne | (参考訳) データ取得システムは現在、さまざまなモダリティ(ポイントクラウド、ディープ、RGB...)のデータ量を増やしています。
しかし、この改善は計算資源とデータアノテーションの要求に大きなコストがかかる。
幾何学的情報と画像を共同で解析するために、多くのアプローチは2Dの損失と3Dの損失の両方に依存しており、ピクセル単位のラベルだけでなく、ポイント毎のラベルも必要である。
しかし、3Dグラウンドトルースを得るのは難しく、時間がかかり、エラーが発生しやすい。
本稿では,2次元分割損失のみを用いて,幾何学的特徴抽出と2次元分割ネットワークを協調的に訓練することにより,3次元基底構造を必要とせずに画像分割が3次元幾何学的情報から恩恵を受けることを示す。
提案手法は,軽量な3dニューラルネットワークを用いて,提供点クラウドから直接3d特徴の地図を抽出することから始まる。
RGB画像とマージされた3D特徴マップは、古典的な画像分割ネットワークへの入力として使用される。
本手法は,多くの2次元セグメンテーションネットワークに適用可能であり,3次元基盤を必要としないため,ネットワークの軽量化と軽量入力データセットの要求だけで性能を大幅に向上できる。 Scene understanding has made tremendous progress over the past few years, as data acquisition systems are now providing an increasing amount of data of various modalities (point cloud, depth, RGB...). However, this improvement comes at a large cost on computation resources and data annotation requirements. To analyze geometric information and images jointly, many approaches rely on both a 2D loss and 3D loss, requiring not only 2D per pixel-labels but also 3D per-point labels. However, obtaining a 3D groundtruth is challenging, time-consuming and error-prone. In this paper, we show that image segmentation can benefit from 3D geometric information without requiring a 3D groundtruth, by training the geometric feature extraction and the 2D segmentation network jointly, in an end-to-end fashion, using only the 2D segmentation loss. Our method starts by extracting a map of 3D features directly from a provided point cloud by using a lightweight 3D neural network. The 3D feature map, merged with the RGB image, is then used as an input to a classical image segmentation network. Our method can be applied to many 2D segmentation networks, improving significantly their performance with only a marginal network weight increase and light input dataset requirements, since no 3D groundtruth is required. | 翻訳日:2023-07-11 19:05:50 公開日:2023-07-10 |
# 条件付き生成モデリングは意思決定に必要なすべてか? Is Conditional Generative Modeling all you need for Decision-Making? ( http://arxiv.org/abs/2211.15657v4 ) ライセンス: Link先を確認 | Anurag Ajay, Yilun Du, Abhi Gupta, Joshua Tenenbaum, Tommi Jaakkola, Pulkit Agrawal | (参考訳) 近年の条件生成モデルの改良により,言語記述だけで高品質な画像を生成することが可能になった。
これらの手法が逐次意思決定の問題に直接対処できるかどうかを検討する。
我々は、強化学習(RL)のレンズを通してではなく、条件付き生成モデルを通して意思決定を行う。
驚いたことに、私たちの定式化は、標準ベンチマークで既存のオフラインRLアプローチを上回り得るポリシーにつながります。
ポリシーを戻り条件拡散モデルとしてモデル化することで、動的プログラミングの必要性を回避し、それから従来のオフラインrlで発生する多くの複雑さを排除する方法を説明します。
さらに,条件拡散モデルとしてのポリシーモデリングの利点を,制約とスキルの2つの条件変数を考慮に入れて実証する。
トレーニング中の単一の制約やスキルの条件付けは、複数の制約を満たすか、あるいはスキルの組み合わせを示すテスト時の振る舞いにつながります。
条件付き生成モデリングは意思決定のための強力なツールであることを示す。 Recent improvements in conditional generative modeling have made it possible to generate high-quality images from language descriptions alone. We investigate whether these methods can directly address the problem of sequential decision-making. We view decision-making not through the lens of reinforcement learning (RL), but rather through conditional generative modeling. To our surprise, we find that our formulation leads to policies that can outperform existing offline RL approaches across standard benchmarks. By modeling a policy as a return-conditional diffusion model, we illustrate how we may circumvent the need for dynamic programming and subsequently eliminate many of the complexities that come with traditional offline RL. We further demonstrate the advantages of modeling policies as conditional diffusion models by considering two other conditioning variables: constraints and skills. Conditioning on a single constraint or skill during training leads to behaviors at test-time that can satisfy several constraints together or demonstrate a composition of skills. Our results illustrate that conditional generative modeling is a powerful tool for decision-making. | 翻訳日:2023-07-11 19:03:52 公開日:2023-07-10 |
# 変圧器の単純性バイアスとスパースブール関数の学習能力 Simplicity Bias in Transformers and their Ability to Learn Sparse Boolean Functions ( http://arxiv.org/abs/2211.12316v2 ) ライセンス: Link先を確認 | Satwik Bhattamishra, Arkil Patel, Varun Kanade and Phil Blunsom | (参考訳) NLPタスクにおけるTransformerの成功にもかかわらず、最近の研究は、繰り返し発生するモデルと比較して、いくつかの形式言語をモデル化するのに苦労していることが判明した。
このことは、トランスフォーマーが実際になぜうまく機能するのか、また、リカレントモデルよりも良く一般化できるプロパティがあるかどうかという疑問を提起する。
本研究では,ブール関数に関する広範な実証的研究を行い,以下のことを実証する。
(i)ランダムトランスフォーマーは比較的感度の低い機能に対して偏りがある。
(2) ブール関数の訓練では,トランスフォーマーとLSTMの両方が低感度の学習関数を優先し,最終的に低感度の関数に収束する。
3) 感度の低い疎ブール関数について, LSTMは過度に適合し, 一般化精度が劣る一方, ノイズラベルの存在下においてもトランスフォーマーは完全に一般化することがわかった。
以上の結果から,変換器の帰納バイアスと繰り返しモデルとの差が強く,表現性に制限があるにもかかわらず,変換器の効果的な一般化性能を説明するのに役立つ可能性が示唆された。 Despite the widespread success of Transformers on NLP tasks, recent works have found that they struggle to model several formal languages when compared to recurrent models. This raises the question of why Transformers perform well in practice and whether they have any properties that enable them to generalize better than recurrent models. In this work, we conduct an extensive empirical study on Boolean functions to demonstrate the following: (i) Random Transformers are relatively more biased towards functions of low sensitivity. (ii) When trained on Boolean functions, both Transformers and LSTMs prioritize learning functions of low sensitivity, with Transformers ultimately converging to functions of lower sensitivity. (iii) On sparse Boolean functions which have low sensitivity, we find that Transformers generalize near perfectly even in the presence of noisy labels whereas LSTMs overfit and achieve poor generalization accuracy. Overall, our results provide strong quantifiable evidence that suggests differences in the inductive biases of Transformers and recurrent models which may help explain Transformer's effective generalization performance despite relatively limited expressiveness. | 翻訳日:2023-07-11 19:03:08 公開日:2023-07-10 |
# 深層学習機械による空間的不均一学習 Spatially heterogeneous learning by a deep student machine ( http://arxiv.org/abs/2302.07419v4 ) ライセンス: Link先を確認 | Hajime Yoshino | (参考訳) 多数の調整可能なパラメータを持つディープニューラルネットワーク(DNN)はほとんどブラックボックスのままである。
DNNの隠蔽層に光を当てるために,教師-学生設定と呼ばれる統計力学手法を用いて,NL$パーセプトロンと$c$入力からなる幅$N$と深さ$L$のDNNによる教師付き学習について検討した。
我々は,教師機械が提供した3次元インプット/アウトプット関係の$M$集合を正確に再現する学生機械の集合を考える。
n \gg c \gg 1$ and $m \gg 1$ with fixed $\alpha=m/c$ using the replica method developed in (h)。
吉野(2020年)。
また,シミュレーションを数値的に行うモデルについても検討した。
教師と学生機械の構成は、入力/出力境界に近い層内でより相関しており、一方、中央領域は、理論的予測と定性的な一致による過度なパラメータ化のため、より相関が低い。
我々はdnnの一般化誤差を理論的および数値的に様々な深さのl$で評価する。
理論とシミュレーションの両方が、中央の教師と弱い相関しか持たない学生機械の一般化可能性を示しているが、システムが過度に過度にパラメータ化されるような深い極限$L \gg 1$でも消えることはない。
また,データの有効次元 $d(\leq n)$ の影響を隠れ多様体モデル (s) を用いて検討する。
goldt et所属。
al., (2020) をモデルに組み込んだ。
この理論は、密度制限に対するループ補正が、幅を$N$にするか、有効次元を$D$にすることで強化されることを意味する。
シミュレーションは両方とも一般化可能性を大幅に改善することを示唆している。 Deep neural networks (DNN) with a huge number of adjustable parameters remain largely black boxes. To shed light on the hidden layers of DNN, we study supervised learning by a DNN of width $N$ and depth $L$ consisting of $NL$ perceptrons with $c$ inputs by a statistical mechanics approach called the teacher-student setting. We consider an ensemble of student machines that exactly reproduce $M$ sets of $N$ dimensional input/output relations provided by a teacher machine. We show that the problem becomes exactly solvable in what we call as 'dense limit': $N \gg c \gg 1$ and $M \gg 1$ with fixed $\alpha=M/c$ using the replica method developed in (H. Yoshino, (2020)). We also study the model numerically performing simple greedy MC simulations. Simulations reveal that learning by the DNN is quite heterogeneous in the network space: configurations of the teacher and the student machines are more correlated within the layers closer to the input/output boundaries while the central region remains much less correlated due to the over-parametrization in qualitative agreement with the theoretical prediction. We evaluate the generalization-error of the DNN with various depth $L$ both theoretically and numerically. Remarkably both the theory and simulation suggest generalization-ability of the student machines, which are only weakly correlated with the teacher in the center, does not vanish even in the deep limit $L \gg 1$ where the system becomes heavily over-parametrized. We also consider the impact of effective dimension $D(\leq N)$ of data by incorporating the hidden manifold model (S. Goldt et. al., (2020)) into our model. The theory implies that the loop corrections to the dense limit become enhanced by either decreasing the width $N$ or decreasing the effective dimension $D$ of the data. Simulation suggests both lead to significant improvements in generalization-ability. | 翻訳日:2023-07-11 18:57:19 公開日:2023-07-10 |
# データ依存フラクタル次元による一般化境界 Generalization Bounds with Data-dependent Fractal Dimensions ( http://arxiv.org/abs/2302.02766v2 ) ライセンス: Link先を確認 | Benjamin Dupuis, George Deligiannidis, Umut \c{S}im\c{s}ekli | (参考訳) 現代のニューラルネットワークの一般化を保証することは、統計学習において重要な課題である。
近年,フラクタル幾何学のツールを用いて一般化誤差を分析する研究がいくつか行われている。
これらの研究は、一般化を理解するための新しい数学的ツールの導入に成功しているが、リプシッツ連続性仮定に大きく依存しており、一般にはニューラルネットワークを保たず、境界を空にする可能性がある。
本稿では,この問題に対処し,リプシッツ仮定を必要とせずにフラクタル幾何学に基づく一般化境界を証明する。
この目的を達成するために,学習理論における古典的な被覆論を基礎として,データ依存フラクタル次元を導入する。
この新しい概念は、膨大な技術的な複雑さを伴っても、ある相互情報(MI)用語とともに一般化誤差(固定あるいはランダムな仮説空間)を制御できる。
新たに導入されたmi用語をより明確に解釈するために、次のステップとして「幾何学的安定性」の概念を導入し、我々の境界を先行技術に結びつける。
最後に,提案したデータ依存次元とトポロジカルデータ解析ツールとの間の厳密な接続を行い,数値的に効率的に次元を計算できるようにする。
我々は様々な環境で実験を行うことで理論を支持する。 Providing generalization guarantees for modern neural networks has been a crucial task in statistical learning. Recently, several studies have attempted to analyze the generalization error in such settings by using tools from fractal geometry. While these works have successfully introduced new mathematical tools to apprehend generalization, they heavily rely on a Lipschitz continuity assumption, which in general does not hold for neural networks and might make the bounds vacuous. In this work, we address this issue and prove fractal geometry-based generalization bounds without requiring any Lipschitz assumption. To achieve this goal, we build up on a classical covering argument in learning theory and introduce a data-dependent fractal dimension. Despite introducing a significant amount of technical complications, this new notion lets us control the generalization error (over either fixed or random hypothesis spaces) along with certain mutual information (MI) terms. To provide a clearer interpretation to the newly introduced MI terms, as a next step, we introduce a notion of "geometric stability" and link our bounds to the prior art. Finally, we make a rigorous connection between the proposed data-dependent dimension and topological data analysis tools, which then enables us to compute the dimension in a numerically efficient way. We support our theory with experiments conducted on various settings. | 翻訳日:2023-07-11 18:56:41 公開日:2023-07-10 |
# im-iad:工業用画像異常検出ベンチマーク IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing ( http://arxiv.org/abs/2301.13359v2 ) ライセンス: Link先を確認 | Guoyang Xie, Jinbao Wang, Jiaqi Liu, Jiayi Lyu, Yong Liu, Chengjie Wang, Feng Zheng, Yaochu Jin | (参考訳) 画像異常検出(英: Image Anomaly Detection, IAD)は、産業生産におけるコンピュータビジョンの課題である。
近年多くの高度なアルゴリズムが公表されているが、性能は大幅に低下している。
実際のIM設定の欠如は、現実世界のアプリケーションにおけるこれらの手法の開発と利用を妨げていると考えられる。
我々の知る限り、IAD法は体系的に評価されていない。
その結果、研究者は異なるケースや特殊なケースのために設計されているため、分析を困難にしている。
この問題を解決するために,まず,様々な監視レベル(教師なしと半教師なし),少数ショット学習,連続学習,ノイズラベル,メモリ使用量,推論速度などを含む,アルゴリズムの性能を評価するための一様im設定を提案する。
さらに、均一な設定で7つの主流データセットに16のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を巧みに構築する。
我々の広範な実験(合計17,017件)は、im設定下でiadアルゴリズムの再設計や選択に関する深い洞察を提供する。
次に、提案するベンチマークIM-IADは、今後の方向性と同様に課題を与える。
再現性とアクセシビリティを向上させるため、IM-IADのソースコードはhttps://github.com/M-3LAB/IM-IAD.comにアップロードされる。 Image anomaly detection (IAD) is an emerging and vital computer vision task in industrial manufacturing (IM). Recently many advanced algorithms have been published, but their performance deviates greatly. We realize that the lack of actual IM settings most probably hinders the development and usage of these methods in real-world applications. As far as we know, IAD methods are not evaluated systematically. As a result, this makes it difficult for researchers to analyze them because they are designed for different or special cases. To solve this problem, we first propose a uniform IM setting to assess how well these algorithms perform, which includes several aspects, i.e., various levels of supervision (unsupervised vs. semi-supervised), few-shot learning, continual learning, noisy labels, memory usage, and inference speed. Moreover, we skillfully build a comprehensive image anomaly detection benchmark (IM-IAD) that includes 16 algorithms on 7 mainstream datasets with uniform settings. Our extensive experiments (17,017 in total) provide in-depth insights for IAD algorithm redesign or selection under the IM setting. Next, the proposed benchmark IM-IAD gives challenges as well as directions for the future. To foster reproducibility and accessibility, the source code of IM-IAD is uploaded on the website, https://github.com/M-3LAB/IM-IAD. | 翻訳日:2023-07-11 18:55:51 公開日:2023-07-10 |
# NeuSE: 物体との連続的空間理解のためのニューラルSE(3)-同変埋め込み NeuSE: Neural SE(3)-Equivariant Embedding for Consistent Spatial Understanding with Objects ( http://arxiv.org/abs/2303.07308v2 ) ライセンス: Link先を確認 | Jiahui Fu, Yilun Du, Kurran Singh, Joshua B. Tenenbaum, and John J. Leonard | (参考訳) 本稿では,物体に対するニューラルSE(3)-等価な埋め込みであるNeuSEを紹介し,長期のシーン変化と一貫した空間的理解のためにオブジェクトSLAMをどのようにサポートするかを説明する。
NeuSEは、部分的な物体観測から生成された潜伏物体の埋め込みである。
完全なオブジェクトモデルのためのコンパクトな点クラウドサロゲートとして機能し、物理的な世界のオブジェクトとSE(3)-等角変換しながら、完全な形状情報を符号化する。
NeuSEでは、相対的なフレーム変換は推論された潜在符号から直接引き出すことができる。
提案するSLAMパラダイムは,物体形状やポーズ特性にNeuSEを用い,通常のSLAMシステムと独立に動作させることができる。
一般的なslamポーズグラフ最適化と互換性のあるse(3)カメラポーズ制約を直接推定すると同時に、現実世界の変化に適応する軽量なオブジェクト中心マップも維持する。
提案手法は, 変更対象を特徴とする合成および実世界のシーケンスに基づいて評価され, 共通SLAMパイプラインと独立あるいは共同作業する場合に, 局所化精度と変化対応マッピング能力が改善された。 We present NeuSE, a novel Neural SE(3)-Equivariant Embedding for objects, and illustrate how it supports object SLAM for consistent spatial understanding with long-term scene changes. NeuSE is a set of latent object embeddings created from partial object observations. It serves as a compact point cloud surrogate for complete object models, encoding full shape information while transforming SE(3)-equivariantly in tandem with the object in the physical world. With NeuSE, relative frame transforms can be directly derived from inferred latent codes. Our proposed SLAM paradigm, using NeuSE for object shape and pose characterization, can operate independently or in conjunction with typical SLAM systems. It directly infers SE(3) camera pose constraints that are compatible with general SLAM pose graph optimization, while also maintaining a lightweight object-centric map that adapts to real-world changes. Our approach is evaluated on synthetic and real-world sequences featuring changed objects and shows improved localization accuracy and change-aware mapping capability, when working either standalone or jointly with a common SLAM pipeline. | 翻訳日:2023-07-11 18:45:28 公開日:2023-07-10 |
# 変分ベイが簡単になった Variational Bayes Made Easy ( http://arxiv.org/abs/2304.14251v2 ) ライセンス: Link先を確認 | Mohammad Emtiyaz Khan | (参考訳) 変分ベイズは近似推論の一般的な方法であるが、その導出は困難である。
この過程を単純化するために、よく知られた分布の期待に対して線形性を明確に求めることで、後部形態を識別するための3段階のレシピを与える。
すると、これらの期待を前に、単に‘reading-off’という用語でアップデートを直接書くことができます。
レシピは、より簡単で、より速く、より短く、より一般的である。 Variational Bayes is a popular method for approximate inference but its derivation can be cumbersome. To simplify the process, we give a 3-step recipe to identify the posterior form by explicitly looking for linearity with respect to expectations of well-known distributions. We can then directly write the update by simply ``reading-off'' the terms in front of those expectations. The recipe makes the derivation easier, faster, shorter, and more general. | 翻訳日:2023-07-11 18:36:56 公開日:2023-07-10 |
# 自己教師付き表現学習による機能的知識伝達 Functional Knowledge Transfer with Self-supervised Representation Learning ( http://arxiv.org/abs/2304.01354v2 ) ライセンス: Link先を確認 | Prakash Chandra Chhipa, Muskaan Chopra, Gopal Mengi, Varun Gupta, Richa Upadhyay, Meenakshi Subhash Chippa, Kanjar De, Rajkumar Saini, Seiichi Uchida and Marcus Liwicki | (参考訳) 本研究では,機能的知識伝達の方向における自己指導型表現学習の未探索ユーザビリティについて検討する。
本研究では,自己指導型学習課題と教師付き学習課題の協調最適化により,機能的知識伝達を実現する。
自己教師付き学習の最近の進歩は大量のデータを使用し、小規模データセットへの応用の制約となっている。
この研究は、人間に指導されたタスク学習を、ジャスト・イン・タイムで学習することで強化する、シンプルで効果的な共同トレーニングフレームワークを共有している。
異なる視覚領域、Intel Image、CIFAR、APTOSの3つの公開データセットの実験では、共同最適化時の分類タスクのパフォーマンス改善が一貫した追跡結果を示している。
定性解析は学習表現の堅牢性もサポートする。
ソースコードとトレーニングされたモデルはgithubから入手できる。 This work investigates the unexplored usability of self-supervised representation learning in the direction of functional knowledge transfer. In this work, functional knowledge transfer is achieved by joint optimization of self-supervised learning pseudo task and supervised learning task, improving supervised learning task performance. Recent progress in self-supervised learning uses a large volume of data, which becomes a constraint for its applications on small-scale datasets. This work shares a simple yet effective joint training framework that reinforces human-supervised task learning by learning self-supervised representations just-in-time and vice versa. Experiments on three public datasets from different visual domains, Intel Image, CIFAR, and APTOS, reveal a consistent track of performance improvements on classification tasks during joint optimization. Qualitative analysis also supports the robustness of learnt representations. Source code and trained models are available on GitHub. | 翻訳日:2023-07-11 18:35:38 公開日:2023-07-10 |
# 階層変換器を用いた関係経路と文脈からの帰納的関係予測 Inductive Relation Prediction from Relational Paths and Context with Hierarchical Transformers ( http://arxiv.org/abs/2304.00215v3 ) ライセンス: Link先を確認 | Jiaang Li, Quan Wang, Zhendong Mao | (参考訳) 知識グラフ(KG)に関する関係予測は重要な研究トピックである。
支配的な埋め込みベースの手法は、主にトランスダクティブな設定に焦点を当て、推論のために新しいエンティティに一般化するインダクティブな能力を欠いている。
帰納的推論の既存の方法は、主に関係的文脈に含まれる頭と尾のエンティティの性質を考慮せずに、関係的経路(relational paths)というエンティティ間の接続を掘り下げる。
本稿では,リレーショナルパスとコンテキストを同時に集約することにより,エンティティ間の接続とエンティティの固有性の両方をキャプチャする新しい手法,すなわちレポートを提案する。
因果関係論のみに依拠し、訓練や推論のためのKGが共通の実体を持たない完全帰納的設定に自然に一般化することができる。
実験では、2つの完全帰納的データセットの8つのバージョンサブセットのほぼすべてのベースラインに対して、Actionalは一貫してパフォーマンスが向上する。
さらに。
レポートは、各要素の予測結果への貢献を提供することによって解釈できる。 Relation prediction on knowledge graphs (KGs) is a key research topic. Dominant embedding-based methods mainly focus on the transductive setting and lack the inductive ability to generalize to new entities for inference. Existing methods for inductive reasoning mostly mine the connections between entities, i.e., relational paths, without considering the nature of head and tail entities contained in the relational context. This paper proposes a novel method that captures both connections between entities and the intrinsic nature of entities, by simultaneously aggregating RElational Paths and cOntext with a unified hieRarchical Transformer framework, namely REPORT. REPORT relies solely on relation semantics and can naturally generalize to the fully-inductive setting, where KGs for training and inference have no common entities. In the experiments, REPORT performs consistently better than all baselines on almost all the eight version subsets of two fully-inductive datasets. Moreover. REPORT is interpretable by providing each element's contribution to the prediction results. | 翻訳日:2023-07-11 18:35:25 公開日:2023-07-10 |
# ミドル」における構文とセマンティクス : エージェントによるLMの構文・セマンティクス界面の探索 Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity ( http://arxiv.org/abs/2305.18185v2 ) ライセンス: Link先を確認 | Lindia Tjuatja, Emmy Liu, Lori Levin, Graham Neubig | (参考訳) 大規模言語モデルの最近の進歩により、研究者は様々な言語的タスクにわたってその能力を調べるようになったが、モデルがどのようにして単語間の相互作用やより大きな構文形式、すなわち構文と意味論の交点における現象を扱うかについての研究はほとんど行われていない。
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
我々は、任意に推移する英語動詞のサブセットの独特な言語特性を活用し、新しい評価データセットを作成した。
このデータセットは、3つのモデルクラスのサイズを変えて、語彙レベルでエージェント性に敏感であるか、特定の構文の文脈でこれらの単語レベルのプリエントを適切に採用できるかどうかを判断するために使われた。
全体として GPT-3 text-davinci-003 は全ての実験で非常によく機能し、他の全ての実験モデルよりも優れている。
実際、結果は構文的・意味的コーパス統計よりも人間の判断とよりよく関連している。
これは、LMが特定のタスクのための選択コーパスよりも言語アノテーション、理論テスト、発見のための有用なツールとして役立つ可能性を示唆している。
コードはhttps://github.com/lindiatjuatja/lm_semで入手できる。 Recent advances in large language models have prompted researchers to examine their abilities across a variety of linguistic tasks, but little has been done to investigate how models handle the interactions in meaning across words and larger syntactic forms -- i.e. phenomena at the intersection of syntax and semantics. We present the semantic notion of agentivity as a case study for probing such interactions. We created a novel evaluation dataset by utilitizing the unique linguistic properties of a subset of optionally transitive English verbs. This dataset was used to prompt varying sizes of three model classes to see if they are sensitive to agentivity at the lexical level, and if they can appropriately employ these word-level priors given a specific syntactic context. Overall, GPT-3 text-davinci-003 performs extremely well across all experiments, outperforming all other models tested by far. In fact, the results are even better correlated with human judgements than both syntactic and semantic corpus statistics. This suggests that LMs may potentially serve as more useful tools for linguistic annotation, theory testing, and discovery than select corpora for certain tasks. Code is available at https://github.com/lindiatjuatja/lm_sem | 翻訳日:2023-07-11 18:27:08 公開日:2023-07-10 |
# スパイクニューラルネットワークにおける計算と学習のための資源としてのノイズの利用 Exploiting Noise as a Resource for Computation and Learning in Spiking Neural Networks ( http://arxiv.org/abs/2305.16044v4 ) ライセンス: Link先を確認 | Gehua Ma, Rui Yan, Huajin Tang | (参考訳) -- 従来の決定論的スパイクニューラルネットワークと代理勾配を仮定する理論的枠組みにより、現実世界の応用において、様々なニューロモルフィックハードウェア開発をより効率的に効果的に活用することができる。
-- 暗黙の正規化、堅牢性の改善、生物学的神経計算の計算的説明など、ノイズの多い神経力学を取り入れたスケーラブルなスパイクニューラルモデル。
スパイクニューロンのネットワークは、脳の異常な情報処理能力の基盤となり、ニューロモルフィックインテリジェンスにおける柱モデルとして登場した。
スパイキングニューラルネットワーク(SNN)に関する広範な研究にもかかわらず、ほとんどが決定論的モデルに基づいている。
SNNにノイズを組み込むことは、生物物理学的により現実的なニューラルダイナミクスをもたらし、モデル性能の恩恵を受ける可能性がある。
本稿では,雑音ニューロンのダイナミクスを組み込んだスパイキングニューロンモデルを導入することにより,ノイズスパイキングニューラルネットワーク(nsnn)とノイズ駆動学習ルール(ndl)を提案する。
提案手法は,雑音が計算と学習の資源としてどのように役立つかを示し,理論的には一般的なsnsの枠組みを提供する。
本手法は, 決定論的snsよりも競合性が高く, 頑健性が向上し, ニューラルコーディングにおける確率的ニューラル計算の再現性が向上することを示す。
本研究は、機械学習、ニューロモルフィックインテリジェンス実践者、計算神経科学研究者に強力で使いやすいツールを提供する。 -- A theoretical framework that subsumes conventional deterministic spiking neural networks and surrogate gradients, facilitating more efficient and effective employment of various neuromorphic hardware developments in real-world applications. -- Scalable spiking neural models that incorporate noisy neuronal dynamics for implicit regularization, improved robustness, and computational accounts of biological neural computation, revealing that unreliable neural substrates yield reliable computation and learning. Networks of spiking neurons underpin the extraordinary information-processing capabilities of the brain and have emerged as pillar models in neuromorphic intelligence. Despite extensive research on spiking neural networks (SNNs), most are established on deterministic models. Integrating noise into SNNs leads to biophysically more realistic neural dynamics and may benefit model performance. This work presents the noisy spiking neural network (NSNN) and the noise-driven learning rule (NDL) by introducing a spiking neuron model incorporating noisy neuronal dynamics. Our approach shows how noise may serve as a resource for computation and learning and theoretically provides a framework for general SNNs. We show that our method exhibits competitive performance and improved robustness against challenging perturbations than deterministic SNNs and better reproduces probabilistic neural computation in neural coding. This study offers a powerful and easy-to-use tool for machine learning, neuromorphic intelligence practitioners, and computational neuroscience researchers. | 翻訳日:2023-07-11 18:26:15 公開日:2023-07-10 |
# 大規模視覚表現学習の効率化 Efficient Large-Scale Visual Representation Learning ( http://arxiv.org/abs/2305.13399v3 ) ライセンス: Link先を確認 | Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin Mejran, Vaibhav Malpani and Mahir Yavuz | (参考訳) 本稿では,単一モダリティ視覚表現学習へのアプローチについて述べる。
製品コンテンツの視覚的表現を理解することは、eコマースにおけるレコメンデーション、検索、広告アプリケーションにとって不可欠である。
畳み込みニューラルネットワークとビジョントランスフォーマーファミリの両方において、複数の事前学習されたバックボーンアーキテクチャを含む低リソース環境下で、大規模視覚表現学習モデルを効率的に微調整するための技術の詳細とコントラストについて述べる。
大規模なeコマースアプリケーションの課題を強調し、視覚的な表現をより効率的に訓練し、評価し、提供する取り組みを強調します。
本稿では,いくつかのダウンストリームタスクにおいて,視覚的に類似した広告レコメンデーションを含むオフラインパフォーマンスの評価を行うアブレーション研究を行う。
そこで本研究では,視覚的に類似したレコメンデーションシステムのためのテキスト対画像生成オフライン評価手法を提案する。
最後に、etsyにデプロイされた機械学習システムのオンライン結果を含める。 In this article, we present our approach to single-modality visual representation learning. Understanding visual representations of product content is vital for recommendations, search, and advertising applications in e-commerce. We detail and contrast techniques used to fine-tune large-scale visual representation learning models in an efficient manner under low-resource settings, including several pretrained backbone architectures, both in the convolutional neural network as well as the vision transformer family. We highlight the challenges for e-commerce applications at-scale and highlight the efforts to more efficiently train, evaluate, and serve visual representations. We present ablation studies evaluating the representation offline performance for several downstream tasks, including our visually similar ad recommendations. To this end, we present a novel text-to-image generative offline evaluation method for visually similar recommendation systems. Finally, we include online results from deployed machine learning systems in production at Etsy. | 翻訳日:2023-07-11 18:25:50 公開日:2023-07-10 |
# プロトタイプベース多段階学習による半教師付きドメイン適応 Semi-supervised Domain Adaptation via Prototype-based Multi-level Learning ( http://arxiv.org/abs/2305.02693v2 ) ライセンス: Link先を確認 | Xinyang Huang, Chuang Zhu and Wenkai Chen | (参考訳) 半教師付きドメイン適応(ssda)では、各クラスのラベル付きターゲットサンプルが、モデルが完全なラベル付きソースドメインからターゲットドメインへの知識表現の転送を支援する。
既存の多くのメソッドは、ラベル付きターゲットサンプルをマルチレベルから完全に利用する利点を無視している。
この追加データをよりよく活用するために,ラベル付き対象サンプルの可能性をうまく活用するためのプロトタイプベース多段階学習(ProML)フレームワークを提案する。
ドメイン内適応を実現するために,まず,ドメイン内最適移動に基づく擬似ラベルアグリゲーションを導入し,ラベルなしのターゲットサンプルとプロトタイプの特徴分布をモデル化する。
ドメイン間レベルでは、モデルがドメイン間知識転送のターゲットプロトタイプを使用するのを助けるために、クロスドメインアライメントロスを提案する。
さらに,プロトタイプ類似性と線形分類器に基づく2重一貫性を提案し,バッチレベルでのコンパクトな特徴表現の識別学習を促進する。
DomainNet, VisDA2017, Office-Homeの3つのデータセットに対する大規模な実験により,提案手法がSSDAの最先端性能を実現することを示す。 In semi-supervised domain adaptation (SSDA), a few labeled target samples of each class help the model to transfer knowledge representation from the fully labeled source domain to the target domain. Many existing methods ignore the benefits of making full use of the labeled target samples from multi-level. To make better use of this additional data, we propose a novel Prototype-based Multi-level Learning (ProML) framework to better tap the potential of labeled target samples. To achieve intra-domain adaptation, we first introduce a pseudo-label aggregation based on the intra-domain optimal transport to help the model align the feature distribution of unlabeled target samples and the prototype. At the inter-domain level, we propose a cross-domain alignment loss to help the model use the target prototype for cross-domain knowledge transfer. We further propose a dual consistency based on prototype similarity and linear classifier to promote discriminative learning of compact target feature representation at the batch level. Extensive experiments on three datasets, including DomainNet, VisDA2017, and Office-Home demonstrate that our proposed method achieves state-of-the-art performance in SSDA. | 翻訳日:2023-07-11 18:23:37 公開日:2023-07-10 |
# 分散SGDと平均方向SAMは漸近的に等価である Decentralized SGD and Average-direction SAM are Asymptotically Equivalent ( http://arxiv.org/abs/2306.02913v3 ) ライセンス: Link先を確認 | Tongtian Zhu, Fengxiang He, Kaixuan Chen, Mingli Song, Dacheng Tao | (参考訳) 分散確率勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
しかし、既存の理論では、分散化が一般化を弱めている。
本稿では,従来の信念に挑戦し,分散学習を理解するための全く新しい視点を提案する。
d-sgdは一般の非凸非$-\beta$-smooth設定下で平均指向シャープネス認識最小化(sam)アルゴリズムの損失関数を暗黙的に最小化する。
This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios. Decentralized stochastic gradient descent (D-SGD) allows collaborative learning on massive devices simultaneously without the control of a central server. However, existing theories claim that decentralization invariably undermines generalization. In this paper, we challenge the conventional belief and present a completely new perspective for understanding decentralized learning. We prove that D-SGD implicitly minimizes the loss function of an average-direction Sharpness-aware minimization (SAM) algorithm under general non-convex non-$\beta$-smooth settings. This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios. | 翻訳日:2023-07-11 18:18:05 公開日:2023-07-10 |
# (不合理な高次領域のアンテホック解釈可能性--透明性は必要だが理解に十分でない (Un)reasonable Allure of Ante-hoc Interpretability for High-stakes Domains: Transparency Is Necessary but Insufficient for Comprehensibility ( http://arxiv.org/abs/2306.02312v2 ) ライセンス: Link先を確認 | Kacper Sokol and Julia E. Vogt | (参考訳) アンテホック解釈性は、医療などの高度な領域において、説明可能な人工知能の聖杯となっているが、この概念は解明され、広く受け入れられた定義に欠け、運用状況に依存している。
構造がドメイン固有の制約に従う予測モデルや、本質的に透明なモデルを指すこともある。
後者の概念化では、この品質を判断するオブザーバーを前提としており、前者は技術とドメインの専門知識(他の説明者のグループを遠ざける)を前提としている。
さらに、異なる説明モデルを構築する手法を指すアンテ・ホック解釈可能性と望ましくないポスト・ホック説明可能性との区別は、透明な予測モデルが適切な説明的洞察を得るのに(後)処理を必要とする場合を考えると曖昧である。
したがって、アンテホック解釈は暗黙的な性質を含む過剰な概念であり、高い領域にまたがる安全な適用に何が必要なのかをよりよく理解するために、本稿にまとめる。
この目的のために、私たちはデシデラタのモデリングと説明を概説し、観察されたアプリケーションとオーディエンスの観点から、その明確な実現をナビゲートできるようにします。 Ante-hoc interpretability has become the holy grail of explainable artificial intelligence for high-stakes domains such as healthcare; however, this notion is elusive, lacks a widely-accepted definition and depends on the operational context. It can refer to predictive models whose structure adheres to domain-specific constraints, or ones that are inherently transparent. The latter conceptualisation assumes observers who judge this quality, whereas the former presupposes them to have technical and domain expertise (thus alienating other groups of explainees). Additionally, the distinction between ante-hoc interpretability and the less desirable post-hoc explainability, which refers to methods that construct a separate explanatory model, is vague given that transparent predictive models may still require (post-)processing to yield suitable explanatory insights. Ante-hoc interpretability is thus an overloaded concept that comprises a range of implicit properties, which we unpack in this paper to better understand what is needed for its safe adoption across high-stakes domains. To this end, we outline modelling and explaining desiderata that allow us to navigate its distinct realisations in view of the envisaged application and audience. | 翻訳日:2023-07-11 18:17:50 公開日:2023-07-10 |
# AD-PT:大規模ポイントクラウドデータセットによる自律走行事前訓練 AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud Dataset ( http://arxiv.org/abs/2306.00612v2 ) ライセンス: Link先を確認 | Jiakang Yuan, Bo Zhang, Xiangchao Yan, Tao Chen, Botian Shi, Yikang Li, Yu Qiao | (参考訳) 知覚モデルが大規模なポイントクラウドデータセットから学習し、さまざまなタスクやベンチマークで有望な結果を得ることができる統一された表現を得ることは、Autonomous Driving (AD)コミュニティの長期的なビジョンである。
以前の作業は、主に自己教師付き事前トレーニングパイプラインに焦点を当てており、同じベンチマークで事前トレーニングと微調整を行うため、事前トレーニングチェックポイント用のパフォーマンススケーラビリティとクロスデータセットアプリケーションを達成するのは難しい。
本稿では,このような多種多様な事前学習データセットから汎用表現を学習しながら,多種多様なデータ分布を持つ大規模事前学習型ポイントクラウドデータセットの構築に初めてコミットする。
我々は、ポイントクラウド事前学習タスクを半教師付き問題として定式化し、少数のラベル付きおよび大規模未ラベルのポイントクラウドデータを利用して、多くのベースラインモデルやベンチマークに直接適用可能な統一されたバックボーン表現を生成する。
バックボーン事前トレーニングの期間中,シーンレベルの分散の多様性を高め,未知のインスタンスから学習するバックボーンの能力を活用することで,PV-RCNN++,SECOND,CenterPointといったさまざまなベースラインモデルの下で,Waymo,nuScenes,KITTIといった一連の下流知覚ベンチマークにおいて,大幅なパフォーマンス向上を実現した。 It is a long-term vision for Autonomous Driving (AD) community that the perception models can learn from a large-scale point cloud dataset, to obtain unified representations that can achieve promising results on different tasks or benchmarks. Previous works mainly focus on the self-supervised pre-training pipeline, meaning that they perform the pre-training and fine-tuning on the same benchmark, which is difficult to attain the performance scalability and cross-dataset application for the pre-training checkpoint. In this paper, for the first time, we are committed to building a large-scale pre-training point-cloud dataset with diverse data distribution, and meanwhile learning generalizable representations from such a diverse pre-training dataset. We formulate the point-cloud pre-training task as a semi-supervised problem, which leverages the few-shot labeled and massive unlabeled point-cloud data to generate the unified backbone representations that can be directly applied to many baseline models and benchmarks, decoupling the AD-related pre-training process and downstream fine-tuning task. During the period of backbone pre-training, by enhancing the scene- and instance-level distribution diversity and exploiting the backbone's ability to learn from unknown instances, we achieve significant performance gains on a series of downstream perception benchmarks including Waymo, nuScenes, and KITTI, under different baseline models like PV-RCNN++, SECOND, CenterPoint. | 翻訳日:2023-07-11 18:15:53 公開日:2023-07-10 |
# 大規模言語モデル、自然言語処理、ドメイン特殊化 Large Language Models, Natural Language Processing, Domain Specialization ( http://arxiv.org/abs/2305.18703v3 ) ライセンス: Link先を確認 | Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng, Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Xuchao Zhang, Tianjiao Zhao, Amit Panalkar, Wei Cheng, Haoyu Wang, Yanchi Liu, Zhengzhang Chen, Haifeng Chen, Chris White, Quanquan Gu, Jian Pei, Carl Yang, and Liang Zhao | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、広範囲のアプリケーションに非常に有用なタスクに依存しない基盤を提供する。
しかし、特定のドメインにおける高度な問題を解決するために直接LLMを適用することは、ドメインデータの異質性、ドメイン知識の高度化、ドメインの目的の独自性、制約の多様性(例えば、様々な社会的規範、文化的適合性、宗教的信念、ドメインアプリケーションにおける倫理的基準)によって引き起こされる多くのハードルを満たす。
ドメイン仕様技術は多くのアプリケーションで大きな言語モデルを破壊的にする鍵となる。
特に、これらのハードルを解決するために、近年、LLMの領域特化に関する研究や実践が顕著に増加している。
この新たな研究分野は、影響の実質的な可能性を秘めており、この領域で進行中の研究をより要約し指導するために、包括的かつ体系的なレビューを必要としている。
本稿では,大規模言語モデルアプリケーションに不可欠な新たな方向性である,大規模言語モデルのドメイン仕様技術に関する包括的調査を紹介する。
まず, LLM のアクセシビリティに基づいた LLM ドメイン特殊化手法を分類し, 各サブカテゴリの枠組み, 相互の関係, 相違点を要約する系統分類法を提案する。
第二に、専門的なllmから劇的に利益を得られる重要なアプリケーションドメインの広範な分類を提示し、それらの実用的意義とオープンな課題について論じる。
最後に、この分野の現在の研究状況と今後のトレンドについて考察する。 Large language models (LLMs) have significantly advanced the field of natural language processing (NLP), providing a highly useful, task-agnostic foundation for a wide range of applications. However, directly applying LLMs to solve sophisticated problems in specific domains meets many hurdles, caused by the heterogeneity of domain data, the sophistication of domain knowledge, the uniqueness of domain objectives, and the diversity of the constraints (e.g., various social norms, cultural conformity, religious beliefs, and ethical standards in the domain applications). Domain specification techniques are key to make large language models disruptive in many applications. Specifically, to solve these hurdles, there has been a notable increase in research and practices conducted in recent years on the domain specialization of LLMs. This emerging field of study, with its substantial potential for impact, necessitates a comprehensive and systematic review to better summarize and guide ongoing work in this area. In this article, we present a comprehensive survey on domain specification techniques for large language models, an emerging direction critical for large language model applications. First, we propose a systematic taxonomy that categorizes the LLM domain-specialization techniques based on the accessibility to LLMs and summarizes the framework for all the subcategories as well as their relations and differences to each other. Second, we present an extensive taxonomy of critical application domains that can benefit dramatically from specialized LLMs, discussing their practical significance and open challenges. Last, we offer our insights into the current research status and future trends in this area. | 翻訳日:2023-07-11 18:15:26 公開日:2023-07-10 |
# 生成AIにおける反トラストとプラットフォームパワーの探求 Exploring Antitrust and Platform Power in Generative AI ( http://arxiv.org/abs/2306.11342v3 ) ライセンス: Link先を確認 | Konrad Kollnig and Qian Li | (参考訳) いくつかのデジタル技術企業における権力集中は、学術的・非学術的な議論への関心が高まっている。
この議論に対する最も注目すべき貢献の1つは、リナ・カーンの『Amazon's Antitrust Paradox』である。
この作品の中でkhanは、amazonがオンライン小売における支配権を体系的に行使し、ライバルを排除し、その後、市場価格を請求したと主張している。
この業績は、最も影響力のある反トラスト組織の一つである米連邦取引委員会(FTC)の議長にカーンが指名されたことに寄与した。
今日、米国とヨーロッパで進行中の反トラスト訴訟には、apple、google/alphabet、facebook/metaなどの大手テクノロジー企業が含まれる。
生成AIの世界では、私たちは再び、同じ企業が技術進歩をリードし、他の企業が競争する余地はほとんど残っていないのを目撃しています。
本稿では、反トラスト法の観点から、生成AIを支える技術スタックにおけるこれらの企業の市場優位性について考察する。 The concentration of power in a few digital technology companies has become a subject of increasing interest in both academic and non-academic discussions. One of the most noteworthy contributions to the debate is Lina Khan's Amazon's Antitrust Paradox. In this work, Khan contends that Amazon has systematically exerted its dominance in online retail to eliminate competitors and subsequently charge above-market prices. This work contributed to Khan's appointment as the chair of the US Federal Trade Commission (FTC), one of the most influential antitrust organisations. Today, several ongoing antitrust lawsuits in the US and Europe involve major technology companies like Apple, Google/Alphabet, and Facebook/Meta. In the realm of generative AI, we are once again witnessing the same companies taking the lead in technological advancements, leaving little room for others to compete. This article examines the market dominance of these corporations in the technology stack behind generative AI from an antitrust law perspective. | 翻訳日:2023-07-11 18:06:45 公開日:2023-07-10 |
# 実演におけるスタイル認識型顔アニメーションの教師なし学習 Unsupervised Learning of Style-Aware Facial Animation from Real Acting Performances ( http://arxiv.org/abs/2306.10006v2 ) ライセンス: Link先を確認 | Wolfgang Paier and Anna Hilsmann and Peter Eisert | (参考訳) 本稿では,ブレンド形状,動的テクスチャ,およびニューラルレンダリングに基づく,フォトリアリスティックヘッドモデルのテキスト/音声駆動アニメーションに対する新しいアプローチを提案する。
幾何学とテクスチャのためのVAEを訓練すると、潜在特徴ベクトルからの表情の正確なキャプチャと現実的な合成のためのパラメトリックモデルが得られる。
提案手法は,テキストや音声をアニメーションパラメータのシーケンスに変換する条件付きcnnに基づいている。
従来のアプローチとは対照的に,シミュレーションモデルでは,異なる演技スタイルを教師なしの方法で分離/合成し,訓練シーケンスの内容を記述する音素ラベルのみを必要とする。
リアルなリアルタイムレンダリングのために、改良されたピクセルカラーとフォアグラウンドマットを計算してラスタライズベースのレンダリングを洗練するu-netをトレーニングする。
我々は,最近の頭部モデリング法と顔アニメーションとを質的・定量的に比較し,ユーザスタディにおける印象的レンダリング/アニメーション品質の評価を行い,最先端のアプローチと比較して大きな改善点を示した。 This paper presents a novel approach for text/speech-driven animation of a photo-realistic head model based on blend-shape geometry, dynamic textures, and neural rendering. Training a VAE for geometry and texture yields a parametric model for accurate capturing and realistic synthesis of facial expressions from a latent feature vector. Our animation method is based on a conditional CNN that transforms text or speech into a sequence of animation parameters. In contrast to previous approaches, our animation model learns disentangling/synthesizing different acting-styles in an unsupervised manner, requiring only phonetic labels that describe the content of training sequences. For realistic real-time rendering, we train a U-Net that refines rasterization-based renderings by computing improved pixel colors and a foreground matte. We compare our framework qualitatively/quantitatively against recent methods for head modeling as well as facial animation and evaluate the perceived rendering/animation quality in a user-study, which indicates large improvements compared to state-of-the-art approaches | 翻訳日:2023-07-11 18:06:00 公開日:2023-07-10 |
# diff-ttsg : 確率的統合音声合成とジェスチャ合成 Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis ( http://arxiv.org/abs/2306.09417v2 ) ライセンス: Link先を確認 | Shivam Mehta, Siyang Wang, Simon Alexanderson, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter | (参考訳) 高自然度スコアを達成できる読解音声合成は、自然音声合成における研究の関心が高まっている。
しかし、人間の自発的な対面会話には、話し言葉と言葉以外の側面の両方がある(ここでは、協調的なジェスチャー)。
つい最近になって、これらの2つのモダリティを単一のシステムで共同で合成する方法の研究が始まった。
従来の技術では、人間の発話や動きの変動を捉えない非確率的手法を使用しており、過剰な人工物や準最適合成品質を生み出す危険性があった。
我々はdiff-ttsgと呼ばれる拡散に基づく最初の確率モデルを提案する。
我々の方法はスクラッチから小さなデータセットで訓練することができる。
さらに、統合音声とジェスチャー合成システムを評価するための一様・多様主観的一様テストのセットを記述し、提案手法の有効性を検証する。
合成例についてはhttps://shivammehta25.github.io/diff-ttsgを参照。 With read-aloud speech synthesis achieving high naturalness scores, there is a growing research interest in synthesising spontaneous speech. However, human spontaneous face-to-face conversation has both spoken and non-verbal aspects (here, co-speech gestures). Only recently has research begun to explore the benefits of jointly synthesising these two modalities in a single system. The previous state of the art used non-probabilistic methods, which fail to capture the variability of human speech and motion, and risk producing oversmoothing artefacts and sub-optimal synthesis quality. We present the first diffusion-based probabilistic model, called Diff-TTSG, that jointly learns to synthesise speech and gestures together. Our method can be trained on small datasets from scratch. Furthermore, we describe a set of careful uni- and multi-modal subjective tests for evaluating integrated speech and gesture synthesis systems, and use them to validate our proposed approach. For synthesised examples please see https://shivammehta25.github.io/Diff-TTSG | 翻訳日:2023-07-11 18:05:42 公開日:2023-07-10 |
# UOD: 解剖学的ランドマークのユニバーサルワンショット検出 UOD: Universal One-shot Detection of Anatomical Landmarks ( http://arxiv.org/abs/2306.07615v3 ) ライセンス: Link先を確認 | Heqin Zhu, Quan Quan, Qingsong Yao, Zaiyi Liu, S. kevin Zhou | (参考訳) ワンショット医療ランドマーク検出は、多くの注目を集め、ラベル効率の良いトレーニングプロセスで大きな成功を収める。
しかし、既存のワンショット学習手法は、単一のドメインに高度に特化しており、マルチドメイン未ラベルデータの状況において、ドメインの嗜好を著しく損なう。
さらに、ワンショット学習は、サブ最適イメージにアノテートした場合のパフォーマンス低下に直面するほど堅牢ではない。
これらの課題に対処するために,Universal One-shot Detection (UOD) という,多領域の医療画像を扱うためのドメイン適応型ワンショットランドマーク検出フレームワークを開発する。
UODは、ドメイン固有モジュールとドメイン共有モジュールの組み合わせとして設計された、2つのステージと2つの対応するユニバーサルモデルから構成される。
第1段階では、ドメイン適応畳み込みモデルが学習され、擬似ランドマークラベルを生成する。
第2段階では、ドメイン優先を排除し、マルチドメインデータのグローバルコンテキストを構築するために、ドメイン適応変換器を設計する。
各ドメインからの注釈付きサンプルは1つしかトレーニングできないが、ドメイン共有モジュールはUODがすべての一発サンプルを集約し、より堅牢で正確なランドマークを検出するのに役立つ。
解剖学的領域(頭,手,胸など)で広く利用されている3つの公開X線データセットの質的,定量的に検討し,各領域における最先端の成果を得た。 One-shot medical landmark detection gains much attention and achieves great success for its label-efficient training process. However, existing one-shot learning methods are highly specialized in a single domain and suffer domain preference heavily in the situation of multi-domain unlabeled data. Moreover, one-shot learning is not robust that it faces performance drop when annotating a sub-optimal image. To tackle these issues, we resort to developing a domain-adaptive one-shot landmark detection framework for handling multi-domain medical images, named Universal One-shot Detection (UOD). UOD consists of two stages and two corresponding universal models which are designed as combinations of domain-specific modules and domain-shared modules. In the first stage, a domain-adaptive convolution model is self-supervised learned to generate pseudo landmark labels. In the second stage, we design a domain-adaptive transformer to eliminate domain preference and build the global context for multi-domain data. Even though only one annotated sample from each domain is available for training, the domain-shared modules help UOD aggregate all one-shot samples to detect more robust and accurate landmarks. We investigated both qualitatively and quantitatively the proposed UOD on three widely-used public X-ray datasets in different anatomical domains (i.e., head, hand, chest) and obtained state-of-the-art performances in each domain. | 翻訳日:2023-07-11 18:05:13 公開日:2023-07-10 |
# NeRFLiXからNeRFLiX++へ: 一般的なNeRFに依存しないレゾラーパラダイム From NeRFLiX to NeRFLiX++: A General NeRF-Agnostic Restorer Paradigm ( http://arxiv.org/abs/2306.06388v2 ) ライセンス: Link先を確認 | Kun Zhou, Wenbo Li, Nianjuan Jiang, Xiaoguang Han, Jiangbo Lu | (参考訳) ニューラルレイディアンス場(NeRF)は、新規なビュー合成において大きな成功を収めている。
しかし,非完全キャリブレーション情報やシーン表現の不正確さのため,現実のシーンから高品質な詳細を復元することは,既存のNeRFベースのアプローチでは依然として困難である。
高品質なトレーニングフレームであっても、NeRFモデルで作られた合成された新しいビューは、ノイズやぼやけなどの顕著なレンダリングアーチファクトに悩まされている。
そこで本研究では,分解駆動の視点間ミキサーを学習するNeRFLiXを提案する。
特に,nerf型劣化モデリング手法を設計,大規模トレーニングデータを構築し,深層ニューラルネットワークのnerfネイティブレンダリングアーティファクトを効果的に除去することを可能にした。
さらに, 劣化除去の他に, 高度に関連性の高い訓練画像を融合し, 最先端のNeRFモデルの性能を全く新しいレベルに押し上げ, 高度光写実的合成ビューを生成する視点間集約フレームワークを提案する。
このパラダイムに基づき,より強固な2段階のnrf分解シミュレータと高速なビューポイント間ミキサーを備えたnerflix++をさらに提示し,計算効率を大幅に向上した優れた性能を実現する。
特に、NeRFLiX++はノイズの多い低解像度のNeRFレンダリングビューからフォトリアリスティックな超高解像度出力を復元することができる。
様々な新しいビュー合成ベンチマークで、NeRFLiX++の優れた復元能力を実証した。 Neural radiance fields (NeRF) have shown great success in novel view synthesis. However, recovering high-quality details from real-world scenes is still challenging for the existing NeRF-based approaches, due to the potential imperfect calibration information and scene representation inaccuracy. Even with high-quality training frames, the synthetic novel views produced by NeRF models still suffer from notable rendering artifacts, such as noise and blur. To address this, we propose NeRFLiX, a general NeRF-agnostic restorer paradigm that learns a degradation-driven inter-viewpoint mixer. Specially, we design a NeRF-style degradation modeling approach and construct large-scale training data, enabling the possibility of effectively removing NeRF-native rendering artifacts for deep neural networks. Moreover, beyond the degradation removal, we propose an inter-viewpoint aggregation framework that fuses highly related high-quality training images, pushing the performance of cutting-edge NeRF models to entirely new levels and producing highly photo-realistic synthetic views. Based on this paradigm, we further present NeRFLiX++ with a stronger two-stage NeRF degradation simulator and a faster inter-viewpoint mixer, achieving superior performance with significantly improved computational efficiency. Notably, NeRFLiX++ is capable of restoring photo-realistic ultra-high-resolution outputs from noisy low-resolution NeRF-rendered views. Extensive experiments demonstrate the excellent restoration ability of NeRFLiX++ on various novel view synthesis benchmarks. | 翻訳日:2023-07-11 18:04:48 公開日:2023-07-10 |
# 対照的学習アプローチによる流動性テイカーズ行動表現 Liquidity takers behavior representation through a contrastive learning approach ( http://arxiv.org/abs/2306.05987v2 ) ライセンス: Link先を確認 | Ruihua Ruan, Emmanuel Bacry, Jean-Fran\c{c}ois Muzy | (参考訳) ユーロネクストのCAC40データに対するラベル付き注文へのアクセスにより、我々は注文された注文に基づいて市場のエージェントの行動を分析することができる。
本研究では,三重項損失を用いた自己教師型学習モデルを構築し,エージェント市場注文の表現を効果的に学習する。
この学習された表現を取得することで、様々な下流タスクが実現可能である。
本研究では,エージェント順序の学習表現ベクトル上でのK平均クラスタリングアルゴリズムを用いて,クラスタ内の異なる動作タイプを識別する。 Thanks to the access to the labeled orders on the CAC40 data from Euronext, we are able to analyze agents' behaviors in the market based on their placed orders. In this study, we construct a self-supervised learning model using triplet loss to effectively learn the representation of agent market orders. By acquiring this learned representation, various downstream tasks become feasible. In this work, we utilize the K-means clustering algorithm on the learned representation vectors of agent orders to identify distinct behavior types within each cluster. | 翻訳日:2023-07-11 18:04:22 公開日:2023-07-10 |
# バイアス緩和:モデル説明の改善による画像分類の強化 Mitigating Bias: Enhancing Image Classification by Improving Model Explanations ( http://arxiv.org/abs/2307.01473v2 ) ライセンス: Link先を確認 | Raha Ahmadi, Mohammad Javad Rajabi, Mohammad Khalooie, Mohammad Sabokrou | (参考訳) ディープラーニングモデルは、トレーニングデータから複雑なパターンや概念を学ぶ際、顕著な能力を示した。
しかし、近年の研究では、これらのモデルは画像の背景に存在する単純で容易に識別できる特徴に大きく依存する傾向にあることが示されている。
この現象は、画像への関心の重要要素が隠蔽される可能性があるため、画像分類器に挑戦する。
本稿では,この問題に対処する新しいアプローチを提案し,画像分類器による主概念の学習を改善する。
我々の中心的な考え方は、分類作業中にモデルがフォアグラウンドに注意を向けるのを同時に導くことを中心に展開する。
関心の主対象をカプセル化した前景を強調することで,背景の優越的な影響からモデルの焦点を逸脱させることを目指している。
これを実現するために、モデルに十分な注意を前景に割り当てるよう促すメカニズムを導入する。
損失関数の変更や追加のアーキテクチャコンポーネントの導入など,さまざまな戦略を検討し,画像内の主概念を効果的に把握できるようにする。
さらに,様々な注意機構がモデル性能に与える影響について検討し,その効果について考察する。
ベンチマークデータセットの広範な実験を通じて,画像分類器の分類精度を向上させるための提案手法の有効性を実証する。
本研究は,画像内の主概念の理解と表現における前景的注意の重要性を浮き彫りにしたものである。
本研究は,画像分類分野の進展に寄与し,より堅牢で正確なディープラーニングモデルの開発に有用な知見を提供する。 Deep learning models have demonstrated remarkable capabilities in learning complex patterns and concepts from training data. However, recent findings indicate that these models tend to rely heavily on simple and easily discernible features present in the background of images rather than the main concepts or objects they are intended to classify. This phenomenon poses a challenge to image classifiers as the crucial elements of interest in images may be overshadowed. In this paper, we propose a novel approach to address this issue and improve the learning of main concepts by image classifiers. Our central idea revolves around concurrently guiding the model's attention toward the foreground during the classification task. By emphasizing the foreground, which encapsulates the primary objects of interest, we aim to shift the focus of the model away from the dominant influence of the background. To accomplish this, we introduce a mechanism that encourages the model to allocate sufficient attention to the foreground. We investigate various strategies, including modifying the loss function or incorporating additional architectural components, to enable the classifier to effectively capture the primary concept within an image. Additionally, we explore the impact of different foreground attention mechanisms on model performance and provide insights into their effectiveness. Through extensive experimentation on benchmark datasets, we demonstrate the efficacy of our proposed approach in improving the classification accuracy of image classifiers. Our findings highlight the importance of foreground attention in enhancing model understanding and representation of the main concepts within images. The results of this study contribute to advancing the field of image classification and provide valuable insights for developing more robust and accurate deep-learning models. | 翻訳日:2023-07-11 17:58:22 公開日:2023-07-10 |
# 生成逆ネットワークを用いたテキスト合成のための教師なしテキスト埋め込み空間生成 Unsupervised Text Embedding Space Generation Using Generative Adversarial Networks for Text Synthesis ( http://arxiv.org/abs/2306.17181v2 ) ライセンス: Link先を確認 | Jun-Min Lee, Tae-Bin Ha | (参考訳) GAN(Generative Adversarial Networks)は、データ合成のモデルであり、ジェネレータと識別器の競合を通じて可塑性データを生成する。
画像合成へのGANの適用は広く研究されているが、自然言語生成には固有の制限がある。
自然言語は離散トークンで構成されているため、生成元はバックプロパゲーションによる勾配の更新が困難であるため、ほとんどのテキストGAN研究は報酬システムに基づいてランダムトークンから始まる文を生成する。
このように、先行研究のジェネレータは、逆行訓練の前に自己回帰的に事前訓練され、合成文がトレーニングデータを再生するデータを記憶させる。
本稿では,従来のGANに類似したフレームワークを用いて文を合成する。
より具体的には、勾配バックプロパゲーション問題を解決するために、離散トークンの代わりに連続的なテキスト埋め込み空間を生成するtext embedded space generative adversarial networks (tesgan)を提案する。
さらに、テッガンは、データ記憶問題を克服するために、トレーニングデータのテキストを直接参照しない教師なし学習を行う。
この方法を採用することで、テッガンは新しい文を合成し、教師なし学習によるテキスト合成の可能性を示すことができる。
大規模言語モデルと,テキストを連続的な空間として見る新たな視点を組み合わせた,広範な研究が期待できる。 Generative Adversarial Networks (GAN) is a model for data synthesis, which creates plausible data through the competition of generator and discriminator. Although GAN application to image synthesis is extensively studied, it has inherent limitations to natural language generation. Because natural language is composed of discrete tokens, a generator has difficulty updating its gradient through backpropagation; therefore, most text-GAN studies generate sentences starting with a random token based on a reward system. Thus, the generators of previous studies are pre-trained in an autoregressive way before adversarial training, causing data memorization that synthesized sentences reproduce the training data. In this paper, we synthesize sentences using a framework similar to the original GAN. More specifically, we propose Text Embedding Space Generative Adversarial Networks (TESGAN) which generate continuous text embedding spaces instead of discrete tokens to solve the gradient backpropagation problem. Furthermore, TESGAN conducts unsupervised learning which does not directly refer to the text of the training data to overcome the data memorization issue. By adopting this novel method, TESGAN can synthesize new sentences, showing the potential of unsupervised learning for text synthesis. We expect to see extended research combining Large Language Models with a new perspective of viewing text as an continuous space. | 翻訳日:2023-07-11 17:56:54 公開日:2023-07-10 |
# マルチモーダルデータセットに対する数値データインプテーション:確率的最接近核密度アプローチ Numerical Data Imputation for Multimodal Data Sets: A Probabilistic Nearest-Neighbor Kernel Density Approach ( http://arxiv.org/abs/2306.16906v2 ) ライセンス: Link先を確認 | Florian Lalande and Kenji Doya | (参考訳) 数値データインプテーションアルゴリズムは、欠落した値を推定で置き換え、不完全なデータセットを活用する。
現在の計算法は、観測されていない基底真理と暗示値との誤差を最小化する。
しかし、この戦略はマルチモーダル分布や複雑な分布の存在下では、悪影響をもたらすアーティファクトを生み出す可能性がある。
この問題に対処するために、近辺推定(k$NN)と密度推定(KDE)を組み合わせたデータ計算法である$k$NN$\times$KDEアルゴリズムを導入する。
異なるデータ欠落シナリオと様々なデータ欠落率を有する人工的および実世界のデータを用いた従来のデータインプテーション手法と比較し,本手法が複雑なオリジナルデータ構造に対応し,データインプテーション誤差を低減し,確率的推定を現在の手法よりも高い確率で提供することを示す。
コードはオープンソースでコミュニティ向けにリリースします。 https://github.com/deltafloflo/knnxkde Numerical data imputation algorithms replace missing values by estimates to leverage incomplete data sets. Current imputation methods seek to minimize the error between the unobserved ground truth and the imputed values. But this strategy can create artifacts leading to poor imputation in the presence of multimodal or complex distributions. To tackle this problem, we introduce the $k$NN$\times$KDE algorithm: a data imputation method combining nearest neighbor estimation ($k$NN) and density estimation with Gaussian kernels (KDE). We compare our method with previous data imputation methods using artificial and real-world data with different data missing scenarios and various data missing rates, and show that our method can cope with complex original data structure, yields lower data imputation errors, and provides probabilistic estimates with higher likelihood than current methods. We release the code in open-source for the community: https://github.com/DeltaFloflo/knnxkde | 翻訳日:2023-07-11 17:56:34 公開日:2023-07-10 |
# オブジェクト指向物体検出のためのメトリクス整列サンプル選択と臨界特徴サンプリング Metric-aligned Sample Selection and Critical Feature Sampling for Oriented Object Detection ( http://arxiv.org/abs/2306.16718v2 ) ライセンス: Link先を確認 | Peng Sun, Yongbin Zheng, Wenqi Wu, Wanying Xu and Shengjian Bai | (参考訳) 任意指向のオブジェクト検出は、比較的新しいが難しいタスクである。
目覚ましい進展はあったものの、方向、スケール、アスペクト比、および空中画像における物体の視覚的外観のパターンの多様さにより、未解決の問題が多く残っている。
既存の手法の多くは粗粒度固定ラベル割当戦略を採用しており、分類スコアと局所化精度の不整合に苦しむ。
まず, 固定IoU戦略によるサンプル選択と回帰損失計算の整合性を評価するために, サンプルの品質を評価するためにアフィン変換を導入し, 距離に基づくラベル割り当て戦略を提案する。
提案手法は,物体の形状と回転特性に応じて動的に試料を選択可能である。
第2に,分類と局所化の不整合性に対処するため,分類タスクのサンプリング位置の局所化改善を行い,重要な特徴を正確に抽出する臨界特徴サンプリング(CFS)モジュールを提案する。
第3に,学習中の提案の統計に基づいて回帰損失関数の形を変え,高品質なサンプルを適応的に選択するためのスケール制御型smoous $l_1$ loss (sc-loss)を提案する。
大規模な実験は、DOTA、FAIR1M-1.0、HRSC2016、UCAS-AODの4つの挑戦的な回転物体検出データセットに対して行われた。
その結果,提案する検出器の最先端の精度が得られた。 Arbitrary-oriented object detection is a relatively emerging but challenging task. Although remarkable progress has been made, there still remain many unsolved issues due to the large diversity of patterns in orientation, scale, aspect ratio, and visual appearance of objects in aerial images. Most of the existing methods adopt a coarse-grained fixed label assignment strategy and suffer from the inconsistency between the classification score and localization accuracy. First, to align the metric inconsistency between sample selection and regression loss calculation caused by fixed IoU strategy, we introduce affine transformation to evaluate the quality of samples and propose a distance-based label assignment strategy. The proposed metric-aligned selection (MAS) strategy can dynamically select samples according to the shape and rotation characteristic of objects. Second, to further address the inconsistency between classification and localization, we propose a critical feature sampling (CFS) module, which performs localization refinement on the sampling location for classification task to extract critical features accurately. Third, we present a scale-controlled smooth $L_1$ loss (SC-Loss) to adaptively select high quality samples by changing the form of regression loss function based on the statistics of proposals during training. Extensive experiments are conducted on four challenging rotated object detection datasets DOTA, FAIR1M-1.0, HRSC2016, and UCAS-AOD. The results show the state-of-the-art accuracy of the proposed detector. | 翻訳日:2023-07-11 17:56:17 公開日:2023-07-10 |
# AI生成テキストの検出ツールのテスト Testing of Detection Tools for AI-Generated Text ( http://arxiv.org/abs/2306.15666v2 ) ライセンス: Link先を確認 | Debora Weber-Wulff (University of Applied Sciences HTW Berlin, Germany), Alla Anohina-Naumeca (Riga Technical University, Latvia), Sonja Bjelobaba (Uppsala University, Sweden), Tom\'a\v{s} Folt\'ynek (Masaryk University, Czechia), Jean Guerrero-Dib (Universidad de Monterrey, Mexico), Olumide Popoola (Queen Mary University of London, UK), Petr \v{S}igut (Masaryk University, Czechia), Lorna Waddington (University of Leeds, UK) | (参考訳) 近年の大量言語モデルでは,人工知能(ai)生成コンテンツの学術環境における不公平利用の潜在的リスクが強調され,その検出方法の探索への取り組みが強化されている。
本稿では,人工知能生成テキストの検出ツールの汎用性を検証し,精度とエラータイプ分析に基づいて評価する。
具体的には、既存の検出ツールが人間のテキストとChatGPT生成テキストとを確実に区別できるかどうか、機械翻訳とコンテンツ難読化技術がAI生成テキストの検出に影響を及ぼすかどうか、といった研究課題に答えようとしている。
この研究は、12の公開ツールと2つの商用システム(TurnitinとPlagiarismCheck)をカバーし、学術的に広く使われている。
研究者たちは、利用可能な検出ツールは正確でも信頼性もなく、AI生成したテキストを検出するのではなく、アウトプットを人間書きと分類する主なバイアスがある、と結論付けている。
さらに、コンテンツの難読化技術はツールのパフォーマンスを著しく悪化させる。
この研究にはいくつかの大きな貢献がある。
第一に、この分野における最新の科学的、非科学的努力を要約する。
第二に、これまで行われた最も包括的なテストのうちの1つで、厳密な研究方法論、オリジナルのドキュメントセット、ツールの広範囲にわたる結果を示す。
第3に、学術的環境におけるAI生成テキストの検出ツールの使用の意味と欠点について論じる。 Recent advances in generative pre-trained transformer large language models have emphasised the potential risks of unfair use of artificial intelligence (AI) generated content in an academic environment and intensified efforts in searching for solutions to detect such content. The paper examines the general functionality of detection tools for artificial intelligence generated text and evaluates them based on accuracy and error type analysis. Specifically, the study seeks to answer research questions about whether existing detection tools can reliably differentiate between human-written text and ChatGPT-generated text, and whether machine translation and content obfuscation techniques affect the detection of AI-generated text. The research covers 12 publicly available tools and two commercial systems (Turnitin and PlagiarismCheck) that are widely used in the academic setting. The researchers conclude that the available detection tools are neither accurate nor reliable and have a main bias towards classifying the output as human-written rather than detecting AI-generated text. Furthermore, content obfuscation techniques significantly worsen the performance of tools. The study makes several significant contributions. First, it summarises up-to-date similar scientific and non-scientific efforts in the field. Second, it presents the result of one of the most comprehensive tests conducted so far, based on a rigorous research methodology, an original document set, and a broad coverage of tools. Third, it discusses the implications and drawbacks of using detection tools for AI-generated text in academic settings. | 翻訳日:2023-07-11 17:55:52 公開日:2023-07-10 |
# EPIC-KITCHEN Challenge 2023:TREK-150 Single Object Tracking ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: TREK-150 Single Object Tracking ( http://arxiv.org/abs/2307.02508v2 ) ライセンス: Link先を確認 | Yuanyou Xu, Jiahao Li, Zongxin Yang, Yi Yang, Yueting Zhuang | (参考訳) Associating Objects with Transformers (AOT)フレームワークは、ビデオオブジェクトのトラッキングとセグメンテーションのための幅広い複雑なシナリオにおいて、例外的なパフォーマンスを示した。
本研究では,segment anything model (sam) と alpha-refine の助けを借りて,バウンディングボックスを参照フレーム内のマスクに変換し,そのマスクを現在のフレームに伝播させ,タスクをビデオオブジェクト追跡 (vot) からビデオオブジェクトセグメンテーション (vos) に変換する。
さらに,マルチ機能スケールでトランスフォーマーを組み込んだAOTシリーズの変種であるMSDeAOTを紹介する。
MSDeAOTは16と8の2つの特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
設計の有効性の証明として,EPIC-KITCHENS TREK-150 Object Tracking Challengeで1位を獲得した。 The Associating Objects with Transformers (AOT) framework has exhibited exceptional performance in a wide range of complex scenarios for video object tracking and segmentation. In this study, we convert the bounding boxes to masks in reference frames with the help of the Segment Anything Model (SAM) and Alpha-Refine, and then propagate the masks to the current frame, transforming the task from Video Object Tracking (VOT) to video object segmentation (VOS). Furthermore, we introduce MSDeAOT, a variant of the AOT series that incorporates transformers at multiple feature scales. MSDeAOT efficiently propagates object masks from previous frames to the current frame using two feature scales of 16 and 8. As a testament to the effectiveness of our design, we achieved the 1st place in the EPIC-KITCHENS TREK-150 Object Tracking Challenge. | 翻訳日:2023-07-11 17:46:18 公開日:2023-07-10 |
# 正確な校正モデルのための集合学習 Set Learning for Accurate and Calibrated Models ( http://arxiv.org/abs/2307.02245v2 ) ライセンス: Link先を確認 | Lukas Muttenthaler and Robert A. Vandermeulen and Qiuyi Zhang and Thomas Unterthiner and Klaus-Robert M\"uller | (参考訳) モデル過信と不適切なキャリブレーションは機械学習では一般的であり、標準的な経験的リスク最小化を適用する場合の考慮が難しい。
そこで本研究では,単一例ではなく集合に対するクロスエントロピー誤差を最小限に抑える,奇数k$out Learning(OKO)と呼ばれる,これらの問題を緩和する新しい手法を提案する。
これにより、モデルがデータサンプル間の相関をキャプチャし、特に限られたトレーニングデータとクラス不均衡なレシエーションにおいて、精度とキャリブレーションの両方を向上することができる。
おそらく、OKOは硬いラベルでトレーニングしたり、温度スケーリングのような追加のキャリブレーションパラメータチューニングを落としたりしても、キャリブレーションが良くなる。
理論的な正当性を提供し、オコが自然により良い校正をもたらすことを立証し、理論的な知見を裏付ける広範な実験分析を行う。
OKOは、多くの設定に簡単に適応できる一般的なフレームワークであり、トレーニングされたモデルは、実行時のオーバーヘッドやアーキテクチャの変更を伴わずに、推論時に単一の例に適用できる。 Model overconfidence and poor calibration are common in machine learning and difficult to account for when applying standard empirical risk minimization. In this work, we propose a novel method to alleviate these problems that we call odd-$k$-out learning (OKO), which minimizes the cross-entropy error for sets rather than for single examples. This naturally allows the model to capture correlations across data examples and achieves both better accuracy and calibration, especially in limited training data and class-imbalanced regimes. Perhaps surprisingly, OKO often yields better calibration even when training with hard labels and dropping any additional calibration parameter tuning, such as temperature scaling. We provide theoretical justification, establishing that OKO naturally yields better calibration, and provide extensive experimental analyses that corroborate our theoretical findings. We emphasize that OKO is a general framework that can be easily adapted to many settings and the trained model can be applied to single examples at inference time, without introducing significant run-time overhead or architecture changes. | 翻訳日:2023-07-11 17:46:03 公開日:2023-07-10 |
# 3次元シミュレーションアンサンブルにおける統計依存性のインタラクティブ可視化のためのニューラルフィールド Neural Fields for Interactive Visualization of Statistical Dependencies in 3D Simulation Ensembles ( http://arxiv.org/abs/2307.02203v2 ) ライセンス: Link先を確認 | Fatemeh Farokhmanesh, Kevin H\"ohlein, Christoph Neuhauser, and R\"udiger Westermann | (参考訳) 大規模な3次元シミュレーションアンサンブルにおいて,物理変数の値間の統計的依存関係をコンパクトに表現し,効率的に再構築することのできる,最初のニューラルネットワークを提案する。
線形依存を超えて、我々は相互情報を非線形依存の尺度とみなす。
我々は,複数の物理変数を250 x 352 x 20シミュレーショングリッドに格納した,1000人からなる大天気予報アンサンブルを用いて,学習と再構築を実証する。
計算集約型統計推定器を実行時に回避することにより、主要な依存構造を再構築するためのメモリと計算要求を著しく低減することを示した。
これにより、etimatorをgpuによる直接ボリュームレンダラに組み込み、選択したドメインポイントに対するすべての相互依存関係をインタラクティブに可視化することができる。 We present the first neural network that has learned to compactly represent and can efficiently reconstruct the statistical dependencies between the values of physical variables at different spatial locations in large 3D simulation ensembles. Going beyond linear dependencies, we consider mutual information as a measure of non-linear dependence. We demonstrate learning and reconstruction with a large weather forecast ensemble comprising 1000 members, each storing multiple physical variables at a 250 x 352 x 20 simulation grid. By circumventing compute-intensive statistical estimators at runtime, we demonstrate significantly reduced memory and computation requirements for reconstructing the major dependence structures. This enables embedding the estimator into a GPU-accelerated direct volume renderer and interactively visualizing all mutual dependencies for a selected domain point. | 翻訳日:2023-07-11 17:45:44 公開日:2023-07-10 |
# ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised Video Object Segmentation ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised Video Object Segmentation ( http://arxiv.org/abs/2307.02010v2 ) ライセンス: Link先を確認 | Jiahao Li, Yuanyou Xu, Zongxin Yang, Yi Yang, Yueting Zhuang | (参考訳) Associating Objects with Transformers (AOT)フレームワークは、ビデオオブジェクトセグメンテーションの幅広い複雑なシナリオにおいて、例外的なパフォーマンスを示した。
本研究では,複数の特徴尺度で変換器を組み込んだAOTシリーズの変種であるMSDeAOTを紹介する。
階層的なGated Propagation Module (GPM)を活用することで、MSDeAOTは16のストライドを持つ特徴スケールを用いて、オブジェクトマスクを以前のフレームから現在のフレームに効率的に伝播する。
さらに,GPMを8ストライドで改良した機能スケールで採用することにより,小型物体の検出・追跡の精度が向上した。
テスト時間拡張とモデルアンサンブル技術の実装により,EPIC-KITCHEN VISOR セミ教師付きビデオオブジェクトセグメンテーションチャレンジの上位に位置する。 The Associating Objects with Transformers (AOT) framework has exhibited exceptional performance in a wide range of complex scenarios for video object segmentation. In this study, we introduce MSDeAOT, a variant of the AOT series that incorporates transformers at multiple feature scales. Leveraging the hierarchical Gated Propagation Module (GPM), MSDeAOT efficiently propagates object masks from previous frames to the current frame using a feature scale with a stride of 16. Additionally, we employ GPM in a more refined feature scale with a stride of 8, leading to improved accuracy in detecting and tracking small objects. Through the implementation of test-time augmentations and model ensemble techniques, we achieve the top-ranking position in the EPIC-KITCHEN VISOR Semi-supervised Video Object Segmentation Challenge. | 翻訳日:2023-07-11 17:45:32 公開日:2023-07-10 |
# 3次元顔における創傷充満の促進:自動分割と創傷顔面再生アプローチ Advancing Wound Filling Extraction on 3D Faces: A Auto-Segmentation and Wound Face Regeneration Approach ( http://arxiv.org/abs/2307.01844v2 ) ライセンス: Link先を確認 | Duong Q. Nguyen and Thinh D. Le and Phuong D. Nguyen and Nga T.K. Le and H. Nguyen-Xuan | (参考訳) 顔面創傷の分節は, 術前計画および各種医療応用における患者予後の最適化において重要な役割を担っている。
本稿では,2ストリームグラフ畳み込みネットワークを用いた3次元顔面創傷セグメンテーションの効率的な自動化手法を提案する。
提案手法は,Cir3D-FaIRデータセットを活用し,異なる損失関数を用いた広範囲な実験を通じてデータ不均衡の課題に対処する。
精度の高いセグメンテーションを実現するために,徹底的な実験を行い,訓練したモデルから高性能モデルを選択した。
選択したモデルは複雑な3次元顔面外傷に対して例外的なセグメンテーション性能を示す。
さらに, このセグメンテーションモデルに基づいて, 3次元顔の創傷充填体を抽出し, 前報と比較する手法を提案する。
提案手法は, テストスイート上で0.9999986\%の精度を達成し, 先行手法の性能を上回った。
この結果から,3Dプリンティング技術を用いて創傷充填形状を図示する。
本研究の結果は,術前計画と介入設計に関わる医師に有意な影響を及ぼす。
顔の創傷断面積の自動化と創傷充満抽出の精度の向上により, 介入を慎重に評価し, 最適化し, 患者の治療効果を高めることができる。
さらに、皮膚組織インプラントの印刷に機械学習と3dバイオプリンティングを活用し、顔面再建の進歩に寄与する。
ソースコードは \url{https://github.com/SIMOGroup/WoundFilling3D} で公開されています。 Facial wound segmentation plays a crucial role in preoperative planning and optimizing patient outcomes in various medical applications. In this paper, we propose an efficient approach for automating 3D facial wound segmentation using a two-stream graph convolutional network. Our method leverages the Cir3D-FaIR dataset and addresses the challenge of data imbalance through extensive experimentation with different loss functions. To achieve accurate segmentation, we conducted thorough experiments and selected a high-performing model from the trained models. The selected model demonstrates exceptional segmentation performance for complex 3D facial wounds. Furthermore, based on the segmentation model, we propose an improved approach for extracting 3D facial wound fillers and compare it to the results of the previous study. Our method achieved a remarkable accuracy of 0.9999986\% on the test suite, surpassing the performance of the previous method. From this result, we use 3D printing technology to illustrate the shape of the wound filling. The outcomes of this study have significant implications for physicians involved in preoperative planning and intervention design. By automating facial wound segmentation and improving the accuracy of wound-filling extraction, our approach can assist in carefully assessing and optimizing interventions, leading to enhanced patient outcomes. Additionally, it contributes to advancing facial reconstruction techniques by utilizing machine learning and 3D bioprinting for printing skin tissue implants. Our source code is available at \url{https://github.com/SIMOGroup/WoundFilling3D}. | 翻訳日:2023-07-11 17:45:16 公開日:2023-07-10 |
# erm oracleによるオンライン学習と無限のゲーム解決 Online Learning and Solving Infinite Games with an ERM Oracle ( http://arxiv.org/abs/2307.01689v2 ) ライセンス: Link先を確認 | Angelos Assos, Idan Attias, Yuval Dagan, Constantinos Daskalakis, Maxwell Fishelson | (参考訳) ERMは確率的学習環境でほぼ最適の一般化誤差を達成するのに十分であるが、オンライン学習環境では、一般的な概念クラスのためのアルゴリズムが標準最適アルゴリズム(SOA)のような計算的に非効率なオラクルに依存することは知られていない。
本研究では,ERMオーラクルコールのみに依存するオンラインバイナリ分類設定のアルゴリズムを提案する。
我々は、基礎となる概念クラスのリトルストーンとしきい値次元の観点で後悔を締めくくった。
我々は、erm oracleがベストレスポンスオラクルと解釈できる非パラメトリックゲームで同様の結果を得ることができ、他のプレイヤーのプレイ履歴に対するプレイヤーのベストレスポンスを見つけることができる。
この設定において、我々は、ベストレスポンスオラクルにのみ依存し、2人のプレイヤーのゼロサムゲームにおける近似ミニマックス平衡とマルチプレイヤーの一般サムゲームにおける近似粗相関平衡に収束する学習アルゴリズムを提供する。
我々のアルゴリズムは二値ゲームと実値ゲームの両方に適用でき、大きなゲームを解く実践において、二重オラクルと多重オラクルのアルゴリズムを広く活用するための正当化を提供すると見なすことができる。 While ERM suffices to attain near-optimal generalization error in the stochastic learning setting, this is not known to be the case in the online learning setting, where algorithms for general concept classes rely on computationally inefficient oracles such as the Standard Optimal Algorithm (SOA). In this work, we propose an algorithm for online binary classification setting that relies solely on ERM oracle calls, and show that it has finite regret in the realizable setting and sublinearly growing regret in the agnostic setting. We bound the regret in terms of the Littlestone and threshold dimensions of the underlying concept class. We obtain similar results for nonparametric games, where the ERM oracle can be interpreted as a best response oracle, finding the best response of a player to a given history of play of the other players. In this setting, we provide learning algorithms that only rely on best response oracles and converge to approximate-minimax equilibria in two-player zero-sum games and approximate coarse correlated equilibria in multi-player general-sum games, as long as the game has a bounded fat-threshold dimension. Our algorithms apply to both binary-valued and real-valued games and can be viewed as providing justification for the wide use of double oracle and multiple oracle algorithms in the practice of solving large games. | 翻訳日:2023-07-11 17:44:26 公開日:2023-07-10 |
# ゼロショットデータ圧縮による道路異常検出のためのエッジストレージ管理 Edge Storage Management Recipe with Zero-Shot Data Compression for Road Anomaly Detection ( http://arxiv.org/abs/2307.04298v1 ) ライセンス: Link先を確認 | YeongHyeon Park and Uju Gim and Myung Jin Kim | (参考訳) 近年の研究では,データ収集を同時に行うエッジコンピューティングに基づく道路異常検出システムについて述べる。
しかし、エッジコンピュータはデータストレージが小さいが、既存のモデルを更新したり、新しい方法を開発したりするために、収集したオーディオサンプルを長時間保存する必要がある。
したがって,高忠実度オーディオを保存しつつ,効率的なストレージ管理手法を検討すべきである。
低分解能マイクのようなハードウェアパースペクティブなアプローチは、ファイルサイズを減らす直感的な方法であるが、高周波コンポーネントを根本的に遮断するため推奨されない。
一方、収集した高解像度オーディオをコンパクトなコードに符号化する計算ファイル圧縮手法は、対応する復号法も提供するので推奨すべきである。
そこで本研究では,単純かつ効果的なオートエンコーダに基づくデータ圧縮手法を提案する。
事前訓練されたオートエンコーダはオーディオ超解像のために訓練され、任意のサンプリングレートを符号化または復号することができる。
さらに、エッジから中央サーバへのデータ転送の通信コストも削減される。
比較実験の結果,ゼロショット音声圧縮とデ圧縮は異常検出性能を高く保ち,ストレージと送信効率を向上することを確認した。 Recent studies show edge computing-based road anomaly detection systems which may also conduct data collection simultaneously. However, the edge computers will have small data storage but we need to store the collected audio samples for a long time in order to update existing models or develop a novel method. Therefore, we should consider an approach for efficient storage management methods while preserving high-fidelity audio. A hardware-perspective approach, such as using a low-resolution microphone, is an intuitive way to reduce file size but is not recommended because it fundamentally cuts off high-frequency components. On the other hand, a computational file compression approach that encodes collected high-resolution audio into a compact code should be recommended because it also provides a corresponding decoding method. Motivated by this, we propose a way of simple yet effective pre-trained autoencoder-based data compression method. The pre-trained autoencoder is trained for the purpose of audio super-resolution so it can be utilized to encode or decode any arbitrary sampling rate. Moreover, it will reduce the communication cost for data transmission from the edge to the central server. Via the comparative experiments, we confirm that the zero-shot audio compression and decompression highly preserve anomaly detection performance while enhancing storage and transmission efficiency. | 翻訳日:2023-07-11 14:32:33 公開日:2023-07-10 |
# 合成神経画像品質評価のためのk-space-aware cross-modality score K-Space-Aware Cross-Modality Score for Synthesized Neuroimage Quality Assessment ( http://arxiv.org/abs/2307.04296v1 ) ライセンス: Link先を確認 | Jinbao Wang, Guoyang Xie, Yawen Huang, Jiayi Lyu, Feng Zheng, Yefeng Zheng, Yaochu Jin | (参考訳) クロスモダリティな医用画像合成をどう評価するかという問題は、ほとんど解明されていない。
PSNRやSSIMのような最もよく使われる手段は、構造的特徴の分析に焦点をあてるが、重要な病変の位置と医療画像の基本的なk空間の特殊性は無視する。
この問題を克服するために,我々は,この課題の進展を促すための新しい計量kクロスを提案する。
具体的には、K-CROSSは、トレーニング済みのマルチモードセグメンテーションネットワークを使用して、病変の位置を予測し、テクスチャの詳細や明るさ強度などの特徴を表現するための腫瘍エンコーダを使用する。
磁気共鳴イメージングの原理から周波数固有情報をさらに反映するために、k空間の特徴と視覚特徴の両方を入手し、周波数再構成ペナルティを課した包括的エンコーダに採用する。
構造共有エンコーダは、両方のモダリティに対して固有の共通構造情報をキャプチャするために類似性損失で設計および制約されている。
その結果,病変領域,k空間,解剖学的構造から得られた特徴はすべて捕捉され,品質評価装置として機能する。
本研究では,6,000の放射線科医の判断によるnirps(cross-modality neuroimaging perceptual similarity)データセットを構築し,その性能評価を行った。
広汎な実験により,提案手法が他の指標,特にNIRPSの放射線学者よりも優れていることが示された。 The problem of how to assess cross-modality medical image synthesis has been largely unexplored. The most used measures like PSNR and SSIM focus on analyzing the structural features but neglect the crucial lesion location and fundamental k-space speciality of medical images. To overcome this problem, we propose a new metric K-CROSS to spur progress on this challenging problem. Specifically, K-CROSS uses a pre-trained multi-modality segmentation network to predict the lesion location, together with a tumor encoder for representing features, such as texture details and brightness intensities. To further reflect the frequency-specific information from the magnetic resonance imaging principles, both k-space features and vision features are obtained and employed in our comprehensive encoders with a frequency reconstruction penalty. The structure-shared encoders are designed and constrained with a similarity loss to capture the intrinsic common structural information for both modalities. As a consequence, the features learned from lesion regions, k-space, and anatomical structures are all captured, which serve as our quality evaluators. We evaluate the performance by constructing a large-scale cross-modality neuroimaging perceptual similarity (NIRPS) dataset with 6,000 radiologist judgments. Extensive experiments demonstrate that the proposed method outperforms other metrics, especially in comparison with the radiologists on NIRPS. | 翻訳日:2023-07-11 14:31:55 公開日:2023-07-10 |
# ジェネレーティブオーディオAIの需要駆動的展望 A Demand-Driven Perspective on Generative Audio AI ( http://arxiv.org/abs/2307.04292v1 ) ライセンス: Link先を確認 | Sangshin Oh, Minsung Kang, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon | (参考訳) AI研究の展開を成功させるためには、産業の要求を理解することが不可欠である。
本稿では,プロのオーディオ技術者が行った調査の結果について述べる。研究の優先順位を決定し,様々な研究課題を定めていく。
また,本調査に基づく音声品質と制御性に関する課題を概説する。
分析では、現在、データセットの可用性が高品質なオーディオ生成のボトルネックとなっていることを強調している。
最後に,実証的なエビデンスを持ついくつかの問題に対して,潜在的な解決策を提案する。 To achieve successful deployment of AI research, it is crucial to understand the demands of the industry. In this paper, we present the results of a survey conducted with professional audio engineers, in order to determine research priorities and define various research tasks. We also summarize the current challenges in audio quality and controllability based on the survey. Our analysis emphasizes that the availability of datasets is currently the main bottleneck for achieving high-quality audio generation. Finally, we suggest potential solutions for some revealed issues with empirical evidence. | 翻訳日:2023-07-11 14:31:11 公開日:2023-07-10 |
# 水素分子の電子構造:古典計算と量子計算のチュートリアル演習 The Electronic Structure of the Hydrogen Molecule: A Tutorial Exercise in Classical and Quantum Computation ( http://arxiv.org/abs/2307.04290v1 ) ライセンス: Link先を確認 | Vincent Graves, Christoph S\"underhauf, Nick S. Blunt, R\'obert Izs\'ak, Mil\'an Sz\H{o}ri | (参考訳) 本稿では,古典的コンピュータと量子コンピュータの両方における水素分子の計算について論じる。
前者の場合、ハーツリー-フォック準位でのポテンシャルエネルギー曲線を計算し、最小基底で全ての状態の正確な結果を得ることで、それらを修正するために使用できる分子積分の計算について論じる。
スピン対称性のいくつかの側面も議論される。
量子コンピューティングの場合、第2量子化されたハミルトン写像と量子ビット写像から始める。
量子位相推定を用いて、トロテゼーションと量子化という2つの異なるアルゴリズムの回路を提供する。
最後に、量子誤差補正の意義について簡単に述べる。 In this educational paper, we will discuss calculations on the hydrogen molecule both on classical and quantum computers. In the former case, we will discuss the calculation of molecular integrals that can then be used to calculate potential energy curves at the Hartree--Fock level and to correct them by obtaining the exact results for all states in the minimal basis. Some aspects of spin-symmetry will also be discussed. In the case of quantum computing, we will start out from the second-quantized Hamiltonian and qubit mappings. Using quantum phase estimation, we then provide the circuits for two different algorithms: Trotteization and qubitization. Finally, the significance of quantum error correction will be briefly discussed. | 翻訳日:2023-07-11 14:30:39 公開日:2023-07-10 |
# 環境を越えた複雑なシステムダイナミクス学習のためのグラフODEの一般化 Generalizing Graph ODE for Learning Complex System Dynamics across Environments ( http://arxiv.org/abs/2307.04287v1 ) ライセンス: Link先を確認 | Zijie Huang and Yizhou Sun and Wei Wang | (参考訳) マルチエージェントシステムダイナミクスの学習は、生物学における分子動力学など、様々な現実世界の応用のために広く研究されている。
既存のモデルのほとんどは、観測された履歴データから単一のシステムダイナミクスを学び、将来の軌道を予測するために作られている。
しかし実際には、温度や重力などの潜伏する外因性要因が異なる異なる環境にまたがって生成される複数の系を観測することができる。
ひとつの単純な解決策は、複数の環境固有のモデルを学ぶことだが、環境間のダイナミクス間の潜在的な共通性を活用できず、環境ごとのデータ不足や限定的な予測結果を提供する。
本稿では,環境間の連続的マルチエージェントシステムダイナミクスを学習するための機械学習フレームワークであるgg-ode(generalized graph normal differential equation)を提案する。
本モデルは,グラフニューラルネットワーク(GNN)によってパラメータ化されたニューラル常微分方程式(ODE)を用いてシステム力学を学習し,エージェント間の連続的な相互作用を捉える。
我々は,共有ode関数を学習することで得られる共通物理法則によって異なる環境をまたいだ力学が支配されることを仮定し,モデル一般化を実現する。
各環境で学習された異なる潜伏性外因性因子は、それらの相違を考慮するためにODE関数に組み込まれる。
モデル性能を向上させるために,(1)学習初期状態と外因性要因の正統性を相互情報最小化により強制する2つの正規化損失を設計し,(2)学習外因性要因の時間的分散を対照的な学習により低減する。
様々な物理シミュレーション実験により,我々のモデルは,特に長距離における系力学を正確に予測し,観測の少ない新系に最適化できることが示されている。 Learning multi-agent system dynamics has been extensively studied for various real-world applications, such as molecular dynamics in biology. Most of the existing models are built to learn single system dynamics from observed historical data and predict the future trajectory. In practice, however, we might observe multiple systems that are generated across different environments, which differ in latent exogenous factors such as temperature and gravity. One simple solution is to learn multiple environment-specific models, but it fails to exploit the potential commonalities among the dynamics across environments and offers poor prediction results where per-environment data is sparse or limited. Here, we present GG-ODE (Generalized Graph Ordinary Differential Equations), a machine learning framework for learning continuous multi-agent system dynamics across environments. Our model learns system dynamics using neural ordinary differential equations (ODE) parameterized by Graph Neural Networks (GNNs) to capture the continuous interaction among agents. We achieve the model generalization by assuming the dynamics across different environments are governed by common physics laws that can be captured via learning a shared ODE function. The distinct latent exogenous factors learned for each environment are incorporated into the ODE function to account for their differences. To improve model performance, we additionally design two regularization losses to (1) enforce the orthogonality between the learned initial states and exogenous factors via mutual information minimization; and (2) reduce the temporal variance of learned exogenous factors within the same system via contrastive learning. Experiments over various physical simulations show that our model can accurately predict system dynamics, especially in the long range, and can generalize well to new systems with few observations. | 翻訳日:2023-07-11 14:30:20 公開日:2023-07-10 |
# HistRED: 歴史的文書レベル関係抽出データセット HistRED: A Historical Document-Level Relation Extraction Dataset ( http://arxiv.org/abs/2307.04285v1 ) ライセンス: Link先を確認 | Soyoung Yang, Minseok Choi, Youngwoo Cho, Jaegul Choo | (参考訳) 様々な領域における関係抽出(RE)タスクの広範な適用にもかかわらず、数百年から数千年にわたる有望なデータを含む歴史的文脈では、ほとんど研究されていない。
歴史的RE研究を促進するため,Yeonhaengnokから構築されたHistREDについて紹介する。
ヨンハエンノク(yyonhaengnok)は、漢語で書かれた記録集で、後に韓国語に翻訳された。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
さらに、HistREDは文章レベルから文書レベルまで様々な長さの自己完結サブテキストをサポートし、研究者がREモデルの堅牢性を評価するための多様なコンテキスト設定をサポートする。
データセットの有用性を示すために,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
我々のモデルはHistREDの単言語ベースラインよりも優れており、複数の言語コンテキストを利用することでRE予測を補完することを示す。
データセットは https://huggingface.co/datasets/Soyoung/HistRED under CC BY-NC-ND 4.0 License で公開されている。 Despite the extensive applications of relation extraction (RE) tasks in various domains, little has been explored in the historical context, which contains promising data across hundreds and thousands of years. To promote the historical RE research, we present HistRED constructed from Yeonhaengnok. Yeonhaengnok is a collection of records originally written in Hanja, the classical Chinese writing, which has later been translated into Korean. HistRED provides bilingual annotations such that RE can be performed on Korean and Hanja texts. In addition, HistRED supports various self-contained subtexts with different lengths, from a sentence level to a document level, supporting diverse context settings for researchers to evaluate the robustness of their RE models. To demonstrate the usefulness of our dataset, we propose a bilingual RE model that leverages both Korean and Hanja contexts to predict relations between entities. Our model outperforms monolingual baselines on HistRED, showing that employing multiple language contexts supplements the RE predictions. The dataset is publicly available at: https://huggingface.co/datasets/Soyoung/HistRED under CC BY-NC-ND 4.0 license. | 翻訳日:2023-07-11 14:29:47 公開日:2023-07-10 |
# 量子誤差緩和のための超伝導量子ビットの時間変動検出 Detection of temporal fluctuation in superconducting qubits for quantum error mitigation ( http://arxiv.org/abs/2307.04337v1 ) ライセンス: Link先を確認 | Yuta Hirasaki, Shunsuke Daimon, Toshinari Itoko, Naoki Kanazawa, Eiji Saitoh | (参考訳) 我々は、量子ビット出力を継続的に監視することで超伝導量子コンピュータの不安定性を検討した。
qubitsはエラー率の段階的な変化を示すことが分かりました。
この変化は繰り返し観察され、各ステップは数分持続する。
誤差の増加と出力の異常分散の相関を解析することにより,ポスト選択に基づく量子誤差軽減効果を示す。
また,提案手法の数値解析を行った。 We have investigated instability of a superconducting quantum computer by continuously monitoring the qubit output. We found that qubits exhibit a step-like change in the error rates. This change is repeatedly observed, and each step persists for several minutes. By analyzing the correlation between the increased errors and anomalous variance of the output, we demonstrate quantum error mitigation based on post-selection. Numerical analysis on the proposed method was also conducted. | 翻訳日:2023-07-11 14:22:11 公開日:2023-07-10 |
# 異種情報ネットワーク上でのソース・アウェア埋め込みトレーニング Source-Aware Embedding Training on Heterogeneous Information Networks ( http://arxiv.org/abs/2307.04336v1 ) ライセンス: Link先を確認 | Tsai Hor Chan, Chi Ho Wong, Jiajun Shen, Guosheng Yin | (参考訳) 不均一情報ネットワーク(HIN)は、レコメンデーションシステム、ソーシャルネットワーク、引用ネットワークといった現実世界のタスクに広く応用されている。
既存のHIN表現学習手法はネットワーク内の意味的特徴と構造的特徴を効果的に学習できるが、単一のHIN内のサブグラフの分布差にはほとんど認識されなかった。
しかし,複数のサブグラフ間の分布の不一致を無視すると,グラフ埋め込み学習アルゴリズムの有効性が損なわれることがわかった。
SUMSHINE(Scalable Unsupervised Multi-Source Heterogeneous Information Network Embedding)は、HINの複数のソース間の埋め込み分布を整合させるスケーラブルなアン教師なしフレームワークである。
様々な下流タスクにおける実世界のデータセットに関する実験結果は、最先端の異種情報ネットワーク埋め込みアルゴリズムによる手法の性能を検証する。 Heterogeneous information networks (HINs) have been extensively applied to real-world tasks, such as recommendation systems, social networks, and citation networks. While existing HIN representation learning methods can effectively learn the semantic and structural features in the network, little awareness was given to the distribution discrepancy of subgraphs within a single HIN. However, we find that ignoring such distribution discrepancy among subgraphs from multiple sources would hinder the effectiveness of graph embedding learning algorithms. This motivates us to propose SUMSHINE (Scalable Unsupervised Multi-Source Heterogeneous Information Network Embedding) -- a scalable unsupervised framework to align the embedding distributions among multiple sources of an HIN. Experimental results on real-world datasets in a variety of downstream tasks validate the performance of our method over the state-of-the-art heterogeneous information network embedding algorithms. | 翻訳日:2023-07-11 14:22:05 公開日:2023-07-10 |
# スコアベース最適化による対向ロバスト性向上 Enhancing Adversarial Robustness via Score-Based Optimization ( http://arxiv.org/abs/2307.04333v1 ) ライセンス: Link先を確認 | Boya Zhang, Weijian Luo, Zhihua Zhang | (参考訳) 敵の攻撃は、わずかな摂動を導入することでディープニューラルネットワーク分類器を誤解させる可能性がある。
これらの攻撃の影響を軽減するアルゴリズムの開発は、人工知能の安全な利用を確保するために不可欠である。
近年の研究では、スコアベース拡散モデルが敵防御に有効であることが示唆されている。
しかし、既存の拡散ベースの防御は、計算効率が悪く最適でない拡散モデルの逆確率微分方程式の逐次シミュレーションに依存している。
本稿では,ScoreOptと呼ばれる新しい対向防御方式を提案する。これは,テスト時の対向サンプルを,スコアベースで導かれた方向の本来のクリーンデータに向けて最適化する。
我々は、CIFAR10、CIFAR100、ImageNetを含む複数のデータセットに関する包括的な実験を行う。
実験の結果,提案手法は,ロバスト性性能と推論速度の両方の観点から,既存の敵防御よりも優れていた。 Adversarial attacks have the potential to mislead deep neural network classifiers by introducing slight perturbations. Developing algorithms that can mitigate the effects of these attacks is crucial for ensuring the safe use of artificial intelligence. Recent studies have suggested that score-based diffusion models are effective in adversarial defenses. However, existing diffusion-based defenses rely on the sequential simulation of the reversed stochastic differential equations of diffusion models, which are computationally inefficient and yield suboptimal results. In this paper, we introduce a novel adversarial defense scheme named ScoreOpt, which optimizes adversarial samples at test-time, towards original clean data in the direction guided by score-based priors. We conduct comprehensive experiments on multiple datasets, including CIFAR10, CIFAR100 and ImageNet. Our experimental results demonstrate that our approach outperforms existing adversarial defenses in terms of both robustness performance and inference speed. | 翻訳日:2023-07-11 14:21:49 公開日:2023-07-10 |
# ビデオコローカライズ問題に対するFrank-Wolfeアルゴリズムの新しい変数 New Variants of Frank-Wolfe Algorithm for Video Co-localization Problem ( http://arxiv.org/abs/2307.04319v1 ) ライセンス: Link先を確認 | Hamid Nazari | (参考訳) コローカライズ問題は、同じクラスのオブジェクトを一連の画像やビデオの中に同時にローカライズするモデルである。
\cite{joulin2014 efficient}では、frank-wolfeアルゴリズム(条件勾配と呼ばれる)の新しい変種を紹介し、画像とビデオの共局所化問題を解決するための効率を高める。
筆者らは,アルゴリズムの各反復におけるWolfeギャップと呼ばれる値の減少率で,それらの手法の効率性を示す。
本稿では,条件勾配スライディングアルゴリズム (CGS) \cite{CGS:Lan} にヒントを得て,そのような問題を解くアルゴリズムを提案し,数値実験により提案アルゴリズムの有効性を実証する。
Wolfeギャップに関するこれらの手法の効率は、ビデオ用のYouTube-Objectsデータセットに実装したものと比較される。 The co-localization problem is a model that simultaneously localizes objects of the same class within a series of images or videos. In \cite{joulin2014efficient}, authors present new variants of the Frank-Wolfe algorithm (aka conditional gradient) that increase the efficiency in solving the image and video co-localization problems. The authors show the efficiency of their methods with the rate of decrease in a value called the Wolfe gap in each iteration of the algorithm. In this project, inspired by the conditional gradient sliding algorithm (CGS) \cite{CGS:Lan}, We propose algorithms for solving such problems and demonstrate the efficiency of the proposed algorithms through numerical experiments. The efficiency of these methods with respect to the Wolfe gap is compared with implementing them on the YouTube-Objects dataset for videos. | 翻訳日:2023-07-11 14:21:34 公開日:2023-07-10 |
# 複数記述機能を活用したロバストな少数ショット画像学習 Leveraging Multiple Descriptive Features for Robust Few-shot Image Learning ( http://arxiv.org/abs/2307.04317v1 ) ライセンス: Link先を確認 | Zhili Feng, Anna Bair, J. Zico Kolter | (参考訳) 現代の画像分類は、大きな識別ネットワークを介してモデルクラスを直接予測することに基づいており、分類決定を構成する直観的な視覚的な「特徴」を評価するのが困難である。
同時に、CLIPのような統合ビジュアル言語モデルにおける最近の研究は、イメージクラスの自然言語記述を指定する方法を提供するが、通常、各クラスに単一の記述を提供することに集中する。
本研究では,クラスごとの「視覚的特徴」の理解に類似した代替手法が,頑健な数ショットの学習環境において魅力的なパフォーマンスを提供できることを示す。
特に、私たちは自動的に各クラスの複数のビジュアル記述を列挙します -- 大きな言語モデル(llm)を介して -- ビジョン画像モデルを使用して、これらの記述を各画像の複数のビジュアル特徴のセットに翻訳します。
これはどちらも、各クラスに関連する機能の‘直観的’セットを提供し、わずかな学習設定では、線形プローブのような標準的なアプローチよりも優れています。
また, ファインチューニングと組み合わせることで, 従来のファインチューニング手法よりも, 分布内および分布外の両方の性能を向上できることを示す。 Modern image classification is based upon directly predicting model classes via large discriminative networks, making it difficult to assess the intuitive visual ``features'' that may constitute a classification decision. At the same time, recent works in joint visual language models such as CLIP provide ways to specify natural language descriptions of image classes but typically focus on providing single descriptions for each class. In this work, we demonstrate that an alternative approach, arguably more akin to our understanding of multiple ``visual features'' per class, can also provide compelling performance in the robust few-shot learning setting. In particular, we automatically enumerate multiple visual descriptions of each class -- via a large language model (LLM) -- then use a vision-image model to translate these descriptions to a set of multiple visual features of each image; we finally use sparse logistic regression to select a relevant subset of these features to classify each image. This both provides an ``intuitive'' set of relevant features for each class, and in the few-shot learning setting, outperforms standard approaches such as linear probing. When combined with finetuning, we also show that the method is able to outperform existing state-of-the-art finetuning approaches on both in-distribution and out-of-distribution performance. | 翻訳日:2023-07-11 14:21:17 公開日:2023-07-10 |
# 雑音ラベルに対するロバスト特徴学習 Robust Feature Learning Against Noisy Labels ( http://arxiv.org/abs/2307.04312v1 ) ライセンス: Link先を確認 | Tsung-Ming Tai, Yun-Jie Jhang, Wen-Jyi Hwang | (参考訳) ディープニューラルネットワークの教師付き学習は、高品質のラベルに注釈づけされた大規模データセットに大きく依存する。
対照的に、誤ラベルされたサンプルはモデルの一般化を著しく低下させ、結果としてサンプルを記憶し、データ内容の誤関連を誤ったアノテーションに学習する。
そこで本稿では,教師なし拡張復元とクラスタ正規化に基づくロバストな特徴表現を学習することで,雑音ラベルに対処する効率的な手法を提案する。
さらに、ノイズラベルによる監督の負の影響を最小限に抑えるために、プログレッシブセルフブートストラッピングを導入する。
提案する設計は, 最小限のオーバーヘッドで既存の分類アーキテクチャに適用可能な汎用設計である。
提案手法は,重騒音ラベルのモデルロバスト性が効果的かつ効果的に向上することを示す。 Supervised learning of deep neural networks heavily relies on large-scale datasets annotated by high-quality labels. In contrast, mislabeled samples can significantly degrade the generalization of models and result in memorizing samples, further learning erroneous associations of data contents to incorrect annotations. To this end, this paper proposes an efficient approach to tackle noisy labels by learning robust feature representation based on unsupervised augmentation restoration and cluster regularization. In addition, progressive self-bootstrapping is introduced to minimize the negative impact of supervision from noisy labels. Our proposed design is generic and flexible in applying to existing classification architectures with minimal overheads. Experimental results show that our proposed method can efficiently and effectively enhance model robustness under severely noisy labels. | 翻訳日:2023-07-11 14:20:55 公開日:2023-07-10 |
# CT-BERT: クロステーブル・プレトレーニングによるより良いタブラリ表現の学習 CT-BERT: Learning Better Tabular Representations Through Cross-Table Pre-training ( http://arxiv.org/abs/2307.04308v1 ) ライセンス: Link先を確認 | Chao Ye, Guoshan Lu, Haobo Wang, Liyao Li, Sai Wu, Gang Chen, Junbo Zhao | (参考訳) タブラルデータ(構造化データとしても知られる)は、過去数十年間のデータベースシステムの安定した開発と大規模展開のおかげで、現存する最も一般的なデータフォームの1つである。
しかし、ChatGPTやSAMのような他の領域で事前訓練された大規模なモデルによってもたらされた爆発にもかかわらず、最終的に表データの一般化可能な表現に繋がるようなスケールで、どのようにしてテーブル間で共通知識を抽出できるかは、まだ完全に空白のままである。
実際、このトピックに関するいくつかの研究がある。
それらのほとんどは(すべてではないとしても)単一のテーブルのスコープやスキーマの固定形式に制限されている。
本稿では,まず,表データ事前学習の背後にある重要な研究課題,特にクロステーブルシナリオについて明らかにする。
私たちはこの作品の貢献を2つにまとめる。
i)2k近い高品質な表付きデータセットを収集し、キュレートし、それぞれが明確なセマンティクス、クリーンラベル、その他の必要なメタ情報を持っていることを保証します。
(II)CT-BERTと呼ばれるクロステーブル事前学習を可能にする新しいフレームワークを提案する。
特に、大規模クロステーブルトレーニングのパイオニアとして、CT-BERTの特定のインスタンス化は下流タスクに大きく依存する、教師付きおよび自己監督型のスキームと完全に互換性がある。
さらに,コンピュータビジョンや自然言語処理のコミュニティに触発されたCT-BERTに,比較学習に基づくマスク付きテーブルモデリング(MTM)の目的を提案する。
15のデータセットに対する広範な実験結果は、CT-BERTの最先端のパフォーマンスを示し、その教師付きと自己監督型のセットアップは、以前のアプローチよりも大幅に優れていた。 Tabular data -- also known as structured data -- is one of the most common data forms in existence, thanks to the stable development and scaled deployment of database systems in the last few decades. At present however, despite the blast brought by large pre-trained models in other domains such as ChatGPT or SAM, how can we extract common knowledge across tables at a scale that may eventually lead to generalizable representation for tabular data remains a full blank. Indeed, there have been a few works around this topic. Most (if not all) of them are limited in the scope of a single table or fixed form of a schema. In this work, we first identify the crucial research challenges behind tabular data pre-training, particularly towards the cross-table scenario. We position the contribution of this work in two folds: (i)-we collect and curate nearly 2k high-quality tabular datasets, each of which is guaranteed to possess clear semantics, clean labels, and other necessary meta information. (ii)-we propose a novel framework that allows cross-table pre-training dubbed as CT-BERT. Noticeably, in light of pioneering the scaled cross-table training, CT-BERT is fully compatible with both supervised and self-supervised schemes, where the specific instantiation of CT-BERT is very much dependent on the downstream tasks. We further propose and implement a contrastive-learning-based and masked table modeling (MTM) objective into CT-BERT, that is inspired from computer vision and natural language processing communities but sophistically tailored to tables. The extensive empirical results on 15 datasets demonstrate CT-BERT's state-of-the-art performance, where both its supervised and self-supervised setups significantly outperform the prior approaches. | 翻訳日:2023-07-11 14:20:42 公開日:2023-07-10 |
# 階層周波数変換器を用いた自動ピアノ転写 Automatic Piano Transcription with Hierarchical Frequency-Time Transformer ( http://arxiv.org/abs/2307.04305v1 ) ライセンス: Link先を確認 | Keisuke Toyama, Taketo Akama, Yukara Ikemiya, Yuhta Takida, Wei-Hsiang Liao, Yuki Mitsufuji | (参考訳) 長期のスペクトルと時間依存を考慮に入れることはピアノの自動転写に不可欠である。
これは、ポリフォニックピアノコンテンツ中の各音符の正確なオンセットとオフセットを決定する際に特に有用である。
この場合、周波数と時間軸の長期的な依存性を捉えるために、トランスフォーマーにおける自己着脱機構の能力に頼ることができる。
本稿では,2レベル階層の周波数-時間変換器アーキテクチャを用いた自動音楽書き起こし法であるhFT-Transformerを提案する。
第1階層は、時間軸内の畳み込みブロックと、周波数軸内のトランスフォーマーエンコーダと、周波数軸内の寸法を変換するトランスフォーマーデコーダとを含む。
次に出力は、タイム軸の別のトランスコーダで構成される第2階層に供給される。
提案手法をMAPSおよびMAESTRO v3.0.0データセットを用いて評価し,フレーム,ノート,オフセット付ノート,オフセット付ノートとベロシティ推定のすべてのF1スコアにおける最先端性能を実証した。 Taking long-term spectral and temporal dependencies into account is essential for automatic piano transcription. This is especially helpful when determining the precise onset and offset for each note in the polyphonic piano content. In this case, we may rely on the capability of self-attention mechanism in Transformers to capture these long-term dependencies in the frequency and time axes. In this work, we propose hFT-Transformer, which is an automatic music transcription method that uses a two-level hierarchical frequency-time Transformer architecture. The first hierarchy includes a convolutional block in the time axis, a Transformer encoder in the frequency axis, and a Transformer decoder that converts the dimension in the frequency axis. The output is then fed into the second hierarchy which consists of another Transformer encoder in the time axis. We evaluated our method with the widely used MAPS and MAESTRO v3.0.0 datasets, and it demonstrated state-of-the-art performance on all the F1-scores of the metrics among Frame, Note, Note with Offset, and Note with Offset and Velocity estimations. | 翻訳日:2023-07-11 14:20:12 公開日:2023-07-10 |
# バイアス付き学習データから対話中の等価テキストを生成する学習 Learning to Generate Equitable Text in Dialogue from Biased Training Data ( http://arxiv.org/abs/2307.04303v1 ) ライセンス: Link先を確認 | Anthony Sicilia and Malihe Alikhani | (参考訳) ユーザエンゲージメント,満足度,タスク達成のためには,対話システムの意思決定プロセスと生成された応答において,公平性の詳細な原則が不可欠である。
公平で包括的な原則の欠如は共通の基盤の形成を阻害し、結果としてシステム全体のパフォーマンスに悪影響を及ぼす。
例えば、ユーザインタラクションにおける代名詞の誤用は、意図された主題に対する曖昧さを引き起こす可能性がある。
しかし,対話における等価テキスト生成の包括的研究は行われていない。
そこで,本研究では,計算学習の理論を用いてこの問題を研究する。
私たちは、テキスト生成におけるエクイティの定義を形式的に提供し、さらに、人間らしく学習することとエクイティを学習することの間の公式なつながりを証明する。
この知見により、テキスト生成アルゴリズムが学習するバイアス付きトレーニングデータを変更することなく、公平なテキストを生成することができる合理的な条件を定式化する。
実際に理論を実証するために、我々はGuess What!のアルゴリズムのグループを見る。
視覚的対話ゲームと,この例を用いて理論を実証的に検証する。
本理論は,人間および自動評価によって測定した等質テキスト生成における複数のアルゴリズムの相対性能を正確に予測する。 The ingrained principles of fairness in a dialogue system's decision-making process and generated responses are crucial for user engagement, satisfaction, and task achievement. Absence of equitable and inclusive principles can hinder the formation of common ground, which in turn negatively impacts the overall performance of the system. For example, misusing pronouns in a user interaction may cause ambiguity about the intended subject. Yet, there is no comprehensive study of equitable text generation in dialogue. Aptly, in this work, we use theories of computational learning to study this problem. We provide formal definitions of equity in text generation, and further, prove formal connections between learning human-likeness and learning equity: algorithms for improving equity ultimately reduce to algorithms for improving human-likeness (on augmented data). With this insight, we also formulate reasonable conditions under which text generation algorithms can learn to generate equitable text without any modifications to the biased training data on which they learn. To exemplify our theory in practice, we look at a group of algorithms for the GuessWhat?! visual dialogue game and, using this example, test our theory empirically. Our theory accurately predicts relative-performance of multiple algorithms in generating equitable text as measured by both human and automated evaluation. | 翻訳日:2023-07-11 14:19:52 公開日:2023-07-10 |
# 衛星による量子鍵分布におけるブロックワイズキー蒸留 Blockwise Key Distillation in Satellite-based Quantum Key Distribution ( http://arxiv.org/abs/2307.04300v1 ) ライセンス: Link先を確認 | Minu J. Bae, Nitish K. Panigrahy, Prajit Dhara, Walter O. Krawec, Alexander Russell, Don Towsley, Bing Wang | (参考訳) 自由空間衛星通信は、光ファイバーによる地上通信よりも光子損失が著しく低い。
衛星ベースの量子鍵分布(QKD)はこの利点を利用して、長距離の大陸間QKDを実現するための有望な方向を提供する。
しかし、衛星チャンネルは様々な環境要因と日々の影響により非常にダイナミックになり、時間とともに異質なノイズが発生する。
本稿では,衛星を用いたQKDにおける2つの重要な蒸留技術を比較する。
1つは、すべての信号を全体として扱う従来の「非ブロックワイド」戦略であり、もう1つは、同様のノイズ特性を持つ個々のブロックに信号を分割し、独立に処理する「ブロックワイズ」戦略である。
幅広い設定での広範なシミュレーションを通じて、最適なパラメータ選択の傾向を示し、一方の戦略が他方よりも優れたキー生成率を提供する場合を示す。
その結果、ブロックワイズ戦略は、夜間と昼間の2種類のブロックを考慮すれば、最大5\%$キーレートの改善(平均で1日あたり1.9\times10^{7}$キービットを増加させる)に繋がることが示された。
ブロックワイズ戦略は、QKDの古典的な後処理段階の変更のみを必要とし、既存の衛星システムに容易に展開できる。 Free-space satellite communication has significantly lower photon loss than terrestrial communication via optical fibers. Satellite-based quantum key distribution (QKD) leverages this advantage and provides a promising direction in achieving long-distance inter-continental QKD. Satellite channels, however, can be highly dynamic due to various environmental factors and time-of-the-day effects, leading to heterogeneous noises over time. In this paper, we compare two key distillation techniques for satellite-based QKD. One is the traditional {\em non-blockwise} strategy that treats all the signals as a whole; the other is a {\em blockwise} strategy that divides the signals into individual blocks that have similar noise characteristics and processes them independently. Through extensive simulation in a wide range of settings, we show trends in optimal parameter choices and when one strategy provides better key generation rates than the other. Our results show that the blockwise strategy can lead to up to $5\%$ key rate improvement (leading to on average $1.9\times10^{7}$ more key bits per day) when considering two types of blocks, i.e., for nighttime and daytime, respectively. The blockwise strategy only requires changes in the classical post-processing stage of QKD and can be easily deployed in existing satellite systems. | 翻訳日:2023-07-11 14:19:32 公開日:2023-07-10 |
# 位相秩序を有するグラフェンジグザグナノリボンの相図と交差相:局在効果の役割 Phase Diagram and Crossover Phases of Topologically Ordered Graphene Zigzag Nanoribbons: Role of Localization Effects ( http://arxiv.org/abs/2307.04352v1 ) ライセンス: Link先を確認 | Hoang Anh Le, In Hwan Lee, Young Heon Kim and S.-R. Eric Yang | (参考訳) 我々は, ジグザググラフェンナノリボンの相図を現場での反発, ドーピング, 障害強度の関数として計算した。
位相秩序相は位相相を交差相に遷移させ、非普遍的な位相的絡み合いエントロピーを持つ新しい不規則相である。
トポロジカル秩序は、局所化効果とオンサイト反発の競合によって破壊される。
その結果, 強いオンサイト反発およびドーピングがジグザグエッジ間の非局所的相関を弱めることがわかった。
クロスオーバー相の1つでは、$\frac{e^-}{2}$分の電荷もスピン電荷分離も欠如していたが、ジグザグエッジ間の電荷移動相関は可能であった。
別のクロスオーバーフェーズは$\frac{e^-}{2}$分数電荷を含むが、電荷移動相関は含まない。
低ドープジグザグリボンでは、電子局在とオンサイト反発の相互作用は準縮退ギャップエッジ状態の空間的分離に寄与し、量子揺らぎに対する電荷分数化を保護する。
これらすべての効果において、混合キラルギャップエッジ状態は重要な役割を果たす。
非トポロジー的な強い乱れと強い反発相の性質も観察されている。
位相図の各位相は異なるジグザグエッジ構造を持つ。 We computed the phase diagram of the zigzag graphene nanoribbons as a function of on-site repulsion, doping, and disorder strength. The topologically ordered phase undergoes topological phase transitions into crossover phases, which are new disordered phases with a nonuniversal topological entanglement entropy with significant variance. The topological order is destroyed by competition between localization effects and on-site repulsion. We found that strong on-site repulsion and/or doping weakens the nonlocal correlations between the opposite zigzag edges. In one of the crossover phases, both $\frac{e^-}{2}$ fractional charges and spin-charge separation were absent; however, charge-transfer correlations between the zigzag edges were possible. Another crossover phase contains $\frac{e^-}{2}$ fractional charges, but no charge transfer correlations. In low-doped zigzag ribbons the interplay between electron localization and on-site repulsion contributes to the spatial separation of quasi-degenerate gap-edge states and protects the charge fractionalization against quantum fluctuations. In all these effects, mixed chiral gap-edge states play an important role. The properties of nontopological strongly disordered and strongly repulsive phases are also observed. Each phase of the phase diagram has a different zigzag-edge structure. | 翻訳日:2023-07-11 14:11:55 公開日:2023-07-10 |
# MD-HIT:データセット冗長性制御による材料特性予測のための機械学習 MD-HIT: Machine learning for materials property prediction with dataset redundancy control ( http://arxiv.org/abs/2307.04351v1 ) ライセンス: Link先を確認 | Qin Li, Nihang Fu, Sadman Sadeed Omee, Jianjun Hu | (参考訳) 材料データセットは通常、材料研究の歴史を振り返る材料設計の実践により、多くの冗長な(非常に類似した)材料の存在によって特徴付けられる。
例えば、材料プロジェクトデータベースは、SrTiO$_3$と似たペロブスカイト立方体構造材料を多数持っている。
このデータセット内のサンプル冗長性により、機械学習モデルの評価のランダムな分割が失敗し、mlモデルが材料科学コミュニティを誤解させるような過大な予測性能を達成しがちである。
この問題は、タンパク質機能予測のバイオインフォマティクスの分野でよく知られており、サンプルのペアが与えられたしきい値以上の配列類似性を持つことを確実にすることで、冗長性低減手順(cd-hit)を常に適用してサンプル冗長性を低減する。
本稿では,構成ベースおよび構造ベース材料特性予測のための文献における過大評価MLの性能について検討する。
次に,MD-HITと呼ばれる材料データセットの冗長性低減アルゴリズムを提案し,サンプルの冗長性を低減するために,いくつかの構成と構造に基づく距離閾値を用いて評価する。
この制御により、予測性能は実際の予測能力を反映する傾向にあることを示す。
私たちのMD-hitコードはhttps://github.com/usccolumbia/MD-HITで自由にアクセスできます。 Materials datasets are usually featured by the existence of many redundant (highly similar) materials due to the tinkering material design practice over the history of materials research. For example, the materials project database has many perovskite cubic structure materials similar to SrTiO$_3$. This sample redundancy within the dataset makes the random splitting of machine learning model evaluation to fail so that the ML models tend to achieve over-estimated predictive performance which is misleading for the materials science community. This issue is well known in the field of bioinformatics for protein function prediction, in which a redundancy reduction procedure (CD-Hit) is always applied to reduce the sample redundancy by ensuring no pair of samples has a sequence similarity greater than a given threshold. This paper surveys the overestimated ML performance in the literature for both composition based and structure based material property prediction. We then propose a material dataset redundancy reduction algorithm called MD-HIT and evaluate it with several composition and structure based distance threshold sfor reducing data set sample redundancy. We show that with this control, the predicted performance tends to better reflect their true prediction capability. Our MD-hit code can be freely accessed at https://github.com/usccolumbia/MD-HIT | 翻訳日:2023-07-11 14:11:31 公開日:2023-07-10 |
# RLTF: ユニットテストフィードバックによる強化学習 RLTF: Reinforcement Learning from Unit Test Feedback ( http://arxiv.org/abs/2307.04349v1 ) ライセンス: Link先を確認 | Jiate Liu, Yiqin Zhu, Kaiwen Xiao, Qiang Fu, Xiao Han, Wei Yang, Deheng Ye | (参考訳) プログラム合成の目標は、与えられた記述に基づいて実行可能なコードを生成することである。
近年,コードのための大規模言語モデル(LLM)の性能向上のため,強化学習(RL)を用いた研究が増えている。
しかしながら、これらのRLメソッドはオフラインフレームワークのみを使用しており、新しいサンプルスペースの探索を制限している。
さらに、ユニットテスト信号を使用する現在のアプローチは、コード内の特定のエラー位置を考慮せず、かなり単純です。
これらの問題に対処するため、私たちは、コードLLMを精製するための多粒性の単体テストフィードバックを備えた新しいオンラインRLフレームワークであるReinforcement Learning from Unit Test Feedback(RLTF)を提案した。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
RLTFはAPPSとMBPPベンチマークで最先端のパフォーマンスを達成する。
コードはhttps://github.com/zyq-scut/rltf.com/で確認できます。 The goal of program synthesis, or code generation, is to generate executable code based on given descriptions. Recently, there has been an increasing number of studies employing reinforcement learning (RL) to improve the performance of large language models (LLMs) for code. However, these RL methods have only used offline frameworks, limiting their exploration of new sample spaces. Additionally, current approaches that utilize unit test signals are rather simple, not accounting for specific error locations within the code. To address these issues, we proposed RLTF, i.e., Reinforcement Learning from Unit Test Feedback, a novel online RL framework with unit test feedback of multi-granularity for refining code LLMs. Our approach generates data in real-time during training and simultaneously utilizes fine-grained feedback signals to guide the model towards producing higher-quality code. Extensive experiments show that RLTF achieves state-of-the-art performance on the APPS and the MBPP benchmarks. Our code can be found at: https://github.com/Zyq-scut/RLTF. | 翻訳日:2023-07-11 14:11:12 公開日:2023-07-10 |
# ストレートスルー推定器による論理制約のニューラルネットワークへの注入 Injecting Logical Constraints into Neural Networks via Straight-Through Estimators ( http://arxiv.org/abs/2307.04347v1 ) ライセンス: Link先を確認 | Zhun Yang, Joohyung Lee, Chiyoun Park | (参考訳) ニューラルネットワーク学習に離散的な論理的制約を注入することは、ニューロシンボリックAIにおける大きな課題の1つだ。
ニューラルネットワークの学習に論理的制約を組み込むために、バイナリニューラルネットワークをトレーニングするために導入されたストレートスルー推定器が効果的に適用できることがわかった。
より具体的には、離散論理制約を損失関数として表現する体系的な方法を設計する;ストレートスルー推定器による勾配降下による損失最小化 この損失最小化は、二元化出力が論理制約を満たす方向にニューラルネットワークの重みを更新する。
実験結果から,GPUとバッチトレーニングを活用することにより,計算勾配の計算に重大なシンボリック計算を必要とする既存のニューロシンボリック手法よりも大幅にスケールすることが示された。
また,本手法は,MLP,CNN,GNNなどの異なるタイプのニューラルネットワークに適用され,既知の制約から直接学習することで,ラベル付きデータのほとんどあるいは少なからぬ学習を可能にする。 Injecting discrete logical constraints into neural network learning is one of the main challenges in neuro-symbolic AI. We find that a straight-through-estimator, a method introduced to train binary neural networks, could effectively be applied to incorporate logical constraints into neural network learning. More specifically, we design a systematic way to represent discrete logical constraints as a loss function; minimizing this loss using gradient descent via a straight-through-estimator updates the neural network's weights in the direction that the binarized outputs satisfy the logical constraints. The experimental results show that by leveraging GPUs and batch training, this method scales significantly better than existing neuro-symbolic methods that require heavy symbolic computation for computing gradients. Also, we demonstrate that our method applies to different types of neural networks, such as MLP, CNN, and GNN, making them learn with no or fewer labeled data by learning directly from known constraints. | 翻訳日:2023-07-11 14:10:54 公開日:2023-07-10 |
# 計算制約強化学習としての連続学習 Continual Learning as Computationally Constrained Reinforcement Learning ( http://arxiv.org/abs/2307.04345v1 ) ライセンス: Link先を確認 | Saurabh Kumar, Henrik Marklund, Ashish Rao, Yifan Zhu, Hong Jun Jeon, Yueyang Liu, and Benjamin Van Roy | (参考訳) 知識を効率的に蓄積し、長年にわたってますます高度なスキルを開発するエージェントは、人工知能能力のフロンティアを前進させることができる。
このようなエージェントの設計は、人工知能の長年にわたる課題であり、継続的な学習の主題によって対処されている。
このモノグラフは継続学習の概念を明確にし、さらなる研究を促進するためのフレームワークとツールセットを導入する。 An agent that efficiently accumulates knowledge to develop increasingly sophisticated skills over a long lifetime could advance the frontier of artificial intelligence capabilities. The design of such agents, which remains a long-standing challenge of artificial intelligence, is addressed by the subject of continual learning. This monograph clarifies and formalizes concepts of continual learning, introducing a framework and set of tools to stimulate further research. | 翻訳日:2023-07-11 14:10:35 公開日:2023-07-10 |
# 解釈可能な画像分類のための階層的意味木概念のホワイトニング Hierarchical Semantic Tree Concept Whitening for Interpretable Image Classification ( http://arxiv.org/abs/2307.04343v1 ) ライセンス: Link先を確認 | Haixing Dai, Lu Zhang, Lin Zhao, Zihao Wu, Zhengliang Liu, David Liu, Xiaowei Yu, Yanjun Lyu, Changying Li, Ninghao Liu, Tianming Liu, Dajiang Zhu | (参考訳) ディープニューラルネットワーク(DNN)の人気が高まり、モデル解釈可能性が重要になっている。
ポストホック解析を通じてこの問題に取り組むために多くのアプローチが開発されており、予測がどのように行われるかを説明し、中間層におけるニューロンの意味を理解するなどである。
しかしながら、これらの手法はモデルに自然に存在するパターンや規則のみを発見することができる。
本研究では,ポストホック方式に頼るのではなく,人間の理解可能な概念を隠蔽層で表現するために積極的に知識を注入する。
具体的には、階層的なセマンティック・コンセプトのツリーを用いて知識を格納し、深層モデルのトレーニング中に画像データインスタンスの表現を規則化する。
潜在空間の軸は意味概念と一致しており、そこでは概念間の階層的関係も保存される。
実世界の画像データセットを用いた実験では,モデル分類性能に悪影響を及ぼすことなく,モデルの解釈性が向上し,セマンティックな概念の絡み合いが良くなった。 With the popularity of deep neural networks (DNNs), model interpretability is becoming a critical concern. Many approaches have been developed to tackle the problem through post-hoc analysis, such as explaining how predictions are made or understanding the meaning of neurons in middle layers. Nevertheless, these methods can only discover the patterns or rules that naturally exist in models. In this work, rather than relying on post-hoc schemes, we proactively instill knowledge to alter the representation of human-understandable concepts in hidden layers. Specifically, we use a hierarchical tree of semantic concepts to store the knowledge, which is leveraged to regularize the representations of image data instances while training deep models. The axes of the latent space are aligned with the semantic concepts, where the hierarchical relations between concepts are also preserved. Experiments on real-world image datasets show that our method improves model interpretability, showing better disentanglement of semantic concepts, without negatively affecting model classification performance. | 翻訳日:2023-07-11 14:10:28 公開日:2023-07-10 |
# Rydberg原子アレイにおける超異方性ハイゼンベルク磁石の実現 Realization of an extremely anisotropic Heisenberg magnet in Rydberg atom arrays ( http://arxiv.org/abs/2307.04342v1 ) ライセンス: Link先を確認 | Kangheun Kim, Fan Yang, Klaus M{\o}lmer, Jaewook Ahn | (参考訳) 強い相互相互作用は、量子物質の初等励起と相関し、結合や凝縮から量子熱化、多体局在に至るまで、様々な創発現象において重要な役割を果たす。
ここでは、リドバーグ量子シミュレータを用いて異方性ハイゼンベルク磁石における強相関スピン輸送を実験的に実証し、マグノン-マグノン相互作用をマグノンホッピング強度より2桁大きい値で調整する。
提案手法では, マグノンの運動は, ライドバーグドレッシングによるスピン交換相互作用によって制御され, 基底状態原子の鎖をまたいだ単一のリドバーグ励起のコヒーレント輸送を可能にする。
巨大異方性の最も顕著なシグネチャとして、近傍のリドベルク励起が異なる種類のマグノン境界状態を形成することを示し、そこでは、密有界なペアが断片化されたヒルベルト空間において凍結力学を示し、一方、緩く有界なペアは単一の格子サイトを超えて伝播し相関を確立する。
我々の手法は、リドベルク状態間の共鳴双極子-双極子相互作用を用いた研究を補完し、超強相互作用と速度論的制約による量子熱力学の探索への扉を開く。 Strong mutual interactions correlate elementary excitations of quantum matter and plays a key role in a range of emergent phenomena, from binding and condensation to quantum thermalization and many-body localization. Here, we employ a Rydberg quantum simulator to experimentally demonstrate strongly correlated spin transport in anisotropic Heisenberg magnets, where the magnon-magnon interaction can be tuned two orders of magnitude larger than the magnon hopping strength. In our approach, the motion of magnons is controlled by an induced spin-exchange interaction through Rydberg dressing, which enables coherent transport of a single Rydberg excitation across a chain of ground-state atoms. As the most prominent signature of a giant anisotropy, we show that nearby Rydberg excitations form distinct types of magnon bound states, where a tightly bound pair exhibits frozen dynamics in a fragmented Hilbert space, while a loosely bound pair propagates and establishes correlations beyond a single lattice site. Our scheme complements studies using resonant dipole-dipole interactions between Rydberg states, and opens the door to exploring quantum thermodynamics with ultrastrong interactions and kinetic constraints. | 翻訳日:2023-07-11 14:10:10 公開日:2023-07-10 |
# 深部構造変形可能な画像登録に基づく漢字のストローク抽出 Stroke Extraction of Chinese Character Based on Deep Structure Deformable Image Registration ( http://arxiv.org/abs/2307.04341v1 ) ライセンス: Link先を確認 | Meng Li, Yahan Yu, Yi Yang, Guanghao Ren, Jian Wang | (参考訳) 漢字のストローク抽出は、文字認識と生成の分野で重要な役割を担っている。
最も既存の文字ストローク抽出法は画像形態学的特徴に焦点を当てている。
これらの手法は通常、ストロークのセマンティクスや事前情報を使用しないため、クロスストローク抽出とストロークマッチングのエラーを引き起こす。
本稿では,ストロークの意味的特徴と先行情報を考慮した深層学習に基づく文字ストローク抽出手法を提案する。
本手法は、基準ストロークと対象ストロークの粗い登録を先行情報として確立する画像登録に基づくストローク登録と、目標ストロークを予め7つのカテゴリに分けた画像意味セグメンテーションに基づくストローク分割と、シングルストロークの高精度抽出とからなる。
本研究では, 複雑な構造を持つ文字画像に対して, 単一ストロークの安定な形態を維持しつつ, 構造変形可能な変換を実現する構造変形可能な画像登録ネットワークを提案する。
本手法の有効性を検証するため,筆跡文字と正規筆跡文字の2つのデータセットを構築した。
実験の結果,本手法はベースラインよりも高い性能を示した。
コードはhttps://github.com/MengLi-l1/StrokeExtractionで入手できる。 Stroke extraction of Chinese characters plays an important role in the field of character recognition and generation. The most existing character stroke extraction methods focus on image morphological features. These methods usually lead to errors of cross strokes extraction and stroke matching due to rarely using stroke semantics and prior information. In this paper, we propose a deep learning-based character stroke extraction method that takes semantic features and prior information of strokes into consideration. This method consists of three parts: image registration-based stroke registration that establishes the rough registration of the reference strokes and the target as prior information; image semantic segmentation-based stroke segmentation that preliminarily separates target strokes into seven categories; and high-precision extraction of single strokes. In the stroke registration, we propose a structure deformable image registration network to achieve structure-deformable transformation while maintaining the stable morphology of single strokes for character images with complex structures. In order to verify the effectiveness of the method, we construct two datasets respectively for calligraphy characters and regular handwriting characters. The experimental results show that our method strongly outperforms the baselines. Code is available at https://github.com/MengLi-l1/StrokeExtraction. | 翻訳日:2023-07-11 14:09:46 公開日:2023-07-10 |
# Miriam: Edge GPU上のリアルタイムマルチDNN推論のためのElastic Kernelのエクスプロイト Miriam: Exploiting Elastic Kernels for Real-time Multi-DNN Inference on Edge GPU ( http://arxiv.org/abs/2307.04339v1 ) ライセンス: Link先を確認 | Zhihe Zhao, Neiwen Ling, Nan Guan, Guoliang Xing | (参考訳) 自律運転や拡張現実といった多くのアプリケーションは、リアルタイムのパフォーマンス要求のレベルが異なる複数のディープニューラルネットワーク(DNN)を同時に実行する必要がある。
しかし、エッジGPUの臨界レベルが異なる複数のDNNタスクをコーディネートすることは、まだ限られた研究領域である。
サーバレベルのGPUとは異なり、エッジGPUはリソース制限があり、リソース競合を避けるためのハードウェアレベルのリソース管理機構が欠如している。
そこで我々は,エッジGPU上でのマルチDNN推論のための競合認識タスクコーディネートフレームワークであるMiriamを提案する。
Miriamは2つの主要コンポーネント、弾性カーネルジェネレータと実行時動的カーネルコーディネータを統合し、混合臨界DNN推論をサポートする。
Miriamを評価するために,CUDAに基づく新しいDNN推論ベンチマークを構築した。
2つのエッジgpuプラットフォームでの実験では、miriamはシステムスループットを92%向上できるが、クリティカルタスクのレイテンシオーバーヘッドは、最先端のベースラインと比較して10\%未満に抑えられている。 Many applications such as autonomous driving and augmented reality, require the concurrent running of multiple deep neural networks (DNN) that poses different levels of real-time performance requirements. However, coordinating multiple DNN tasks with varying levels of criticality on edge GPUs remains an area of limited study. Unlike server-level GPUs, edge GPUs are resource-limited and lack hardware-level resource management mechanisms for avoiding resource contention. Therefore, we propose Miriam, a contention-aware task coordination framework for multi-DNN inference on edge GPU. Miriam consolidates two main components, an elastic-kernel generator, and a runtime dynamic kernel coordinator, to support mixed critical DNN inference. To evaluate Miriam, we build a new DNN inference benchmark based on CUDA with diverse representative DNN workloads. Experiments on two edge GPU platforms show that Miriam can increase system throughput by 92% while only incurring less than 10\% latency overhead for critical tasks, compared to state of art baselines. | 翻訳日:2023-07-11 14:09:25 公開日:2023-07-10 |
# データから計算へのグラフ機械学習のプライバシ保護:サーベイ Privacy-Preserving Graph Machine Learning from Data to Computation: A Survey ( http://arxiv.org/abs/2307.04338v1 ) ライセンス: Link先を確認 | Dongqi Fu, Wenxuan Bao, Ross Maciejewski, Hanghang Tong, Jingrui He | (参考訳) グラフ機械学習では、データ収集、共有、分析が複数のパーティを巻き込み、それぞれがさまざまなレベルのデータセキュリティとプライバシを必要とすることがある。
この目的のために、プライバシーの保護は機密情報を保護する上で非常に重要である。
ビッグデータの時代では、データエンティティ間の関係は前例のないほど複雑になり、ネットワーク構造や関連する属性情報をサポートする高度なデータ構造(グラフなど)を利用するアプリケーションも増えている。
これまで、コンピュータビジョンや自然言語処理など、さまざまなドメインタスクに対して多くのグラフベースのAIモデル(グラフニューラルネットワークなど)が提案されてきた。
本稿では,グラフ機械学習のプライバシ保存手法のレビューに注目する。
我々は,データから計算面まで,関連する作業を体系的にレビューする。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,複数当事者間のデータ共有が危険あるいは不可能である場合の最適化に基づく計算を実現するために,プライバシー保護情報(グラフモデルパラメータなど)を送信する手法について述べる。
関連する理論的方法論やソフトウェアツールの議論に加えて、現在の課題についても論じ、プライバシー保護グラフ機械学習の今後の研究機会をいくつか挙げる。
最後に,統一的で総合的なグラフ機械学習システムを提案する。 In graph machine learning, data collection, sharing, and analysis often involve multiple parties, each of which may require varying levels of data security and privacy. To this end, preserving privacy is of great importance in protecting sensitive information. In the era of big data, the relationships among data entities have become unprecedentedly complex, and more applications utilize advanced data structures (i.e., graphs) that can support network structures and relevant attribute information. To date, many graph-based AI models have been proposed (e.g., graph neural networks) for various domain tasks, like computer vision and natural language processing. In this paper, we focus on reviewing privacy-preserving techniques of graph machine learning. We systematically review related works from the data to the computational aspects. We first review methods for generating privacy-preserving graph data. Then we describe methods for transmitting privacy-preserved information (e.g., graph model parameters) to realize the optimization-based computation when data sharing among multiple parties is risky or impossible. In addition to discussing relevant theoretical methodology and software tools, we also discuss current challenges and highlight several possible future research opportunities for privacy-preserving graph machine learning. Finally, we envision a unified and comprehensive secure graph machine learning system. | 翻訳日:2023-07-11 14:09:07 公開日:2023-07-10 |
# マルチロボットネットワークにおけるノード軌跡からグラフを識別する学習 Learning to Identify Graphs from Node Trajectories in Multi-Robot Networks ( http://arxiv.org/abs/2307.04374v1 ) ライセンス: Link先を確認 | Eduardo Sebastian, Thai Duong, Nikolay Atanasov, Eduardo Montijano, Carlos Sagues | (参考訳) グラフ識別問題は、状態/機能軌跡が与えられたネットワーク内のノード間の相互作用を発見することである。
ノードの振る舞いが未知の相互作用モデルによって他のすべてのノードに結合されるため、この問題は難しい。
さらに、高次元および非線形状態軌道は、2つのノードが接続されているかどうかを特定するのが困難である。
現在の解法は、グラフトポロジとノードの動的挙動に関する事前の知識に依存しているため、他のネットワーク構成への一般化が不十分である。
これらの課題に対処するために,我々は新しい学習ベースアプローチを提案する。
(i)グローバル収束保証によりグラフトポロジーを効率的に解明する強凸プログラム
(ii) 元の状態軌跡を特徴空間に埋め込むことを学習し、最適化プログラムに適した正規化子を予測するセルフアテンションエンコーダ。
他の研究とは対照的に,本手法ではノード数,接続性,状態トラジェクトリの点で,新しい構成の未確認ネットワークのグラフトポロジを識別することができる。
マルチロボット生成および群れ処理におけるグラフ同定におけるアプローチの有効性を示す。 The graph identification problem consists of discovering the interactions among nodes in a network given their state/feature trajectories. This problem is challenging because the behavior of a node is coupled to all the other nodes by the unknown interaction model. Besides, high-dimensional and nonlinear state trajectories make difficult to identify if two nodes are connected. Current solutions rely on prior knowledge of the graph topology and the dynamic behavior of the nodes, and hence, have poor generalization to other network configurations. To address these issues, we propose a novel learning-based approach that combines (i) a strongly convex program that efficiently uncovers graph topologies with global convergence guarantees and (ii) a self-attention encoder that learns to embed the original state trajectories into a feature space and predicts appropriate regularizers for the optimization program. In contrast to other works, our approach can identify the graph topology of unseen networks with new configurations in terms of number of nodes, connectivity or state trajectories. We demonstrate the effectiveness of our approach in identifying graphs in multi-robot formation and flocking tasks. | 翻訳日:2023-07-11 14:02:53 公開日:2023-07-10 |
# ディープラーニングを用いたエンドツーエンド自動運転の最近の進歩 Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey ( http://arxiv.org/abs/2307.04370v1 ) ライセンス: Link先を確認 | Pranav Singh Chib, Pravendra Singh | (参考訳) エンド・ツー・エンドの運転は、過大な複雑さやエラーの伝播の確率といったモジュラーシステムに関連する欠点を回避するため、有望なパラダイムである。
自動運転は、乗客の安全を保証し、特に高度に確率的かつ可変的な交通状況において快適な交通手段を提供することによって、従来の交通パターンを超越する。
本稿では,エンド・ツー・エンド自動運転スタックについて概観する。
ニューラルネットワークがエンドツーエンドで採用されている自動運転タスクの分類を提供し、現実のアプリケーションで発生する重要な課題に対処すると同時に、知覚から制御までの運転プロセス全体を包含する。
エンド・ツー・エンド自動運転の最近の進歩は分析され、基礎となる原理、方法論、コア機能に基づいて研究が分類される。
これらのカテゴリは、感覚入力、主出力と補助出力、模倣から強化学習までの学習アプローチ、モデル評価技術を含む。
この調査には、説明可能性と安全性に関する詳細な議論が含まれている。
さらに、最先端の評価、課題の特定、将来の可能性を探求する。
我々は最新の進歩とそれに対応するオープンソース実装をhttps://github.com/Pranav-chib/Recent-Advancements-in-End-to-End-Autonomous-Driving-using-Deep-Learn ingで維持した。 End-to-End driving is a promising paradigm as it circumvents the drawbacks associated with modular systems, such as their overwhelming complexity and propensity for error propagation. Autonomous driving transcends conventional traffic patterns by proactively recognizing critical events in advance, ensuring passengers' safety and providing them with comfortable transportation, particularly in highly stochastic and variable traffic settings. This paper presents a comprehensive review of the End-to-End autonomous driving stack. It provides a taxonomy of automated driving tasks wherein neural networks have been employed in an End-to-End manner, encompassing the entire driving process from perception to control, while addressing key challenges encountered in real-world applications. Recent developments in End-to-End autonomous driving are analyzed, and research is categorized based on underlying principles, methodologies, and core functionality. These categories encompass sensorial input, main and auxiliary output, learning approaches ranging from imitation to reinforcement learning, and model evaluation techniques. The survey incorporates a detailed discussion of the explainability and safety aspects. Furthermore, it assesses the state-of-the-art, identifies challenges, and explores future possibilities. We maintained the latest advancements and their corresponding open-source implementations at https://github.com/Pranav-chib/Recent-Advancements-in-End-to-End-Autonomous-Driving-using-Deep-Learn ing. | 翻訳日:2023-07-11 14:02:37 公開日:2023-07-10 |
# ECS - データ品質保証のためのインタラクティブツール ECS -- an Interactive Tool for Data Quality Assurance ( http://arxiv.org/abs/2307.04368v1 ) ライセンス: Link先を確認 | Christian Sieberichs, Simon Geerkens, Alexander Braun, Thomas Waschulzik | (参考訳) 機械学習システムの能力の増大と安全性クリティカルなシステムでの潜在的利用により、高品質なデータを確保することがますます重要になっている。
本稿では,データ品質の保証のための新しいアプローチを提案する。
この目的のために、まず数学的基礎を議論し、そのアプローチを複数の例を用いて示す。
これにより、安全クリティカルシステムにおいて、潜在的に有害な性質を持つデータポイントが検出される。 With the increasing capabilities of machine learning systems and their potential use in safety-critical systems, ensuring high-quality data is becoming increasingly important. In this paper we present a novel approach for the assurance of data quality. For this purpose, the mathematical basics are first discussed and the approach is presented using multiple examples. This results in the detection of data points with potentially harmful properties for the use in safety-critical systems. | 翻訳日:2023-07-11 14:02:13 公開日:2023-07-10 |
# デバイス上での高速適応型事前学習モデルのワンショットプルーニング One-Shot Pruning for Fast-adapting Pre-trained Models on Devices ( http://arxiv.org/abs/2307.04365v1 ) ライセンス: Link先を確認 | Haiyan Zhao, Guodong Long | (参考訳) 大規模な事前訓練モデルが下流タスクの解決に成功している。
それでも、これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
しかしながら、下流のタスクやデバイスのリソースが限られているため、モデルをスクラッチから刈り取ることは実用的な課題となる。
そこで本研究では,類似タスクの知識を活用し,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
具体的には,類似タスクのプルーニングモデルを用いてスコアマスクを作成し,新しいタスクの事前学習モデルにおけるタスク固有のフィルタ/ノードを識別する。
このマスクに基づいて、1ラウンドのプルーニングを行い、ほんの数回のトレーニングイテレーションで新しいタスクに迅速に適応できる、適度なサイズのサブネットワークを抽出する。
提案手法が様々なデータセットを用いた畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)に与える影響を実験的に検証した。
提案手法は, メモリ制約の異なる下流タスクを扱う場合, 精度, 効率の点で, 人気プルーニングベースライン法を一貫して上回っている。 Large-scale pre-trained models have been remarkably successful in resolving downstream tasks. Nonetheless, deploying these models on low-capability devices still requires an effective approach, such as model pruning. However, pruning the model from scratch can pose a practical challenge given the limited resources of each downstream task or device. To tackle this issue, we present a scalable one-shot pruning method that leverages pruned knowledge of similar tasks to extract a sub-network from the pre-trained model for a new task. Specifically, we create a score mask using the pruned models of similar tasks to identify task-specific filters/nodes in the pre-trained model for the new task. Based on this mask, we conduct a single round of pruning to extract a suitably-sized sub-network that can quickly adapt to the new task with only a few training iterations. Our experimental analysis demonstrates the effectiveness of the proposed method on the convolutional neural networks (CNNs) and vision transformers (ViT) with various datasets. The proposed method consistently outperforms popular pruning baseline methods in terms of accuracy and efficiency when dealing with diverse downstream tasks with different memory constraints. | 翻訳日:2023-07-11 14:02:07 公開日:2023-07-10 |
# 音素転写統合による言語間伝達の促進 Enhancing Cross-lingual Transfer via Phonemic Transcription Integration ( http://arxiv.org/abs/2307.04361v1 ) ライセンス: Link先を確認 | Hoang H. Nguyen, Chenwei Zhang, Tao Zhang, Eugene Rohrbaugh, Philip S. Yu | (参考訳) 従来の言語間移動法はテキストスクリプトによる正書法表現学習に限られていた。
この制限は言語間の移動を妨げ、よく知られたスクリプトを共有する言語に偏っている。
そこで本稿では,異なるスクリプト間の言語間ギャップを軽減するために,従来の正書法以外の言語的モダリティとして音素転写を取り入れたPhoneXLを提案する。
特に,(1)2つの異なるモーダル間の局所的な1対1のアライメント,(2)追加のモーダルからの情報を活用するための多モーダルコンテキストによるアライメント,(3)追加のバイリンガル辞書を組み込んだ多言語コンテキストによるアライメントなどを提案する。
また,日本語-韓国語-ベトナム語(CJKV)言語における2つのトークンレベルタスク(Named Entity RecognitionとPart-of-Speech Tagging)に関する最初の音韻・音声アライメントデータセットもリリースした。
CJKV言語間のギャップを埋めるため, 音素転写は正書法以外の重要な情報を提供し, 正書法に基づく多言語PLMよりも経時的トークンレベルのタスクが一貫した改善をもたらすことが明らかとなった。 Previous cross-lingual transfer methods are restricted to orthographic representation learning via textual scripts. This limitation hampers cross-lingual transfer and is biased towards languages sharing similar well-known scripts. To alleviate the gap between languages from different writing scripts, we propose PhoneXL, a framework incorporating phonemic transcriptions as an additional linguistic modality beyond the traditional orthographic transcriptions for cross-lingual transfer. Particularly, we propose unsupervised alignment objectives to capture (1) local one-to-one alignment between the two different modalities, (2) alignment via multi-modality contexts to leverage information from additional modalities, and (3) alignment via multilingual contexts where additional bilingual dictionaries are incorporated. We also release the first phonemic-orthographic alignment dataset on two token-level tasks (Named Entity Recognition and Part-of-Speech Tagging) among the understudied but interconnected Chinese-Japanese-Korean-Vietnamese (CJKV) languages. Our pilot study reveals phonemic transcription provides essential information beyond the orthography to enhance cross-lingual transfer and bridge the gap among CJKV languages, leading to consistent improvements on cross-lingual token-level tasks over orthographic-based multilingual PLMs. | 翻訳日:2023-07-11 14:01:46 公開日:2023-07-10 |
# False Sense of Security: コンテキストレスDGA分類器の推論と真のパフォーマンス解析にXAIを活用する False Sense of Security: Leveraging XAI to Analyze the Reasoning and True Performance of Context-less DGA Classifiers ( http://arxiv.org/abs/2307.04358v1 ) ライセンス: Link先を確認 | Arthur Drichel and Ulrike Meyer | (参考訳) 利用可能なディープラーニング分類器が99.9%以上の精度を達成することを考えると、ドメイン生成アルゴリズム(DGA)検出によるボットネット活動を明らかにする問題は解決されているようである。
しかし、これらの分類器は偏りが強く、簡単な検出バイパスを可能にするため、誤ったセキュリティ感覚を提供する。
本研究では,深層学習分類器の推論を分析し,そのバイアスを体系的に明らかにするために,説明可能な人工知能(xai)手法を活用する。
DGA分類器からこれらのバイアスを取り除くことは,その性能を著しく低下させることを示す。
それでも、特定バイアスのない文脈認識検出システムを設計でき、最先端のディープラーニング分類器の検出率を維持することができる。
本稿では,分類者の推論をよりよく理解し,検出方法の信頼性と透明性を高め,意思決定を容易にする視覚分析システムを提案する。 The problem of revealing botnet activity through Domain Generation Algorithm (DGA) detection seems to be solved, considering that available deep learning classifiers achieve accuracies of over 99.9%. However, these classifiers provide a false sense of security as they are heavily biased and allow for trivial detection bypass. In this work, we leverage explainable artificial intelligence (XAI) methods to analyze the reasoning of deep learning classifiers and to systematically reveal such biases. We show that eliminating these biases from DGA classifiers considerably deteriorates their performance. Nevertheless we are able to design a context-aware detection system that is free of the identified biases and maintains the detection rate of state-of-the art deep learning classifiers. In this context, we propose a visual analysis system that helps to better understand a classifier's reasoning, thereby increasing trust in and transparency of detection methods and facilitating decision-making. | 翻訳日:2023-07-11 14:01:21 公開日:2023-07-10 |
# スパイクニューラルネットワークにおける情報損失の低減 Reducing Information Loss for Spiking Neural Networks ( http://arxiv.org/abs/2307.04356v1 ) ライセンス: Link先を確認 | Yufei Guo, Yuanpei Chen, Liwen Zhang, Xiaode Liu, Xinyi Tong, Yuanyuan Ou, Xuhui Huang, Zhe Ma | (参考訳) スパイキングニューラルネットワーク(SNN)は最近ますます注目を集めている。
情報伝達には二元スパイク信号を用いる。
SNNの情報伝達パラダイムにより、活性化と重みの乗算は、エネルギー効率のよい加算に置き換えられる。
However, its ``Hard Reset" mechanism for the firing activity would ignore the difference among membrane potentials when the membrane potential is above the firing threshold, causing information loss. Meanwhile, quantifying the membrane potential to 0/1 spikes at the firing instants will inevitably introduce the quantization error thus bringing about information loss too. To address these problems, we propose to use the ``Soft Reset" mechanism for the supervised training-based SNNs, which will drive the membrane potential to a dynamic reset potential according to its magnitude, and Membrane Potential Rectifier (MPR) to reduce the quantization error via redistributing the membrane potential to a range close to the spikes.
その結果, `‘Soft Reset’ 機構と MPR を備えた SNN は,静的データセットと動的データセットの両方でバニラよりも優れていた。 The Spiking Neural Network (SNN) has attracted more and more attention recently. It adopts binary spike signals to transmit information. Benefitting from the information passing paradigm of SNNs, the multiplications of activations and weights can be replaced by additions, which are more energy-efficient. However, its ``Hard Reset" mechanism for the firing activity would ignore the difference among membrane potentials when the membrane potential is above the firing threshold, causing information loss. Meanwhile, quantifying the membrane potential to 0/1 spikes at the firing instants will inevitably introduce the quantization error thus bringing about information loss too. To address these problems, we propose to use the ``Soft Reset" mechanism for the supervised training-based SNNs, which will drive the membrane potential to a dynamic reset potential according to its magnitude, and Membrane Potential Rectifier (MPR) to reduce the quantization error via redistributing the membrane potential to a range close to the spikes. Results show that the SNNs with the ``Soft Reset" mechanism and MPR outperform their vanilla counterparts on both static and dynamic datasets. | 翻訳日:2023-07-11 14:01:06 公開日:2023-07-10 |
# ゲート電圧対応型ハイブリッド超伝導体-半導体量子井戸効果ナノスイッチアレイの大規模オンチップ集積 Large-scale on-chip integration of gate-voltage addressable hybrid superconductor-semiconductor quantum wells field effect nano-switch arrays ( http://arxiv.org/abs/2307.04355v1 ) ライセンス: Link先を確認 | Kaveh Delfanazari, Jiahui Li, Peng Ma, Reuben K. Puddy, Teng Yi, Yusheng Xiong, Ian Farrer, Sachio Komori, Jason Robinson, David A. Ritchie, Michael J. Kelly, Hannah J. Joyce, and Charles G. Smith | (参考訳) 安定で再現性があり、スケーラブルで、アドレス可能で、制御可能なハイブリッド超伝導体-半導体(s-sm)接合とスイッチは、ゲートベースの量子プロセッサの鍵回路要素とビルディングブロックである。
分割ゲート電圧によって生じる静電効果は、2次元半導体電子系に基づくハイブリッドS-Sm回路の伝導や電流を制御するナノスイッチの実現を促進する。
本稿では,大規模スケーラブルでゲート電圧制御可能なハイブリッドフィールド効果量子チップの実現を実験的に実証する。
各チップは、コンダクタンススイッチとして機能し、Nb超伝導電子回路と統合されたIn0.75Ga0.25As量子井戸からなる分割ゲート効果ハイブリッド接合を含む。
チップ内の各ハイブリッド接合は、対応するソースドレインと2つのグローバルスプリットゲート接触パッドによって制御され、その(スーパー)導電状態と絶縁状態の切り替えを可能にする。
144フィールド効果ハイブリッドNb- In0.75Ga0.25As 2DEG-Nb 量子ワイヤを用いた18個の量子チップを作製し,電気応答,スイッチング電圧(オン/オフ)統計,量子収率,低温下での再現性について検討した。
提案された集積量子デバイスアーキテクチャは、新しい低温ナノエレクトロニクス回路やシステムの開発に有用なチップ上の大きな配列の個々のジャンクションを制御し、フォールトトレラント量子技術への潜在的な応用を可能にする。 Stable, reproducible, scalable, addressable, and controllable hybrid superconductor-semiconductor (S-Sm) junctions and switches are key circuit elements and building blocks of gate-based quantum processors. The electrostatic field effect produced by the split gate voltages facilitates the realisation of nano-switches that can control the conductance or current in the hybrid S-Sm circuits based on 2D semiconducting electron systems. Here, we experimentally demonstrate a novel realisation of large-scale scalable, and gate voltage controllable hybrid field effect quantum chips. Each chip contains arrays of split gate field effect hybrid junctions, that work as conductance switches, and are made from In0.75Ga0.25As quantum wells integrated with Nb superconducting electronic circuits. Each hybrid junction in the chip can be controlled and addressed through its corresponding source-drain and two global split gate contact pads that allow switching between their (super)conducting and insulating states. We fabricate a total of 18 quantum chips with 144 field effect hybrid Nb- In0.75Ga0.25As 2DEG-Nb quantum wires and investigate the electrical response, switching voltage (on/off) statistics, quantum yield, and reproducibility of several devices at cryogenic temperatures. The proposed integrated quantum device architecture allows control of individual junctions in a large array on a chip useful for the development of emerging cryogenic nanoelectronics circuits and systems for their potential applications in fault-tolerant quantum technologies. | 翻訳日:2023-07-11 14:00:51 公開日:2023-07-10 |
# オフラインデータを用いた実験設計による強化学習における政策微調整 Policy Finetuning in Reinforcement Learning via Design of Experiments using Offline Data ( http://arxiv.org/abs/2307.04354v1 ) ライセンス: Link先を確認 | Ruiqi Zhang, Andrea Zanette | (参考訳) 強化学習のいくつかのアプリケーションでは、事前収集された経験のデータセットがすでに利用可能であるが、ポリシーの品質を改善するのに役立つ追加のオンラインデータを取得することもできる。
しかしながら、単一の非反応性探索ポリシーで追加データを収集し、スイッチングポリシーに関連するエンジニアリングコストを回避することが望ましい。
本稿では、オフラインデータセットを利用して探索のための単一の非反応性ポリシーを設計できる証明可能な保証付きアルゴリズムを提案する。
理論的には,アルゴリズムを解析し,最終方針の質を,元のデータセットの局所的カバレッジと収集した追加データ量の関数として測定する。 In some applications of reinforcement learning, a dataset of pre-collected experience is already available but it is also possible to acquire some additional online data to help improve the quality of the policy. However, it may be preferable to gather additional data with a single, non-reactive exploration policy and avoid the engineering costs associated with switching policies. In this paper we propose an algorithm with provable guarantees that can leverage an offline dataset to design a single non-reactive policy for exploration. We theoretically analyze the algorithm and measure the quality of the final policy as a function of the local coverage of the original dataset and the amount of additional data collected. | 翻訳日:2023-07-11 14:00:23 公開日:2023-07-10 |
# 十分図形モデルについて On Sufficient Graphical Models ( http://arxiv.org/abs/2307.04353v1 ) ライセンス: Link先を確認 | Bing Li and Kyongwon Kim | (参考訳) 本稿では,最近開発された非線形十分次元低減手法を条件付き独立性評価に応用し,十分なグラフィカルモデルを提案する。
グラフィカルモデルは本質的には非パラメトリックであり、ガウスあるいはコプラガウスの仮定のような分布的な仮定を成さない。
しかし、条件付き独立性を特徴付けるために高次元カーネルに依存する完全に非パラメトリックなグラフィカルモデルとは異なり、我々のグラフィカルモデルは、相当な次元の十分な予測器の集合が与えられた条件付き独立性に基づいている。
このようにして、高次元核が伴う次元性の呪いを避ける。
我々は,推定値の集団レベル特性,収束率,変数選択一貫性について検討した。
シミュレーション比較とドリーム4チャレンジデータセットの解析により,本手法がガウスあるいはコプラガウスの仮定に違反した場合の既存手法よりも優れており,その性能は高次元設定でも良好であることを示す。 We introduce a sufficient graphical model by applying the recently developed nonlinear sufficient dimension reduction techniques to the evaluation of conditional independence. The graphical model is nonparametric in nature, as it does not make distributional assumptions such as the Gaussian or copula Gaussian assumptions. However, unlike a fully nonparametric graphical model, which relies on the high-dimensional kernel to characterize conditional independence, our graphical model is based on conditional independence given a set of sufficient predictors with a substantially reduced dimension. In this way we avoid the curse of dimensionality that comes with a high-dimensional kernel. We develop the population-level properties, convergence rate, and variable selection consistency of our estimate. By simulation comparisons and an analysis of the DREAM 4 Challenge data set, we demonstrate that our method outperforms the existing methods when the Gaussian or copula Gaussian assumptions are violated, and its performance remains excellent in the high-dimensional setting. | 翻訳日:2023-07-11 14:00:11 公開日:2023-07-10 |
# 量子ゼノ効果:量子ビットで制御される量子ビット Quantum Zeno effect: a qutrit controlled by a qubit ( http://arxiv.org/abs/2307.04413v1 ) ライセンス: Link先を確認 | Komal Kumari, Garima Rajpoot, and Sudhir Ranjan Jain | (参考訳) アンシラによって監視される3レベルシステムでは、量子ゼノ効果を用いて誤り訂正のための量子ジャンプを制御することができる。
さらに,cnotゲートを実現し,高密度符号化とテレポーテーションに影響を及ぼすことを示す。
この研究は、quditのコントロールを一般化する道を開くものだと考えています。 For a three-level system monitored by an ancilla, we show that quantum Zeno effect can be employed to control quantum jump for error correction. Further, we show that we can realize cNOT gate, and effect dense coding and teleportation. We believe that this work paves the way to generalize the control of a qudit. | 翻訳日:2023-07-11 13:52:38 公開日:2023-07-10 |
# バイオメディカルテキスト要約と質問応答の強化:ドメイン特化事前学習の有用性について Enhancing Biomedical Text Summarization and Question-Answering: On the Utility of Domain-Specific Pre-Training ( http://arxiv.org/abs/2307.04412v1 ) ライセンス: Link先を確認 | Dima Galat, Marian-Andrei Rizoiu | (参考訳) バイオメディカル要約は、テキスト生成のためにトレーニングするために大きなデータセットを必要とする。
転送学習は,この課題に対処するための有効な選択肢であるが,ドメイン内事前学習は,BioASQ要約タスクにおいて必ずしも有利ではない。
そこで我々は,BioASQ要約タスクのコンテキストにおいて,汎用ドメイン事前学習のメリットを示すために適切なモデルアーキテクチャを特定し,タスク固有の微調整を行う。
以上の結果から,ドメイン固有のバイオメディカルテキスト生成タスクにおいて,ドメイン固有の事前学習のない大規模言語モデルが重要なエッジを持つ可能性が示唆された。 Biomedical summarization requires large datasets to train for text generation. We show that while transfer learning offers a viable option for addressing this challenge, an in-domain pre-training does not always offer advantages in a BioASQ summarization task. We identify a suitable model architecture and use it to show a benefit of a general-domain pre-training followed by a task-specific fine-tuning in the context of a BioASQ summarization task, leading to a novel three-step fine-tuning approach that works with only a thousand in-domain examples. Our results indicate that a Large Language Model without domain-specific pre-training can have a significant edge in some domain-specific biomedical text generation tasks. | 翻訳日:2023-07-11 13:52:31 公開日:2023-07-10 |
# 中性子干渉法における理想的な負の測定によるレゲット・ガーグ不等式違反 Violation of a Leggett-Garg inequality using ideal negative measurements in neutron interferometry ( http://arxiv.org/abs/2307.04409v1 ) ライセンス: Link先を確認 | Elisabeth Kreuzgruber, Richard Wagner, Niels Geerits, Hartmut Lemmel, Stephan Sponar | (参考訳) 本稿では,レゲット・ガーグ不等式(lgi)を中性子で破る実験について報告する。
LGIは、量子力学の予測がマクロ的リアリズムをどの程度損なうかを評価するために提案されている。
LGIでは、1つのシステムで異なるタイミングで測定された結果の相関について述べる。
中性子干渉実験で得られたk = 1.120 +/-0.007の測定値は、マクロ実在論によって予測される限界 k = 1 を超えている。 We report on an experiment that demonstrates the violation of a Leggett-Garg inequality (LGI) with neutrons. LGIs have been proposed in order to assess how far the predictions of quantum mechanics defy macroscopic realism. With LGIs, correlations of measurements performed on a single system at different times are described. The measured value of K = 1.120 +/- 0.007, obtained in a neutron interferometric experiment, is clearly above the limit K = 1 predicted by macro-realistic theories. | 翻訳日:2023-07-11 13:52:17 公開日:2023-07-10 |
# TIM:大規模言語モデルに比較翻訳を教える TIM: Teaching Large Language Models to Translate with Comparison ( http://arxiv.org/abs/2307.04408v1 ) ライセンス: Link先を確認 | Jiali Zeng and Fandong Meng and Yongjing Yin and Jie Zhou | (参考訳) オープンソースの大言語モデル(llm)は、命令チューニングの様々なタスクにおいて顕著な効果を示している。
しかし、これらのモデルは翻訳のようなより専門的な知識を必要とするタスクに苦労することがある。
このような不足の原因の1つは、命令チューニングが、タスク固有の要求に制約されることなく、与えられた命令から継続する流れる、コヒーレントなテキストを生成することを目的としているためである。
さらに、低品質のトレーニングデータで小さなLLMをチューニングすることがより困難になる可能性がある。
この問題に対処するために,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
このアプローチでは,正しい翻訳例と間違った翻訳例をモデルに提示し,モデルの学習を導くために選好損失を用いる。
提案手法をWMT2022テストセット上で評価し,既存の手法よりも優れていることを示す。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
詳細はgithubのhttps://github.com/lemon0830/tim.comを参照。 Open-sourced large language models (LLMs) have demonstrated remarkable efficacy in various tasks with instruction tuning. However, these models can sometimes struggle with tasks that require more specialized knowledge such as translation. One possible reason for such deficiency is that instruction tuning aims to generate fluent and coherent text that continues from a given instruction without being constrained by any task-specific requirements. Moreover, it can be more challenging for tuning smaller LLMs with lower-quality training data. To address this issue, we propose a novel framework using examples in comparison to teach LLMs to learn translation. Our approach involves presenting the model with examples of correct and incorrect translations and using a preference loss to guide the model's learning. We evaluate our method on WMT2022 test sets and show that it outperforms existing methods. Our findings offer a new perspective on fine-tuning LLMs for translation tasks and provide a promising solution for generating high-quality translations. Please refer to Github for more details: https://github.com/lemon0830/TIM. | 翻訳日:2023-07-11 13:52:07 公開日:2023-07-10 |
# 倫理学者:損失平滑なソフトプロンプティングによる訓練データ抽出と校正信頼度推定 Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation ( http://arxiv.org/abs/2307.04401v1 ) ライセンス: Link先を確認 | Zhexin Zhang, Jiaxin Wen, Minlie Huang | (参考訳) 大きな事前学習された言語モデルは、多くのタスクで印象的な結果をもたらします。
しかし、最近の研究によると、事前学習された言語モデルはトレーニングデータのかなりの部分を記憶しており、情報漏洩のプライバシーリスクが生じる可能性がある。
そこで,本稿では,学習データ中の接尾辞の回収方法について検討し,損失のスムーズなソフトプロンプトと校正された信頼度推定による目標トレーニングデータ抽出のためのEthicistという手法を提案する。
攻撃されたモデルに記憶を与えるため、モデルを固定しながらソフトなプロンプト埋め込みを調整する。
さらに,適切な接尾辞のサンプル化を容易にするために,接尾辞トークンの損失分布を円滑にする平滑化損失を提案する。
サンプリングされた接尾辞の集合から最も可能性の高い接尾辞を選択し、予測信頼度を推定するために、生成された接尾辞の信頼度を局所的な推定で正規化する校正信頼度推定法を提案する。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
また,デコード戦略,モデルスケール,プレフィックス長,接尾辞長などのデータ抽出性能に影響を与える要因についても検討した。
私たちのコードはhttps://github.com/thu-coai/targeted-data-extractionで利用可能です。 Large pre-trained language models achieve impressive results across many tasks. However, recent works point out that pre-trained language models may memorize a considerable fraction of their training data, leading to the privacy risk of information leakage. In this paper, we propose a method named Ethicist for targeted training data extraction through loss smoothed soft prompting and calibrated confidence estimation, investigating how to recover the suffix in the training data when given a prefix. To elicit memorization in the attacked model, we tune soft prompt embeddings while keeping the model fixed. We further propose a smoothing loss that smooths the loss distribution of the suffix tokens to make it easier to sample the correct suffix. In order to select the most probable suffix from a collection of sampled suffixes and estimate the prediction confidence, we propose a calibrated confidence estimation method, which normalizes the confidence of the generated suffixes with a local estimation. We show that Ethicist significantly improves the extraction performance on a recently proposed public benchmark. We also investigate several factors influencing the data extraction performance, including decoding strategy, model scale, prefix length, and suffix length. Our code is available at https://github.com/thu-coai/Targeted-Data-Extraction. | 翻訳日:2023-07-11 13:51:52 公開日:2023-07-10 |
# ARK: 結合によるロバストノックオフ推論 ARK: Robust Knockoffs Inference with Coupling ( http://arxiv.org/abs/2307.04400v1 ) ライセンス: Link先を確認 | Yingying Fan, Lan Gao, Jinchi Lv | (参考訳) モデル-Xノックオフフレームワークの,不特定あるいは推定された特徴分布に対するロバスト性について検討する。
提案手法は偽発見率 (fdr) とファミリーワイズ誤り率 (fwer) の尺度に基づいて, 近似ノックオフ法 (ark) と呼ばれる, 事実上実装されたノックオフアルゴリズムの特徴選択性能を理論的に検討することで, その目標を達成している。
近似ノックオフ手順はモデルXノックオフ手順と異なり、前者は不特定または推定された特徴分布を使用する。
我々の理論解析における鍵となる手法は、近似ノックオフ手順とモデルxノックオフ手順を組み合わせることで、これらの2つの手順における確率変数が実現に近付くようにすることである。
このような結合モデル-Xノックオフ手順が存在する場合、その近似ノックオフ手順は、目標レベルでの漸近FDRまたはFWER制御を実現することができる。
このような結合モデル-Xノックオフ変数の3つの具体的な構成を示し、それらの存在を検証し、モデル-Xノックオフフレームワークの堅牢性を正当化する。 We investigate the robustness of the model-X knockoffs framework with respect to the misspecified or estimated feature distribution. We achieve such a goal by theoretically studying the feature selection performance of a practically implemented knockoffs algorithm, which we name as the approximate knockoffs (ARK) procedure, under the measures of the false discovery rate (FDR) and family wise error rate (FWER). The approximate knockoffs procedure differs from the model-X knockoffs procedure only in that the former uses the misspecified or estimated feature distribution. A key technique in our theoretical analyses is to couple the approximate knockoffs procedure with the model-X knockoffs procedure so that random variables in these two procedures can be close in realizations. We prove that if such coupled model-X knockoffs procedure exists, the approximate knockoffs procedure can achieve the asymptotic FDR or FWER control at the target level. We showcase three specific constructions of such coupled model-X knockoff variables, verifying their existence and justifying the robustness of the model-X knockoffs framework. | 翻訳日:2023-07-11 13:51:28 公開日:2023-07-10 |
# FODVid:ビデオのフロー誘導オブジェクト発見 FODVid: Flow-guided Object Discovery in Videos ( http://arxiv.org/abs/2307.04392v1 ) ライセンス: Link先を確認 | Silky Singh and Shripad Deshmukh and Mausoom Sarkar and Rishabh Jain and Mayur Hemani and Balaji Krishnamurthy | (参考訳) 動画内のオブジェクトのセグメンテーションは、動きのぼやけ、パララックス、オクルージョン、照明の変化などのニュアンスのために困難である。
これらのニュアンスを別々に扱うのではなく、個々の複雑さに過剰に適合しない汎用的なソリューションを構築することに重点を置いています。
このようなソリューションは、ビデオコーポラの人間的アノテーションに関わる膨大なリソースの節約にも役立ちます。
教師なし環境でビデオオブジェクトセグメンテーション(VOS)を解決するため,フロー誘導グラフカットと時間一貫性を用いたセグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
基本的に,フレーム内外観とフローの類似性,および対象物のフレーム間時間継続性を考慮したセグメンテーションモデルを設計する。
標準的なDAVIS16ビデオベンチマークにおいて,本手法の実験的解析を行った。
単純ではあるが、我々の手法は、教師なしVOSにおける既存のトップアプローチに匹敵する結果(約2mIoUの範囲)を生成する。
この技術の単純さと有効性は、ビデオ領域の研究の新たな道を開く。 Segmentation of objects in a video is challenging due to the nuances such as motion blurring, parallax, occlusions, changes in illumination, etc. Instead of addressing these nuances separately, we focus on building a generalizable solution that avoids overfitting to the individual intricacies. Such a solution would also help us save enormous resources involved in human annotation of video corpora. To solve Video Object Segmentation (VOS) in an unsupervised setting, we propose a new pipeline (FODVid) based on the idea of guiding segmentation outputs using flow-guided graph-cut and temporal consistency. Basically, we design a segmentation model incorporating intra-frame appearance and flow similarities, and inter-frame temporal continuation of the objects under consideration. We perform an extensive experimental analysis of our straightforward methodology on the standard DAVIS16 video benchmark. Though simple, our approach produces results comparable (within a range of ~2 mIoU) to the existing top approaches in unsupervised VOS. The simplicity and effectiveness of our technique opens up new avenues for research in the video domain. | 翻訳日:2023-07-11 13:51:07 公開日:2023-07-10 |
# MR誘導蒸留学習による変形性膝関節症のCT下骨組織解析 CT-based Subchondral Bone Microstructural Analysis in Knee Osteoarthritis via MR-Guided Distillation Learning ( http://arxiv.org/abs/2307.04390v1 ) ライセンス: Link先を確認 | Yuqi Hu, Xiangyu Zhao, Gaowei Qing, Kai Xie, Chenglei Liu, Lichi Zhang | (参考訳) 背景:MRベースの軟骨下骨は膝関節症を効果的に予測する。
本研究の目的は, 簡便に獲得したct画像を用いた軟骨下骨組織解析のための新しい蒸留学習法であるsrrdの開発であり, 訓練中のctベース解析モデルを強化するために, 対mr画像を活用することにある。
材料と方法:2020年10月から2021年5月までにCTとMRの両方の膝関節像を収集した。
まず, MR画像からCT画像へ変換するGANを用いた生成モデルを構築し, 両者の解剖学的対応性を確立した。
次に,MRI画像の軟骨下骨領域のパッチと,それに対応するCT画像パッチから,そのトラベクリンパラメータ(BV/TV,Tb.Th,Tb.Sp,Tb.N)を回帰的に取得した。
蒸留学習法は回帰モデルを訓練し, MR構造情報をCTモデルに転送するために用いられた。
逆行性トラベクラーパラメータは膝関節症分類にさらに用いられた。
結果: 参加者は80名であった。
管内相関係数は, BV/TV, Tb.Th, Tb.Sp, Tb.Nそれぞれ0.804, 0.773, 0.711, 0.622であった。
蒸留学習は, cnn法を用いて, 0.658 (95% ci, 0.574-0.742) (p<.001) ではなく0.767 (95% ci, 0.681-0.853) のaucスコアを得た。
結論: SRRD法はMR-CTの登録, 回帰, 膝関節炎分類において高い信頼性と妥当性を示し, CT画像による軟骨下骨組織解析の可能性を示した。 Background: MR-based subchondral bone effectively predicts knee osteoarthritis. However, its clinical application is limited by the cost and time of MR. Purpose: We aim to develop a novel distillation-learning-based method named SRRD for subchondral bone microstructural analysis using easily-acquired CT images, which leverages paired MR images to enhance the CT-based analysis model during training. Materials and Methods: Knee joint images of both CT and MR modalities were collected from October 2020 to May 2021. Firstly, we developed a GAN-based generative model to transform MR images into CT images, which was used to establish the anatomical correspondence between the two modalities. Next, we obtained numerous patches of subchondral bone regions of MR images, together with their trabecular parameters (BV/TV, Tb.Th, Tb.Sp, Tb.N) from the corresponding CT image patches via regression. The distillation-learning technique was used to train the regression model and transfer MR structural information to the CT-based model. The regressed trabecular parameters were further used for knee osteoarthritis classification. Results: A total of 80 participants were evaluated. CT-based regression results of trabecular parameters achieved intra-class correlation coefficients (ICCs) of 0.804, 0.773, 0.711, and 0.622 for BV/TV, Tb.Th, Tb.Sp, and Tb.N, respectively. The use of distillation learning significantly improved the performance of the CT-based knee osteoarthritis classification method using the CNN approach, yielding an AUC score of 0.767 (95% CI, 0.681-0.853) instead of 0.658 (95% CI, 0.574-0.742) (p<.001). Conclusions: The proposed SRRD method showed high reliability and validity in MR-CT registration, regression, and knee osteoarthritis classification, indicating the feasibility of subchondral bone microstructural analysis based on CT images. | 翻訳日:2023-07-11 13:50:48 公開日:2023-07-10 |
# ランダム化計測ツールボックスによる有界・多粒子絡みの実験的検証 Experimental verification of bound and multiparticle entanglement with the randomized measurement toolbox ( http://arxiv.org/abs/2307.04382v1 ) ライセンス: Link先を確認 | Chao Zhang, Yuan-Yuan Zhao, Nikolai Wyderka, Satoya Imai, Andreas Ketterer, Ning-Ning Wang, Kai Xu, Keren Li, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, and Otfried G\"uhne | (参考訳) 近年,ランダム化測定に基づく量子状態の解析手法が広く研究されている。
それでも、実験的な実装では、これらの手法は一般的に強絡み合いの状態の特徴付けに使われ、多粒子または弱絡み合い状態の異なる族を分析するのに使われなかった。
本研究では、パス偏光超エンタングル光子対を持つ様々なエンタングル状態を作成し、それらのエンタングルメント特性をランダム化測定のツールボックス全体を用いて実験的に研究する。
まず,一連のghz-w混合状態の相関をランダム結果の第2モーメントを用いて特徴付けることに成功し,その利点をよく知られた三角形および二乗共起と比較することで実証する。
第2に, 2 つの3 次元系の束縛エンタングルドチェスボード状態を生成し, その弱エンタングルメントをランダム化測定のモーメントから導かれた基準で検証する。 In recent years, analysis methods for quantum states based on randomized measurements have been investigated extensively. Still, in the experimental implementations these methods were typically used for characterizing strongly entangled states and not to analyze the different families of multiparticle or weakly entangled states. In this work, we experimentally prepare various entangled states with path-polarization hyper-entangled photon pairs, and study their entanglement properties using the full toolbox of randomized measurements. First, we successfully characterize the correlations of a series of GHZ-W mixed states using the second moments of the random outcomes, and demonstrate the advantages of this method by comparing it with the well-known three-tangle and squared concurrence. Second, we generate bound entangled chessboard states of two three-dimensional systems and verify their weak entanglement with a criterion derived from moments of randomized measurements. | 翻訳日:2023-07-11 13:50:09 公開日:2023-07-10 |
# 全身性糖尿病網膜症への展開 Towards Generalizable Diabetic Retinopathy Grading in Unseen Domains ( http://arxiv.org/abs/2307.04378v1 ) ライセンス: Link先を確認 | Haoxuan Che, Yuhan Cheng, Haibo Jin, Hao Chen | (参考訳) 糖尿病網膜症(英: Diabetic Retinopathy, DR)は、糖尿病の合併症の一つであり、世界中の視覚障害の主要な原因である。
早期かつ正確な重症度評価は疾患管理に不可欠である。
ディープラーニングは自動DRグレーディングに大きな可能性を示しているが、ドメイン一般化問題として知られるソースとターゲットドメイン間の分散シフトのため、実際のデプロイメントは依然として困難である。
既存の作業は主に、複雑な現実世界のシナリオを処理できない単純な視覚的相違に起因する限られたドメインシフトによるパフォーマンス低下に起因する。
代わりに,視覚と劣化のスタイルシフト,診断パターンの多様性,データの不均衡という,3次元の一般化問題の存在を示唆する予備的な証拠を示す。
これらの課題に対処するため、我々はGeneralizable Diabetic Retinopathy Grading Network (GDRNet) という新しい統合フレームワークを提案する。
GDRNetは、Fundus visual-artifact augmentation (FundusAug), dynamic hybrid-supervised loss (DahLoss), domain-class-aware re-balancing (DCR)の3つの重要なコンポーネントで構成されている。
FundusAugは、視覚変換と画像劣化によって現実的な拡張現実画像を生成する一方、DahLossはピクセルレベルの一貫性と画像レベルのセマンティクスを併用して、多様な診断パターンをキャプチャし、一般化可能な特徴表現を構築する。
さらに、dcrは、ドメインクラスビューからのデータ不均衡を緩和し、まれなドメインクラスペアに対する望ましくない過剰強調を回避する。
最後に、公正な評価のための公開ベンチマークを設計する。
GDRNetの有効性と一般化能力について,先進的手法と徹底的アブレーション法との比較実験を行った。 Diabetic Retinopathy (DR) is a common complication of diabetes and a leading cause of blindness worldwide. Early and accurate grading of its severity is crucial for disease management. Although deep learning has shown great potential for automated DR grading, its real-world deployment is still challenging due to distribution shifts among source and target domains, known as the domain generalization problem. Existing works have mainly attributed the performance degradation to limited domain shifts caused by simple visual discrepancies, which cannot handle complex real-world scenarios. Instead, we present preliminary evidence suggesting the existence of three-fold generalization issues: visual and degradation style shifts, diagnostic pattern diversity, and data imbalance. To tackle these issues, we propose a novel unified framework named Generalizable Diabetic Retinopathy Grading Network (GDRNet). GDRNet consists of three vital components: fundus visual-artifact augmentation (FundusAug), dynamic hybrid-supervised loss (DahLoss), and domain-class-aware re-balancing (DCR). FundusAug generates realistic augmented images via visual transformation and image degradation, while DahLoss jointly leverages pixel-level consistency and image-level semantics to capture the diverse diagnostic patterns and build generalizable feature representations. Moreover, DCR mitigates the data imbalance from a domain-class view and avoids undesired over-emphasis on rare domain-class pairs. Finally, we design a publicly available benchmark for fair evaluations. Extensive comparison experiments against advanced methods and exhaustive ablation studies demonstrate the effectiveness and generalization ability of GDRNet. | 翻訳日:2023-07-11 13:49:52 公開日:2023-07-10 |
# swin transformer を用いた変形性膝関節症の自動診断 Automatic diagnosis of knee osteoarthritis severity using Swin transformer ( http://arxiv.org/abs/2307.04442v1 ) ライセンス: Link先を確認 | Aymen Sekhri, Marouane Tliba, Mohamed Amine Kerkouri, Yassine Nasser, Aladine Chetouani, Alessandro Bruno, Rachid Jennane, | (参考訳) 変形性膝関節症 (KOA) は膝関節の慢性的な痛みと硬直を引き起こす疾患である。
早期発見と診断は, 移動障害などの重篤な合併症を予防するために, 臨床介入および管理に不可欠である。
本稿では,Swin Transformer を用いて KOA の重症度を予測する自動手法を提案する。
本モデルでは,kellgrenとlawrenceスコアを用いて,早期検出と重症度評価を行う。
モデルの精度を向上させるために,多層パーセプトロン分類器を用いたマルチ予測ヘッドアーキテクチャを採用している。
さらに,複数のデータセット間のデータドリフトを低減し,モデルの一般化能力を確保する新しいトレーニング手法を提案する。
実験の結果,KOAの重症度を正確に予測する手法の有効性と妥当性が示された。 Knee osteoarthritis (KOA) is a widespread condition that can cause chronic pain and stiffness in the knee joint. Early detection and diagnosis are crucial for successful clinical intervention and management to prevent severe complications, such as loss of mobility. In this paper, we propose an automated approach that employs the Swin Transformer to predict the severity of KOA. Our model uses publicly available radiographic datasets with Kellgren and Lawrence scores to enable early detection and severity assessment. To improve the accuracy of our model, we employ a multi-prediction head architecture that utilizes multi-layer perceptron classifiers. Additionally, we introduce a novel training approach that reduces the data drift between multiple datasets to ensure the generalization ability of the model. The results of our experiments demonstrate the effectiveness and feasibility of our approach in predicting KOA severity accurately. | 翻訳日:2023-07-11 13:44:33 公開日:2023-07-10 |
# グローバル・ローカル・ビジュアル・プロセッシング : 知覚的フィールド変数の影響 Global and Local Visual Processing: Influence of Perceptual Field Variables ( http://arxiv.org/abs/2307.04435v1 ) ライセンス: Link先を確認 | Zahra Rezvani, Ali Katanforoush, Richard van Wezel, Hamidreza Pouretemad | (参考訳) GPE(Global Precedence Effect)は、視覚刺激のグローバル特性の処理が局所特性の処理に先立って行われることを示唆している。
この理論の一般性は、異なる知覚的場変数の間に40年間議論された。
近年のメタアナリシス研究では, この40年間の知見に関する各種PFVの効果の大きさについて検討した。
そこで本研究では,異なるタスクパラダイムを持つ2つの異なる実験において,合同性,大きさ,スパーシティの効果と,それらの相互作用がグローバルアドバンテージに与える影響について検討する。
これらの実験の結果、合同性とサイズは大きな影響を与え、スパーシティは小さな効果を持つ。
また、タスクパラダイムと他のPFVとの相互作用は、GPEに対するPFVの効果を評価する上で、タスクパラダイムの役割が顕著であることを示す。
また, これらのパラメータの影響は, 網膜の安定化を指示された特殊な条件には特異的ではなかった。
したがって、実験は日々の人間の行動にもっと拡張可能であった。 The Global Precedence Effect (GPE) suggests that the processing of global properties of a visual stimulus precedes the processing of local properties. The generality of this theory was argued for four decades during different known Perceptual Field Variables. The effect size of various PFVs, regarding the findings during these four decades, were pooled in our recent meta-analysis study. Pursuing the study, in the present paper, we explore the effects of Congruency, Size, and Sparsity and their interaction on global advantage in two different experiments with different task paradigms; Matching judgment and Similarity judgment. Upon results of these experiments, Congruency and Size have significant effects and Sparsity has small effects. Also, the task paradigm and its interaction with other PFVs are shown significant effects in this study, which shows the prominence of the role of task paradigms in evaluating PFVs' effects on GPE. Also, we found that the effects of these parameters were not specific to the special condition that individuals were instructed to retinal stabilize. So, the experiments were more extendible to daily human behavior. | 翻訳日:2023-07-11 13:44:18 公開日:2023-07-10 |
# 進化的多目的ニューラルアーキテクチャ探索による新しい認知診断モデルの設計 Designing Novel Cognitive Diagnosis Models via Evolutionary Multi-Objective Neural Architecture Search ( http://arxiv.org/abs/2307.04429v1 ) ライセンス: Link先を確認 | Shangshang Yang, Haiping Ma, Cheng Zhen, Ye Tian, Limiao Zhang, Yaochu Jin, and Xingyi Zhang | (参考訳) 認知診断は、現代の知的教育プラットフォームにおいて、後続の適応タスクに対する知識概念の習熟度を明らかにするために重要な役割を果たす。
しかし、高いモデル解釈性を必要とするため、既存の手作業で設計された認知診断モデルは、現在の知的教育システムのニーズを満たすにはあまりにも単純なアーキテクチャを持ちすぎ、人間設計のバイアスは効果的な認知診断モデルの出現を制限している。
本稿では,進化的多目的ニューラルアーキテクチャサーチ(NAS)による新しい認知診断モデルの自動設計を提案する。
具体的には,既存のモデルを3種類の入力を扱う汎用モデルで表現することができ,まず認知診断におけるNASタスクの表現型検索空間を設計する。
そこで我々は,NASタスクの探索空間をモデル性能と解釈可能性の最大化により探索する多目的遺伝的プログラミング(MOGP)を提案する。
MOGP設計では、各アーキテクチャは木構造に変換され、木によって符号化され、容易に最適化され、4つのサブジェネティック操作に基づく調整された遺伝子操作が、子孫を効果的に生成するために考案される。
さらに、初期化戦略は、既存モデルの変種から人口の半分を進化させることで収束を加速するようにも提案されている。
2つの実世界のデータセットにおける実験により、提案手法によって探索された認知診断モデルは、既存のモデルよりもかなり優れた性能を示し、人間設計のモデルよりも優れた解釈性を持つことが示された。 Cognitive diagnosis plays a vital role in modern intelligent education platforms to reveal students' proficiency in knowledge concepts for subsequent adaptive tasks. However, due to the requirement of high model interpretability, existing manually designed cognitive diagnosis models hold too simple architectures to meet the demand of current intelligent education systems, where the bias of human design also limits the emergence of effective cognitive diagnosis models. In this paper, we propose to automatically design novel cognitive diagnosis models by evolutionary multi-objective neural architecture search (NAS). Specifically, we observe existing models can be represented by a general model handling three given types of inputs and thus first design an expressive search space for the NAS task in cognitive diagnosis. Then, we propose multi-objective genetic programming (MOGP) to explore the NAS task's search space by maximizing model performance and interpretability. In the MOGP design, each architecture is transformed into a tree architecture and encoded by a tree for easy optimization, and a tailored genetic operation based on four sub-genetic operations is devised to generate offspring effectively. Besides, an initialization strategy is also suggested to accelerate the convergence by evolving half of the population from existing models' variants. Experiments on two real-world datasets demonstrate that the cognitive diagnosis models searched by the proposed approach exhibit significantly better performance than existing models and also hold as good interpretability as human-designed models. | 翻訳日:2023-07-11 13:43:57 公開日:2023-07-10 |
# 銀河面からの高エネルギーニュートリノの観測 Observation of high-energy neutrinos from the Galactic plane ( http://arxiv.org/abs/2307.04427v1 ) ライセンス: Link先を確認 | R. Abbasi, M. Ackermann, J. Adams, J. A. Aguilar, M. Ahlers, M. Ahrens, J.M. Alameddine, A. A. Alves Jr., N. M. Amin, K. Andeen, T. Anderson, G. Anton, C. Arg\"uelles, Y. Ashida, S. Athanasiadou, S. Axani, X. Bai, A. Balagopal V., S. W. Barwick, V. Basu, S. Baur, R. Bay, J. J. Beatty, K.-H. Becker, J. Becker Tjus, J. Beise, C. Bellenghi, S. Benda, S. BenZvi, D. Berley, E. Bernardini, D. Z. Besson, G. Binder, D. Bindig, E. Blaufuss, S. Blot, M. Boddenberg, F. Bontempo, J. Y. Book, J. Borowka, S. B\"oser, O. Botner, J. B\"ottcher, E. Bourbeau, F. Bradascio, J. Braun, B. Brinson, S. Bron, J. Brostean-Kaiser, R. T. Burley, R. S. Busse, M. A. Campana, E. G. Carnie-Bronca, C. Chen, Z. Chen, D. Chirkin, K. Choi, B. A. Clark, K. Clark, L. Classen, A. Coleman, G. H. Collin, A. Connolly, J. M. Conrad, P. Coppin, P. Correa, D. F. Cowen, R. Cross, C. Dappen, P. Dave, C. De Clercq, J. J. DeLaunay, D. Delgado L\'opez, H. Dembinski, K. Deoskar, A. Desai, P. Desiati, K. D. de Vries, G. de Wasseige, T. DeYoung, A. Diaz, J. C. D\'iaz-V\'elez, M. Dittmer, H. Dujmovic, M. Dunkman, M. A. DuVernois, T. Ehrhardt, P. Eller, R. Engel, H. Erpenbeck, J. Evans, P. A. Evenson, K. L. Fan, A. R. Fazely, A. Fedynitch, N. Feigl, S. Fiedlschuster, A. T. Fienberg, C. Finley, L. Fischer, D. Fox, A. Franckowiak, E. Friedman, A. Fritz, P. F\"urst, T. K. Gaisser, J. Gallagher, E. Ganster, A. Garcia, S. Garrappa, L. Gerhardt, A. Ghadimi, C. Glaser, T. Glauch, T. Gl\"usenkamp, N. Goehlke, A. Goldschmidt, J. G. Gonzalez, S. Goswami, D. Grant, T. Gr\'egoire, S. Griswold, C. G\"unther, P. Gutjahr, C. Haack, A. Hallgren, R. Halliday, L. Halve, F. Halzen, M. Ha Minh, K. Hanson, J. Hardin, A. A. Harnisch, A. Haungs, K. Helbing, F. Henningsen, E. C. Hettinger, S. Hickford, J. Hignight, C. Hill, G. C. Hill, K. D. Hoffman, K. Hoshina, W. Hou, F. Huang, M. Huber, T. Huber, K. Hultqvist, M. H\"unnefeld, R. Hussain, K. Hymon, S. In, N. Iovine, A. Ishihara, M. Jansson, G. S. Japaridze, M. Jeong, M. Jin, B. J. P. Jones, D. Kang, W. Kang, X. Kang, A. Kappes, D. Kappesser, L. Kardum, T. Karg, M. Karl, A. Karle, U. Katz, M. Kauer, M. Kellermann, J. L. Kelley, A. Kheirandish, K. Kin, J. Kiryluk, S. R. Klein, A. Kochocki, R. Koirala, H. Kolanoski, T. Kontrimas, L. K\"opke, C. Kopper, S. Kopper, D. J. Koskinen, P. Koundal, M. Kovacevich, M. Kowalski, T. Kozynets, E. Krupczak, E. Kun, N. Kurahashi, N. Lad, C. Lagunas Gualda, J. L. Lanfranchi, M. J. Larson, F. Lauber, J. P. Lazar, J. W. Lee, K. Leonard, A. Leszczy\'nska, Y. Li, M. Lincetto, Q. R. Liu, M. Liubarska, E. Lohfink, C. J. Lozano Mariscal, L. Lu, F. Lucarelli, A. Ludwig, W. Luszczak, Y. Lyu, W. Y. Ma, J. Madsen, K. B. M. Mahn, Y. Makino, S. Mancina, I. C. Mari\c{s}, I. Martinez-Soler, R. Maruyama, S. McCarthy, T. McElroy, F. McNally, J. V. Mead, K. Meagher, S. Mechbal, A. Medina, M. Meier, S. Meighen-Berger, Y. Merckx, J. Micallef, D. Mockler, T. Montaruli, R. W. Moore, K. Morik, R. Morse, M. Moulai, T. Mukherjee, R. Naab, R. Nagai, R. Nahnhauer, U. Naumann, J. Necker, L. V. Nguyen, H. Niederhausen, M. U. Nisa, S. C. Nowicki, D. Nygren, A. Obertacke Pollmann, M. Oehler, B. Oeyen, A. Olivas, E. O'Sullivan, H. Pandya, D. V. Pankova, N. Park, G. K. Parker, E. N. Paudel, L. Paul, C. P\'erez de los Heros, L. Peters, J. Peterson, S. Philippen, S. Pieper, A. Pizzuto, M. Plum, Y. Popovych, A. Porcelli, M. Prado Rodriguez, B. Pries, G. T. Przybylski, C. Raab, J. Rack-Helleis, A. Raissi, M. Rameez, K. Rawlins, I. C. Rea, Z. Rechav, A. Rehman, P. Reichherzer, R. Reimann, G. Renzi, E. Resconi, S. Reusch, W. Rhode, M. Richman, B. Riedel, E. J. Roberts, S. Robertson, G. Roellinghoff, M. Rongen, C. Rott, T. Ruhe, D. Ryckbosch, D. Rysewyk Cantu, I. Safa, J. Saffer, D. Salazar-Gallegos, P. Sampathkumar, S. E. Sanchez Herrera, A. Sandrock, M. Santander, S. Sarkar, S. Sarkar, K. Satalecka, M. Schaufel, H. Schieler, S. Schindler, T. Schmidt, A. Schneider, J. Schneider, F. G. Schr\"oder, L. Schumacher, G. Schwefer, S. Sclafani, D. Seckel, S. Seunarine, A. Sharma, S. Shefali, N. Shimizu, M. Silva, B. Skrzypek, B. Smithers, R. Snihur, J. Soedingrekso, A. Sogaard, D. Soldin, C. Spannfellner, G. M. Spiczak, C. Spiering, M. Stamatikos, T. Stanev, R. Stein, J. Stettner, T. Stezelberger, B. Stokstad, T. St\"urwald, T. Stuttard, G. W. Sullivan, I. Taboada, S. Ter-Antonyan, J. Thwaites, S. Tilav, F. Tischbein, K. Tollefson, C. T\"onnis, S. Toscano, D. Tosi, A. Trettin, M. Tselengidou, C. F. Tung, A. Turcati, R. Turcotte, C. F. Turley, J. P. Twagirayezu, B. Ty, M. A. Unland Elorrieta, N. Valtonen-Mattila, J. Vandenbroucke, N. van Eijndhoven, D. Vannerom, J. van Santen, J. Veitch-Michaelis, S. Verpoest, C. Walck, W. Wang, T. B. Watson, C. Weaver, P. Weigel, A. Weindl, M. J. Weiss, J. Weldert, C. Wendt, J. Werthebach, M. Weyrauch, N. Whitehorn, C. H. Wiebusch, N. Willey, D. R. Williams, M. Wolf, G. Wrede, J. Wulff, X. W. Xu, J. P. Yanez, E. Yildizci, S. Yoshida, S. Yu, T. Yuan, Z. Zhang, P. Zhelnin | (参考訳) 高エネルギー宇宙線の起源は、地球の大気に継続的に影響する原子核であり、1世紀以上にわたって謎のままだった。
恒星間磁場の偏向により、天の川からの宇宙線がランダムな方向から地球に届く。
しかし、その源と伝播の間、宇宙線は物質と相互作用し、高エネルギーニュートリノを生成する。
我々は,icecube neutrino観測所から10年間のデータに適用した機械学習手法を用いてニュートリノ放射を探索する。
我々は、拡散放出モデルと背景のみの仮説を比較し、銀河面からのニュートリノ放射を4.5$\sigma$の重要度レベルで同定する。
この信号は銀河面からのモデル付き拡散放出と一致しているが、未解決の点源の集団からも生じる可能性がある。 The origin of high-energy cosmic rays, atomic nuclei that continuously impact Earth's atmosphere, has been a mystery for over a century. Due to deflection in interstellar magnetic fields, cosmic rays from the Milky Way arrive at Earth from random directions. However, near their sources and during propagation, cosmic rays interact with matter and produce high-energy neutrinos. We search for neutrino emission using machine learning techniques applied to ten years of data from the IceCube Neutrino Observatory. We identify neutrino emission from the Galactic plane at the 4.5$\sigma$ level of significance, by comparing diffuse emission models to a background-only hypothesis. The signal is consistent with modeled diffuse emission from the Galactic plane, but could also arise from a population of unresolved point sources. | 翻訳日:2023-07-11 13:43:30 公開日:2023-07-10 |
# 深層学習を用いた脳CT画像における出血と梗塞病変の同定 Identification of Hemorrhage and Infarct Lesions on Brain CT Images using Deep Learning ( http://arxiv.org/abs/2307.04425v1 ) ライセンス: Link先を確認 | Arunkumar Govindarajan, Arjun Agarwal, Subhankar Chattoraj, Dennis Robert, Satish Golla, Ujjwal Upadhyay, Swetha Tanamala, and Aarthi Govindarajan | (参考訳) 頭部非コントラストCT(Head Non-Contrast Computed Tomography, NCCT)スキャンは, 広範に利用可能であり, 高速である。
しかし、頭部CTスキャンの異常脳組織の手動アノテーションの現在の標準は、カットオフ標準化の欠如や変性の特定など、重大な欠点を伴っている。
近年,多分野の深層学習型コンピュータ支援診断(cad)モデルが進歩し,神経学的画像診断に多大な機会がもたらされている。
画像の異なるモダリティの脳組織の自動同定において、重要な文献が早くから発表されている。
しかし, 画像テクスチャ, ボリュームサイズ, スキャン品質の変動により, 頭蓋内出血と梗塞の判定は困難である。
本研究は,頭部CTスキャンからICHと梗塞を同定するDLベースのアルゴリズムを検証した。
頭部CTスキャンデータセットは、インドの複数の診断画像センターから連続的に収集された。
本研究は、広範囲な医療施設における日常的なワークフロー導入のためのDLベースのソフトウェアの可能性と限界を示す。 Head Non-contrast computed tomography (NCCT) scan remain the preferred primary imaging modality due to their widespread availability and speed. However, the current standard for manual annotations of abnormal brain tissue on head NCCT scans involves significant disadvantages like lack of cutoff standardization and degeneration identification. The recent advancement of deep learning-based computer-aided diagnostic (CAD) models in the multidisciplinary domain has created vast opportunities in neurological medical imaging. Significant literature has been published earlier in the automated identification of brain tissue on different imaging modalities. However, determining Intracranial hemorrhage (ICH) and infarct can be challenging due to image texture, volume size, and scan quality variability. This retrospective validation study evaluated a DL-based algorithm identifying ICH and infarct from head-NCCT scans. The head-NCCT scans dataset was collected consecutively from multiple diagnostic imaging centers across India. The study exhibits the potential and limitations of such DL-based software for introduction in routine workflow in extensive healthcare facilities. | 翻訳日:2023-07-11 13:43:17 公開日:2023-07-10 |
# 逆推論のためのDeep Computational Modelを用いた心筋梗塞心電図双極子の実現に向けて Towards Enabling Cardiac Digital Twins of Myocardial Infarction Using Deep Computational Models for Inverse Inference ( http://arxiv.org/abs/2307.04421v1 ) ライセンス: Link先を確認 | Lei Li, Julia Camps, Zhinuo Wang, Abhirup Banerjee, Blanca Rodriguez, and Vicente Grau | (参考訳) 心筋梗塞 (MI) の診断は正確で迅速である。
心臓デジタル双生児(CDT)は、非侵襲的に心臓機能の個別評価を提供する可能性があり、MIのパーソナライズされた診断と治療計画のための有望なアプローチである。
正確な心筋組織特性の推測は、信頼性の高いCDTプラットフォーム、特にMI研究の文脈において重要である。
本研究では、心電図(ECG)から心筋組織特性を推定できる可能性について検討し、MIに特化した総合CDTプラットフォームの開発に焦点をあてる。
このプラットフォームは、心MRIや心電図などのマルチモーダルデータを統合し、推測された組織特性の精度と信頼性を高める。
計算機シミュレーションに基づく感度解析を行い,心電図のqrs複合体に対する梗塞位置,大きさ,経常性,電気的活動変化の影響を体系的に探究し,アプローチの限界を確立する。
その後,シミュレーションされたqrsから梗塞の位置と分布を推定する深部計算モデルを提案する。
in silico実験の結果,本モデルはqrs信号とそれに対応する梗塞領域の複雑な関係を効果的に捉えることができ,将来的な臨床応用の可能性も示唆された。
原稿が出版されたら、コードは公開される予定だ。 Myocardial infarction (MI) demands precise and swift diagnosis. Cardiac digital twins (CDTs) have the potential to offer individualized evaluation of cardiac function in a non-invasive manner, making them a promising approach for personalized diagnosis and treatment planning of MI. The inference of accurate myocardial tissue properties is crucial in creating a reliable CDT platform, and particularly in the context of studying MI. In this work, we investigate the feasibility of inferring myocardial tissue properties from the electrocardiogram (ECG), focusing on the development of a comprehensive CDT platform specifically designed for MI. The platform integrates multi-modal data, such as cardiac MRI and ECG, to enhance the accuracy and reliability of the inferred tissue properties. We perform a sensitivity analysis based on computer simulations, systematically exploring the effects of infarct location, size, degree of transmurality, and electrical activity alteration on the simulated QRS complex of ECG, to establish the limits of the approach. We subsequently propose a deep computational model to infer infarct location and distribution from the simulated QRS. The in silico experimental results show that our model can effectively capture the complex relationships between the QRS signals and the corresponding infarct regions, with promising potential for clinical application in the future. The code will be released publicly once the manuscript is accepted for publication. | 翻訳日:2023-07-11 13:43:03 公開日:2023-07-10 |
# FedDCT - 無線通信ネットワークにおける動的クロスティアフェデレーション学習方式 FedDCT: A Dynamic Cross-Tier Federated Learning Scheme in Wireless Communication Networks ( http://arxiv.org/abs/2307.04420v1 ) ライセンス: Link先を確認 | Peng Liu, Youquan Xian, Chuanjian Yao, Xiaoyun Gan, Lianghaojie Zhou, Jianyong Jiang, Dongcheng Li | (参考訳) IoT(Internet of Things)デバイスが急速に普及し、一般の人々の間でデータプライバシに対する懸念が高まっている中、フェデレートラーニング(FL)は、プライバシ保護機械学習パラダイムとして大きな注目を集めている。
FLは、ローカルデータを公開せずに、クライアント間でグローバルモデルのトレーニングを可能にする。
しかし、連合学習システムが無線通信ネットワーク上で動作する場合、限られた無線リソース、クライアントの不均一性、ネットワーク伝送障害はその性能と精度に影響を及ぼす。
本研究では,無線通信ネットワークにおけるトレーニング精度と性能を向上させるために,FedDCTという動的クロス層FL方式を提案する。
階層化アルゴリズムを用いて,クライアントを異なる階層に動的に分割し,各階層に特定のタイムアウトしきい値を割り当て,必要なトレーニング時間を短縮する。
トレーニング時間を増やすことなくモデルの精度を向上させるために、階層と参加者を効果的に選択できるクロス層クライアント選択アルゴリズムを導入する。
シミュレーション実験により,提案手法により,無線通信網におけるモデル収束の高速化と高精度化が図られた。 With the rapid proliferation of Internet of Things (IoT) devices and the growing concern for data privacy among the public, Federated Learning (FL) has gained significant attention as a privacy-preserving machine learning paradigm. FL enables the training of a global model among clients without exposing local data. However, when a federated learning system runs on wireless communication networks, limited wireless resources, heterogeneity of clients, and network transmission failures affect its performance and accuracy. In this study, we propose a novel dynamic cross-tier FL scheme, named FedDCT to increase training accuracy and performance in wireless communication networks. We utilize a tiering algorithm that dynamically divides clients into different tiers according to specific indicators and assigns specific timeout thresholds to each tier to reduce the training time required. To improve the accuracy of the model without increasing the training time, we introduce a cross-tier client selection algorithm that can effectively select the tiers and participants. Simulation experiments show that our scheme can make the model converge faster and achieve a higher accuracy in wireless communication networks. | 翻訳日:2023-07-11 13:42:38 公開日:2023-07-10 |
# トーリック符号を超える量子誤差補正:エンコーディングに合う力学系 Quantum error correction beyond the toric code: dynamical systems meet encoding ( http://arxiv.org/abs/2307.04418v1 ) ライセンス: Link先を確認 | Garima Rajpoot, Komal Kumari, and Sudhir Ranjan Jain | (参考訳) 我々は, 量子誤差補正の文脈において, 1 以上の種数に対応する曲面符号を構築する。
このアーキテクチャは、ある非可積分古典ビリヤードの不変積分曲面の位相に着想を得ている。
rhombus と square torus billiard の基本領域に対応し、2 属と 5 属の表面符号を示す。
ノイズに対する免疫に加えて、符号化レートとコード距離が大幅に改善されている。 We construct surface codes corresponding to genus greater than one in the context of quantum error correction. The architecture is inspired by the topology of invariant integral surfaces of certain non-integrable classical billiards. Corresponding to the fundamental domains of rhombus and square torus billiard, surface codes of genus two and five are presented here. There is significant improvement in encoding rates and code distance, in addition to immunity against noise. | 翻訳日:2023-07-11 13:42:06 公開日:2023-07-10 |
# 拡張ラグランジアンアプローチによるフェデレーション学習におけるグループフェアネスの扱い Handling Group Fairness in Federated Learning Using Augmented Lagrangian Approach ( http://arxiv.org/abs/2307.04417v1 ) ライセンス: Link先を確認 | Gerry Windiarto Mohamad Dunda and Shenghui Song | (参考訳) federated learning (fl)はそのプライバシー保護機能のためにかなりの注目を集めている。
それでも、ユーザーデータ管理の自由の欠如は、たとえ法的に準拠したプロセスで訓練されたとしても、モデルが人種や性別のような繊細な要因に偏る可能性があるグループフェアネス問題につながる可能性がある。
そこで本研究では,グループフェアネス問題に対処するための新しいFLアルゴリズムを提案する。
本研究では,CelebA と ImSitu のデータセットに対して,統計的不均一性とクライアント数の違いによる精度の低下を最小限に抑えながら,定量的かつ定性的に公正性を向上できることを示す。
提案するFLアルゴリズムは、公平性の向上に加えて、局所微分プライバシー(LDP)と互換性があり、通信コストが無視され、FedAvg(FederatedAveraging)などの共通FLプロトコルから既存のFLシステムに移行する際のオーバーヘッドが最小となる。
また,提案アルゴリズムの理論的収束率保証と,所望の LDP を実現するためのガウス機構のノイズレベルも提供する。
この革新的なアプローチは、特に医療や刑事司法のような繊細なアプリケーションにおいて、flシステムの公平性と有効性を高める重要な可能性を秘めている。 Federated learning (FL) has garnered considerable attention due to its privacy-preserving feature. Nonetheless, the lack of freedom in managing user data can lead to group fairness issues, where models might be biased towards sensitive factors such as race or gender, even if they are trained using a legally compliant process. To redress this concern, this paper proposes a novel FL algorithm designed explicitly to address group fairness issues. We show empirically on CelebA and ImSitu datasets that the proposed method can improve fairness both quantitatively and qualitatively with minimal loss in accuracy in the presence of statistical heterogeneity and with different numbers of clients. Besides improving fairness, the proposed FL algorithm is compatible with local differential privacy (LDP), has negligible communication costs, and results in minimal overhead when migrating existing FL systems from the common FL protocol such as FederatedAveraging (FedAvg). We also provide the theoretical convergence rate guarantee for the proposed algorithm and the required noise level of the Gaussian mechanism to achieve desired LDP. This innovative approach holds significant potential to enhance the fairness and effectiveness of FL systems, particularly in sensitive applications such as healthcare or criminal justice. | 翻訳日:2023-07-11 13:41:54 公開日:2023-07-10 |
# 追跡誤差の消失を伴うエピソディックガウス過程に基づく学習制御 Episodic Gaussian Process-Based Learning Control with Vanishing Tracking Errors ( http://arxiv.org/abs/2307.04415v1 ) ライセンス: Link先を確認 | Armin Lederer, Jonas Umlauft, Sandra Hirche | (参考訳) 技術的システムの複雑さが増すため、正確な第一原理モデルは得られないことが多い。
監視された機械学習は、測定データからモデルを推論することでこの問題を軽減することができる。
ガウス過程の回帰は、高いデータ効率と、予測誤差境界の導出を可能にする明示的な不確実性表現のため、この目的に特に適している。
これらのエラー境界は、様々な制御アプローチのトラッキング精度を保証するために利用されてきたが、トレーニングデータへの直接的な依存は概して不明である。
我々は,gp回帰にバウンドしたベイズ予測誤差を導出することでこの問題に対処する。
予測誤差に基づいて、未知の非線形性のフィードバック補償として使用される学習GPモデルの時間変化追跡精度保証を証明し、データ密度を増大させて消滅追跡誤差を実現する。
これにより、任意の追跡精度を保証できるように、ガウス過程モデルを学習するためのエピソディックなアプローチを開発することができる。
導出理論の有効性はいくつかのシミュレーションで示されている。 Due to the increasing complexity of technical systems, accurate first principle models can often not be obtained. Supervised machine learning can mitigate this issue by inferring models from measurement data. Gaussian process regression is particularly well suited for this purpose due to its high data-efficiency and its explicit uncertainty representation, which allows the derivation of prediction error bounds. These error bounds have been exploited to show tracking accuracy guarantees for a variety of control approaches, but their direct dependency on the training data is generally unclear. We address this issue by deriving a Bayesian prediction error bound for GP regression, which we show to decay with the growth of a novel, kernel-based measure of data density. Based on the prediction error bound, we prove time-varying tracking accuracy guarantees for learned GP models used as feedback compensation of unknown nonlinearities, and show to achieve vanishing tracking error with increasing data density. This enables us to develop an episodic approach for learning Gaussian process models, such that an arbitrary tracking accuracy can be guaranteed. The effectiveness of the derived theory is demonstrated in several simulations. | 翻訳日:2023-07-11 13:41:01 公開日:2023-07-10 |
# Rydberg-dressed atom arrayにおける励起のフォノン支援コヒーレント輸送 Phonon-assisted coherent transport of excitations in Rydberg-dressed atom arrays ( http://arxiv.org/abs/2307.04471v1 ) ライセンス: Link先を確認 | Arkadiusz Kosior, Servaas Kokkelmans, Maciej Lewenstein, Jakub Zakrzewski, and Marcin P{\l}odzie\'n | (参考訳) 固体中の電子と格子の歪みの自己トッピング相互作用から生じるポラロンは、約1世紀にわたって広く研究されてきた。
それでも、ポーラロンの研究は活発で発展途上の分野であり続けており、基本的な理解と実用的応用の両方において進歩を続けている。
本稿では,2つの励起-フォノン結合項間の複雑な相互作用から生じる多様な動的挙動を示す顕微鏡モデルを提案する。
このモデルの導出は、双極子-双極子相互作用を持つ実験的に実現可能なRydberg-dressedシステムに基づいており、Rydberg原子量子シミュレータにおける実現の候補として期待できる。
驚くべきことに, ブロッホ振動の非対称性が増大し, 非スプレッド励起の一定力下でのマクロ輸送に繋がることが明らかとなった。
さらに,音響あるいは光フォノンに結合した場合の励起の挙動を比較し,オンサイトランダム電位に対する実験結果のロバスト性を実証した。
全体として、この研究は、コヒーレント量子輸送における潜在的な応用であるポーラロンダイナミクスの理解に寄与し、rydbergベースの量子システムの研究に有用な洞察を提供する。 Polarons, which arise from the self-trapping interaction between electrons and lattice distortions in a solid, have been known and extensively investigated for nearly a century. Nevertheless, the study of polarons continues to be an active and evolving field, with ongoing advancements in both fundamental understanding and practical applications. Here, we present a microscopic model that exhibits a diverse range of dynamic behavior, arising from the intricate interplay between two excitation-phonon coupling terms. The derivation of the model is based on an experimentally feasible Rydberg-dressed system with dipole-dipole interactions, making it a promising candidate for realization in a Rydberg atoms quantum simulator. Remarkably, our analysis reveals a growing asymmetry in Bloch oscillations, leading to a macroscopic transport of non-spreading excitations under a constant force. Moreover, we compare the behavior of excitations, when coupled to either acoustic or optical phonons, and demonstrate the robustness of our findings against on-site random potential. Overall, this work contributes to the understanding of polaron dynamics with their potential applications in coherent quantum transport and offers valuable insights for research on Rydberg-based quantum systems. | 翻訳日:2023-07-11 13:32:33 公開日:2023-07-10 |
# 夜間色熱意味セグメンテーションのためのテスト時間適応 Test-Time Adaptation for Nighttime Color-Thermal Semantic Segmentation ( http://arxiv.org/abs/2307.04470v1 ) ライセンス: Link先を確認 | Yexin Liu, Weiming Zhang, Guoyang Zhao, Jinjing Zhu, Athanasios Vasilakos, and Lin Wang | (参考訳) 悪質な視覚条件(例えば夜間)で理解する能力は、RGB-Thermal (RGB-T)セマンティックセグメンテーションの活発な研究を引き起こしている。
しかし、基本的には2つの重大な問題によって妨げられている。
1)RGB画像の昼夜ギャップは熱画像のそれよりも大きく、
2)夜間のrgb画像のクラス別性能は,熱画像よりも常に高くも低いものでもない。
そこで我々は,夜間RGBTセマンティックセマンティックセマンティックセグメンテーションにおいて,適応中のソース(日)データにアクセスすることなく問題に対処するため,Night-TTAと呼ばれる最初のテスト時適応(TTA)フレームワークを提案する。
我々の方法には3つの重要な技術要素がある。
第一に、一方のモダリティ(例えば、RGB)が他方のドメインギャップ(例えば、熱)よりも大きいため、イメージング・ヘテロジニティ・リファインメント(IHR)は、RGBと熱ブランチに基づいて相互作用ブランチを使用し、相互の相違や性能劣化を防止する。
次に、3つのブランチの画素レベルの分布集約に基づいて、信頼性の高いアンサンブルロジットを得るために、クラスAware Refinement(CAR)を導入する。
さらに,ttaフレームワークのための特定の学習方式も設計し,夜間ttaのテストフェーズにおける予測の質を向上させるために,アンサンブルロジットと3つの学生ロジットを協調的に学習できるようにした。
実験の結果,mIoUは13.07%向上し,SoTA(State-of-the-art)性能が得られた。 The ability to scene understanding in adverse visual conditions, e.g., nighttime, has sparked active research for RGB-Thermal (RGB-T) semantic segmentation. However, it is essentially hampered by two critical problems: 1) the day-night gap of RGB images is larger than that of thermal images, and 2) the class-wise performance of RGB images at night is not consistently higher or lower than that of thermal images. we propose the first test-time adaptation (TTA) framework, dubbed Night-TTA, to address the problems for nighttime RGBT semantic segmentation without access to the source (daytime) data during adaptation. Our method enjoys three key technical parts. Firstly, as one modality (e.g., RGB) suffers from a larger domain gap than that of the other (e.g., thermal), Imaging Heterogeneity Refinement (IHR) employs an interaction branch on the basis of RGB and thermal branches to prevent cross-modal discrepancy and performance degradation. Then, Class Aware Refinement (CAR) is introduced to obtain reliable ensemble logits based on pixel-level distribution aggregation of the three branches. In addition, we also design a specific learning scheme for our TTA framework, which enables the ensemble logits and three student logits to collaboratively learn to improve the quality of predictions during the testing phase of our Night TTA. Extensive experiments show that our method achieves state-of-the-art (SoTA) performance with a 13.07% boost in mIoU. | 翻訳日:2023-07-11 13:32:11 公開日:2023-07-10 |
# Badgers: Pythonでデータ品質の欠陥を生成する Badgers: generating data quality deficits with Python ( http://arxiv.org/abs/2307.04468v1 ) ライセンス: Link先を確認 | Julien Siebert, Daniel Seifert, Patricia Kelbert, Michael Kl\"as, Adam Trendowicz | (参考訳) データ駆動型(AI)アプリケーションや機械学習(ML)アプリケーションのデータ品質を実験的に評価するには、コンテキスト固有のデータ品質欠陥の生成が必要である。
本稿では,異なるモダリティ(表データ,時系列,テキストなど)に対してデータ品質の欠陥(外れ値,不均衡データ,ドリフトなど)を生成する,拡張可能なオープンソースのpythonライブラリである badgers を提案する。
ドキュメントはhttps://fraunhofer-iese.github.io/badgers/で、ソースコードはhttps://github.com/Fraunhofer-IESE/badgersでアクセスできる。 Generating context specific data quality deficits is necessary to experimentally assess data quality of data-driven (artificial intelligence (AI) or machine learning (ML)) applications. In this paper we present badgers, an extensible open-source Python library to generate data quality deficits (outliers, imbalanced data, drift, etc.) for different modalities (tabular data, time-series, text, etc.). The documentation is accessible at https://fraunhofer-iese.github.io/badgers/ and the source code at https://github.com/Fraunhofer-IESE/badgers | 翻訳日:2023-07-11 13:31:40 公開日:2023-07-10 |
# UMLS知識グラフを用いたマルチモーダルグラフ学習 Multi-modal Graph Learning over UMLS Knowledge Graphs ( http://arxiv.org/abs/2307.04461v1 ) ライセンス: Link先を確認 | Manuel Burger, Gunnar R\"atsch, Rita Kuznetsova | (参考訳) 臨床医は、患者の進化に関する洞察を得るために、機械学習にますます目を向けている。
本稿では,統一医療言語システムに基づく知識グラフ上のグラフニューラルネットワークを用いた医学概念の意味表現を学習するための,マルチモーダルumlsグラフ学習(mmugl)という新しい手法を提案する。
これらの表現は、患者の訪問全体を表すために集約され、シーケンスモデルに入力され、患者の複数の病院訪問の粒度で予測される。
事前の医療知識を取り入れ、複数のモダリティを考慮し、性能を向上させる。
提案手法をMIMIC-IIIデータセットの粒度の異なる表現を学習するために提案した既存アーキテクチャと比較し,本手法がこれらの手法より優れていることを示す。
その結果,先行医療知識に基づくマルチモーダル医療概念表現の重要性が示された。 Clinicians are increasingly looking towards machine learning to gain insights about patient evolutions. We propose a novel approach named Multi-Modal UMLS Graph Learning (MMUGL) for learning meaningful representations of medical concepts using graph neural networks over knowledge graphs based on the unified medical language system. These representations are aggregated to represent entire patient visits and then fed into a sequence model to perform predictions at the granularity of multiple hospital visits of a patient. We improve performance by incorporating prior medical knowledge and considering multiple modalities. We compare our method to existing architectures proposed to learn representations at different granularities on the MIMIC-III dataset and show that our approach outperforms these methods. The results demonstrate the significance of multi-modal medical concept representations based on prior medical knowledge. | 翻訳日:2023-07-11 13:31:29 公開日:2023-07-10 |
# Invex Programs: 1次アルゴリズムとその収束性 Invex Programs: First Order Algorithms and Their Convergence ( http://arxiv.org/abs/2307.04456v1 ) ライセンス: Link先を確認 | Adarsh Barik and Suvrit Sra and Jean Honorio | (参考訳) 凸プログラムは非凸問題の一種であり、静止点ごとに大域最小値が得られる。
古典的な一階勾配降下法はそれらを解くことができるが、それらは非常にゆっくりと収束する。
本稿では,invex問題の一般クラスを解くための新しい一階アルゴリズムを提案する。
アルゴリズムの収束に十分な条件を特定し、収束率を提供する。
さらに,制約付きインベックスプログラムに対して,収束率を保証した新しい投影勾配法を提案する。
計算結果と既存の1次アルゴリズムを比較して,制約のない様々な凸問題と比較する。
我々の知識を最大限に活用するため,本アルゴリズムは制約付きinvexプログラムを初めて解くアルゴリズムである。 Invex programs are a special kind of non-convex problems which attain global minima at every stationary point. While classical first-order gradient descent methods can solve them, they converge very slowly. In this paper, we propose new first-order algorithms to solve the general class of invex problems. We identify sufficient conditions for convergence of our algorithms and provide rates of convergence. Furthermore, we go beyond unconstrained problems and provide a novel projected gradient method for constrained invex programs with convergence rate guarantees. We compare and contrast our results with existing first-order algorithms for a variety of unconstrained and constrained invex problems. To the best of our knowledge, our proposed algorithm is the first algorithm to solve constrained invex programs. | 翻訳日:2023-07-11 13:31:16 公開日:2023-07-10 |
# SAM-IQA:セグメンテーションは画像品質を向上できるか? SAM-IQA: Can Segment Anything Boost Image Quality Assessment? ( http://arxiv.org/abs/2307.04455v1 ) ライセンス: Link先を確認 | Xinpeng Li, Ting Jiang, Haoqiang Fan, Shuaicheng Liu | (参考訳) 画像品質評価(IQA)は、正確な予測を達成するために大量のデータセットのトレーニングを必要とする課題である。
しかし、IQAデータがないため、ディープラーニングベースのIQA手法は一般的に、ImageNetでトレーニングされたResNetネットワークのように、特徴抽出器として大量のデータセットでトレーニングされたトレーニング済みのネットワークに依存している。
本稿では,最近提案された大規模データセット上で訓練されたセグメント化モデルである segment anything のエンコーダを用いて,高レベルな意味的特徴抽出を行う。
ほとんどのIQA法は空間領域の特徴の抽出に限られているが、周波数領域の特徴はノイズやぼやけをよりよく表している。
そこで,抽出した特徴に対して,Fourierと標準畳み込みを適用することで,空間領域と周波数領域の特徴を両立させる。
その結果,提案手法は4つの代表的なデータセットにおいて,定性的かつ定量的に,SOTA(State-of-the-art)よりも優れていた。
本実験では,Segment Anythingの強力な特徴抽出機能を確認し,IQAタスクにおける空間領域と周波数領域の機能の組み合わせの価値を強調した。
コード:https://github.com/Hedlen/SAM-IQA Image Quality Assessment (IQA) is a challenging task that requires training on massive datasets to achieve accurate predictions. However, due to the lack of IQA data, deep learning-based IQA methods typically rely on pre-trained networks trained on massive datasets as feature extractors to enhance their generalization ability, such as the ResNet network trained on ImageNet. In this paper, we utilize the encoder of Segment Anything, a recently proposed segmentation model trained on a massive dataset, for high-level semantic feature extraction. Most IQA methods are limited to extracting spatial-domain features, while frequency-domain features have been shown to better represent noise and blur. Therefore, we leverage both spatial-domain and frequency-domain features by applying Fourier and standard convolutions on the extracted features, respectively. Extensive experiments are conducted to demonstrate the effectiveness of all the proposed components, and results show that our approach outperforms the state-of-the-art (SOTA) in four representative datasets, both qualitatively and quantitatively. Our experiments confirm the powerful feature extraction capabilities of Segment Anything and highlight the value of combining spatial-domain and frequency-domain features in IQA tasks. Code: https://github.com/Hedlen/SAM-IQA | 翻訳日:2023-07-11 13:31:08 公開日:2023-07-10 |
# 多孔質媒体の多相流・輸送シミュレーションのためのグラフ畳み込みネットワーク Graph Convolutional Networks for Simulating Multi-phase Flow and Transport in Porous Media ( http://arxiv.org/abs/2307.04449v1 ) ライセンス: Link先を確認 | Jiamin Jiang, Bo Guo | (参考訳) 多孔質媒質中の多相流体力学の数値シミュレーションは多くの地下応用において重要である。
データ駆動サーロゲートモデリングは、高忠実度数値シミュレータの計算的に安価な代替手段を提供する。
一般に使われている畳み込みニューラルネットワーク(CNN)は偏微分方程式の解を近似するのに強力であるが、CNNが不規則で非構造的なシミュレーションメッシュを扱うことは依然として困難である。
しかしながら、地下シミュレーションモデルには複雑なメッシュジオメトリを持つ非構造メッシュがしばしば含まれ、cnnの適用が制限される。
本稿では,多相流と輸送過程の時空間解を近似するために,グラフ畳み込みネットワーク(GCN)に基づく代理モデルを構築する。
本稿では, 飽和度をよりよく捉えるために, 結合されたPDEシステムの双曲特性に適合する新しいGCNアーキテクチャを提案する。
2次元不均質試験の結果, シュロゲートは圧力および飽和状態の進化を高精度に予測し, ロールアウトは複数回にわたって安定していることがわかった。
さらに、gcnベースのモデルは、トレーニングデータセットにない不規則なドメインジオメトリや非構造化メッシュにうまく一般化する。 Numerical simulation of multi-phase fluid dynamics in porous media is critical for many subsurface applications. Data-driven surrogate modeling provides computationally inexpensive alternatives to high-fidelity numerical simulators. While the commonly used convolutional neural networks (CNNs) are powerful in approximating partial differential equation solutions, it remains challenging for CNNs to handle irregular and unstructured simulation meshes. However, subsurface simulation models often involve unstructured meshes with complex mesh geometries, which limits the application of CNNs. To address this challenge, here we construct surrogate models based on Graph Convolutional Networks (GCNs) to approximate the spatial-temporal solutions of multi-phase flow and transport processes. We propose a new GCN architecture suited to the hyperbolic character of the coupled PDE system, to better capture the saturation dynamics. Results of 2D heterogeneous test cases show that our surrogates predict the evolutions of the pressure and saturation states with high accuracy, and the predicted rollouts remain stable for multiple timesteps. Moreover, the GCN-based models generalize well to irregular domain geometries and unstructured meshes that are unseen in the training dataset. | 翻訳日:2023-07-11 13:30:42 公開日:2023-07-10 |
# 背景磁場中におけるローレンツ違反荷電ディラックのカシミール効果 Casimir effect of Lorentz-violating charged Dirac in background magnetic field ( http://arxiv.org/abs/2307.04448v1 ) ライセンス: Link先を確認 | Ar Rohim, Apriadi Salim Adam, Arista Romadani | (参考訳) ローレンツ対称性の破れが一様磁場の存在下で荷電ディラックのカシミールエネルギーに及ぼす影響について検討した。
プレートの特性を表すために,mitbagモデルによる境界条件を用いる。
本稿では, 違反方向, 時間的, 空間的ベクトルの2症例について検討する。
ローレンツ違反と磁場がカシミールエネルギーとその圧力の構造にどのように影響するかを考察する。
また,2つの限界,重質量と軽質量の弱い強磁場の場合についても検討した。 We study the effect of the Lorentz symmetry breaking on the Casimir energy of charged Dirac in the presence of a uniform magnetic field. We use the boundary condition from the MIT bag model to represent the property of the plates. We investigate two cases of the direction of violation, namely, time-like and space-like vector cases. We discuss how the Lorentz violation and the magnetic field affect the structure of the Casimir energy and its pressure. We also investigate the weak and strong magnetic field cases with two different limits, heavy and light masses. | 翻訳日:2023-07-11 13:30:23 公開日:2023-07-10 |
# hawkes point プロセスを用いた大規模非ラベルウェアラブル時系列データストリームからのルーチンの動作表現の学習 Learning Behavioral Representations of Routines From Large-scale Unlabeled Wearable Time-series Data Streams using Hawkes Point Process ( http://arxiv.org/abs/2307.04445v1 ) ライセンス: Link先を確認 | Tiantian Feng and Brandon M Booth and Shrikanth Narayanan | (参考訳) ウェアラブルセンサーによって、研究者たちは大量の生物行動の時系列記録を収集し、日々の生活の中で新しい人間の行動パターンを推測する前例のない機会を提供する。
既存の生物行動データによる日常的な発見へのアプローチは、事前に定義された活動の概念に依存するか、GPSの位置や家庭内のローカライゼーションのようなコンテキストとして追加の非行動計測を使用するか、ユーザのプライバシーに対するリスクを提示する。
本研究では,ROutine Discovery (HOT-ROD) のための新たなウェアラブル時系列マイニングフレームワークであるHawkes Point Process On Time Series Clusterを提案する。
共分散法を用いて時系列クラスタを生成し,ホークス点プロセス学習アルゴリズムを用いてルーチンを発見する。
10週間の間,職場内外から100人以上の個人から連続的に収集された全くラベルのない時系列を用いて,日常的な行動の抽出手法を実証的に検証した。
さらに,従来の知識を使わずに,身体活動状態間の日常的推移関係を直感的に捉えた。
また,学習した行動パターンが個人の個性や影響を照らすのに役立つことを示した。 Continuously-worn wearable sensors enable researchers to collect copious amounts of rich bio-behavioral time series recordings of real-life activities of daily living, offering unprecedented opportunities to infer novel human behavior patterns during daily routines. Existing approaches to routine discovery through bio-behavioral data rely either on pre-defined notions of activities or use additional non-behavioral measurements as contexts, such as GPS location or localization within the home, presenting risks to user privacy. In this work, we propose a novel wearable time-series mining framework, Hawkes point process On Time series clusters for ROutine Discovery (HOT-ROD), for uncovering behavioral routines from completely unlabeled wearable recordings. We utilize a covariance-based method to generate time-series clusters and discover routines via the Hawkes point process learning algorithm. We empirically validate our approach for extracting routine behaviors using a completely unlabeled time-series collected continuously from over 100 individuals both in and outside of the workplace during a period of ten weeks. Furthermore, we demonstrate this approach intuitively captures daily transitional relationships between physical activity states without using prior knowledge. We also show that the learned behavioral patterns can assist in illuminating an individual's personality and affect. | 翻訳日:2023-07-11 13:30:14 公開日:2023-07-10 |
# 探索時間効率のよいデバイス制約-ニューラルネットワークの探索 Search-time Efficient Device Constraints-Aware Neural Architecture Search ( http://arxiv.org/abs/2307.04443v1 ) ライセンス: Link先を確認 | Oshin Dutta, Tanu Kanvar, Sumeet Agarwal | (参考訳) エッジコンピューティングは、クラウドに頼るのではなく、IoTデバイスなどのエッジデバイスがデータをローカルに処理できるようにすることを目的としている。
しかし、コンピュータビジョンや自然言語処理のようなディープラーニング技術は計算コストが高く、メモリ集約的である。
各デバイスに特化した手動アーキテクチャの作成は、そのメモリや計算上の制約によって実現不可能である。
これらの問題に対処するため,ニューラルアーキテクチャサーチ(NAS)により,デバイス制約に最適化されたタスク固有のディープラーニングアーキテクチャの構築を自動化する。
本稿では,モデルサイズや浮動小数点演算などのエッジデバイス制約を組み込んだ高速ニューラルネットワークアーキテクチャ探索手法であるdca-nasを提案する。
ウェイトシェアリングとチャンネルボトルネック技術を使って検索時間を短縮する。
実験の結果, DCA-NASは同様のサイズのモデルに対して手動アーキテクチャよりも優れており, CIFAR-10, CIFAR-100, Imagenet-1kなどの画像分類データセット上で人気のモバイルアーキテクチャに匹敵することがわかった。
DARTSとNAS-Bench-201による探索空間の実験は、DCA-NASの一般化能力を示している。
ハードウェアNAS-Benchに対する我々のアプローチをさらに評価した結果、推論遅延の低いデバイス固有のアーキテクチャと最先端性能が発見された。 Edge computing aims to enable edge devices, such as IoT devices, to process data locally instead of relying on the cloud. However, deep learning techniques like computer vision and natural language processing can be computationally expensive and memory-intensive. Creating manual architectures specialized for each device is infeasible due to their varying memory and computational constraints. To address these concerns, we automate the construction of task-specific deep learning architectures optimized for device constraints through Neural Architecture Search (NAS). We present DCA-NAS, a principled method of fast neural network architecture search that incorporates edge-device constraints such as model size and floating-point operations. It incorporates weight sharing and channel bottleneck techniques to speed up the search time. Based on our experiments, we see that DCA-NAS outperforms manual architectures for similar sized models and is comparable to popular mobile architectures on various image classification datasets like CIFAR-10, CIFAR-100, and Imagenet-1k. Experiments with search spaces -- DARTS and NAS-Bench-201 show the generalization capabilities of DCA-NAS. On further evaluating our approach on Hardware-NAS-Bench, device-specific architectures with low inference latency and state-of-the-art performance were discovered. | 翻訳日:2023-07-11 13:29:51 公開日:2023-07-10 |
# 確率的ハイパープロパタイトのための導出制御器合成 Deductive Controller Synthesis for Probabilistic Hyperproperties ( http://arxiv.org/abs/2307.04503v1 ) ライセンス: Link先を確認 | Roman Andriushchenko, Ezio Bartocci, Milan Ceska, Francesco Pontiggia, and Sarah Sallinger | (参考訳) 確率的超越性は、異なる初期状態集合から異なる目標状態集合に到達する確率の間の定量的な関係を規定する。
このタイプの行動特性は、重要なセキュリティ、プライバシ、システムレベルの要求を捉えるのに適している。
本稿では,マルコフ決定過程(MDP)と確率的超越性に対する制御器合成問題の解法を提案する。
我々の仕様言語はHyperPCTLの論理の上に構築され、合成されたコントローラに対する構造的制約で拡張される。
私たちのアプローチは、MDPと同じコピー上でシンボル的に表現され定義されたコントローラのファミリーから始まります。
次に,複数の計算木を関連付ける抽象的洗練戦略を導入し,探索空間を推論的にpruneする手法を提案する。
実験評価の結果,提案手法がhyperpctlの最先端smtベースモデルチェックツールであるhyperprobをかなり上回っていることが示された。
さらに,確率的ハイパープロペラティと追加のコントローラ内制約(部分的可観測性など),コントローラ間制約(共通動作上の合意など)を効果的に組み合わせることができる最初のアプローチである。 Probabilistic hyperproperties specify quantitative relations between the probabilities of reaching different target sets of states from different initial sets of states. This class of behavioral properties is suitable for capturing important security, privacy, and system-level requirements. We propose a new approach to solve the controller synthesis problem for Markov decision processes (MDPs) and probabilistic hyperproperties. Our specification language builds on top of the logic HyperPCTL and enhances it with structural constraints over the synthesized controllers. Our approach starts from a family of controllers represented symbolically and defined over the same copy of an MDP. We then introduce an abstraction refinement strategy that can relate multiple computation trees and that we employ to prune the search space deductively. The experimental evaluation demonstrates that the proposed approach considerably outperforms HyperProb, a state-of-the-art SMT-based model checking tool for HyperPCTL. Moreover, our approach is the first one that is able to effectively combine probabilistic hyperproperties with additional intra-controller constraints (e.g. partial observability) as well as inter-controller constraints (e.g. agreements on a common action). | 翻訳日:2023-07-11 13:23:38 公開日:2023-07-10 |
# 導出の正方形としてのモジュラー完全ディリクレ形式 Modular Completely Dirichlet forms as Squares of Derivations ( http://arxiv.org/abs/2307.04502v1 ) ライセンス: Link先を確認 | Melchior Wirth | (参考訳) 我々は、フォン・ノイマン環上の非貿易重みを伴う GNS ヒルベルト空間上のある種の閉可微分が、フォン・ノイマン環上の縮約完全正写像の GNS-対称半群をもたらすことを証明した。 We prove that certain closable derivations on the GNS Hilbert space associated with a non-tracial weight on a von Neumann algebra give rise to GNS-symmetric semigroups of contractive completely positive maps on the von Neumann algebra. | 翻訳日:2023-07-11 13:23:18 公開日:2023-07-10 |
# 時間相関を用いたディラックとマヨラナニュートリノの識別 Distinguishing between Dirac and Majorana neutrinos using temporal correlations ( http://arxiv.org/abs/2307.04496v1 ) ライセンス: Link先を確認 | Bhavya Soni, Sheeba Shafaq and Poonam Mehta | (参考訳) 2つのフレーバーニュートリノ振動の文脈では、2$2\times 2$混合行列は1つの角度とマヨラナ位相でパラメータ化される。
しかし、この相は真空中の振動確率や密度の一定な物質には影響しない。
興味深いことに、ニュートリノ振動とニュートリノ崩壊を記述する際にマヨラナ相が関係する。
これは、実効ハミルトニアンが同時に対角化できないエルミート成分と反エルミート成分を持つ(崩壊固有状態が質量固有状態と異なる)という事実による。
2つのフレーバーニュートリノのケースを記述した$\cal PT$対称非エルミチアンハミルトニアンを考察し、この文脈におけるLeggett-Garg不等式(LGI)の違反を初めて研究する。
LGIの形での時間的相関はニュートリノがディラックかマヨラナかを調査できることを示した。
lgiの破れの程度において,混合・崩壊パラメータが果たす役割を解明する。
パラメータの選択を最適化する場合、dirac と majorana の場合の $k_4$ (k_3$) の違いは $\sim 15\%$ (\sim 10\%$) である。 In the context of two flavour neutrino oscillations, it is understood that the $2\times 2$ mixing matrix is parameterized by one angle and a Majorana phase. However, this phase does not impact the oscillation probabilities in vacuum or in matter with constant density. Interestingly, the Majorana phase becomes relevant when we describe neutrino oscillations along with neutrino decay. This is due to the fact that effective Hamiltonian has Hermitian and anti-Hermitian components which cannot be simultaneously diagonalized (resulting in decay eigenstates being different from the mass eigenstates). We consider the $\cal PT$ symmetric non-Hermitian Hamiltonian describing two flavour neutrino case and study the violation of Leggett-Garg Inequalities (LGI) in this context for the first time. We demonstrate that temporal correlations in the form of LGI allow us to probe whether neutrinos are Dirac or Majorana. We elucidate the role played by the mixing and decay parameters on the extent of violation of LGI. We emphasize that for optimized choice of parameters, the difference in $K_4$ ($K_3$) for Dirac and Majorana case is $\sim 15\%$ ($\sim 10\%$). | 翻訳日:2023-07-11 13:23:12 公開日:2023-07-10 |
# SysMLを用いた機械学習の形式化を支援するモデル駆動工学手法 Model-Driven Engineering Method to Support the Formalization of Machine Learning using SysML ( http://arxiv.org/abs/2307.04495v1 ) ライセンス: Link先を確認 | Simon Raedler, Juergen Mangler, Stefanie Rinderle-Ma | (参考訳) 方法: 本研究は,システムモデリング言語sysmlの形式化において,モデルに基づく工学を活用し,機械学習タスクの協調的定義を支援する手法を提案する。
この方法は、さまざまなデータソースの識別と統合、データ属性間のセマンティック接続の必要な定義、機械学習サポート内のデータ処理ステップの定義をサポートする。
結果: ドメインと機械学習の専門家の知識を統合することで,システムモデリング言語SysMLを用いた知識の形式化により,機械学習タスクを記述する強力なツールが導入された。
この方法は、センサデータに基づいて天気予報を予測できるスマート気象システムと、意図された結果が得られない場合の印刷を中止する3Dプリンタフィラメントの廃棄物防止ケース(画像処理)の2つのユースケースに基づいて評価される。
さらに, ユーザ調査を行い, 作業負荷の知覚とユーザビリティについて, 潜在ユーザからの洞察を収集した。
結論: システム工学技術に機械学習固有の特性を統合することで、非データ科学者は形式化された知識を理解し、機械学習問題の特定の側面を定義し、データに関する知識を文書化し、さらにデータ科学者が形式化された知識を(半)自動コード生成を用いた実装のインプットとして使用するように支援することができる。
この点において、この研究は様々な分野の知識を集約することで貢献し、複数の利害関係者を巻き込むことで産業における機械学習の統合を促進する。 Methods: This work introduces a method supporting the collaborative definition of machine learning tasks by leveraging model-based engineering in the formalization of the systems modeling language SysML. The method supports the identification and integration of various data sources, the required definition of semantic connections between data attributes, and the definition of data processing steps within the machine learning support. Results: By consolidating the knowledge of domain and machine learning experts, a powerful tool to describe machine learning tasks by formalizing knowledge using the systems modeling language SysML is introduced. The method is evaluated based on two use cases, i.e., a smart weather system that allows to predict weather forecasts based on sensor data, and a waste prevention case for 3D printer filament that cancels the printing if the intended result cannot be achieved (image processing). Further, a user study is conducted to gather insights of potential users regarding perceived workload and usability of the elaborated method. Conclusion: Integrating machine learning-specific properties in systems engineering techniques allows non-data scientists to understand formalized knowledge and define specific aspects of a machine learning problem, document knowledge on the data, and to further support data scientists to use the formalized knowledge as input for an implementation using (semi-) automatic code generation. In this respect, this work contributes by consolidating knowledge from various domains and therefore, fosters the integration of machine learning in industry by involving several stakeholders. | 翻訳日:2023-07-11 13:22:51 公開日:2023-07-10 |
# 確率多様体の幾何学的制約:分子動力学から構造化拡散過程への橋渡し Geometric Constraints in Probabilistic Manifolds: A Bridge from Molecular Dynamics to Structured Diffusion Processes ( http://arxiv.org/abs/2307.04493v1 ) ライセンス: Link先を確認 | Justin Diamond, Markus Lill | (参考訳) 生体複合体のマクロな特性を理解するには、統計アンサンブルモデリングの精度と特異性が必要である。
この領域の主要な課題の1つは、状態空間の特定のサブセットからサンプリングすることであり、既存の構造的知識または状態空間内の特定の関心領域によって駆動される。
ユークリッド空間における任意の幾何制約の集合に厳密に固執する分布からのサンプリングを可能にする手法を提案する。
これは、生成的モデリングと確率的推論で確立されたフレームワークであるDenoising Diffusion Probabilistic Modelsのよく認識されたアーキテクチャに制約プロジェクション演算子を統合することで達成される。
この研究の意義は、例えば深層学習に基づく薬物設計の文脈において明らかであり、特定の分子プロファイル相互作用を維持し、望ましい治療結果を実現し、安全性を保証することが不可欠である。 Understanding the macroscopic characteristics of biological complexes demands precision and specificity in statistical ensemble modeling. One of the primary challenges in this domain lies in sampling from particular subsets of the state-space, driven either by existing structural knowledge or specific areas of interest within the state-space. We propose a method that enables sampling from distributions that rigorously adhere to arbitrary sets of geometric constraints in Euclidean spaces. This is achieved by integrating a constraint projection operator within the well-regarded architecture of Denoising Diffusion Probabilistic Models, a framework founded in generative modeling and probabilistic inference. The significance of this work becomes apparent, for instance, in the context of deep learning-based drug design, where it is imperative to maintain specific molecular profile interactions to realize the desired therapeutic outcomes and guarantee safety. | 翻訳日:2023-07-11 13:22:25 公開日:2023-07-10 |
# X線吸収スペクトルの可逆的低次元モデリングと分光X線イメージングへの応用 Invertible Low-Dimensional Modelling of X-ray Absorption Spectra for Potential Applications in Spectral X-ray Imaging ( http://arxiv.org/abs/2307.04484v1 ) ライセンス: Link先を確認 | Raziye Kubra Kumrular, Thomas Blumensath | (参考訳) x線と物質との相互作用は、構成要素元素の原子構造に付随するエネルギー依存過程である。
この関係を捉える最も先進的なモデルはモンテカルロ (MC) シミュレーションに依存している。
これらの非常に正確なモデルは、データ圧縮、ノイズ除去、スペクトル推定、材料組成の定量的測定など、スペクトルX線イメージングにおける多くの問題において、これらのモデルは限定的な用途であり、一般的にはモデルの効率的な反転を必要とするため、与えられたスペクトル測定に最適なモデルパラメータを推定する必要がある。
しかし、現在のモデルはKエッジから離れた領域のスペクトルをモデル化する場合にのみ有効であり、より広い範囲の物質をモデル化する場合に限界がある。
本稿では,ディープニューラルネットワークの自動エンコーダと,特異値分解(svd)に基づく最適線形モデルを組み合わせた,新しい非線形モデルを提案する。
我々は,新しい手法を,他の線形および非線形アプローチ,スパースモデル,代替ディープラーニングモデルと比較する。
特にエネルギー範囲にk辺を含むx線吸収スペクトルをモデル化する場合に,従来のモデルよりも本手法の利点を示す。 X-ray interaction with matter is an energy-dependent process that is contingent on the atomic structure of the constituent material elements. The most advanced models to capture this relationship currently rely on Monte Carlo (MC) simulations. Whilst these very accurate models, in many problems in spectral X-ray imaging, such as data compression, noise removal, spectral estimation, and the quantitative measurement of material compositions, these models are of limited use, as these applications typically require the efficient inversion of the model, that is, they require the estimation of the best model parameters for a given spectral measurement. Current models that can be easily inverted however typically only work when modelling spectra in regions away from their K-edges, so they have limited utility when modelling a wider range of materials. In this paper, we thus propose a novel, non-linear model that combines a deep neural network autoencoder with an optimal linear model based on the Singular Value Decomposition (SVD). We compare our new method to other alternative linear and non-linear approaches, a sparse model and an alternative deep learning model. We demonstrate the advantages of our method over traditional models, especially when modelling X-ray absorption spectra that contain K-edges in the energy range of interest. | 翻訳日:2023-07-11 13:22:09 公開日:2023-07-10 |
# デジタルモデリング : 初心者が音声3dモデリングにどのようにアプローチするかを探求する Digital Modeling for Everyone: Exploring How Novices Approach Voice-Based 3D Modeling ( http://arxiv.org/abs/2307.04481v1 ) ライセンス: Link先を確認 | Giuseppe Desolda (1), Andrea Esposito (1), Florian M\"uller (2), Sebastian Feger (2) ((1) University of Bari Aldo Moro, Bari, Italy, (2) LMU Munich, Munich, Germany) | (参考訳) 3dプリンターのような製造ツールが、より広い社会に届けられるようになり、誰もが手が届くようにデジタル製造を約束している。
実際の製造プロセスは現在、ほとんど自動化されているが、ユーザはまだ複雑な設計アプリケーションに関する知識を必要としており、準備が整ったオブジェクトを作成し、ニーズに適応したり、新しいオブジェクトをスクラッチから設計したりする。
パーソナライズされた3dモデルの設計とカスタマイズの障壁を低くするため,音声ベースの3dモデリングにおける初心者精神モデルを検討し,22名の参加者を対象に,oz研究の忠実度の高いウィザードを実施した。
対象者の心理モデルが音声に基づく3dモデリングにどのように変換されるかを理解するために,収集したデータのテーマ分析を行った。
音声アシスタントの設計上の意味から結論づける。
例えば、曖昧で不完全で間違ったコマンドを扱うこと、シンプルで複合的なオブジェクトを形作るための簡単なコマンドセットを提供すること、3dオブジェクトを選択するためのさまざまな戦略を提供すること。 Manufacturing tools like 3D printers have become accessible to the wider society, making the promise of digital fabrication for everyone seemingly reachable. While the actual manufacturing process is largely automated today, users still require knowledge of complex design applications to produce ready-designed objects and adapt them to their needs or design new objects from scratch. To lower the barrier to the design and customization of personalized 3D models, we explored novice mental models in voice-based 3D modeling by conducting a high-fidelity Wizard of Oz study with 22 participants. We performed a thematic analysis of the collected data to understand how the mental model of novices translates into voice-based 3D modeling. We conclude with design implications for voice assistants. For example, they have to: deal with vague, incomplete and wrong commands; provide a set of straightforward commands to shape simple and composite objects; and offer different strategies to select 3D objects. | 翻訳日:2023-07-11 13:21:48 公開日:2023-07-10 |
# 量子ネットワークの2成分絡み合い容量について On the Bipartite Entanglement Capacity of Quantum Networks ( http://arxiv.org/abs/2307.04477v1 ) ライセンス: Link先を確認 | Gayane Vardoyan, Emily van Milligen, Saikat Guha, Stephanie Wehner, Don Towsley | (参考訳) 非決定論的絡み合い交換能力を有するデバイスからなる量子ネットワーク内の一対のノードに対するマルチパス絡み合い分布の問題を考える。
マルチパスの絡み合い分布は、ネットワークが予め確立されたリンクレベルの絡み合いを持つ任意の経路をまたいだエンドツーエンドの絡み合いリンクを確立することを可能にする。
一方、確率的絡み合いスワップは、ノード間で共有される絡み合いの量を制限している。
両端が絡み合った状態のみをネットワーク全体に生成する場合に焦点を絞って、通信を希望する2つの量子終端ノード間の一般化フロー最大化の例として、この問題を論じる。
任意のトポロジを持つネットワークに対して,このフロー問題を解決するため,MIQCP(mixed-integer quadratically constrained program)を提案する。
次に、確率的絡み合うリンクの存在と不在によって生じる全ての可能なネットワーク状態のフロー問題を解き、その後、すべてのネットワーク状態容量を平均することで、時間単位当たりのepr状態の最大数として定義される全体のネットワーク容量を計算する。
MIQCPは多重リンクを持つネットワークにも適用できる。
ネットワーク全体の容量を計算するアプローチは、リンク多重化能力によって状態の総数が指数関数的に増加するという望ましくない性質を持つが、しかしながら、容易に実装できるが最適でない絡み合いルーティングアルゴリズムのスループット性能の上限比較となる正確な解が得られる。
本稿では,オランダにおける研究目的のバックボーンネットワークであるSURFnetに基づくトポロジーを含む,いくつかのネットワークに容量計算手法を適用した。 We consider the problem of multi-path entanglement distribution to a pair of nodes in a quantum network consisting of devices with non-deterministic entanglement swapping capabilities. Multi-path entanglement distribution enables a network to establish end-to-end entangled links across any number of available paths with pre-established link-level entanglement. Probabilistic entanglement swapping, on the other hand, limits the amount of entanglement that is shared between the nodes; this is especially the case when, due to architectural and other practical constraints, swaps must be performed in temporal proximity to each other. Limiting our focus to the case where only bipartite entangled states are generated across the network, we cast the problem as an instance of generalized flow maximization between two quantum end nodes wishing to communicate. We propose a mixed-integer quadratically constrained program (MIQCP) to solve this flow problem for networks with arbitrary topology. We then compute the overall network capacity, defined as the maximum number of EPR states distributed to users per time unit, by solving the flow problem for all possible network states generated by probabilistic entangled link presence and absence, and subsequently by averaging over all network state capacities. The MIQCP can also be applied to networks with multiplexed links. While our approach for computing the overall network capacity has the undesirable property that the total number of states grows exponentially with link multiplexing capability, it nevertheless yields an exact solution that serves as an upper bound comparison basis for the throughput performance of easily-implementable yet non-optimal entanglement routing algorithms. We apply our capacity computation method to several networks, including a topology based on SURFnet -- a backbone network used for research purposes in the Netherlands. | 翻訳日:2023-07-11 13:21:30 公開日:2023-07-10 |
# 六方晶窒化ホウ素のホウ素空孔量子センサに対する窒素同位体効果 Nitrogen isotope effects on boron vacancy quantum sensors in hexagonal boron nitride ( http://arxiv.org/abs/2307.04476v1 ) ライセンス: Link先を確認 | Kento Sasaki, Takashi Taniguchi, Kensuke Kobayashi | (参考訳) 近年、量子技術における六方晶窒化ホウ素(hBN)の利用の研究への関心が高まっている。
本稿では,量子センサの候補であるホウ素空孔(v$__\text{b}$)欠陥に対する窒素同位体の影響を,メタセシス反応を用いて合成した^<15}$n同位体濃縮hbnを用いて検討する。
ラマンシフトは還元質量でスケールされ、ホウ素同位体の濃縮に関する以前の研究と一致する。
我々は、V$_\text{B}$欠陥の光学的検出された磁気共鳴スペクトルに基づいて窒素同位体組成を求め、$^{15}$Nスピンの超微細相互作用パラメーターを-64MHzとする。
量子技術におけるhBNの設計方針について検討する。 Recently, there has been growing interest in researching the use of hexagonal boron nitride (hBN) for quantum technologies. Here we investigate nitrogen isotope effects on boron vacancy (V$_\text{B}$) defects, one of the candidates for quantum sensors, in $^{15}$N isotopically enriched hBN synthesized using metathesis reaction. The Raman shifts are scaled with the reduced mass, consistent with previous work on boron isotope enrichment. We obtain nitrogen isotopic composition dependent optically detected magnetic resonance spectra of V$_\text{B}$ defects and determine the hyperfine interaction parameter of $^{15}$N spin to be -64 MHz. Our investigation provides a design policy for hBNs for quantum technologies. | 翻訳日:2023-07-11 13:21:02 公開日:2023-07-10 |
# 自己訓練とプロトタイプ学習による部分血管アノテーションによる冠動脈分割 Partial Vessels Annotation-based Coronary Artery Segmentation with Self-training and Prototype Learning ( http://arxiv.org/abs/2307.04472v1 ) ライセンス: Link先を確認 | Zheng Zhang, Xiaolei Zhang, Yaolei Qi and Guanyu Yang | (参考訳) 冠動脈造影CT(CCTA)画像における冠動脈セグメンテーションは臨床的に重要である。
専門知識と労働集約的なアノテーションプロセスにより、関連するラベル効率の学習アルゴリズムへの需要が高まっている。
そこで本研究では,冠状動脈分節化の課題と臨床診断的特徴に基づく部分血管アノテーション(PVA)を提案する。
さらに,pva下での正確なセグメンテーションを実現するための,漸進的弱教師付き学習フレームワークを提案する。
まず,本提案フレームワークは,未ラベル領域にその知識を広めるための容器の局所的特徴を学習する。
その後、伝播知識を利用してグローバル構造を学習し、伝播過程に導入された誤りを補正する。
最後に、機能埋め込みと機能プロトタイプの類似性を活用して、テスト出力を強化する。
臨床データを用いた実験の結果,提案手法はPVA (24.29%) における競合手法よりも優れており,完全アノテーション (100%) を用いたベースラインモデルのトランク連続性に匹敵する性能を示した。 Coronary artery segmentation on coronary-computed tomography angiography (CCTA) images is crucial for clinical use. Due to the expertise-required and labor-intensive annotation process, there is a growing demand for the relevant label-efficient learning algorithms. To this end, we propose partial vessels annotation (PVA) based on the challenges of coronary artery segmentation and clinical diagnostic characteristics. Further, we propose a progressive weakly supervised learning framework to achieve accurate segmentation under PVA. First, our proposed framework learns the local features of vessels to propagate the knowledge to unlabeled regions. Subsequently, it learns the global structure by utilizing the propagated knowledge, and corrects the errors introduced in the propagation process. Finally, it leverages the similarity between feature embeddings and the feature prototype to enhance testing outputs. Experiments on clinical data reveals that our proposed framework outperforms the competing methods under PVA (24.29% vessels), and achieves comparable performance in trunk continuity with the baseline model using full annotation (100% vessels). | 翻訳日:2023-07-11 13:20:45 公開日:2023-07-10 |
# 自己拡張型ニューラルネットワーク Self Expanding Neural Networks ( http://arxiv.org/abs/2307.04526v1 ) ライセンス: Link先を確認 | Rupert Mitchell, Martin Mundt, Kristian Kersting | (参考訳) ニューラルネットワークのトレーニングの結果は、選択したアーキテクチャに大きく依存しており、ネットワークのサイズのみの変更であっても、通常はトレーニングプロセスを再開する必要があった。
これとは対照的に、我々は小さなアーキテクチャでトレーニングを始め、問題に必要なキャパシティを増大させるだけであり、それを行う際に以前の最適化に干渉することを避ける。
そこで本研究では,ニューラルネットワークの幅と深さを直感的に拡張する自然勾配に基づく手法を提案する。
我々は、ニューロンが加算される「レート」上の上限を証明し、拡張スコアに対する計算コストの低い上限を証明した。
分類問題と回帰問題の両方において,このような自己拡張型ニューラルネットワークの利点を説明する。 The results of training a neural network are heavily dependent on the architecture chosen; and even a modification of only the size of the network, however small, typically involves restarting the training process. In contrast to this, we begin training with a small architecture, only increase its capacity as necessary for the problem, and avoid interfering with previous optimization while doing so. We thereby introduce a natural gradient based approach which intuitively expands both the width and depth of a neural network when this is likely to substantially reduce the hypothetical converged training loss. We prove an upper bound on the "rate" at which neurons are added, and a computationally cheap lower bound on the expansion score. We illustrate the benefits of such Self-Expanding Neural Networks in both classification and regression problems, including those where the appropriate architecture size is substantially uncertain a priori. | 翻訳日:2023-07-11 13:13:32 公開日:2023-07-10 |
# 非造影CTスキャンを用いた胃癌検診のためのクラスター誘発マスクトランス Cluster-Induced Mask Transformers for Effective Opportunistic Gastric Cancer Screening on Non-contrast CT Scans ( http://arxiv.org/abs/2307.04525v1 ) ライセンス: Link先を確認 | Mingze Yuan, Yingda Xia, Xin Chen, Jiawen Yao, Junli Wang, Mingyan Qiu, Hexin Dong, Jingren Zhou, Bin Dong, Le Lu, Li Zhang, Zaiyi Liu, Ling Zhang | (参考訳) 胃癌は、がん関連死亡の3番目の原因であるが、ガイドラインで推奨されるスクリーニング試験は存在していない。
既存の方法は侵襲的で費用がかかり、早期胃癌の診断に感度が欠如している。
本研究では,非造影CTによる胃癌検出における深層学習の有用性について検討した。
マルチタスク方式で腫瘍を共同分割し異常を分類する新規なクラスタ誘導型マスクトランスを提案する。
本モデルでは, 胃癌のテクスチャと形状のプロトタイプを符号化する学習可能なクラスタを組み込んで, 畳み込みの特徴と相互作用するために, 自己および横断的意図を利用する。
本実験では,100例のがん患者と148例の正常例からなるホールドアウトテストセットにおいて,胃癌の検出に85.0%の感度と92.6%の特異性を実現する。
2人の放射線学者の平均感度は73.5%、特異性は84.3%である。
また,903例の外部試験群では97.7%の特異性を得た。
本手法は血液検査や内視鏡検査などの確立した最先端胃癌スクリーニングツールと相性が良く,早期胃癌の検出にもより敏感である。
本研究は胃癌検診における新規,非侵襲的,低コスト,高精度な方法としての可能性を示すものである。 Gastric cancer is the third leading cause of cancer-related mortality worldwide, but no guideline-recommended screening test exists. Existing methods can be invasive, expensive, and lack sensitivity to identify early-stage gastric cancer. In this study, we explore the feasibility of using a deep learning approach on non-contrast CT scans for gastric cancer detection. We propose a novel cluster-induced Mask Transformer that jointly segments the tumor and classifies abnormality in a multi-task manner. Our model incorporates learnable clusters that encode the texture and shape prototypes of gastric cancer, utilizing self- and cross-attention to interact with convolutional features. In our experiments, the proposed method achieves a sensitivity of 85.0% and specificity of 92.6% for detecting gastric tumors on a hold-out test set consisting of 100 patients with cancer and 148 normal. In comparison, two radiologists have an average sensitivity of 73.5% and specificity of 84.3%. We also obtain a specificity of 97.7% on an external test set with 903 normal cases. Our approach performs comparably to established state-of-the-art gastric cancer screening tools like blood testing and endoscopy, while also being more sensitive in detecting early-stage cancer. This demonstrates the potential of our approach as a novel, non-invasive, low-cost, and accurate method for opportunistic gastric cancer screening. | 翻訳日:2023-07-11 13:13:18 公開日:2023-07-10 |
# グラフインデックス付きグローバルディスクリプタによる大規模uav画像の効率的なマッチペア検索 Efficient Match Pair Retrieval for Large-scale UAV Images via Graph Indexed Global Descriptor ( http://arxiv.org/abs/2307.04520v1 ) ライセンス: Link先を確認 | San Jiang, Yichen Ma, Qingquan Li, Wanshou Jiang, Bingxuan Guo, Lelin Li, Lizhe Wang | (参考訳) SfM(Structure from Motion)はUAV(Unmanned Aerial Vehicle)の画像オリエンテーションに広く使われている。
その効率は機能マッチングによって直接影響を受ける。
画像検索はマッチングペアの選択に広く用いられているが、多くの局所的な特徴と使用されるコードブックの大きさのために高い計算コストが消費される。
そこで本稿では,効率的なマッチングペア検索手法を提案し,並列sfm再構成のための統合ワークフローを実装した。
まず、個々のコードブックは、他のデータセットからのコードブックのトレーニングのあいまいさを避けるために、UAVイメージとローカル機能の冗長性を考慮して、オンラインでトレーニングされる。
第2に、訓練されたコードブックを用いて、各画像の局所的な特徴をVLAD(Vector of Locally Aggregated Descriptors)アグリゲーションを通じて、単一の高次元グローバルディスクリプタに集約し、画像インデックス作成における隣人探索の負担を著しく低減する。
第三に、グローバルディスクリプタは、HNSW (Hierarchical Navigable Small World) ベースのグラフ構造を介して、近隣の探索のためにインデックス化される。
次に、適応しきい値選択戦略を用いてマッチングペアを検索し、分割対並列SfM再構成のためのビューグラフを作成する。
最後に,提案手法の性能を3つの大規模UAVデータセットを用いて検証した。
提案手法は,36~108倍のスピードアップ比でマッチングペア検索を高速化し,相対方向と絶対方向の競合精度でsfm再構成の効率を向上させることを実証した。 SfM (Structure from Motion) has been extensively used for UAV (Unmanned Aerial Vehicle) image orientation. Its efficiency is directly influenced by feature matching. Although image retrieval has been extensively used for match pair selection, high computational costs are consumed due to a large number of local features and the large size of the used codebook. Thus, this paper proposes an efficient match pair retrieval method and implements an integrated workflow for parallel SfM reconstruction. First, an individual codebook is trained online by considering the redundancy of UAV images and local features, which avoids the ambiguity of training codebooks from other datasets. Second, local features of each image are aggregated into a single high-dimension global descriptor through the VLAD (Vector of Locally Aggregated Descriptors) aggregation by using the trained codebook, which remarkably reduces the number of features and the burden of nearest neighbor searching in image indexing. Third, the global descriptors are indexed via the HNSW (Hierarchical Navigable Small World) based graph structure for the nearest neighbor searching. Match pairs are then retrieved by using an adaptive threshold selection strategy and utilized to create a view graph for divide-and-conquer based parallel SfM reconstruction. Finally, the performance of the proposed solution has been verified using three large-scale UAV datasets. The test results demonstrate that the proposed solution accelerates match pair retrieval with a speedup ratio ranging from 36 to 108 and improves the efficiency of SfM reconstruction with competitive accuracy in both relative and absolute orientation. | 翻訳日:2023-07-11 13:12:55 公開日:2023-07-10 |
# 意味の計算モデルについて:感情に絡み合った身体的認知 On the Computational Modeling of Meaning: Embodied Cognition Intertwined with Emotion ( http://arxiv.org/abs/2307.04518v1 ) ライセンス: Link先を確認 | Casey Kennington | (参考訳) この文書は、言語習得に特に焦点をあて、それが言語理解のモデルにとってどのような意味を持つのか、言葉がどのように彼らが何をするのかを探求する著者の試みを詳述している。
なぜなら、私はそれらを発見したときと、そのアイデアが後の私の考えにどのように影響したかに基づいてアイデアを合成するからです。
具体的・抽象的な概念の知識を含む世界において、具体化が知覚し、実践できることがいかに重要であるか、そして、感情と認知が、言語学習プロセスと相互にどのように関連しているかを説明する。
最後に、子どもと同じような環境で言語を学ぶ言語学習エージェントの要求事項をいくつか挙げます。
本稿ではモデリング言語における現在および将来の研究のガイドとして機能する。 This document chronicles this author's attempt to explore how words come to mean what they do, with a particular focus on child language acquisition and what that means for models of language understanding.\footnote{I say \emph{historical} because I synthesize the ideas based on when I discovered them and how those ideas influenced my later thinking.} I explain the setting for child language learning, how embodiment -- being able to perceive and enact in the world, including knowledge of concrete and abstract concepts -- is crucial, and how emotion and cognition relate to each other and the language learning process. I end with what I think are some of the requirements for a language-learning agent that learns language in a setting similar to that of children. This paper can act as a potential guide for ongoing and future work in modeling language. | 翻訳日:2023-07-11 13:12:26 公開日:2023-07-10 |
# 人間の運動分類のためのウェアラブルセンサと映像データキャプチャの検討 An Examination of Wearable Sensors and Video Data Capture for Human Exercise Classification ( http://arxiv.org/abs/2307.04516v1 ) ライセンス: Link先を確認 | Ashish Singh and Antonio Bevilacqua and Timilehin B. Aderinola and Thach Le Nguyen and Darragh Whelan and Martin O'Reilly and Brian Caulfield and Georgiana Ifrim | (参考訳) 慣性測定ユニット(IMU)のようなウェアラブルセンサーは、人間の運動の性能を評価するためにしばしば使用される。
一般的なアプローチでは、ドメインの専門知識に基づいた手作りの機能や、時系列分析を使用して自動抽出機能を使用する。
高い分類精度を達成するには複数のセンサが必要であるが、あまり実用的ではない。
これらのセンサーはキャリブレーションと同期を必要とし、長期間にわたって不快な状態に陥る可能性がある。
コンピュータビジョン技術を用いた最近の研究は、手動の特徴工学を必要とせず、また、センサーの校正や体への配置などの落とし穴を避けるために、ビデオを用いた同様の性能を示した。
本稿では,IMUの性能を,軍事プレスとローイングの2つの実世界のデータセット上での人間の運動分類のためのビデオベースアプローチと比較する。
正面からの映像を撮影する1台のカメラと、身体の異なる部分に置かれる5台のIMUとを比較した。
我々は、単一のカメラに基づくアプローチが、平均で1つのimuを10ポイント上回ることを観察する。
さらに、1台のカメラを上回るためには最低3台のIMUが必要である。
多変量時系列分類器を用いた生データ処理は,手作業や自動抽出機能に基づいて従来の手法よりも優れていた。
最後に,単一カメラと単一imuのデータを組み合わせたアンサンブルモデルが,どちらのデータモダリティよりも優れていることを示す。
私たちの研究は、スマートフォンのカメラで撮影されたビデオを単一のセンサーと組み合わせることで、人間の運動の効果的な分類に利用できる、このアプリケーションのための、より現実的な新しい道を開きます。 Wearable sensors such as Inertial Measurement Units (IMUs) are often used to assess the performance of human exercise. Common approaches use handcrafted features based on domain expertise or automatically extracted features using time series analysis. Multiple sensors are required to achieve high classification accuracy, which is not very practical. These sensors require calibration and synchronization and may lead to discomfort over longer time periods. Recent work utilizing computer vision techniques has shown similar performance using video, without the need for manual feature engineering, and avoiding some pitfalls such as sensor calibration and placement on the body. In this paper, we compare the performance of IMUs to a video-based approach for human exercise classification on two real-world datasets consisting of Military Press and Rowing exercises. We compare the performance using a single camera that captures video in the frontal view versus using 5 IMUs placed on different parts of the body. We observe that an approach based on a single camera can outperform a single IMU by 10 percentage points on average. Additionally, a minimum of 3 IMUs are required to outperform a single camera. We observe that working with the raw data using multivariate time series classifiers outperforms traditional approaches based on handcrafted or automatically extracted features. Finally, we show that an ensemble model combining the data from a single camera with a single IMU outperforms either data modality. Our work opens up new and more realistic avenues for this application, where a video captured using a readily available smartphone camera, combined with a single sensor, can be used for effective human exercise classification. | 翻訳日:2023-07-11 13:12:12 公開日:2023-07-10 |
# SAGC-A68 集合住宅における空間と空間要素の分類のための空間アクセスグラフデータセット SAGC-A68: a space access graph dataset for the classification of spaces and space elements in apartment buildings ( http://arxiv.org/abs/2307.04515v1 ) ライセンス: Link先を確認 | Amir Ziaee, Georg Suter | (参考訳) 使用可能な領域、建築安全、エネルギー使用のための建築モデルの解析には、空間と空間要素の正確な分類データが必要である。
入力モデル作成の労力と誤差を減らすためには、空間と空間要素の自動分類が望ましい。
グラフディープラーニング(GDL)手法を空間関数や空間要素分類に活用することを妨げる障壁は、適切なデータセットの欠如である。
このギャップを埋めるために,68のディジタル3次元空間配置モデルから自動生成されるアクセスグラフを含むデータセットSAGC-A68を導入する。
このグラフベースのデータセットは、空間関数と空間要素分類のためのGDLモデルの開発に適している。
データセットの可能性を実証するために、22の空間関数と6つの空間要素クラスを予測するグラフアテンションネットワーク(GAT)をトレーニングし、評価する。
実験で使用されたデータセットとコードはオンラインで入手できる。
https://doi.org/10.5281/zenodo.7805872, https://github.com/A2Amir/SAGC-A68 The analysis of building models for usable area, building safety, and energy use requires accurate classification data of spaces and space elements. To reduce input model preparation effort and errors, automated classification of spaces and space elements is desirable. A barrier hindering the utilization of Graph Deep Learning (GDL) methods to space function and space element classification is a lack of suitable datasets. To bridge this gap, we introduce a dataset, SAGC-A68, which comprises access graphs automatically generated from 68 digital 3D models of space layouts of apartment buildings. This graph-based dataset is well-suited for developing GDL models for space function and space element classification. To demonstrate the potential of the dataset, we employ it to train and evaluate a graph attention network (GAT) that predicts 22 space function and 6 space element classes. The dataset and code used in the experiment are available online. https://doi.org/10.5281/zenodo.7805872, https://github.com/A2Amir/SAGC-A68. | 翻訳日:2023-07-11 13:11:50 公開日:2023-07-10 |
# 重み付き混合曲率製品マニフォールドによる不均一グラフ学習の改善 Improving Heterogeneous Graph Learning with Weighted Mixed-Curvature Product Manifold ( http://arxiv.org/abs/2307.04514v1 ) ライセンス: Link先を確認 | Tuc Nguyen-Van, Dung D. Le, The-Anh Ta | (参考訳) グラフ表現学習においては、入力グラフの複雑な幾何学的構造、例えばノード間の隠れ関係が埋め込み空間においてよく捉えられることが重要である。
しかし、標準ユークリッド埋め込み空間は、様々な構造のグラフを表現する能力に制限がある。
様々な構造を持つデータの忠実な埋め込みの有望な候補は、異なる幾何学(球面、双曲、ユークリッド)の成分空間の積多様体である。
本稿では,積多様体の埋め込み空間の構造を詳しく検討し,積の各成分空間が入力グラフの構造を表現することに異なる寄与をし,従って重み付けをすべきとする。
これは、異なるコンポーネントの役割を等しく考慮する以前の作品とは異なる。
次に、重み付き積多様体における不均一グラフの埋め込みを学習するデータ駆動手法であるWEIGHTED-PMを提案する。
本手法では,入力グラフのトポロジ情報を用いて,製品空間の各コンポーネントの重みを自動的に決定する。
合成および実世界のグラフデータセットに関する大規模な実験により、WEIGHTED-PMは入力データからより低い幾何学的歪みでグラフ表現を学習でき、単語類似性学習、トップ・ウォン・レコメンデーション、知識グラフの埋め込みなど、複数の下流タスクにおいてより優れた性能を発揮することが示された。 In graph representation learning, it is important that the complex geometric structure of the input graph, e.g. hidden relations among nodes, is well captured in embedding space. However, standard Euclidean embedding spaces have a limited capacity in representing graphs of varying structures. A promising candidate for the faithful embedding of data with varying structure is product manifolds of component spaces of different geometries (spherical, hyperbolic, or euclidean). In this paper, we take a closer look at the structure of product manifold embedding spaces and argue that each component space in a product contributes differently to expressing structures in the input graph, hence should be weighted accordingly. This is different from previous works which consider the roles of different components equally. We then propose WEIGHTED-PM, a data-driven method for learning embedding of heterogeneous graphs in weighted product manifolds. Our method utilizes the topological information of the input graph to automatically determine the weight of each component in product spaces. Extensive experiments on synthetic and real-world graph datasets demonstrate that WEIGHTED-PM is capable of learning better graph representations with lower geometric distortion from input data, and performs better on multiple downstream tasks, such as word similarity learning, top-$k$ recommendation, and knowledge graph embedding. | 翻訳日:2023-07-11 13:11:31 公開日:2023-07-10 |
# CoactSeg:新しい多発性硬化症病変分類のための異種データからの学習 CoactSeg: Learning from Heterogeneous Data for New Multiple Sclerosis Lesion Segmentation ( http://arxiv.org/abs/2307.04513v1 ) ライセンス: Link先を確認 | Yicheng Wu, Zhonghua Wu, Hengcan Shi, Bjoern Picker, Winston Chong, and Jianfei Cai | (参考訳) 多発性硬化症(MS)の臨床治療における疾患進展と治療効果を推定するためには,新しい病変セグメンテーションが不可欠である。
しかしながら、高価なデータ取得とエキスパートアノテーションは、大規模ディープラーニングモデルの適用可能性を制限する。
オールレジオンラベルを持つシングルタイムポイントサンプルの収集は比較的容易であるため, 深部モデルの訓練に活用することが, 新たな病変セグメンテーションを改善する上で非常に望ましい。
そこで本研究では,不均一なデータ(ニューレシオンアノテート2点データとオールレシオンアノテート1点データ)を新たなms病変セグメンテーションに活用するためのコアクションセグメンテーション(coactseg)フレームワークを提案する。
coactsegモデルは統一モデルとして設計されており、同じ3つの入力(ベースライン、フォローアップ、およびその縦方向の脳の違い)と、同じ3つの出力(対応するオールレシオンとニューレシオン予測)が、どの種類の異種データを使用しているかに関わらず使用される。
さらに、モデル学習を改善するために、3つの出力間の長手関係を確保するために、単純で効果的な関係正規化を提案する。
広範囲にわたる実験により,不均質データと提案する縦関係制約を用いることで,新レシオンおよび全レシオンセグメンテーションタスクの性能が著しく向上することが示された。
また、Oceaniaシングルタイムポイント38サンプルを含む社内のMS-23v1データセットも導入しました。
コードとデータセットはhttps://github.com/ycwu1997/coactsegでリリースされる。 New lesion segmentation is essential to estimate the disease progression and therapeutic effects during multiple sclerosis (MS) clinical treatments. However, the expensive data acquisition and expert annotation restrict the feasibility of applying large-scale deep learning models. Since single-time-point samples with all-lesion labels are relatively easy to collect, exploiting them to train deep models is highly desirable to improve new lesion segmentation. Therefore, we proposed a coaction segmentation (CoactSeg) framework to exploit the heterogeneous data (i.e., new-lesion annotated two-time-point data and all-lesion annotated single-time-point data) for new MS lesion segmentation. The CoactSeg model is designed as a unified model, with the same three inputs (the baseline, follow-up, and their longitudinal brain differences) and the same three outputs (the corresponding all-lesion and new-lesion predictions), no matter which type of heterogeneous data is being used. Moreover, a simple and effective relation regularization is proposed to ensure the longitudinal relations among the three outputs to improve the model learning. Extensive experiments demonstrate that utilizing the heterogeneous data and the proposed longitudinal relation constraint can significantly improve the performance for both new-lesion and all-lesion segmentation tasks. Meanwhile, we also introduce an in-house MS-23v1 dataset, including 38 Oceania single-time-point samples with all-lesion labels. Codes and the dataset are released at https://github.com/ycwu1997/CoactSeg. | 翻訳日:2023-07-11 13:11:09 公開日:2023-07-10 |
# コントラスト的報酬学習による抽象要約の事実性の向上 Improving Factuality of Abstractive Summarization via Contrastive Reward Learning ( http://arxiv.org/abs/2307.04507v1 ) ライセンス: Link先を確認 | I-Chun Chern, Zhiruo Wang, Sanjan Das, Bhavuk Sharma, Pengfei Liu and Graham Neubig | (参考訳) 現代の抽象要約モデルは、しばしば幻覚的あるいは矛盾した情報を含む要約を生成する。
本稿では,報酬学習と実効性指標の最近の発展を取り入れた,シンプルで効果的なコントラスト学習フレームワークを提案する。
実証的研究により,提案フレームワークは,比較報酬学習を用いて実感指標のフィードバックから実感モデルの学習を可能にし,人的評価によるより実感的な要約につながることが示された。
これは、学習と評価アルゴリズムのさらなる進歩が、より現実的な要約を提供するために直接供給できることを示唆している。 Modern abstractive summarization models often generate summaries that contain hallucinated or contradictory information. In this paper, we propose a simple but effective contrastive learning framework that incorporates recent developments in reward learning and factuality metrics. Empirical studies demonstrate that the proposed framework enables summarization models to learn from feedback of factuality metrics using contrastive reward learning, leading to more factual summaries by human evaluations. This suggests that further advances in learning and evaluation algorithms can feed directly into providing more factual summaries. | 翻訳日:2023-07-11 13:10:37 公開日:2023-07-10 |
# ゼロ次非滑らかな非凸確率最適化のための最適次元依存アルゴリズム An Algorithm with Optimal Dimension-Dependence for Zero-Order Nonsmooth Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2307.04504v1 ) ライセンス: Link先を確認 | Guy Kornowski, Ohad Shamir | (参考訳) リプシッツ目標の$(\delta,\epsilon)$-定常点の生成の複雑さについて,ノイズ関数評価のみを用いて検討した。
近年の研究では、この問題を解く確率的ゼロ次アルゴリズムがいくつか提案されており、これらは全て$\Omega(d^{3/2})$の次元依存性に悩まされており、$d$は問題の次元である。
これは$d$に対して最適(数値定数まで)であり、かつ精度パラメータ$\delta,\epsilon$に関して最適であるので、Lin et al. (NeurIPS'22) によるオープンな問題を解くことができる。
さらに, 本アルゴリズムが達成した収束率は, 滑らかな目的に対して最適であり, 非凸確率ゼロ次設定においては, 滑らかな最適化と同じくらい容易であることを示す。
我々は、上記の予測における収束率と高い確率を達成するアルゴリズムを提供する。
我々の解析は、Goldstein-subdifferential setに関する単純だが強力な幾何学的補題に基づいており、これは最近の一階非滑らかな非凸最適化の進歩を活用できる。 We study the complexity of producing $(\delta,\epsilon)$-stationary points of Lipschitz objectives which are possibly neither smooth nor convex, using only noisy function evaluations. Recent works proposed several stochastic zero-order algorithms that solve this task, all of which suffer from a dimension-dependence of $\Omega(d^{3/2})$ where $d$ is the dimension of the problem, which was conjectured to be optimal. We refute this conjecture by providing a faster algorithm that has complexity $O(d\delta^{-1}\epsilon^{-3})$, which is optimal (up to numerical constants) with respect to $d$ and also optimal with respect to the accuracy parameters $\delta,\epsilon$, thus solving an open question due to Lin et al. (NeurIPS'22). Moreover, the convergence rate achieved by our algorithm is also optimal for smooth objectives, proving that in the nonconvex stochastic zero-order setting, nonsmooth optimization is as easy as smooth optimization. We provide algorithms that achieve the aforementioned convergence rate in expectation as well as with high probability. Our analysis is based on a simple yet powerful geometric lemma regarding the Goldstein-subdifferential set, which allows utilizing recent advancements in first-order nonsmooth nonconvex optimization. | 翻訳日:2023-07-11 13:10:28 公開日:2023-07-10 |
# SparseVSR:軽量・ノイズロバストな視覚音声認識 SparseVSR: Lightweight and Noise Robust Visual Speech Recognition ( http://arxiv.org/abs/2307.04552v1 ) ライセンス: Link先を確認 | Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Alexandros Haliassos, Stavros Petridis and Maja Pantic | (参考訳) 近年のディープニューラルネットワークの進歩は、視覚音声認識において前例のない成功を収めている。
しかし、現在の方法とリソース制約のあるデバイスへの展開には大きな違いがある。
本研究では,特に視覚ノイズ下での高密度モデルよりも高い性能を実現する軽量モデルを生成するために,異なる等級ベースプルーニング手法を提案する。
我々のスパースモデルは、LSS3データセット上で10%の間隔で最先端の結果を達成し、密度の高い等価度を最大70%の間隔で上回ります。
我々は,7種類の視覚ノイズに対して50%のスパースモデルを評価し,濃密な等価性と比較して2%以上のWERの絶対的改善を実現した。
その結果,分散ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。 Recent advances in deep neural networks have achieved unprecedented success in visual speech recognition. However, there remains substantial disparity between current methods and their deployment in resource-constrained devices. In this work, we explore different magnitude-based pruning techniques to generate a lightweight model that achieves higher performance than its dense model equivalent, especially under the presence of visual noise. Our sparse models achieve state-of-the-art results at 10% sparsity on the LRS3 dataset and outperform the dense equivalent up to 70% sparsity. We evaluate our 50% sparse model on 7 different visual noise types and achieve an overall absolute improvement of more than 2% WER compared to the dense equivalent. Our results confirm that sparse networks are more resistant to noise than dense networks. | 翻訳日:2023-07-11 13:04:08 公開日:2023-07-10 |
# 生成モデルに基づくワンショットアンラーニングのためのグラディエント手術 Gradient Surgery for One-shot Unlearning on Generative Model ( http://arxiv.org/abs/2307.04550v1 ) ライセンス: Link先を確認 | Seohui Bae, Seoyoon Kim, Hyemin Jung, Woohyung Lim | (参考訳) 近年では、未学習の事前学習機械学習モデルへの関心が高まっている。
しかし最近の機械学習手法では、重みを更新して重みパラメータへの影響を除去することでサンプルを解放している。
本稿では, 深層生成モデルに影響を及ぼすデータを取り除くための, 単純かつ効果的な手法を提案する。
マルチタスク学習における作業に着想を得て,保持する勾配の正規面に勾配を投影することにより,サンプル間の影響の相互作用を規則化する勾配操作を提案する。
本研究は, 抽出サンプルの統計に非依存であり, 既存のベースラインを上回り, 生成モデルを未学習で初めて理論的解析を行った。 Recent regulation on right-to-be-forgotten emerges tons of interest in unlearning pre-trained machine learning models. While approximating a straightforward yet expensive approach of retrain-from-scratch, recent machine unlearning methods unlearn a sample by updating weights to remove its influence on the weight parameters. In this paper, we introduce a simple yet effective approach to remove a data influence on the deep generative model. Inspired by works in multi-task learning, we propose to manipulate gradients to regularize the interplay of influence among samples by projecting gradients onto the normal plane of the gradients to be retained. Our work is agnostic to statistics of the removal samples, outperforming existing baselines while providing theoretical analysis for the first time in unlearning a generative model. | 翻訳日:2023-07-11 13:03:56 公開日:2023-07-10 |
# データフリー学習のための合成データのカスタマイズ Customizing Synthetic Data for Data-Free Student Learning ( http://arxiv.org/abs/2307.04542v1 ) ライセンス: Link先を確認 | Shiya Luo, Defang Chen, Can Wang | (参考訳) データフリー知識蒸留 (DFKD) は, 初等訓練データなしで軽量な学生モデルを得ることを目的としている。
既存の研究は、訓練済みの教師モデルからデータを合成して、学生の学習のための元のトレーニングデータを置き換えるのが一般的である。
生徒モデルをより効果的に訓練するために、合成データを現在の学生学習能力に合わせてカスタマイズする。
しかし、これは既存のdfkd手法では無視され、学生の訓練に悪影響を及ぼす。
本稿では,データ自由学習のためのデータ自由学習データ(CSD)をカスタマイズし,自己教師付き補助タスクを用いて適応データ合成を行い,学生の学習能力を推定する手法を提案する。
具体的には、データ合成を動的に調整し、ラベルと自己教師付き強化タスクからの予測との交叉エントロピーを拡大し、学生モデルのためのハードサンプルを生成する。
様々なデータセットと教師学生モデルを用いた実験により,提案手法の有効性が示された。
コードは、$\href{https://github.com/luoshiya/csd}{https://github.com/luoshiya/csd}$で入手できる。 Data-free knowledge distillation (DFKD) aims to obtain a lightweight student model without original training data. Existing works generally synthesize data from the pre-trained teacher model to replace the original training data for student learning. To more effectively train the student model, the synthetic data shall be customized to the current student learning ability. However, this is ignored in the existing DFKD methods and thus negatively affects the student training. To address this issue, we propose Customizing Synthetic Data for Data-Free Student Learning (CSD) in this paper, which achieves adaptive data synthesis using a self-supervised augmented auxiliary task to estimate the student learning ability. Specifically, data synthesis is dynamically adjusted to enlarge the cross entropy between the labels and the predictions from the self-supervised augmented task, thus generating hard samples for the student model. The experiments on various datasets and teacher-student models show the effectiveness of our proposed method. Code is available at: $\href{https://github.com/luoshiya/CSD}{https://github.com/luoshiya/CSD}$ | 翻訳日:2023-07-11 13:03:43 公開日:2023-07-10 |
# オープンセット医療診断のための大きなマージンスパース埋め込みの学習 Learning Large Margin Sparse Embeddings for Open Set Medical Diagnosis ( http://arxiv.org/abs/2307.04541v1 ) ライセンス: Link先を確認 | Mingyuan Liu, Lu Xu, Jicong Zhang | (参考訳) ディープラーニングにより、コンピュータ支援診断は大きな進歩を遂げる。
しかし、制御された実験室環境では、アルゴリズムは複数の課題に直面する可能性がある。
オープンセット認識(OSR)は、トレーニングで見えないカテゴリがテストに現れる可能性があることを、重要なものとして述べている。
医学分野では、不完全に収集されたトレーニングデータセットと、絶えず出現する新しいまたはまれな疾患に由来する可能性がある。
OSRは、既知のクラスを正しく分類するだけでなく、未知のクラスを認識し、さらなる診断のために専門家に転送するアルゴリズムを必要とする。
OSRに取り組むために、既知のクラスは埋め込み空間の小さな部分を密に占有し、残りのスパース領域は未知として認識できると仮定する。
続いて,2つの機構を統一したopen margin cosine loss (omcl)を提案する。
前者はMargin Loss with Adaptive Scale (MLAS)と呼ばれ、クラス内コンパクト性とクラス間分離性を強化するための角マージンと、一般化能力を強化するための適応スケーリング係数を導入している。
後者はOpen-Space Suppression (OSS)と呼ばれ、提案された特徴空間記述子を用いて、スパース埋め込み空間を未知として認識することで分類器を開く。
さらに、医療用OSRはまだ初期段階であるため、比較のために2つの公開ベンチマークデータセットが提案されている。
広範なアブレーション研究と特徴の可視化は、それぞれの設計の有効性を実証する。
最先端の手法と比較して、MLASはACC、AUROC、OSCRによって測定される優れた性能を達成する。 Fueled by deep learning, computer-aided diagnosis achieves huge advances. However, out of controlled lab environments, algorithms could face multiple challenges. Open set recognition (OSR), as an important one, states that categories unseen in training could appear in testing. In medical fields, it could derive from incompletely collected training datasets and the constantly emerging new or rare diseases. OSR requires an algorithm to not only correctly classify known classes, but also recognize unknown classes and forward them to experts for further diagnosis. To tackle OSR, we assume that known classes could densely occupy small parts of the embedding space and the remaining sparse regions could be recognized as unknowns. Following it, we propose Open Margin Cosine Loss (OMCL) unifying two mechanisms. The former, called Margin Loss with Adaptive Scale (MLAS), introduces angular margin for reinforcing intra-class compactness and inter-class separability, together with an adaptive scaling factor to strengthen the generalization capacity. The latter, called Open-Space Suppression (OSS), opens the classifier by recognizing sparse embedding space as unknowns using proposed feature space descriptors. Besides, since medical OSR is still a nascent field, two publicly available benchmark datasets are proposed for comparison. Extensive ablation studies and feature visualization demonstrate the effectiveness of each design. Compared with state-of-the-art methods, MLAS achieves superior performances, measured by ACC, AUROC, and OSCR. | 翻訳日:2023-07-11 13:03:26 公開日:2023-07-10 |
# Q-YOLOP: パノプティカル・ドライビング・パーセプティションに一度しか見えない量子化認識 Q-YOLOP: Quantization-aware You Only Look Once for Panoptic Driving Perception ( http://arxiv.org/abs/2307.04537v1 ) ライセンス: Link先を確認 | Chi-Chih Chang, Wei-Cheng Lin, Pei-Shuo Wang, Sheng-Feng Yu, Yu-Chen Lu, Kuan-Cheng Lin and Kai-Chiang Wu | (参考訳) 本研究では, 自律運転の文脈において, 物体検出, 乾燥領域分割, レーン線分割のための効率的かつ定量的なパノプティクス駆動認識モデル(Q-YOLOP)を提案する。
本モデルでは,タスク毎のバックボーンとタスク固有のヘッダとして,ELAN(Efficient Layer Aggregation Network)を採用している。
BDD100Kデータセットの事前トレーニング、BDD100KデータセットとiVSデータセットの微調整、BDD100K上の量子化対応トレーニング(QAT)を含む4段階のトレーニングプロセスを採用しています。
トレーニングプロセスでは、ランダムな視点やモザイクといった強力なデータ拡張技術を使用し、BDD100KとiVSデータセットの組み合わせでモデルをトレーニングします。
どちらの戦略もモデルの一般化能力を高める。
提案モデルは,オブジェクト検出のためのmap@0.5とセグメンテーションのための0.612のmiouを低計算とメモリ要件を維持しつつ,最先端の性能を実現する。 In this work, we present an efficient and quantization-aware panoptic driving perception model (Q- YOLOP) for object detection, drivable area segmentation, and lane line segmentation, in the context of autonomous driving. Our model employs the Efficient Layer Aggregation Network (ELAN) as its backbone and task-specific heads for each task. We employ a four-stage training process that includes pretraining on the BDD100K dataset, finetuning on both the BDD100K and iVS datasets, and quantization-aware training (QAT) on BDD100K. During the training process, we use powerful data augmentation techniques, such as random perspective and mosaic, and train the model on a combination of the BDD100K and iVS datasets. Both strategies enhance the model's generalization capabilities. The proposed model achieves state-of-the-art performance with an mAP@0.5 of 0.622 for object detection and an mIoU of 0.612 for segmentation, while maintaining low computational and memory requirements. | 翻訳日:2023-07-11 13:03:03 公開日:2023-07-10 |
# DADO-Deep Active Design Optimizationのための低コスト選択手法 DADO -- Low-Cost Selection Strategies for Deep Active Design Optimization ( http://arxiv.org/abs/2307.04536v1 ) ライセンス: Link先を確認 | Jens Decke, Christian Gruhl, Lukas Rauch, Bernhard Sick | (参考訳) 本報告では,計算コストの高い数値シミュレーションの数を減らすために,設計最適化の分野に深層アクティブラーニングを適用する。
形状をパラメータのセットで記述した構造コンポーネントの設計を最適化することに興味がある。
これらのパラメータに基づいて性能を予測でき、シミュレーションの有望な候補のみを考慮すれば、コンピューティングパワーを節約できる可能性は非常に大きい。
我々は,多目的設計最適化問題における計算コストを削減するために,自己最適化のための2つの選択戦略を提案する。
提案手法は,適用が容易な直感的アプローチを提供し,ランダムサンプリングよりも大幅に改善し,不確実性推定の必要性を回避する。
我々は流体力学の領域から大規模データセットの戦略を評価し、モデルの性能を決定するために2つの新しい評価指標を導入する。
評価の結果,設計最適化の高速化における選択戦略の有効性が示された。
提案手法は他の自己最適化問題に容易に移行できると考えている。 In this experience report, we apply deep active learning to the field of design optimization to reduce the number of computationally expensive numerical simulations. We are interested in optimizing the design of structural components, where the shape is described by a set of parameters. If we can predict the performance based on these parameters and consider only the promising candidates for simulation, there is an enormous potential for saving computing power. We present two selection strategies for self-optimization to reduce the computational cost in multi-objective design optimization problems. Our proposed methodology provides an intuitive approach that is easy to apply, offers significant improvements over random sampling, and circumvents the need for uncertainty estimation. We evaluate our strategies on a large dataset from the domain of fluid dynamics and introduce two new evaluation metrics to determine the model's performance. Findings from our evaluation highlights the effectiveness of our selection strategies in accelerating design optimization. We believe that the introduced method is easily transferable to other self-optimization problems. | 翻訳日:2023-07-11 13:02:42 公開日:2023-07-10 |
# QBitOpt: トレーニング中のビット幅の高速かつ正確な再配置 QBitOpt: Fast and Accurate Bitwidth Reallocation during Training ( http://arxiv.org/abs/2307.04535v1 ) ライセンス: Link先を確認 | Jorn Peters, Marios Fournarakis, Markus Nagel, Mart van Baalen, Tijmen Blankevoort | (参考訳) ニューラルネットワークの定量化は、モバイルおよび組み込みデバイス上で効率的な推論を実現するための最も効果的な方法の1つである。
特に、異なるビット幅に層を量子化できる混合精度量子化(MPQ)ネットワークは、均一なビット幅を持つネットワークと比較して、同じリソース制約に対してより良いタスク性能を実現する。
しかし,ネットワーク内の層数の増加に伴って探索空間が指数関数的に増加するため,最適なビット幅割当を求めることは難しい問題である。
本稿では,量子化学習(QAT)中にビット幅を更新する新しいアルゴリズムであるQBitOptを提案する。
制約最適化問題としてビット幅割り当て問題を定式化する。
qat中に高速に計算できる感度と効率的な解法を組み合わせることで、qbitoptは厳密なリソース制約を満たす高いタスク性能を持つ混合精度ネットワークを作成できる。
これは、勾配を使ってビット幅を学習し、そのような保証を提供できない既存の混合精度手法とは対照的である。
我々は,imagenet上のqbitoptを評価し,文献でよく見られる平均ビット幅制約下で既存の固定および混合精度法を上回っていることを確認した。 Quantizing neural networks is one of the most effective methods for achieving efficient inference on mobile and embedded devices. In particular, mixed precision quantized (MPQ) networks, whose layers can be quantized to different bitwidths, achieve better task performance for the same resource constraint compared to networks with homogeneous bitwidths. However, finding the optimal bitwidth allocation is a challenging problem as the search space grows exponentially with the number of layers in the network. In this paper, we propose QBitOpt, a novel algorithm for updating bitwidths during quantization-aware training (QAT). We formulate the bitwidth allocation problem as a constraint optimization problem. By combining fast-to-compute sensitivities with efficient solvers during QAT, QBitOpt can produce mixed-precision networks with high task performance guaranteed to satisfy strict resource constraints. This contrasts with existing mixed-precision methods that learn bitwidths using gradients and cannot provide such guarantees. We evaluate QBitOpt on ImageNet and confirm that we outperform existing fixed and mixed-precision methods under average bitwidth constraints commonly found in the literature. | 翻訳日:2023-07-11 13:02:28 公開日:2023-07-10 |
# 人物検出におけるエラー防止:部分的自己監視フレームワーク Preventing Errors in Person Detection: A Part-Based Self-Monitoring Framework ( http://arxiv.org/abs/2307.04533v1 ) ライセンス: Link先を確認 | Franziska Schwaiger, Andrea Matic, Karsten Roscher, Stephan G\"unnemann | (参考訳) 外観に関係なく学習対象を検出する能力は、現実世界のアプリケーションにおいて自律システムにとって不可欠である。
特に、安全クリティカルなアプリケーションの基本課題である人を検出するためには、エラーを防ぐことが不可欠である。
この課題に対処するために,認識システムが実行時に信頼性チェックを行うための自己監視フレームワークを提案する。
人体部分検出のための追加部品を組み込むことで, 全身的な人体オブジェクトのみを訓練したベースライン設定と比較して, 最大9因子で人体検出の見逃し回数を大幅に削減できることが示唆された。
さらに,人間と身体の部位を共同でモデルで訓練すると,人間単独でのトレーニングに比べて偽陽性検出が最大50%減少することが分かった。
DensePose と Pascal VOC の公開データセットに関する総合的な実験を行い、フレームワークの有効性を実証した。
コードはhttps://github.com/ fraunhoferiks/smf-object-detectionで入手できる。 The ability to detect learned objects regardless of their appearance is crucial for autonomous systems in real-world applications. Especially for detecting humans, which is often a fundamental task in safety-critical applications, it is vital to prevent errors. To address this challenge, we propose a self-monitoring framework that allows for the perception system to perform plausibility checks at runtime. We show that by incorporating an additional component for detecting human body parts, we are able to significantly reduce the number of missed human detections by factors of up to 9 when compared to a baseline setup, which was trained only on holistic person objects. Additionally, we found that training a model jointly on humans and their body parts leads to a substantial reduction in false positive detections by up to 50% compared to training on humans alone. We performed comprehensive experiments on the publicly available datasets DensePose and Pascal VOC in order to demonstrate the effectiveness of our framework. Code is available at https://github.com/ FraunhoferIKS/smf-object-detection. | 翻訳日:2023-07-11 13:02:08 公開日:2023-07-10 |
# 絡み合った光子の実験的ガウス的非ガウス的一致 Experimental quantum non-Gaussian coincidences of entangled photons ( http://arxiv.org/abs/2307.04531v1 ) ライセンス: Link先を確認 | Run-Ze Liu, Yu-Kun Qiao, Luk\'a\v{s} Lachman, Zhen-Xuan Ge, Tung-Hsun Chung, Jun-Yi Zhao, Hao Li, Lixing You, Radim Filip, Yong-Heng Huo | (参考訳) 量子非ガウス性(英語版)(Quantum non-Gaussianity)はより強力で有用な非古典性であり、ガウス状態とガウスパラメトリック過程のすべての凸混合を除外する。
ここで、初めて、絡み合った光子対の量子非ガウス的一致を単一の量子ドットから chsh-ベル因子 $s=2.328\pm0.004$ で、深さ0.94\pm 0.02$ db までテストする。
このような決定論的に生成された光子対は、重要な多重光子誤差を減らすことによってパラメトリック過程を根本的に克服する。
単光子状態の非ガウスの量子深度については、8.08\pm0.05$ dB(19.06\pm0.29$ dB)という記録値が得られる。
本研究は,光センシング,通信,計算に非常に関連する排他的量子非ガウス性特性を実験的に検証する。 Quantum non-Gaussianity, a more potent and highly useful form of nonclassicality, excludes all convex mixtures of Gaussian states and Gaussian parametric processes generating them. Here, for the first time, we conclusively test quantum non-Gaussian coincidences of entangled photon pairs with the CHSH-Bell factor $S=2.328\pm0.004$ from a single quantum dot with a depth up to $0.94\pm 0.02$ dB. Such deterministically generated photon pairs fundamentally overcome parametric processes by reducing crucial multiphoton errors. For the quantum non-Gaussian depth of the unheralded (heralded) single-photon state, we achieve the record value of $8.08\pm0.05$ dB ($19.06\pm0.29$ dB). Our work experimentally certifies the exclusive quantum non-Gaussianity properties highly relevant for optical sensing, communication and computation. | 翻訳日:2023-07-11 13:01:29 公開日:2023-07-10 |
# 自己監督型視覚変換器による病理画像のソースフリーオープンセット領域適応 Source-Free Open-Set Domain Adaptation for Histopathological Images via Distilling Self-Supervised Vision Transformer ( http://arxiv.org/abs/2307.04596v1 ) ライセンス: Link先を確認 | Guillaume Vray, Devavrat Tomar, Behzad Bozorgtabar, Jean-Philippe Thiran | (参考訳) 計算病理モデルを開発するという 強い動機があります
一 スライド組織像全体から組織型別注釈の負担を緩和すること。
二 保持元ドメインから分布シフトした非ラベル対象ドメインへの組織クラス分離可能性等の移転知識を同時に行うこと。
iii) オープンセットのサンプル、すなわち、トレーニングソースドメインに存在しない未発見の新規カテゴリを検出すること。
本稿では,オープンセットのサンプルを含むラベル付きターゲットデータセットに,アクセス不能なソースデータセット上で事前学習されたモデルを適用することができる,ソースフリーなオープンセットドメイン適応(SF-OSDA)について,上記の課題に対処して,極めて実用的な設定を提案する。
提案手法の中心は,対象領域で訓練された自己教師付き視覚トランスフォーマからの知識を蒸留することである。
本稿では,目標領域における視覚トランスフォーマーの自己学習にハードポジティブとして用いる新しいスタイルに基づくデータ拡張法を提案する。
その後、セマンティックに類似したターゲット画像がクラスタ化され、ソースモデルが対応する弱い擬似ラベルを信頼できない信頼性で提供する。
さらに,ターゲットドメインにソースモデルを適応させるのに使用されるコンテキスト化された埋め込み空間において,弱い擬似ラベルの信頼度を補正するクラスタ相対最大ロジットスコア(CRMLS)を提案する。
本手法は,大腸癌(crc)アセスメントkather-16,kather-19,crctpの3つの病理組織学的データセットにおいて,前例のオープンセット検出法,テスト時間適応法,sf-osda法を有意に上回っている。
私たちのコードはhttps://github.com/LTS5/Proto-SF-OSDAで公開されています。 There is a strong incentive to develop computational pathology models to i) ease the burden of tissue typology annotation from whole slide histological images; ii) transfer knowledge, e.g., tissue class separability from the withheld source domain to the distributionally shifted unlabeled target domain, and simultaneously iii) detect Open Set samples, i.e., unseen novel categories not present in the training source domain. This paper proposes a highly practical setting by addressing the abovementioned challenges in one fell swoop, i.e., source-free Open Set domain adaptation (SF-OSDA), which addresses the situation where a model pre-trained on the inaccessible source dataset can be adapted on the unlabeled target dataset containing Open Set samples. The central tenet of our proposed method is distilling knowledge from a self-supervised vision transformer trained in the target domain. We propose a novel style-based data augmentation used as hard positives for self-training a vision transformer in the target domain, yielding strongly contextualized embedding. Subsequently, semantically similar target images are clustered while the source model provides their corresponding weak pseudo-labels with unreliable confidence. Furthermore, we propose cluster relative maximum logit score (CRMLS) to rectify the confidence of the weak pseudo-labels and compute weighted class prototypes in the contextualized embedding space that are utilized for adapting the source model on the target domain. Our method significantly outperforms the previous methods, including open set detection, test-time adaptation, and SF-OSDA methods, setting the new state-of-the-art on three public histopathological datasets of colorectal cancer (CRC) assessment- Kather-16, Kather-19, and CRCTP. Our code is available at https://github.com/LTS5/Proto-SF-OSDA. | 翻訳日:2023-07-11 12:53:59 公開日:2023-07-10 |
# DWA:画像超解像用微分ウェーブレット増幅器 DWA: Differential Wavelet Amplifier for Image Super-Resolution ( http://arxiv.org/abs/2307.04593v1 ) ライセンス: Link先を確認 | Brian B. Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio and Andreas Dengel | (参考訳) 本稿では,ウェーブレットベースイメージスーパーレゾリューション(sr)のためのドロップインモジュールであるディファレンシャルウェーブレット増幅器(dwa)を紹介する。
DWAは、最近あまり注目されていないアプローチ、すなわち離散ウェーブレット変換(DWT)を活性化する。
DWTは、SRの効率的な画像表現を可能にし、入力の空間面積を4倍に削減し、モデルサイズ全体と計算コストを、持続可能なMLのための魅力的なアプローチとしてフレーミングする。
提案するdwaモデルは,2つの畳み込みフィルタの差を利用して,ウェーブレット領域の特徴抽出を洗練し,局所コントラストを強調し,入力信号の共通ノイズを抑制することにより,ウェーブレットに基づくsrモデルを改善する。
既存のSRモデル、例えばDWSRやMWCNNに組み込むことで、その効果を示し、古典的SRタスクの明確な改善を示す。
さらに、DWAはDWSRとMWCNNの直接的な画像空間の入力を可能にし、従来のDWTを省略するため、DWT表現をチャネルワイズで削減する。 This work introduces Differential Wavelet Amplifier (DWA), a drop-in module for wavelet-based image Super-Resolution (SR). DWA invigorates an approach recently receiving less attention, namely Discrete Wavelet Transformation (DWT). DWT enables an efficient image representation for SR and reduces the spatial area of its input by a factor of 4, the overall model size, and computation cost, framing it as an attractive approach for sustainable ML. Our proposed DWA model improves wavelet-based SR models by leveraging the difference between two convolutional filters to refine relevant feature extraction in the wavelet domain, emphasizing local contrasts and suppressing common noise in the input signals. We show its effectiveness by integrating it into existing SR models, e.g., DWSR and MWCNN, and demonstrate a clear improvement in classical SR tasks. Moreover, DWA enables a direct application of DWSR and MWCNN to input image space, reducing the DWT representation channel-wise since it omits traditional DWT. | 翻訳日:2023-07-11 12:53:25 公開日:2023-07-10 |
# 画像分割のためのグラフマルチセパレータ問題 A Graph Multi-separator Problem for Image Segmentation ( http://arxiv.org/abs/2307.04592v1 ) ライセンス: Link先を確認 | Jannik Irmai, Shengxian Zhao, Jannik Presberger, Bjoern Andres | (参考訳) 本稿では,マルチセパレータ問題と呼ぶ組合せ最適化問題を用いて,画像分割タスクの新たな抽象化を提案する。
実現可能な解は、各画素がセグメントに属するかセグメントセパレータに属するかを示し、そのピクセルが同じセグメントに属するかどうかを示す。
これは、各ピクセルがセグメントに関連付けられ、ピクセルが明確に分離構造を表すような、密接に関連する持ち上げマルチカット問題とは対照的である。
マルチセパレータ問題はNPハードであるが、効率よく解ける2つの特別なケースを同定する。
さらに, 2つの局所探索アルゴリズムを定式化し, 発泡セルとフィラメントをシミュレーションしたボリュームイメージのセグメンテーションにおいて, その効果を示す。 We propose a novel abstraction of the image segmentation task in the form of a combinatorial optimization problem that we call the multi-separator problem. Feasible solutions indicate for every pixel whether it belongs to a segment or a segment separator, and indicate for pairs of pixels whether or not the pixels belong to the same segment. This is in contrast to the closely related lifted multicut problem where every pixel is associated to a segment and no pixel explicitly represents a separating structure. While the multi-separator problem is NP-hard, we identify two special cases for which it can be solved efficiently. Moreover, we define two local search algorithms for the general case and demonstrate their effectiveness in segmenting simulated volume images of foam cells and filaments. | 翻訳日:2023-07-11 12:53:06 公開日:2023-07-10 |
# 非エルミート二元系における例外点と相転移 Exceptional points and phase transitions in non-Hermitian binary systems ( http://arxiv.org/abs/2307.04578v1 ) ライセンス: Link先を確認 | Amir Rahmani and Andrzej Opala and Micha{\l} Matuszewski | (参考訳) 最近の研究では、ポラリトン系の定常状態は、位相境界の終点(R. Hanai et al., Phys. Rev. Lett. 122, 185301 (2019)))として現れる例外点を持つ一階散逸相転移を示す可能性があることが示されている。
ここで、この相転移は解の安定性に厳密に関係していることを示す。
一般に、例外点は相転移の終点と一致せず、むしろ安定解と不安定解が融合する点である。
さらに,従来は除外されていた弱結合系においても遷移が起こる可能性が示唆された。
一定範囲のパラメータにおいて、光場と物質場の間の恒久的なラビ様振動を示す。
この結果は非平衡光マター系の理解に寄与するが、利得と損失を持つ任意の2成分振動系に一般化できる。 Recent study demonstrated that steady states of a polariton system may show a first-order dissipative phase transition with an exceptional point that appears as an endpoint of the phase boundary [R. Hanai et al., Phys. Rev. Lett. 122, 185301 (2019)]. Here, we show that this phase transition is strictly related to the stability of solutions. In general, the exceptional point does not correspond to the endpoint of a phase transition, but rather it is the point where stable and unstable solutions coalesce. Moreover, we show that the transition may occur also in the weak coupling regime, which was excluded previously. In a certain range of parameters, we demonstrate permanent Rabi-like oscillations between light and matter fields. Our results contribute to the understanding of nonequilibrium light-matter systems, but can be generalized to any two-component oscillatory systems with gain and loss. | 翻訳日:2023-07-11 12:52:53 公開日:2023-07-10 |
# AnyTeleop: 汎用ビジョンベースのデクスタースロボットアームハンド遠隔操作システム AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System ( http://arxiv.org/abs/2307.04577v1 ) ライセンス: Link先を確認 | Yuzhe Qin, Wei Yang, Binghao Huang, Karl Van Wyk, Hao Su, Xiaolong Wang, Yu-Wei Chao, Dietor Fox | (参考訳) 視覚ベースの遠隔操作は、ロボットに人間レベルの知性を与え、環境と物理的に相互作用させることができる。
しかし、現在のビジョンベースの遠隔操作システムは、特定のロボットモデルと展開環境に向けて設計・設計されており、ロボットモデルのプールが拡大し、運用環境の多様性が増すにつれて、スケールが低くなる。
本稿では,複数の腕,手,実物,カメラ構成を単一のシステムでサポートする,統一的で汎用的な遠隔操作システムanyteleopを提案する。
シミュレータと実際のハードウェアの選択に優れた柔軟性を提供するように設計されているが、我々のシステムは依然として優れた性能を達成できる。
実際の実験では、AnyTeleopは、同じロボットを使って、より高い成功率で特定のロボットハードウェア用に設計された以前のシステムより優れている。
シミュレーションにおける遠隔操作では、AnyTeleopはそのシミュレータ用に特別に設計された以前のシステムと比較して、模倣学習のパフォーマンスが向上する。
プロジェクトページ: http://anyteleop.com/ Vision-based teleoperation offers the possibility to endow robots with human-level intelligence to physically interact with the environment, while only requiring low-cost camera sensors. However, current vision-based teleoperation systems are designed and engineered towards a particular robot model and deploy environment, which scales poorly as the pool of the robot models expands and the variety of the operating environment increases. In this paper, we propose AnyTeleop, a unified and general teleoperation system to support multiple different arms, hands, realities, and camera configurations within a single system. Although being designed to provide great flexibility to the choice of simulators and real hardware, our system can still achieve great performance. For real-world experiments, AnyTeleop can outperform a previous system that was designed for a specific robot hardware with a higher success rate, using the same robot. For teleoperation in simulation, AnyTeleop leads to better imitation learning performance, compared with a previous system that is particularly designed for that simulator. Project page: http://anyteleop.com/. | 翻訳日:2023-07-11 12:52:35 公開日:2023-07-10 |
# TFR:単純なオートエンコーダの正規再構成テンプレートを用いたフーリエ変換によるテクスチャ欠陥検出 TFR: Texture Defect Detection with Fourier Transform using Normal Reconstructed Template of Simple Autoencoder ( http://arxiv.org/abs/2307.04574v1 ) ライセンス: Link先を確認 | Jongwook Si and Sungyoung Kim | (参考訳) テクスチャは画像表現において重要な情報であり、パターンや構造をキャプチャする。
その結果,テクスチャは製造業において重要な役割を担い,コンピュータビジョンやパターン認識の分野で広く研究されている。
しかし、実際のテクスチャは欠陥の影響を受けやすいため、画質が低下し、様々な問題を引き起こす可能性がある。
そのため,テクスチャ欠陥の検出には,正確かつ効果的な方法が必要である。
本研究では, 簡易オートエンコーダとフーリエ変換を用いてテクスチャ欠陥検出を行う。
提案手法は、フーリエ変換解析と簡単なオートエンコーダから得られた再構成テンプレートを組み合わせる。
フーリエ変換は、画像と信号の周波数領域を分析する強力なツールである。
また、テクスチャ欠陥はしばしば特定の周波数範囲で特性変化を示すため、周波数領域の解析は効果的な欠陥検出を可能にする。
本手法は,テクスチャ欠陥の検出の有効性と精度を示す。
実験結果は、その性能を評価し、既存のアプローチと比較するために提示される。 Texture is an essential information in image representation, capturing patterns and structures. As a result, texture plays a crucial role in the manufacturing industry and is extensively studied in the fields of computer vision and pattern recognition. However, real-world textures are susceptible to defects, which can degrade image quality and cause various issues. Therefore, there is a need for accurate and effective methods to detect texture defects. In this study, a simple autoencoder and Fourier transform are employed for texture defect detection. The proposed method combines Fourier transform analysis with the reconstructed template obtained from the simple autoencoder. Fourier transform is a powerful tool for analyzing the frequency domain of images and signals. Moreover, since texture defects often exhibit characteristic changes in specific frequency ranges, analyzing the frequency domain enables effective defect detection. The proposed method demonstrates effectiveness and accuracy in detecting texture defects. Experimental results are presented to evaluate its performance and compare it with existing approaches. | 翻訳日:2023-07-11 12:52:17 公開日:2023-07-10 |
# スコパスとOpenAIによる任意の症例に対する半自動解決策選択ツール : オンコロジーにおけるAI/MLの事例研究 A Semi-Automated Solution Approach Selection Tool for Any Use Case via Scopus and OpenAI: a Case Study for AI/ML in Oncology ( http://arxiv.org/abs/2307.04573v1 ) ライセンス: Link先を確認 | Deniz Kenan K{\i}l{\i}\c{c}, Alex Elkj{\ae}r Vasegaard, Aur\'elien Desoeuvres, Peter Nielsen | (参考訳) 今日の広大な文学の風景では、手作業によるレビューは非常に時間がかかります。
そこで本研究では,解法レビューと選択のための半自動ツールを提案する。
将来の作業のベンチマークとして、研究者、実践者、意思決定者を対象とする。
本ツールは,(1)紙の選択と採点,キーワードの選択スキームを用いた検索,(2)OpenAI APIを利用した論文における解法抽出,(3)感度分析と後分析の3つのモジュールから構成される。
傾向、関連論文、方法を明らかにする。
腫瘍学のケーススタディといくつかのユースケースにおけるAIは、有望な結果を示し、ツールを手動の土台真実と比較する。 In today's vast literature landscape, a manual review is very time-consuming. To address this challenge, this paper proposes a semi-automated tool for solution method review and selection. It caters to researchers, practitioners, and decision-makers while serving as a benchmark for future work. The tool comprises three modules: (1) paper selection and scoring, using a keyword selection scheme to query Scopus API and compute relevancy; (2) solution method extraction in papers utilizing OpenAI API; (3) sensitivity analysis and post-analyzes. It reveals trends, relevant papers, and methods. AI in the oncology case study and several use cases are presented with promising results, comparing the tool to manual ground truth. | 翻訳日:2023-07-11 12:52:05 公開日:2023-07-10 |
# 年齢推定パズルの解き方:顔年齢推定のための深層学習手法の比較分析 Unraveling the Age Estimation Puzzle: Comparative Analysis of Deep Learning Approaches for Facial Age Estimation ( http://arxiv.org/abs/2307.04570v1 ) ライセンス: Link先を確認 | Jakub Paplham and Vojtech Franc | (参考訳) 異なる年齢推定法を比較することは、ベンチマークプロセスの不整合に起因する結果の信頼性の欠如による課題となる。
過去10年間に専門的な手法を用いて連続的なパフォーマンス改善を報告してきたが、これらの主張に異議を唱えた。
我々は,低データ環境外の年齢推定タスクでは,特殊手法の設計は不要であり,クロスエントロピー損失を利用する標準的なアプローチは十分であると主張する。
本稿では,最先端の年齢推定手法を統一的かつ匹敵する設定で評価することにより,ベンチマークの欠点を解決することを目的とする。
顔のアライメント,顔のカバレッジ,解像度,画像表現,モデルアーキテクチャ,年齢推定結果に対するデータ量など,さまざまな要因の影響を体系的に分析した。
驚くべきことに、これらの要因は年齢推定方法自体の選択よりも大きな影響を与えることが多い。
公開年齢推定データセットのクロスデータセット性能を評価することにより,各手法の一般化能力を評価する。
その結果、一貫性のあるデータ前処理プラクティスの使用と、信頼性と有意義な比較を確保するための標準ベンチマークを確立することの重要性が強調された。
ソースコードはhttps://github.com/paplhjak/Facial-Age-Estimation-Benchmarkで公開されている。 Comparing different age estimation methods poses a challenge due to the unreliability of published results, stemming from inconsistencies in the benchmarking process. Previous studies have reported continuous performance improvements over the past decade using specialized methods; however, our findings challenge these claims. We argue that, for age estimation tasks outside of the low-data regime, designing specialized methods is unnecessary, and the standard approach of utilizing cross-entropy loss is sufficient. This paper aims to address the benchmark shortcomings by evaluating state-of-the-art age estimation methods in a unified and comparable setting. We systematically analyze the impact of various factors, including facial alignment, facial coverage, image resolution, image representation, model architecture, and the amount of data on age estimation results. Surprisingly, these factors often exert a more significant influence than the choice of the age estimation method itself. We assess the generalization capability of each method by evaluating the cross-dataset performance for publicly available age estimation datasets. The results emphasize the importance of using consistent data preprocessing practices and establishing standardized benchmarks to ensure reliable and meaningful comparisons. The source code is available at https://github.com/paplhjak/Facial-Age-Estimation-Benchmark. | 翻訳日:2023-07-11 12:51:50 公開日:2023-07-10 |
# 関数線形モデルを用いた物理系問題におけるディープラーニングの解釈と一般化 Interpreting and generalizing deep learning in physics-based problems with functional linear models ( http://arxiv.org/abs/2307.04569v1 ) ライセンス: Link先を確認 | Amirhossein Arzani, Lingxiao Yuan, Pania Newell, Bei Wang | (参考訳) 深層学習は様々な科学的機械学習応用において顕著な成功を収めてきたが、ブラックボックスの性質は、学習データ以外の解釈可能性や一般化能力に関する懸念を招いている。
解釈可能性はしばしば物理的システムのモデリングにおいて重要である。
さらに、多くの物理ベースの学習タスクにおいて、入力機能の全範囲を含む広範なデータセットを取得することは困難であり、アウト・オブ・ディストリビューション(OOD)データに遭遇する際のエラーの増加につながる。
本稿では,関数データ解析(fda)の分野に動機づけられ,訓練された深層学習モデルの解釈可能なサロゲートとして一般化された関数線形モデルを提案する。
我々のモデルは、トレーニングされたニューラルネットワーク(ポストホック解釈)や、トレーニングデータ(解釈可能な演算子学習)から直接トレーニングできることを実証する。
異なるカーネル関数を持つ一般化汎関数線形モデルのライブラリを考慮し、スパース回帰を用いて解析的に提示できる解釈可能な代理モデルを発見する。
固体力学,流体力学,輸送に関するテストケースを紹介する。
我々のモデルはディープラーニングと同等の精度を達成でき、透明性と解釈可能性を提供しながらOODの一般化を向上できることを示す。
本研究は、科学的機械学習における解釈可能性の重要性を強調し、深層学習の解釈と一般化のためのツールとしての関数線形モデルの可能性を示す。 Although deep learning has achieved remarkable success in various scientific machine learning applications, its black-box nature poses concerns regarding interpretability and generalization capabilities beyond the training data. Interpretability is crucial and often desired in modeling physical systems. Moreover, acquiring extensive datasets that encompass the entire range of input features is challenging in many physics-based learning tasks, leading to increased errors when encountering out-of-distribution (OOD) data. In this work, motivated by the field of functional data analysis (FDA), we propose generalized functional linear models as an interpretable surrogate for a trained deep learning model. We demonstrate that our model could be trained either based on a trained neural network (post-hoc interpretation) or directly from training data (interpretable operator learning). A library of generalized functional linear models with different kernel functions is considered and sparse regression is used to discover an interpretable surrogate model that could be analytically presented. We present test cases in solid mechanics, fluid mechanics, and transport. Our results demonstrate that our model can achieve comparable accuracy to deep learning and can improve OOD generalization while providing more transparency and interpretability. Our study underscores the significance of interpretability in scientific machine learning and showcases the potential of functional linear models as a tool for interpreting and generalizing deep learning. | 翻訳日:2023-07-11 12:51:28 公開日:2023-07-10 |
# 高齢者の日常行動指標としての家庭内センサからの日常生活行動の自動検出 Automatically detecting activities of daily living from in-home sensors as indicators of routine behaviour in an older population ( http://arxiv.org/abs/2307.04563v1 ) ライセンス: Link先を確認 | Claire M. Timon and Pamela Hussey and Hyowon Lee and Catriona Murphy and Harsh Vardan Rai and and Alan F. Smeaton | (参考訳) 目的:NEXプロジェクトは、データ分析と統合されたIoT(Internet of Things)システムを開発し、家庭で独立して暮らしている高齢者を支援する、邪魔にならない健康と健康の監視を提供する。
currently”のモニタリングは、各参加者に対して自動検出された日常生活活動(adls)のセットを可視化することを含む。
ADLの検出は、システムを再トレーニングすることなく、ADLが検出された追加参加者の編入を可能にする。
方法:426人の参加者、パイロットトライアル、デプロイメントの友好的なトライアルを含む広範囲なユーザニーズと要求調査に続いて、行動研究サイクル(ARC)トライアルが完了した。
参加者は10週間に23名、それぞれ20名であった。
家庭内のIoTセンサー。
ARCトライアルでは、参加者はそれぞれ2つのデータインフォームドブリーフィングに参加し、家庭内活動の可視化を提示した。
ブリーフィングは、検出されたアクティビティの正確さに関するトレーニングデータも収集した。
次に、ADLの自動検出を改善するために、センサからのデータと参加者からのフィードバックを組み合わせてアソシエーションルールマイニングを行った。
結果:アソシエーションルールマイニングは,他者とは独立に各ADLを検知し,各ADLに対して単一のルールセットを用いて参加者間でADLを検出する。
これにより、トレーニングデータを提供する必要なしに、追加の参加者を追加することができる。
結論: NEXシステムに追加の参加者を追加することで, 日常生活活動のセットを自動的に検出するシステムを再訓練する必要がない。 Objective: The NEX project has developed an integrated Internet of Things (IoT) system coupled with data analytics to offer unobtrusive health and wellness monitoring supporting older adults living independently at home. Monitoring {currently} involves visualising a set of automatically detected activities of daily living (ADLs) for each participant. The detection of ADLs is achieved {} to allow the incorporation of additional participants whose ADLs are detected without re-training the system. Methods: Following an extensive User Needs and Requirements study involving 426 participants, a pilot trial and a friendly trial of the deployment, an Action Research Cycle (ARC) trial was completed. This involved 23 participants over a 10-week period each with c.20 IoT sensors in their homes. During the ARC trial, participants each took part in two data-informed briefings which presented visualisations of their own in-home activities. The briefings also gathered training data on the accuracy of detected activities. Association rule mining was then used on the combination of data from sensors and participant feedback to improve the automatic detection of ADLs. Results: Association rule mining was used to detect a range of ADLs for each participant independently of others and was then used to detect ADLs across participants using a single set of rules {for each ADL}. This allows additional participants to be added without the necessity of them providing training data. Conclusions: Additional participants can be added to the NEX system without the necessity to re-train the system for automatic detection of the set of their activities of daily living. | 翻訳日:2023-07-11 12:51:05 公開日:2023-07-10 |
# テキストの語彙多様性の測定:2倍長問題 Measuring Lexical Diversity in Texts: The Twofold Length Problem ( http://arxiv.org/abs/2307.04626v1 ) ライセンス: Link先を確認 | Yves Bestgen | (参考訳) 語彙多様性の推定に対するテキストの長さの影響は、1世紀以上にわたって科学界の注目を集めてきた。
多くの指標が提案され、評価するために多くの研究がなされているが、問題は残る。
この方法論的レビューは、言語学習研究において最も一般的に用いられる指標だけでなく、長さ問題自体の批判的分析と、提案する解を評価する方法論を提供する。
英語学習者のテキストの3つのデータセットの分析により、確率的あるいはアルゴリズム的アプローチを用いてすべてのテキストを同じ長さに減らすインデックスは、長さ依存性の問題を解くが、これらのインデックスはすべて2番目の問題に対処できず、テキストの長さを決定するパラメータに対する感度が低下した。
本稿では,語彙多様性分析の最適化を推奨する。 The impact of text length on the estimation of lexical diversity has captured the attention of the scientific community for more than a century. Numerous indices have been proposed, and many studies have been conducted to evaluate them, but the problem remains. This methodological review provides a critical analysis not only of the most commonly used indices in language learning studies, but also of the length problem itself, as well as of the methodology for evaluating the proposed solutions. The analysis of three datasets of English language-learners' texts revealed that indices that reduce all texts to the same length using a probabilistic or an algorithmic approach solve the length dependency problem; however, all these indices failed to address the second problem, which is their sensitivity to the parameter that determines the length to which the texts are reduced. The paper concludes with recommendations for optimizing lexical diversity analysis. | 翻訳日:2023-07-11 12:44:34 公開日:2023-07-10 |
# 弱教師付き位置コントラスト学習 : 硬変分類への応用 Weakly-supervised positional contrastive learning: application to cirrhosis classification ( http://arxiv.org/abs/2307.04617v1 ) ライセンス: Link先を確認 | Emma Sarfati and Alexandre B\^one and Marc-Michel Roh\'e and Pietro Gori and Isabelle Bloch | (参考訳) 大規模な医療画像データセットは、低信頼で弱いラベル(例えば、放射能スコア)で安価かつ迅速に注釈付けできる。
組織学に基づく診断のような高信頼なラベルへのアクセスは稀で費用がかかる。
コントラスト学習(cl)法のような事前学習戦略は、ラベル付きまたは弱い注釈付きデータセットを活用できる。
これらの手法は通常、大きなバッチサイズを必要とするが、GPUメモリが限られているため、大規模な3D画像のフル解像度化が難しい。
それでも、2次元スライスの空間的文脈に関する体積的位置情報は、医療応用において非常に重要である。
本研究では,2次元スライスの空間的文脈と弱ラベルを汎用的なカーネルベース損失関数で統合する,wsp(weak-supervised positional)コントラスト学習戦略を提案する。
本手法は,多数の弱いラベル付き画像,すなわちラジオロジカル低信頼アノテーション,および小さな強いラベル付き(すなわち高信頼)データセットを用いて肝硬変の予測を行う。
提案モデルでは,内部データセットのベースラインモデルに対してAUCの分類を5%改善し,がんゲノムアトラスのLIHCデータセットでは26%改善した。
コードは、https://github.com/Guerbet-AI/wsp-contrastive.comで入手できる。 Large medical imaging datasets can be cheaply and quickly annotated with low-confidence, weak labels (e.g., radiological scores). Access to high-confidence labels, such as histology-based diagnoses, is rare and costly. Pretraining strategies, like contrastive learning (CL) methods, can leverage unlabeled or weakly-annotated datasets. These methods typically require large batch sizes, which poses a difficulty in the case of large 3D images at full resolution, due to limited GPU memory. Nevertheless, volumetric positional information about the spatial context of each 2D slice can be very important for some medical applications. In this work, we propose an efficient weakly-supervised positional (WSP) contrastive learning strategy where we integrate both the spatial context of each 2D slice and a weak label via a generic kernel-based loss function. We illustrate our method on cirrhosis prediction using a large volume of weakly-labeled images, namely radiological low-confidence annotations, and small strongly-labeled (i.e., high-confidence) datasets. The proposed model improves the classification AUC by 5% with respect to a baseline model on our internal dataset, and by 26% on the public LIHC dataset from the Cancer Genome Atlas. The code is available at: https://github.com/Guerbet-AI/wsp-contrastive. | 翻訳日:2023-07-11 12:44:19 公開日:2023-07-10 |
# MiVOLO: 年齢・性別推定用マルチ入力変換器 MiVOLO: Multi-input Transformer for Age and Gender Estimation ( http://arxiv.org/abs/2307.04616v1 ) ライセンス: Link先を確認 | Maksim Kuprashevich and Irina Tolstykh | (参考訳) 年齢と性別の認識は極めて困難な課題であり、条件の多様性、複雑なポーズ、画像の質の変化とは別に、顔が部分的にあるいは完全に隠されているケースもある。
最新の視覚変換器を用いた年齢・性別推定法であるMiVOLO(Multi Input VOLO)を提案する。
本手法は, 顔情報だけでなく, 人物画像データも活用し, 両タスクを統一的な入出力モデルに統合する。
これにより、画像に顔が見えない場合でも、モデルの一般化能力が向上し、良好な結果が得られる。
提案モデルを評価するために,4つのベンチマーク実験を行い,実時間処理性能を実証した。
さらに,open imagesデータセットの画像に基づく新しいベンチマークも導入する。
このベンチマークの根拠となる真理アノテーションは、人間のアノテーションによって慎重に生成され、投票のスマートアグリゲーションによって高い精度の回答が得られた。
さらに,本モデルにおける年齢認識性能と人間レベルの精度を比較し,大半が人間よりも優れていたことを示す。
最後に、バリデーションと推論のためのコードとともに、モデルへのパブリックアクセスを許可します。
さらに、使用済みデータセットに追加のアノテーションを提供し、新しいベンチマークを紹介します。 Age and gender recognition in the wild is a highly challenging task: apart from the variability of conditions, pose complexities, and varying image quality, there are cases where the face is partially or completely occluded. We present MiVOLO (Multi Input VOLO), a straightforward approach for age and gender estimation using the latest vision transformer. Our method integrates both tasks into a unified dual input/output model, leveraging not only facial information but also person image data. This improves the generalization ability of our model and enables it to deliver satisfactory results even when the face is not visible in the image. To evaluate our proposed model, we conduct experiments on four popular benchmarks and achieve state-of-the-art performance, while demonstrating real-time processing capabilities. Additionally, we introduce a novel benchmark based on images from the Open Images Dataset. The ground truth annotations for this benchmark have been meticulously generated by human annotators, resulting in high accuracy answers due to the smart aggregation of votes. Furthermore, we compare our model's age recognition performance with human-level accuracy and demonstrate that it significantly outperforms humans across a majority of age ranges. Finally, we grant public access to our models, along with the code for validation and inference. In addition, we provide extra annotations for used datasets and introduce our new benchmark. | 翻訳日:2023-07-11 12:43:59 公開日:2023-07-10 |
# 増幅ハールウェーブレットによるベル-CHSH不平等の最大違反 Maximal violation of the Bell-CHSH inequality via bumpified Haar wavelets ( http://arxiv.org/abs/2307.04611v1 ) ライセンス: Link先を確認 | David Dudal, Philipe De Fabritiis, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella | (参考訳) 我々は、量子場理論の文脈で、真空状態におけるベル-CHSH不等式違反を調査するための一般的な設定を考案する。
1+1)$次元ミンコフスキー時空における無質量スピノル場を用いて実験を行った。
アリスとボブのテスト関数は、まずハールウェーブレットを用いて明示的に構成され、プランクタッパーウィンドウ関数に依存する滑らか化手順によって適切なテスト関数にバンプされる。
相対論的因果関係は、アリスとボブのテスト関数をそれぞれ左と右のリンドラーウェッジに配置することを要求することによって実現される。
ベル-CHSHの不等式は、ツィレルソンの限界に近いことが報告されている。
我々はこの余分なポータルについて簡単にコメントし、以前の研究と比較して、ベル-CHSHの不等式と一般の相互作用する量子場理論を精査する。 We devise a general setup to investigate the violation of the Bell-CHSH inequality in the vacuum state in the context of Quantum Field Theory. We test the method with massless spinor fields in $(1+1)$-dimensional Minkowski space-time. Alice's and Bob's test functions are explicitly constructed, first by employing Haar wavelets which are then bumpified into proper test functions via a smoothening procedure relying on the Planck-taper window function. Relativistic causality is implemented by requiring the support of Alice's and Bob's test functions to be located in the left and right Rindler wedges, respectively. Violations of the Bell-CHSH inequality as close as desired to Tsirelson's bound are reported. We briefly comment on the extra portal, compared to earlier works, this opens to scrutinize Bell-CHSH inequalities with generic, interacting Quantum Field Theories. | 翻訳日:2023-07-11 12:43:37 公開日:2023-07-10 |
# SPLAL:半教師型医用画像分類のための類似性に基づく擬似ラベルとアライメント損失 SPLAL: Similarity-based pseudo-labeling with alignment loss for semi-supervised medical image classification ( http://arxiv.org/abs/2307.04610v1 ) ライセンス: Link先を確認 | Md Junaid Mahmood, Pranaw Raj, Divyansh Agarwal, Suruchi Kumari, Pravendra Singh | (参考訳) 医療画像の分類は,ラベル付きサンプルの不足と,疾患の有病率のばらつきによるクラス不均衡のため,難しい課題である。
半教師付き学習(SSL)メソッドはラベル付きデータとラベルなしデータの両方を活用することでこれらの課題を軽減することができる。
しかし,医療画像分類のためのSSL法では,(1)ラベルなしデータセットの画像に対する信頼性の高い擬似ラベルの推定,(2)クラス不均衡によるバイアスの低減という2つの課題に対処する必要がある。
本稿では,これらの課題を効果的に解決する新しいSSLアプローチであるSPLALを提案する。
SPLALは、クラスプロトタイプと重み付けされた分類器の組み合わせを活用し、ラベルなし画像のサブセット上で信頼できる擬似ラベルを予測する。
さらに,多数クラスに対するモデルのバイアスを軽減するために,アライメントロスを導入する。
提案手法の性能を評価するために,皮膚病変分類(isic 2018)と血液細胞分類データセット(bccd)の2つの医療画像分類ベンチマークデータセットについて実験を行った。
実験結果から,本手法は様々な評価指標に対して,最先端のSSL手法よりも優れていることが示された。
具体的には、isic 2018データセットの精度とf1スコアの両方において最先端のアプローチに対して、それぞれ2.24\%と11.40\%の相対マージンで大幅な改善を達成している。
最後に, 様々な成分の寄与を調べるため, 広範なアブレーション実験を行い, その効果を検証した。 Medical image classification is a challenging task due to the scarcity of labeled samples and class imbalance caused by the high variance in disease prevalence. Semi-supervised learning (SSL) methods can mitigate these challenges by leveraging both labeled and unlabeled data. However, SSL methods for medical image classification need to address two key challenges: (1) estimating reliable pseudo-labels for the images in the unlabeled dataset and (2) reducing biases caused by class imbalance. In this paper, we propose a novel SSL approach, SPLAL, that effectively addresses these challenges. SPLAL leverages class prototypes and a weighted combination of classifiers to predict reliable pseudo-labels over a subset of unlabeled images. Additionally, we introduce alignment loss to mitigate model biases toward majority classes. To evaluate the performance of our proposed approach, we conduct experiments on two publicly available medical image classification benchmark datasets: the skin lesion classification (ISIC 2018) and the blood cell classification dataset (BCCD). The experimental results empirically demonstrate that our approach outperforms several state-of-the-art SSL methods over various evaluation metrics. Specifically, our proposed approach achieves a significant improvement over the state-of-the-art approach on the ISIC 2018 dataset in both Accuracy and F1 score, with relative margins of 2.24\% and 11.40\%, respectively. Finally, we conduct extensive ablation experiments to examine the contribution of different components of our approach, validating its effectiveness. | 翻訳日:2023-07-11 12:43:22 公開日:2023-07-10 |
# ウォークサットの解釈的ヒューリスティックス学習 Learning Interpretable Heuristics for WalkSAT ( http://arxiv.org/abs/2307.04608v1 ) ライセンス: Link先を確認 | Yannet Interian and Sara Bernardini | (参考訳) 局所探索アルゴリズムは、SAT(Satisfiability problem)の大規模で難しい問題を解くためのよく知られた手法である。
これらのアルゴリズムの性能は、ノイズパラメータの設定とスコアリング変数のヒューリスティックに依存する。
これらのヒューリスティックスの最適設定は、異なるインスタンス分布に対して異なる。
本稿では,強化学習を用いて,有効変数スコアリング関数と雑音パラメータを学習する手法を提案する。
我々は、異なるインスタンス分布から満足度問題を考察し、それぞれに専門的なヒューリスティックスを学ぶ。
実験の結果,WalkSATベースラインとローカル検索学習ヒューリスティックの両方に関して改善が見られた。 Local search algorithms are well-known methods for solving large, hard instances of the satisfiability problem (SAT). The performance of these algorithms crucially depends on heuristics for setting noise parameters and scoring variables. The optimal setting for these heuristics varies for different instance distributions. In this paper, we present an approach for learning effective variable scoring functions and noise parameters by using reinforcement learning. We consider satisfiability problems from different instance distributions and learn specialized heuristics for each of them. Our experimental results show improvements with respect to both a WalkSAT baseline and another local search learned heuristic. | 翻訳日:2023-07-11 12:42:55 公開日:2023-07-10 |
# 球状体におけるエピレプチフォーム信号のmemristorインスパイアによる計算 A Memristor-Inspired Computation for Epileptiform Signals in Spheroids ( http://arxiv.org/abs/2307.04607v1 ) ライセンス: Link先を確認 | Iv\'an D\'iez de los R\'ios, John Wesley Ephraim, Gemma Palazzolo, Teresa Serrano-Gotarredona, Gabriella Panuccio, Bernab\'e Linares-Barranco | (参考訳) 本稿では,海馬スフェロイドが生み出すエピレプチフォーム活性の分光図や指紋のタイプを,メムリスタにインスパイアされた計算手法を提案する。
オンザフライで計算し、エピレプチフォームイベントをオンセットするための警告レベルシグナルを低コストで使用することができる。
本稿では, マイクロ電極アレイシステムを用いて海馬球体から記録されたエピレプチフォームイベントを用いて, 本手法の計算方法について述べる。 In this paper we present a memristor-inspired computational method for obtaining a type of running spectrogram or fingerprint of epileptiform activity generated by rodent hippocampal spheroids. It can be used to compute on the fly and with low computational cost an alert-level signal for epileptiform events onset. Here, we describe the computational method behind this fingerprint technique and illustrate it using epileptiform events recorded from hippocampal spheroids using a microelectrode array system. | 翻訳日:2023-07-11 12:42:46 公開日:2023-07-10 |
# EchoVest:経皮的電気神経刺激による音のリアルタイム分類と深部知覚 EchoVest: Real-Time Sound Classification and Depth Perception Expressed through Transcutaneous Electrical Nerve Stimulation ( http://arxiv.org/abs/2307.04604v1 ) ライセンス: Link先を確認 | Jesse Choe, Siddhant Sood, Ryan Park | (参考訳) 世界の15億人以上が聴覚障害で暮らしている。
このような障害を持つ個人向けに作られた様々な技術にもかかわらず、これらの技術のほとんどは、低中所得国で日常的に使用するために非常に高価かアクセス不能である。
この問題に対処するため、我々は視覚障害者や聴覚障害者が直感的に自分の環境を認識できる新しい補助デバイス、EchoVestを開発した。
EchoVestは、音の音源に基づいて経皮的電気神経刺激(TENS)を利用して、ユーザの身体に振動を伝達する。
EchoVestには、音のローカライゼーション、音の分類、ノイズ低減、深度知覚など、さまざまな機能もある。
分類タスクに最も一般的に使用される機械学習モデルであるcnnベースの機械学習モデルを、精度と計算コストにおいて上回ることを目標とした。
そこで我々は,音響スペクトルトランスフォーマ(ast)モデル,注意に基づくモデル,雑音低減のための高速フーリエ変換を適応させた新しい音響パイプラインを開発した。
大津法の適用により,背景雑音フィルタの最適しきい値を求めることができ,精度が向上した。
方向と深度を正確に計算するために、アーリバルアルゴリズムとSOTAローカライゼーションの複素時間差を適用した。
最後の改善は、ブラインドソース分離を使用して、アルゴリズムを複数のマイクロホン入力に適用できるようにすることでした。
最終的なアルゴリズムは、環境音分類のためのesc-50データセットの95.7\%精度を含む多数のチェックポイントで最先端の結果を得た。 Over 1.5 billion people worldwide live with hearing impairment. Despite various technologies that have been created for individuals with such disabilities, most of these technologies are either extremely expensive or inaccessible for everyday use in low-medium income countries. In order to combat this issue, we have developed a new assistive device, EchoVest, for blind/deaf people to intuitively become more aware of their environment. EchoVest transmits vibrations to the user's body by utilizing transcutaneous electric nerve stimulation (TENS) based on the source of the sounds. EchoVest also provides various features, including sound localization, sound classification, noise reduction, and depth perception. We aimed to outperform CNN-based machine-learning models, the most commonly used machine learning model for classification tasks, in accuracy and computational costs. To do so, we developed and employed a novel audio pipeline that adapts the Audio Spectrogram Transformer (AST) model, an attention-based model, for our sound classification purposes, and Fast Fourier Transforms for noise reduction. The application of Otsu's Method helped us find the optimal thresholds for background noise sound filtering and gave us much greater accuracy. In order to calculate direction and depth accurately, we applied Complex Time Difference of Arrival algorithms and SOTA localization. Our last improvement was to use blind source separation to make our algorithms applicable to multiple microphone inputs. The final algorithm achieved state-of-the-art results on numerous checkpoints, including a 95.7\% accuracy on the ESC-50 dataset for environmental sound classification. | 翻訳日:2023-07-11 12:42:34 公開日:2023-07-10 |
# 人工知能のためのモデル駆動工学 -システム文献レビュー Model-Driven Engineering for Artificial Intelligence -- A Systematic Literature Review ( http://arxiv.org/abs/2307.04599v1 ) ライセンス: Link先を確認 | Simon Raedler, Luca Berardinelli, Karolin Winter, Abbas Rahimi, Stefanie Rinderle-Ma | (参考訳) 目的:本研究は,AI(MDE4AI)を支えるモデル駆動工学(MDE)分野における既存の知識体系を調査し,今後の研究をさらに深め,技術の現状を定義することを目的とする。
方法: システム文献レビュー(SLR)を行い, 主要な5つのデータベースから論文を収集し, 703 の候補研究を行い, 最終的に15 の初等研究を継続した。
各研究は,(1) MDEの原則と実践の採用,(2) CRISP-DM方法論の段階に沿ったAI開発支援の段階に関して評価,議論される。
結果: この研究の結果は、MDE(メタモデル、具体的な構文、モデル変換)の柱概念を利用して、AIの懸念に明示的に対処するドメイン固有言語(DSL)を定義していることを示している。
異なるMDE技術が使われ、異なる言語ワークベンチを活用している。
AIに関する最も顕著な懸念は、AIアルゴリズムのトレーニングとモデリングである。
CRISP-DM \textit{Business Understanding} フェーズのような要求の学際的なコミュニケーションをサポートする初期のプロジェクトフェーズは、ほとんど反映されない。
結論: 研究によると、aiに対するmdeの使用はまだ初期段階にあり、広く使われているツールやメソッドはひとつも存在しない。
さらに、現在のアプローチでは、開発プロセス全体をサポートするのではなく、特定の開発段階にフォーカスする傾向がある。
その結果、AIにおけるMDEのさらなる活用と今後の研究を導くためのいくつかの研究方向が示唆された。 Objective: This study aims to investigate the existing body of knowledge in the field of Model-Driven Engineering MDE in support of AI (MDE4AI) to sharpen future research further and define the current state of the art. Method: We conducted a Systemic Literature Review (SLR), collecting papers from five major databases resulting in 703 candidate studies, eventually retaining 15 primary studies. Each primary study will be evaluated and discussed with respect to the adoption of (1) MDE principles and practices and (2) the phases of AI development support aligned with the stages of the CRISP-DM methodology. Results: The study's findings show that the pillar concepts of MDE (metamodel, concrete syntax and model transformation), are leveraged to define domain-specific languages (DSL) explicitly addressing AI concerns. Different MDE technologies are used, leveraging different language workbenches. The most prominent AI-related concerns are training and modeling of the AI algorithm, while minor emphasis is given to the time-consuming preparation of the data sets. Early project phases that support interdisciplinary communication of requirements, such as the CRISP-DM \textit{Business Understanding} phase, are rarely reflected. Conclusion: The study found that the use of MDE for AI is still in its early stages, and there is no single tool or method that is widely used. Additionally, current approaches tend to focus on specific stages of development rather than providing support for the entire development process. As a result, the study suggests several research directions to further improve the use of MDE for AI and to guide future research in this area. | 翻訳日:2023-07-11 12:41:50 公開日:2023-07-10 |
# LINFA: フローとアニールの正規化を伴う変分推論のためのPythonライブラリ LINFA: a Python library for variational inference with normalizing flow and annealing ( http://arxiv.org/abs/2307.04675v1 ) ライセンス: Link先を確認 | Yu Wang, Emma R. Cobian, Jubilee Lee, Fang Liu, Jonathan D. Hauenstein and Daniele E. Schiavazzi | (参考訳) 変分推論は確率分布を近似する統計学や機械学習において、ますます普及している手法である。
LINFA (Library for Inference with Normalizing Flow and Annealing) は,計算コストのかかるモデルや,依存パラメータを持つ難しい分布に対応するPythonライブラリである。
様々なベンチマークにおいて,LINFAの理論的背景,能力,性能について論じる。
LINFAはGitHubでhttps://github.com/desResLab/LINFAで公開されている。 Variational inference is an increasingly popular method in statistics and machine learning for approximating probability distributions. We developed LINFA (Library for Inference with Normalizing Flow and Annealing), a Python library for variational inference to accommodate computationally expensive models and difficult-to-sample distributions with dependent parameters. We discuss the theoretical background, capabilities, and performance of LINFA in various benchmarks. LINFA is publicly available on GitHub at https://github.com/desResLab/LINFA. | 翻訳日:2023-07-11 12:33:29 公開日:2023-07-10 |
# ブラックホール型量子コヒーレント増幅器 Black-hole powered quantum coherent amplifier ( http://arxiv.org/abs/2307.04672v1 ) ライセンス: Link先を確認 | Avijit Misra, Pritam Chattopadhyay, Anatoly Svidzinsky, Marlan O. Scully, and Gershon Kurizki | (参考訳) 空洞からブラックホール(BH)に落下する原子は、BH重力真空エネルギーを動力とする光量子のコヒーレント増幅を可能にする。
このプロセスは、BHに閉じ込められた宇宙船を推進するなど、有用な目的のためにBHエネルギーを利用することができる。
この過程は、軌道鏡によって反射されるホーキング放射によって部分的に励起される原子の落下によって信号場の過渡増幅によって起こる。
磁場に弱結合する熱平衡原子の定常状態において、この増幅器はBHを動力とする量子熱エンジンを構成する。
想定された効果は、BH加速放射に対する熱力学的アプローチを裏付ける。 Atoms falling into a black hole (BH) through a cavity are shown to enable coherent amplification of light quanta powered by the BH gravitational vacuum energy. This process can harness the BH energy towards useful purposes, such as propelling a spaceship trapped by the BH. The process can occur via transient amplification of a signal field by falling atoms that are partly excited by Hawking radiation reflected by an orbiting mirror. In the steady-state regime of thermally equilibrated atoms that weakly couple to the field, this amplifier constitutes a BH-powered quantum heat engine. The envisaged effects substantiate the thermodynamic approach to BH acceleration radiation. | 翻訳日:2023-07-11 12:33:21 公開日:2023-07-10 |
# エコーチャンバー効果の定量化 : 埋め込み距離に基づくアプローチ Quantifying the Echo Chamber Effect: An Embedding Distance-based Approach ( http://arxiv.org/abs/2307.04668v1 ) ライセンス: Link先を確認 | Faisal Alatawi and Paras Sheth and Huan Liu | (参考訳) ソーシャルメディアプラットフォームが台頭し、エコーチャンバーの形成が促進された。これはユーザーが既存の信念を補強する視点に主に遭遇するオンライン空間である。
この現象は、コミュニティ間の情報の拡散を著しく妨げ、社会的な分極を引き起こす。
そのため,エコーチャンバーの定量化手法の開発が重要である。
本稿では,埋め込み空間におけるユーザ間の距離を測定することで,ユーザコミュニティの凝集と分離を評価する新しい指標であるEcho Chamber Score(ECS)を提案する。
既存のアプローチとは対照的に、ECSはユーザーイデオロギーのラベルなしで機能し、相互作用グラフの構造について仮定することができない。
ユーザ間の距離測定を容易にするために,ユーザ投稿とインタラクショングラフを利用して,そのイデオロギー的類似性を反映した自己教師付きグラフオートエンコーダに基づくユーザ埋め込みモデルであるEchoGAEを提案する。
ECSの有効性を評価するために、私たちは4つのトピックからなるTwitterデータセットを使用します。
本研究は、エコーチャンバーの定量化とオンライン談話のダイナミックスに光を流すツールとしてのECSの有効性を示す。 The rise of social media platforms has facilitated the formation of echo chambers, which are online spaces where users predominantly encounter viewpoints that reinforce their existing beliefs while excluding dissenting perspectives. This phenomenon significantly hinders information dissemination across communities and fuels societal polarization. Therefore, it is crucial to develop methods for quantifying echo chambers. In this paper, we present the Echo Chamber Score (ECS), a novel metric that assesses the cohesion and separation of user communities by measuring distances between users in the embedding space. In contrast to existing approaches, ECS is able to function without labels for user ideologies and makes no assumptions about the structure of the interaction graph. To facilitate measuring distances between users, we propose EchoGAE, a self-supervised graph autoencoder-based user embedding model that leverages users' posts and the interaction graph to embed them in a manner that reflects their ideological similarity. To assess the effectiveness of ECS, we use a Twitter dataset consisting of four topics - two polarizing and two non-polarizing. Our results showcase ECS's effectiveness as a tool for quantifying echo chambers and shedding light on the dynamics of online discourse. | 翻訳日:2023-07-11 12:33:10 公開日:2023-07-10 |
# グラフニューラルネットワークのパワーと活性化関数の役割について On the power of graph neural networks and the role of the activation function ( http://arxiv.org/abs/2307.04661v1 ) ライセンス: Link先を確認 | Sammy Khalife, Amitabh Basu | (参考訳) 本稿では,グラフニューラルネットワーク(gnns)の表現性に関する新たな結果について述べる。
グラフの入力サイズでアーキテクチャサイズが増大しない部分的な多項式活性化を持つ任意のgnnに対して、gnnが任意の回数の反復までルート頂点を識別できないような深さ2の非同型根木が一対存在することを証明した。
この証明は対称多項式の代数からのツールに依存する。
対照的に、分割多項式アクティベーションを持つ非有界gnn(そのサイズはグラフサイズで変更できる)は、2回の反復でこれらの頂点を区別できることが既に知られていた。
この結果は,[Grohe, 2021]で定式化されたオープンな質問に答え, 有界サイズと非有界サイズのGNNの厳密な分離を示唆する。
次に、分割多項式でない活性化を許容すると、2つの反復で1つのニューロンパーセプトロンが深さ2の任意の非同型な木の根頂点を区別できることを証明する(我々の結果は、sgmoid、双曲的tanなどの活性化をも持つ)。
これは、ニューラルネットワークのアクティベーション関数を変更すると、グラフニューラルネットワークのパワーが劇的に変化することを示している。
この結果の証明は超越数論のリンデマン・ヴァイエルシュトラウスの定理を用いている。 In this article we present new results about the expressivity of Graph Neural Networks (GNNs). We prove that for any GNN with piecewise polynomial activations, whose architecture size does not grow with the graph input sizes, there exists a pair of non-isomorphic rooted trees of depth two such that the GNN cannot distinguish their root vertex up to an arbitrary number of iterations. The proof relies on tools from the algebra of symmetric polynomials. In contrast, it was already known that unbounded GNNs (those whose size is allowed to change with the graph sizes) with piecewise polynomial activations can distinguish these vertices in only two iterations. Our results imply a strict separation between bounded and unbounded size GNNs, answering an open question formulated by [Grohe, 2021]. We next prove that if one allows activations that are not piecewise polynomial, then in two iterations a single neuron perceptron can distinguish the root vertices of any pair of nonisomorphic trees of depth two (our results hold for activations like the sigmoid, hyperbolic tan and others). This shows how the power of graph neural networks can change drastically if one changes the activation function of the neural networks. The proof of this result utilizes the Lindemann-Weierstrauss theorem from transcendental number theory. | 翻訳日:2023-07-11 12:32:50 公開日:2023-07-10 |
# BeaverTails: ヒューマンパラメータデータセットによるLCMの安全性向上を目指して BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset ( http://arxiv.org/abs/2307.04657v1 ) ライセンス: Link先を確認 | Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang | (参考訳) 本稿では,大規模言語モデル(llm)における安全性アライメント研究の促進を目的としたbeavertailsデータセットを提案する。
このデータセットは、質問応答ペアの有益さと無害さのアノテーションを一意に分離するので、これらの重要な属性に対する明確な視点を提供する。
30,207対のq&a(q&a)に対して安全メタラベルをコンパイルし,30,144対の専門家比較データを収集した。
さらに,人間のフィードバックによるコンテンツモデレーションと強化学習(RLHF)におけるBeaverTailsの応用について紹介し,LLMにおける実用的安全対策の可能性を強調した。
このデータセットはコミュニティに重要なリソースを提供し、LLMの安全な開発とデプロイに寄与すると考えています。
私たちのプロジェクトページは以下のURLで利用可能です。 In this paper, we introduce the BeaverTails dataset, aimed at fostering research on safety alignment in large language models (LLMs). This dataset uniquely separates annotations of helpfulness and harmlessness for question-answering pairs, thus offering distinct perspectives on these crucial attributes. In total, we have compiled safety meta-labels for 30,207 question-answer (QA) pairs and gathered 30,144 pairs of expert comparison data for both the helpfulness and harmlessness metrics. We further showcase applications of BeaverTails in content moderation and reinforcement learning with human feedback (RLHF), emphasizing its potential for practical safety measures in LLMs. We believe this dataset provides vital resources for the community, contributing towards the safe development and deployment of LLMs. Our project page is available at the following URL: https://sites.google.com/view/pku-beavertails. | 翻訳日:2023-07-11 12:32:27 公開日:2023-07-10 |
# 不確かさ認識学習による連接物体検出とカモフラージュ物体検出 Joint Salient Object Detection and Camouflaged Object Detection via Uncertainty-aware Learning ( http://arxiv.org/abs/2307.04651v1 ) ライセンス: Link先を確認 | Aixuan Li, Jing Zhang, Yunqiu Lv, Tong Zhang, Yiran Zhong, Mingyi He, Yuchao Dai | (参考訳) 突出した物体は人間の注意を引き付け、通常周囲からはっきりと目立つ。
対照的に、カモフラージュされた物体は環境と似た色やテクスチャを共有している。
この場合、突出した物体は通常非カモフラージュであり、カモフラージュされた物体は通常サミエントではない。
そこで本研究では,sod(salient object detection)とcod(camouflaged object detection)の矛盾情報について,データレベルとタスクサイドの矛盾モデルを用いて広範囲に検討する不確実性認識学習パイプラインを提案する。
最初に2つのタスクのデータセット相関を活用し、codデータセットの簡単なサンプルがsodのハードサンプルとなり、sodモデルのロバスト性が向上すると主張している。
これら2つのモデルが同一入力画像の異なる領域を強調するアクティベーションマップに導くことを前提として,これら2つのタスクの矛盾する属性を明示的にモデル化するジョイント-タスクコントラスト学習フレームワークを備えたコントラストモジュールについても紹介する。
教師なし表現学習における従来のタスク内コントラスト学習とは異なり、我々のコントラストモジュールはタスク間の相関をモデル化し、タスク間表現学習につながる。
本研究では,不確実性の観点から,タスクの不確実性(SOD)とデータ不確実性(COD)をモデル化するための不確実性推定手法を幅広く検討し,課題ごとの課題領域を効果的に推定し,難易度学習を実現することを目的とした。
ベンチマークデータセットを用いた実験結果から,本手法は最先端性能と情報的不確実性評価の両方につながることが示された。 Salient objects attract human attention and usually stand out clearly from their surroundings. In contrast, camouflaged objects share similar colors or textures with the environment. In this case, salient objects are typically non-camouflaged, and camouflaged objects are usually not salient. Due to this inherent contradictory attribute, we introduce an uncertainty-aware learning pipeline to extensively explore the contradictory information of salient object detection (SOD) and camouflaged object detection (COD) via data-level and task-wise contradiction modeling. We first exploit the dataset correlation of these two tasks and claim that the easy samples in the COD dataset can serve as hard samples for SOD to improve the robustness of the SOD model. Based on the assumption that these two models should lead to activation maps highlighting different regions of the same input image, we further introduce a contrastive module with a joint-task contrastive learning framework to explicitly model the contradictory attributes of these two tasks. Different from conventional intra-task contrastive learning for unsupervised representation learning, our contrastive module is designed to model the task-wise correlation, leading to cross-task representation learning. To better understand the two tasks from the perspective of uncertainty, we extensively investigate the uncertainty estimation techniques for modeling the main uncertainties of the two tasks, namely task uncertainty (for SOD) and data uncertainty (for COD), and aiming to effectively estimate the challenging regions for each task to achieve difficulty-aware learning. Experimental results on benchmark datasets demonstrate that our solution leads to both state-of-the-art performance and informative uncertainty estimation. | 翻訳日:2023-07-11 12:32:08 公開日:2023-07-10 |
# 適応型集団グラフ学習を用いたマルチモーダル脳年齢推定 Multimodal brain age estimation using interpretable adaptive population-graph learning ( http://arxiv.org/abs/2307.04639v1 ) ライセンス: Link先を確認 | Kyriaki-Margarita Bintsi, Vasileios Baltatzis, Rolandos Alexandros Potamias, Alexander Hammers, Daniel Rueckert | (参考訳) アルツハイマー病などの神経変性疾患の文脈において貴重な情報を提供できるため、脳年齢の推定は臨床的に重要である。
人口グラフは、被検体のマルチモーダルイメージング情報と人口間の関係を含むが、グラフ畳み込みネットワーク(GCN)と共に文献に使われ、様々な医療画像タスクに有用であることが証明されている。
人口グラフは通常静的であり、非画像情報を用いて手動で構築される。
しかし、グラフの構成は自明な作業ではなく、本質的にグラフ構造に非常に敏感なGCNの性能に大きな影響を与える可能性がある。
本研究では,下流タスクに最適化された人口グラフ構造を学習するフレームワークを提案する。
注意機構は、重みを一連の撮像特徴と非撮像特徴(表現型)に割り当て、エッジ抽出に使用する。
結果のグラフはGCNのトレーニングに使用される。
パイプライン全体はエンドツーエンドでトレーニングすることができる。
さらに、グラフ構築において最も重要な注意重みを可視化することにより、グラフの解釈可能性を高める。
我々は,多種多様な神経画像および非画像表現型を提供する英国バイオバンクを用いて,脳年齢の回帰と分類の手法を評価する。
提案手法は, 競合する静的グラフアプローチや他の最先端適応手法よりも優れている。
さらに、アサインされた注意スコアは、脳年齢推定に有用な画像と非画像表現型の両方が存在し、関連する文献と一致していることを示す。 Brain age estimation is clinically important as it can provide valuable information in the context of neurodegenerative diseases such as Alzheimer's. Population graphs, which include multimodal imaging information of the subjects along with the relationships among the population, have been used in literature along with Graph Convolutional Networks (GCNs) and have proved beneficial for a variety of medical imaging tasks. A population graph is usually static and constructed manually using non-imaging information. However, graph construction is not a trivial task and might significantly affect the performance of the GCN, which is inherently very sensitive to the graph structure. In this work, we propose a framework that learns a population graph structure optimized for the downstream task. An attention mechanism assigns weights to a set of imaging and non-imaging features (phenotypes), which are then used for edge extraction. The resulting graph is used to train the GCN. The entire pipeline can be trained end-to-end. Additionally, by visualizing the attention weights that were the most important for the graph construction, we increase the interpretability of the graph. We use the UK Biobank, which provides a large variety of neuroimaging and non-imaging phenotypes, to evaluate our method on brain age regression and classification. The proposed method outperforms competing static graph approaches and other state-of-the-art adaptive methods. We further show that the assigned attention scores indicate that there are both imaging and non-imaging phenotypes that are informative for brain age estimation and are in agreement with the relevant literature. | 翻訳日:2023-07-11 12:30:48 公開日:2023-07-10 |
# 非エルミート系に対するオーフバウ原理 Aufbau Principle for Non-Hermitian Systems ( http://arxiv.org/abs/2307.04696v1 ) ライセンス: Link先を確認 | Gaoyong Sun and Su-Peng Kou | (参考訳) 非エルミート系に対する一般化されたアウフバウ原理を開発し、不明瞭な粒子の構成を構築できる。
非エルミート系のオーフバウ則は、複素エネルギー準位の実部分のみを考えるとき、エルミート系で開発されたものと同じであることが予想できない。
フェルミオンおよびボソニック・ハサノ・ネルソン模型のフル多体エネルギースペクトルを運動量空間の単粒子エネルギー準位を満たす例として導出する。
開境界条件では、フェルミオンとボソンの両方の多体非エルミト皮膚効果が全ての多体固有状態において持続することを示す。
さらに、ボソンの基底状態が、ハイゼンベルクの不確実性原理を超えた実空間と運動量空間の両方に同時に局在する全ての粒子との異常なボース=アインシュタイン凝縮であることが驚くべきことに分かる。
周期境界条件に対しては、ハードコアボソンをフェルミオンにマッピングできないことを示す。
この研究は、非エルミート系の多体物理学を理解するための一般的な枠組みを確立する。 We develop a generalized Aufbau principle for non-Hermitian systems that allows for building up the configurations of indistinguishable particles. The Aufbau rule of non-Hermitian systems is unexpectedly shown to be identical to those developed in Hermitian systems when only the real parts of the complex energy levels are considered. We derive the full many-body energy spectra of the fermionic and bosonic Hatano-Nelson models as examples by filling the single-particle energy levels in the momentum space. For open boundary conditions, we show that many-body non-Hermitian skin effects persist in all many-body eigenstates for both fermions and bosons. Furthermore, we find surprisingly that the ground state of bosons is an anomalous Bose-Einstein condensation with all of the particles simultaneously localizing in both the real and momentum space beyond the Heisenberg uncertainty principle. For periodic boundary conditions, we show that hard-core bosons cannot be mapped to fermions. This work establishes a general framework for understanding the many-body physics of non-Hermitian systems. | 翻訳日:2023-07-11 12:26:24 公開日:2023-07-10 |
# cobalt: プルーフオブワークネットワークゲームにおけるマイニング報酬の最適化 Cobalt: Optimizing Mining Rewards in Proof-of-Work Network Games ( http://arxiv.org/abs/2307.04695v1 ) ライセンス: Link先を確認 | Arti Vedula, Abhishek Gupta and Shaileshh Bojja Venkatakrishnan | (参考訳) ブロックチェーンのマイニングは、膨大な電力コストで毎秒数メガハッシュを実行できる特殊なハードウェアを必要とする高価な問題になっている。
鉱山労働者は、最長のチェーン内でブロックを採掘するたびに報酬をもらい、鉱業コストを相殺する。
したがって、採掘者にとって、ブロックチェーン内の採掘ブロックの数を最大化し、収益を増やすことは興味深い。
鉱業報酬に影響する重要な要因は、ピアツーピアネットワークの鉱夫間の接続である。
報酬を最大化するためには、採掘者はネットワーク接続を慎重に選択し、他の採掘者間の経路に比べて平均してレイテンシの低い他の採掘者への経路の存在を保証する必要がある。
鉱夫にとって誰とつながるかを決める問題を組合せバンディット問題として定式化する。
各ノードは、他のノードからの90パーセントのレイテンシに対して、ネットワークのハッシュパワーの90\%に達するためのレイテンシを最小化するために、戦略的に隣ノードを選択する。
私たちの研究の重要な貢献は、banditアルゴリズム内のネットワーク構造を学ぶために、ネットワーク座標に基づくモデルを使うことです。
提案するアルゴリズムは,多様なネットワーク設定において,ベースラインよりも優れた性能を示した。 Mining in proof-of-work blockchains has become an expensive affair requiring specialized hardware capable of executing several megahashes per second at huge electricity costs. Miners earn a reward each time they mine a block within the longest chain, which helps offset their mining costs. It is therefore of interest to miners to maximize the number of mined blocks in the blockchain and increase revenue. A key factor affecting mining rewards earned is the connectivity between miners in the peer-to-peer network. To maximize rewards a miner must choose its network connections carefully, ensuring existence of paths to other miners that are on average of a lower latency compared to paths between other miners. We formulate the problem of deciding whom to connect to for miners as a combinatorial bandit problem. Each node picks its neighbors strategically to minimize the latency to reach 90\% of the hash power of the network relative to the 90-th percentile latency from other nodes. A key contribution of our work is the use of a network coordinates based model for learning the network structure within the bandit algorithm. Experimentally we show our proposed algorithm outperforming or matching baselines on diverse network settings. | 翻訳日:2023-07-11 12:26:08 公開日:2023-07-10 |
# COMEX: カスタマイズされたソースコード表現を生成するツール COMEX: A Tool for Generating Customized Source Code Representations ( http://arxiv.org/abs/2307.04693v1 ) ライセンス: Link先を確認 | Debeshee Das, Noble Saji Mathews, Alex Mathai, Srikanth Tamilselvam, Kranthi Sedamaki, Sridhar Chimalakonda and Atul Kumar | (参考訳) ソースコードの効果的な表現を学ぶことは、ソフトウェアエンジニアリング(ml4se)システムのための機械学習には不可欠である。
自然言語処理にインスパイアされたCodexやCodeGenといった大規模言語モデル(LLM)は、コードをテキストのジェネリックシーケンスとして扱い、コードの巨大なコーパスに基づいてトレーニングし、いくつかのソフトウェアエンジニアリング(SE)タスクにおけるアートパフォーマンスの状態を達成する。
しかし、有効なソースコードは、自然言語とは異なり、プログラミング言語の基盤となる文法によって支配される厳密な構造とパターンに従う。
現在のLLMは、コードのこの特性を、トークンのシーケンスのように扱い、制御フローグラフ(CFG)、データフローグラフ(DFG)、抽象構文木(AST)などのコードビューから抽出できるコードのキー構造とセマンティックプロパティを、コードの構造とセマンティックプロパティの見落としとして利用していない。
残念ながら、すべてのプログラミング言語でコードビューを生成し統合するプロセスは面倒で時間がかかります。
この障壁を克服するために、研究者や開発者がさまざまなSEタスクのために機械学習(ML)モデルで使用可能な複数のコードビューを作成し、組み合わせられるフレームワークであるCOMEXを提案する。
私たちのツールの素晴らしい特徴は次のとおりです。
(i)ソースコード上で直接動作する(コンパイルは不要)。
(ii) 現在JavaとC#をサポートしている。
(iii)プロシージャ内およびプロシージャ間分析を用いて、メソッドレベルのスニペットとプログラムレベルのスニペットの両方を解析し、
(iv) 40以上の言語をサポートするインクリメンタルパーサであるtree-sitter上に構築されているため、他の言語にも簡単に拡張できる。
この使いやすいコードビュー生成とカスタマイズツールによって、ソースコード表現学習メソッドやml4seの研究が促進されると考えています。
ツール: https://pypi.org/project/comex - github: https://github.com/ibm/tree-sitter-codeviews - デモ: https://youtu.be/ger6u87fvbu Learning effective representations of source code is critical for any Machine Learning for Software Engineering (ML4SE) system. Inspired by natural language processing, large language models (LLMs) like Codex and CodeGen treat code as generic sequences of text and are trained on huge corpora of code data, achieving state of the art performance on several software engineering (SE) tasks. However, valid source code, unlike natural language, follows a strict structure and pattern governed by the underlying grammar of the programming language. Current LLMs do not exploit this property of the source code as they treat code like a sequence of tokens and overlook key structural and semantic properties of code that can be extracted from code-views like the Control Flow Graph (CFG), Data Flow Graph (DFG), Abstract Syntax Tree (AST), etc. Unfortunately, the process of generating and integrating code-views for every programming language is cumbersome and time consuming. To overcome this barrier, we propose our tool COMEX - a framework that allows researchers and developers to create and combine multiple code-views which can be used by machine learning (ML) models for various SE tasks. Some salient features of our tool are: (i) it works directly on source code (which need not be compilable), (ii) it currently supports Java and C#, (iii) it can analyze both method-level snippets and program-level snippets by using both intra-procedural and inter-procedural analysis, and (iv) it is easily extendable to other languages as it is built on tree-sitter - a widely used incremental parser that supports over 40 languages. We believe this easy-to-use code-view generation and customization tool will give impetus to research in source code representation learning methods and ML4SE. Tool: https://pypi.org/project/comex - GitHub: https://github.com/IBM/tree-sitter-codeviews - Demo: https://youtu.be/GER6U87FVbU | 翻訳日:2023-07-11 12:25:34 公開日:2023-07-10 |
# 相互作用ボソンに対するハイゼンベルク制限ハミルトニアン学習 Heisenberg-limited Hamiltonian learning for interacting bosons ( http://arxiv.org/abs/2307.04690v1 ) ライセンス: Link先を確認 | Haoya Li, Yu Tong, Hongkang Ni, Tuvia Gefen, Lexing Ying | (参考訳) ハイゼンベルク制限スケーリングを用いた力学から相互作用するボゾンハミルトニアンのクラスを学ぶためのプロトコルを開発する。
基底となる有界次グラフ構造を持つハミルトニアンに対しては、すべてのパラメータをルート平均二乗誤差 $\epsilon$ で学習することができ、$\mathcal{o}(1/\epsilon)$ はシステムサイズとは独立で、状態準備や測定誤差に対して頑健である。
このプロトコルでは、多くの実験プラットフォームで実装が容易なボソニックコヒーレント状態、ビームスプリッタ、位相シフト器、ホモダイン測定のみを用いる。
私たちが開発する重要な技術は、独立利害関係にある効果的なハミルトニアンの対称性を強制するためにランダムユニタリを適用することである。 We develop a protocol for learning a class of interacting bosonic Hamiltonians from dynamics with Heisenberg-limited scaling. For Hamiltonians with an underlying bounded-degree graph structure, we can learn all parameters with root mean squared error $\epsilon$ using $\mathcal{O}(1/\epsilon)$ total evolution time, which is independent of the system size, in a way that is robust against state-preparation and measurement error. In the protocol, we only use bosonic coherent states, beam splitters, phase shifters, and homodyne measurements, which are easy to implement on many experimental platforms. A key technique we develop is to apply random unitaries to enforce symmetry in the effective Hamiltonian, which may be of independent interest. | 翻訳日:2023-07-11 12:24:22 公開日:2023-07-10 |
# 光ツイーザーアレイにおける単一ジスプロシウム原子の追跡とイメージング Trapping and imaging single dysprosium atoms in optical tweezer arrays ( http://arxiv.org/abs/2307.04689v1 ) ライセンス: Link先を確認 | Damien Bloch, Britton Hofer, Sam R. Cohen, Antoine Browaeys, Igor Ferrier-Barbut | (参考訳) 626nmの結合線上に532nmの波長の光学トワイザーを配置し,ダイスプロシウムの単一原子の合成と観察を行った。
我々は、ランタニド特有の異方性光シフト、特に、地表面と励起状態のテンソルとベクトル偏光率の大きな差を用いて、微分光シフトを調整し、ニアマグニックまたはマジック偏光におけるツイーザを生成する。
これにより、単一の原子が生成され、画像化できる体制を見つけることができる。
tweezer配列ツールボックスを使ってランタンを操作すれば、その豊富なスペクトル、大きなスピン、磁気双極子モーメントを利用して量子物理学研究の新しい研究方向を開くことができる。 We report the preparation and observation of single atoms of dysprosium in arrays of optical tweezers with a wavelength of 532 nm imaged on the intercombination line at 626 nm. We use the anisotropic light shift specific to lanthanides and in particular a large difference in tensor and vector polarizabilities between the ground and excited states to tune the differential light shift and produce tweezers in near-magic or magic polarization. This allows us to find a regime where single atoms can be produced and imaged. Using the tweezer array toolbox to manipulate lanthanides will open new research directions for quantum physics studies by taking advantage of their rich spectrum, large spin and magnetic dipole moment. | 翻訳日:2023-07-11 12:23:44 公開日:2023-07-10 |
# VampNet:masked Acoustic Token Modelingによる音楽生成 VampNet: Music Generation via Masked Acoustic Token Modeling ( http://arxiv.org/abs/2307.04686v1 ) ライセンス: Link先を確認 | Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo | (参考訳) 本稿では,音楽合成,圧縮,インパインティング,変奏に対するマスク音響トークンモデリング手法であるvampnetを紹介する。
トレーニング中に,様々なマスキング手法(プロンプトと呼ばれる)を適用することで,モデルからコヒーレントな音楽のサンプリングを可能にする可変マスキングスケジュールを使用する。
VampNetは非自己回帰的であり、フォワードパス内のすべてのトークンに対応する双方向トランスフォーマーアーキテクチャを活用する。
わずか36回のサンプリングパスで、VampNetはコヒーレントな高忠実な音楽波形を生成することができる。
様々な方法でvampnetを起動することで、音楽圧縮、インペインティング、アウトペインティング、継続、可変ループ(vamping)といったタスクに適用できることを示します。
当然のことながら、VampNetは音楽のスタイル、ジャンル、楽器、その他のハイレベルな側面を維持できる。
この柔軟なプロンプト機能により、VampNetは強力な音楽共同制作ツールとなる。
コードとオーディオサンプルはオンラインで入手できる。 We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online. | 翻訳日:2023-07-11 12:23:31 公開日:2023-07-10 |
# FreeDrag:インタラクティブなポイントベースの画像編集にはポイントトラッキングは必要ない FreeDrag: Point Tracking is Not You Need for Interactive Point-based Image Editing ( http://arxiv.org/abs/2307.04684v1 ) ライセンス: Link先を確認 | Pengyang Ling, Lin Chen, Pan Zhang, Huaian Chen, Yi Jin | (参考訳) 画像編集の複雑で多様な要求に応えるには、画像コンテンツの精密で柔軟な操作が不可欠である。
近年,DragGANは点ベース操作による編集結果の大幅な向上を実現している。
しかし, DragGANは, DragGANが望まれるハンドポイントを効果的に追跡することの難しさに直面するミストラッキングと, トラックされたポイントがハンドルポイントと類似する他の領域内にあるあいまいなトラッキングに苦慮している。
上記の問題に対処するため,我々は,draggan のポイント指向手法におけるポイントトラッキングの負担をなくすための機能指向アプローチを採用する freedrag を提案する。
FreeDragには、適応テンプレート機能、ライン検索、ファジィローカライゼーション技術が組み込まれ、安定的で効率的なポイントベースの画像編集を行う。
広範な実験により,提案手法はdragganより優れており,類似した構造や詳細,多点目標下での課題シナリオにおいて,安定したポイントベース編集が可能となった。 To serve the intricate and varied demands of image editing, precise and flexible manipulation of image content is indispensable. Recently, DragGAN has achieved impressive editing results through point-based manipulation. However, we have observed that DragGAN struggles with miss tracking, where DragGAN encounters difficulty in effectively tracking the desired handle points, and ambiguous tracking, where the tracked points are situated within other regions that bear resemblance to the handle points. To deal with the above issues, we propose FreeDrag, which adopts a feature-oriented approach to free the burden on point tracking within the point-oriented methodology of DragGAN. The FreeDrag incorporates adaptive template features, line search, and fuzzy localization techniques to perform stable and efficient point-based image editing. Extensive experiments demonstrate that our method is superior to the DragGAN and enables stable point-based editing in challenging scenarios with similar structures, fine details, or under multi-point targets. | 翻訳日:2023-07-11 12:23:15 公開日:2023-07-10 |
# スピン系からの行列と行列式 The matrix permanent and determinant from a spin system ( http://arxiv.org/abs/2307.04681v1 ) ライセンス: Link先を確認 | Abhijeet Alase, Owen Doty, and David L. Feder | (参考訳) 行列式とは対照的に、その次元の時間多項式で走る正方行列の永久性を正確に決定するアルゴリズムは知られていない。
したがって、相互作用しないフェルミオンは古典的に効率よくシミュレートできるが、相互作用しないボソンはそうでないため、光子干渉計アレイの出力分布をサンプリングするための量子超越性引数が導かれる。
この研究は、決定性と永続性の両方を橋渡しするグラフ理論フレームワークを導入している。
スパースな非エルミート作用素の非零固有値 $\breve{m}$ for $n$ spin-$1/2$ particle は、n\times n$ matrix $m$ の永久または決定式の $n$th 根であり、基底状態がボソニックまたはフェルミオンの占有状態として解釈される。
この演算子は、最もよく知られたアルゴリズムの効率と一致する永続性を決定するための単純で簡単な方法の設計に使うことができる。
M$ の行列式に対するガウス=ジョーダンの除去は、フェルミオン $\breve{M}$ の一般化ゼロ固有空間の連続的な除去と等価であり、いくつかのノードの削除とグラフ内の残りのエッジの再重み付けと等価であり、最後のステップ後に残るのは$n$ノードのみである。
ボソニックの場合、$\breve{m}$ に対する一般化されたゼロ固有空間の連続的な除去は、ノードの削除と同値であるが、このプロセス中に新しいエッジが追加され、永続的な計算の複雑さが高まる。
我々の分析は、永続性の古典的および量子的評価のための新しい戦略への道を開くかもしれない。 In contrast to the determinant, no algorithm is known for the exact determination of the permanent of a square matrix that runs in time polynomial in its dimension. Consequently, non interacting fermions are classically efficiently simulatable while non-interacting bosons are not, underpinning quantum supremacy arguments for sampling the output distribution of photon interferometer arrays. This work introduces a graph-theoretic framework that bridges both the determinant and permanent. The only non-zero eigenvalues of a sparse non-Hermitian operator $\breve{M}$ for $n$ spin-$1/2$ particles are the $n$th roots of the permanent or determinant of an $n\times n$ matrix $M$, interpreting basis states as bosonic or fermionic occupation states, respectively. This operator can be used to design a simple and straightforward method for the classical determination of the permanent that matches the efficiency of the best-known algorithm. Gauss-Jordan elimination for the determinant of $M$ is then equivalent to the successive removal of the generalized zero eigenspace of the fermionic $\breve{M}$, equivalent to the deletion of some nodes and reweighting of the remaining edges in the graph such that only $n$ nodes survive after the last step. In the bosonic case, the successive removal of generalized zero eigenspaces for $\breve{M}$ is also equivalent to node deletion, but new edges are added during this process, which gives rise to the higher complexity of computing the permanent. Our analysis may point the way to new strategies for classical and quantum evaluation of the permanent. | 翻訳日:2023-07-11 12:22:37 公開日:2023-07-10 |
# 一般オラクルを用いた統計的学習のための一階法一般化誤差 Generalization Error of First-Order Methods for Statistical Learning with Generic Oracles ( http://arxiv.org/abs/2307.04679v1 ) ライセンス: Link先を確認 | Kevin Scaman, Mathieu Even and Laurent Massouli\'e | (参考訳) 本稿では,oracle が与える部分的観測によってのみグラデーションにアクセス可能な場合,統計学習のための一階最適化アルゴリズムの一般化誤差解析のための新しい枠組みを提案する。
本分析は,データサンプルの勾配 w.r.t. の正則性に依存し,教師付き学習,転送学習,ロバスト学習,分散学習,勾配量子化を用いたコミュニケーション効率の良い学習など,複数の学習問題の一般化誤差の上限付近を導出する。
これらの結果は、滑らかで強凸な最適化問題と、Polyak-Lojasiewicz仮定を検証する滑らかな非凸最適化問題に成り立つ。
特に、我々の上界と下界は条件付き標準偏差の概念を拡張する新しい量に依存しており、オラクルへのアクセスによって勾配が近似できる範囲の尺度である。
その結果,統計的学習目標の最適化は,その勾配の推定と同等に難しいという直観への正確な意味が得られた。
最後に、標準的な教師付き学習の場合、バッチサイズの増加とウォームスタートを伴うミニバッチ勾配勾配は、乗算係数に最適化された一般化誤差に到達し、この最適化手法を実用的な応用に活用する動機となることを示す。 In this paper, we provide a novel framework for the analysis of generalization error of first-order optimization algorithms for statistical learning when the gradient can only be accessed through partial observations given by an oracle. Our analysis relies on the regularity of the gradient w.r.t. the data samples, and allows to derive near matching upper and lower bounds for the generalization error of multiple learning problems, including supervised learning, transfer learning, robust learning, distributed learning and communication efficient learning using gradient quantization. These results hold for smooth and strongly-convex optimization problems, as well as smooth non-convex optimization problems verifying a Polyak-Lojasiewicz assumption. In particular, our upper and lower bounds depend on a novel quantity that extends the notion of conditional standard deviation, and is a measure of the extent to which the gradient can be approximated by having access to the oracle. As a consequence, our analysis provides a precise meaning to the intuition that optimization of the statistical learning objective is as hard as the estimation of its gradient. Finally, we show that, in the case of standard supervised learning, mini-batch gradient descent with increasing batch sizes and a warm start can reach a generalization error that is optimal up to a multiplicative factor, thus motivating the use of this optimization scheme in practical applications. | 翻訳日:2023-07-11 12:22:01 公開日:2023-07-10 |
# RoCo: 大規模言語モデルを用いた対話型マルチロボットコラボレーション RoCo: Dialectic Multi-Robot Collaboration with Large Language Models ( http://arxiv.org/abs/2307.04738v1 ) ライセンス: Link先を確認 | Zhao Mandi, Shreeya Jain, Shuran Song | (参考訳) 本稿では,高レベル通信と低レベル経路計画の両方において,事前学習された大規模言語モデル(LLM)のパワーを利用するマルチロボット協調手法を提案する。
ロボットはLLMを備えており、タスク戦略を議論し、集合的に推論する。
その後、サブタスクプランとタスクスペースのウェイポイントパスを生成し、マルチアームモーションプランナーが軌道計画の高速化に使用する。
また、衝突チェックなどの環境からのフィードバックも提供し、LLMエージェントに対して、コンテキスト内のプランやウェイポイントを改善するよう促す。
評価のために,エージェント表現と推論のためのテキストのみのデータセットを伴って,幅広いマルチロボットコラボレーションシナリオをカバーする6タスクベンチマークであるRoCoBenchを紹介した。
我々は、RoCoBenchのすべてのタスクで高い成功率を達成し、タスクセマンティクスのバリエーションに適応する、我々のアプローチの有効性を実験的に実証する。我々のダイアログ設定は、高い解釈可能性と柔軟性を提供する。実世界では、RoCoは、ユーザーがロボットエージェントとコミュニケーションし、協力してタスクを完了できる、ループ内の人間を簡単に組み込むことを示した。
プロジェクト web サイト https://project-roco.github.io を参照。 We propose a novel approach to multi-robot collaboration that harnesses the power of pre-trained large language models (LLMs) for both high-level communication and low-level path planning. Robots are equipped with LLMs to discuss and collectively reason task strategies. They then generate sub-task plans and task space waypoint paths, which are used by a multi-arm motion planner to accelerate trajectory planning. We also provide feedback from the environment, such as collision checking, and prompt the LLM agents to improve their plan and waypoints in-context. For evaluation, we introduce RoCoBench, a 6-task benchmark covering a wide range of multi-robot collaboration scenarios, accompanied by a text-only dataset for agent representation and reasoning. We experimentally demonstrate the effectiveness of our approach -- it achieves high success rates across all tasks in RoCoBench and adapts to variations in task semantics. Our dialog setup offers high interpretability and flexibility -- in real world experiments, we show RoCo easily incorporates human-in-the-loop, where a user can communicate and collaborate with a robot agent to complete tasks together. See project website https://project-roco.github.io for videos and code. | 翻訳日:2023-07-11 12:14:26 公開日:2023-07-10 |
# 微分プライベート量子アルゴリズムのための統一フレームワーク A unifying framework for differentially private quantum algorithms ( http://arxiv.org/abs/2307.04733v1 ) ライセンス: Link先を確認 | Armando Angrisani, Mina Doosti and Elham Kashefi | (参考訳) 微分プライバシーは、機密情報の処理を可能にするセキュリティの概念として広く使われている。
簡単に言えば、微分プライベートアルゴリズムは入力を「隣り合う」出力分布にマッピングする。
先行研究は微分プライバシーのいくつかの量子拡張を提案し、それぞれが隣接する量子状態の実質的に異なる概念に基づいて構築された。
本稿では,隣接する量子状態の新規で一般的な定義を提案する。
この定義は量子エンコーディングの基盤となる構造を捉え、量子測定に対するより厳密なプライバシー保証を提供するために使用できる。
我々のアプローチは古典的および量子的ノイズの付加と組み合わせ、短期量子デバイスのノイズの性質によって動機づけられる。
さらに、入力状態の複数のコピーが提供される代替設定についても検討する。
この場合、差分プライバシーは測定濃度と雑音付加機構を組み合わせた精度の低下が少なく確保できる。
その過程で、量子ホッケースティックの分岐の高度な結合凸性を証明し、この結果を量子微分プライバシーに適用する方法を実証する。
最後に,我々の理論的な知見を,差分私的測定によって保証された正反対の頑健性の実証的評価で補完する。 Differential privacy is a widely used notion of security that enables the processing of sensitive information. In short, differentially private algorithms map "neighbouring" inputs to close output distributions. Prior work proposed several quantum extensions of differential privacy, each of them built on substantially different notions of neighbouring quantum states. In this paper, we propose a novel and general definition of neighbouring quantum states. We demonstrate that this definition captures the underlying structure of quantum encodings and can be used to provide exponentially tighter privacy guarantees for quantum measurements. Our approach combines the addition of classical and quantum noise and is motivated by the noisy nature of near-term quantum devices. Moreover, we also investigate an alternative setting where we are provided with multiple copies of the input state. In this case, differential privacy can be ensured with little loss in accuracy combining concentration of measure and noise-adding mechanisms. En route, we prove the advanced joint convexity of the quantum hockey-stick divergence and we demonstrate how this result can be applied to quantum differential privacy. Finally, we complement our theoretical findings with an empirical estimation of the certified adversarial robustness ensured by differentially private measurements. | 翻訳日:2023-07-11 12:14:03 公開日:2023-07-10 |
# オフライン強化学習における分散一般化のための拡散ポリシー Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning ( http://arxiv.org/abs/2307.04726v1 ) ライセンス: Link先を確認 | Suzan Ece Ada, Erhan Oztop, Emre Ugur | (参考訳) オフライン強化学習(RL)手法は、過去の経験を活用して、経験収集に使用される行動ポリシーよりも優れたポリシーを学ぶ。
専門家によるデモンストレーションからデータを収集すると仮定する行動クローニングとは対照的に、オフラインのRLは非専門的なデータやマルチモーダルな行動ポリシーで動作する。
しかし、オフラインのRLアルゴリズムは、トレーニング中にオンラインインタラクションが欠如しているため、分散シフトの処理やポリシーの効果的表現において課題に直面している。
オフラインRLの以前の作業では、条件付き拡散モデルを使用して、データセット内のマルチモーダルな振る舞いを表現するための表現的ポリシーを取得する。
それでも、それらは分布外状態の一般化を緩和するために調整されていない。
本稿では,近年の拡散政策のクラスにおいて,状態再構成機能学習を取り入れた新しい手法を提案する。
状態復元損失は、分散状態によって引き起こされる分布シフトを軽減するために、状態のより記述的な表現学習を促進する。
提案手法を実証評価するために,2次元マルチモーダルコンテキストバンディット環境を設計した。
我々は,この新環境だけでなく,いくつかのD4RLベンチマークタスク上でのモデルの性能評価を行い,最新の結果を得た。 Offline Reinforcement Learning (RL) methods leverage previous experiences to learn better policies than the behavior policy used for experience collection. In contrast to behavior cloning, which assumes the data is collected from expert demonstrations, offline RL can work with non-expert data and multimodal behavior policies. However, offline RL algorithms face challenges in handling distribution shifts and effectively representing policies due to the lack of online interaction during training. Prior work on offline RL uses conditional diffusion models to obtain expressive policies to represent multimodal behavior in the dataset. Nevertheless, they are not tailored toward alleviating the out-of-distribution state generalization. We introduce a novel method incorporating state reconstruction feature learning in the recent class of diffusion policies to address the out-of-distribution generalization problem. State reconstruction loss promotes more descriptive representation learning of states to alleviate the distribution shift incurred by the out-of-distribution states. We design a 2D Multimodal Contextual Bandit environment to demonstrate and evaluate our proposed model. We assess the performance of our model not only in this new environment but also on several D4RL benchmark tasks, achieving state-of-the-art results. | 翻訳日:2023-07-11 12:13:45 公開日:2023-07-10 |
# AnimateDiff: 特定のチューニングなしで個人化されたテキストと画像の拡散モデルを作る AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning ( http://arxiv.org/abs/2307.04725v1 ) ライセンス: Link先を確認 | Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai | (参考訳) テキスト・ツー・イメージ・モデル(例えば、安定拡散)の進歩とドリームブースやロラのようなそれに対応するパーソナライズ技術により、誰もが手頃な価格で高品質の画像に想像力を発揮できる。
その後、画像アニメーション技術は、生成した静的画像とモーションダイナミックスを更に組み合わせることが要求される。
本報告では,既存のパーソナライズされたテキストから画像へのモデルのほとんどをアニメーション化する実用的なフレームワークを提案する。
提案フレームワークのコアとなるのは,凍結したテキスト・ツー・イメージモデルに新たな初期化動作モデリングモジュールを挿入し,ビデオクリップでトレーニングすることで,適切な動作先を抽出することである。
このモーションモデリングモジュールを単に注入するだけで、同じベースであるT2Iから派生したパーソナライズされたバージョンは、多彩でパーソナライズされたアニメーション画像を生成するテキスト駆動のモデルになる。
我々は,アニメ画像と写実写真にまたがるパーソナライズされたパーソナライズドテキスト・ツー・イメージモデルをいくつか評価し,提案手法が,その領域と出力の多様性を保ちながら,時間的にスムーズなアニメーションクリップ生成を支援することを実証した。
コードとトレーニング済みのウェイトはhttps://animatediff.github.io/で公開されている。 With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ . | 翻訳日:2023-07-11 12:13:26 公開日:2023-07-10 |
# メタラーニングの進歩と課題:技術レビュー Advances and Challenges in Meta-Learning: A Technical Review ( http://arxiv.org/abs/2307.04722v1 ) ライセンス: Link先を確認 | Anna Vettoruzzo, Mohamed-Rafik Bouguelia, Joaquin Vanschoren, Thorsteinn R\"ognvaldsson, KC Santosh | (参考訳) メタラーニングは、学習システムに複数のタスクから知識を得る能力を与え、新しいタスクへの迅速な適応と一般化を可能にする。
このレビューはメタラーニングの包括的な技術的概要を提供し、データの不足や入手コストの低い実世界のアプリケーションにおけるその重要性を強調している。
本稿では,メタラーニングとマルチタスク学習,トランスファー学習,ドメイン適応と一般化,自己教師あり学習,パーソナライズされた連合学習,継続的な学習との関係について検討した。
これらのトピックとメタラーニングの分野の相乗効果を強調することにより、ある分野における進歩が、不必要な重複を避けながら、全体を通してどのようにフィールドに利益をもたらすかを示す。
さらに,複雑なマルチモーダルタスク分散からの学習,教師なしのメタ学習,データ分散シフトに効率的に適応する学習,継続的なメタ学習といった,高度なメタ学習トピックにも目を向ける。
最後に、この分野における今後の研究の課題と課題について述べる。
最新の研究成果を合成することにより、メタラーニングとその機械学習アプリケーションへの潜在的な影響を深く理解する。
この技術的概要は,メタラーニングの進歩と,実際の問題に対処する上での実践的意義に寄与すると考えられる。 Meta-learning empowers learning systems with the ability to acquire knowledge from multiple tasks, enabling faster adaptation and generalization to new tasks. This review provides a comprehensive technical overview of meta-learning, emphasizing its importance in real-world applications where data may be scarce or expensive to obtain. The paper covers the state-of-the-art meta-learning approaches and explores the relationship between meta-learning and multi-task learning, transfer learning, domain adaptation and generalization, self-supervised learning, personalized federated learning, and continual learning. By highlighting the synergies between these topics and the field of meta-learning, the paper demonstrates how advancements in one area can benefit the field as a whole, while avoiding unnecessary duplication of efforts. Additionally, the paper delves into advanced meta-learning topics such as learning from complex multi-modal task distributions, unsupervised meta-learning, learning to efficiently adapt to data distribution shifts, and continual meta-learning. Lastly, the paper highlights open problems and challenges for future research in the field. By synthesizing the latest research developments, this paper provides a thorough understanding of meta-learning and its potential impact on various machine learning applications. We believe that this technical overview will contribute to the advancement of meta-learning and its practical implications in addressing real-world problems. | 翻訳日:2023-07-11 12:13:02 公開日:2023-07-10 |
# 汎用パターンマシンとしての大規模言語モデル Large Language Models as General Pattern Machines ( http://arxiv.org/abs/2307.04721v1 ) ライセンス: Link先を確認 | Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng | (参考訳) 事前学習された大規模言語モデル (llm) は、確率的文脈自由文法 (pcfg) による任意のトークン列から、一般的なaiベンチマークであるabstract reasoning corpus (arc) に見られるよりリッチな空間パターンまで、複雑なトークンシーケンスを自己回帰的に完了することができる。
驚くべきことに、配列が語彙からランダムにサンプリングされたトークンを使って表現されたとしても、パターン補完能力は部分的に保持される。
これらの結果から,LLMは文脈内学習によって駆動される汎用シーケンスモデラーとして機能することが示唆された。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。時間とともに状態を表す数列を外挿して単純な動作を完了させたり,クローズドループポリシ(例えばCartPoleの安定化コントローラ)を検出および表現できる報酬条件付き軌道の最小限のプロンプトまで。
レイテンシ、コンテキストサイズ制限、計算コストなどの理由から、今日の実際のシステムへのデプロイは難しいが、低レベルの制御を駆動するためにLLMを使用するアプローチは、単語間のパターンをアクションに転送する方法をエキサイティングに垣間見ることができる。 We observe that pre-trained large language models (LLMs) are capable of autoregressively completing complex token sequences -- from arbitrary ones procedurally generated by probabilistic context-free grammars (PCFG), to more rich spatial patterns found in the Abstract Reasoning Corpus (ARC), a general AI benchmark, prompted in the style of ASCII art. Surprisingly, pattern completion proficiency can be partially retained even when the sequences are expressed using tokens randomly sampled from the vocabulary. These results suggest that without any additional training, LLMs can serve as general sequence modelers, driven by in-context learning. In this work, we investigate how these zero-shot capabilities may be applied to problems in robotics -- from extrapolating sequences of numbers that represent states over time to complete simple motions, to least-to-most prompting of reward-conditioned trajectories that can discover and represent closed-loop policies (e.g., a stabilizing controller for CartPole). While difficult to deploy today for real systems due to latency, context size limitations, and compute costs, the approach of using LLMs to drive low-level control may provide an exciting glimpse into how the patterns among words could be transferred to actions. | 翻訳日:2023-07-11 12:12:38 公開日:2023-07-10 |
# 損失景観の曲率について On the curvature of the loss landscape ( http://arxiv.org/abs/2307.04719v1 ) ライセンス: Link先を確認 | Alison Pouplin, Hrittik Roy, Sidak Pal Singh, Georgios Arvanitidis | (参考訳) 現代のディープラーニングにおける大きな課題の1つは、このような過剰パラメータモデルが有限データでトレーニングした場合になぜうまく機能するのかを理解することである。
この一般化の概念を解析する方法は、関連するロスランドスケープの特性を通してである。
本研究では,損失景観をリーマン多様体の埋め込みとして考慮し,ディープネットの一般化能力を分析する際に,多様体の微分幾何学的性質が利用できることを示す。
特に、多様体に対して解析的に計算できるスカラー曲率に注目し、潜在的に一般化を示唆するいくつかの設定への接続を示す。 One of the main challenges in modern deep learning is to understand why such over-parameterized models perform so well when trained on finite data. A way to analyze this generalization concept is through the properties of the associated loss landscape. In this work, we consider the loss landscape as an embedded Riemannian manifold and show that the differential geometric properties of the manifold can be used when analyzing the generalization abilities of a deep net. In particular, we focus on the scalar curvature, which can be computed analytically for our manifold, and show connections to several settings that potentially imply generalization. | 翻訳日:2023-07-11 12:12:11 公開日:2023-07-10 |
# cvprマルチアース2023森林破壊予測チャレンジ:spacevision4amazon CVPR MultiEarth 2023 Deforestation Estimation Challenge:SpaceVision4Amazon ( http://arxiv.org/abs/2307.04715v1 ) ライセンス: Link先を確認 | Sunita Arya, S Manthira Moorthi, Debajyoti Dhar | (参考訳) 本稿では,Electro-Optical (EO) とSAR (Synthetic Aperture Radar) の衛星画像を用いた注意誘導UNetアーキテクチャに基づく森林破壊推定手法を提案する。
光画像、Landsat-8およびSAR画像では、Sentinel-1データを使用して提案されたモデルのトレーニングと検証を行っている。
時間的および空間的に収集されたデータの有効性のため、各センサに対して個別のモデルが訓練されている。
訓練中、ランドサット-8モデルは93.45%のトレーニングと検証ピクセル精度を達成し、センチネル-2モデルは83.87%の精度を達成した。
テストセットの評価中、このモデルは84.70%の画素精度を達成し、f1-score 0.79とiou 0.69であった。 In this paper, we present a deforestation estimation method based on attention guided UNet architecture using Electro-Optical (EO) and Synthetic Aperture Radar (SAR) satellite imagery. For optical images, Landsat-8 and for SAR imagery, Sentinel-1 data have been used to train and validate the proposed model. Due to the unavailability of temporally and spatially collocated data, individual model has been trained for each sensor. During training time Landsat-8 model achieved training and validation pixel accuracy of 93.45% and Sentinel-2 model achieved 83.87% pixel accuracy. During the test set evaluation, the model achieved pixel accuracy of 84.70% with F1-Score of 0.79 and IoU of 0.69. | 翻訳日:2023-07-11 12:12:01 公開日:2023-07-10 |
# 現実世界のAI計画ドメインを理解する:概念的フレームワーク Understanding Real-World AI Planning Domains: A Conceptual Framework ( http://arxiv.org/abs/2307.04701v1 ) ライセンス: Link先を確認 | Ebaa Alnazer and Ilche Georgievski | (参考訳) 計画は、現実世界のアプリケーション向けに開発されたインテリジェントシステムにとって重要な能力である。
AIプランニングは、ユーザー目標を満たす計画を自動的に計算する計画システムの研究と開発に関するものである。
現実世界のアプリケーションドメインを特徴づける関連的で現実的な側面の特定と理解は、ai計画システムの開発に不可欠です。
これは、開発プロセスに必要なリソースを設計、識別、分類するプロセスにおいて、知識エンジニアとソフトウェアエンジニアにガイダンスを提供する。
私たちの知る限りでは、そのようなサポートは存在しません。
本研究のギャップは,様々なレベルの粒度で現実の計画領域を識別・分類する概念的枠組みを開発することで解決される。
私たちのフレームワークは、一般的な用語だけでなく、持続可能な建物のドメインをAI計画の顕著なアプリケーションドメインとして使用した、幅広い計画面の概要も提供しています。
このフレームワークは、現実世界のアプリケーションドメインにおけるAI計画システムの設計、開発、適用性に影響を与える可能性がある。 Planning is a pivotal ability of any intelligent system being developed for real-world applications. AI planning is concerned with researching and developing planning systems that automatically compute plans that satisfy some user objective. Identifying and understanding the relevant and realistic aspects that characterise real-world application domains are crucial to the development of AI planning systems. This provides guidance to knowledge engineers and software engineers in the process of designing, identifying, and categorising resources required for the development process. To the best of our knowledge, such support does not exist. We address this research gap by developing a conceptual framework that identifies and categorises the aspects of real-world planning domains in varying levels of granularity. Our framework provides not only a common terminology but also a comprehensive overview of a broad range of planning aspects exemplified using the domain of sustainable buildings as a prominent application domain of AI planning. The framework has the potential to impact the design, development, and applicability of AI planning systems in real-world application domains. | 翻訳日:2023-07-11 12:11:49 公開日:2023-07-10 |
# 先端AIのための国際機関 International Institutions for Advanced AI ( http://arxiv.org/abs/2307.04699v1 ) ライセンス: Link先を確認 | Lewis Ho, Joslyn Barnhart, Robert Trager, Yoshua Bengio, Miles Brundage, Allison Carnegie, Rumman Chowdhury, Allan Dafoe, Gillian Hadfield, Margaret Levi, Duncan Snidal | (参考訳) 国際機関は、高度なAIシステムが人類に利益をもたらすために重要な役割を果たすかもしれない。
国際協力は、AIのさらなる持続可能な開発能力を解き放ち、規制努力の調整はイノベーションの障害と利益の拡散を減少させる。
逆に、強力で汎用的なaiシステムの潜在的な危険な能力は、彼らの開発と展開においてグローバルな外部性を生み出します。
本稿は、フロンティアAIシステムへのアクセス支援から国際安全基準設定まで、これらの課題に対処するために国際レベルで実施可能な一連のガバナンス機能を特定する。
これらの機能を、内部のシナジーを示し、既存の組織に先例を持つ4つの機関モデルに分類する。
1)先進的AIの機会及びリスクに関する専門家のコンセンサスを促進するフロンティアAI委員会
2)先進モデルからグローバル脅威を管理するための国際標準を設定し、それらの実装をサポートし、将来的なガバナンス体制へのコンプライアンスを監視する先進的なaiガバナンス組織。
3)最先端AIへのアクセスを促進するフロンティアAIコラボレーション。
4)aiの安全性研究に先導的な研究者とエンジニアを集結させるaiの安全性プロジェクト。
これらのモデルの実用性を探求し、その実現可能性に関するオープンな質問を特定します。 International institutions may have an important role to play in ensuring advanced AI systems benefit humanity. International collaborations can unlock AI's ability to further sustainable development, and coordination of regulatory efforts can reduce obstacles to innovation and the spread of benefits. Conversely, the potential dangerous capabilities of powerful and general-purpose AI systems create global externalities in their development and deployment, and international efforts to further responsible AI practices could help manage the risks they pose. This paper identifies a set of governance functions that could be performed at an international level to address these challenges, ranging from supporting access to frontier AI systems to setting international safety standards. It groups these functions into four institutional models that exhibit internal synergies and have precedents in existing organizations: 1) a Commission on Frontier AI that facilitates expert consensus on opportunities and risks from advanced AI, 2) an Advanced AI Governance Organization that sets international standards to manage global threats from advanced models, supports their implementation, and possibly monitors compliance with a future governance regime, 3) a Frontier AI Collaborative that promotes access to cutting-edge AI, and 4) an AI Safety Project that brings together leading researchers and engineers to further AI safety research. We explore the utility of these models and identify open questions about their viability. | 翻訳日:2023-07-11 12:11:33 公開日:2023-07-10 |
# Semantic-SAM: 任意の粒度でのセグメンテーションと認識 Semantic-SAM: Segment and Recognize Anything at Any Granularity ( http://arxiv.org/abs/2307.04767v1 ) ライセンス: Link先を確認 | Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao | (参考訳) 本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
私たちのモデルは、セマンティクス認識と粒度冗長性という2つの大きな利点を提供します。
セマンティクス認識を実現するために、複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離分類を導入する。
これにより、モデルが豊富な意味情報をキャプチャすることができます。
マルチグラニュラリティ機能を実現するために,各クリックで複数段のグラウンドトゥルースマスクに対応する複数のレベルのマスクを生成できるマルチチョイス学習方式を提案する。
この研究は、SA-1B、ジェネリック、パートセグメンテーションデータセットでモデルを共同でトレーニングする最初の試みである。
実験結果と可視化により,本モデルが意味認識と粒度保持を成功裏に達成できることが証明された。
さらに、sa-1bトレーニングとpanopticやpart segmentationといった他のセグメンテーションタスクを組み合わせることで、パフォーマンスが向上する。
さらなる調査と評価のためのコードとデモを提供する予定です。 In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation. | 翻訳日:2023-07-11 12:05:46 公開日:2023-07-10 |
# エゴセントリックビデオにおける音声・視覚対応による空間特徴の学習 Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos ( http://arxiv.org/abs/2307.04760v1 ) ライセンス: Link先を確認 | Sagnik Majumder, Ziad Al-Halah, Kristen Grauman | (参考訳) 本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
特に,マスク付き自動エンコーディングフレームワークを用いて,音声と視覚の相乗効果によりマスク付きバイノーラル音声を合成し,両形態間の有用な空間関係を学習する。
社会的シナリオにおける空間的理解を必要とする2つの下流ビデオ課題:能動的話者検出と空間音声デニュージング。
egocomとeasycomという2つのエゴセントリックなビデオデータセットで、私たちの機能は複数の最先端のベースラインを改善できるほど汎用的であることを、広範な実験を通じて示しています。
プロジェクト: http://vision.cs.utexas.edu/projects/ego_av_corr。 We propose a self-supervised method for learning representations based on spatial audio-visual correspondences in egocentric videos. In particular, our method leverages a masked auto-encoding framework to synthesize masked binaural audio through the synergy of audio and vision, thereby learning useful spatial relationships between the two modalities. We use our pretrained features to tackle two downstream video tasks requiring spatial understanding in social scenarios: active speaker detection and spatial audio denoising. We show through extensive experiments that our features are generic enough to improve over multiple state-of-the-art baselines on two public challenging egocentric video datasets, EgoCom and EasyCom. Project: http://vision.cs.utexas.edu/projects/ego_av_corr. | 翻訳日:2023-07-11 12:04:29 公開日:2023-07-10 |
# 機械学習を用いた複雑なシステムにおける情報分解 Information decomposition to identify relevant variation in complex systems with machine learning ( http://arxiv.org/abs/2307.04755v1 ) ライセンス: Link先を確認 | Kieran A. Murphy, Dani S. Bassett | (参考訳) 複雑なシステムを理解するための基本的なステップの1つは、マクロスケールの振る舞いに最も関連するシステムのコンポーネントのスケールにおけるばらつきを特定することである。
相互情報は、変数間の特定の機能的関係の独立性から、システムのスケールにわたって変動をリンクする自然な手段である。
しかし、高次元の連続値データを与える相互情報の推定は、悪名高く、理解可能な方法で重要な変化を明らかにするためのデシデラトゥムは、徹底的な探索によってのみ達成される。
本稿では,各測定値を機械学習で可逆圧縮することにより,測定セットに含まれる情報を分解する,実用的で効率的で広く適用可能な手法を提案する。
分散情報ボトルネックを学習目的として導いた情報分解は、特定のマクロな振る舞いと関連して、システム状態の測定のばらつきをソートし、異なる量の予測情報に対する測定の最も重要なサブセットを明らかにする。
さらなる粒度は、学習された圧縮スキームの検査によって達成される: 圧縮中に伝達される変動は、マクロスケールの挙動に最も関係のある測定値間の区別によって構成される。
我々は, ブール回路と塑性変形を受ける非晶質材料という2つのパラダイム複雑系に着目した。
どちらの例でも、エントロピーの特定のビットは、複雑なシステムにおけるマイクロとマクロの接続についての洞察を得るために、マクロスケールの振る舞いに最も関係しているシステム状態の高エントロピーから識別される。
情報理論によってもたらされる全一般性を持つデータ有意義な変動の同定は、複雑なシステムの研究に実用的である。 One of the fundamental steps toward understanding a complex system is identifying variation at the scale of the system's components that is most relevant to behavior on a macroscopic scale. Mutual information is a natural means of linking variation across scales of a system due to its independence of the particular functional relationship between variables. However, estimating mutual information given high-dimensional, continuous-valued data is notoriously difficult, and the desideratum -- to reveal important variation in a comprehensible manner -- is only readily achieved through exhaustive search. Here we propose a practical, efficient, and broadly applicable methodology to decompose the information contained in a set of measurements by lossily compressing each measurement with machine learning. Guided by the distributed information bottleneck as a learning objective, the information decomposition sorts variation in the measurements of the system state by relevance to specified macroscale behavior, revealing the most important subsets of measurements for different amounts of predictive information. Additional granularity is achieved by inspection of the learned compression schemes: the variation transmitted during compression is composed of distinctions among measurement values that are most relevant to the macroscale behavior. We focus our analysis on two paradigmatic complex systems: a Boolean circuit and an amorphous material undergoing plastic deformation. In both examples, specific bits of entropy are identified out of the high entropy of the system state as most related to macroscale behavior for insight about the connection between micro- and macro- in the complex system. The identification of meaningful variation in data, with the full generality brought by information theory, is made practical for the study of complex systems. | 翻訳日:2023-07-11 12:04:15 公開日:2023-07-10 |
# シェルビング,積み重ね,ハンギング:マルチモーダルリアレンジのための関係性ポッド拡散 Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement ( http://arxiv.org/abs/2307.04751v1 ) ライセンス: Link先を確認 | Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox | (参考訳) 本書棚のオープンスロットに挿入された本など,所望のオブジェクト・シーン配置関係を実現するために,シーン内のオブジェクトを並べ替えるシステムを提案する。
パイプラインは、新しいジオメトリ、ポーズ、シーンとオブジェクトのレイアウトに一般化され、デモからトレーニングされ、3Dポイントクラウド上で直接操作される。
本システムは,任意のシーンに対して,幾何的に類似した再構成解が存在することに伴う課題を克服する。
反復的ポーズ復調訓練手法を利用することで,マルチモーダルな実演データに適合し,精度と精度を保ちながらマルチモーダルな出力を生成することができる。
また,局所的な幾何学的特徴に対する条件付けの利点を示すとともに,一般化と精度を損なう無関係な大域構造を無視する。
シミュレーションと実世界の両方において,物体形状上のマルチモダリティと一般化の処理を必要とする3つの異なる再配置タスクに対する我々のアプローチを実証する。
プロジェクトサイト、コード、ビデオ: https://anthonysimeonov.github.io/rpdiff-multi-modal/ We propose a system for rearranging objects in a scene to achieve a desired object-scene placing relationship, such as a book inserted in an open slot of a bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of both scenes and objects, and is trained from demonstrations to operate directly on 3D point clouds. Our system overcomes challenges associated with the existence of many geometrically-similar rearrangement solutions for a given scene. By leveraging an iterative pose de-noising training procedure, we can fit multi-modal demonstration data and produce multi-modal outputs while remaining precise and accurate. We also show the advantages of conditioning on relevant local geometric features while ignoring irrelevant global structure that harms both generalization and precision. We demonstrate our approach on three distinct rearrangement tasks that require handling multi-modality and generalization over object shape and pose in both simulation and the real world. Project website, code, and videos: https://anthonysimeonov.github.io/rpdiff-multi-modal/ | 翻訳日:2023-07-11 12:03:35 公開日:2023-07-10 |
# 分割・評価・再定義:反復的VQAフィードバックによるテキスト・画像アライメントの評価と改善 Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback ( http://arxiv.org/abs/2307.04749v1 ) ライセンス: Link先を確認 | Jaskirat Singh and Liang Zheng | (参考訳) テキスト条件付き画像生成の分野は、最近潜伏拡散モデルが出現し、相容れない進歩を遂げた。
驚くべきことに、与えられたテキスト入力の複雑さが増加するにつれて、最先端の拡散モデルは、与えられたプロンプトのセマンティクスを正確に伝達する画像の生成に失敗する可能性がある。
さらに,CLIPのような事前訓練されたマルチモーダルモデルでは,このような誤認識は検出されないことが多い。
これらの問題に対処するため,本論文では,テキスト間アライメントの評価と改善の両面において,単純かつ効果的な分解アプローチを提案する。
特に、まず分解-アライメント-スコアを導入し、複雑なプロンプトを与えて、それを不同なアサーションの集合に分解する。
次に、各アサーションと生成された画像のアライメントをVQAモデルを用いて測定する。
最後に、異なるアサーションに対するアライメントスコアを結合して、最終的なテキストから画像へのアライメントスコアを与える。
実験により,従来のCLIP,BLIPスコアと比べ,アライメント測定値の相関が有意に高いことが明らかとなった。
さらに,アサーションレベルアライメントスコアは,最終画像出力の異なるアサーション表現を徐々に増加させるために,簡単な反復手順で使用できる有用なフィードバックを提供することがわかった。
人間のユーザスタディは、提案手法が従来の最先端の手法を8.7%上回ったことを示唆している。
私たちの論文のプロジェクトページはhttps://1jsingh.github.io/divide-evaluate-and-refineで閲覧できます。 The field of text-conditioned image generation has made unparalleled progress with the recent advent of latent diffusion models. While remarkable, as the complexity of given text input increases, the state-of-the-art diffusion models may still fail in generating images which accurately convey the semantics of the given prompt. Furthermore, it has been observed that such misalignments are often left undetected by pretrained multi-modal models such as CLIP. To address these problems, in this paper we explore a simple yet effective decompositional approach towards both evaluation and improvement of text-to-image alignment. In particular, we first introduce a Decompositional-Alignment-Score which given a complex prompt decomposes it into a set of disjoint assertions. The alignment of each assertion with generated images is then measured using a VQA model. Finally, alignment scores for different assertions are combined aposteriori to give the final text-to-image alignment score. Experimental analysis reveals that the proposed alignment metric shows significantly higher correlation with human ratings as opposed to traditional CLIP, BLIP scores. Furthermore, we also find that the assertion level alignment scores provide a useful feedback which can then be used in a simple iterative procedure to gradually increase the expression of different assertions in the final image outputs. Human user studies indicate that the proposed approach surpasses previous state-of-the-art by 8.7% in overall text-to-image alignment accuracy. Project page for our paper is available at https://1jsingh.github.io/divide-evaluate-and-refine | 翻訳日:2023-07-11 12:03:16 公開日:2023-07-10 |
# 曲面時空における質量スピンハーフ粒子の幾何学的ポストニュートン的記述 Geometric post-Newtonian description of massive spin-half particles in curved spacetime ( http://arxiv.org/abs/2307.04743v1 ) ライセンス: Link先を確認 | Ashkan Alibabei, Philip K. Schwartz, Domenico Giulini | (参考訳) 曲線四次元時空における外部電磁場に結合したディラック方程式を、古典時計を表す時間的ワールドライン$\gamma$とみなす。
一般化されたフェルミ正規座標を$\gamma$の管状近傍で使用し、ディラック方程式を最大に拡張し、時空曲率で定義される半径と測地距離の比、$\gamma$の線形加速度、および使用した空間参照フレームの$\gamma$に沿った角速度によって与えられる次元のないパラメータの2次を含む。
時計 $\gamma$ で測定された時間に関して、我々はディラック・ハミルトニアンをその順序に計算する。
この「弱重力」展開に加えて、ニュートンの後の展開を、$\gamma$に関する「スロー速度」展開に対応する1/c$の2階まで実行します。
これらの組み合わせにより、外部電磁場におけるスピン半粒子のパウリ・ハミルトニアンに対するニュートン後の弱い重力式を与える。
このことは、最近の文献の結果を拡張し、部分的に修正し、議論し、いくつかの詳細で比較する。 We consider the Dirac equation coupled to an external electromagnetic field in curved four-dimensional spacetime with a given timelike worldline $\gamma$ representing a classical clock. We use generalised Fermi normal coordinates in a tubular neighbourhood of $\gamma$ and expand the Dirac equation up to, and including, the second order in the dimensionless parameter given by the ratio of the geodesic distance to the radii defined by spacetime curvature, linear acceleration of $\gamma$, and angular velocity of rotation of the employed spatial reference frame along $\gamma$. With respect to the time measured by the clock $\gamma$, we compute the Dirac Hamiltonian to that order. On top of this `weak-gravity' expansion we then perform a post-Newtonian expansion up to, and including, the second order of $1/c$, corresponding to a `slow-velocity' expansion with respect to $\gamma$. As a result of these combined expansions we give the weak-gravity post-Newtonian expression for the Pauli Hamiltonian of a spin-half particle in an external electromagnetic field. This extends and partially corrects recent results from the literature, which we discuss and compare in some detail. | 翻訳日:2023-07-11 12:02:48 公開日:2023-07-10 |
# EffLiFe:階層スパースグラディエント蛍光による高効率光電界発生 EffLiFe: Efficient Light Field Generation via Hierarchical Sparse Gradient Descent ( http://arxiv.org/abs/2307.03017v2 ) ライセンス: Link先を確認 | Yijie Deng, Lei Han, Tianpeng Lin, Lin Li, Jinzhi Zhang, and Lu Fang | (参考訳) 拡張現実感(XR)技術の台頭に伴い、スパースビューの入力からリアルタイムの光場生成の必要性が高まっている。
既存の手法は、高品質なノベルビューを生成することができるが、長い推論/トレーニングのコストがかかるオフライン技術と、一般化性に欠けるか、不満足な結果を生み出すオンライン手法に分類することができる。
しかし,Multi-plane Images (MPI) の固有スパース多様体は,レンダリング品質を維持しつつ,光電場生成の大幅な加速を可能にした。
この知見に基づいて,提案した階層スパース勾配Descent (HSGD) を利用して,スパース画像から高品質な光フィールドをリアルタイムで生成する光場最適化手法であるEffLiFeを紹介する。
技術的には、シーンの粗いMPIはまず3D CNNを使用して生成され、数回のイテレーションで重要なMPI勾配のみに焦点をあてることで、より疎く最適化される。
それでも、最適化のみに依存することは、咬合境界でのアーティファクトにつながる可能性がある。
そこで本研究では,入力を反復的にフィルタリングすることで,隠蔽領域の視覚的アーティファクトを除去するオクルージョン対応イテレーティブリファインメントモジュールを提案する。
大規模な実験により,従来のオフライン手法に比べて平均100倍高速で視覚的品質を達成でき,他のオンライン手法に比べて性能(PSNRでは約2dB高い)が向上した。 With the rise of Extended Reality (XR) technology, there is a growing need for real-time light field generation from sparse view inputs. Existing methods can be classified into offline techniques, which can generate high-quality novel views but at the cost of long inference/training time, and online methods, which either lack generalizability or produce unsatisfactory results. However, we have observed that the intrinsic sparse manifold of Multi-plane Images (MPI) enables a significant acceleration of light field generation while maintaining rendering quality. Based on this insight, we introduce EffLiFe, a novel light field optimization method, which leverages the proposed Hierarchical Sparse Gradient Descent (HSGD) to produce high-quality light fields from sparse view images in real time. Technically, the coarse MPI of a scene is first generated using a 3D CNN, and it is further sparsely optimized by focusing only on important MPI gradients in a few iterations. Nevertheless, relying solely on optimization can lead to artifacts at occlusion boundaries. Therefore, we propose an occlusion-aware iterative refinement module that removes visual artifacts in occluded regions by iteratively filtering the input. Extensive experiments demonstrate that our method achieves comparable visual quality while being 100x faster on average than state-of-the-art offline methods and delivering better performance (about 2 dB higher in PSNR) compared to other online approaches. | 翻訳日:2023-07-11 10:21:59 公開日:2023-07-10 |
# 画像多様体の確率的・意味的記述とその応用 Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications ( http://arxiv.org/abs/2307.02881v2 ) ライセンス: Link先を確認 | Peter Tu, Zhaoyuan Yang, Richard Hartley, Zhiwei Xu, Jing Zhang, Dylan Campbell, Jaskirat Singh, Tianyu Wang | (参考訳) 本稿では,高次元画像空間の制限領域内に存在するように制限されているという観測結果を反映した画像の確率密度関数を推定する手法について記述することから始める。
画像は高次元空間の低次元多様体上にあると言うのが一般的である。
しかし、像はそのような低次元多様体上に存在するかもしれないが、多様体上のすべての点が同じ確率で像になるとは限らない。
画像は多様体上に不均一に分布し、この分布を確率分布としてモデル化する方法を考案する。
この目標を追求するために、AIやコンピュータビジョンコミュニティで人気のある生成モデルを検討する。
我々の目的のために、生成的・確率的モデルは性質を持つべきである
1)サンプル生成:モデル化された密度関数に従ってこの分布からサンプルを採取できなければならない。
2) 確率計算: 興味のあるデータセットから以前に見つからなかったサンプルが与えられた場合、少なくとも正規化定数までサンプルの確率を計算することができる。
そこで本研究では,流れの正規化や拡散モデルなどの手法について検討する。
次に,このような確率的記述を,敵の攻撃に対する防御構築に利用できることを示す。
密度の観点で多様体を記述することに加えて、多様体上の点を記述するために意味論的解釈をどのように利用できるかを考える。
この目的のために, 変分エンコーダを用いて与えられた多様体上に存在する点の不等角表現を生成する, 創発的言語フレームワークを考える。
多様体上の点間の軌道は、進化する意味記述によって記述することができる。 This paper begins with a description of methods for estimating probability density functions for images that reflects the observation that such data is usually constrained to lie in restricted regions of the high-dimensional image space - not every pattern of pixels is an image. It is common to say that images lie on a lower-dimensional manifold in the high-dimensional space. However, although images may lie on such lower-dimensional manifolds, it is not the case that all points on the manifold have an equal probability of being images. Images are unevenly distributed on the manifold, and our task is to devise ways to model this distribution as a probability distribution. In pursuing this goal, we consider generative models that are popular in AI and computer vision community. For our purposes, generative/probabilistic models should have the properties of 1) sample generation: it should be possible to sample from this distribution according to the modelled density function, and 2) probability computation: given a previously unseen sample from the dataset of interest, one should be able to compute the probability of the sample, at least up to a normalising constant. To this end, we investigate the use of methods such as normalising flow and diffusion models. We then show that such probabilistic descriptions can be used to construct defences against adversarial attacks. In addition to describing the manifold in terms of density, we also consider how semantic interpretations can be used to describe points on the manifold. To this end, we consider an emergent language framework which makes use of variational encoders to produce a disentangled representation of points that reside on a given manifold. Trajectories between points on a manifold can then be described in terms of evolving semantic descriptions. | 翻訳日:2023-07-11 10:21:12 公開日:2023-07-10 |
# ValiTex -- 社会科学構成の計算テキストに基づく測定のための統合検証フレームワーク ValiTex -- a unified validation framework for computational text-based measures of social science constructs ( http://arxiv.org/abs/2307.02863v2 ) ライセンス: Link先を確認 | Lukas Birkenmaier and Clemens Lechner and Claudia Wagner | (参考訳) 社会科学構造に関する計算テキストに基づく尺度の検証方法に関するガイダンスが断片化されている。
研究者は一般的に、テキストベースの尺度を検証することの重要性を認めているが、それらはしばしば共通の用語や統一的な枠組みを欠いている。
本稿では,テキストデータに基づく社会科学構造の測定を支援するために,ValiTexという新たな検証フレームワークを提案する。
このフレームワークは、計算テキスト分析の目的のためにフレームワークを拡張しながら、心理測定において長年確立されてきた伝統に基づいている。
ValiTexは概念モデルと動的チェックリストという2つのコンポーネントで構成されている。
概念モデルがバリデーションへのアプローチ方法に関する異なるフェーズに沿って一般的な構造を提供するのに対して、動的チェックリストは特定の検証手順を定義し、推奨可能なステップ(つまり、関連する検証証拠と必要な検証証拠を提供する)またはオプション(つまり、追加の検証証拠を提供するのに役立ちます)についてガイダンスを提供する。
ソーシャルメディアデータから性差別を検出するユースケースに適用することにより、フレームワークの有用性を実証する。 Guidance on how to validate computational text-based measures of social science constructs is fragmented. Whereas scholars are generally acknowledging the importance of validating their text-based measures, they often lack common terminology and a unified framework to do so. This paper introduces a new validation framework called ValiTex, designed to assist scholars to measure social science constructs based on textual data. The framework draws on a long-established tradition within psychometrics while extending the framework for the purpose of computational text analysis. ValiTex consists of two components, a conceptual model, and a dynamic checklist. Whereas the conceptual model provides a general structure along distinct phases on how to approach validation, the dynamic checklist defines specific validation steps and provides guidance on which steps might be considered recommendable (i.e., providing relevant and necessary validation evidence) or optional (i.e., useful for providing additional supporting validation evidence. The utility of the framework is demonstrated by applying it to a use case of detecting sexism from social media data. | 翻訳日:2023-07-11 10:20:48 公開日:2023-07-10 |
# マルチコントラストMRIにおけるDual Arbitrary Scale Super-Resolution Dual Arbitrary Scale Super-Resolution for Multi-Contrast MRI ( http://arxiv.org/abs/2307.02334v3 ) ライセンス: Link先を確認 | Jiamiao Zhang, Yichen Chi, Jun Lyu, Wenming Yang, Yapeng Tian | (参考訳) イメージングシステムによって制限された部分的計測からMRI画像の再構成は、医療画像研究に不可欠である。
異なる撮像モードのマルチコントラストmr画像の多様かつ相補的な情報から、マルチコントラストスーパーレゾリューション(sr)再構成は高品質のsr画像が得られると期待されている。
医学的シナリオでは、多くのMRI SR法で用いられるように、病変を完全に可視化するために、放射線医は固定スケールではなく任意のスケールでMRI画像を拡大することに慣れている。
さらに、既存のマルチコントラストMRI SR法では、参照画像の固定解像度を必要とすることが多く、参照画像の取得が困難になり、任意のスケールの SR タスクに制限が課される。
これらの問題に対処するため,我々はDual-ArbNetと呼ばれる2軸マルチコントラストMRI超解像法を提案する。
まず,対象画像と参照画像の解像度を特徴エンコーダで分離し,ネットワークが任意のスケールで対象画像と参照画像を入力できるようにする。
そして、暗黙の融合復号器がマルチコントラスト特徴を融合し、インプリシット復号関数~(IDF)を用いて最終的なMRI SR結果を得る。
さらに,我々のネットワークをトレーニングするためのカリキュラム学習戦略を導入し,dual-arbnetの一般化と性能を向上させる。
2つの公開MRIデータセットにおける広範囲な実験により、我々の手法は異なるスケール要因下で最先端のアプローチよりも優れており、臨床実践において大きな可能性を秘めていることが示された。 Limited by imaging systems, the reconstruction of Magnetic Resonance Imaging (MRI) images from partial measurement is essential to medical imaging research. Benefiting from the diverse and complementary information of multi-contrast MR images in different imaging modalities, multi-contrast Super-Resolution (SR) reconstruction is promising to yield SR images with higher quality. In the medical scenario, to fully visualize the lesion, radiologists are accustomed to zooming the MR images at arbitrary scales rather than using a fixed scale, as used by most MRI SR methods. In addition, existing multi-contrast MRI SR methods often require a fixed resolution for the reference image, which makes acquiring reference images difficult and imposes limitations on arbitrary scale SR tasks. To address these issues, we proposed an implicit neural representations based dual-arbitrary multi-contrast MRI super-resolution method, called Dual-ArbNet. First, we decouple the resolution of the target and reference images by a feature encoder, enabling the network to input target and reference images at arbitrary scales. Then, an implicit fusion decoder fuses the multi-contrast features and uses an Implicit Decoding Function~(IDF) to obtain the final MRI SR results. Furthermore, we introduce a curriculum learning strategy to train our network, which improves the generalization and performance of our Dual-ArbNet. Extensive experiments in two public MRI datasets demonstrate that our method outperforms state-of-the-art approaches under different scale factors and has great potential in clinical practice. | 翻訳日:2023-07-11 10:20:29 公開日:2023-07-10 |
# バイオメディカル言語モデルは準最適トークン化にロバストである Biomedical Language Models are Robust to Sub-optimal Tokenization ( http://arxiv.org/abs/2306.17649v3 ) ライセンス: Link先を確認 | Bernal Jim\'enez Guti\'errez, Huan Sun, Yu Su | (参考訳) 一般英語とは対照的に、バイオメディカル用語学の多くの概念は、正確で簡潔なことを目標として、近年のバイオメディカル専門家によって設計された。
これはしばしば、意味のある生体形態を結合して新しい意味単位を作成することで達成される。
しかしながら、現代のほとんどのバイオメディカル言語モデル(LM)は、バイオメディカル言語の凝集特性を明示的に活用することなく、大規模バイオメディカルコーパス統計から派生した標準ドメイン固有のトークン化剤を用いて事前訓練されている。
本研究では,バイオメディカルな用語を意味のある構成要素に分割できない標準オープンドメインとバイオメディカルなトークン化剤について述べる。
そこで, バイオメディカル用語をより正確に区分するトークン化装置を用いることで, 下流のバイオメディカルNLPタスク, 特に名前付きエンティティ認識(NER)やエンティティリンクなどのバイオメディカル用語を直接含むタスクにおいて, バイオメディカルLMの性能を向上させることができると仮定した。
驚くべきことに、より正確なバイオメディカルトークンを使用して生体医学的lmを事前トレーニングすることは、マスク言語モデリング予測(mlm)の精度やnerおよびエンティティリンクのパフォーマンスといったいくつかの本質的および極端的な尺度で測定されるように、言語モデルのエンティティ表現品質を改善するものではない。
これらの定量的研究は、実体表現の質をより直接的に探求するケーススタディとともに、生物医学的な事前学習プロセスが準最適トークン化の事例に対して非常に堅牢であることを示している。 As opposed to general English, many concepts in biomedical terminology have been designed in recent history by biomedical professionals with the goal of being precise and concise. This is often achieved by concatenating meaningful biomedical morphemes to create new semantic units. Nevertheless, most modern biomedical language models (LMs) are pre-trained using standard domain-specific tokenizers derived from large scale biomedical corpus statistics without explicitly leveraging the agglutinating nature of biomedical language. In this work, we first find that standard open-domain and biomedical tokenizers are largely unable to segment biomedical terms into meaningful components. Therefore, we hypothesize that using a tokenizer which segments biomedical terminology more accurately would enable biomedical LMs to improve their performance on downstream biomedical NLP tasks, especially ones which involve biomedical terms directly such as named entity recognition (NER) and entity linking. Surprisingly, we find that pre-training a biomedical LM using a more accurate biomedical tokenizer does not improve the entity representation quality of a language model as measured by several intrinsic and extrinsic measures such as masked language modeling prediction (MLM) accuracy as well as NER and entity linking performance. These quantitative findings, along with a case study which explores entity representation quality more directly, suggest that the biomedical pre-training process is quite robust to instances of sub-optimal tokenization. | 翻訳日:2023-07-11 10:19:58 公開日:2023-07-10 |
# Koopman Observablesとしての補助関数:多項最適化による動的システムのデータ駆動解析 Auxiliary Functions as Koopman Observables: Data-Driven Analysis of Dynamical Systems via Polynomial Optimization ( http://arxiv.org/abs/2303.01483v3 ) ライセンス: Link先を確認 | Jason J. Bramburger and Giovanni Fantuzzi | (参考訳) 本稿では,明示的なモデル発見を必要としない動的システム解析のための柔軟なデータ駆動手法を提案する。
この手法は、データからクープマン演算子を近似する確立した手法に根ざし、数値的に解ける半定プログラムとして実装される。
さらに,本手法は決定的あるいは確率的プロセスによってデータが生成されるかどうかを知らないため,ユーザの事前調整は不要である。
厳密な収束の結果は、この方法の適用性を正当化すると同時に、文献全体から同様の結果を拡張および統一する。
リアプノフ関数の発見、エルゴード最適化の実行、および決定論的および確率的ダイナミクスのアトラクタ上の境界付き極値の例は、これらの収束結果を例示し、この手法の性能を示す。 We present a flexible data-driven method for dynamical system analysis that does not require explicit model discovery. The method is rooted in well-established techniques for approximating the Koopman operator from data and is implemented as a semidefinite program that can be solved numerically. Furthermore, the method is agnostic of whether data is generated through a deterministic or stochastic process, so its implementation requires no prior adjustments by the user to accommodate these different scenarios. Rigorous convergence results justify the applicability of the method, while also extending and uniting similar results from across the literature. Examples on discovering Lyapunov functions, performing ergodic optimization, and bounding extrema over attractors for both deterministic and stochastic dynamics exemplify these convergence results and demonstrate the performance of the method. | 翻訳日:2023-07-11 10:19:29 公開日:2023-07-10 |
# 2つの非局所$\delta'$相互作用からなる特異な二重井戸を持つ1次元ハミルトニアンの解析 Analysis of a one-dimensional Hamiltonian with a singular double well consisting of two nonlocal $\delta'$ interactions ( http://arxiv.org/abs/2307.03674v2 ) ライセンス: Link先を確認 | Silvestro Fassari, Manuel Gadella, Luis-Miguel Nieto and Fabio Rinaldi | (参考訳) 本論文の目的は、その原点に対して対称に位置する等強度と非局所的な$\delta'$相互作用の和によってポテンシャルが与えられる1次元ハミルトニアンの研究である。
このハミルトニアンに対する自己随伴決定を厳密に達成するために、結合定数の {\it renormalisation of the coupling constant} と呼ばれる手順を用いる。
このモデルは相互作用の強さと各相互作用の中心と原点の間の距離という2つのパラメータに依存する。
自己随伴決定が得られれば、エネルギー準位を表す2つの負の固有値からなることを示す離散スペクトルを得る。
これらのエネルギー準位が上記のパラメータに依存することを解析する。
モデルの共鳴の可能性について検討する。
さらに、2つの$\delta'$相互作用のサポート間の距離がなくなると、我々のモデルの限界を詳細に分析する。 The objective of the present paper is the study of a one-dimensional Hamiltonian inside which the potential is given by the sum of two nonlocal attractive $\delta'$ interactions of equal strength and symmetrically located with respect to the origin. We use the procedure known as {\it renormalisation of the coupling constant} in order to rigorously achieve a self-adjoint determination for this Hamiltonian. This model depends on two parameters, the interaction strength and the distance between the centre of each interaction and the origin. Once we have the self-adjoint determination, we obtain its discrete spectrum showing that it consists of two negative eigenvalues representing the energy levels. We analyse the dependence of these energy levels on the above-mentioned parameters. We investigate the possible resonances of the model. Furthermore, we analyse in detail the limit of our model as the distance between the supports of the two $\delta'$ interactions vanishes. | 翻訳日:2023-07-11 10:14:13 公開日:2023-07-10 |
# 11言語における予備理論の予測の検証 Testing the Predictions of Surprisal Theory in 11 Languages ( http://arxiv.org/abs/2307.03667v2 ) ライセンス: Link先を確認 | Ethan Gotlieb Wilcox, Tiago Pimentel, Clara Meister, Ryan Cotterell, Roger P. Levy | (参考訳) 精神言語学の基本的な結果は、予測可能な単語の少ない処理に時間がかかることである。
この発見の理論的説明の1つは、ある単語の予測可能性、すなわちその文脈が与えられた負の対数確率を定量化する仮定理論(Hale, 2001; Levy, 2008)である。
代理理論の予測を裏付ける証拠は広く複製されているが、ほとんどは英語の話者が英語のテキストを読むという非常に狭いデータに焦点が当てられている。
実際、包括的多言語分析は存在しない。
5つの言語族にまたがって分布する11の異なる言語における超越時間と読み時間の関係を調べることにより,現在の文献におけるこのギャップに対処した。
単言語および多言語コーパスで学習した言語モデルから推定を導出し,超越理論に関連する3つの予測を検証した。
(i)supprisalが読み時間を予測するか否か
(二 予想外、すなわち文脈エントロピーが読解時間の予測であるか否か。)
(iii) 副次的時間と読解時間の連結関数が線形であるか否か。
3つの予測はすべて言語横断的に展開されている。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。 A fundamental result in psycholinguistics is that less predictable words take a longer time to process. One theoretical explanation for this finding is Surprisal Theory (Hale, 2001; Levy, 2008), which quantifies a word's predictability as its surprisal, i.e. its negative log-probability given a context. While evidence supporting the predictions of Surprisal Theory have been replicated widely, most have focused on a very narrow slice of data: native English speakers reading English texts. Indeed, no comprehensive multilingual analysis exists. We address this gap in the current literature by investigating the relationship between surprisal and reading times in eleven different languages, distributed across five language families. Deriving estimates from language models trained on monolingual and multilingual corpora, we test three predictions associated with surprisal theory: (i) whether surprisal is predictive of reading times; (ii) whether expected surprisal, i.e. contextual entropy, is predictive of reading times; (iii) and whether the linking function between surprisal and reading times is linear. We find that all three predictions are borne out crosslinguistically. By focusing on a more diverse set of languages, we argue that these results offer the most robust link to-date between information theory and incremental language processing across languages. | 翻訳日:2023-07-11 10:13:51 公開日:2023-07-10 |
# プログラム可能な合成表データ生成 Programmable Synthetic Tabular Data Generation ( http://arxiv.org/abs/2307.03577v2 ) ライセンス: Link先を確認 | Mark Vero, Mislav Balunovi\'c, Martin Vechev | (参考訳) 大量の表データは、プライバシ、データ品質、データ共有の制限のため、未使用のままである。
元の分布に類似した合成データを生成する生成モデルを訓練する際、ほとんどのアプリケーションは生成されたデータから追加の制約を必要とする。
既存の合成データアプローチは、通常、差分プライバシ(DP)や公平性の増大といった特定の制約にのみ対処するので制限されている。
本稿では,生成したデータに対して包括的なカスタマイズが可能な,最初のプログラム可能な合成表データ生成アルゴリズムであるProgSynを紹介する。
カスタム仕様に準拠したまま高いデータ品質を確保するため、ProgSynはオリジナルのデータセットで生成モデルを事前トレーニングし、提供された仕様から自動的に派生した差別化可能な損失を微調整する。
これらは統計的および論理的表現を用いてプログラム的に宣言され、幅広い要件(例えば、DPや公正性など)をサポートする。
我々は,ProgSynを様々な制約で広範囲に実験的に評価し,一部では新たな最先端の達成を図っている。
例えば、同じ公平度レベルでは、アダルトデータセット上の公正な合成データ生成の最先端よりも、下流の精度が2.3%高い。
全体として、ProgSynは制約付き合成表データを生成するための汎用的でアクセスしやすいフレームワークを提供する。 Large amounts of tabular data remain underutilized due to privacy, data quality, and data sharing limitations. While training a generative model producing synthetic data resembling the original distribution addresses some of these issues, most applications require additional constraints from the generated data. Existing synthetic data approaches are limited as they typically only handle specific constraints, e.g., differential privacy (DP) or increased fairness, and lack an accessible interface for declaring general specifications. In this work, we introduce ProgSyn, the first programmable synthetic tabular data generation algorithm that allows for comprehensive customization over the generated data. To ensure high data quality while adhering to custom specifications, ProgSyn pre-trains a generative model on the original dataset and fine-tunes it on a differentiable loss automatically derived from the provided specifications. These can be programmatically declared using statistical and logical expressions, supporting a wide range of requirements (e.g., DP or fairness, among others). We conduct an extensive experimental evaluation of ProgSyn on a number of constraints, achieving a new state-of-the-art on some, while remaining general. For instance, at the same fairness level we achieve 2.3% higher downstream accuracy than the state-of-the-art in fair synthetic data generation on the Adult dataset. Overall, ProgSyn provides a versatile and accessible framework for generating constrained synthetic tabular data, allowing for specifications that generalize beyond the capabilities of prior work. | 翻訳日:2023-07-11 10:13:29 公開日:2023-07-10 |
# ITA:量子変換器のエネルギー効率向上とソフトマックス加速器 ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized Transformers ( http://arxiv.org/abs/2307.03493v2 ) ライセンス: Link先を確認 | Gamze \.Islamo\u{g}lu, Moritz Scherer, Gianna Paulin, Tim Fischer, Victor J.B. Jung, Angelo Garofalo, Luca Benini | (参考訳) トランスフォーマーネットワークは自然言語処理タスクの最先端のアプローチとして登場し、コンピュータビジョンやオーディオ処理など他の領域でも人気がある。
しかしながら、トランスフォーマーモデルの効率的なハードウェアアクセラレーションは、高い算術インテンシティ、大きなメモリ要件、複雑なデータフロー依存性により、新たな課題をもたらす。
本研究では、8ビット量子化と整数値のみで動作する革新的なソフトマックス実装を利用して、組込みシステムにおける効率的な推論を目標とするトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャであるITAを提案する。
ストリーミングモードでのオンザフライ計算により,データ移動とエネルギー消費を最小限に抑える。
ITAは16.9TOPS/Wの最先端の変圧器加速器に対して競争エネルギー効率を達成し、面積効率は5.93TOPS/mm$^2$ in 22 nmの完全分解シリコンオン絶縁体技術で0.8Vで上回っている。 Transformer networks have emerged as the state-of-the-art approach for natural language processing tasks and are gaining popularity in other domains such as computer vision and audio processing. However, the efficient hardware acceleration of transformer models poses new challenges due to their high arithmetic intensities, large memory requirements, and complex dataflow dependencies. In this work, we propose ITA, a novel accelerator architecture for transformers and related models that targets efficient inference on embedded systems by exploiting 8-bit quantization and an innovative softmax implementation that operates exclusively on integer values. By computing on-the-fly in streaming mode, our softmax implementation minimizes data movement and energy consumption. ITA achieves competitive energy efficiency with respect to state-of-the-art transformer accelerators with 16.9 TOPS/W, while outperforming them in area efficiency with 5.93 TOPS/mm$^2$ in 22 nm fully-depleted silicon-on-insulator technology at 0.8 V. | 翻訳日:2023-07-11 10:13:06 公開日:2023-07-10 |
# QI2 - データ品質保証のためのインタラクティブツール QI2 -- an Interactive Tool for Data Quality Assurance ( http://arxiv.org/abs/2307.03419v2 ) ライセンス: Link先を確認 | Simon Geerkens, Christian Sieberichs, Alexander Braun, Thomas Waschulzik | (参考訳) MLシステムとビッグデータの影響と分散の増大に伴い、データ品質の重要性が増している。
また、欧州委員会による計画されたAI法は、特に安全関連MLシステムの市場導入において、データ品質に関する法的要件の挑戦を定義する。
本稿では,複数のデータ品質面におけるデータ品質保証プロセスを支援する新しいアプローチを提案する。
このアプローチは、定量的データ品質要件の検証を可能にする。
概念とメリットは、小さな例のデータセットで紹介され、説明されます。
手書き桁に基づくよく知られたMNISTデータセットに対して,本手法の適用方法を示す。 The importance of high data quality is increasing with the growing impact and distribution of ML systems and big data. Also the planned AI Act from the European commission defines challenging legal requirements for data quality especially for the market introduction of safety relevant ML systems. In this paper we introduce a novel approach that supports the data quality assurance process of multiple data quality aspects. This approach enables the verification of quantitative data quality requirements. The concept and benefits are introduced and explained on small example data sets. How the method is applied is demonstrated on the well known MNIST data set based an handwritten digits. | 翻訳日:2023-07-11 10:12:45 公開日:2023-07-10 |
# グラフ学習における大規模言語モデル(LLM)の可能性を探る Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs ( http://arxiv.org/abs/2307.03393v2 ) ライセンス: Link先を確認 | Zhikai Chen, Haitao Mao, Hang Li, Wei Jin, Hongzhi Wen, Xiaochi Wei, Shuaiqiang Wang, Dawei Yin, Wenqi Fan, Hui Liu, Jiliang Tang | (参考訳) Graphsでの学習は、その広い現実世界のアプリケーションのために大きな注目を集めている。
テキストノード属性を持つグラフを学習するための最も一般的なパイプラインは、主にグラフニューラルネットワーク(GNN)に依存しており、一般的な知識と深い意味理解に制限がある初期ノード表現として浅いテキスト埋め込みを利用している。
近年、LLM(Large Language Models)は、テキストデータを扱う既存のワークフローに革命をもたらした、広範な共通知識と強力な意味理解能力を持つことが証明されている。
本稿では,グラフ機械学習,特にノード分類タスクにおけるLLMの可能性を探究し,LLMs-as-EnhancersとLLMs-as-Predictorsの2つの可能なパイプラインについて検討する。
前者はLLMを活用して、膨大な知識でノードのテキスト属性を拡張し、GNNを通じて予測を生成する。
後者はLSMをスタンドアロンの予測器として直接利用する。
この2つのパイプラインについて、さまざまな設定で包括的で体系的な研究を行う。
総合的な経験的結果から,新たな可能性を開く新たな洞察と,グラフ上での学習にLLMを活用するための有望な方向性を提案する。 Learning on Graphs has attracted immense attention due to its wide real-world applications. The most popular pipeline for learning on graphs with textual node attributes primarily relies on Graph Neural Networks (GNNs), and utilizes shallow text embedding as initial node representations, which has limitations in general knowledge and profound semantic understanding. In recent years, Large Language Models (LLMs) have been proven to possess extensive common knowledge and powerful semantic comprehension abilities that have revolutionized existing workflows to handle text data. In this paper, we aim to explore the potential of LLMs in graph machine learning, especially the node classification task, and investigate two possible pipelines: LLMs-as-Enhancers and LLMs-as-Predictors. The former leverages LLMs to enhance nodes' text attributes with their massive knowledge and then generate predictions through GNNs. The latter attempts to directly employ LLMs as standalone predictors. We conduct comprehensive and systematical studies on these two pipelines under various settings. From comprehensive empirical results, we make original observations and find new insights that open new possibilities and suggest promising directions to leverage LLMs for learning on graphs. | 翻訳日:2023-07-11 10:12:38 公開日:2023-07-10 |
# 量子回路ボルニングマシンにおける過パラメータ化の同定 Identifying overparameterization in Quantum Circuit Born Machines ( http://arxiv.org/abs/2307.03292v2 ) ライセンス: Link先を確認 | Andrea Delgado, Francisco Rios, Kathleen E. Hamilton | (参考訳) 機械学習では、過剰パラメータ化は経験的リスク環境の質的変化と関連しており、より効率的なトレーニングダイナミクスにつながる可能性がある。
統計学習で用いられる多くのパラメータ化モデルでは、モデルが構築され、過剰パラメータ化環境下で訓練される、臨界数のパラメータ(またはモデルサイズ)が存在する。
過パラメータ化ロスランドスケープには多くの特徴がある。
最も重要な点は、低損失のグローバルまたはローカルミニマへの標準勾配降下の収束である。
本研究では,非逆勾配法を用いて学習した生成モデルであるBornマシンの過パラメータ化遷移の開始について検討する。
数値解析に基づく境界は, 一般に, オーバーパラメータ化遷移において良好な下限である。
しかし、量子回路の代数的構造に基づく境界は非常にゆるい上界である。
以上の結果から,これらのモデルのトレーサビリティを完全に理解することは,まだ未解決の課題であることが示唆された。 In machine learning, overparameterization is associated with qualitative changes in the empirical risk landscape, which can lead to more efficient training dynamics. For many parameterized models used in statistical learning, there exists a critical number of parameters, or model size, above which the model is constructed and trained in the overparameterized regime. There are many characteristics of overparameterized loss landscapes. The most significant is the convergence of standard gradient descent to global or local minima of low loss. In this work, we study the onset of overparameterization transitions for quantum circuit Born machines, generative models that are trained using non-adversarial gradient-based methods. We observe that bounds based on numerical analysis are in general good lower bounds on the overparameterization transition. However, bounds based on the quantum circuit's algebraic structure are very loose upper bounds. Our results indicate that fully understanding the trainability of these models remains an open question. | 翻訳日:2023-07-11 10:12:17 公開日:2023-07-10 |
# BLEURTにはユニバーサル翻訳がある:最小限のリスクトレーニングによる自動メトリクスの分析 BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training ( http://arxiv.org/abs/2307.03131v2 ) ライセンス: Link先を確認 | Yiming Yan, Tao Wang, Chengqi Zhao, Shujian Huang, Jiajun Chen, Mingxuan Wang | (参考訳) 自動メトリクスは機械翻訳において重要な役割を果たす。
n-gramベースのメトリクスが広く使用されているにもかかわらず、文の意味論の計測に焦点を当てた事前学習されたモデルベースのメトリクスの開発が最近急増している。
しかしながら、これらの神経メトリクスは、人間の評価と高い相関性を達成する一方で、検出が難しい潜在的なバイアスを持つブラックボックスと見なされることが多い。
本研究では,機械翻訳システムの学習指導の観点から,各種の主流・最先端自動メトリクスを体系的に分析・比較する。
最小リスクトレーニング(MRT)を通じて、BLEURTやBARTScoreに普遍的な逆変換が存在するなど、ある種の指標が堅牢性欠陥を示すことがわかった。
詳細な分析からは、トレーニングデータセットにおける分散バイアスと、メトリックパラダイムの傾向の2つの大きな原因が示唆されている。
トークンレベルの制約を取り入れることで,評価指標のロバスト性が向上し,機械翻訳システムの性能が向上する。
コードは \url{https://github.com/powerpuffpomelo/fairseq_mrt} で入手できる。 Automatic metrics play a crucial role in machine translation. Despite the widespread use of n-gram-based metrics, there has been a recent surge in the development of pre-trained model-based metrics that focus on measuring sentence semantics. However, these neural metrics, while achieving higher correlations with human evaluations, are often considered to be black boxes with potential biases that are difficult to detect. In this study, we systematically analyze and compare various mainstream and cutting-edge automatic metrics from the perspective of their guidance for training machine translation systems. Through Minimum Risk Training (MRT), we find that certain metrics exhibit robustness defects, such as the presence of universal adversarial translations in BLEURT and BARTScore. In-depth analysis suggests two main causes of these robustness deficits: distribution biases in the training datasets, and the tendency of the metric paradigm. By incorporating token-level constraints, we enhance the robustness of evaluation metrics, which in turn leads to an improvement in the performance of machine translation systems. Codes are available at \url{https://github.com/powerpuffpomelo/fairseq_mrt}. | 翻訳日:2023-07-11 10:12:03 公開日:2023-07-10 |
# 視覚トランスフォーマによるアート認証 Art Authentication with Vision Transformers ( http://arxiv.org/abs/2307.03039v2 ) ライセンス: Link先を確認 | Ludovica Schaerf, Carina Popovici, Eric Postma | (参考訳) 近年では、言語用に開発されたTransformersが視覚タスクにうまく適用されている。
視覚トランスフォーマーは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、最先端のタスクを幅広いタスクで推進することが示されている。
本研究は,畳み込みニューラルネットワークを用いたアートアトリビューションとアート認証の課題において有望な結果が得られたが,視覚トランスフォーマーの優位性がアート認証に拡張され,コンピュータベースのアート認証の信頼性が向上するかどうかを検証した。
ヴィンセント・ファン・ゴッホ(vincent van gogh)と2つのコントラストデータセットによる真正な絵画の注意深くコンパイルされたデータセットを用いて、スウィントランスフォーマのアート認証性能と効率性を比較した。
模倣とプロキシを含む標準的なコントラストセット(ファン・ゴッホと密接に関連するスタイルを持つ画家による作品)を用いて、EfficientNetは全体として最高のパフォーマンスを達成する。
模倣のみで構成されたコントラストセットでは、認証精度が85%を超えることにより、Swin TransformerはEfficientNetよりも優れていることが分かる。
これらの結果から,視覚変換器は,特にコンピュータによる芸術的模倣検出能力の向上において,芸術的認証において強力かつ有望な競争相手である,という結論に至った。 In recent years, Transformers, initially developed for language, have been successfully applied to visual tasks. Vision Transformers have been shown to push the state-of-the-art in a wide range of tasks, including image classification, object detection, and semantic segmentation. While ample research has shown promising results in art attribution and art authentication tasks using Convolutional Neural Networks, this paper examines if the superiority of Vision Transformers extends to art authentication, improving, thus, the reliability of computer-based authentication of artworks. Using a carefully compiled dataset of authentic paintings by Vincent van Gogh and two contrast datasets, we compare the art authentication performances of Swin Transformers with those of EfficientNet. Using a standard contrast set containing imitations and proxies (works by painters with styles closely related to van Gogh), we find that EfficientNet achieves the best performance overall. With a contrast set that only consists of imitations, we find the Swin Transformer to be superior to EfficientNet by achieving an authentication accuracy of over 85%. These results lead us to conclude that Vision Transformers represent a strong and promising contender in art authentication, particularly in enhancing the computer-based ability to detect artistic imitations. | 翻訳日:2023-07-11 10:11:34 公開日:2023-07-10 |